{
  "best_metric": 1.04404247,
  "best_model_checkpoint": "/home/william/s2/output_qwen7B_I_2_epochs/qwen2_5-7b-instruct/v0-20250324-113804/checkpoint-68000",
  "epoch": 1.7250126839167934,
  "eval_steps": 1000,
  "global_step": 68000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "acc": 0.66975081,
      "epoch": 2.536783358701167e-05,
      "grad_norm": 12.1875,
      "learning_rate": 2.536783358701167e-09,
      "loss": 1.56100869,
      "memory(GiB)": 85.93,
      "step": 1,
      "train_speed(iter/s)": 0.012595
    },
    {
      "acc": 0.65798992,
      "epoch": 0.00012683916793505834,
      "grad_norm": 9.0,
      "learning_rate": 1.2683916793505834e-08,
      "loss": 1.62197065,
      "memory(GiB)": 87.25,
      "step": 5,
      "train_speed(iter/s)": 0.060553
    },
    {
      "acc": 0.64465337,
      "epoch": 0.0002536783358701167,
      "grad_norm": 7.875,
      "learning_rate": 2.536783358701167e-08,
      "loss": 1.70029068,
      "memory(GiB)": 87.25,
      "step": 10,
      "train_speed(iter/s)": 0.116041
    },
    {
      "acc": 0.63157864,
      "epoch": 0.000380517503805175,
      "grad_norm": 9.0625,
      "learning_rate": 3.80517503805175e-08,
      "loss": 1.78615379,
      "memory(GiB)": 87.25,
      "step": 15,
      "train_speed(iter/s)": 0.166851
    },
    {
      "acc": 0.64453616,
      "epoch": 0.0005073566717402334,
      "grad_norm": 11.5,
      "learning_rate": 5.073566717402334e-08,
      "loss": 1.70214443,
      "memory(GiB)": 87.25,
      "step": 20,
      "train_speed(iter/s)": 0.21248
    },
    {
      "acc": 0.63584857,
      "epoch": 0.0006341958396752917,
      "grad_norm": 9.25,
      "learning_rate": 6.341958396752917e-08,
      "loss": 1.77816563,
      "memory(GiB)": 87.25,
      "step": 25,
      "train_speed(iter/s)": 0.255865
    },
    {
      "acc": 0.64585228,
      "epoch": 0.00076103500761035,
      "grad_norm": 20.875,
      "learning_rate": 7.6103500761035e-08,
      "loss": 1.82201939,
      "memory(GiB)": 87.25,
      "step": 30,
      "train_speed(iter/s)": 0.295604
    },
    {
      "acc": 0.64547052,
      "epoch": 0.0008878741755454084,
      "grad_norm": 10.4375,
      "learning_rate": 8.878741755454084e-08,
      "loss": 1.7348938,
      "memory(GiB)": 87.25,
      "step": 35,
      "train_speed(iter/s)": 0.333005
    },
    {
      "acc": 0.65640426,
      "epoch": 0.0010147133434804667,
      "grad_norm": 10.375,
      "learning_rate": 1.0147133434804667e-07,
      "loss": 1.68044052,
      "memory(GiB)": 87.25,
      "step": 40,
      "train_speed(iter/s)": 0.366605
    },
    {
      "acc": 0.64709101,
      "epoch": 0.001141552511415525,
      "grad_norm": 18.25,
      "learning_rate": 1.1415525114155251e-07,
      "loss": 1.71480656,
      "memory(GiB)": 87.25,
      "step": 45,
      "train_speed(iter/s)": 0.39922
    },
    {
      "acc": 0.65097885,
      "epoch": 0.0012683916793505834,
      "grad_norm": 10.875,
      "learning_rate": 1.2683916793505834e-07,
      "loss": 1.69468002,
      "memory(GiB)": 87.25,
      "step": 50,
      "train_speed(iter/s)": 0.429376
    },
    {
      "acc": 0.64252934,
      "epoch": 0.0013952308472856417,
      "grad_norm": 10.125,
      "learning_rate": 1.3952308472856418e-07,
      "loss": 1.80315094,
      "memory(GiB)": 87.25,
      "step": 55,
      "train_speed(iter/s)": 0.457901
    },
    {
      "acc": 0.61983604,
      "epoch": 0.0015220700152207,
      "grad_norm": 12.375,
      "learning_rate": 1.5220700152207e-07,
      "loss": 1.7708004,
      "memory(GiB)": 87.25,
      "step": 60,
      "train_speed(iter/s)": 0.4842
    },
    {
      "acc": 0.63995743,
      "epoch": 0.0016489091831557584,
      "grad_norm": 9.75,
      "learning_rate": 1.6489091831557585e-07,
      "loss": 1.67735023,
      "memory(GiB)": 87.25,
      "step": 65,
      "train_speed(iter/s)": 0.509461
    },
    {
      "acc": 0.6563427,
      "epoch": 0.0017757483510908167,
      "grad_norm": 7.5625,
      "learning_rate": 1.7757483510908168e-07,
      "loss": 1.67703743,
      "memory(GiB)": 87.25,
      "step": 70,
      "train_speed(iter/s)": 0.533988
    },
    {
      "acc": 0.63760099,
      "epoch": 0.001902587519025875,
      "grad_norm": 13.5625,
      "learning_rate": 1.9025875190258752e-07,
      "loss": 1.7837986,
      "memory(GiB)": 87.38,
      "step": 75,
      "train_speed(iter/s)": 0.555911
    },
    {
      "acc": 0.65806789,
      "epoch": 0.0020294266869609334,
      "grad_norm": 13.75,
      "learning_rate": 2.0294266869609335e-07,
      "loss": 1.63561478,
      "memory(GiB)": 87.38,
      "step": 80,
      "train_speed(iter/s)": 0.576021
    },
    {
      "acc": 0.62467699,
      "epoch": 0.0021562658548959918,
      "grad_norm": 10.375,
      "learning_rate": 2.1562658548959918e-07,
      "loss": 1.81396294,
      "memory(GiB)": 87.38,
      "step": 85,
      "train_speed(iter/s)": 0.595437
    },
    {
      "acc": 0.64251184,
      "epoch": 0.00228310502283105,
      "grad_norm": 12.9375,
      "learning_rate": 2.2831050228310502e-07,
      "loss": 1.65901394,
      "memory(GiB)": 87.38,
      "step": 90,
      "train_speed(iter/s)": 0.614354
    },
    {
      "acc": 0.63058062,
      "epoch": 0.0024099441907661084,
      "grad_norm": 8.625,
      "learning_rate": 2.409944190766109e-07,
      "loss": 1.77155857,
      "memory(GiB)": 87.38,
      "step": 95,
      "train_speed(iter/s)": 0.631573
    },
    {
      "acc": 0.64406805,
      "epoch": 0.0025367833587011668,
      "grad_norm": 9.8125,
      "learning_rate": 2.536783358701167e-07,
      "loss": 1.7376297,
      "memory(GiB)": 87.38,
      "step": 100,
      "train_speed(iter/s)": 0.648271
    },
    {
      "acc": 0.61967888,
      "epoch": 0.002663622526636225,
      "grad_norm": 11.375,
      "learning_rate": 2.6636225266362255e-07,
      "loss": 1.79445686,
      "memory(GiB)": 87.38,
      "step": 105,
      "train_speed(iter/s)": 0.665316
    },
    {
      "acc": 0.65208945,
      "epoch": 0.0027904616945712835,
      "grad_norm": 8.875,
      "learning_rate": 2.7904616945712836e-07,
      "loss": 1.65184097,
      "memory(GiB)": 87.38,
      "step": 110,
      "train_speed(iter/s)": 0.680224
    },
    {
      "acc": 0.64407487,
      "epoch": 0.002917300862506342,
      "grad_norm": 10.125,
      "learning_rate": 2.917300862506342e-07,
      "loss": 1.74686394,
      "memory(GiB)": 87.38,
      "step": 115,
      "train_speed(iter/s)": 0.69624
    },
    {
      "acc": 0.6465169,
      "epoch": 0.0030441400304414,
      "grad_norm": 8.5,
      "learning_rate": 3.0441400304414e-07,
      "loss": 1.74261894,
      "memory(GiB)": 87.38,
      "step": 120,
      "train_speed(iter/s)": 0.709204
    },
    {
      "acc": 0.64398732,
      "epoch": 0.0031709791983764585,
      "grad_norm": 12.5,
      "learning_rate": 3.170979198376459e-07,
      "loss": 1.68026943,
      "memory(GiB)": 87.38,
      "step": 125,
      "train_speed(iter/s)": 0.722067
    },
    {
      "acc": 0.63336515,
      "epoch": 0.003297818366311517,
      "grad_norm": 11.25,
      "learning_rate": 3.297818366311517e-07,
      "loss": 1.69816551,
      "memory(GiB)": 87.38,
      "step": 130,
      "train_speed(iter/s)": 0.735054
    },
    {
      "acc": 0.6524334,
      "epoch": 0.003424657534246575,
      "grad_norm": 11.1875,
      "learning_rate": 3.4246575342465755e-07,
      "loss": 1.69302197,
      "memory(GiB)": 87.38,
      "step": 135,
      "train_speed(iter/s)": 0.747641
    },
    {
      "acc": 0.641711,
      "epoch": 0.0035514967021816335,
      "grad_norm": 10.9375,
      "learning_rate": 3.5514967021816336e-07,
      "loss": 1.691436,
      "memory(GiB)": 87.38,
      "step": 140,
      "train_speed(iter/s)": 0.759642
    },
    {
      "acc": 0.64824944,
      "epoch": 0.003678335870116692,
      "grad_norm": 16.5,
      "learning_rate": 3.678335870116692e-07,
      "loss": 1.72008266,
      "memory(GiB)": 87.38,
      "step": 145,
      "train_speed(iter/s)": 0.770223
    },
    {
      "acc": 0.65308132,
      "epoch": 0.00380517503805175,
      "grad_norm": 14.25,
      "learning_rate": 3.8051750380517503e-07,
      "loss": 1.65644302,
      "memory(GiB)": 87.38,
      "step": 150,
      "train_speed(iter/s)": 0.779386
    },
    {
      "acc": 0.64332676,
      "epoch": 0.0039320142059868085,
      "grad_norm": 17.375,
      "learning_rate": 3.932014205986809e-07,
      "loss": 1.71996994,
      "memory(GiB)": 87.38,
      "step": 155,
      "train_speed(iter/s)": 0.791293
    },
    {
      "acc": 0.64972105,
      "epoch": 0.004058853373921867,
      "grad_norm": 13.4375,
      "learning_rate": 4.058853373921867e-07,
      "loss": 1.74699326,
      "memory(GiB)": 87.38,
      "step": 160,
      "train_speed(iter/s)": 0.801352
    },
    {
      "acc": 0.63284454,
      "epoch": 0.004185692541856925,
      "grad_norm": 11.625,
      "learning_rate": 4.1856925418569256e-07,
      "loss": 1.73596382,
      "memory(GiB)": 87.38,
      "step": 165,
      "train_speed(iter/s)": 0.809203
    },
    {
      "acc": 0.6355978,
      "epoch": 0.0043125317097919835,
      "grad_norm": 9.9375,
      "learning_rate": 4.3125317097919837e-07,
      "loss": 1.70106506,
      "memory(GiB)": 87.38,
      "step": 170,
      "train_speed(iter/s)": 0.817437
    },
    {
      "acc": 0.63831224,
      "epoch": 0.004439370877727042,
      "grad_norm": 14.5625,
      "learning_rate": 4.4393708777270423e-07,
      "loss": 1.76419277,
      "memory(GiB)": 87.38,
      "step": 175,
      "train_speed(iter/s)": 0.827176
    },
    {
      "acc": 0.63872747,
      "epoch": 0.0045662100456621,
      "grad_norm": 9.25,
      "learning_rate": 4.5662100456621004e-07,
      "loss": 1.8029541,
      "memory(GiB)": 87.38,
      "step": 180,
      "train_speed(iter/s)": 0.836128
    },
    {
      "acc": 0.65833855,
      "epoch": 0.0046930492135971585,
      "grad_norm": 10.125,
      "learning_rate": 4.693049213597159e-07,
      "loss": 1.74136848,
      "memory(GiB)": 87.38,
      "step": 185,
      "train_speed(iter/s)": 0.845459
    },
    {
      "acc": 0.64870367,
      "epoch": 0.004819888381532217,
      "grad_norm": 8.875,
      "learning_rate": 4.819888381532218e-07,
      "loss": 1.62590332,
      "memory(GiB)": 87.38,
      "step": 190,
      "train_speed(iter/s)": 0.852893
    },
    {
      "acc": 0.64522333,
      "epoch": 0.004946727549467275,
      "grad_norm": 9.5,
      "learning_rate": 4.946727549467275e-07,
      "loss": 1.72108231,
      "memory(GiB)": 87.38,
      "step": 195,
      "train_speed(iter/s)": 0.861041
    },
    {
      "acc": 0.64442692,
      "epoch": 0.0050735667174023336,
      "grad_norm": 11.9375,
      "learning_rate": 5.073566717402334e-07,
      "loss": 1.73517189,
      "memory(GiB)": 87.38,
      "step": 200,
      "train_speed(iter/s)": 0.866934
    },
    {
      "acc": 0.64376302,
      "epoch": 0.005200405885337392,
      "grad_norm": 9.1875,
      "learning_rate": 5.200405885337392e-07,
      "loss": 1.77802811,
      "memory(GiB)": 87.38,
      "step": 205,
      "train_speed(iter/s)": 0.873692
    },
    {
      "acc": 0.64539189,
      "epoch": 0.00532724505327245,
      "grad_norm": 9.3125,
      "learning_rate": 5.327245053272451e-07,
      "loss": 1.70159645,
      "memory(GiB)": 87.38,
      "step": 210,
      "train_speed(iter/s)": 0.881401
    },
    {
      "acc": 0.63221464,
      "epoch": 0.005454084221207509,
      "grad_norm": 8.5625,
      "learning_rate": 5.454084221207509e-07,
      "loss": 1.69614792,
      "memory(GiB)": 87.38,
      "step": 215,
      "train_speed(iter/s)": 0.887719
    },
    {
      "acc": 0.64912286,
      "epoch": 0.005580923389142567,
      "grad_norm": 8.4375,
      "learning_rate": 5.580923389142567e-07,
      "loss": 1.60569344,
      "memory(GiB)": 87.38,
      "step": 220,
      "train_speed(iter/s)": 0.893734
    },
    {
      "acc": 0.6511035,
      "epoch": 0.005707762557077625,
      "grad_norm": 8.875,
      "learning_rate": 5.707762557077626e-07,
      "loss": 1.63348713,
      "memory(GiB)": 87.38,
      "step": 225,
      "train_speed(iter/s)": 0.899412
    },
    {
      "acc": 0.6414762,
      "epoch": 0.005834601725012684,
      "grad_norm": 8.0625,
      "learning_rate": 5.834601725012684e-07,
      "loss": 1.68748207,
      "memory(GiB)": 87.38,
      "step": 230,
      "train_speed(iter/s)": 0.904846
    },
    {
      "acc": 0.65394969,
      "epoch": 0.005961440892947742,
      "grad_norm": 11.8125,
      "learning_rate": 5.961440892947743e-07,
      "loss": 1.60389328,
      "memory(GiB)": 87.38,
      "step": 235,
      "train_speed(iter/s)": 0.910176
    },
    {
      "acc": 0.64070454,
      "epoch": 0.0060882800608828,
      "grad_norm": 7.09375,
      "learning_rate": 6.0882800608828e-07,
      "loss": 1.69447269,
      "memory(GiB)": 87.76,
      "step": 240,
      "train_speed(iter/s)": 0.916065
    },
    {
      "acc": 0.65066786,
      "epoch": 0.006215119228817859,
      "grad_norm": 10.5625,
      "learning_rate": 6.215119228817859e-07,
      "loss": 1.71902008,
      "memory(GiB)": 87.76,
      "step": 245,
      "train_speed(iter/s)": 0.921244
    },
    {
      "acc": 0.6466445,
      "epoch": 0.006341958396752917,
      "grad_norm": 7.78125,
      "learning_rate": 6.341958396752918e-07,
      "loss": 1.78954945,
      "memory(GiB)": 87.76,
      "step": 250,
      "train_speed(iter/s)": 0.926656
    },
    {
      "acc": 0.63271046,
      "epoch": 0.006468797564687975,
      "grad_norm": 14.1875,
      "learning_rate": 6.468797564687976e-07,
      "loss": 1.71029854,
      "memory(GiB)": 87.76,
      "step": 255,
      "train_speed(iter/s)": 0.932357
    },
    {
      "acc": 0.6488946,
      "epoch": 0.006595636732623034,
      "grad_norm": 10.25,
      "learning_rate": 6.595636732623034e-07,
      "loss": 1.61178055,
      "memory(GiB)": 87.76,
      "step": 260,
      "train_speed(iter/s)": 0.938045
    },
    {
      "acc": 0.65138459,
      "epoch": 0.006722475900558092,
      "grad_norm": 8.5,
      "learning_rate": 6.722475900558092e-07,
      "loss": 1.65315895,
      "memory(GiB)": 87.76,
      "step": 265,
      "train_speed(iter/s)": 0.943102
    },
    {
      "acc": 0.65525284,
      "epoch": 0.00684931506849315,
      "grad_norm": 9.75,
      "learning_rate": 6.849315068493151e-07,
      "loss": 1.61734848,
      "memory(GiB)": 87.76,
      "step": 270,
      "train_speed(iter/s)": 0.947664
    },
    {
      "acc": 0.63746367,
      "epoch": 0.006976154236428209,
      "grad_norm": 8.9375,
      "learning_rate": 6.97615423642821e-07,
      "loss": 1.64917297,
      "memory(GiB)": 87.76,
      "step": 275,
      "train_speed(iter/s)": 0.952856
    },
    {
      "acc": 0.64210854,
      "epoch": 0.007102993404363267,
      "grad_norm": 8.5,
      "learning_rate": 7.102993404363267e-07,
      "loss": 1.63891926,
      "memory(GiB)": 87.76,
      "step": 280,
      "train_speed(iter/s)": 0.957361
    },
    {
      "acc": 0.67000556,
      "epoch": 0.007229832572298325,
      "grad_norm": 9.125,
      "learning_rate": 7.229832572298326e-07,
      "loss": 1.54441643,
      "memory(GiB)": 87.76,
      "step": 285,
      "train_speed(iter/s)": 0.961214
    },
    {
      "acc": 0.66923981,
      "epoch": 0.007356671740233384,
      "grad_norm": 8.0,
      "learning_rate": 7.356671740233384e-07,
      "loss": 1.57922802,
      "memory(GiB)": 87.76,
      "step": 290,
      "train_speed(iter/s)": 0.966138
    },
    {
      "acc": 0.6618125,
      "epoch": 0.007483510908168442,
      "grad_norm": 8.9375,
      "learning_rate": 7.483510908168443e-07,
      "loss": 1.63099251,
      "memory(GiB)": 87.76,
      "step": 295,
      "train_speed(iter/s)": 0.971319
    },
    {
      "acc": 0.65719576,
      "epoch": 0.0076103500761035,
      "grad_norm": 6.8125,
      "learning_rate": 7.610350076103501e-07,
      "loss": 1.57692947,
      "memory(GiB)": 87.76,
      "step": 300,
      "train_speed(iter/s)": 0.973976
    },
    {
      "acc": 0.65723772,
      "epoch": 0.007737189244038559,
      "grad_norm": 9.125,
      "learning_rate": 7.737189244038559e-07,
      "loss": 1.65642548,
      "memory(GiB)": 87.76,
      "step": 305,
      "train_speed(iter/s)": 0.978425
    },
    {
      "acc": 0.66043081,
      "epoch": 0.007864028411973617,
      "grad_norm": 7.6875,
      "learning_rate": 7.864028411973618e-07,
      "loss": 1.53388996,
      "memory(GiB)": 87.76,
      "step": 310,
      "train_speed(iter/s)": 0.982431
    },
    {
      "acc": 0.65450611,
      "epoch": 0.007990867579908675,
      "grad_norm": 8.1875,
      "learning_rate": 7.990867579908676e-07,
      "loss": 1.65011559,
      "memory(GiB)": 87.76,
      "step": 315,
      "train_speed(iter/s)": 0.985675
    },
    {
      "acc": 0.65885506,
      "epoch": 0.008117706747843734,
      "grad_norm": 8.6875,
      "learning_rate": 8.117706747843734e-07,
      "loss": 1.61213722,
      "memory(GiB)": 87.76,
      "step": 320,
      "train_speed(iter/s)": 0.988688
    },
    {
      "acc": 0.63130102,
      "epoch": 0.008244545915778792,
      "grad_norm": 7.59375,
      "learning_rate": 8.244545915778793e-07,
      "loss": 1.66555042,
      "memory(GiB)": 87.76,
      "step": 325,
      "train_speed(iter/s)": 0.990854
    },
    {
      "acc": 0.64894056,
      "epoch": 0.00837138508371385,
      "grad_norm": 6.28125,
      "learning_rate": 8.371385083713851e-07,
      "loss": 1.60423546,
      "memory(GiB)": 87.76,
      "step": 330,
      "train_speed(iter/s)": 0.994912
    },
    {
      "acc": 0.6535984,
      "epoch": 0.008498224251648909,
      "grad_norm": 8.125,
      "learning_rate": 8.49822425164891e-07,
      "loss": 1.64058723,
      "memory(GiB)": 87.76,
      "step": 335,
      "train_speed(iter/s)": 0.999008
    },
    {
      "acc": 0.65748053,
      "epoch": 0.008625063419583967,
      "grad_norm": 7.28125,
      "learning_rate": 8.625063419583967e-07,
      "loss": 1.57720375,
      "memory(GiB)": 87.76,
      "step": 340,
      "train_speed(iter/s)": 1.002615
    },
    {
      "acc": 0.6608933,
      "epoch": 0.008751902587519025,
      "grad_norm": 5.6875,
      "learning_rate": 8.751902587519026e-07,
      "loss": 1.62888718,
      "memory(GiB)": 87.76,
      "step": 345,
      "train_speed(iter/s)": 1.005981
    },
    {
      "acc": 0.63908606,
      "epoch": 0.008878741755454084,
      "grad_norm": 7.25,
      "learning_rate": 8.878741755454085e-07,
      "loss": 1.60532227,
      "memory(GiB)": 87.76,
      "step": 350,
      "train_speed(iter/s)": 1.008997
    },
    {
      "acc": 0.65478649,
      "epoch": 0.009005580923389142,
      "grad_norm": 10.0625,
      "learning_rate": 9.005580923389143e-07,
      "loss": 1.5941782,
      "memory(GiB)": 87.76,
      "step": 355,
      "train_speed(iter/s)": 1.012294
    },
    {
      "acc": 0.65256743,
      "epoch": 0.0091324200913242,
      "grad_norm": 6.8125,
      "learning_rate": 9.132420091324201e-07,
      "loss": 1.55947142,
      "memory(GiB)": 87.76,
      "step": 360,
      "train_speed(iter/s)": 1.014302
    },
    {
      "acc": 0.66345334,
      "epoch": 0.009259259259259259,
      "grad_norm": 8.625,
      "learning_rate": 9.259259259259259e-07,
      "loss": 1.58787622,
      "memory(GiB)": 87.76,
      "step": 365,
      "train_speed(iter/s)": 1.017807
    },
    {
      "acc": 0.6468977,
      "epoch": 0.009386098427194317,
      "grad_norm": 6.78125,
      "learning_rate": 9.386098427194318e-07,
      "loss": 1.59608383,
      "memory(GiB)": 87.76,
      "step": 370,
      "train_speed(iter/s)": 1.02172
    },
    {
      "acc": 0.64978881,
      "epoch": 0.009512937595129375,
      "grad_norm": 6.0,
      "learning_rate": 9.512937595129377e-07,
      "loss": 1.66851292,
      "memory(GiB)": 87.76,
      "step": 375,
      "train_speed(iter/s)": 1.025374
    },
    {
      "acc": 0.66463494,
      "epoch": 0.009639776763064434,
      "grad_norm": 9.5625,
      "learning_rate": 9.639776763064435e-07,
      "loss": 1.54596024,
      "memory(GiB)": 87.76,
      "step": 380,
      "train_speed(iter/s)": 1.027203
    },
    {
      "acc": 0.65454926,
      "epoch": 0.009766615930999492,
      "grad_norm": 8.5,
      "learning_rate": 9.766615930999493e-07,
      "loss": 1.58071337,
      "memory(GiB)": 87.76,
      "step": 385,
      "train_speed(iter/s)": 1.028804
    },
    {
      "acc": 0.64979987,
      "epoch": 0.00989345509893455,
      "grad_norm": 7.3125,
      "learning_rate": 9.89345509893455e-07,
      "loss": 1.57286091,
      "memory(GiB)": 87.76,
      "step": 390,
      "train_speed(iter/s)": 1.032224
    },
    {
      "acc": 0.65953388,
      "epoch": 0.010020294266869609,
      "grad_norm": 6.9375,
      "learning_rate": 1.002029426686961e-06,
      "loss": 1.58562393,
      "memory(GiB)": 87.76,
      "step": 395,
      "train_speed(iter/s)": 1.034888
    },
    {
      "acc": 0.65396423,
      "epoch": 0.010147133434804667,
      "grad_norm": 11.75,
      "learning_rate": 1.0147133434804667e-06,
      "loss": 1.59761696,
      "memory(GiB)": 87.76,
      "step": 400,
      "train_speed(iter/s)": 1.038222
    },
    {
      "acc": 0.65545874,
      "epoch": 0.010273972602739725,
      "grad_norm": 5.5625,
      "learning_rate": 1.0273972602739727e-06,
      "loss": 1.58592281,
      "memory(GiB)": 87.76,
      "step": 405,
      "train_speed(iter/s)": 1.040574
    },
    {
      "acc": 0.65468102,
      "epoch": 0.010400811770674784,
      "grad_norm": 7.9375,
      "learning_rate": 1.0400811770674785e-06,
      "loss": 1.60762291,
      "memory(GiB)": 87.76,
      "step": 410,
      "train_speed(iter/s)": 1.041505
    },
    {
      "acc": 0.66735563,
      "epoch": 0.010527650938609842,
      "grad_norm": 7.59375,
      "learning_rate": 1.0527650938609842e-06,
      "loss": 1.49540739,
      "memory(GiB)": 87.76,
      "step": 415,
      "train_speed(iter/s)": 1.044008
    },
    {
      "acc": 0.66615353,
      "epoch": 0.0106544901065449,
      "grad_norm": 7.75,
      "learning_rate": 1.0654490106544902e-06,
      "loss": 1.56076002,
      "memory(GiB)": 87.76,
      "step": 420,
      "train_speed(iter/s)": 1.045372
    },
    {
      "acc": 0.65334635,
      "epoch": 0.010781329274479959,
      "grad_norm": 5.9375,
      "learning_rate": 1.078132927447996e-06,
      "loss": 1.53892517,
      "memory(GiB)": 87.76,
      "step": 425,
      "train_speed(iter/s)": 1.047282
    },
    {
      "acc": 0.65823441,
      "epoch": 0.010908168442415017,
      "grad_norm": 6.125,
      "learning_rate": 1.0908168442415017e-06,
      "loss": 1.54934626,
      "memory(GiB)": 87.76,
      "step": 430,
      "train_speed(iter/s)": 1.049927
    },
    {
      "acc": 0.64732008,
      "epoch": 0.011035007610350075,
      "grad_norm": 8.0625,
      "learning_rate": 1.1035007610350077e-06,
      "loss": 1.56116447,
      "memory(GiB)": 87.76,
      "step": 435,
      "train_speed(iter/s)": 1.052614
    },
    {
      "acc": 0.66987486,
      "epoch": 0.011161846778285134,
      "grad_norm": 8.5625,
      "learning_rate": 1.1161846778285134e-06,
      "loss": 1.48876276,
      "memory(GiB)": 87.76,
      "step": 440,
      "train_speed(iter/s)": 1.055713
    },
    {
      "acc": 0.66625252,
      "epoch": 0.011288685946220192,
      "grad_norm": 5.6875,
      "learning_rate": 1.1288685946220194e-06,
      "loss": 1.47874699,
      "memory(GiB)": 87.76,
      "step": 445,
      "train_speed(iter/s)": 1.058064
    },
    {
      "acc": 0.66018705,
      "epoch": 0.01141552511415525,
      "grad_norm": 5.3125,
      "learning_rate": 1.1415525114155251e-06,
      "loss": 1.52184343,
      "memory(GiB)": 87.76,
      "step": 450,
      "train_speed(iter/s)": 1.06031
    },
    {
      "acc": 0.65966673,
      "epoch": 0.011542364282090309,
      "grad_norm": 6.0625,
      "learning_rate": 1.154236428209031e-06,
      "loss": 1.56814919,
      "memory(GiB)": 87.76,
      "step": 455,
      "train_speed(iter/s)": 1.063125
    },
    {
      "acc": 0.66288099,
      "epoch": 0.011669203450025367,
      "grad_norm": 5.21875,
      "learning_rate": 1.1669203450025369e-06,
      "loss": 1.50371647,
      "memory(GiB)": 87.76,
      "step": 460,
      "train_speed(iter/s)": 1.064059
    },
    {
      "acc": 0.65428581,
      "epoch": 0.011796042617960426,
      "grad_norm": 7.28125,
      "learning_rate": 1.1796042617960426e-06,
      "loss": 1.60701962,
      "memory(GiB)": 87.76,
      "step": 465,
      "train_speed(iter/s)": 1.066157
    },
    {
      "acc": 0.64890051,
      "epoch": 0.011922881785895484,
      "grad_norm": 6.21875,
      "learning_rate": 1.1922881785895486e-06,
      "loss": 1.62240639,
      "memory(GiB)": 87.76,
      "step": 470,
      "train_speed(iter/s)": 1.068964
    },
    {
      "acc": 0.67824039,
      "epoch": 0.012049720953830542,
      "grad_norm": 4.8125,
      "learning_rate": 1.2049720953830543e-06,
      "loss": 1.46006794,
      "memory(GiB)": 87.76,
      "step": 475,
      "train_speed(iter/s)": 1.071294
    },
    {
      "acc": 0.65711575,
      "epoch": 0.0121765601217656,
      "grad_norm": 6.46875,
      "learning_rate": 1.21765601217656e-06,
      "loss": 1.53952332,
      "memory(GiB)": 87.76,
      "step": 480,
      "train_speed(iter/s)": 1.072814
    },
    {
      "acc": 0.6622817,
      "epoch": 0.012303399289700659,
      "grad_norm": 6.3125,
      "learning_rate": 1.230339928970066e-06,
      "loss": 1.49737558,
      "memory(GiB)": 87.76,
      "step": 485,
      "train_speed(iter/s)": 1.074945
    },
    {
      "acc": 0.67766252,
      "epoch": 0.012430238457635717,
      "grad_norm": 21.0,
      "learning_rate": 1.2430238457635718e-06,
      "loss": 1.46999264,
      "memory(GiB)": 87.76,
      "step": 490,
      "train_speed(iter/s)": 1.076921
    },
    {
      "acc": 0.67124352,
      "epoch": 0.012557077625570776,
      "grad_norm": 8.25,
      "learning_rate": 1.2557077625570776e-06,
      "loss": 1.54467764,
      "memory(GiB)": 87.76,
      "step": 495,
      "train_speed(iter/s)": 1.07903
    },
    {
      "acc": 0.65530443,
      "epoch": 0.012683916793505834,
      "grad_norm": 7.28125,
      "learning_rate": 1.2683916793505835e-06,
      "loss": 1.52313623,
      "memory(GiB)": 87.76,
      "step": 500,
      "train_speed(iter/s)": 1.081073
    },
    {
      "acc": 0.65226212,
      "epoch": 0.012810755961440892,
      "grad_norm": 7.0625,
      "learning_rate": 1.2810755961440893e-06,
      "loss": 1.51981115,
      "memory(GiB)": 87.76,
      "step": 505,
      "train_speed(iter/s)": 1.082554
    },
    {
      "acc": 0.66750894,
      "epoch": 0.01293759512937595,
      "grad_norm": 6.40625,
      "learning_rate": 1.2937595129375953e-06,
      "loss": 1.54258652,
      "memory(GiB)": 87.76,
      "step": 510,
      "train_speed(iter/s)": 1.083944
    },
    {
      "acc": 0.66008549,
      "epoch": 0.013064434297311009,
      "grad_norm": 9.125,
      "learning_rate": 1.306443429731101e-06,
      "loss": 1.56816912,
      "memory(GiB)": 87.76,
      "step": 515,
      "train_speed(iter/s)": 1.085405
    },
    {
      "acc": 0.67532167,
      "epoch": 0.013191273465246067,
      "grad_norm": 38.0,
      "learning_rate": 1.3191273465246068e-06,
      "loss": 1.44301281,
      "memory(GiB)": 87.76,
      "step": 520,
      "train_speed(iter/s)": 1.086666
    },
    {
      "acc": 0.66222906,
      "epoch": 0.013318112633181126,
      "grad_norm": 49.0,
      "learning_rate": 1.3318112633181127e-06,
      "loss": 1.49970455,
      "memory(GiB)": 87.76,
      "step": 525,
      "train_speed(iter/s)": 1.088039
    },
    {
      "acc": 0.68886156,
      "epoch": 0.013444951801116184,
      "grad_norm": 35.0,
      "learning_rate": 1.3444951801116185e-06,
      "loss": 1.44142466,
      "memory(GiB)": 87.76,
      "step": 530,
      "train_speed(iter/s)": 1.089214
    },
    {
      "acc": 0.67693968,
      "epoch": 0.013571790969051242,
      "grad_norm": 54.5,
      "learning_rate": 1.3571790969051243e-06,
      "loss": 1.45543518,
      "memory(GiB)": 87.76,
      "step": 535,
      "train_speed(iter/s)": 1.090942
    },
    {
      "acc": 0.66702294,
      "epoch": 0.0136986301369863,
      "grad_norm": 98.5,
      "learning_rate": 1.3698630136986302e-06,
      "loss": 1.49834518,
      "memory(GiB)": 87.76,
      "step": 540,
      "train_speed(iter/s)": 1.093057
    },
    {
      "acc": 0.65578151,
      "epoch": 0.013825469304921359,
      "grad_norm": 43.75,
      "learning_rate": 1.382546930492136e-06,
      "loss": 1.55755911,
      "memory(GiB)": 87.76,
      "step": 545,
      "train_speed(iter/s)": 1.094838
    },
    {
      "acc": 0.66767201,
      "epoch": 0.013952308472856417,
      "grad_norm": 38.75,
      "learning_rate": 1.395230847285642e-06,
      "loss": 1.58679819,
      "memory(GiB)": 87.76,
      "step": 550,
      "train_speed(iter/s)": 1.095832
    },
    {
      "acc": 0.67325201,
      "epoch": 0.014079147640791476,
      "grad_norm": 66.0,
      "learning_rate": 1.4079147640791477e-06,
      "loss": 1.46680536,
      "memory(GiB)": 87.76,
      "step": 555,
      "train_speed(iter/s)": 1.097356
    },
    {
      "acc": 0.67551718,
      "epoch": 0.014205986808726534,
      "grad_norm": 121.0,
      "learning_rate": 1.4205986808726534e-06,
      "loss": 1.43992596,
      "memory(GiB)": 87.76,
      "step": 560,
      "train_speed(iter/s)": 1.099076
    },
    {
      "acc": 0.66703615,
      "epoch": 0.014332825976661592,
      "grad_norm": 82.0,
      "learning_rate": 1.4332825976661594e-06,
      "loss": 1.50448189,
      "memory(GiB)": 87.76,
      "step": 565,
      "train_speed(iter/s)": 1.101096
    },
    {
      "acc": 0.67127495,
      "epoch": 0.01445966514459665,
      "grad_norm": 8.1875,
      "learning_rate": 1.4459665144596652e-06,
      "loss": 1.45709696,
      "memory(GiB)": 87.76,
      "step": 570,
      "train_speed(iter/s)": 1.102273
    },
    {
      "acc": 0.68514805,
      "epoch": 0.014586504312531709,
      "grad_norm": 51.25,
      "learning_rate": 1.458650431253171e-06,
      "loss": 1.38786564,
      "memory(GiB)": 90.43,
      "step": 575,
      "train_speed(iter/s)": 1.101204
    },
    {
      "acc": 0.66557026,
      "epoch": 0.014713343480466767,
      "grad_norm": 12.0,
      "learning_rate": 1.4713343480466769e-06,
      "loss": 1.57780027,
      "memory(GiB)": 90.43,
      "step": 580,
      "train_speed(iter/s)": 1.103172
    },
    {
      "acc": 0.66809845,
      "epoch": 0.014840182648401826,
      "grad_norm": 27.25,
      "learning_rate": 1.4840182648401826e-06,
      "loss": 1.55151148,
      "memory(GiB)": 90.43,
      "step": 585,
      "train_speed(iter/s)": 1.105686
    },
    {
      "acc": 0.65326309,
      "epoch": 0.014967021816336884,
      "grad_norm": 29.0,
      "learning_rate": 1.4967021816336886e-06,
      "loss": 1.4736187,
      "memory(GiB)": 90.43,
      "step": 590,
      "train_speed(iter/s)": 1.106517
    },
    {
      "acc": 0.65586224,
      "epoch": 0.015093860984271942,
      "grad_norm": 82.5,
      "learning_rate": 1.5093860984271944e-06,
      "loss": 1.5053812,
      "memory(GiB)": 90.43,
      "step": 595,
      "train_speed(iter/s)": 1.108187
    },
    {
      "acc": 0.68012595,
      "epoch": 0.015220700152207,
      "grad_norm": 6.46875,
      "learning_rate": 1.5220700152207001e-06,
      "loss": 1.39599915,
      "memory(GiB)": 90.43,
      "step": 600,
      "train_speed(iter/s)": 1.109868
    },
    {
      "acc": 0.68240585,
      "epoch": 0.015347539320142059,
      "grad_norm": 17.25,
      "learning_rate": 1.534753932014206e-06,
      "loss": 1.41718636,
      "memory(GiB)": 90.43,
      "step": 605,
      "train_speed(iter/s)": 1.111579
    },
    {
      "acc": 0.66618395,
      "epoch": 0.015474378488077117,
      "grad_norm": 35.0,
      "learning_rate": 1.5474378488077118e-06,
      "loss": 1.48931875,
      "memory(GiB)": 90.43,
      "step": 610,
      "train_speed(iter/s)": 1.11299
    },
    {
      "acc": 0.66729584,
      "epoch": 0.015601217656012176,
      "grad_norm": 43.0,
      "learning_rate": 1.5601217656012176e-06,
      "loss": 1.4604619,
      "memory(GiB)": 90.43,
      "step": 615,
      "train_speed(iter/s)": 1.114698
    },
    {
      "acc": 0.67374654,
      "epoch": 0.015728056823947234,
      "grad_norm": 41.25,
      "learning_rate": 1.5728056823947236e-06,
      "loss": 1.44235802,
      "memory(GiB)": 90.43,
      "step": 620,
      "train_speed(iter/s)": 1.115727
    },
    {
      "acc": 0.66607671,
      "epoch": 0.015854895991882292,
      "grad_norm": 27.875,
      "learning_rate": 1.5854895991882293e-06,
      "loss": 1.50420494,
      "memory(GiB)": 90.43,
      "step": 625,
      "train_speed(iter/s)": 1.117419
    },
    {
      "acc": 0.67023349,
      "epoch": 0.01598173515981735,
      "grad_norm": 25.75,
      "learning_rate": 1.5981735159817353e-06,
      "loss": 1.51374588,
      "memory(GiB)": 90.43,
      "step": 630,
      "train_speed(iter/s)": 1.119015
    },
    {
      "acc": 0.67440205,
      "epoch": 0.01610857432775241,
      "grad_norm": 8.6875,
      "learning_rate": 1.610857432775241e-06,
      "loss": 1.5074399,
      "memory(GiB)": 90.43,
      "step": 635,
      "train_speed(iter/s)": 1.120697
    },
    {
      "acc": 0.66218977,
      "epoch": 0.016235413495687467,
      "grad_norm": 22.125,
      "learning_rate": 1.6235413495687468e-06,
      "loss": 1.47199001,
      "memory(GiB)": 90.43,
      "step": 640,
      "train_speed(iter/s)": 1.122855
    },
    {
      "acc": 0.67510581,
      "epoch": 0.016362252663622526,
      "grad_norm": 41.0,
      "learning_rate": 1.6362252663622528e-06,
      "loss": 1.45733681,
      "memory(GiB)": 90.43,
      "step": 645,
      "train_speed(iter/s)": 1.123236
    },
    {
      "acc": 0.65981226,
      "epoch": 0.016489091831557584,
      "grad_norm": 23.625,
      "learning_rate": 1.6489091831557585e-06,
      "loss": 1.48280497,
      "memory(GiB)": 90.43,
      "step": 650,
      "train_speed(iter/s)": 1.124542
    },
    {
      "acc": 0.67729473,
      "epoch": 0.016615930999492642,
      "grad_norm": 27.25,
      "learning_rate": 1.6615930999492643e-06,
      "loss": 1.47339516,
      "memory(GiB)": 90.43,
      "step": 655,
      "train_speed(iter/s)": 1.125486
    },
    {
      "acc": 0.66418133,
      "epoch": 0.0167427701674277,
      "grad_norm": 16.25,
      "learning_rate": 1.6742770167427702e-06,
      "loss": 1.45837307,
      "memory(GiB)": 90.43,
      "step": 660,
      "train_speed(iter/s)": 1.127173
    },
    {
      "acc": 0.67597361,
      "epoch": 0.01686960933536276,
      "grad_norm": 30.0,
      "learning_rate": 1.686960933536276e-06,
      "loss": 1.39392929,
      "memory(GiB)": 90.43,
      "step": 665,
      "train_speed(iter/s)": 1.128107
    },
    {
      "acc": 0.67780581,
      "epoch": 0.016996448503297817,
      "grad_norm": 6.03125,
      "learning_rate": 1.699644850329782e-06,
      "loss": 1.44067459,
      "memory(GiB)": 90.43,
      "step": 670,
      "train_speed(iter/s)": 1.128693
    },
    {
      "acc": 0.68580413,
      "epoch": 0.017123287671232876,
      "grad_norm": 5.84375,
      "learning_rate": 1.7123287671232877e-06,
      "loss": 1.41419077,
      "memory(GiB)": 90.43,
      "step": 675,
      "train_speed(iter/s)": 1.129099
    },
    {
      "acc": 0.66713529,
      "epoch": 0.017250126839167934,
      "grad_norm": 17.25,
      "learning_rate": 1.7250126839167935e-06,
      "loss": 1.54547892,
      "memory(GiB)": 90.43,
      "step": 680,
      "train_speed(iter/s)": 1.130017
    },
    {
      "acc": 0.67570925,
      "epoch": 0.017376966007102992,
      "grad_norm": 8.75,
      "learning_rate": 1.7376966007102994e-06,
      "loss": 1.47156773,
      "memory(GiB)": 90.43,
      "step": 685,
      "train_speed(iter/s)": 1.130604
    },
    {
      "acc": 0.676859,
      "epoch": 0.01750380517503805,
      "grad_norm": 22.25,
      "learning_rate": 1.7503805175038052e-06,
      "loss": 1.46823301,
      "memory(GiB)": 90.43,
      "step": 690,
      "train_speed(iter/s)": 1.131546
    },
    {
      "acc": 0.6730556,
      "epoch": 0.01763064434297311,
      "grad_norm": 9.3125,
      "learning_rate": 1.7630644342973112e-06,
      "loss": 1.4327116,
      "memory(GiB)": 90.43,
      "step": 695,
      "train_speed(iter/s)": 1.132937
    },
    {
      "acc": 0.67545233,
      "epoch": 0.017757483510908167,
      "grad_norm": 31.125,
      "learning_rate": 1.775748351090817e-06,
      "loss": 1.4070303,
      "memory(GiB)": 90.43,
      "step": 700,
      "train_speed(iter/s)": 1.134327
    },
    {
      "acc": 0.67040882,
      "epoch": 0.017884322678843226,
      "grad_norm": 9.875,
      "learning_rate": 1.7884322678843227e-06,
      "loss": 1.39443655,
      "memory(GiB)": 90.43,
      "step": 705,
      "train_speed(iter/s)": 1.135836
    },
    {
      "acc": 0.6645278,
      "epoch": 0.018011161846778284,
      "grad_norm": 5.6875,
      "learning_rate": 1.8011161846778286e-06,
      "loss": 1.47312374,
      "memory(GiB)": 90.43,
      "step": 710,
      "train_speed(iter/s)": 1.136304
    },
    {
      "acc": 0.66223617,
      "epoch": 0.018138001014713342,
      "grad_norm": 5.8125,
      "learning_rate": 1.8138001014713344e-06,
      "loss": 1.50842381,
      "memory(GiB)": 90.43,
      "step": 715,
      "train_speed(iter/s)": 1.13764
    },
    {
      "acc": 0.67524414,
      "epoch": 0.0182648401826484,
      "grad_norm": 59.25,
      "learning_rate": 1.8264840182648401e-06,
      "loss": 1.42013712,
      "memory(GiB)": 90.43,
      "step": 720,
      "train_speed(iter/s)": 1.139309
    },
    {
      "acc": 0.66230707,
      "epoch": 0.01839167935058346,
      "grad_norm": 28.25,
      "learning_rate": 1.8391679350583461e-06,
      "loss": 1.51155415,
      "memory(GiB)": 90.43,
      "step": 725,
      "train_speed(iter/s)": 1.140122
    },
    {
      "acc": 0.67741437,
      "epoch": 0.018518518518518517,
      "grad_norm": 28.375,
      "learning_rate": 1.8518518518518519e-06,
      "loss": 1.35840683,
      "memory(GiB)": 90.43,
      "step": 730,
      "train_speed(iter/s)": 1.141454
    },
    {
      "acc": 0.65747757,
      "epoch": 0.018645357686453576,
      "grad_norm": 11.1875,
      "learning_rate": 1.8645357686453578e-06,
      "loss": 1.46744156,
      "memory(GiB)": 90.43,
      "step": 735,
      "train_speed(iter/s)": 1.14304
    },
    {
      "acc": 0.67803192,
      "epoch": 0.018772196854388634,
      "grad_norm": 21.25,
      "learning_rate": 1.8772196854388636e-06,
      "loss": 1.43183584,
      "memory(GiB)": 90.43,
      "step": 740,
      "train_speed(iter/s)": 1.144068
    },
    {
      "acc": 0.68091254,
      "epoch": 0.018899036022323693,
      "grad_norm": 12.75,
      "learning_rate": 1.8899036022323693e-06,
      "loss": 1.38088055,
      "memory(GiB)": 90.43,
      "step": 745,
      "train_speed(iter/s)": 1.145062
    },
    {
      "acc": 0.67627535,
      "epoch": 0.01902587519025875,
      "grad_norm": 17.25,
      "learning_rate": 1.9025875190258753e-06,
      "loss": 1.40663757,
      "memory(GiB)": 90.43,
      "step": 750,
      "train_speed(iter/s)": 1.145517
    },
    {
      "acc": 0.68160315,
      "epoch": 0.01915271435819381,
      "grad_norm": 4.15625,
      "learning_rate": 1.915271435819381e-06,
      "loss": 1.42629814,
      "memory(GiB)": 90.43,
      "step": 755,
      "train_speed(iter/s)": 1.146279
    },
    {
      "acc": 0.66562748,
      "epoch": 0.019279553526128868,
      "grad_norm": 16.25,
      "learning_rate": 1.927955352612887e-06,
      "loss": 1.42837696,
      "memory(GiB)": 90.43,
      "step": 760,
      "train_speed(iter/s)": 1.146717
    },
    {
      "acc": 0.6895957,
      "epoch": 0.019406392694063926,
      "grad_norm": 21.0,
      "learning_rate": 1.9406392694063926e-06,
      "loss": 1.43606434,
      "memory(GiB)": 90.43,
      "step": 765,
      "train_speed(iter/s)": 1.147365
    },
    {
      "acc": 0.67705359,
      "epoch": 0.019533231861998984,
      "grad_norm": 27.125,
      "learning_rate": 1.9533231861998985e-06,
      "loss": 1.41275349,
      "memory(GiB)": 90.43,
      "step": 770,
      "train_speed(iter/s)": 1.148806
    },
    {
      "acc": 0.68656654,
      "epoch": 0.019660071029934043,
      "grad_norm": 11.8125,
      "learning_rate": 1.9660071029934045e-06,
      "loss": 1.43889599,
      "memory(GiB)": 90.43,
      "step": 775,
      "train_speed(iter/s)": 1.14882
    },
    {
      "acc": 0.65113354,
      "epoch": 0.0197869101978691,
      "grad_norm": 9.875,
      "learning_rate": 1.97869101978691e-06,
      "loss": 1.49920273,
      "memory(GiB)": 90.43,
      "step": 780,
      "train_speed(iter/s)": 1.149737
    },
    {
      "acc": 0.6875432,
      "epoch": 0.01991374936580416,
      "grad_norm": 8.0625,
      "learning_rate": 1.991374936580416e-06,
      "loss": 1.32767868,
      "memory(GiB)": 90.43,
      "step": 785,
      "train_speed(iter/s)": 1.150426
    },
    {
      "acc": 0.67392759,
      "epoch": 0.020040588533739218,
      "grad_norm": 19.375,
      "learning_rate": 2.004058853373922e-06,
      "loss": 1.41867046,
      "memory(GiB)": 90.43,
      "step": 790,
      "train_speed(iter/s)": 1.151587
    },
    {
      "acc": 0.67680345,
      "epoch": 0.020167427701674276,
      "grad_norm": 25.125,
      "learning_rate": 2.016742770167428e-06,
      "loss": 1.36228666,
      "memory(GiB)": 90.43,
      "step": 795,
      "train_speed(iter/s)": 1.152739
    },
    {
      "acc": 0.68133988,
      "epoch": 0.020294266869609334,
      "grad_norm": 9.125,
      "learning_rate": 2.0294266869609335e-06,
      "loss": 1.34772129,
      "memory(GiB)": 90.43,
      "step": 800,
      "train_speed(iter/s)": 1.153596
    },
    {
      "acc": 0.67278781,
      "epoch": 0.020421106037544393,
      "grad_norm": 21.375,
      "learning_rate": 2.0421106037544395e-06,
      "loss": 1.45789242,
      "memory(GiB)": 90.43,
      "step": 805,
      "train_speed(iter/s)": 1.154859
    },
    {
      "acc": 0.69502859,
      "epoch": 0.02054794520547945,
      "grad_norm": 11.625,
      "learning_rate": 2.0547945205479454e-06,
      "loss": 1.33044119,
      "memory(GiB)": 90.43,
      "step": 810,
      "train_speed(iter/s)": 1.155831
    },
    {
      "acc": 0.68963885,
      "epoch": 0.02067478437341451,
      "grad_norm": 12.125,
      "learning_rate": 2.067478437341451e-06,
      "loss": 1.42905006,
      "memory(GiB)": 90.43,
      "step": 815,
      "train_speed(iter/s)": 1.156976
    },
    {
      "acc": 0.68053989,
      "epoch": 0.020801623541349568,
      "grad_norm": 16.0,
      "learning_rate": 2.080162354134957e-06,
      "loss": 1.41155758,
      "memory(GiB)": 90.43,
      "step": 820,
      "train_speed(iter/s)": 1.157458
    },
    {
      "acc": 0.65690217,
      "epoch": 0.020928462709284626,
      "grad_norm": 9.875,
      "learning_rate": 2.092846270928463e-06,
      "loss": 1.44681768,
      "memory(GiB)": 90.43,
      "step": 825,
      "train_speed(iter/s)": 1.157764
    },
    {
      "acc": 0.66780734,
      "epoch": 0.021055301877219684,
      "grad_norm": 10.125,
      "learning_rate": 2.1055301877219685e-06,
      "loss": 1.46964293,
      "memory(GiB)": 90.43,
      "step": 830,
      "train_speed(iter/s)": 1.158977
    },
    {
      "acc": 0.68688297,
      "epoch": 0.021182141045154743,
      "grad_norm": 5.75,
      "learning_rate": 2.1182141045154744e-06,
      "loss": 1.3795435,
      "memory(GiB)": 90.43,
      "step": 835,
      "train_speed(iter/s)": 1.159988
    },
    {
      "acc": 0.67812347,
      "epoch": 0.0213089802130898,
      "grad_norm": 22.125,
      "learning_rate": 2.1308980213089804e-06,
      "loss": 1.35078506,
      "memory(GiB)": 93.25,
      "step": 840,
      "train_speed(iter/s)": 1.160115
    },
    {
      "acc": 0.67977347,
      "epoch": 0.02143581938102486,
      "grad_norm": 54.25,
      "learning_rate": 2.143581938102486e-06,
      "loss": 1.35815582,
      "memory(GiB)": 93.25,
      "step": 845,
      "train_speed(iter/s)": 1.161048
    },
    {
      "acc": 0.70340271,
      "epoch": 0.021562658548959918,
      "grad_norm": 4.71875,
      "learning_rate": 2.156265854895992e-06,
      "loss": 1.37584391,
      "memory(GiB)": 93.25,
      "step": 850,
      "train_speed(iter/s)": 1.162165
    },
    {
      "acc": 0.66009183,
      "epoch": 0.021689497716894976,
      "grad_norm": 15.3125,
      "learning_rate": 2.168949771689498e-06,
      "loss": 1.43905706,
      "memory(GiB)": 93.25,
      "step": 855,
      "train_speed(iter/s)": 1.162956
    },
    {
      "acc": 0.68374672,
      "epoch": 0.021816336884830034,
      "grad_norm": 7.4375,
      "learning_rate": 2.1816336884830034e-06,
      "loss": 1.40130997,
      "memory(GiB)": 93.25,
      "step": 860,
      "train_speed(iter/s)": 1.163813
    },
    {
      "acc": 0.66650934,
      "epoch": 0.021943176052765093,
      "grad_norm": 12.8125,
      "learning_rate": 2.1943176052765094e-06,
      "loss": 1.38979855,
      "memory(GiB)": 93.25,
      "step": 865,
      "train_speed(iter/s)": 1.164735
    },
    {
      "acc": 0.67413144,
      "epoch": 0.02207001522070015,
      "grad_norm": 29.625,
      "learning_rate": 2.2070015220700153e-06,
      "loss": 1.46974497,
      "memory(GiB)": 93.25,
      "step": 870,
      "train_speed(iter/s)": 1.165886
    },
    {
      "acc": 0.67181101,
      "epoch": 0.02219685438863521,
      "grad_norm": 12.75,
      "learning_rate": 2.2196854388635213e-06,
      "loss": 1.41689978,
      "memory(GiB)": 93.25,
      "step": 875,
      "train_speed(iter/s)": 1.166844
    },
    {
      "acc": 0.6868124,
      "epoch": 0.022323693556570268,
      "grad_norm": 17.125,
      "learning_rate": 2.232369355657027e-06,
      "loss": 1.36502762,
      "memory(GiB)": 93.25,
      "step": 880,
      "train_speed(iter/s)": 1.167112
    },
    {
      "acc": 0.67425961,
      "epoch": 0.022450532724505326,
      "grad_norm": 7.96875,
      "learning_rate": 2.245053272450533e-06,
      "loss": 1.46232853,
      "memory(GiB)": 93.25,
      "step": 885,
      "train_speed(iter/s)": 1.167254
    },
    {
      "acc": 0.6731081,
      "epoch": 0.022577371892440384,
      "grad_norm": 21.875,
      "learning_rate": 2.2577371892440388e-06,
      "loss": 1.40865803,
      "memory(GiB)": 93.25,
      "step": 890,
      "train_speed(iter/s)": 1.168179
    },
    {
      "acc": 0.69179144,
      "epoch": 0.022704211060375443,
      "grad_norm": 6.0,
      "learning_rate": 2.2704211060375443e-06,
      "loss": 1.402071,
      "memory(GiB)": 93.25,
      "step": 895,
      "train_speed(iter/s)": 1.168854
    },
    {
      "acc": 0.69063854,
      "epoch": 0.0228310502283105,
      "grad_norm": 9.75,
      "learning_rate": 2.2831050228310503e-06,
      "loss": 1.40652199,
      "memory(GiB)": 93.25,
      "step": 900,
      "train_speed(iter/s)": 1.169615
    },
    {
      "acc": 0.67662659,
      "epoch": 0.02295788939624556,
      "grad_norm": 4.9375,
      "learning_rate": 2.2957889396245563e-06,
      "loss": 1.41220083,
      "memory(GiB)": 93.25,
      "step": 905,
      "train_speed(iter/s)": 1.16973
    },
    {
      "acc": 0.67498107,
      "epoch": 0.023084728564180618,
      "grad_norm": 4.53125,
      "learning_rate": 2.308472856418062e-06,
      "loss": 1.38754168,
      "memory(GiB)": 93.25,
      "step": 910,
      "train_speed(iter/s)": 1.170688
    },
    {
      "acc": 0.68274622,
      "epoch": 0.023211567732115676,
      "grad_norm": 4.15625,
      "learning_rate": 2.3211567732115678e-06,
      "loss": 1.37704897,
      "memory(GiB)": 93.25,
      "step": 915,
      "train_speed(iter/s)": 1.171089
    },
    {
      "acc": 0.70927448,
      "epoch": 0.023338406900050734,
      "grad_norm": 3.59375,
      "learning_rate": 2.3338406900050737e-06,
      "loss": 1.32636261,
      "memory(GiB)": 93.25,
      "step": 920,
      "train_speed(iter/s)": 1.171881
    },
    {
      "acc": 0.67260361,
      "epoch": 0.023465246067985793,
      "grad_norm": 4.5625,
      "learning_rate": 2.3465246067985793e-06,
      "loss": 1.41980762,
      "memory(GiB)": 93.25,
      "step": 925,
      "train_speed(iter/s)": 1.17277
    },
    {
      "acc": 0.68546996,
      "epoch": 0.02359208523592085,
      "grad_norm": 26.125,
      "learning_rate": 2.3592085235920852e-06,
      "loss": 1.38598766,
      "memory(GiB)": 93.25,
      "step": 930,
      "train_speed(iter/s)": 1.174025
    },
    {
      "acc": 0.68391395,
      "epoch": 0.02371892440385591,
      "grad_norm": 12.1875,
      "learning_rate": 2.371892440385591e-06,
      "loss": 1.31838875,
      "memory(GiB)": 93.25,
      "step": 935,
      "train_speed(iter/s)": 1.174419
    },
    {
      "acc": 0.69036589,
      "epoch": 0.023845763571790968,
      "grad_norm": 20.5,
      "learning_rate": 2.384576357179097e-06,
      "loss": 1.36382055,
      "memory(GiB)": 93.25,
      "step": 940,
      "train_speed(iter/s)": 1.175448
    },
    {
      "acc": 0.68637133,
      "epoch": 0.023972602739726026,
      "grad_norm": 6.59375,
      "learning_rate": 2.3972602739726027e-06,
      "loss": 1.37080326,
      "memory(GiB)": 93.25,
      "step": 945,
      "train_speed(iter/s)": 1.176354
    },
    {
      "acc": 0.67787123,
      "epoch": 0.024099441907661084,
      "grad_norm": 6.46875,
      "learning_rate": 2.4099441907661087e-06,
      "loss": 1.40757608,
      "memory(GiB)": 93.25,
      "step": 950,
      "train_speed(iter/s)": 1.177201
    },
    {
      "acc": 0.69202805,
      "epoch": 0.024226281075596143,
      "grad_norm": 6.96875,
      "learning_rate": 2.4226281075596147e-06,
      "loss": 1.38956795,
      "memory(GiB)": 93.25,
      "step": 955,
      "train_speed(iter/s)": 1.177784
    },
    {
      "acc": 0.68509712,
      "epoch": 0.0243531202435312,
      "grad_norm": 8.375,
      "learning_rate": 2.43531202435312e-06,
      "loss": 1.4162509,
      "memory(GiB)": 93.25,
      "step": 960,
      "train_speed(iter/s)": 1.178626
    },
    {
      "acc": 0.67676373,
      "epoch": 0.02447995941146626,
      "grad_norm": 5.84375,
      "learning_rate": 2.447995941146626e-06,
      "loss": 1.43990669,
      "memory(GiB)": 93.25,
      "step": 965,
      "train_speed(iter/s)": 1.179409
    },
    {
      "acc": 0.67521648,
      "epoch": 0.024606798579401318,
      "grad_norm": 6.09375,
      "learning_rate": 2.460679857940132e-06,
      "loss": 1.43147831,
      "memory(GiB)": 93.25,
      "step": 970,
      "train_speed(iter/s)": 1.179907
    },
    {
      "acc": 0.67782578,
      "epoch": 0.024733637747336376,
      "grad_norm": 20.875,
      "learning_rate": 2.4733637747336377e-06,
      "loss": 1.4179224,
      "memory(GiB)": 93.25,
      "step": 975,
      "train_speed(iter/s)": 1.180895
    },
    {
      "acc": 0.70090756,
      "epoch": 0.024860476915271434,
      "grad_norm": 22.375,
      "learning_rate": 2.4860476915271436e-06,
      "loss": 1.33346624,
      "memory(GiB)": 93.25,
      "step": 980,
      "train_speed(iter/s)": 1.181316
    },
    {
      "acc": 0.67922173,
      "epoch": 0.024987316083206493,
      "grad_norm": 12.9375,
      "learning_rate": 2.4987316083206496e-06,
      "loss": 1.4102663,
      "memory(GiB)": 93.25,
      "step": 985,
      "train_speed(iter/s)": 1.18162
    },
    {
      "acc": 0.66949925,
      "epoch": 0.02511415525114155,
      "grad_norm": 7.875,
      "learning_rate": 2.511415525114155e-06,
      "loss": 1.45323372,
      "memory(GiB)": 93.25,
      "step": 990,
      "train_speed(iter/s)": 1.18245
    },
    {
      "acc": 0.67627892,
      "epoch": 0.02524099441907661,
      "grad_norm": 5.15625,
      "learning_rate": 2.5240994419076615e-06,
      "loss": 1.37059212,
      "memory(GiB)": 93.25,
      "step": 995,
      "train_speed(iter/s)": 1.183399
    },
    {
      "acc": 0.69323854,
      "epoch": 0.025367833587011668,
      "grad_norm": 5.53125,
      "learning_rate": 2.536783358701167e-06,
      "loss": 1.30548067,
      "memory(GiB)": 93.25,
      "step": 1000,
      "train_speed(iter/s)": 1.184033
    },
    {
      "epoch": 0.025367833587011668,
      "eval_acc": 0.6721200692482306,
      "eval_loss": 1.355830430984497,
      "eval_runtime": 70.8292,
      "eval_samples_per_second": 89.935,
      "eval_steps_per_second": 22.491,
      "step": 1000
    },
    {
      "acc": 0.68020763,
      "epoch": 0.025494672754946726,
      "grad_norm": 25.5,
      "learning_rate": 2.549467275494673e-06,
      "loss": 1.38895979,
      "memory(GiB)": 93.25,
      "step": 1005,
      "train_speed(iter/s)": 1.044402
    },
    {
      "acc": 0.68055158,
      "epoch": 0.025621511922881784,
      "grad_norm": 10.1875,
      "learning_rate": 2.5621511922881786e-06,
      "loss": 1.47099819,
      "memory(GiB)": 93.25,
      "step": 1010,
      "train_speed(iter/s)": 1.045396
    },
    {
      "acc": 0.66832552,
      "epoch": 0.025748351090816843,
      "grad_norm": 10.125,
      "learning_rate": 2.5748351090816846e-06,
      "loss": 1.41401596,
      "memory(GiB)": 93.25,
      "step": 1015,
      "train_speed(iter/s)": 1.046032
    },
    {
      "acc": 0.69114666,
      "epoch": 0.0258751902587519,
      "grad_norm": 7.625,
      "learning_rate": 2.5875190258751905e-06,
      "loss": 1.37179651,
      "memory(GiB)": 93.25,
      "step": 1020,
      "train_speed(iter/s)": 1.047218
    },
    {
      "acc": 0.69869905,
      "epoch": 0.02600202942668696,
      "grad_norm": 4.46875,
      "learning_rate": 2.6002029426686965e-06,
      "loss": 1.38515568,
      "memory(GiB)": 93.25,
      "step": 1025,
      "train_speed(iter/s)": 1.047848
    },
    {
      "acc": 0.68524933,
      "epoch": 0.026128868594622018,
      "grad_norm": 9.6875,
      "learning_rate": 2.612886859462202e-06,
      "loss": 1.38422432,
      "memory(GiB)": 93.25,
      "step": 1030,
      "train_speed(iter/s)": 1.048991
    },
    {
      "acc": 0.69604635,
      "epoch": 0.026255707762557076,
      "grad_norm": 6.90625,
      "learning_rate": 2.625570776255708e-06,
      "loss": 1.37110834,
      "memory(GiB)": 93.25,
      "step": 1035,
      "train_speed(iter/s)": 1.04943
    },
    {
      "acc": 0.68175874,
      "epoch": 0.026382546930492135,
      "grad_norm": 36.75,
      "learning_rate": 2.6382546930492135e-06,
      "loss": 1.36981421,
      "memory(GiB)": 93.25,
      "step": 1040,
      "train_speed(iter/s)": 1.050651
    },
    {
      "acc": 0.68963404,
      "epoch": 0.026509386098427193,
      "grad_norm": 5.96875,
      "learning_rate": 2.65093860984272e-06,
      "loss": 1.43413439,
      "memory(GiB)": 93.25,
      "step": 1045,
      "train_speed(iter/s)": 1.051213
    },
    {
      "acc": 0.69234672,
      "epoch": 0.02663622526636225,
      "grad_norm": 23.375,
      "learning_rate": 2.6636225266362255e-06,
      "loss": 1.35729027,
      "memory(GiB)": 93.25,
      "step": 1050,
      "train_speed(iter/s)": 1.052352
    },
    {
      "acc": 0.68865519,
      "epoch": 0.02676306443429731,
      "grad_norm": 5.46875,
      "learning_rate": 2.6763064434297314e-06,
      "loss": 1.34751682,
      "memory(GiB)": 93.25,
      "step": 1055,
      "train_speed(iter/s)": 1.053512
    },
    {
      "acc": 0.68278861,
      "epoch": 0.026889903602232368,
      "grad_norm": 15.5625,
      "learning_rate": 2.688990360223237e-06,
      "loss": 1.35940228,
      "memory(GiB)": 93.25,
      "step": 1060,
      "train_speed(iter/s)": 1.054387
    },
    {
      "acc": 0.68204184,
      "epoch": 0.027016742770167426,
      "grad_norm": 4.0,
      "learning_rate": 2.701674277016743e-06,
      "loss": 1.36050806,
      "memory(GiB)": 93.25,
      "step": 1065,
      "train_speed(iter/s)": 1.055676
    },
    {
      "acc": 0.67996573,
      "epoch": 0.027143581938102485,
      "grad_norm": 5.4375,
      "learning_rate": 2.7143581938102485e-06,
      "loss": 1.41482944,
      "memory(GiB)": 93.25,
      "step": 1070,
      "train_speed(iter/s)": 1.056122
    },
    {
      "acc": 0.68081436,
      "epoch": 0.027270421106037543,
      "grad_norm": 8.3125,
      "learning_rate": 2.727042110603755e-06,
      "loss": 1.38753662,
      "memory(GiB)": 93.25,
      "step": 1075,
      "train_speed(iter/s)": 1.056882
    },
    {
      "acc": 0.66375628,
      "epoch": 0.0273972602739726,
      "grad_norm": 5.125,
      "learning_rate": 2.7397260273972604e-06,
      "loss": 1.45644855,
      "memory(GiB)": 93.25,
      "step": 1080,
      "train_speed(iter/s)": 1.057837
    },
    {
      "acc": 0.69835978,
      "epoch": 0.02752409944190766,
      "grad_norm": 16.625,
      "learning_rate": 2.7524099441907664e-06,
      "loss": 1.36155949,
      "memory(GiB)": 93.25,
      "step": 1085,
      "train_speed(iter/s)": 1.059013
    },
    {
      "acc": 0.69847937,
      "epoch": 0.027650938609842718,
      "grad_norm": 5.46875,
      "learning_rate": 2.765093860984272e-06,
      "loss": 1.33548737,
      "memory(GiB)": 93.25,
      "step": 1090,
      "train_speed(iter/s)": 1.060073
    },
    {
      "acc": 0.67335463,
      "epoch": 0.027777777777777776,
      "grad_norm": 4.59375,
      "learning_rate": 2.7777777777777783e-06,
      "loss": 1.37582951,
      "memory(GiB)": 93.25,
      "step": 1095,
      "train_speed(iter/s)": 1.061279
    },
    {
      "acc": 0.68899326,
      "epoch": 0.027904616945712835,
      "grad_norm": 12.5,
      "learning_rate": 2.790461694571284e-06,
      "loss": 1.30206566,
      "memory(GiB)": 93.25,
      "step": 1100,
      "train_speed(iter/s)": 1.062029
    },
    {
      "acc": 0.68789992,
      "epoch": 0.028031456113647893,
      "grad_norm": 7.4375,
      "learning_rate": 2.80314561136479e-06,
      "loss": 1.3742487,
      "memory(GiB)": 93.25,
      "step": 1105,
      "train_speed(iter/s)": 1.062884
    },
    {
      "acc": 0.6923769,
      "epoch": 0.02815829528158295,
      "grad_norm": 22.75,
      "learning_rate": 2.8158295281582954e-06,
      "loss": 1.34551659,
      "memory(GiB)": 93.25,
      "step": 1110,
      "train_speed(iter/s)": 1.063814
    },
    {
      "acc": 0.68175936,
      "epoch": 0.02828513444951801,
      "grad_norm": 7.96875,
      "learning_rate": 2.8285134449518014e-06,
      "loss": 1.42055111,
      "memory(GiB)": 93.25,
      "step": 1115,
      "train_speed(iter/s)": 1.064957
    },
    {
      "acc": 0.68206606,
      "epoch": 0.028411973617453068,
      "grad_norm": 9.8125,
      "learning_rate": 2.841197361745307e-06,
      "loss": 1.39039326,
      "memory(GiB)": 93.25,
      "step": 1120,
      "train_speed(iter/s)": 1.065731
    },
    {
      "acc": 0.67244024,
      "epoch": 0.028538812785388126,
      "grad_norm": 4.96875,
      "learning_rate": 2.8538812785388133e-06,
      "loss": 1.3443882,
      "memory(GiB)": 93.25,
      "step": 1125,
      "train_speed(iter/s)": 1.066519
    },
    {
      "acc": 0.69379148,
      "epoch": 0.028665651953323185,
      "grad_norm": 5.625,
      "learning_rate": 2.866565195332319e-06,
      "loss": 1.31373396,
      "memory(GiB)": 93.25,
      "step": 1130,
      "train_speed(iter/s)": 1.067515
    },
    {
      "acc": 0.69086137,
      "epoch": 0.028792491121258243,
      "grad_norm": 6.90625,
      "learning_rate": 2.879249112125825e-06,
      "loss": 1.32949219,
      "memory(GiB)": 93.25,
      "step": 1135,
      "train_speed(iter/s)": 1.0681
    },
    {
      "acc": 0.68288312,
      "epoch": 0.0289193302891933,
      "grad_norm": 4.84375,
      "learning_rate": 2.8919330289193303e-06,
      "loss": 1.42478428,
      "memory(GiB)": 93.25,
      "step": 1140,
      "train_speed(iter/s)": 1.068921
    },
    {
      "acc": 0.68012991,
      "epoch": 0.02904616945712836,
      "grad_norm": 6.96875,
      "learning_rate": 2.9046169457128363e-06,
      "loss": 1.35945911,
      "memory(GiB)": 93.25,
      "step": 1145,
      "train_speed(iter/s)": 1.069875
    },
    {
      "acc": 0.68099241,
      "epoch": 0.029173008625063418,
      "grad_norm": 12.0,
      "learning_rate": 2.917300862506342e-06,
      "loss": 1.37038059,
      "memory(GiB)": 93.25,
      "step": 1150,
      "train_speed(iter/s)": 1.070967
    },
    {
      "acc": 0.68767853,
      "epoch": 0.029299847792998476,
      "grad_norm": 5.03125,
      "learning_rate": 2.9299847792998482e-06,
      "loss": 1.33621559,
      "memory(GiB)": 93.25,
      "step": 1155,
      "train_speed(iter/s)": 1.071906
    },
    {
      "acc": 0.69585142,
      "epoch": 0.029426686960933535,
      "grad_norm": 9.0,
      "learning_rate": 2.9426686960933538e-06,
      "loss": 1.36488171,
      "memory(GiB)": 93.25,
      "step": 1160,
      "train_speed(iter/s)": 1.073077
    },
    {
      "acc": 0.68650713,
      "epoch": 0.029553526128868593,
      "grad_norm": 6.125,
      "learning_rate": 2.9553526128868598e-06,
      "loss": 1.3327734,
      "memory(GiB)": 93.25,
      "step": 1165,
      "train_speed(iter/s)": 1.073759
    },
    {
      "acc": 0.68025188,
      "epoch": 0.02968036529680365,
      "grad_norm": 4.46875,
      "learning_rate": 2.9680365296803653e-06,
      "loss": 1.38278751,
      "memory(GiB)": 93.25,
      "step": 1170,
      "train_speed(iter/s)": 1.074505
    },
    {
      "acc": 0.69540448,
      "epoch": 0.02980720446473871,
      "grad_norm": 7.5,
      "learning_rate": 2.9807204464738717e-06,
      "loss": 1.36704597,
      "memory(GiB)": 93.25,
      "step": 1175,
      "train_speed(iter/s)": 1.075086
    },
    {
      "acc": 0.69713335,
      "epoch": 0.029934043632673768,
      "grad_norm": 4.71875,
      "learning_rate": 2.9934043632673772e-06,
      "loss": 1.293466,
      "memory(GiB)": 93.25,
      "step": 1180,
      "train_speed(iter/s)": 1.075707
    },
    {
      "acc": 0.67928944,
      "epoch": 0.030060882800608826,
      "grad_norm": 5.4375,
      "learning_rate": 3.006088280060883e-06,
      "loss": 1.3607728,
      "memory(GiB)": 93.25,
      "step": 1185,
      "train_speed(iter/s)": 1.076347
    },
    {
      "acc": 0.68405771,
      "epoch": 0.030187721968543885,
      "grad_norm": 4.90625,
      "learning_rate": 3.0187721968543887e-06,
      "loss": 1.40201874,
      "memory(GiB)": 96.54,
      "step": 1190,
      "train_speed(iter/s)": 1.076684
    },
    {
      "acc": 0.67707896,
      "epoch": 0.030314561136478943,
      "grad_norm": 8.875,
      "learning_rate": 3.0314561136478947e-06,
      "loss": 1.42067413,
      "memory(GiB)": 96.54,
      "step": 1195,
      "train_speed(iter/s)": 1.077272
    },
    {
      "acc": 0.70736933,
      "epoch": 0.030441400304414,
      "grad_norm": 14.125,
      "learning_rate": 3.0441400304414002e-06,
      "loss": 1.32043343,
      "memory(GiB)": 96.54,
      "step": 1200,
      "train_speed(iter/s)": 1.078143
    },
    {
      "acc": 0.67176743,
      "epoch": 0.03056823947234906,
      "grad_norm": 8.0625,
      "learning_rate": 3.0568239472349066e-06,
      "loss": 1.44214163,
      "memory(GiB)": 96.54,
      "step": 1205,
      "train_speed(iter/s)": 1.079092
    },
    {
      "acc": 0.67109365,
      "epoch": 0.030695078640284118,
      "grad_norm": 6.5,
      "learning_rate": 3.069507864028412e-06,
      "loss": 1.34659805,
      "memory(GiB)": 96.54,
      "step": 1210,
      "train_speed(iter/s)": 1.07973
    },
    {
      "acc": 0.68704824,
      "epoch": 0.030821917808219176,
      "grad_norm": 25.125,
      "learning_rate": 3.082191780821918e-06,
      "loss": 1.37858181,
      "memory(GiB)": 96.54,
      "step": 1215,
      "train_speed(iter/s)": 1.08064
    },
    {
      "acc": 0.68442631,
      "epoch": 0.030948756976154235,
      "grad_norm": 11.0,
      "learning_rate": 3.0948756976154237e-06,
      "loss": 1.36137657,
      "memory(GiB)": 96.54,
      "step": 1220,
      "train_speed(iter/s)": 1.081127
    },
    {
      "acc": 0.69747429,
      "epoch": 0.031075596144089293,
      "grad_norm": 8.5625,
      "learning_rate": 3.1075596144089297e-06,
      "loss": 1.36056328,
      "memory(GiB)": 96.54,
      "step": 1225,
      "train_speed(iter/s)": 1.081705
    },
    {
      "acc": 0.69611335,
      "epoch": 0.03120243531202435,
      "grad_norm": 6.34375,
      "learning_rate": 3.120243531202435e-06,
      "loss": 1.37653151,
      "memory(GiB)": 96.54,
      "step": 1230,
      "train_speed(iter/s)": 1.082033
    },
    {
      "acc": 0.6814271,
      "epoch": 0.03132927447995941,
      "grad_norm": 9.25,
      "learning_rate": 3.1329274479959416e-06,
      "loss": 1.41860857,
      "memory(GiB)": 96.54,
      "step": 1235,
      "train_speed(iter/s)": 1.082849
    },
    {
      "acc": 0.68914685,
      "epoch": 0.03145611364789447,
      "grad_norm": 11.8125,
      "learning_rate": 3.145611364789447e-06,
      "loss": 1.37449017,
      "memory(GiB)": 96.54,
      "step": 1240,
      "train_speed(iter/s)": 1.083566
    },
    {
      "acc": 0.6865365,
      "epoch": 0.031582952815829526,
      "grad_norm": 4.625,
      "learning_rate": 3.158295281582953e-06,
      "loss": 1.42382288,
      "memory(GiB)": 96.54,
      "step": 1245,
      "train_speed(iter/s)": 1.084175
    },
    {
      "acc": 0.68461666,
      "epoch": 0.031709791983764585,
      "grad_norm": 4.5,
      "learning_rate": 3.1709791983764586e-06,
      "loss": 1.34503136,
      "memory(GiB)": 96.54,
      "step": 1250,
      "train_speed(iter/s)": 1.085067
    },
    {
      "acc": 0.68958941,
      "epoch": 0.03183663115169964,
      "grad_norm": 4.21875,
      "learning_rate": 3.183663115169965e-06,
      "loss": 1.36831226,
      "memory(GiB)": 96.54,
      "step": 1255,
      "train_speed(iter/s)": 1.0859
    },
    {
      "acc": 0.69633217,
      "epoch": 0.0319634703196347,
      "grad_norm": 3.6875,
      "learning_rate": 3.1963470319634706e-06,
      "loss": 1.38319988,
      "memory(GiB)": 96.54,
      "step": 1260,
      "train_speed(iter/s)": 1.086775
    },
    {
      "acc": 0.6899354,
      "epoch": 0.03209030948756976,
      "grad_norm": 4.65625,
      "learning_rate": 3.2090309487569765e-06,
      "loss": 1.35490055,
      "memory(GiB)": 96.54,
      "step": 1265,
      "train_speed(iter/s)": 1.087616
    },
    {
      "acc": 0.68344011,
      "epoch": 0.03221714865550482,
      "grad_norm": 5.625,
      "learning_rate": 3.221714865550482e-06,
      "loss": 1.38208151,
      "memory(GiB)": 96.54,
      "step": 1270,
      "train_speed(iter/s)": 1.088308
    },
    {
      "acc": 0.6789763,
      "epoch": 0.032343987823439876,
      "grad_norm": 4.71875,
      "learning_rate": 3.234398782343988e-06,
      "loss": 1.40855904,
      "memory(GiB)": 96.54,
      "step": 1275,
      "train_speed(iter/s)": 1.088795
    },
    {
      "acc": 0.69229698,
      "epoch": 0.032470826991374935,
      "grad_norm": 3.84375,
      "learning_rate": 3.2470826991374936e-06,
      "loss": 1.34785328,
      "memory(GiB)": 96.54,
      "step": 1280,
      "train_speed(iter/s)": 1.089832
    },
    {
      "acc": 0.6860261,
      "epoch": 0.03259766615930999,
      "grad_norm": 5.5,
      "learning_rate": 3.259766615931e-06,
      "loss": 1.36049328,
      "memory(GiB)": 96.54,
      "step": 1285,
      "train_speed(iter/s)": 1.090603
    },
    {
      "acc": 0.68993101,
      "epoch": 0.03272450532724505,
      "grad_norm": 4.65625,
      "learning_rate": 3.2724505327245055e-06,
      "loss": 1.33065777,
      "memory(GiB)": 96.54,
      "step": 1290,
      "train_speed(iter/s)": 1.091174
    },
    {
      "acc": 0.68009901,
      "epoch": 0.03285134449518011,
      "grad_norm": 5.71875,
      "learning_rate": 3.2851344495180115e-06,
      "loss": 1.39920712,
      "memory(GiB)": 96.54,
      "step": 1295,
      "train_speed(iter/s)": 1.09182
    },
    {
      "acc": 0.68594432,
      "epoch": 0.03297818366311517,
      "grad_norm": 6.625,
      "learning_rate": 3.297818366311517e-06,
      "loss": 1.43203039,
      "memory(GiB)": 96.54,
      "step": 1300,
      "train_speed(iter/s)": 1.092129
    },
    {
      "acc": 0.6954143,
      "epoch": 0.033105022831050226,
      "grad_norm": 7.03125,
      "learning_rate": 3.310502283105023e-06,
      "loss": 1.32621861,
      "memory(GiB)": 96.54,
      "step": 1305,
      "train_speed(iter/s)": 1.092742
    },
    {
      "acc": 0.68517895,
      "epoch": 0.033231861998985285,
      "grad_norm": 6.75,
      "learning_rate": 3.3231861998985286e-06,
      "loss": 1.34120388,
      "memory(GiB)": 96.54,
      "step": 1310,
      "train_speed(iter/s)": 1.093694
    },
    {
      "acc": 0.70382547,
      "epoch": 0.03335870116692034,
      "grad_norm": 9.3125,
      "learning_rate": 3.335870116692035e-06,
      "loss": 1.24426155,
      "memory(GiB)": 96.54,
      "step": 1315,
      "train_speed(iter/s)": 1.094639
    },
    {
      "acc": 0.68077822,
      "epoch": 0.0334855403348554,
      "grad_norm": 8.0,
      "learning_rate": 3.3485540334855405e-06,
      "loss": 1.36538887,
      "memory(GiB)": 96.54,
      "step": 1320,
      "train_speed(iter/s)": 1.09528
    },
    {
      "acc": 0.69640589,
      "epoch": 0.03361237950279046,
      "grad_norm": 5.71875,
      "learning_rate": 3.3612379502790465e-06,
      "loss": 1.2410923,
      "memory(GiB)": 96.54,
      "step": 1325,
      "train_speed(iter/s)": 1.09595
    },
    {
      "acc": 0.70065937,
      "epoch": 0.03373921867072552,
      "grad_norm": 6.59375,
      "learning_rate": 3.373921867072552e-06,
      "loss": 1.35558958,
      "memory(GiB)": 96.54,
      "step": 1330,
      "train_speed(iter/s)": 1.096402
    },
    {
      "acc": 0.68892097,
      "epoch": 0.033866057838660577,
      "grad_norm": 3.921875,
      "learning_rate": 3.3866057838660584e-06,
      "loss": 1.40327892,
      "memory(GiB)": 96.54,
      "step": 1335,
      "train_speed(iter/s)": 1.096824
    },
    {
      "acc": 0.69986978,
      "epoch": 0.033992897006595635,
      "grad_norm": 4.78125,
      "learning_rate": 3.399289700659564e-06,
      "loss": 1.33268328,
      "memory(GiB)": 96.54,
      "step": 1340,
      "train_speed(iter/s)": 1.097386
    },
    {
      "acc": 0.70974665,
      "epoch": 0.03411973617453069,
      "grad_norm": 3.765625,
      "learning_rate": 3.41197361745307e-06,
      "loss": 1.31840734,
      "memory(GiB)": 96.54,
      "step": 1345,
      "train_speed(iter/s)": 1.098047
    },
    {
      "acc": 0.68492546,
      "epoch": 0.03424657534246575,
      "grad_norm": 4.15625,
      "learning_rate": 3.4246575342465754e-06,
      "loss": 1.33465471,
      "memory(GiB)": 96.54,
      "step": 1350,
      "train_speed(iter/s)": 1.098385
    },
    {
      "acc": 0.71132994,
      "epoch": 0.03437341451040081,
      "grad_norm": 5.21875,
      "learning_rate": 3.4373414510400814e-06,
      "loss": 1.28422489,
      "memory(GiB)": 96.54,
      "step": 1355,
      "train_speed(iter/s)": 1.099304
    },
    {
      "acc": 0.69398284,
      "epoch": 0.03450025367833587,
      "grad_norm": 5.125,
      "learning_rate": 3.450025367833587e-06,
      "loss": 1.34460487,
      "memory(GiB)": 96.54,
      "step": 1360,
      "train_speed(iter/s)": 1.099958
    },
    {
      "acc": 0.67922964,
      "epoch": 0.03462709284627093,
      "grad_norm": 4.5625,
      "learning_rate": 3.4627092846270933e-06,
      "loss": 1.37709694,
      "memory(GiB)": 96.54,
      "step": 1365,
      "train_speed(iter/s)": 1.100791
    },
    {
      "acc": 0.67996912,
      "epoch": 0.034753932014205985,
      "grad_norm": 4.25,
      "learning_rate": 3.475393201420599e-06,
      "loss": 1.36681643,
      "memory(GiB)": 96.54,
      "step": 1370,
      "train_speed(iter/s)": 1.101289
    },
    {
      "acc": 0.68705683,
      "epoch": 0.03488077118214104,
      "grad_norm": 4.03125,
      "learning_rate": 3.488077118214105e-06,
      "loss": 1.31619329,
      "memory(GiB)": 96.54,
      "step": 1375,
      "train_speed(iter/s)": 1.101987
    },
    {
      "acc": 0.69002352,
      "epoch": 0.0350076103500761,
      "grad_norm": 4.0,
      "learning_rate": 3.5007610350076104e-06,
      "loss": 1.33561373,
      "memory(GiB)": 96.54,
      "step": 1380,
      "train_speed(iter/s)": 1.102628
    },
    {
      "acc": 0.69796615,
      "epoch": 0.03513444951801116,
      "grad_norm": 4.1875,
      "learning_rate": 3.5134449518011164e-06,
      "loss": 1.33918362,
      "memory(GiB)": 96.54,
      "step": 1385,
      "train_speed(iter/s)": 1.103418
    },
    {
      "acc": 0.68332148,
      "epoch": 0.03526128868594622,
      "grad_norm": 4.0,
      "learning_rate": 3.5261288685946223e-06,
      "loss": 1.37298975,
      "memory(GiB)": 96.54,
      "step": 1390,
      "train_speed(iter/s)": 1.104037
    },
    {
      "acc": 0.67742968,
      "epoch": 0.03538812785388128,
      "grad_norm": 3.9375,
      "learning_rate": 3.5388127853881283e-06,
      "loss": 1.41771889,
      "memory(GiB)": 96.54,
      "step": 1395,
      "train_speed(iter/s)": 1.104277
    },
    {
      "acc": 0.68561206,
      "epoch": 0.035514967021816335,
      "grad_norm": 3.96875,
      "learning_rate": 3.551496702181634e-06,
      "loss": 1.3290369,
      "memory(GiB)": 96.54,
      "step": 1400,
      "train_speed(iter/s)": 1.105143
    },
    {
      "acc": 0.69105015,
      "epoch": 0.03564180618975139,
      "grad_norm": 4.78125,
      "learning_rate": 3.56418061897514e-06,
      "loss": 1.42744322,
      "memory(GiB)": 96.54,
      "step": 1405,
      "train_speed(iter/s)": 1.10579
    },
    {
      "acc": 0.6817831,
      "epoch": 0.03576864535768645,
      "grad_norm": 4.5625,
      "learning_rate": 3.5768645357686453e-06,
      "loss": 1.41869402,
      "memory(GiB)": 96.54,
      "step": 1410,
      "train_speed(iter/s)": 1.106651
    },
    {
      "acc": 0.69700985,
      "epoch": 0.03589548452562151,
      "grad_norm": 4.1875,
      "learning_rate": 3.5895484525621517e-06,
      "loss": 1.38967953,
      "memory(GiB)": 96.54,
      "step": 1415,
      "train_speed(iter/s)": 1.107135
    },
    {
      "acc": 0.71004162,
      "epoch": 0.03602232369355657,
      "grad_norm": 5.0,
      "learning_rate": 3.6022323693556573e-06,
      "loss": 1.30690193,
      "memory(GiB)": 96.54,
      "step": 1420,
      "train_speed(iter/s)": 1.107443
    },
    {
      "acc": 0.68585277,
      "epoch": 0.03614916286149163,
      "grad_norm": 4.59375,
      "learning_rate": 3.6149162861491632e-06,
      "loss": 1.38032417,
      "memory(GiB)": 96.54,
      "step": 1425,
      "train_speed(iter/s)": 1.108152
    },
    {
      "acc": 0.70889235,
      "epoch": 0.036276002029426685,
      "grad_norm": 3.84375,
      "learning_rate": 3.6276002029426688e-06,
      "loss": 1.29525146,
      "memory(GiB)": 96.54,
      "step": 1430,
      "train_speed(iter/s)": 1.108545
    },
    {
      "acc": 0.67171993,
      "epoch": 0.03640284119736174,
      "grad_norm": 4.21875,
      "learning_rate": 3.6402841197361748e-06,
      "loss": 1.38353395,
      "memory(GiB)": 96.54,
      "step": 1435,
      "train_speed(iter/s)": 1.109228
    },
    {
      "acc": 0.69057059,
      "epoch": 0.0365296803652968,
      "grad_norm": 4.71875,
      "learning_rate": 3.6529680365296803e-06,
      "loss": 1.39375286,
      "memory(GiB)": 96.54,
      "step": 1440,
      "train_speed(iter/s)": 1.109823
    },
    {
      "acc": 0.71184464,
      "epoch": 0.03665651953323186,
      "grad_norm": 3.9375,
      "learning_rate": 3.6656519533231867e-06,
      "loss": 1.32906628,
      "memory(GiB)": 96.54,
      "step": 1445,
      "train_speed(iter/s)": 1.110142
    },
    {
      "acc": 0.68227367,
      "epoch": 0.03678335870116692,
      "grad_norm": 3.828125,
      "learning_rate": 3.6783358701166922e-06,
      "loss": 1.43242874,
      "memory(GiB)": 96.54,
      "step": 1450,
      "train_speed(iter/s)": 1.110925
    },
    {
      "acc": 0.69701405,
      "epoch": 0.03691019786910198,
      "grad_norm": 3.765625,
      "learning_rate": 3.691019786910198e-06,
      "loss": 1.35642204,
      "memory(GiB)": 96.54,
      "step": 1455,
      "train_speed(iter/s)": 1.111516
    },
    {
      "acc": 0.70065703,
      "epoch": 0.037037037037037035,
      "grad_norm": 4.4375,
      "learning_rate": 3.7037037037037037e-06,
      "loss": 1.25563612,
      "memory(GiB)": 96.54,
      "step": 1460,
      "train_speed(iter/s)": 1.112206
    },
    {
      "acc": 0.68413806,
      "epoch": 0.03716387620497209,
      "grad_norm": 4.4375,
      "learning_rate": 3.7163876204972097e-06,
      "loss": 1.37906275,
      "memory(GiB)": 96.54,
      "step": 1465,
      "train_speed(iter/s)": 1.112737
    },
    {
      "acc": 0.68385525,
      "epoch": 0.03729071537290715,
      "grad_norm": 4.03125,
      "learning_rate": 3.7290715372907157e-06,
      "loss": 1.37408772,
      "memory(GiB)": 96.54,
      "step": 1470,
      "train_speed(iter/s)": 1.113259
    },
    {
      "acc": 0.68801088,
      "epoch": 0.03741755454084221,
      "grad_norm": 4.25,
      "learning_rate": 3.7417554540842216e-06,
      "loss": 1.36292477,
      "memory(GiB)": 96.54,
      "step": 1475,
      "train_speed(iter/s)": 1.113857
    },
    {
      "acc": 0.71271811,
      "epoch": 0.03754439370877727,
      "grad_norm": 3.5625,
      "learning_rate": 3.754439370877727e-06,
      "loss": 1.29965324,
      "memory(GiB)": 96.54,
      "step": 1480,
      "train_speed(iter/s)": 1.114489
    },
    {
      "acc": 0.69218359,
      "epoch": 0.03767123287671233,
      "grad_norm": 4.75,
      "learning_rate": 3.767123287671233e-06,
      "loss": 1.29809647,
      "memory(GiB)": 96.54,
      "step": 1485,
      "train_speed(iter/s)": 1.11476
    },
    {
      "acc": 0.68169441,
      "epoch": 0.037798072044647385,
      "grad_norm": 4.40625,
      "learning_rate": 3.7798072044647387e-06,
      "loss": 1.37820663,
      "memory(GiB)": 96.54,
      "step": 1490,
      "train_speed(iter/s)": 1.115233
    },
    {
      "acc": 0.67010212,
      "epoch": 0.03792491121258244,
      "grad_norm": 5.53125,
      "learning_rate": 3.792491121258245e-06,
      "loss": 1.46174736,
      "memory(GiB)": 96.54,
      "step": 1495,
      "train_speed(iter/s)": 1.115755
    },
    {
      "acc": 0.67767582,
      "epoch": 0.0380517503805175,
      "grad_norm": 3.9375,
      "learning_rate": 3.8051750380517506e-06,
      "loss": 1.37839956,
      "memory(GiB)": 96.54,
      "step": 1500,
      "train_speed(iter/s)": 1.116268
    },
    {
      "acc": 0.6896615,
      "epoch": 0.03817858954845256,
      "grad_norm": 3.546875,
      "learning_rate": 3.817858954845256e-06,
      "loss": 1.34478359,
      "memory(GiB)": 96.54,
      "step": 1505,
      "train_speed(iter/s)": 1.116853
    },
    {
      "acc": 0.68790007,
      "epoch": 0.03830542871638762,
      "grad_norm": 4.375,
      "learning_rate": 3.830542871638762e-06,
      "loss": 1.34477749,
      "memory(GiB)": 96.54,
      "step": 1510,
      "train_speed(iter/s)": 1.117542
    },
    {
      "acc": 0.69929686,
      "epoch": 0.03843226788432268,
      "grad_norm": 4.09375,
      "learning_rate": 3.843226788432268e-06,
      "loss": 1.29207973,
      "memory(GiB)": 96.54,
      "step": 1515,
      "train_speed(iter/s)": 1.117521
    },
    {
      "acc": 0.692975,
      "epoch": 0.038559107052257735,
      "grad_norm": 7.8125,
      "learning_rate": 3.855910705225774e-06,
      "loss": 1.32893753,
      "memory(GiB)": 96.54,
      "step": 1520,
      "train_speed(iter/s)": 1.117984
    },
    {
      "acc": 0.68993664,
      "epoch": 0.03868594622019279,
      "grad_norm": 3.84375,
      "learning_rate": 3.86859462201928e-06,
      "loss": 1.3625433,
      "memory(GiB)": 96.54,
      "step": 1525,
      "train_speed(iter/s)": 1.118121
    },
    {
      "acc": 0.6788805,
      "epoch": 0.03881278538812785,
      "grad_norm": 3.96875,
      "learning_rate": 3.881278538812785e-06,
      "loss": 1.36080818,
      "memory(GiB)": 96.54,
      "step": 1530,
      "train_speed(iter/s)": 1.118447
    },
    {
      "acc": 0.69777346,
      "epoch": 0.03893962455606291,
      "grad_norm": 3.921875,
      "learning_rate": 3.893962455606292e-06,
      "loss": 1.32497215,
      "memory(GiB)": 96.54,
      "step": 1535,
      "train_speed(iter/s)": 1.11895
    },
    {
      "acc": 0.70547791,
      "epoch": 0.03906646372399797,
      "grad_norm": 5.0625,
      "learning_rate": 3.906646372399797e-06,
      "loss": 1.2806139,
      "memory(GiB)": 96.54,
      "step": 1540,
      "train_speed(iter/s)": 1.119222
    },
    {
      "acc": 0.67446365,
      "epoch": 0.03919330289193303,
      "grad_norm": 4.0,
      "learning_rate": 3.919330289193303e-06,
      "loss": 1.38521881,
      "memory(GiB)": 96.54,
      "step": 1545,
      "train_speed(iter/s)": 1.119417
    },
    {
      "acc": 0.67715397,
      "epoch": 0.039320142059868085,
      "grad_norm": 4.40625,
      "learning_rate": 3.932014205986809e-06,
      "loss": 1.34350729,
      "memory(GiB)": 96.54,
      "step": 1550,
      "train_speed(iter/s)": 1.120286
    },
    {
      "acc": 0.70566397,
      "epoch": 0.03944698122780314,
      "grad_norm": 5.0625,
      "learning_rate": 3.944698122780315e-06,
      "loss": 1.30424833,
      "memory(GiB)": 96.54,
      "step": 1555,
      "train_speed(iter/s)": 1.120868
    },
    {
      "acc": 0.69160471,
      "epoch": 0.0395738203957382,
      "grad_norm": 6.71875,
      "learning_rate": 3.95738203957382e-06,
      "loss": 1.37495413,
      "memory(GiB)": 96.54,
      "step": 1560,
      "train_speed(iter/s)": 1.121309
    },
    {
      "acc": 0.69756641,
      "epoch": 0.03970065956367326,
      "grad_norm": 4.84375,
      "learning_rate": 3.970065956367327e-06,
      "loss": 1.34047947,
      "memory(GiB)": 96.54,
      "step": 1565,
      "train_speed(iter/s)": 1.121872
    },
    {
      "acc": 0.69053826,
      "epoch": 0.03982749873160832,
      "grad_norm": 3.984375,
      "learning_rate": 3.982749873160832e-06,
      "loss": 1.35533981,
      "memory(GiB)": 96.54,
      "step": 1570,
      "train_speed(iter/s)": 1.122623
    },
    {
      "acc": 0.67623377,
      "epoch": 0.03995433789954338,
      "grad_norm": 5.53125,
      "learning_rate": 3.995433789954338e-06,
      "loss": 1.40428972,
      "memory(GiB)": 96.54,
      "step": 1575,
      "train_speed(iter/s)": 1.123396
    },
    {
      "acc": 0.69492421,
      "epoch": 0.040081177067478435,
      "grad_norm": 3.5,
      "learning_rate": 4.008117706747844e-06,
      "loss": 1.36636343,
      "memory(GiB)": 96.54,
      "step": 1580,
      "train_speed(iter/s)": 1.12383
    },
    {
      "acc": 0.69455047,
      "epoch": 0.04020801623541349,
      "grad_norm": 5.15625,
      "learning_rate": 4.02080162354135e-06,
      "loss": 1.29816818,
      "memory(GiB)": 96.54,
      "step": 1585,
      "train_speed(iter/s)": 1.124638
    },
    {
      "acc": 0.69745274,
      "epoch": 0.04033485540334855,
      "grad_norm": 4.4375,
      "learning_rate": 4.033485540334856e-06,
      "loss": 1.31188545,
      "memory(GiB)": 96.54,
      "step": 1590,
      "train_speed(iter/s)": 1.124915
    },
    {
      "acc": 0.68657165,
      "epoch": 0.04046169457128361,
      "grad_norm": 3.53125,
      "learning_rate": 4.046169457128362e-06,
      "loss": 1.36036224,
      "memory(GiB)": 96.54,
      "step": 1595,
      "train_speed(iter/s)": 1.125398
    },
    {
      "acc": 0.67873707,
      "epoch": 0.04058853373921867,
      "grad_norm": 4.625,
      "learning_rate": 4.058853373921867e-06,
      "loss": 1.39559126,
      "memory(GiB)": 96.54,
      "step": 1600,
      "train_speed(iter/s)": 1.126173
    },
    {
      "acc": 0.71012006,
      "epoch": 0.04071537290715373,
      "grad_norm": 3.921875,
      "learning_rate": 4.071537290715373e-06,
      "loss": 1.23729296,
      "memory(GiB)": 96.54,
      "step": 1605,
      "train_speed(iter/s)": 1.126636
    },
    {
      "acc": 0.69137182,
      "epoch": 0.040842212075088785,
      "grad_norm": 4.6875,
      "learning_rate": 4.084221207508879e-06,
      "loss": 1.34584284,
      "memory(GiB)": 96.54,
      "step": 1610,
      "train_speed(iter/s)": 1.126714
    },
    {
      "acc": 0.68800278,
      "epoch": 0.040969051243023843,
      "grad_norm": 5.5,
      "learning_rate": 4.096905124302385e-06,
      "loss": 1.35773544,
      "memory(GiB)": 96.54,
      "step": 1615,
      "train_speed(iter/s)": 1.127313
    },
    {
      "acc": 0.70087519,
      "epoch": 0.0410958904109589,
      "grad_norm": 3.78125,
      "learning_rate": 4.109589041095891e-06,
      "loss": 1.27217827,
      "memory(GiB)": 96.54,
      "step": 1620,
      "train_speed(iter/s)": 1.127568
    },
    {
      "acc": 0.68600273,
      "epoch": 0.04122272957889396,
      "grad_norm": 4.5,
      "learning_rate": 4.122272957889397e-06,
      "loss": 1.44178305,
      "memory(GiB)": 96.54,
      "step": 1625,
      "train_speed(iter/s)": 1.127909
    },
    {
      "acc": 0.67890697,
      "epoch": 0.04134956874682902,
      "grad_norm": 5.84375,
      "learning_rate": 4.134956874682902e-06,
      "loss": 1.34394608,
      "memory(GiB)": 96.54,
      "step": 1630,
      "train_speed(iter/s)": 1.1285
    },
    {
      "acc": 0.7027431,
      "epoch": 0.04147640791476408,
      "grad_norm": 3.828125,
      "learning_rate": 4.147640791476408e-06,
      "loss": 1.26415453,
      "memory(GiB)": 96.54,
      "step": 1635,
      "train_speed(iter/s)": 1.129078
    },
    {
      "acc": 0.68805447,
      "epoch": 0.041603247082699135,
      "grad_norm": 3.84375,
      "learning_rate": 4.160324708269914e-06,
      "loss": 1.39592419,
      "memory(GiB)": 96.54,
      "step": 1640,
      "train_speed(iter/s)": 1.129423
    },
    {
      "acc": 0.70649176,
      "epoch": 0.041730086250634194,
      "grad_norm": 3.578125,
      "learning_rate": 4.17300862506342e-06,
      "loss": 1.24727669,
      "memory(GiB)": 96.54,
      "step": 1645,
      "train_speed(iter/s)": 1.129841
    },
    {
      "acc": 0.6961019,
      "epoch": 0.04185692541856925,
      "grad_norm": 4.40625,
      "learning_rate": 4.185692541856926e-06,
      "loss": 1.27646236,
      "memory(GiB)": 96.54,
      "step": 1650,
      "train_speed(iter/s)": 1.129783
    },
    {
      "acc": 0.69074688,
      "epoch": 0.04198376458650431,
      "grad_norm": 3.96875,
      "learning_rate": 4.198376458650432e-06,
      "loss": 1.31307955,
      "memory(GiB)": 96.54,
      "step": 1655,
      "train_speed(iter/s)": 1.130336
    },
    {
      "acc": 0.70129356,
      "epoch": 0.04211060375443937,
      "grad_norm": 4.59375,
      "learning_rate": 4.211060375443937e-06,
      "loss": 1.2811182,
      "memory(GiB)": 96.54,
      "step": 1660,
      "train_speed(iter/s)": 1.131051
    },
    {
      "acc": 0.6798224,
      "epoch": 0.04223744292237443,
      "grad_norm": 4.125,
      "learning_rate": 4.223744292237444e-06,
      "loss": 1.41245861,
      "memory(GiB)": 96.54,
      "step": 1665,
      "train_speed(iter/s)": 1.131637
    },
    {
      "acc": 0.69118929,
      "epoch": 0.042364282090309485,
      "grad_norm": 4.1875,
      "learning_rate": 4.236428209030949e-06,
      "loss": 1.35487289,
      "memory(GiB)": 96.54,
      "step": 1670,
      "train_speed(iter/s)": 1.132157
    },
    {
      "acc": 0.68263512,
      "epoch": 0.042491121258244544,
      "grad_norm": 4.75,
      "learning_rate": 4.249112125824455e-06,
      "loss": 1.38012447,
      "memory(GiB)": 96.54,
      "step": 1675,
      "train_speed(iter/s)": 1.132638
    },
    {
      "acc": 0.69473619,
      "epoch": 0.0426179604261796,
      "grad_norm": 5.25,
      "learning_rate": 4.261796042617961e-06,
      "loss": 1.30672913,
      "memory(GiB)": 96.54,
      "step": 1680,
      "train_speed(iter/s)": 1.133221
    },
    {
      "acc": 0.71038866,
      "epoch": 0.04274479959411466,
      "grad_norm": 4.125,
      "learning_rate": 4.274479959411467e-06,
      "loss": 1.27685595,
      "memory(GiB)": 96.54,
      "step": 1685,
      "train_speed(iter/s)": 1.13384
    },
    {
      "acc": 0.70607944,
      "epoch": 0.04287163876204972,
      "grad_norm": 3.78125,
      "learning_rate": 4.287163876204972e-06,
      "loss": 1.23477602,
      "memory(GiB)": 96.54,
      "step": 1690,
      "train_speed(iter/s)": 1.13452
    },
    {
      "acc": 0.69061108,
      "epoch": 0.04299847792998478,
      "grad_norm": 3.96875,
      "learning_rate": 4.299847792998479e-06,
      "loss": 1.27877092,
      "memory(GiB)": 96.54,
      "step": 1695,
      "train_speed(iter/s)": 1.135181
    },
    {
      "acc": 0.69000974,
      "epoch": 0.043125317097919835,
      "grad_norm": 5.09375,
      "learning_rate": 4.312531709791984e-06,
      "loss": 1.32611217,
      "memory(GiB)": 96.54,
      "step": 1700,
      "train_speed(iter/s)": 1.135513
    },
    {
      "acc": 0.68093657,
      "epoch": 0.043252156265854894,
      "grad_norm": 5.21875,
      "learning_rate": 4.32521562658549e-06,
      "loss": 1.32802162,
      "memory(GiB)": 96.54,
      "step": 1705,
      "train_speed(iter/s)": 1.136009
    },
    {
      "acc": 0.69501972,
      "epoch": 0.04337899543378995,
      "grad_norm": 4.5,
      "learning_rate": 4.337899543378996e-06,
      "loss": 1.3422863,
      "memory(GiB)": 96.54,
      "step": 1710,
      "train_speed(iter/s)": 1.136606
    },
    {
      "acc": 0.67392492,
      "epoch": 0.04350583460172501,
      "grad_norm": 3.828125,
      "learning_rate": 4.350583460172502e-06,
      "loss": 1.35866451,
      "memory(GiB)": 96.54,
      "step": 1715,
      "train_speed(iter/s)": 1.137073
    },
    {
      "acc": 0.71255569,
      "epoch": 0.04363267376966007,
      "grad_norm": 4.40625,
      "learning_rate": 4.363267376966007e-06,
      "loss": 1.2687974,
      "memory(GiB)": 96.54,
      "step": 1720,
      "train_speed(iter/s)": 1.137507
    },
    {
      "acc": 0.68824787,
      "epoch": 0.04375951293759513,
      "grad_norm": 3.90625,
      "learning_rate": 4.375951293759514e-06,
      "loss": 1.37700701,
      "memory(GiB)": 96.54,
      "step": 1725,
      "train_speed(iter/s)": 1.138052
    },
    {
      "acc": 0.70363235,
      "epoch": 0.043886352105530185,
      "grad_norm": 4.5625,
      "learning_rate": 4.388635210553019e-06,
      "loss": 1.3126236,
      "memory(GiB)": 96.54,
      "step": 1730,
      "train_speed(iter/s)": 1.138333
    },
    {
      "acc": 0.70483007,
      "epoch": 0.044013191273465244,
      "grad_norm": 3.9375,
      "learning_rate": 4.401319127346525e-06,
      "loss": 1.31923313,
      "memory(GiB)": 96.54,
      "step": 1735,
      "train_speed(iter/s)": 1.138582
    },
    {
      "acc": 0.69708271,
      "epoch": 0.0441400304414003,
      "grad_norm": 6.09375,
      "learning_rate": 4.414003044140031e-06,
      "loss": 1.26779442,
      "memory(GiB)": 96.54,
      "step": 1740,
      "train_speed(iter/s)": 1.138966
    },
    {
      "acc": 0.7048512,
      "epoch": 0.04426686960933536,
      "grad_norm": 4.5625,
      "learning_rate": 4.426686960933537e-06,
      "loss": 1.28971291,
      "memory(GiB)": 96.54,
      "step": 1745,
      "train_speed(iter/s)": 1.139042
    },
    {
      "acc": 0.69210873,
      "epoch": 0.04439370877727042,
      "grad_norm": 3.703125,
      "learning_rate": 4.439370877727043e-06,
      "loss": 1.36285019,
      "memory(GiB)": 96.54,
      "step": 1750,
      "train_speed(iter/s)": 1.139594
    },
    {
      "acc": 0.6857789,
      "epoch": 0.04452054794520548,
      "grad_norm": 4.65625,
      "learning_rate": 4.4520547945205486e-06,
      "loss": 1.34397631,
      "memory(GiB)": 96.54,
      "step": 1755,
      "train_speed(iter/s)": 1.139834
    },
    {
      "acc": 0.70786867,
      "epoch": 0.044647387113140535,
      "grad_norm": 4.15625,
      "learning_rate": 4.464738711314054e-06,
      "loss": 1.29596939,
      "memory(GiB)": 96.54,
      "step": 1760,
      "train_speed(iter/s)": 1.140138
    },
    {
      "acc": 0.69162521,
      "epoch": 0.044774226281075594,
      "grad_norm": 3.90625,
      "learning_rate": 4.47742262810756e-06,
      "loss": 1.34986238,
      "memory(GiB)": 96.54,
      "step": 1765,
      "train_speed(iter/s)": 1.14061
    },
    {
      "acc": 0.69754024,
      "epoch": 0.04490106544901065,
      "grad_norm": 3.796875,
      "learning_rate": 4.490106544901066e-06,
      "loss": 1.28120747,
      "memory(GiB)": 96.54,
      "step": 1770,
      "train_speed(iter/s)": 1.140865
    },
    {
      "acc": 0.68454957,
      "epoch": 0.04502790461694571,
      "grad_norm": 5.46875,
      "learning_rate": 4.502790461694572e-06,
      "loss": 1.37441092,
      "memory(GiB)": 96.54,
      "step": 1775,
      "train_speed(iter/s)": 1.141319
    },
    {
      "acc": 0.69832301,
      "epoch": 0.04515474378488077,
      "grad_norm": 4.3125,
      "learning_rate": 4.5154743784880776e-06,
      "loss": 1.38821068,
      "memory(GiB)": 96.54,
      "step": 1780,
      "train_speed(iter/s)": 1.141975
    },
    {
      "acc": 0.69718046,
      "epoch": 0.04528158295281583,
      "grad_norm": 3.5625,
      "learning_rate": 4.5281582952815835e-06,
      "loss": 1.3071188,
      "memory(GiB)": 96.54,
      "step": 1785,
      "train_speed(iter/s)": 1.142326
    },
    {
      "acc": 0.69695501,
      "epoch": 0.045408422120750885,
      "grad_norm": 4.5625,
      "learning_rate": 4.540842212075089e-06,
      "loss": 1.30221062,
      "memory(GiB)": 96.54,
      "step": 1790,
      "train_speed(iter/s)": 1.142685
    },
    {
      "acc": 0.69315634,
      "epoch": 0.045535261288685944,
      "grad_norm": 4.40625,
      "learning_rate": 4.553526128868595e-06,
      "loss": 1.34913893,
      "memory(GiB)": 96.54,
      "step": 1795,
      "train_speed(iter/s)": 1.143252
    },
    {
      "acc": 0.6899498,
      "epoch": 0.045662100456621,
      "grad_norm": 3.078125,
      "learning_rate": 4.566210045662101e-06,
      "loss": 1.33024578,
      "memory(GiB)": 96.54,
      "step": 1800,
      "train_speed(iter/s)": 1.143293
    },
    {
      "acc": 0.72094831,
      "epoch": 0.04578893962455606,
      "grad_norm": 4.3125,
      "learning_rate": 4.5788939624556065e-06,
      "loss": 1.19656487,
      "memory(GiB)": 96.54,
      "step": 1805,
      "train_speed(iter/s)": 1.143784
    },
    {
      "acc": 0.69684439,
      "epoch": 0.04591577879249112,
      "grad_norm": 3.6875,
      "learning_rate": 4.5915778792491125e-06,
      "loss": 1.32046261,
      "memory(GiB)": 96.54,
      "step": 1810,
      "train_speed(iter/s)": 1.144006
    },
    {
      "acc": 0.67043943,
      "epoch": 0.04604261796042618,
      "grad_norm": 5.4375,
      "learning_rate": 4.6042617960426185e-06,
      "loss": 1.42924623,
      "memory(GiB)": 96.54,
      "step": 1815,
      "train_speed(iter/s)": 1.144716
    },
    {
      "acc": 0.69150376,
      "epoch": 0.046169457128361235,
      "grad_norm": 4.5,
      "learning_rate": 4.616945712836124e-06,
      "loss": 1.31121235,
      "memory(GiB)": 96.54,
      "step": 1820,
      "train_speed(iter/s)": 1.145368
    },
    {
      "acc": 0.70456142,
      "epoch": 0.046296296296296294,
      "grad_norm": 4.65625,
      "learning_rate": 4.62962962962963e-06,
      "loss": 1.29618883,
      "memory(GiB)": 96.54,
      "step": 1825,
      "train_speed(iter/s)": 1.145529
    },
    {
      "acc": 0.69484315,
      "epoch": 0.04642313546423135,
      "grad_norm": 4.84375,
      "learning_rate": 4.6423135464231355e-06,
      "loss": 1.3924202,
      "memory(GiB)": 96.54,
      "step": 1830,
      "train_speed(iter/s)": 1.145826
    },
    {
      "acc": 0.71219463,
      "epoch": 0.04654997463216641,
      "grad_norm": 5.84375,
      "learning_rate": 4.6549974632166415e-06,
      "loss": 1.33768845,
      "memory(GiB)": 96.54,
      "step": 1835,
      "train_speed(iter/s)": 1.146171
    },
    {
      "acc": 0.71422977,
      "epoch": 0.04667681380010147,
      "grad_norm": 3.96875,
      "learning_rate": 4.6676813800101475e-06,
      "loss": 1.26072741,
      "memory(GiB)": 96.54,
      "step": 1840,
      "train_speed(iter/s)": 1.146532
    },
    {
      "acc": 0.69331417,
      "epoch": 0.04680365296803653,
      "grad_norm": 4.5625,
      "learning_rate": 4.6803652968036534e-06,
      "loss": 1.31272821,
      "memory(GiB)": 96.54,
      "step": 1845,
      "train_speed(iter/s)": 1.147051
    },
    {
      "acc": 0.70700827,
      "epoch": 0.046930492135971585,
      "grad_norm": 4.25,
      "learning_rate": 4.6930492135971586e-06,
      "loss": 1.292062,
      "memory(GiB)": 96.54,
      "step": 1850,
      "train_speed(iter/s)": 1.147335
    },
    {
      "acc": 0.69662571,
      "epoch": 0.047057331303906644,
      "grad_norm": 4.625,
      "learning_rate": 4.705733130390665e-06,
      "loss": 1.29924202,
      "memory(GiB)": 96.54,
      "step": 1855,
      "train_speed(iter/s)": 1.147876
    },
    {
      "acc": 0.6774035,
      "epoch": 0.0471841704718417,
      "grad_norm": 3.421875,
      "learning_rate": 4.7184170471841705e-06,
      "loss": 1.32082424,
      "memory(GiB)": 96.54,
      "step": 1860,
      "train_speed(iter/s)": 1.14817
    },
    {
      "acc": 0.69657989,
      "epoch": 0.04731100963977676,
      "grad_norm": 4.125,
      "learning_rate": 4.7311009639776765e-06,
      "loss": 1.34538326,
      "memory(GiB)": 96.54,
      "step": 1865,
      "train_speed(iter/s)": 1.148358
    },
    {
      "acc": 0.68104501,
      "epoch": 0.04743784880771182,
      "grad_norm": 4.3125,
      "learning_rate": 4.743784880771182e-06,
      "loss": 1.35338554,
      "memory(GiB)": 96.54,
      "step": 1870,
      "train_speed(iter/s)": 1.148859
    },
    {
      "acc": 0.69720764,
      "epoch": 0.04756468797564688,
      "grad_norm": 4.03125,
      "learning_rate": 4.756468797564688e-06,
      "loss": 1.27514114,
      "memory(GiB)": 96.54,
      "step": 1875,
      "train_speed(iter/s)": 1.149485
    },
    {
      "acc": 0.7012639,
      "epoch": 0.047691527143581935,
      "grad_norm": 4.25,
      "learning_rate": 4.769152714358194e-06,
      "loss": 1.36092291,
      "memory(GiB)": 96.54,
      "step": 1880,
      "train_speed(iter/s)": 1.149788
    },
    {
      "acc": 0.70544133,
      "epoch": 0.047818366311516994,
      "grad_norm": 3.359375,
      "learning_rate": 4.7818366311517e-06,
      "loss": 1.30870285,
      "memory(GiB)": 96.54,
      "step": 1885,
      "train_speed(iter/s)": 1.150066
    },
    {
      "acc": 0.70056705,
      "epoch": 0.04794520547945205,
      "grad_norm": 3.640625,
      "learning_rate": 4.7945205479452054e-06,
      "loss": 1.32207823,
      "memory(GiB)": 96.54,
      "step": 1890,
      "train_speed(iter/s)": 1.1506
    },
    {
      "acc": 0.71993461,
      "epoch": 0.04807204464738711,
      "grad_norm": 4.34375,
      "learning_rate": 4.807204464738711e-06,
      "loss": 1.2672966,
      "memory(GiB)": 96.54,
      "step": 1895,
      "train_speed(iter/s)": 1.150795
    },
    {
      "acc": 0.69936948,
      "epoch": 0.04819888381532217,
      "grad_norm": 7.03125,
      "learning_rate": 4.819888381532217e-06,
      "loss": 1.30119343,
      "memory(GiB)": 96.54,
      "step": 1900,
      "train_speed(iter/s)": 1.151235
    },
    {
      "acc": 0.70328155,
      "epoch": 0.04832572298325723,
      "grad_norm": 5.125,
      "learning_rate": 4.832572298325723e-06,
      "loss": 1.29918404,
      "memory(GiB)": 96.54,
      "step": 1905,
      "train_speed(iter/s)": 1.151265
    },
    {
      "acc": 0.6956954,
      "epoch": 0.048452562151192285,
      "grad_norm": 4.78125,
      "learning_rate": 4.845256215119229e-06,
      "loss": 1.28027897,
      "memory(GiB)": 96.54,
      "step": 1910,
      "train_speed(iter/s)": 1.151275
    },
    {
      "acc": 0.69491777,
      "epoch": 0.048579401319127344,
      "grad_norm": 3.78125,
      "learning_rate": 4.857940131912735e-06,
      "loss": 1.29917812,
      "memory(GiB)": 96.54,
      "step": 1915,
      "train_speed(iter/s)": 1.151382
    },
    {
      "acc": 0.70941572,
      "epoch": 0.0487062404870624,
      "grad_norm": 3.828125,
      "learning_rate": 4.87062404870624e-06,
      "loss": 1.21923094,
      "memory(GiB)": 96.54,
      "step": 1920,
      "train_speed(iter/s)": 1.151506
    },
    {
      "acc": 0.68265204,
      "epoch": 0.04883307965499746,
      "grad_norm": 4.25,
      "learning_rate": 4.883307965499746e-06,
      "loss": 1.34345694,
      "memory(GiB)": 96.54,
      "step": 1925,
      "train_speed(iter/s)": 1.15198
    },
    {
      "acc": 0.67935963,
      "epoch": 0.04895991882293252,
      "grad_norm": 4.1875,
      "learning_rate": 4.895991882293252e-06,
      "loss": 1.39397945,
      "memory(GiB)": 96.54,
      "step": 1930,
      "train_speed(iter/s)": 1.152373
    },
    {
      "acc": 0.69259191,
      "epoch": 0.04908675799086758,
      "grad_norm": 4.40625,
      "learning_rate": 4.908675799086758e-06,
      "loss": 1.27045717,
      "memory(GiB)": 96.54,
      "step": 1935,
      "train_speed(iter/s)": 1.152716
    },
    {
      "acc": 0.69930177,
      "epoch": 0.049213597158802636,
      "grad_norm": 4.03125,
      "learning_rate": 4.921359715880264e-06,
      "loss": 1.32077322,
      "memory(GiB)": 96.54,
      "step": 1940,
      "train_speed(iter/s)": 1.153087
    },
    {
      "acc": 0.70245261,
      "epoch": 0.049340436326737694,
      "grad_norm": 3.796875,
      "learning_rate": 4.93404363267377e-06,
      "loss": 1.28173971,
      "memory(GiB)": 96.54,
      "step": 1945,
      "train_speed(iter/s)": 1.153276
    },
    {
      "acc": 0.71744428,
      "epoch": 0.04946727549467275,
      "grad_norm": 3.265625,
      "learning_rate": 4.946727549467275e-06,
      "loss": 1.25405617,
      "memory(GiB)": 96.54,
      "step": 1950,
      "train_speed(iter/s)": 1.153741
    },
    {
      "acc": 0.70710936,
      "epoch": 0.04959411466260781,
      "grad_norm": 3.984375,
      "learning_rate": 4.959411466260781e-06,
      "loss": 1.22648726,
      "memory(GiB)": 96.54,
      "step": 1955,
      "train_speed(iter/s)": 1.154235
    },
    {
      "acc": 0.70735998,
      "epoch": 0.04972095383054287,
      "grad_norm": 5.0625,
      "learning_rate": 4.972095383054287e-06,
      "loss": 1.30438833,
      "memory(GiB)": 96.54,
      "step": 1960,
      "train_speed(iter/s)": 1.154777
    },
    {
      "acc": 0.70183764,
      "epoch": 0.04984779299847793,
      "grad_norm": 4.03125,
      "learning_rate": 4.984779299847793e-06,
      "loss": 1.26305714,
      "memory(GiB)": 96.54,
      "step": 1965,
      "train_speed(iter/s)": 1.155021
    },
    {
      "acc": 0.69946566,
      "epoch": 0.049974632166412986,
      "grad_norm": 5.28125,
      "learning_rate": 4.997463216641299e-06,
      "loss": 1.33172693,
      "memory(GiB)": 96.54,
      "step": 1970,
      "train_speed(iter/s)": 1.155549
    },
    {
      "acc": 0.7041873,
      "epoch": 0.050101471334348044,
      "grad_norm": 4.09375,
      "learning_rate": 5.010147133434805e-06,
      "loss": 1.28160114,
      "memory(GiB)": 96.54,
      "step": 1975,
      "train_speed(iter/s)": 1.155911
    },
    {
      "acc": 0.71147003,
      "epoch": 0.0502283105022831,
      "grad_norm": 4.53125,
      "learning_rate": 5.02283105022831e-06,
      "loss": 1.23590193,
      "memory(GiB)": 96.54,
      "step": 1980,
      "train_speed(iter/s)": 1.156182
    },
    {
      "acc": 0.67943001,
      "epoch": 0.05035514967021816,
      "grad_norm": 5.25,
      "learning_rate": 5.035514967021817e-06,
      "loss": 1.38217516,
      "memory(GiB)": 96.54,
      "step": 1985,
      "train_speed(iter/s)": 1.156486
    },
    {
      "acc": 0.70579453,
      "epoch": 0.05048198883815322,
      "grad_norm": 3.640625,
      "learning_rate": 5.048198883815323e-06,
      "loss": 1.29516544,
      "memory(GiB)": 96.54,
      "step": 1990,
      "train_speed(iter/s)": 1.156958
    },
    {
      "acc": 0.68109694,
      "epoch": 0.05060882800608828,
      "grad_norm": 4.25,
      "learning_rate": 5.060882800608828e-06,
      "loss": 1.35455389,
      "memory(GiB)": 96.54,
      "step": 1995,
      "train_speed(iter/s)": 1.157401
    },
    {
      "acc": 0.69193707,
      "epoch": 0.050735667174023336,
      "grad_norm": 4.34375,
      "learning_rate": 5.073566717402334e-06,
      "loss": 1.29830227,
      "memory(GiB)": 96.54,
      "step": 2000,
      "train_speed(iter/s)": 1.157965
    },
    {
      "epoch": 0.050735667174023336,
      "eval_acc": 0.685924607972735,
      "eval_loss": 1.2625306844711304,
      "eval_runtime": 70.792,
      "eval_samples_per_second": 89.982,
      "eval_steps_per_second": 22.503,
      "step": 2000
    },
    {
      "acc": 0.69962597,
      "epoch": 0.050862506341958394,
      "grad_norm": 4.4375,
      "learning_rate": 5.086250634195841e-06,
      "loss": 1.27640076,
      "memory(GiB)": 96.54,
      "step": 2005,
      "train_speed(iter/s)": 1.088316
    },
    {
      "acc": 0.69236393,
      "epoch": 0.05098934550989345,
      "grad_norm": 4.0625,
      "learning_rate": 5.098934550989346e-06,
      "loss": 1.2736372,
      "memory(GiB)": 96.54,
      "step": 2010,
      "train_speed(iter/s)": 1.089024
    },
    {
      "acc": 0.71413031,
      "epoch": 0.05111618467782851,
      "grad_norm": 5.46875,
      "learning_rate": 5.111618467782852e-06,
      "loss": 1.26062393,
      "memory(GiB)": 96.54,
      "step": 2015,
      "train_speed(iter/s)": 1.089462
    },
    {
      "acc": 0.69801526,
      "epoch": 0.05124302384576357,
      "grad_norm": 3.78125,
      "learning_rate": 5.124302384576357e-06,
      "loss": 1.26180229,
      "memory(GiB)": 96.54,
      "step": 2020,
      "train_speed(iter/s)": 1.089939
    },
    {
      "acc": 0.70057945,
      "epoch": 0.05136986301369863,
      "grad_norm": 3.828125,
      "learning_rate": 5.136986301369864e-06,
      "loss": 1.25848627,
      "memory(GiB)": 96.54,
      "step": 2025,
      "train_speed(iter/s)": 1.090371
    },
    {
      "acc": 0.70119257,
      "epoch": 0.051496702181633686,
      "grad_norm": 4.375,
      "learning_rate": 5.149670218163369e-06,
      "loss": 1.25475616,
      "memory(GiB)": 96.54,
      "step": 2030,
      "train_speed(iter/s)": 1.090945
    },
    {
      "acc": 0.70863862,
      "epoch": 0.051623541349568744,
      "grad_norm": 5.5625,
      "learning_rate": 5.162354134956875e-06,
      "loss": 1.308043,
      "memory(GiB)": 96.54,
      "step": 2035,
      "train_speed(iter/s)": 1.09144
    },
    {
      "acc": 0.70822458,
      "epoch": 0.0517503805175038,
      "grad_norm": 4.4375,
      "learning_rate": 5.175038051750381e-06,
      "loss": 1.27676697,
      "memory(GiB)": 96.54,
      "step": 2040,
      "train_speed(iter/s)": 1.091874
    },
    {
      "acc": 0.70250025,
      "epoch": 0.05187721968543886,
      "grad_norm": 6.96875,
      "learning_rate": 5.187721968543887e-06,
      "loss": 1.2992835,
      "memory(GiB)": 96.54,
      "step": 2045,
      "train_speed(iter/s)": 1.092464
    },
    {
      "acc": 0.69946814,
      "epoch": 0.05200405885337392,
      "grad_norm": 4.3125,
      "learning_rate": 5.200405885337393e-06,
      "loss": 1.2338439,
      "memory(GiB)": 99.49,
      "step": 2050,
      "train_speed(iter/s)": 1.092584
    },
    {
      "acc": 0.70158424,
      "epoch": 0.05213089802130898,
      "grad_norm": 4.5625,
      "learning_rate": 5.213089802130898e-06,
      "loss": 1.28910942,
      "memory(GiB)": 99.49,
      "step": 2055,
      "train_speed(iter/s)": 1.093011
    },
    {
      "acc": 0.69357719,
      "epoch": 0.052257737189244036,
      "grad_norm": 3.5625,
      "learning_rate": 5.225773718924404e-06,
      "loss": 1.25024557,
      "memory(GiB)": 99.49,
      "step": 2060,
      "train_speed(iter/s)": 1.093198
    },
    {
      "acc": 0.67649322,
      "epoch": 0.052384576357179094,
      "grad_norm": 4.21875,
      "learning_rate": 5.238457635717911e-06,
      "loss": 1.39478769,
      "memory(GiB)": 99.49,
      "step": 2065,
      "train_speed(iter/s)": 1.093688
    },
    {
      "acc": 0.70428305,
      "epoch": 0.05251141552511415,
      "grad_norm": 4.65625,
      "learning_rate": 5.251141552511416e-06,
      "loss": 1.30234518,
      "memory(GiB)": 99.49,
      "step": 2070,
      "train_speed(iter/s)": 1.094101
    },
    {
      "acc": 0.68869138,
      "epoch": 0.05263825469304921,
      "grad_norm": 3.8125,
      "learning_rate": 5.263825469304922e-06,
      "loss": 1.34181757,
      "memory(GiB)": 99.49,
      "step": 2075,
      "train_speed(iter/s)": 1.094556
    },
    {
      "acc": 0.68019924,
      "epoch": 0.05276509386098427,
      "grad_norm": 4.15625,
      "learning_rate": 5.276509386098427e-06,
      "loss": 1.3714776,
      "memory(GiB)": 99.49,
      "step": 2080,
      "train_speed(iter/s)": 1.095064
    },
    {
      "acc": 0.69862924,
      "epoch": 0.05289193302891933,
      "grad_norm": 4.25,
      "learning_rate": 5.289193302891934e-06,
      "loss": 1.28345156,
      "memory(GiB)": 99.49,
      "step": 2085,
      "train_speed(iter/s)": 1.095442
    },
    {
      "acc": 0.70212412,
      "epoch": 0.053018772196854386,
      "grad_norm": 3.546875,
      "learning_rate": 5.30187721968544e-06,
      "loss": 1.26953506,
      "memory(GiB)": 99.49,
      "step": 2090,
      "train_speed(iter/s)": 1.095954
    },
    {
      "acc": 0.69476509,
      "epoch": 0.053145611364789444,
      "grad_norm": 3.765625,
      "learning_rate": 5.314561136478945e-06,
      "loss": 1.31520758,
      "memory(GiB)": 99.49,
      "step": 2095,
      "train_speed(iter/s)": 1.096307
    },
    {
      "acc": 0.6968318,
      "epoch": 0.0532724505327245,
      "grad_norm": 3.84375,
      "learning_rate": 5.327245053272451e-06,
      "loss": 1.31691818,
      "memory(GiB)": 99.49,
      "step": 2100,
      "train_speed(iter/s)": 1.096761
    },
    {
      "acc": 0.71679029,
      "epoch": 0.05339928970065956,
      "grad_norm": 4.21875,
      "learning_rate": 5.339928970065957e-06,
      "loss": 1.20249233,
      "memory(GiB)": 99.49,
      "step": 2105,
      "train_speed(iter/s)": 1.097276
    },
    {
      "acc": 0.70736976,
      "epoch": 0.05352612886859462,
      "grad_norm": 5.46875,
      "learning_rate": 5.352612886859463e-06,
      "loss": 1.31491289,
      "memory(GiB)": 99.49,
      "step": 2110,
      "train_speed(iter/s)": 1.097789
    },
    {
      "acc": 0.69893122,
      "epoch": 0.05365296803652968,
      "grad_norm": 4.5625,
      "learning_rate": 5.365296803652969e-06,
      "loss": 1.26743984,
      "memory(GiB)": 99.49,
      "step": 2115,
      "train_speed(iter/s)": 1.098324
    },
    {
      "acc": 0.6998137,
      "epoch": 0.053779807204464736,
      "grad_norm": 5.125,
      "learning_rate": 5.377980720446474e-06,
      "loss": 1.27413387,
      "memory(GiB)": 99.49,
      "step": 2120,
      "train_speed(iter/s)": 1.098617
    },
    {
      "acc": 0.69250298,
      "epoch": 0.053906646372399794,
      "grad_norm": 4.75,
      "learning_rate": 5.390664637239981e-06,
      "loss": 1.33668518,
      "memory(GiB)": 99.49,
      "step": 2125,
      "train_speed(iter/s)": 1.099114
    },
    {
      "acc": 0.70005779,
      "epoch": 0.05403348554033485,
      "grad_norm": 4.3125,
      "learning_rate": 5.403348554033486e-06,
      "loss": 1.27767248,
      "memory(GiB)": 99.49,
      "step": 2130,
      "train_speed(iter/s)": 1.099743
    },
    {
      "acc": 0.7095243,
      "epoch": 0.05416032470826991,
      "grad_norm": 4.1875,
      "learning_rate": 5.416032470826992e-06,
      "loss": 1.23615341,
      "memory(GiB)": 99.49,
      "step": 2135,
      "train_speed(iter/s)": 1.10029
    },
    {
      "acc": 0.7130888,
      "epoch": 0.05428716387620497,
      "grad_norm": 3.78125,
      "learning_rate": 5.428716387620497e-06,
      "loss": 1.24836102,
      "memory(GiB)": 99.49,
      "step": 2140,
      "train_speed(iter/s)": 1.100637
    },
    {
      "acc": 0.70104012,
      "epoch": 0.05441400304414003,
      "grad_norm": 4.28125,
      "learning_rate": 5.441400304414004e-06,
      "loss": 1.28337669,
      "memory(GiB)": 99.49,
      "step": 2145,
      "train_speed(iter/s)": 1.101255
    },
    {
      "acc": 0.70015264,
      "epoch": 0.054540842212075086,
      "grad_norm": 3.5,
      "learning_rate": 5.45408422120751e-06,
      "loss": 1.30355873,
      "memory(GiB)": 99.49,
      "step": 2150,
      "train_speed(iter/s)": 1.101592
    },
    {
      "acc": 0.69368114,
      "epoch": 0.054667681380010144,
      "grad_norm": 3.859375,
      "learning_rate": 5.466768138001015e-06,
      "loss": 1.3596343,
      "memory(GiB)": 99.49,
      "step": 2155,
      "train_speed(iter/s)": 1.10206
    },
    {
      "acc": 0.70717907,
      "epoch": 0.0547945205479452,
      "grad_norm": 3.625,
      "learning_rate": 5.479452054794521e-06,
      "loss": 1.33512249,
      "memory(GiB)": 99.49,
      "step": 2160,
      "train_speed(iter/s)": 1.102588
    },
    {
      "acc": 0.68928814,
      "epoch": 0.05492135971588026,
      "grad_norm": 4.625,
      "learning_rate": 5.492135971588028e-06,
      "loss": 1.28263273,
      "memory(GiB)": 99.49,
      "step": 2165,
      "train_speed(iter/s)": 1.103222
    },
    {
      "acc": 0.67580976,
      "epoch": 0.05504819888381532,
      "grad_norm": 3.484375,
      "learning_rate": 5.504819888381533e-06,
      "loss": 1.39214373,
      "memory(GiB)": 99.49,
      "step": 2170,
      "train_speed(iter/s)": 1.10369
    },
    {
      "acc": 0.7031847,
      "epoch": 0.05517503805175038,
      "grad_norm": 3.734375,
      "learning_rate": 5.517503805175039e-06,
      "loss": 1.26898403,
      "memory(GiB)": 99.49,
      "step": 2175,
      "train_speed(iter/s)": 1.103965
    },
    {
      "acc": 0.69628782,
      "epoch": 0.055301877219685436,
      "grad_norm": 4.25,
      "learning_rate": 5.530187721968544e-06,
      "loss": 1.27208309,
      "memory(GiB)": 99.49,
      "step": 2180,
      "train_speed(iter/s)": 1.104171
    },
    {
      "acc": 0.69402018,
      "epoch": 0.055428716387620494,
      "grad_norm": 5.4375,
      "learning_rate": 5.542871638762051e-06,
      "loss": 1.32187099,
      "memory(GiB)": 99.49,
      "step": 2185,
      "train_speed(iter/s)": 1.104436
    },
    {
      "acc": 0.69190931,
      "epoch": 0.05555555555555555,
      "grad_norm": 4.46875,
      "learning_rate": 5.555555555555557e-06,
      "loss": 1.3546545,
      "memory(GiB)": 99.49,
      "step": 2190,
      "train_speed(iter/s)": 1.104782
    },
    {
      "acc": 0.70986595,
      "epoch": 0.05568239472349061,
      "grad_norm": 3.046875,
      "learning_rate": 5.568239472349062e-06,
      "loss": 1.2844471,
      "memory(GiB)": 99.49,
      "step": 2195,
      "train_speed(iter/s)": 1.105317
    },
    {
      "acc": 0.70446134,
      "epoch": 0.05580923389142567,
      "grad_norm": 5.6875,
      "learning_rate": 5.580923389142568e-06,
      "loss": 1.31441193,
      "memory(GiB)": 99.49,
      "step": 2200,
      "train_speed(iter/s)": 1.105711
    },
    {
      "acc": 0.69651613,
      "epoch": 0.05593607305936073,
      "grad_norm": 3.984375,
      "learning_rate": 5.593607305936074e-06,
      "loss": 1.30796547,
      "memory(GiB)": 99.49,
      "step": 2205,
      "train_speed(iter/s)": 1.105848
    },
    {
      "acc": 0.70146646,
      "epoch": 0.056062912227295786,
      "grad_norm": 4.09375,
      "learning_rate": 5.60629122272958e-06,
      "loss": 1.26873055,
      "memory(GiB)": 99.49,
      "step": 2210,
      "train_speed(iter/s)": 1.10623
    },
    {
      "acc": 0.69958677,
      "epoch": 0.056189751395230844,
      "grad_norm": 4.6875,
      "learning_rate": 5.618975139523085e-06,
      "loss": 1.32351656,
      "memory(GiB)": 99.49,
      "step": 2215,
      "train_speed(iter/s)": 1.106558
    },
    {
      "acc": 0.70244675,
      "epoch": 0.0563165905631659,
      "grad_norm": 4.0625,
      "learning_rate": 5.631659056316591e-06,
      "loss": 1.23480949,
      "memory(GiB)": 99.49,
      "step": 2220,
      "train_speed(iter/s)": 1.107033
    },
    {
      "acc": 0.70447326,
      "epoch": 0.05644342973110096,
      "grad_norm": 4.0625,
      "learning_rate": 5.644342973110098e-06,
      "loss": 1.28371038,
      "memory(GiB)": 99.49,
      "step": 2225,
      "train_speed(iter/s)": 1.107479
    },
    {
      "acc": 0.70872021,
      "epoch": 0.05657026889903602,
      "grad_norm": 4.34375,
      "learning_rate": 5.657026889903603e-06,
      "loss": 1.25160494,
      "memory(GiB)": 99.49,
      "step": 2230,
      "train_speed(iter/s)": 1.107643
    },
    {
      "acc": 0.69520755,
      "epoch": 0.05669710806697108,
      "grad_norm": 3.265625,
      "learning_rate": 5.669710806697109e-06,
      "loss": 1.33307047,
      "memory(GiB)": 99.49,
      "step": 2235,
      "train_speed(iter/s)": 1.108062
    },
    {
      "acc": 0.69823608,
      "epoch": 0.056823947234906136,
      "grad_norm": 3.546875,
      "learning_rate": 5.682394723490614e-06,
      "loss": 1.30649824,
      "memory(GiB)": 99.49,
      "step": 2240,
      "train_speed(iter/s)": 1.108514
    },
    {
      "acc": 0.69064617,
      "epoch": 0.056950786402841194,
      "grad_norm": 3.71875,
      "learning_rate": 5.695078640284121e-06,
      "loss": 1.31138439,
      "memory(GiB)": 99.49,
      "step": 2245,
      "train_speed(iter/s)": 1.10907
    },
    {
      "acc": 0.6977396,
      "epoch": 0.05707762557077625,
      "grad_norm": 4.375,
      "learning_rate": 5.7077625570776266e-06,
      "loss": 1.2659977,
      "memory(GiB)": 99.49,
      "step": 2250,
      "train_speed(iter/s)": 1.109571
    },
    {
      "acc": 0.69028287,
      "epoch": 0.05720446473871131,
      "grad_norm": 3.6875,
      "learning_rate": 5.720446473871132e-06,
      "loss": 1.30551596,
      "memory(GiB)": 99.49,
      "step": 2255,
      "train_speed(iter/s)": 1.110057
    },
    {
      "acc": 0.71845822,
      "epoch": 0.05733130390664637,
      "grad_norm": 4.46875,
      "learning_rate": 5.733130390664638e-06,
      "loss": 1.20638094,
      "memory(GiB)": 99.49,
      "step": 2260,
      "train_speed(iter/s)": 1.110477
    },
    {
      "acc": 0.6979425,
      "epoch": 0.05745814307458143,
      "grad_norm": 4.65625,
      "learning_rate": 5.7458143074581445e-06,
      "loss": 1.29477453,
      "memory(GiB)": 99.49,
      "step": 2265,
      "train_speed(iter/s)": 1.110942
    },
    {
      "acc": 0.69545336,
      "epoch": 0.057584982242516486,
      "grad_norm": 4.28125,
      "learning_rate": 5.75849822425165e-06,
      "loss": 1.31691628,
      "memory(GiB)": 99.49,
      "step": 2270,
      "train_speed(iter/s)": 1.11145
    },
    {
      "acc": 0.68853154,
      "epoch": 0.057711821410451544,
      "grad_norm": 4.03125,
      "learning_rate": 5.7711821410451556e-06,
      "loss": 1.35897131,
      "memory(GiB)": 99.49,
      "step": 2275,
      "train_speed(iter/s)": 1.111718
    },
    {
      "acc": 0.70641212,
      "epoch": 0.0578386605783866,
      "grad_norm": 4.0,
      "learning_rate": 5.783866057838661e-06,
      "loss": 1.23519468,
      "memory(GiB)": 99.49,
      "step": 2280,
      "train_speed(iter/s)": 1.1121
    },
    {
      "acc": 0.68311396,
      "epoch": 0.05796549974632166,
      "grad_norm": 4.40625,
      "learning_rate": 5.7965499746321675e-06,
      "loss": 1.36496239,
      "memory(GiB)": 99.49,
      "step": 2285,
      "train_speed(iter/s)": 1.112554
    },
    {
      "acc": 0.70217705,
      "epoch": 0.05809233891425672,
      "grad_norm": 4.6875,
      "learning_rate": 5.809233891425673e-06,
      "loss": 1.28731537,
      "memory(GiB)": 99.49,
      "step": 2290,
      "train_speed(iter/s)": 1.112686
    },
    {
      "acc": 0.70512471,
      "epoch": 0.05821917808219178,
      "grad_norm": 4.15625,
      "learning_rate": 5.821917808219179e-06,
      "loss": 1.24200611,
      "memory(GiB)": 99.49,
      "step": 2295,
      "train_speed(iter/s)": 1.113091
    },
    {
      "acc": 0.70733805,
      "epoch": 0.058346017250126836,
      "grad_norm": 4.59375,
      "learning_rate": 5.834601725012684e-06,
      "loss": 1.27797451,
      "memory(GiB)": 99.49,
      "step": 2300,
      "train_speed(iter/s)": 1.113111
    },
    {
      "acc": 0.69626369,
      "epoch": 0.058472856418061894,
      "grad_norm": 4.5625,
      "learning_rate": 5.8472856418061905e-06,
      "loss": 1.3023243,
      "memory(GiB)": 99.49,
      "step": 2305,
      "train_speed(iter/s)": 1.113435
    },
    {
      "acc": 0.70187831,
      "epoch": 0.05859969558599695,
      "grad_norm": 4.09375,
      "learning_rate": 5.8599695585996965e-06,
      "loss": 1.25567703,
      "memory(GiB)": 99.49,
      "step": 2310,
      "train_speed(iter/s)": 1.113803
    },
    {
      "acc": 0.70935287,
      "epoch": 0.05872653475393201,
      "grad_norm": 3.625,
      "learning_rate": 5.872653475393202e-06,
      "loss": 1.21930065,
      "memory(GiB)": 99.49,
      "step": 2315,
      "train_speed(iter/s)": 1.114214
    },
    {
      "acc": 0.70490031,
      "epoch": 0.05885337392186707,
      "grad_norm": 4.1875,
      "learning_rate": 5.8853373921867076e-06,
      "loss": 1.33585873,
      "memory(GiB)": 99.49,
      "step": 2320,
      "train_speed(iter/s)": 1.114522
    },
    {
      "acc": 0.71634502,
      "epoch": 0.05898021308980213,
      "grad_norm": 4.25,
      "learning_rate": 5.898021308980214e-06,
      "loss": 1.22802181,
      "memory(GiB)": 99.49,
      "step": 2325,
      "train_speed(iter/s)": 1.11487
    },
    {
      "acc": 0.68504686,
      "epoch": 0.059107052257737186,
      "grad_norm": 4.40625,
      "learning_rate": 5.9107052257737195e-06,
      "loss": 1.39641104,
      "memory(GiB)": 99.49,
      "step": 2330,
      "train_speed(iter/s)": 1.115007
    },
    {
      "acc": 0.69890485,
      "epoch": 0.059233891425672244,
      "grad_norm": 3.75,
      "learning_rate": 5.9233891425672255e-06,
      "loss": 1.33801889,
      "memory(GiB)": 99.49,
      "step": 2335,
      "train_speed(iter/s)": 1.115476
    },
    {
      "acc": 0.71845021,
      "epoch": 0.0593607305936073,
      "grad_norm": 3.625,
      "learning_rate": 5.936073059360731e-06,
      "loss": 1.19527969,
      "memory(GiB)": 99.49,
      "step": 2340,
      "train_speed(iter/s)": 1.115952
    },
    {
      "acc": 0.70577946,
      "epoch": 0.05948756976154236,
      "grad_norm": 3.703125,
      "learning_rate": 5.948756976154237e-06,
      "loss": 1.2742074,
      "memory(GiB)": 99.49,
      "step": 2345,
      "train_speed(iter/s)": 1.116288
    },
    {
      "acc": 0.71088991,
      "epoch": 0.05961440892947742,
      "grad_norm": 3.90625,
      "learning_rate": 5.961440892947743e-06,
      "loss": 1.30395374,
      "memory(GiB)": 99.49,
      "step": 2350,
      "train_speed(iter/s)": 1.116724
    },
    {
      "acc": 0.7085712,
      "epoch": 0.05974124809741248,
      "grad_norm": 4.75,
      "learning_rate": 5.9741248097412485e-06,
      "loss": 1.21734219,
      "memory(GiB)": 99.49,
      "step": 2355,
      "train_speed(iter/s)": 1.117111
    },
    {
      "acc": 0.70524116,
      "epoch": 0.059868087265347536,
      "grad_norm": 3.9375,
      "learning_rate": 5.9868087265347545e-06,
      "loss": 1.26711712,
      "memory(GiB)": 99.49,
      "step": 2360,
      "train_speed(iter/s)": 1.117516
    },
    {
      "acc": 0.70910864,
      "epoch": 0.059994926433282594,
      "grad_norm": 4.15625,
      "learning_rate": 5.99949264332826e-06,
      "loss": 1.24207954,
      "memory(GiB)": 99.49,
      "step": 2365,
      "train_speed(iter/s)": 1.117803
    },
    {
      "acc": 0.69988594,
      "epoch": 0.06012176560121765,
      "grad_norm": 3.53125,
      "learning_rate": 6.012176560121766e-06,
      "loss": 1.31951656,
      "memory(GiB)": 99.49,
      "step": 2370,
      "train_speed(iter/s)": 1.118123
    },
    {
      "acc": 0.71432428,
      "epoch": 0.06024860476915271,
      "grad_norm": 4.4375,
      "learning_rate": 6.0248604769152715e-06,
      "loss": 1.2630969,
      "memory(GiB)": 99.49,
      "step": 2375,
      "train_speed(iter/s)": 1.118488
    },
    {
      "acc": 0.71463695,
      "epoch": 0.06037544393708777,
      "grad_norm": 6.1875,
      "learning_rate": 6.0375443937087775e-06,
      "loss": 1.20392008,
      "memory(GiB)": 99.49,
      "step": 2380,
      "train_speed(iter/s)": 1.118785
    },
    {
      "acc": 0.70351496,
      "epoch": 0.06050228310502283,
      "grad_norm": 3.703125,
      "learning_rate": 6.050228310502284e-06,
      "loss": 1.37244053,
      "memory(GiB)": 99.49,
      "step": 2385,
      "train_speed(iter/s)": 1.118934
    },
    {
      "acc": 0.70119581,
      "epoch": 0.060629122272957886,
      "grad_norm": 3.75,
      "learning_rate": 6.062912227295789e-06,
      "loss": 1.2705864,
      "memory(GiB)": 99.49,
      "step": 2390,
      "train_speed(iter/s)": 1.119274
    },
    {
      "acc": 0.69787927,
      "epoch": 0.060755961440892944,
      "grad_norm": 4.0,
      "learning_rate": 6.075596144089295e-06,
      "loss": 1.23172379,
      "memory(GiB)": 99.49,
      "step": 2395,
      "train_speed(iter/s)": 1.119293
    },
    {
      "acc": 0.69688587,
      "epoch": 0.060882800608828,
      "grad_norm": 4.625,
      "learning_rate": 6.0882800608828005e-06,
      "loss": 1.32519569,
      "memory(GiB)": 99.49,
      "step": 2400,
      "train_speed(iter/s)": 1.119741
    },
    {
      "acc": 0.69222412,
      "epoch": 0.06100963977676306,
      "grad_norm": 3.6875,
      "learning_rate": 6.100963977676307e-06,
      "loss": 1.31280622,
      "memory(GiB)": 99.49,
      "step": 2405,
      "train_speed(iter/s)": 1.119995
    },
    {
      "acc": 0.6963315,
      "epoch": 0.06113647894469812,
      "grad_norm": 3.78125,
      "learning_rate": 6.113647894469813e-06,
      "loss": 1.27378407,
      "memory(GiB)": 99.49,
      "step": 2410,
      "train_speed(iter/s)": 1.120448
    },
    {
      "acc": 0.7085063,
      "epoch": 0.06126331811263318,
      "grad_norm": 3.671875,
      "learning_rate": 6.126331811263318e-06,
      "loss": 1.2179245,
      "memory(GiB)": 99.49,
      "step": 2415,
      "train_speed(iter/s)": 1.120553
    },
    {
      "acc": 0.71859312,
      "epoch": 0.061390157280568236,
      "grad_norm": 3.875,
      "learning_rate": 6.139015728056824e-06,
      "loss": 1.22337341,
      "memory(GiB)": 99.49,
      "step": 2420,
      "train_speed(iter/s)": 1.121026
    },
    {
      "acc": 0.70585871,
      "epoch": 0.061516996448503294,
      "grad_norm": 3.828125,
      "learning_rate": 6.151699644850331e-06,
      "loss": 1.30127392,
      "memory(GiB)": 99.49,
      "step": 2425,
      "train_speed(iter/s)": 1.121325
    },
    {
      "acc": 0.71382303,
      "epoch": 0.06164383561643835,
      "grad_norm": 3.484375,
      "learning_rate": 6.164383561643836e-06,
      "loss": 1.2223443,
      "memory(GiB)": 99.49,
      "step": 2430,
      "train_speed(iter/s)": 1.121681
    },
    {
      "acc": 0.69942083,
      "epoch": 0.06177067478437341,
      "grad_norm": 3.90625,
      "learning_rate": 6.177067478437342e-06,
      "loss": 1.29188175,
      "memory(GiB)": 99.49,
      "step": 2435,
      "train_speed(iter/s)": 1.121816
    },
    {
      "acc": 0.69385834,
      "epoch": 0.06189751395230847,
      "grad_norm": 3.703125,
      "learning_rate": 6.189751395230847e-06,
      "loss": 1.29136753,
      "memory(GiB)": 99.49,
      "step": 2440,
      "train_speed(iter/s)": 1.122163
    },
    {
      "acc": 0.70145102,
      "epoch": 0.06202435312024353,
      "grad_norm": 6.5625,
      "learning_rate": 6.202435312024354e-06,
      "loss": 1.32381639,
      "memory(GiB)": 99.49,
      "step": 2445,
      "train_speed(iter/s)": 1.122596
    },
    {
      "acc": 0.71411681,
      "epoch": 0.062151192288178586,
      "grad_norm": 4.25,
      "learning_rate": 6.215119228817859e-06,
      "loss": 1.19537182,
      "memory(GiB)": 99.49,
      "step": 2450,
      "train_speed(iter/s)": 1.123008
    },
    {
      "acc": 0.69102569,
      "epoch": 0.062278031456113644,
      "grad_norm": 3.65625,
      "learning_rate": 6.227803145611365e-06,
      "loss": 1.34019127,
      "memory(GiB)": 99.49,
      "step": 2455,
      "train_speed(iter/s)": 1.123377
    },
    {
      "acc": 0.69007092,
      "epoch": 0.0624048706240487,
      "grad_norm": 4.25,
      "learning_rate": 6.24048706240487e-06,
      "loss": 1.32757053,
      "memory(GiB)": 99.49,
      "step": 2460,
      "train_speed(iter/s)": 1.123868
    },
    {
      "acc": 0.70796413,
      "epoch": 0.06253170979198376,
      "grad_norm": 5.6875,
      "learning_rate": 6.253170979198377e-06,
      "loss": 1.25333958,
      "memory(GiB)": 99.49,
      "step": 2465,
      "train_speed(iter/s)": 1.124078
    },
    {
      "acc": 0.70036316,
      "epoch": 0.06265854895991882,
      "grad_norm": 4.21875,
      "learning_rate": 6.265854895991883e-06,
      "loss": 1.27097883,
      "memory(GiB)": 99.49,
      "step": 2470,
      "train_speed(iter/s)": 1.124341
    },
    {
      "acc": 0.7132525,
      "epoch": 0.06278538812785388,
      "grad_norm": 4.3125,
      "learning_rate": 6.278538812785388e-06,
      "loss": 1.26888638,
      "memory(GiB)": 99.49,
      "step": 2475,
      "train_speed(iter/s)": 1.124737
    },
    {
      "acc": 0.705474,
      "epoch": 0.06291222729578894,
      "grad_norm": 4.46875,
      "learning_rate": 6.291222729578894e-06,
      "loss": 1.27675285,
      "memory(GiB)": 99.49,
      "step": 2480,
      "train_speed(iter/s)": 1.124846
    },
    {
      "acc": 0.697891,
      "epoch": 0.063039066463724,
      "grad_norm": 3.484375,
      "learning_rate": 6.303906646372401e-06,
      "loss": 1.33245487,
      "memory(GiB)": 99.49,
      "step": 2485,
      "train_speed(iter/s)": 1.125219
    },
    {
      "acc": 0.71081219,
      "epoch": 0.06316590563165905,
      "grad_norm": 4.71875,
      "learning_rate": 6.316590563165906e-06,
      "loss": 1.25664768,
      "memory(GiB)": 99.49,
      "step": 2490,
      "train_speed(iter/s)": 1.125606
    },
    {
      "acc": 0.70013776,
      "epoch": 0.06329274479959411,
      "grad_norm": 4.40625,
      "learning_rate": 6.329274479959412e-06,
      "loss": 1.29620152,
      "memory(GiB)": 99.49,
      "step": 2495,
      "train_speed(iter/s)": 1.126149
    },
    {
      "acc": 0.69868326,
      "epoch": 0.06341958396752917,
      "grad_norm": 3.875,
      "learning_rate": 6.341958396752917e-06,
      "loss": 1.32440529,
      "memory(GiB)": 99.49,
      "step": 2500,
      "train_speed(iter/s)": 1.126459
    },
    {
      "acc": 0.70626626,
      "epoch": 0.06354642313546423,
      "grad_norm": 4.5,
      "learning_rate": 6.354642313546424e-06,
      "loss": 1.2911541,
      "memory(GiB)": 99.49,
      "step": 2505,
      "train_speed(iter/s)": 1.126987
    },
    {
      "acc": 0.69735684,
      "epoch": 0.06367326230339929,
      "grad_norm": 3.390625,
      "learning_rate": 6.36732623033993e-06,
      "loss": 1.29845152,
      "memory(GiB)": 99.49,
      "step": 2510,
      "train_speed(iter/s)": 1.127232
    },
    {
      "acc": 0.70998979,
      "epoch": 0.06380010147133434,
      "grad_norm": 3.546875,
      "learning_rate": 6.380010147133435e-06,
      "loss": 1.19804211,
      "memory(GiB)": 99.49,
      "step": 2515,
      "train_speed(iter/s)": 1.12729
    },
    {
      "acc": 0.70704761,
      "epoch": 0.0639269406392694,
      "grad_norm": 3.8125,
      "learning_rate": 6.392694063926941e-06,
      "loss": 1.27035875,
      "memory(GiB)": 99.49,
      "step": 2520,
      "train_speed(iter/s)": 1.127706
    },
    {
      "acc": 0.69265232,
      "epoch": 0.06405377980720446,
      "grad_norm": 3.953125,
      "learning_rate": 6.405377980720447e-06,
      "loss": 1.30811644,
      "memory(GiB)": 99.49,
      "step": 2525,
      "train_speed(iter/s)": 1.127769
    },
    {
      "acc": 0.71891904,
      "epoch": 0.06418061897513952,
      "grad_norm": 4.96875,
      "learning_rate": 6.418061897513953e-06,
      "loss": 1.20240717,
      "memory(GiB)": 99.49,
      "step": 2530,
      "train_speed(iter/s)": 1.127826
    },
    {
      "acc": 0.70158153,
      "epoch": 0.06430745814307458,
      "grad_norm": 5.0,
      "learning_rate": 6.430745814307458e-06,
      "loss": 1.24784012,
      "memory(GiB)": 99.49,
      "step": 2535,
      "train_speed(iter/s)": 1.128218
    },
    {
      "acc": 0.70189557,
      "epoch": 0.06443429731100964,
      "grad_norm": 3.796875,
      "learning_rate": 6.443429731100964e-06,
      "loss": 1.2884923,
      "memory(GiB)": 99.49,
      "step": 2540,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.7248158,
      "epoch": 0.0645611364789447,
      "grad_norm": 3.90625,
      "learning_rate": 6.456113647894471e-06,
      "loss": 1.2185957,
      "memory(GiB)": 99.49,
      "step": 2545,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.70727801,
      "epoch": 0.06468797564687975,
      "grad_norm": 2.96875,
      "learning_rate": 6.468797564687976e-06,
      "loss": 1.21617966,
      "memory(GiB)": 99.49,
      "step": 2550,
      "train_speed(iter/s)": 1.129052
    },
    {
      "acc": 0.72770085,
      "epoch": 0.06481481481481481,
      "grad_norm": 4.4375,
      "learning_rate": 6.481481481481482e-06,
      "loss": 1.1597209,
      "memory(GiB)": 99.49,
      "step": 2555,
      "train_speed(iter/s)": 1.129467
    },
    {
      "acc": 0.70954671,
      "epoch": 0.06494165398274987,
      "grad_norm": 3.671875,
      "learning_rate": 6.494165398274987e-06,
      "loss": 1.26340389,
      "memory(GiB)": 99.49,
      "step": 2560,
      "train_speed(iter/s)": 1.129837
    },
    {
      "acc": 0.68893399,
      "epoch": 0.06506849315068493,
      "grad_norm": 3.96875,
      "learning_rate": 6.506849315068494e-06,
      "loss": 1.29317884,
      "memory(GiB)": 99.49,
      "step": 2565,
      "train_speed(iter/s)": 1.130101
    },
    {
      "acc": 0.70226188,
      "epoch": 0.06519533231861999,
      "grad_norm": 3.875,
      "learning_rate": 6.519533231862e-06,
      "loss": 1.30016785,
      "memory(GiB)": 99.49,
      "step": 2570,
      "train_speed(iter/s)": 1.13047
    },
    {
      "acc": 0.71563854,
      "epoch": 0.06532217148655504,
      "grad_norm": 3.890625,
      "learning_rate": 6.532217148655505e-06,
      "loss": 1.21704617,
      "memory(GiB)": 99.49,
      "step": 2575,
      "train_speed(iter/s)": 1.130753
    },
    {
      "acc": 0.69987082,
      "epoch": 0.0654490106544901,
      "grad_norm": 3.625,
      "learning_rate": 6.544901065449011e-06,
      "loss": 1.39397068,
      "memory(GiB)": 99.49,
      "step": 2580,
      "train_speed(iter/s)": 1.131102
    },
    {
      "acc": 0.6940793,
      "epoch": 0.06557584982242516,
      "grad_norm": 6.3125,
      "learning_rate": 6.557584982242518e-06,
      "loss": 1.31529531,
      "memory(GiB)": 99.49,
      "step": 2585,
      "train_speed(iter/s)": 1.131514
    },
    {
      "acc": 0.70356197,
      "epoch": 0.06570268899036022,
      "grad_norm": 3.5,
      "learning_rate": 6.570268899036023e-06,
      "loss": 1.30438137,
      "memory(GiB)": 99.49,
      "step": 2590,
      "train_speed(iter/s)": 1.131841
    },
    {
      "acc": 0.70546131,
      "epoch": 0.06582952815829528,
      "grad_norm": 3.625,
      "learning_rate": 6.582952815829529e-06,
      "loss": 1.29988251,
      "memory(GiB)": 99.49,
      "step": 2595,
      "train_speed(iter/s)": 1.132174
    },
    {
      "acc": 0.69965515,
      "epoch": 0.06595636732623034,
      "grad_norm": 4.4375,
      "learning_rate": 6.595636732623034e-06,
      "loss": 1.3456975,
      "memory(GiB)": 99.49,
      "step": 2600,
      "train_speed(iter/s)": 1.132448
    },
    {
      "acc": 0.711906,
      "epoch": 0.0660832064941654,
      "grad_norm": 4.5625,
      "learning_rate": 6.608320649416541e-06,
      "loss": 1.22101307,
      "memory(GiB)": 99.49,
      "step": 2605,
      "train_speed(iter/s)": 1.132706
    },
    {
      "acc": 0.69991169,
      "epoch": 0.06621004566210045,
      "grad_norm": 4.6875,
      "learning_rate": 6.621004566210046e-06,
      "loss": 1.29241486,
      "memory(GiB)": 99.49,
      "step": 2610,
      "train_speed(iter/s)": 1.133159
    },
    {
      "acc": 0.70304227,
      "epoch": 0.06633688483003551,
      "grad_norm": 4.375,
      "learning_rate": 6.633688483003552e-06,
      "loss": 1.27772732,
      "memory(GiB)": 99.49,
      "step": 2615,
      "train_speed(iter/s)": 1.133112
    },
    {
      "acc": 0.71344624,
      "epoch": 0.06646372399797057,
      "grad_norm": 5.1875,
      "learning_rate": 6.646372399797057e-06,
      "loss": 1.28758736,
      "memory(GiB)": 99.49,
      "step": 2620,
      "train_speed(iter/s)": 1.13314
    },
    {
      "acc": 0.70328574,
      "epoch": 0.06659056316590563,
      "grad_norm": 4.40625,
      "learning_rate": 6.659056316590564e-06,
      "loss": 1.27566357,
      "memory(GiB)": 99.49,
      "step": 2625,
      "train_speed(iter/s)": 1.133505
    },
    {
      "acc": 0.70615168,
      "epoch": 0.06671740233384069,
      "grad_norm": 4.78125,
      "learning_rate": 6.67174023338407e-06,
      "loss": 1.28833494,
      "memory(GiB)": 99.49,
      "step": 2630,
      "train_speed(iter/s)": 1.133916
    },
    {
      "acc": 0.70544453,
      "epoch": 0.06684424150177574,
      "grad_norm": 5.0,
      "learning_rate": 6.684424150177575e-06,
      "loss": 1.29098883,
      "memory(GiB)": 99.49,
      "step": 2635,
      "train_speed(iter/s)": 1.13407
    },
    {
      "acc": 0.70846148,
      "epoch": 0.0669710806697108,
      "grad_norm": 4.6875,
      "learning_rate": 6.697108066971081e-06,
      "loss": 1.31368189,
      "memory(GiB)": 99.49,
      "step": 2640,
      "train_speed(iter/s)": 1.134446
    },
    {
      "acc": 0.70785007,
      "epoch": 0.06709791983764586,
      "grad_norm": 4.28125,
      "learning_rate": 6.709791983764588e-06,
      "loss": 1.23161316,
      "memory(GiB)": 99.49,
      "step": 2645,
      "train_speed(iter/s)": 1.13479
    },
    {
      "acc": 0.69965439,
      "epoch": 0.06722475900558092,
      "grad_norm": 4.4375,
      "learning_rate": 6.722475900558093e-06,
      "loss": 1.25956173,
      "memory(GiB)": 99.49,
      "step": 2650,
      "train_speed(iter/s)": 1.135188
    },
    {
      "acc": 0.71749535,
      "epoch": 0.06735159817351598,
      "grad_norm": 5.4375,
      "learning_rate": 6.735159817351599e-06,
      "loss": 1.22383156,
      "memory(GiB)": 99.49,
      "step": 2655,
      "train_speed(iter/s)": 1.135338
    },
    {
      "acc": 0.70762129,
      "epoch": 0.06747843734145104,
      "grad_norm": 4.78125,
      "learning_rate": 6.747843734145104e-06,
      "loss": 1.24916029,
      "memory(GiB)": 99.49,
      "step": 2660,
      "train_speed(iter/s)": 1.135722
    },
    {
      "acc": 0.70117154,
      "epoch": 0.0676052765093861,
      "grad_norm": 3.640625,
      "learning_rate": 6.760527650938611e-06,
      "loss": 1.20856419,
      "memory(GiB)": 99.49,
      "step": 2665,
      "train_speed(iter/s)": 1.135719
    },
    {
      "acc": 0.70198255,
      "epoch": 0.06773211567732115,
      "grad_norm": 3.953125,
      "learning_rate": 6.773211567732117e-06,
      "loss": 1.25816441,
      "memory(GiB)": 99.49,
      "step": 2670,
      "train_speed(iter/s)": 1.136154
    },
    {
      "acc": 0.7099647,
      "epoch": 0.06785895484525621,
      "grad_norm": 3.4375,
      "learning_rate": 6.785895484525622e-06,
      "loss": 1.31793747,
      "memory(GiB)": 99.49,
      "step": 2675,
      "train_speed(iter/s)": 1.136484
    },
    {
      "acc": 0.70987978,
      "epoch": 0.06798579401319127,
      "grad_norm": 4.21875,
      "learning_rate": 6.798579401319128e-06,
      "loss": 1.22212725,
      "memory(GiB)": 99.49,
      "step": 2680,
      "train_speed(iter/s)": 1.136841
    },
    {
      "acc": 0.70670171,
      "epoch": 0.06811263318112633,
      "grad_norm": 3.796875,
      "learning_rate": 6.811263318112634e-06,
      "loss": 1.2850976,
      "memory(GiB)": 99.49,
      "step": 2685,
      "train_speed(iter/s)": 1.137241
    },
    {
      "acc": 0.69274168,
      "epoch": 0.06823947234906139,
      "grad_norm": 4.125,
      "learning_rate": 6.82394723490614e-06,
      "loss": 1.28363304,
      "memory(GiB)": 99.49,
      "step": 2690,
      "train_speed(iter/s)": 1.137698
    },
    {
      "acc": 0.70639687,
      "epoch": 0.06836631151699644,
      "grad_norm": 3.65625,
      "learning_rate": 6.836631151699645e-06,
      "loss": 1.28780308,
      "memory(GiB)": 99.49,
      "step": 2695,
      "train_speed(iter/s)": 1.137847
    },
    {
      "acc": 0.68795099,
      "epoch": 0.0684931506849315,
      "grad_norm": 3.90625,
      "learning_rate": 6.849315068493151e-06,
      "loss": 1.3333231,
      "memory(GiB)": 99.49,
      "step": 2700,
      "train_speed(iter/s)": 1.138099
    },
    {
      "acc": 0.7003933,
      "epoch": 0.06861998985286656,
      "grad_norm": 4.1875,
      "learning_rate": 6.861998985286658e-06,
      "loss": 1.31941814,
      "memory(GiB)": 99.49,
      "step": 2705,
      "train_speed(iter/s)": 1.138489
    },
    {
      "acc": 0.70373483,
      "epoch": 0.06874682902080162,
      "grad_norm": 4.34375,
      "learning_rate": 6.874682902080163e-06,
      "loss": 1.37402344,
      "memory(GiB)": 99.49,
      "step": 2710,
      "train_speed(iter/s)": 1.138874
    },
    {
      "acc": 0.70544157,
      "epoch": 0.06887366818873668,
      "grad_norm": 4.28125,
      "learning_rate": 6.887366818873669e-06,
      "loss": 1.22837524,
      "memory(GiB)": 99.49,
      "step": 2715,
      "train_speed(iter/s)": 1.13909
    },
    {
      "acc": 0.71026087,
      "epoch": 0.06900050735667174,
      "grad_norm": 3.96875,
      "learning_rate": 6.900050735667174e-06,
      "loss": 1.25863304,
      "memory(GiB)": 99.49,
      "step": 2720,
      "train_speed(iter/s)": 1.139468
    },
    {
      "acc": 0.70695038,
      "epoch": 0.0691273465246068,
      "grad_norm": 3.46875,
      "learning_rate": 6.912734652460681e-06,
      "loss": 1.2453207,
      "memory(GiB)": 99.49,
      "step": 2725,
      "train_speed(iter/s)": 1.13989
    },
    {
      "acc": 0.70761166,
      "epoch": 0.06925418569254185,
      "grad_norm": 5.59375,
      "learning_rate": 6.925418569254187e-06,
      "loss": 1.21644201,
      "memory(GiB)": 99.49,
      "step": 2730,
      "train_speed(iter/s)": 1.140258
    },
    {
      "acc": 0.70063901,
      "epoch": 0.06938102486047691,
      "grad_norm": 3.734375,
      "learning_rate": 6.938102486047692e-06,
      "loss": 1.21326942,
      "memory(GiB)": 99.49,
      "step": 2735,
      "train_speed(iter/s)": 1.140351
    },
    {
      "acc": 0.70477829,
      "epoch": 0.06950786402841197,
      "grad_norm": 3.625,
      "learning_rate": 6.950786402841198e-06,
      "loss": 1.24499416,
      "memory(GiB)": 99.49,
      "step": 2740,
      "train_speed(iter/s)": 1.140654
    },
    {
      "acc": 0.71183972,
      "epoch": 0.06963470319634703,
      "grad_norm": 4.28125,
      "learning_rate": 6.9634703196347046e-06,
      "loss": 1.20628328,
      "memory(GiB)": 99.49,
      "step": 2745,
      "train_speed(iter/s)": 1.140998
    },
    {
      "acc": 0.70964041,
      "epoch": 0.06976154236428209,
      "grad_norm": 3.984375,
      "learning_rate": 6.97615423642821e-06,
      "loss": 1.2966341,
      "memory(GiB)": 99.49,
      "step": 2750,
      "train_speed(iter/s)": 1.141411
    },
    {
      "acc": 0.7078229,
      "epoch": 0.06988838153221714,
      "grad_norm": 4.03125,
      "learning_rate": 6.988838153221716e-06,
      "loss": 1.28176746,
      "memory(GiB)": 99.49,
      "step": 2755,
      "train_speed(iter/s)": 1.14161
    },
    {
      "acc": 0.69972897,
      "epoch": 0.0700152207001522,
      "grad_norm": 3.796875,
      "learning_rate": 7.001522070015221e-06,
      "loss": 1.26585512,
      "memory(GiB)": 99.49,
      "step": 2760,
      "train_speed(iter/s)": 1.141654
    },
    {
      "acc": 0.70625172,
      "epoch": 0.07014205986808726,
      "grad_norm": 4.125,
      "learning_rate": 7.014205986808728e-06,
      "loss": 1.3296854,
      "memory(GiB)": 99.49,
      "step": 2765,
      "train_speed(iter/s)": 1.141876
    },
    {
      "acc": 0.70201821,
      "epoch": 0.07026889903602232,
      "grad_norm": 4.0,
      "learning_rate": 7.026889903602233e-06,
      "loss": 1.26891079,
      "memory(GiB)": 99.49,
      "step": 2770,
      "train_speed(iter/s)": 1.142265
    },
    {
      "acc": 0.71302981,
      "epoch": 0.07039573820395738,
      "grad_norm": 4.53125,
      "learning_rate": 7.039573820395739e-06,
      "loss": 1.26504498,
      "memory(GiB)": 99.49,
      "step": 2775,
      "train_speed(iter/s)": 1.142526
    },
    {
      "acc": 0.69257727,
      "epoch": 0.07052257737189244,
      "grad_norm": 4.09375,
      "learning_rate": 7.052257737189245e-06,
      "loss": 1.30960903,
      "memory(GiB)": 99.49,
      "step": 2780,
      "train_speed(iter/s)": 1.14292
    },
    {
      "acc": 0.70478921,
      "epoch": 0.0706494165398275,
      "grad_norm": 4.4375,
      "learning_rate": 7.064941653982751e-06,
      "loss": 1.27815008,
      "memory(GiB)": 99.49,
      "step": 2785,
      "train_speed(iter/s)": 1.14294
    },
    {
      "acc": 0.69953871,
      "epoch": 0.07077625570776255,
      "grad_norm": 4.0,
      "learning_rate": 7.077625570776257e-06,
      "loss": 1.32772713,
      "memory(GiB)": 99.49,
      "step": 2790,
      "train_speed(iter/s)": 1.143125
    },
    {
      "acc": 0.71217842,
      "epoch": 0.07090309487569761,
      "grad_norm": 4.4375,
      "learning_rate": 7.090309487569762e-06,
      "loss": 1.2263341,
      "memory(GiB)": 99.49,
      "step": 2795,
      "train_speed(iter/s)": 1.143265
    },
    {
      "acc": 0.73036795,
      "epoch": 0.07102993404363267,
      "grad_norm": 4.4375,
      "learning_rate": 7.102993404363268e-06,
      "loss": 1.17999344,
      "memory(GiB)": 99.49,
      "step": 2800,
      "train_speed(iter/s)": 1.143474
    },
    {
      "acc": 0.7129446,
      "epoch": 0.07115677321156773,
      "grad_norm": 4.125,
      "learning_rate": 7.1156773211567745e-06,
      "loss": 1.25145311,
      "memory(GiB)": 99.49,
      "step": 2805,
      "train_speed(iter/s)": 1.143564
    },
    {
      "acc": 0.71930542,
      "epoch": 0.07128361237950279,
      "grad_norm": 4.46875,
      "learning_rate": 7.12836123795028e-06,
      "loss": 1.2622839,
      "memory(GiB)": 99.49,
      "step": 2810,
      "train_speed(iter/s)": 1.143841
    },
    {
      "acc": 0.69945993,
      "epoch": 0.07141045154743784,
      "grad_norm": 3.703125,
      "learning_rate": 7.1410451547437856e-06,
      "loss": 1.27043085,
      "memory(GiB)": 99.49,
      "step": 2815,
      "train_speed(iter/s)": 1.144037
    },
    {
      "acc": 0.70957508,
      "epoch": 0.0715372907153729,
      "grad_norm": 4.28125,
      "learning_rate": 7.153729071537291e-06,
      "loss": 1.19959774,
      "memory(GiB)": 99.49,
      "step": 2820,
      "train_speed(iter/s)": 1.144342
    },
    {
      "acc": 0.7142108,
      "epoch": 0.07166412988330796,
      "grad_norm": 3.703125,
      "learning_rate": 7.1664129883307975e-06,
      "loss": 1.22029905,
      "memory(GiB)": 99.49,
      "step": 2825,
      "train_speed(iter/s)": 1.144655
    },
    {
      "acc": 0.71854544,
      "epoch": 0.07179096905124302,
      "grad_norm": 3.953125,
      "learning_rate": 7.1790969051243035e-06,
      "loss": 1.21001205,
      "memory(GiB)": 99.49,
      "step": 2830,
      "train_speed(iter/s)": 1.144972
    },
    {
      "acc": 0.69020224,
      "epoch": 0.07191780821917808,
      "grad_norm": 5.21875,
      "learning_rate": 7.191780821917809e-06,
      "loss": 1.32786798,
      "memory(GiB)": 99.49,
      "step": 2835,
      "train_speed(iter/s)": 1.14526
    },
    {
      "acc": 0.70439329,
      "epoch": 0.07204464738711314,
      "grad_norm": 4.125,
      "learning_rate": 7.2044647387113146e-06,
      "loss": 1.2971405,
      "memory(GiB)": 99.49,
      "step": 2840,
      "train_speed(iter/s)": 1.145576
    },
    {
      "acc": 0.70965662,
      "epoch": 0.0721714865550482,
      "grad_norm": 3.5,
      "learning_rate": 7.2171486555048205e-06,
      "loss": 1.21647053,
      "memory(GiB)": 99.49,
      "step": 2845,
      "train_speed(iter/s)": 1.145702
    },
    {
      "acc": 0.71107378,
      "epoch": 0.07229832572298325,
      "grad_norm": 3.734375,
      "learning_rate": 7.2298325722983265e-06,
      "loss": 1.2100606,
      "memory(GiB)": 99.49,
      "step": 2850,
      "train_speed(iter/s)": 1.146045
    },
    {
      "acc": 0.71805134,
      "epoch": 0.07242516489091831,
      "grad_norm": 4.46875,
      "learning_rate": 7.242516489091832e-06,
      "loss": 1.27128773,
      "memory(GiB)": 99.49,
      "step": 2855,
      "train_speed(iter/s)": 1.146427
    },
    {
      "acc": 0.70987515,
      "epoch": 0.07255200405885337,
      "grad_norm": 4.28125,
      "learning_rate": 7.2552004058853376e-06,
      "loss": 1.23629265,
      "memory(GiB)": 99.49,
      "step": 2860,
      "train_speed(iter/s)": 1.146482
    },
    {
      "acc": 0.7076911,
      "epoch": 0.07267884322678843,
      "grad_norm": 3.90625,
      "learning_rate": 7.267884322678844e-06,
      "loss": 1.33221998,
      "memory(GiB)": 99.49,
      "step": 2865,
      "train_speed(iter/s)": 1.146814
    },
    {
      "acc": 0.71156745,
      "epoch": 0.07280568239472349,
      "grad_norm": 4.625,
      "learning_rate": 7.2805682394723495e-06,
      "loss": 1.28292027,
      "memory(GiB)": 99.49,
      "step": 2870,
      "train_speed(iter/s)": 1.147029
    },
    {
      "acc": 0.7003571,
      "epoch": 0.07293252156265854,
      "grad_norm": 4.03125,
      "learning_rate": 7.2932521562658555e-06,
      "loss": 1.26956234,
      "memory(GiB)": 99.49,
      "step": 2875,
      "train_speed(iter/s)": 1.147342
    },
    {
      "acc": 0.70157928,
      "epoch": 0.0730593607305936,
      "grad_norm": 2.96875,
      "learning_rate": 7.305936073059361e-06,
      "loss": 1.24405746,
      "memory(GiB)": 99.49,
      "step": 2880,
      "train_speed(iter/s)": 1.147534
    },
    {
      "acc": 0.72091918,
      "epoch": 0.07318619989852866,
      "grad_norm": 3.265625,
      "learning_rate": 7.318619989852867e-06,
      "loss": 1.26542683,
      "memory(GiB)": 99.49,
      "step": 2885,
      "train_speed(iter/s)": 1.147762
    },
    {
      "acc": 0.7083405,
      "epoch": 0.07331303906646372,
      "grad_norm": 4.65625,
      "learning_rate": 7.331303906646373e-06,
      "loss": 1.23972406,
      "memory(GiB)": 99.49,
      "step": 2890,
      "train_speed(iter/s)": 1.148036
    },
    {
      "acc": 0.71217799,
      "epoch": 0.07343987823439878,
      "grad_norm": 3.703125,
      "learning_rate": 7.3439878234398785e-06,
      "loss": 1.23150158,
      "memory(GiB)": 99.49,
      "step": 2895,
      "train_speed(iter/s)": 1.148268
    },
    {
      "acc": 0.6899353,
      "epoch": 0.07356671740233384,
      "grad_norm": 4.46875,
      "learning_rate": 7.3566717402333845e-06,
      "loss": 1.36777325,
      "memory(GiB)": 99.49,
      "step": 2900,
      "train_speed(iter/s)": 1.148559
    },
    {
      "acc": 0.70329795,
      "epoch": 0.0736935565702689,
      "grad_norm": 4.25,
      "learning_rate": 7.369355657026891e-06,
      "loss": 1.26108055,
      "memory(GiB)": 99.49,
      "step": 2905,
      "train_speed(iter/s)": 1.148711
    },
    {
      "acc": 0.6897584,
      "epoch": 0.07382039573820395,
      "grad_norm": 3.375,
      "learning_rate": 7.382039573820396e-06,
      "loss": 1.35995674,
      "memory(GiB)": 99.49,
      "step": 2910,
      "train_speed(iter/s)": 1.14905
    },
    {
      "acc": 0.70567098,
      "epoch": 0.07394723490613901,
      "grad_norm": 4.65625,
      "learning_rate": 7.394723490613902e-06,
      "loss": 1.26958218,
      "memory(GiB)": 99.49,
      "step": 2915,
      "train_speed(iter/s)": 1.149299
    },
    {
      "acc": 0.69925804,
      "epoch": 0.07407407407407407,
      "grad_norm": 3.75,
      "learning_rate": 7.4074074074074075e-06,
      "loss": 1.29051828,
      "memory(GiB)": 99.49,
      "step": 2920,
      "train_speed(iter/s)": 1.149431
    },
    {
      "acc": 0.69755106,
      "epoch": 0.07420091324200913,
      "grad_norm": 4.0,
      "learning_rate": 7.420091324200914e-06,
      "loss": 1.30181742,
      "memory(GiB)": 99.49,
      "step": 2925,
      "train_speed(iter/s)": 1.14978
    },
    {
      "acc": 0.69370232,
      "epoch": 0.07432775240994419,
      "grad_norm": 4.9375,
      "learning_rate": 7.432775240994419e-06,
      "loss": 1.31946373,
      "memory(GiB)": 99.49,
      "step": 2930,
      "train_speed(iter/s)": 1.150139
    },
    {
      "acc": 0.71511717,
      "epoch": 0.07445459157787924,
      "grad_norm": 4.125,
      "learning_rate": 7.445459157787925e-06,
      "loss": 1.20422249,
      "memory(GiB)": 99.49,
      "step": 2935,
      "train_speed(iter/s)": 1.150419
    },
    {
      "acc": 0.71160421,
      "epoch": 0.0745814307458143,
      "grad_norm": 4.28125,
      "learning_rate": 7.458143074581431e-06,
      "loss": 1.23092747,
      "memory(GiB)": 99.49,
      "step": 2940,
      "train_speed(iter/s)": 1.150632
    },
    {
      "acc": 0.72491965,
      "epoch": 0.07470826991374936,
      "grad_norm": 4.625,
      "learning_rate": 7.470826991374937e-06,
      "loss": 1.18859072,
      "memory(GiB)": 99.49,
      "step": 2945,
      "train_speed(iter/s)": 1.150735
    },
    {
      "acc": 0.69663448,
      "epoch": 0.07483510908168442,
      "grad_norm": 5.28125,
      "learning_rate": 7.483510908168443e-06,
      "loss": 1.34198961,
      "memory(GiB)": 99.49,
      "step": 2950,
      "train_speed(iter/s)": 1.151065
    },
    {
      "acc": 0.71719618,
      "epoch": 0.07496194824961948,
      "grad_norm": 4.03125,
      "learning_rate": 7.496194824961948e-06,
      "loss": 1.21086454,
      "memory(GiB)": 99.49,
      "step": 2955,
      "train_speed(iter/s)": 1.150899
    },
    {
      "acc": 0.71391859,
      "epoch": 0.07508878741755454,
      "grad_norm": 3.796875,
      "learning_rate": 7.508878741755454e-06,
      "loss": 1.22576046,
      "memory(GiB)": 99.49,
      "step": 2960,
      "train_speed(iter/s)": 1.150921
    },
    {
      "acc": 0.70406218,
      "epoch": 0.0752156265854896,
      "grad_norm": 4.25,
      "learning_rate": 7.521562658548961e-06,
      "loss": 1.24480085,
      "memory(GiB)": 99.49,
      "step": 2965,
      "train_speed(iter/s)": 1.151192
    },
    {
      "acc": 0.71763773,
      "epoch": 0.07534246575342465,
      "grad_norm": 3.90625,
      "learning_rate": 7.534246575342466e-06,
      "loss": 1.21542025,
      "memory(GiB)": 99.49,
      "step": 2970,
      "train_speed(iter/s)": 1.151468
    },
    {
      "acc": 0.71557465,
      "epoch": 0.07546930492135971,
      "grad_norm": 3.453125,
      "learning_rate": 7.546930492135972e-06,
      "loss": 1.21716366,
      "memory(GiB)": 99.49,
      "step": 2975,
      "train_speed(iter/s)": 1.151824
    },
    {
      "acc": 0.7159142,
      "epoch": 0.07559614408929477,
      "grad_norm": 4.84375,
      "learning_rate": 7.559614408929477e-06,
      "loss": 1.20117292,
      "memory(GiB)": 99.49,
      "step": 2980,
      "train_speed(iter/s)": 1.151914
    },
    {
      "acc": 0.70040712,
      "epoch": 0.07572298325722983,
      "grad_norm": 4.09375,
      "learning_rate": 7.572298325722984e-06,
      "loss": 1.24953728,
      "memory(GiB)": 99.49,
      "step": 2985,
      "train_speed(iter/s)": 1.152227
    },
    {
      "acc": 0.71786108,
      "epoch": 0.07584982242516489,
      "grad_norm": 3.828125,
      "learning_rate": 7.58498224251649e-06,
      "loss": 1.22414513,
      "memory(GiB)": 99.49,
      "step": 2990,
      "train_speed(iter/s)": 1.152465
    },
    {
      "acc": 0.70293083,
      "epoch": 0.07597666159309995,
      "grad_norm": 3.84375,
      "learning_rate": 7.597666159309995e-06,
      "loss": 1.28329144,
      "memory(GiB)": 99.49,
      "step": 2995,
      "train_speed(iter/s)": 1.152777
    },
    {
      "acc": 0.70722179,
      "epoch": 0.076103500761035,
      "grad_norm": 3.90625,
      "learning_rate": 7.610350076103501e-06,
      "loss": 1.28252831,
      "memory(GiB)": 99.49,
      "step": 3000,
      "train_speed(iter/s)": 1.152996
    },
    {
      "epoch": 0.076103500761035,
      "eval_acc": 0.6946800401790096,
      "eval_loss": 1.2132494449615479,
      "eval_runtime": 70.8454,
      "eval_samples_per_second": 89.914,
      "eval_steps_per_second": 22.486,
      "step": 3000
    },
    {
      "acc": 0.72091608,
      "epoch": 0.07623033992897006,
      "grad_norm": 3.125,
      "learning_rate": 7.623033992897007e-06,
      "loss": 1.16568966,
      "memory(GiB)": 99.49,
      "step": 3005,
      "train_speed(iter/s)": 1.104744
    },
    {
      "acc": 0.71164017,
      "epoch": 0.07635717909690512,
      "grad_norm": 4.0,
      "learning_rate": 7.635717909690512e-06,
      "loss": 1.25121794,
      "memory(GiB)": 99.49,
      "step": 3010,
      "train_speed(iter/s)": 1.105048
    },
    {
      "acc": 0.70840473,
      "epoch": 0.07648401826484018,
      "grad_norm": 4.34375,
      "learning_rate": 7.648401826484018e-06,
      "loss": 1.23789501,
      "memory(GiB)": 99.49,
      "step": 3015,
      "train_speed(iter/s)": 1.105435
    },
    {
      "acc": 0.71865339,
      "epoch": 0.07661085743277524,
      "grad_norm": 3.984375,
      "learning_rate": 7.661085743277524e-06,
      "loss": 1.22704697,
      "memory(GiB)": 99.49,
      "step": 3020,
      "train_speed(iter/s)": 1.105752
    },
    {
      "acc": 0.70772257,
      "epoch": 0.0767376966007103,
      "grad_norm": 3.59375,
      "learning_rate": 7.67376966007103e-06,
      "loss": 1.24529552,
      "memory(GiB)": 99.49,
      "step": 3025,
      "train_speed(iter/s)": 1.106153
    },
    {
      "acc": 0.71780767,
      "epoch": 0.07686453576864535,
      "grad_norm": 3.4375,
      "learning_rate": 7.686453576864536e-06,
      "loss": 1.18437061,
      "memory(GiB)": 99.49,
      "step": 3030,
      "train_speed(iter/s)": 1.10618
    },
    {
      "acc": 0.70065947,
      "epoch": 0.07699137493658041,
      "grad_norm": 4.15625,
      "learning_rate": 7.699137493658042e-06,
      "loss": 1.25697708,
      "memory(GiB)": 99.49,
      "step": 3035,
      "train_speed(iter/s)": 1.10639
    },
    {
      "acc": 0.71310048,
      "epoch": 0.07711821410451547,
      "grad_norm": 4.15625,
      "learning_rate": 7.711821410451548e-06,
      "loss": 1.21996822,
      "memory(GiB)": 99.49,
      "step": 3040,
      "train_speed(iter/s)": 1.106624
    },
    {
      "acc": 0.70397067,
      "epoch": 0.07724505327245053,
      "grad_norm": 4.1875,
      "learning_rate": 7.724505327245054e-06,
      "loss": 1.23372927,
      "memory(GiB)": 99.49,
      "step": 3045,
      "train_speed(iter/s)": 1.106966
    },
    {
      "acc": 0.70923958,
      "epoch": 0.07737189244038559,
      "grad_norm": 4.65625,
      "learning_rate": 7.73718924403856e-06,
      "loss": 1.25247955,
      "memory(GiB)": 99.49,
      "step": 3050,
      "train_speed(iter/s)": 1.107294
    },
    {
      "acc": 0.70717945,
      "epoch": 0.07749873160832065,
      "grad_norm": 3.375,
      "learning_rate": 7.749873160832066e-06,
      "loss": 1.26262493,
      "memory(GiB)": 99.49,
      "step": 3055,
      "train_speed(iter/s)": 1.107564
    },
    {
      "acc": 0.70956874,
      "epoch": 0.0776255707762557,
      "grad_norm": 3.390625,
      "learning_rate": 7.76255707762557e-06,
      "loss": 1.19367504,
      "memory(GiB)": 99.49,
      "step": 3060,
      "train_speed(iter/s)": 1.107766
    },
    {
      "acc": 0.71934128,
      "epoch": 0.07775240994419076,
      "grad_norm": 4.21875,
      "learning_rate": 7.775240994419078e-06,
      "loss": 1.20197878,
      "memory(GiB)": 99.49,
      "step": 3065,
      "train_speed(iter/s)": 1.108024
    },
    {
      "acc": 0.70951085,
      "epoch": 0.07787924911212582,
      "grad_norm": 4.34375,
      "learning_rate": 7.787924911212584e-06,
      "loss": 1.25917473,
      "memory(GiB)": 99.49,
      "step": 3070,
      "train_speed(iter/s)": 1.108244
    },
    {
      "acc": 0.71313767,
      "epoch": 0.07800608828006088,
      "grad_norm": 5.3125,
      "learning_rate": 7.800608828006088e-06,
      "loss": 1.26973696,
      "memory(GiB)": 99.49,
      "step": 3075,
      "train_speed(iter/s)": 1.108691
    },
    {
      "acc": 0.70453291,
      "epoch": 0.07813292744799594,
      "grad_norm": 3.84375,
      "learning_rate": 7.813292744799594e-06,
      "loss": 1.23897486,
      "memory(GiB)": 99.49,
      "step": 3080,
      "train_speed(iter/s)": 1.109019
    },
    {
      "acc": 0.70410738,
      "epoch": 0.078259766615931,
      "grad_norm": 3.921875,
      "learning_rate": 7.8259766615931e-06,
      "loss": 1.20917406,
      "memory(GiB)": 99.49,
      "step": 3085,
      "train_speed(iter/s)": 1.10888
    },
    {
      "acc": 0.70372906,
      "epoch": 0.07838660578386605,
      "grad_norm": 4.03125,
      "learning_rate": 7.838660578386606e-06,
      "loss": 1.31431942,
      "memory(GiB)": 99.49,
      "step": 3090,
      "train_speed(iter/s)": 1.109257
    },
    {
      "acc": 0.71218085,
      "epoch": 0.07851344495180111,
      "grad_norm": 3.484375,
      "learning_rate": 7.851344495180112e-06,
      "loss": 1.27391033,
      "memory(GiB)": 99.49,
      "step": 3095,
      "train_speed(iter/s)": 1.109405
    },
    {
      "acc": 0.70091314,
      "epoch": 0.07864028411973617,
      "grad_norm": 3.515625,
      "learning_rate": 7.864028411973618e-06,
      "loss": 1.24893932,
      "memory(GiB)": 99.49,
      "step": 3100,
      "train_speed(iter/s)": 1.109525
    },
    {
      "acc": 0.70780277,
      "epoch": 0.07876712328767123,
      "grad_norm": 3.875,
      "learning_rate": 7.876712328767124e-06,
      "loss": 1.245788,
      "memory(GiB)": 99.49,
      "step": 3105,
      "train_speed(iter/s)": 1.109818
    },
    {
      "acc": 0.70083261,
      "epoch": 0.07889396245560629,
      "grad_norm": 4.21875,
      "learning_rate": 7.88939624556063e-06,
      "loss": 1.29288397,
      "memory(GiB)": 99.49,
      "step": 3110,
      "train_speed(iter/s)": 1.110095
    },
    {
      "acc": 0.72119932,
      "epoch": 0.07902080162354135,
      "grad_norm": 4.03125,
      "learning_rate": 7.902080162354136e-06,
      "loss": 1.16551266,
      "memory(GiB)": 99.49,
      "step": 3115,
      "train_speed(iter/s)": 1.110419
    },
    {
      "acc": 0.7320447,
      "epoch": 0.0791476407914764,
      "grad_norm": 4.125,
      "learning_rate": 7.91476407914764e-06,
      "loss": 1.14276943,
      "memory(GiB)": 99.49,
      "step": 3120,
      "train_speed(iter/s)": 1.110702
    },
    {
      "acc": 0.71954861,
      "epoch": 0.07927447995941146,
      "grad_norm": 4.5,
      "learning_rate": 7.927447995941148e-06,
      "loss": 1.20999088,
      "memory(GiB)": 99.49,
      "step": 3125,
      "train_speed(iter/s)": 1.110991
    },
    {
      "acc": 0.6989399,
      "epoch": 0.07940131912734652,
      "grad_norm": 4.6875,
      "learning_rate": 7.940131912734654e-06,
      "loss": 1.26983585,
      "memory(GiB)": 99.49,
      "step": 3130,
      "train_speed(iter/s)": 1.111419
    },
    {
      "acc": 0.72417889,
      "epoch": 0.07952815829528158,
      "grad_norm": 3.53125,
      "learning_rate": 7.952815829528158e-06,
      "loss": 1.18492966,
      "memory(GiB)": 99.49,
      "step": 3135,
      "train_speed(iter/s)": 1.11169
    },
    {
      "acc": 0.70503354,
      "epoch": 0.07965499746321664,
      "grad_norm": 4.125,
      "learning_rate": 7.965499746321664e-06,
      "loss": 1.26807108,
      "memory(GiB)": 99.49,
      "step": 3140,
      "train_speed(iter/s)": 1.111779
    },
    {
      "acc": 0.6996892,
      "epoch": 0.0797818366311517,
      "grad_norm": 3.71875,
      "learning_rate": 7.978183663115172e-06,
      "loss": 1.32653732,
      "memory(GiB)": 99.49,
      "step": 3145,
      "train_speed(iter/s)": 1.112188
    },
    {
      "acc": 0.7070631,
      "epoch": 0.07990867579908675,
      "grad_norm": 3.0625,
      "learning_rate": 7.990867579908676e-06,
      "loss": 1.27572393,
      "memory(GiB)": 99.49,
      "step": 3150,
      "train_speed(iter/s)": 1.112469
    },
    {
      "acc": 0.70552082,
      "epoch": 0.08003551496702181,
      "grad_norm": 3.359375,
      "learning_rate": 8.003551496702182e-06,
      "loss": 1.28148365,
      "memory(GiB)": 99.49,
      "step": 3155,
      "train_speed(iter/s)": 1.112756
    },
    {
      "acc": 0.70321779,
      "epoch": 0.08016235413495687,
      "grad_norm": 3.625,
      "learning_rate": 8.016235413495688e-06,
      "loss": 1.25239878,
      "memory(GiB)": 99.49,
      "step": 3160,
      "train_speed(iter/s)": 1.113073
    },
    {
      "acc": 0.7109808,
      "epoch": 0.08028919330289193,
      "grad_norm": 4.75,
      "learning_rate": 8.028919330289194e-06,
      "loss": 1.31452751,
      "memory(GiB)": 99.49,
      "step": 3165,
      "train_speed(iter/s)": 1.113092
    },
    {
      "acc": 0.71934519,
      "epoch": 0.08041603247082699,
      "grad_norm": 3.296875,
      "learning_rate": 8.0416032470827e-06,
      "loss": 1.2166214,
      "memory(GiB)": 99.49,
      "step": 3170,
      "train_speed(iter/s)": 1.113391
    },
    {
      "acc": 0.7090909,
      "epoch": 0.08054287163876205,
      "grad_norm": 3.703125,
      "learning_rate": 8.054287163876206e-06,
      "loss": 1.2818079,
      "memory(GiB)": 99.49,
      "step": 3175,
      "train_speed(iter/s)": 1.113538
    },
    {
      "acc": 0.7093152,
      "epoch": 0.0806697108066971,
      "grad_norm": 3.890625,
      "learning_rate": 8.066971080669712e-06,
      "loss": 1.21155586,
      "memory(GiB)": 99.49,
      "step": 3180,
      "train_speed(iter/s)": 1.113973
    },
    {
      "acc": 0.69435682,
      "epoch": 0.08079654997463216,
      "grad_norm": 4.90625,
      "learning_rate": 8.079654997463218e-06,
      "loss": 1.31307449,
      "memory(GiB)": 99.49,
      "step": 3185,
      "train_speed(iter/s)": 1.114268
    },
    {
      "acc": 0.70781984,
      "epoch": 0.08092338914256722,
      "grad_norm": 4.28125,
      "learning_rate": 8.092338914256724e-06,
      "loss": 1.20710039,
      "memory(GiB)": 99.49,
      "step": 3190,
      "train_speed(iter/s)": 1.114572
    },
    {
      "acc": 0.69514132,
      "epoch": 0.08105022831050228,
      "grad_norm": 4.75,
      "learning_rate": 8.105022831050228e-06,
      "loss": 1.22115135,
      "memory(GiB)": 99.49,
      "step": 3195,
      "train_speed(iter/s)": 1.114788
    },
    {
      "acc": 0.71416969,
      "epoch": 0.08117706747843734,
      "grad_norm": 3.734375,
      "learning_rate": 8.117706747843734e-06,
      "loss": 1.23288202,
      "memory(GiB)": 99.49,
      "step": 3200,
      "train_speed(iter/s)": 1.114997
    },
    {
      "acc": 0.70319095,
      "epoch": 0.0813039066463724,
      "grad_norm": 5.75,
      "learning_rate": 8.130390664637242e-06,
      "loss": 1.22766876,
      "memory(GiB)": 99.49,
      "step": 3205,
      "train_speed(iter/s)": 1.115171
    },
    {
      "acc": 0.72308064,
      "epoch": 0.08143074581430745,
      "grad_norm": 3.65625,
      "learning_rate": 8.143074581430746e-06,
      "loss": 1.18327656,
      "memory(GiB)": 99.49,
      "step": 3210,
      "train_speed(iter/s)": 1.115341
    },
    {
      "acc": 0.71797094,
      "epoch": 0.08155758498224251,
      "grad_norm": 3.609375,
      "learning_rate": 8.155758498224252e-06,
      "loss": 1.23678474,
      "memory(GiB)": 99.49,
      "step": 3215,
      "train_speed(iter/s)": 1.115643
    },
    {
      "acc": 0.71918373,
      "epoch": 0.08168442415017757,
      "grad_norm": 4.3125,
      "learning_rate": 8.168442415017758e-06,
      "loss": 1.21632023,
      "memory(GiB)": 99.49,
      "step": 3220,
      "train_speed(iter/s)": 1.115915
    },
    {
      "acc": 0.70388598,
      "epoch": 0.08181126331811263,
      "grad_norm": 4.28125,
      "learning_rate": 8.181126331811264e-06,
      "loss": 1.26315918,
      "memory(GiB)": 99.49,
      "step": 3225,
      "train_speed(iter/s)": 1.116184
    },
    {
      "acc": 0.70781288,
      "epoch": 0.08193810248604769,
      "grad_norm": 3.5,
      "learning_rate": 8.19381024860477e-06,
      "loss": 1.19278851,
      "memory(GiB)": 99.49,
      "step": 3230,
      "train_speed(iter/s)": 1.116555
    },
    {
      "acc": 0.70905261,
      "epoch": 0.08206494165398275,
      "grad_norm": 3.78125,
      "learning_rate": 8.206494165398276e-06,
      "loss": 1.15815277,
      "memory(GiB)": 99.49,
      "step": 3235,
      "train_speed(iter/s)": 1.116903
    },
    {
      "acc": 0.70774093,
      "epoch": 0.0821917808219178,
      "grad_norm": 4.21875,
      "learning_rate": 8.219178082191782e-06,
      "loss": 1.22566538,
      "memory(GiB)": 99.49,
      "step": 3240,
      "train_speed(iter/s)": 1.117215
    },
    {
      "acc": 0.71040425,
      "epoch": 0.08231861998985286,
      "grad_norm": 3.78125,
      "learning_rate": 8.231861998985288e-06,
      "loss": 1.21710949,
      "memory(GiB)": 99.49,
      "step": 3245,
      "train_speed(iter/s)": 1.117554
    },
    {
      "acc": 0.71957359,
      "epoch": 0.08244545915778792,
      "grad_norm": 3.796875,
      "learning_rate": 8.244545915778794e-06,
      "loss": 1.14622326,
      "memory(GiB)": 99.49,
      "step": 3250,
      "train_speed(iter/s)": 1.117821
    },
    {
      "acc": 0.70687418,
      "epoch": 0.08257229832572298,
      "grad_norm": 3.390625,
      "learning_rate": 8.2572298325723e-06,
      "loss": 1.23178959,
      "memory(GiB)": 99.49,
      "step": 3255,
      "train_speed(iter/s)": 1.117975
    },
    {
      "acc": 0.71143742,
      "epoch": 0.08269913749365804,
      "grad_norm": 3.53125,
      "learning_rate": 8.269913749365804e-06,
      "loss": 1.17786942,
      "memory(GiB)": 99.49,
      "step": 3260,
      "train_speed(iter/s)": 1.118211
    },
    {
      "acc": 0.70477228,
      "epoch": 0.0828259766615931,
      "grad_norm": 5.375,
      "learning_rate": 8.282597666159312e-06,
      "loss": 1.21654034,
      "memory(GiB)": 99.49,
      "step": 3265,
      "train_speed(iter/s)": 1.118439
    },
    {
      "acc": 0.70225024,
      "epoch": 0.08295281582952815,
      "grad_norm": 4.03125,
      "learning_rate": 8.295281582952816e-06,
      "loss": 1.267768,
      "memory(GiB)": 99.49,
      "step": 3270,
      "train_speed(iter/s)": 1.118767
    },
    {
      "acc": 0.71119437,
      "epoch": 0.08307965499746321,
      "grad_norm": 4.03125,
      "learning_rate": 8.307965499746322e-06,
      "loss": 1.20869713,
      "memory(GiB)": 99.49,
      "step": 3275,
      "train_speed(iter/s)": 1.118727
    },
    {
      "acc": 0.70159664,
      "epoch": 0.08320649416539827,
      "grad_norm": 3.59375,
      "learning_rate": 8.320649416539828e-06,
      "loss": 1.30927076,
      "memory(GiB)": 99.49,
      "step": 3280,
      "train_speed(iter/s)": 1.119138
    },
    {
      "acc": 0.72267342,
      "epoch": 0.08333333333333333,
      "grad_norm": 3.421875,
      "learning_rate": 8.333333333333334e-06,
      "loss": 1.14297009,
      "memory(GiB)": 99.49,
      "step": 3285,
      "train_speed(iter/s)": 1.119445
    },
    {
      "acc": 0.71572609,
      "epoch": 0.08346017250126839,
      "grad_norm": 4.625,
      "learning_rate": 8.34601725012684e-06,
      "loss": 1.14044533,
      "memory(GiB)": 99.49,
      "step": 3290,
      "train_speed(iter/s)": 1.119774
    },
    {
      "acc": 0.71844692,
      "epoch": 0.08358701166920345,
      "grad_norm": 5.40625,
      "learning_rate": 8.358701166920346e-06,
      "loss": 1.24588804,
      "memory(GiB)": 99.49,
      "step": 3295,
      "train_speed(iter/s)": 1.119975
    },
    {
      "acc": 0.68879595,
      "epoch": 0.0837138508371385,
      "grad_norm": 3.515625,
      "learning_rate": 8.371385083713852e-06,
      "loss": 1.33733788,
      "memory(GiB)": 99.49,
      "step": 3300,
      "train_speed(iter/s)": 1.12031
    },
    {
      "acc": 0.70278835,
      "epoch": 0.08384069000507356,
      "grad_norm": 4.46875,
      "learning_rate": 8.384069000507358e-06,
      "loss": 1.26927872,
      "memory(GiB)": 99.49,
      "step": 3305,
      "train_speed(iter/s)": 1.120593
    },
    {
      "acc": 0.69638176,
      "epoch": 0.08396752917300862,
      "grad_norm": 3.265625,
      "learning_rate": 8.396752917300864e-06,
      "loss": 1.25664673,
      "memory(GiB)": 99.49,
      "step": 3310,
      "train_speed(iter/s)": 1.120949
    },
    {
      "acc": 0.70186024,
      "epoch": 0.08409436834094368,
      "grad_norm": 3.640625,
      "learning_rate": 8.40943683409437e-06,
      "loss": 1.22159595,
      "memory(GiB)": 99.49,
      "step": 3315,
      "train_speed(iter/s)": 1.121135
    },
    {
      "acc": 0.70699263,
      "epoch": 0.08422120750887874,
      "grad_norm": 3.875,
      "learning_rate": 8.422120750887874e-06,
      "loss": 1.26037502,
      "memory(GiB)": 99.49,
      "step": 3320,
      "train_speed(iter/s)": 1.121095
    },
    {
      "acc": 0.7104105,
      "epoch": 0.0843480466768138,
      "grad_norm": 3.46875,
      "learning_rate": 8.434804667681381e-06,
      "loss": 1.21560488,
      "memory(GiB)": 99.49,
      "step": 3325,
      "train_speed(iter/s)": 1.121394
    },
    {
      "acc": 0.71070414,
      "epoch": 0.08447488584474885,
      "grad_norm": 3.84375,
      "learning_rate": 8.447488584474887e-06,
      "loss": 1.23829355,
      "memory(GiB)": 99.49,
      "step": 3330,
      "train_speed(iter/s)": 1.121491
    },
    {
      "acc": 0.71215844,
      "epoch": 0.08460172501268391,
      "grad_norm": 4.46875,
      "learning_rate": 8.460172501268392e-06,
      "loss": 1.24076643,
      "memory(GiB)": 99.49,
      "step": 3335,
      "train_speed(iter/s)": 1.121691
    },
    {
      "acc": 0.71171455,
      "epoch": 0.08472856418061897,
      "grad_norm": 3.5625,
      "learning_rate": 8.472856418061898e-06,
      "loss": 1.21576042,
      "memory(GiB)": 99.49,
      "step": 3340,
      "train_speed(iter/s)": 1.121927
    },
    {
      "acc": 0.72634702,
      "epoch": 0.08485540334855403,
      "grad_norm": 3.9375,
      "learning_rate": 8.485540334855404e-06,
      "loss": 1.19309711,
      "memory(GiB)": 99.49,
      "step": 3345,
      "train_speed(iter/s)": 1.121958
    },
    {
      "acc": 0.72406993,
      "epoch": 0.08498224251648909,
      "grad_norm": 2.96875,
      "learning_rate": 8.49822425164891e-06,
      "loss": 1.18941669,
      "memory(GiB)": 99.49,
      "step": 3350,
      "train_speed(iter/s)": 1.122149
    },
    {
      "acc": 0.70284915,
      "epoch": 0.08510908168442415,
      "grad_norm": 3.40625,
      "learning_rate": 8.510908168442416e-06,
      "loss": 1.24049034,
      "memory(GiB)": 99.49,
      "step": 3355,
      "train_speed(iter/s)": 1.122346
    },
    {
      "acc": 0.6957633,
      "epoch": 0.0852359208523592,
      "grad_norm": 4.09375,
      "learning_rate": 8.523592085235922e-06,
      "loss": 1.28483028,
      "memory(GiB)": 99.49,
      "step": 3360,
      "train_speed(iter/s)": 1.122748
    },
    {
      "acc": 0.69929914,
      "epoch": 0.08536276002029426,
      "grad_norm": 3.78125,
      "learning_rate": 8.536276002029428e-06,
      "loss": 1.22854633,
      "memory(GiB)": 99.49,
      "step": 3365,
      "train_speed(iter/s)": 1.123025
    },
    {
      "acc": 0.70418072,
      "epoch": 0.08548959918822932,
      "grad_norm": 4.5625,
      "learning_rate": 8.548959918822933e-06,
      "loss": 1.27757645,
      "memory(GiB)": 99.49,
      "step": 3370,
      "train_speed(iter/s)": 1.12331
    },
    {
      "acc": 0.70204144,
      "epoch": 0.08561643835616438,
      "grad_norm": 3.578125,
      "learning_rate": 8.56164383561644e-06,
      "loss": 1.26201334,
      "memory(GiB)": 99.49,
      "step": 3375,
      "train_speed(iter/s)": 1.123559
    },
    {
      "acc": 0.72471318,
      "epoch": 0.08574327752409944,
      "grad_norm": 4.84375,
      "learning_rate": 8.574327752409944e-06,
      "loss": 1.17944527,
      "memory(GiB)": 99.49,
      "step": 3380,
      "train_speed(iter/s)": 1.123718
    },
    {
      "acc": 0.70413051,
      "epoch": 0.0858701166920345,
      "grad_norm": 3.9375,
      "learning_rate": 8.587011669203451e-06,
      "loss": 1.22829428,
      "memory(GiB)": 99.49,
      "step": 3385,
      "train_speed(iter/s)": 1.123933
    },
    {
      "acc": 0.72344909,
      "epoch": 0.08599695585996955,
      "grad_norm": 4.25,
      "learning_rate": 8.599695585996957e-06,
      "loss": 1.15853109,
      "memory(GiB)": 99.49,
      "step": 3390,
      "train_speed(iter/s)": 1.124273
    },
    {
      "acc": 0.69767923,
      "epoch": 0.08612379502790461,
      "grad_norm": 4.46875,
      "learning_rate": 8.612379502790462e-06,
      "loss": 1.29236927,
      "memory(GiB)": 99.49,
      "step": 3395,
      "train_speed(iter/s)": 1.124412
    },
    {
      "acc": 0.72009826,
      "epoch": 0.08625063419583967,
      "grad_norm": 3.875,
      "learning_rate": 8.625063419583968e-06,
      "loss": 1.23138294,
      "memory(GiB)": 99.49,
      "step": 3400,
      "train_speed(iter/s)": 1.124653
    },
    {
      "acc": 0.71015873,
      "epoch": 0.08637747336377473,
      "grad_norm": 3.71875,
      "learning_rate": 8.637747336377475e-06,
      "loss": 1.2588851,
      "memory(GiB)": 99.49,
      "step": 3405,
      "train_speed(iter/s)": 1.124971
    },
    {
      "acc": 0.71090679,
      "epoch": 0.08650431253170979,
      "grad_norm": 4.4375,
      "learning_rate": 8.65043125317098e-06,
      "loss": 1.25175724,
      "memory(GiB)": 99.49,
      "step": 3410,
      "train_speed(iter/s)": 1.125363
    },
    {
      "acc": 0.69548388,
      "epoch": 0.08663115169964485,
      "grad_norm": 4.40625,
      "learning_rate": 8.663115169964485e-06,
      "loss": 1.20625648,
      "memory(GiB)": 99.49,
      "step": 3415,
      "train_speed(iter/s)": 1.125641
    },
    {
      "acc": 0.69203725,
      "epoch": 0.0867579908675799,
      "grad_norm": 4.5625,
      "learning_rate": 8.675799086757991e-06,
      "loss": 1.30179329,
      "memory(GiB)": 99.49,
      "step": 3420,
      "train_speed(iter/s)": 1.125886
    },
    {
      "acc": 0.71026082,
      "epoch": 0.08688483003551496,
      "grad_norm": 3.96875,
      "learning_rate": 8.688483003551497e-06,
      "loss": 1.27171192,
      "memory(GiB)": 99.49,
      "step": 3425,
      "train_speed(iter/s)": 1.126019
    },
    {
      "acc": 0.71114335,
      "epoch": 0.08701166920345002,
      "grad_norm": 3.71875,
      "learning_rate": 8.701166920345003e-06,
      "loss": 1.23265114,
      "memory(GiB)": 99.49,
      "step": 3430,
      "train_speed(iter/s)": 1.126171
    },
    {
      "acc": 0.71367383,
      "epoch": 0.08713850837138508,
      "grad_norm": 4.09375,
      "learning_rate": 8.71385083713851e-06,
      "loss": 1.26172838,
      "memory(GiB)": 102.53,
      "step": 3435,
      "train_speed(iter/s)": 1.126281
    },
    {
      "acc": 0.69023662,
      "epoch": 0.08726534753932014,
      "grad_norm": 4.21875,
      "learning_rate": 8.726534753932014e-06,
      "loss": 1.34494333,
      "memory(GiB)": 102.53,
      "step": 3440,
      "train_speed(iter/s)": 1.126561
    },
    {
      "acc": 0.71247659,
      "epoch": 0.0873921867072552,
      "grad_norm": 4.34375,
      "learning_rate": 8.739218670725521e-06,
      "loss": 1.21387138,
      "memory(GiB)": 102.53,
      "step": 3445,
      "train_speed(iter/s)": 1.126806
    },
    {
      "acc": 0.70869865,
      "epoch": 0.08751902587519025,
      "grad_norm": 3.75,
      "learning_rate": 8.751902587519027e-06,
      "loss": 1.19662561,
      "memory(GiB)": 102.53,
      "step": 3450,
      "train_speed(iter/s)": 1.127058
    },
    {
      "acc": 0.70086088,
      "epoch": 0.08764586504312531,
      "grad_norm": 4.40625,
      "learning_rate": 8.764586504312532e-06,
      "loss": 1.30096016,
      "memory(GiB)": 102.53,
      "step": 3455,
      "train_speed(iter/s)": 1.127285
    },
    {
      "acc": 0.71325083,
      "epoch": 0.08777270421106037,
      "grad_norm": 4.0625,
      "learning_rate": 8.777270421106037e-06,
      "loss": 1.28467016,
      "memory(GiB)": 102.53,
      "step": 3460,
      "train_speed(iter/s)": 1.127331
    },
    {
      "acc": 0.72258387,
      "epoch": 0.08789954337899543,
      "grad_norm": 3.609375,
      "learning_rate": 8.789954337899545e-06,
      "loss": 1.19824228,
      "memory(GiB)": 102.53,
      "step": 3465,
      "train_speed(iter/s)": 1.127619
    },
    {
      "acc": 0.70612969,
      "epoch": 0.08802638254693049,
      "grad_norm": 4.125,
      "learning_rate": 8.80263825469305e-06,
      "loss": 1.23702049,
      "memory(GiB)": 102.53,
      "step": 3470,
      "train_speed(iter/s)": 1.127887
    },
    {
      "acc": 0.72143226,
      "epoch": 0.08815322171486555,
      "grad_norm": 3.609375,
      "learning_rate": 8.815322171486555e-06,
      "loss": 1.16730165,
      "memory(GiB)": 102.53,
      "step": 3475,
      "train_speed(iter/s)": 1.128156
    },
    {
      "acc": 0.7124064,
      "epoch": 0.0882800608828006,
      "grad_norm": 4.0625,
      "learning_rate": 8.828006088280061e-06,
      "loss": 1.23609295,
      "memory(GiB)": 102.53,
      "step": 3480,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.71428823,
      "epoch": 0.08840690005073566,
      "grad_norm": 3.71875,
      "learning_rate": 8.840690005073567e-06,
      "loss": 1.2084095,
      "memory(GiB)": 102.53,
      "step": 3485,
      "train_speed(iter/s)": 1.128611
    },
    {
      "acc": 0.70571461,
      "epoch": 0.08853373921867072,
      "grad_norm": 3.90625,
      "learning_rate": 8.853373921867073e-06,
      "loss": 1.20171556,
      "memory(GiB)": 102.53,
      "step": 3490,
      "train_speed(iter/s)": 1.128866
    },
    {
      "acc": 0.71374063,
      "epoch": 0.08866057838660578,
      "grad_norm": 3.59375,
      "learning_rate": 8.86605783866058e-06,
      "loss": 1.25192633,
      "memory(GiB)": 102.53,
      "step": 3495,
      "train_speed(iter/s)": 1.129089
    },
    {
      "acc": 0.71885648,
      "epoch": 0.08878741755454084,
      "grad_norm": 3.234375,
      "learning_rate": 8.878741755454085e-06,
      "loss": 1.16345863,
      "memory(GiB)": 102.53,
      "step": 3500,
      "train_speed(iter/s)": 1.129296
    },
    {
      "acc": 0.71839528,
      "epoch": 0.0889142567224759,
      "grad_norm": 3.3125,
      "learning_rate": 8.891425672247591e-06,
      "loss": 1.17995987,
      "memory(GiB)": 102.53,
      "step": 3505,
      "train_speed(iter/s)": 1.12954
    },
    {
      "acc": 0.70534401,
      "epoch": 0.08904109589041095,
      "grad_norm": 3.546875,
      "learning_rate": 8.904109589041097e-06,
      "loss": 1.23726883,
      "memory(GiB)": 102.53,
      "step": 3510,
      "train_speed(iter/s)": 1.129721
    },
    {
      "acc": 0.69746304,
      "epoch": 0.08916793505834601,
      "grad_norm": 5.84375,
      "learning_rate": 8.916793505834601e-06,
      "loss": 1.28469067,
      "memory(GiB)": 102.53,
      "step": 3515,
      "train_speed(iter/s)": 1.130007
    },
    {
      "acc": 0.70979943,
      "epoch": 0.08929477422628107,
      "grad_norm": 3.40625,
      "learning_rate": 8.929477422628107e-06,
      "loss": 1.22440014,
      "memory(GiB)": 102.53,
      "step": 3520,
      "train_speed(iter/s)": 1.13034
    },
    {
      "acc": 0.71639528,
      "epoch": 0.08942161339421613,
      "grad_norm": 4.5,
      "learning_rate": 8.942161339421615e-06,
      "loss": 1.24224281,
      "memory(GiB)": 102.53,
      "step": 3525,
      "train_speed(iter/s)": 1.130491
    },
    {
      "acc": 0.71788759,
      "epoch": 0.08954845256215119,
      "grad_norm": 4.65625,
      "learning_rate": 8.95484525621512e-06,
      "loss": 1.2105854,
      "memory(GiB)": 102.53,
      "step": 3530,
      "train_speed(iter/s)": 1.13061
    },
    {
      "acc": 0.70153508,
      "epoch": 0.08967529173008625,
      "grad_norm": 3.78125,
      "learning_rate": 8.967529173008625e-06,
      "loss": 1.22037668,
      "memory(GiB)": 102.53,
      "step": 3535,
      "train_speed(iter/s)": 1.130774
    },
    {
      "acc": 0.7187232,
      "epoch": 0.0898021308980213,
      "grad_norm": 3.3125,
      "learning_rate": 8.980213089802131e-06,
      "loss": 1.17180347,
      "memory(GiB)": 102.53,
      "step": 3540,
      "train_speed(iter/s)": 1.131005
    },
    {
      "acc": 0.71307716,
      "epoch": 0.08992897006595636,
      "grad_norm": 3.65625,
      "learning_rate": 8.992897006595637e-06,
      "loss": 1.17140188,
      "memory(GiB)": 102.53,
      "step": 3545,
      "train_speed(iter/s)": 1.131202
    },
    {
      "acc": 0.70719848,
      "epoch": 0.09005580923389142,
      "grad_norm": 3.9375,
      "learning_rate": 9.005580923389143e-06,
      "loss": 1.1975173,
      "memory(GiB)": 102.53,
      "step": 3550,
      "train_speed(iter/s)": 1.13134
    },
    {
      "acc": 0.6968915,
      "epoch": 0.09018264840182648,
      "grad_norm": 3.828125,
      "learning_rate": 9.01826484018265e-06,
      "loss": 1.24723234,
      "memory(GiB)": 102.53,
      "step": 3555,
      "train_speed(iter/s)": 1.131627
    },
    {
      "acc": 0.69989309,
      "epoch": 0.09030948756976154,
      "grad_norm": 5.125,
      "learning_rate": 9.030948756976155e-06,
      "loss": 1.29603519,
      "memory(GiB)": 102.53,
      "step": 3560,
      "train_speed(iter/s)": 1.131952
    },
    {
      "acc": 0.7083498,
      "epoch": 0.0904363267376966,
      "grad_norm": 3.828125,
      "learning_rate": 9.043632673769661e-06,
      "loss": 1.25192795,
      "memory(GiB)": 102.53,
      "step": 3565,
      "train_speed(iter/s)": 1.132246
    },
    {
      "acc": 0.70837736,
      "epoch": 0.09056316590563165,
      "grad_norm": 4.09375,
      "learning_rate": 9.056316590563167e-06,
      "loss": 1.20462475,
      "memory(GiB)": 102.53,
      "step": 3570,
      "train_speed(iter/s)": 1.132579
    },
    {
      "acc": 0.71230006,
      "epoch": 0.09069000507356671,
      "grad_norm": 3.3125,
      "learning_rate": 9.069000507356673e-06,
      "loss": 1.18471603,
      "memory(GiB)": 102.53,
      "step": 3575,
      "train_speed(iter/s)": 1.132876
    },
    {
      "acc": 0.71165524,
      "epoch": 0.09081684424150177,
      "grad_norm": 3.578125,
      "learning_rate": 9.081684424150177e-06,
      "loss": 1.21945705,
      "memory(GiB)": 102.53,
      "step": 3580,
      "train_speed(iter/s)": 1.133154
    },
    {
      "acc": 0.70811644,
      "epoch": 0.09094368340943683,
      "grad_norm": 3.546875,
      "learning_rate": 9.094368340943685e-06,
      "loss": 1.1722146,
      "memory(GiB)": 102.53,
      "step": 3585,
      "train_speed(iter/s)": 1.133426
    },
    {
      "acc": 0.71402411,
      "epoch": 0.09107052257737189,
      "grad_norm": 4.875,
      "learning_rate": 9.10705225773719e-06,
      "loss": 1.14167137,
      "memory(GiB)": 102.53,
      "step": 3590,
      "train_speed(iter/s)": 1.133768
    },
    {
      "acc": 0.71330986,
      "epoch": 0.09119736174530695,
      "grad_norm": 3.875,
      "learning_rate": 9.119736174530695e-06,
      "loss": 1.27177525,
      "memory(GiB)": 102.53,
      "step": 3595,
      "train_speed(iter/s)": 1.134133
    },
    {
      "acc": 0.70556803,
      "epoch": 0.091324200913242,
      "grad_norm": 3.734375,
      "learning_rate": 9.132420091324201e-06,
      "loss": 1.23093767,
      "memory(GiB)": 102.53,
      "step": 3600,
      "train_speed(iter/s)": 1.13415
    },
    {
      "acc": 0.72614746,
      "epoch": 0.09145104008117706,
      "grad_norm": 4.21875,
      "learning_rate": 9.145104008117707e-06,
      "loss": 1.19354048,
      "memory(GiB)": 102.53,
      "step": 3605,
      "train_speed(iter/s)": 1.134178
    },
    {
      "acc": 0.70545111,
      "epoch": 0.09157787924911212,
      "grad_norm": 3.453125,
      "learning_rate": 9.157787924911213e-06,
      "loss": 1.28931255,
      "memory(GiB)": 102.53,
      "step": 3610,
      "train_speed(iter/s)": 1.134506
    },
    {
      "acc": 0.71396599,
      "epoch": 0.09170471841704718,
      "grad_norm": 3.40625,
      "learning_rate": 9.170471841704719e-06,
      "loss": 1.25701866,
      "memory(GiB)": 102.53,
      "step": 3615,
      "train_speed(iter/s)": 1.13473
    },
    {
      "acc": 0.70361934,
      "epoch": 0.09183155758498224,
      "grad_norm": 4.5,
      "learning_rate": 9.183155758498225e-06,
      "loss": 1.22249794,
      "memory(GiB)": 102.53,
      "step": 3620,
      "train_speed(iter/s)": 1.134913
    },
    {
      "acc": 0.70004468,
      "epoch": 0.0919583967529173,
      "grad_norm": 3.703125,
      "learning_rate": 9.195839675291731e-06,
      "loss": 1.27326183,
      "memory(GiB)": 102.53,
      "step": 3625,
      "train_speed(iter/s)": 1.135181
    },
    {
      "acc": 0.71327801,
      "epoch": 0.09208523592085235,
      "grad_norm": 3.96875,
      "learning_rate": 9.208523592085237e-06,
      "loss": 1.20612183,
      "memory(GiB)": 102.53,
      "step": 3630,
      "train_speed(iter/s)": 1.135336
    },
    {
      "acc": 0.72623997,
      "epoch": 0.09221207508878741,
      "grad_norm": 4.21875,
      "learning_rate": 9.221207508878743e-06,
      "loss": 1.14888659,
      "memory(GiB)": 102.53,
      "step": 3635,
      "train_speed(iter/s)": 1.135593
    },
    {
      "acc": 0.70374966,
      "epoch": 0.09233891425672247,
      "grad_norm": 5.09375,
      "learning_rate": 9.233891425672247e-06,
      "loss": 1.2650341,
      "memory(GiB)": 102.53,
      "step": 3640,
      "train_speed(iter/s)": 1.135788
    },
    {
      "acc": 0.71944704,
      "epoch": 0.09246575342465753,
      "grad_norm": 4.15625,
      "learning_rate": 9.246575342465755e-06,
      "loss": 1.26642847,
      "memory(GiB)": 102.53,
      "step": 3645,
      "train_speed(iter/s)": 1.136009
    },
    {
      "acc": 0.70812488,
      "epoch": 0.09259259259259259,
      "grad_norm": 3.921875,
      "learning_rate": 9.25925925925926e-06,
      "loss": 1.23189507,
      "memory(GiB)": 102.53,
      "step": 3650,
      "train_speed(iter/s)": 1.136005
    },
    {
      "acc": 0.7149497,
      "epoch": 0.09271943176052765,
      "grad_norm": 3.734375,
      "learning_rate": 9.271943176052765e-06,
      "loss": 1.17414865,
      "memory(GiB)": 102.53,
      "step": 3655,
      "train_speed(iter/s)": 1.136209
    },
    {
      "acc": 0.73468084,
      "epoch": 0.0928462709284627,
      "grad_norm": 4.40625,
      "learning_rate": 9.284627092846271e-06,
      "loss": 1.15551109,
      "memory(GiB)": 102.53,
      "step": 3660,
      "train_speed(iter/s)": 1.136514
    },
    {
      "acc": 0.72822733,
      "epoch": 0.09297311009639776,
      "grad_norm": 4.3125,
      "learning_rate": 9.297311009639777e-06,
      "loss": 1.23952188,
      "memory(GiB)": 102.53,
      "step": 3665,
      "train_speed(iter/s)": 1.136787
    },
    {
      "acc": 0.71083951,
      "epoch": 0.09309994926433282,
      "grad_norm": 3.984375,
      "learning_rate": 9.309994926433283e-06,
      "loss": 1.28586788,
      "memory(GiB)": 102.53,
      "step": 3670,
      "train_speed(iter/s)": 1.137005
    },
    {
      "acc": 0.69682903,
      "epoch": 0.09322678843226788,
      "grad_norm": 4.25,
      "learning_rate": 9.322678843226789e-06,
      "loss": 1.30068932,
      "memory(GiB)": 102.53,
      "step": 3675,
      "train_speed(iter/s)": 1.137349
    },
    {
      "acc": 0.71000128,
      "epoch": 0.09335362760020294,
      "grad_norm": 5.46875,
      "learning_rate": 9.335362760020295e-06,
      "loss": 1.27676401,
      "memory(GiB)": 102.53,
      "step": 3680,
      "train_speed(iter/s)": 1.137565
    },
    {
      "acc": 0.71100826,
      "epoch": 0.093480466768138,
      "grad_norm": 4.09375,
      "learning_rate": 9.348046676813801e-06,
      "loss": 1.22610636,
      "memory(GiB)": 102.53,
      "step": 3685,
      "train_speed(iter/s)": 1.137766
    },
    {
      "acc": 0.70420809,
      "epoch": 0.09360730593607305,
      "grad_norm": 3.1875,
      "learning_rate": 9.360730593607307e-06,
      "loss": 1.25332718,
      "memory(GiB)": 102.53,
      "step": 3690,
      "train_speed(iter/s)": 1.138013
    },
    {
      "acc": 0.72354445,
      "epoch": 0.09373414510400811,
      "grad_norm": 3.8125,
      "learning_rate": 9.373414510400813e-06,
      "loss": 1.13127518,
      "memory(GiB)": 102.53,
      "step": 3695,
      "train_speed(iter/s)": 1.13816
    },
    {
      "acc": 0.70072298,
      "epoch": 0.09386098427194317,
      "grad_norm": 4.875,
      "learning_rate": 9.386098427194317e-06,
      "loss": 1.31558609,
      "memory(GiB)": 102.53,
      "step": 3700,
      "train_speed(iter/s)": 1.138455
    },
    {
      "acc": 0.70248117,
      "epoch": 0.09398782343987823,
      "grad_norm": 3.671875,
      "learning_rate": 9.398782343987825e-06,
      "loss": 1.31839943,
      "memory(GiB)": 102.53,
      "step": 3705,
      "train_speed(iter/s)": 1.138672
    },
    {
      "acc": 0.71815724,
      "epoch": 0.09411466260781329,
      "grad_norm": 4.0,
      "learning_rate": 9.41146626078133e-06,
      "loss": 1.16014032,
      "memory(GiB)": 102.53,
      "step": 3710,
      "train_speed(iter/s)": 1.138808
    },
    {
      "acc": 0.72262402,
      "epoch": 0.09424150177574835,
      "grad_norm": 4.6875,
      "learning_rate": 9.424150177574835e-06,
      "loss": 1.20471897,
      "memory(GiB)": 102.53,
      "step": 3715,
      "train_speed(iter/s)": 1.139028
    },
    {
      "acc": 0.70656848,
      "epoch": 0.0943683409436834,
      "grad_norm": 4.8125,
      "learning_rate": 9.436834094368341e-06,
      "loss": 1.20416012,
      "memory(GiB)": 102.53,
      "step": 3720,
      "train_speed(iter/s)": 1.139239
    },
    {
      "acc": 0.71862917,
      "epoch": 0.09449518011161846,
      "grad_norm": 4.65625,
      "learning_rate": 9.449518011161849e-06,
      "loss": 1.19116611,
      "memory(GiB)": 102.53,
      "step": 3725,
      "train_speed(iter/s)": 1.139394
    },
    {
      "acc": 0.72851601,
      "epoch": 0.09462201927955352,
      "grad_norm": 3.859375,
      "learning_rate": 9.462201927955353e-06,
      "loss": 1.16116829,
      "memory(GiB)": 102.53,
      "step": 3730,
      "train_speed(iter/s)": 1.139678
    },
    {
      "acc": 0.70482187,
      "epoch": 0.09474885844748858,
      "grad_norm": 3.515625,
      "learning_rate": 9.474885844748859e-06,
      "loss": 1.24823065,
      "memory(GiB)": 102.53,
      "step": 3735,
      "train_speed(iter/s)": 1.139933
    },
    {
      "acc": 0.71103239,
      "epoch": 0.09487569761542364,
      "grad_norm": 3.765625,
      "learning_rate": 9.487569761542365e-06,
      "loss": 1.19354305,
      "memory(GiB)": 102.53,
      "step": 3740,
      "train_speed(iter/s)": 1.140002
    },
    {
      "acc": 0.71771445,
      "epoch": 0.0950025367833587,
      "grad_norm": 3.59375,
      "learning_rate": 9.50025367833587e-06,
      "loss": 1.22087355,
      "memory(GiB)": 102.53,
      "step": 3745,
      "train_speed(iter/s)": 1.140149
    },
    {
      "acc": 0.70484943,
      "epoch": 0.09512937595129375,
      "grad_norm": 3.578125,
      "learning_rate": 9.512937595129377e-06,
      "loss": 1.24887409,
      "memory(GiB)": 102.53,
      "step": 3750,
      "train_speed(iter/s)": 1.140465
    },
    {
      "acc": 0.71386213,
      "epoch": 0.09525621511922881,
      "grad_norm": 4.59375,
      "learning_rate": 9.525621511922883e-06,
      "loss": 1.2771595,
      "memory(GiB)": 102.53,
      "step": 3755,
      "train_speed(iter/s)": 1.140708
    },
    {
      "acc": 0.69509225,
      "epoch": 0.09538305428716387,
      "grad_norm": 3.75,
      "learning_rate": 9.538305428716389e-06,
      "loss": 1.23068638,
      "memory(GiB)": 102.53,
      "step": 3760,
      "train_speed(iter/s)": 1.140892
    },
    {
      "acc": 0.71185737,
      "epoch": 0.09550989345509893,
      "grad_norm": 4.28125,
      "learning_rate": 9.550989345509895e-06,
      "loss": 1.26979733,
      "memory(GiB)": 102.53,
      "step": 3765,
      "train_speed(iter/s)": 1.141092
    },
    {
      "acc": 0.71504202,
      "epoch": 0.09563673262303399,
      "grad_norm": 4.0,
      "learning_rate": 9.5636732623034e-06,
      "loss": 1.25486202,
      "memory(GiB)": 102.53,
      "step": 3770,
      "train_speed(iter/s)": 1.141255
    },
    {
      "acc": 0.71420741,
      "epoch": 0.09576357179096905,
      "grad_norm": 3.71875,
      "learning_rate": 9.576357179096905e-06,
      "loss": 1.19234571,
      "memory(GiB)": 102.53,
      "step": 3775,
      "train_speed(iter/s)": 1.141349
    },
    {
      "acc": 0.70189414,
      "epoch": 0.0958904109589041,
      "grad_norm": 4.78125,
      "learning_rate": 9.589041095890411e-06,
      "loss": 1.28400059,
      "memory(GiB)": 102.53,
      "step": 3780,
      "train_speed(iter/s)": 1.141337
    },
    {
      "acc": 0.69994144,
      "epoch": 0.09601725012683916,
      "grad_norm": 4.4375,
      "learning_rate": 9.601725012683919e-06,
      "loss": 1.27000618,
      "memory(GiB)": 102.53,
      "step": 3785,
      "train_speed(iter/s)": 1.141549
    },
    {
      "acc": 0.70976267,
      "epoch": 0.09614408929477422,
      "grad_norm": 3.9375,
      "learning_rate": 9.614408929477423e-06,
      "loss": 1.24017067,
      "memory(GiB)": 102.53,
      "step": 3790,
      "train_speed(iter/s)": 1.141805
    },
    {
      "acc": 0.69378519,
      "epoch": 0.09627092846270928,
      "grad_norm": 3.09375,
      "learning_rate": 9.627092846270929e-06,
      "loss": 1.28184509,
      "memory(GiB)": 102.53,
      "step": 3795,
      "train_speed(iter/s)": 1.142071
    },
    {
      "acc": 0.69967699,
      "epoch": 0.09639776763064434,
      "grad_norm": 3.921875,
      "learning_rate": 9.639776763064435e-06,
      "loss": 1.24211826,
      "memory(GiB)": 102.53,
      "step": 3800,
      "train_speed(iter/s)": 1.142309
    },
    {
      "acc": 0.70699663,
      "epoch": 0.0965246067985794,
      "grad_norm": 3.15625,
      "learning_rate": 9.65246067985794e-06,
      "loss": 1.26459255,
      "memory(GiB)": 102.53,
      "step": 3805,
      "train_speed(iter/s)": 1.142457
    },
    {
      "acc": 0.71260729,
      "epoch": 0.09665144596651445,
      "grad_norm": 3.453125,
      "learning_rate": 9.665144596651447e-06,
      "loss": 1.20254202,
      "memory(GiB)": 102.53,
      "step": 3810,
      "train_speed(iter/s)": 1.14255
    },
    {
      "acc": 0.68269892,
      "epoch": 0.09677828513444951,
      "grad_norm": 4.96875,
      "learning_rate": 9.677828513444953e-06,
      "loss": 1.32352962,
      "memory(GiB)": 102.53,
      "step": 3815,
      "train_speed(iter/s)": 1.142926
    },
    {
      "acc": 0.69720592,
      "epoch": 0.09690512430238457,
      "grad_norm": 4.5625,
      "learning_rate": 9.690512430238459e-06,
      "loss": 1.31406689,
      "memory(GiB)": 102.53,
      "step": 3820,
      "train_speed(iter/s)": 1.143122
    },
    {
      "acc": 0.7286932,
      "epoch": 0.09703196347031963,
      "grad_norm": 3.359375,
      "learning_rate": 9.703196347031965e-06,
      "loss": 1.13269758,
      "memory(GiB)": 102.53,
      "step": 3825,
      "train_speed(iter/s)": 1.143114
    },
    {
      "acc": 0.72534533,
      "epoch": 0.09715880263825469,
      "grad_norm": 3.546875,
      "learning_rate": 9.71588026382547e-06,
      "loss": 1.15936642,
      "memory(GiB)": 102.53,
      "step": 3830,
      "train_speed(iter/s)": 1.143171
    },
    {
      "acc": 0.6934207,
      "epoch": 0.09728564180618975,
      "grad_norm": 3.71875,
      "learning_rate": 9.728564180618977e-06,
      "loss": 1.27347088,
      "memory(GiB)": 102.53,
      "step": 3835,
      "train_speed(iter/s)": 1.143448
    },
    {
      "acc": 0.70989738,
      "epoch": 0.0974124809741248,
      "grad_norm": 3.640625,
      "learning_rate": 9.74124809741248e-06,
      "loss": 1.24245605,
      "memory(GiB)": 102.53,
      "step": 3840,
      "train_speed(iter/s)": 1.143592
    },
    {
      "acc": 0.71003828,
      "epoch": 0.09753932014205986,
      "grad_norm": 3.8125,
      "learning_rate": 9.753932014205988e-06,
      "loss": 1.2399869,
      "memory(GiB)": 102.53,
      "step": 3845,
      "train_speed(iter/s)": 1.143833
    },
    {
      "acc": 0.72138329,
      "epoch": 0.09766615930999492,
      "grad_norm": 3.46875,
      "learning_rate": 9.766615930999493e-06,
      "loss": 1.1995245,
      "memory(GiB)": 102.53,
      "step": 3850,
      "train_speed(iter/s)": 1.143982
    },
    {
      "acc": 0.71741362,
      "epoch": 0.09779299847792998,
      "grad_norm": 3.640625,
      "learning_rate": 9.779299847792999e-06,
      "loss": 1.2042305,
      "memory(GiB)": 102.53,
      "step": 3855,
      "train_speed(iter/s)": 1.143927
    },
    {
      "acc": 0.71887994,
      "epoch": 0.09791983764586504,
      "grad_norm": 4.53125,
      "learning_rate": 9.791983764586505e-06,
      "loss": 1.16938944,
      "memory(GiB)": 102.53,
      "step": 3860,
      "train_speed(iter/s)": 1.144062
    },
    {
      "acc": 0.71675353,
      "epoch": 0.0980466768138001,
      "grad_norm": 4.3125,
      "learning_rate": 9.80466768138001e-06,
      "loss": 1.22036877,
      "memory(GiB)": 102.53,
      "step": 3865,
      "train_speed(iter/s)": 1.144327
    },
    {
      "acc": 0.70356054,
      "epoch": 0.09817351598173515,
      "grad_norm": 4.40625,
      "learning_rate": 9.817351598173517e-06,
      "loss": 1.25402021,
      "memory(GiB)": 102.53,
      "step": 3870,
      "train_speed(iter/s)": 1.144604
    },
    {
      "acc": 0.70729055,
      "epoch": 0.09830035514967021,
      "grad_norm": 3.328125,
      "learning_rate": 9.830035514967023e-06,
      "loss": 1.2843751,
      "memory(GiB)": 102.53,
      "step": 3875,
      "train_speed(iter/s)": 1.144728
    },
    {
      "acc": 0.70275011,
      "epoch": 0.09842719431760527,
      "grad_norm": 3.90625,
      "learning_rate": 9.842719431760529e-06,
      "loss": 1.3139122,
      "memory(GiB)": 102.53,
      "step": 3880,
      "train_speed(iter/s)": 1.144887
    },
    {
      "acc": 0.71331015,
      "epoch": 0.09855403348554033,
      "grad_norm": 4.375,
      "learning_rate": 9.855403348554034e-06,
      "loss": 1.20551796,
      "memory(GiB)": 102.53,
      "step": 3885,
      "train_speed(iter/s)": 1.145127
    },
    {
      "acc": 0.68946362,
      "epoch": 0.09868087265347539,
      "grad_norm": 4.0,
      "learning_rate": 9.86808726534754e-06,
      "loss": 1.27589855,
      "memory(GiB)": 102.53,
      "step": 3890,
      "train_speed(iter/s)": 1.145387
    },
    {
      "acc": 0.70740523,
      "epoch": 0.09880771182141045,
      "grad_norm": 3.734375,
      "learning_rate": 9.880771182141046e-06,
      "loss": 1.3082962,
      "memory(GiB)": 102.53,
      "step": 3895,
      "train_speed(iter/s)": 1.145619
    },
    {
      "acc": 0.71350718,
      "epoch": 0.0989345509893455,
      "grad_norm": 3.59375,
      "learning_rate": 9.89345509893455e-06,
      "loss": 1.22361794,
      "memory(GiB)": 102.53,
      "step": 3900,
      "train_speed(iter/s)": 1.145777
    },
    {
      "acc": 0.71078115,
      "epoch": 0.09906139015728056,
      "grad_norm": 3.890625,
      "learning_rate": 9.906139015728058e-06,
      "loss": 1.25367994,
      "memory(GiB)": 102.53,
      "step": 3905,
      "train_speed(iter/s)": 1.145956
    },
    {
      "acc": 0.70019369,
      "epoch": 0.09918822932521562,
      "grad_norm": 3.390625,
      "learning_rate": 9.918822932521563e-06,
      "loss": 1.25639954,
      "memory(GiB)": 102.53,
      "step": 3910,
      "train_speed(iter/s)": 1.145955
    },
    {
      "acc": 0.71039104,
      "epoch": 0.09931506849315068,
      "grad_norm": 3.71875,
      "learning_rate": 9.931506849315069e-06,
      "loss": 1.23324184,
      "memory(GiB)": 102.53,
      "step": 3915,
      "train_speed(iter/s)": 1.146225
    },
    {
      "acc": 0.70371261,
      "epoch": 0.09944190766108574,
      "grad_norm": 3.421875,
      "learning_rate": 9.944190766108575e-06,
      "loss": 1.24148092,
      "memory(GiB)": 102.53,
      "step": 3920,
      "train_speed(iter/s)": 1.146488
    },
    {
      "acc": 0.71036363,
      "epoch": 0.0995687468290208,
      "grad_norm": 4.1875,
      "learning_rate": 9.95687468290208e-06,
      "loss": 1.15806541,
      "memory(GiB)": 102.53,
      "step": 3925,
      "train_speed(iter/s)": 1.146671
    },
    {
      "acc": 0.70963283,
      "epoch": 0.09969558599695585,
      "grad_norm": 4.1875,
      "learning_rate": 9.969558599695586e-06,
      "loss": 1.24065247,
      "memory(GiB)": 102.53,
      "step": 3930,
      "train_speed(iter/s)": 1.14665
    },
    {
      "acc": 0.70958357,
      "epoch": 0.09982242516489091,
      "grad_norm": 3.984375,
      "learning_rate": 9.982242516489092e-06,
      "loss": 1.25675354,
      "memory(GiB)": 102.53,
      "step": 3935,
      "train_speed(iter/s)": 1.146845
    },
    {
      "acc": 0.71508961,
      "epoch": 0.09994926433282597,
      "grad_norm": 3.796875,
      "learning_rate": 9.994926433282598e-06,
      "loss": 1.19070034,
      "memory(GiB)": 102.53,
      "step": 3940,
      "train_speed(iter/s)": 1.147004
    },
    {
      "acc": 0.73444052,
      "epoch": 0.10007610350076103,
      "grad_norm": 3.53125,
      "learning_rate": 9.999999960413982e-06,
      "loss": 1.16238728,
      "memory(GiB)": 102.53,
      "step": 3945,
      "train_speed(iter/s)": 1.147128
    },
    {
      "acc": 0.7080512,
      "epoch": 0.10020294266869609,
      "grad_norm": 5.28125,
      "learning_rate": 9.99999971849943e-06,
      "loss": 1.25024519,
      "memory(GiB)": 102.53,
      "step": 3950,
      "train_speed(iter/s)": 1.147317
    },
    {
      "acc": 0.71388788,
      "epoch": 0.10032978183663115,
      "grad_norm": 3.96875,
      "learning_rate": 9.999999256662563e-06,
      "loss": 1.25409241,
      "memory(GiB)": 102.53,
      "step": 3955,
      "train_speed(iter/s)": 1.147596
    },
    {
      "acc": 0.72819099,
      "epoch": 0.1004566210045662,
      "grad_norm": 4.53125,
      "learning_rate": 9.999998574903408e-06,
      "loss": 1.1943182,
      "memory(GiB)": 102.53,
      "step": 3960,
      "train_speed(iter/s)": 1.147853
    },
    {
      "acc": 0.71760459,
      "epoch": 0.10058346017250126,
      "grad_norm": 4.46875,
      "learning_rate": 9.99999767322199e-06,
      "loss": 1.23034401,
      "memory(GiB)": 102.53,
      "step": 3965,
      "train_speed(iter/s)": 1.14797
    },
    {
      "acc": 0.71207714,
      "epoch": 0.10071029934043632,
      "grad_norm": 3.40625,
      "learning_rate": 9.999996551618353e-06,
      "loss": 1.18691692,
      "memory(GiB)": 102.53,
      "step": 3970,
      "train_speed(iter/s)": 1.148147
    },
    {
      "acc": 0.70331078,
      "epoch": 0.10083713850837138,
      "grad_norm": 4.15625,
      "learning_rate": 9.999995210092545e-06,
      "loss": 1.22221794,
      "memory(GiB)": 102.53,
      "step": 3975,
      "train_speed(iter/s)": 1.148395
    },
    {
      "acc": 0.71278367,
      "epoch": 0.10096397767630644,
      "grad_norm": 4.65625,
      "learning_rate": 9.999993648644622e-06,
      "loss": 1.19043274,
      "memory(GiB)": 102.53,
      "step": 3980,
      "train_speed(iter/s)": 1.148649
    },
    {
      "acc": 0.71065416,
      "epoch": 0.1010908168442415,
      "grad_norm": 4.21875,
      "learning_rate": 9.999991867274656e-06,
      "loss": 1.24584265,
      "memory(GiB)": 102.53,
      "step": 3985,
      "train_speed(iter/s)": 1.148831
    },
    {
      "acc": 0.71484556,
      "epoch": 0.10121765601217655,
      "grad_norm": 4.375,
      "learning_rate": 9.999989865982725e-06,
      "loss": 1.15273123,
      "memory(GiB)": 102.53,
      "step": 3990,
      "train_speed(iter/s)": 1.149044
    },
    {
      "acc": 0.68971176,
      "epoch": 0.10134449518011161,
      "grad_norm": 3.78125,
      "learning_rate": 9.999987644768917e-06,
      "loss": 1.19681892,
      "memory(GiB)": 102.53,
      "step": 3995,
      "train_speed(iter/s)": 1.149156
    },
    {
      "acc": 0.71632137,
      "epoch": 0.10147133434804667,
      "grad_norm": 4.25,
      "learning_rate": 9.999985203633327e-06,
      "loss": 1.22728748,
      "memory(GiB)": 102.53,
      "step": 4000,
      "train_speed(iter/s)": 1.14937
    },
    {
      "epoch": 0.10147133434804667,
      "eval_acc": 0.7015952570391578,
      "eval_loss": 1.1757006645202637,
      "eval_runtime": 70.8248,
      "eval_samples_per_second": 89.94,
      "eval_steps_per_second": 22.492,
      "step": 4000
    },
    {
      "acc": 0.71242275,
      "epoch": 0.10159817351598173,
      "grad_norm": 4.71875,
      "learning_rate": 9.999982542576065e-06,
      "loss": 1.1824337,
      "memory(GiB)": 102.53,
      "step": 4005,
      "train_speed(iter/s)": 1.112571
    },
    {
      "acc": 0.71611261,
      "epoch": 0.10172501268391679,
      "grad_norm": 4.34375,
      "learning_rate": 9.999979661597247e-06,
      "loss": 1.21566467,
      "memory(GiB)": 102.53,
      "step": 4010,
      "train_speed(iter/s)": 1.112719
    },
    {
      "acc": 0.71558681,
      "epoch": 0.10185185185185185,
      "grad_norm": 3.953125,
      "learning_rate": 9.999976560697002e-06,
      "loss": 1.17410355,
      "memory(GiB)": 102.53,
      "step": 4015,
      "train_speed(iter/s)": 1.112903
    },
    {
      "acc": 0.72130489,
      "epoch": 0.1019786910197869,
      "grad_norm": 4.0625,
      "learning_rate": 9.999973239875462e-06,
      "loss": 1.2099782,
      "memory(GiB)": 102.53,
      "step": 4020,
      "train_speed(iter/s)": 1.113048
    },
    {
      "acc": 0.71873302,
      "epoch": 0.10210553018772196,
      "grad_norm": 4.28125,
      "learning_rate": 9.999969699132776e-06,
      "loss": 1.18224506,
      "memory(GiB)": 102.53,
      "step": 4025,
      "train_speed(iter/s)": 1.113283
    },
    {
      "acc": 0.70520911,
      "epoch": 0.10223236935565702,
      "grad_norm": 3.21875,
      "learning_rate": 9.999965938469102e-06,
      "loss": 1.24260044,
      "memory(GiB)": 102.53,
      "step": 4030,
      "train_speed(iter/s)": 1.113553
    },
    {
      "acc": 0.71219335,
      "epoch": 0.10235920852359208,
      "grad_norm": 4.09375,
      "learning_rate": 9.9999619578846e-06,
      "loss": 1.21858444,
      "memory(GiB)": 102.53,
      "step": 4035,
      "train_speed(iter/s)": 1.113797
    },
    {
      "acc": 0.7166924,
      "epoch": 0.10248604769152714,
      "grad_norm": 4.53125,
      "learning_rate": 9.999957757379451e-06,
      "loss": 1.21099949,
      "memory(GiB)": 102.53,
      "step": 4040,
      "train_speed(iter/s)": 1.113983
    },
    {
      "acc": 0.72726383,
      "epoch": 0.1026128868594622,
      "grad_norm": 5.1875,
      "learning_rate": 9.999953336953834e-06,
      "loss": 1.15279179,
      "memory(GiB)": 102.53,
      "step": 4045,
      "train_speed(iter/s)": 1.113965
    },
    {
      "acc": 0.70289483,
      "epoch": 0.10273972602739725,
      "grad_norm": 3.828125,
      "learning_rate": 9.999948696607946e-06,
      "loss": 1.24537907,
      "memory(GiB)": 102.53,
      "step": 4050,
      "train_speed(iter/s)": 1.114287
    },
    {
      "acc": 0.71090021,
      "epoch": 0.10286656519533231,
      "grad_norm": 3.625,
      "learning_rate": 9.999943836341992e-06,
      "loss": 1.19441586,
      "memory(GiB)": 102.53,
      "step": 4055,
      "train_speed(iter/s)": 1.114531
    },
    {
      "acc": 0.73252325,
      "epoch": 0.10299340436326737,
      "grad_norm": 3.890625,
      "learning_rate": 9.999938756156185e-06,
      "loss": 1.11749249,
      "memory(GiB)": 102.53,
      "step": 4060,
      "train_speed(iter/s)": 1.114619
    },
    {
      "acc": 0.71356211,
      "epoch": 0.10312024353120243,
      "grad_norm": 3.921875,
      "learning_rate": 9.999933456050747e-06,
      "loss": 1.2585248,
      "memory(GiB)": 102.53,
      "step": 4065,
      "train_speed(iter/s)": 1.114734
    },
    {
      "acc": 0.70350657,
      "epoch": 0.10324708269913749,
      "grad_norm": 3.59375,
      "learning_rate": 9.999927936025914e-06,
      "loss": 1.26091747,
      "memory(GiB)": 102.53,
      "step": 4070,
      "train_speed(iter/s)": 1.114859
    },
    {
      "acc": 0.71791797,
      "epoch": 0.10337392186707255,
      "grad_norm": 4.09375,
      "learning_rate": 9.999922196081928e-06,
      "loss": 1.17970409,
      "memory(GiB)": 102.53,
      "step": 4075,
      "train_speed(iter/s)": 1.115027
    },
    {
      "acc": 0.71631827,
      "epoch": 0.1035007610350076,
      "grad_norm": 3.75,
      "learning_rate": 9.99991623621904e-06,
      "loss": 1.1861496,
      "memory(GiB)": 102.53,
      "step": 4080,
      "train_speed(iter/s)": 1.115098
    },
    {
      "acc": 0.71149211,
      "epoch": 0.10362760020294266,
      "grad_norm": 4.1875,
      "learning_rate": 9.999910056437512e-06,
      "loss": 1.24053516,
      "memory(GiB)": 102.53,
      "step": 4085,
      "train_speed(iter/s)": 1.115425
    },
    {
      "acc": 0.70922356,
      "epoch": 0.10375443937087772,
      "grad_norm": 3.234375,
      "learning_rate": 9.999903656737618e-06,
      "loss": 1.18945656,
      "memory(GiB)": 102.53,
      "step": 4090,
      "train_speed(iter/s)": 1.115686
    },
    {
      "acc": 0.71329517,
      "epoch": 0.10388127853881278,
      "grad_norm": 3.9375,
      "learning_rate": 9.999897037119637e-06,
      "loss": 1.17269707,
      "memory(GiB)": 102.53,
      "step": 4095,
      "train_speed(iter/s)": 1.115918
    },
    {
      "acc": 0.7131094,
      "epoch": 0.10400811770674784,
      "grad_norm": 3.78125,
      "learning_rate": 9.999890197583862e-06,
      "loss": 1.23811665,
      "memory(GiB)": 102.53,
      "step": 4100,
      "train_speed(iter/s)": 1.116171
    },
    {
      "acc": 0.6986434,
      "epoch": 0.1041349568746829,
      "grad_norm": 5.3125,
      "learning_rate": 9.999883138130593e-06,
      "loss": 1.24570427,
      "memory(GiB)": 102.53,
      "step": 4105,
      "train_speed(iter/s)": 1.116451
    },
    {
      "acc": 0.72210388,
      "epoch": 0.10426179604261795,
      "grad_norm": 3.828125,
      "learning_rate": 9.999875858760143e-06,
      "loss": 1.20206165,
      "memory(GiB)": 102.53,
      "step": 4110,
      "train_speed(iter/s)": 1.116714
    },
    {
      "acc": 0.70713596,
      "epoch": 0.10438863521055301,
      "grad_norm": 3.921875,
      "learning_rate": 9.999868359472826e-06,
      "loss": 1.27953739,
      "memory(GiB)": 102.53,
      "step": 4115,
      "train_speed(iter/s)": 1.116871
    },
    {
      "acc": 0.71552701,
      "epoch": 0.10451547437848807,
      "grad_norm": 3.484375,
      "learning_rate": 9.999860640268977e-06,
      "loss": 1.24246368,
      "memory(GiB)": 102.53,
      "step": 4120,
      "train_speed(iter/s)": 1.117111
    },
    {
      "acc": 0.7249001,
      "epoch": 0.10464231354642313,
      "grad_norm": 3.765625,
      "learning_rate": 9.999852701148935e-06,
      "loss": 1.20176334,
      "memory(GiB)": 102.53,
      "step": 4125,
      "train_speed(iter/s)": 1.117354
    },
    {
      "acc": 0.72804136,
      "epoch": 0.10476915271435819,
      "grad_norm": 4.78125,
      "learning_rate": 9.999844542113049e-06,
      "loss": 1.22129021,
      "memory(GiB)": 102.53,
      "step": 4130,
      "train_speed(iter/s)": 1.11759
    },
    {
      "acc": 0.70243759,
      "epoch": 0.10489599188229325,
      "grad_norm": 3.5,
      "learning_rate": 9.999836163161675e-06,
      "loss": 1.25790071,
      "memory(GiB)": 102.53,
      "step": 4135,
      "train_speed(iter/s)": 1.117735
    },
    {
      "acc": 0.73790431,
      "epoch": 0.1050228310502283,
      "grad_norm": 4.53125,
      "learning_rate": 9.999827564295187e-06,
      "loss": 1.10733862,
      "memory(GiB)": 102.53,
      "step": 4140,
      "train_speed(iter/s)": 1.117871
    },
    {
      "acc": 0.71957126,
      "epoch": 0.10514967021816336,
      "grad_norm": 3.71875,
      "learning_rate": 9.999818745513958e-06,
      "loss": 1.18773022,
      "memory(GiB)": 102.53,
      "step": 4145,
      "train_speed(iter/s)": 1.118022
    },
    {
      "acc": 0.71574373,
      "epoch": 0.10527650938609842,
      "grad_norm": 3.921875,
      "learning_rate": 9.99980970681838e-06,
      "loss": 1.22939548,
      "memory(GiB)": 102.53,
      "step": 4150,
      "train_speed(iter/s)": 1.11812
    },
    {
      "acc": 0.72762375,
      "epoch": 0.10540334855403348,
      "grad_norm": 4.1875,
      "learning_rate": 9.999800448208846e-06,
      "loss": 1.16338749,
      "memory(GiB)": 102.53,
      "step": 4155,
      "train_speed(iter/s)": 1.118399
    },
    {
      "acc": 0.71268849,
      "epoch": 0.10553018772196854,
      "grad_norm": 3.390625,
      "learning_rate": 9.999790969685767e-06,
      "loss": 1.17710028,
      "memory(GiB)": 102.53,
      "step": 4160,
      "train_speed(iter/s)": 1.118597
    },
    {
      "acc": 0.71345043,
      "epoch": 0.1056570268899036,
      "grad_norm": 4.90625,
      "learning_rate": 9.999781271249559e-06,
      "loss": 1.22678261,
      "memory(GiB)": 102.53,
      "step": 4165,
      "train_speed(iter/s)": 1.11883
    },
    {
      "acc": 0.71891432,
      "epoch": 0.10578386605783865,
      "grad_norm": 3.5,
      "learning_rate": 9.999771352900647e-06,
      "loss": 1.17193565,
      "memory(GiB)": 102.53,
      "step": 4170,
      "train_speed(iter/s)": 1.119119
    },
    {
      "acc": 0.72224412,
      "epoch": 0.10591070522577371,
      "grad_norm": 3.8125,
      "learning_rate": 9.999761214639469e-06,
      "loss": 1.12213287,
      "memory(GiB)": 102.53,
      "step": 4175,
      "train_speed(iter/s)": 1.119186
    },
    {
      "acc": 0.72614875,
      "epoch": 0.10603754439370877,
      "grad_norm": 3.46875,
      "learning_rate": 9.999750856466472e-06,
      "loss": 1.11701345,
      "memory(GiB)": 102.53,
      "step": 4180,
      "train_speed(iter/s)": 1.11937
    },
    {
      "acc": 0.72312212,
      "epoch": 0.10616438356164383,
      "grad_norm": 3.703125,
      "learning_rate": 9.99974027838211e-06,
      "loss": 1.13336525,
      "memory(GiB)": 102.53,
      "step": 4185,
      "train_speed(iter/s)": 1.119607
    },
    {
      "acc": 0.71363382,
      "epoch": 0.10629122272957889,
      "grad_norm": 2.890625,
      "learning_rate": 9.999729480386846e-06,
      "loss": 1.18271236,
      "memory(GiB)": 102.53,
      "step": 4190,
      "train_speed(iter/s)": 1.119818
    },
    {
      "acc": 0.72162185,
      "epoch": 0.10641806189751395,
      "grad_norm": 3.59375,
      "learning_rate": 9.999718462481157e-06,
      "loss": 1.18533688,
      "memory(GiB)": 102.53,
      "step": 4195,
      "train_speed(iter/s)": 1.12002
    },
    {
      "acc": 0.73026938,
      "epoch": 0.106544901065449,
      "grad_norm": 3.46875,
      "learning_rate": 9.99970722466553e-06,
      "loss": 1.17470894,
      "memory(GiB)": 102.53,
      "step": 4200,
      "train_speed(iter/s)": 1.120276
    },
    {
      "acc": 0.72089362,
      "epoch": 0.10667174023338406,
      "grad_norm": 4.96875,
      "learning_rate": 9.999695766940458e-06,
      "loss": 1.16024752,
      "memory(GiB)": 102.53,
      "step": 4205,
      "train_speed(iter/s)": 1.120579
    },
    {
      "acc": 0.70911217,
      "epoch": 0.10679857940131912,
      "grad_norm": 3.265625,
      "learning_rate": 9.999684089306442e-06,
      "loss": 1.20913506,
      "memory(GiB)": 102.53,
      "step": 4210,
      "train_speed(iter/s)": 1.120865
    },
    {
      "acc": 0.71569867,
      "epoch": 0.10692541856925418,
      "grad_norm": 3.296875,
      "learning_rate": 9.999672191763999e-06,
      "loss": 1.18901625,
      "memory(GiB)": 102.53,
      "step": 4215,
      "train_speed(iter/s)": 1.121031
    },
    {
      "acc": 0.71969223,
      "epoch": 0.10705225773718924,
      "grad_norm": 3.8125,
      "learning_rate": 9.99966007431365e-06,
      "loss": 1.12040195,
      "memory(GiB)": 102.53,
      "step": 4220,
      "train_speed(iter/s)": 1.121109
    },
    {
      "acc": 0.71234484,
      "epoch": 0.1071790969051243,
      "grad_norm": 3.078125,
      "learning_rate": 9.99964773695593e-06,
      "loss": 1.21086597,
      "memory(GiB)": 102.53,
      "step": 4225,
      "train_speed(iter/s)": 1.121256
    },
    {
      "acc": 0.72878222,
      "epoch": 0.10730593607305935,
      "grad_norm": 4.28125,
      "learning_rate": 9.999635179691381e-06,
      "loss": 1.22471867,
      "memory(GiB)": 102.53,
      "step": 4230,
      "train_speed(iter/s)": 1.121457
    },
    {
      "acc": 0.71690216,
      "epoch": 0.10743277524099441,
      "grad_norm": 3.40625,
      "learning_rate": 9.999622402520553e-06,
      "loss": 1.23301611,
      "memory(GiB)": 102.53,
      "step": 4235,
      "train_speed(iter/s)": 1.121704
    },
    {
      "acc": 0.71073189,
      "epoch": 0.10755961440892947,
      "grad_norm": 4.96875,
      "learning_rate": 9.999609405444012e-06,
      "loss": 1.20739098,
      "memory(GiB)": 102.53,
      "step": 4240,
      "train_speed(iter/s)": 1.121936
    },
    {
      "acc": 0.71682501,
      "epoch": 0.10768645357686453,
      "grad_norm": 3.9375,
      "learning_rate": 9.999596188462328e-06,
      "loss": 1.20731506,
      "memory(GiB)": 102.53,
      "step": 4245,
      "train_speed(iter/s)": 1.122122
    },
    {
      "acc": 0.72412224,
      "epoch": 0.10781329274479959,
      "grad_norm": 2.984375,
      "learning_rate": 9.99958275157608e-06,
      "loss": 1.18421564,
      "memory(GiB)": 102.53,
      "step": 4250,
      "train_speed(iter/s)": 1.122295
    },
    {
      "acc": 0.71346383,
      "epoch": 0.10794013191273465,
      "grad_norm": 3.90625,
      "learning_rate": 9.999569094785862e-06,
      "loss": 1.24634123,
      "memory(GiB)": 102.53,
      "step": 4255,
      "train_speed(iter/s)": 1.122534
    },
    {
      "acc": 0.73209825,
      "epoch": 0.1080669710806697,
      "grad_norm": 3.640625,
      "learning_rate": 9.999555218092273e-06,
      "loss": 1.16849728,
      "memory(GiB)": 102.53,
      "step": 4260,
      "train_speed(iter/s)": 1.122699
    },
    {
      "acc": 0.72058659,
      "epoch": 0.10819381024860476,
      "grad_norm": 3.796875,
      "learning_rate": 9.999541121495926e-06,
      "loss": 1.19004726,
      "memory(GiB)": 102.53,
      "step": 4265,
      "train_speed(iter/s)": 1.122967
    },
    {
      "acc": 0.7104825,
      "epoch": 0.10832064941653982,
      "grad_norm": 4.5625,
      "learning_rate": 9.999526804997439e-06,
      "loss": 1.21823483,
      "memory(GiB)": 102.53,
      "step": 4270,
      "train_speed(iter/s)": 1.123233
    },
    {
      "acc": 0.70422497,
      "epoch": 0.10844748858447488,
      "grad_norm": 3.5625,
      "learning_rate": 9.99951226859744e-06,
      "loss": 1.26535168,
      "memory(GiB)": 102.53,
      "step": 4275,
      "train_speed(iter/s)": 1.12331
    },
    {
      "acc": 0.72185946,
      "epoch": 0.10857432775240994,
      "grad_norm": 3.890625,
      "learning_rate": 9.999497512296572e-06,
      "loss": 1.20727654,
      "memory(GiB)": 102.53,
      "step": 4280,
      "train_speed(iter/s)": 1.123542
    },
    {
      "acc": 0.72917728,
      "epoch": 0.108701166920345,
      "grad_norm": 6.125,
      "learning_rate": 9.999482536095483e-06,
      "loss": 1.19611797,
      "memory(GiB)": 102.53,
      "step": 4285,
      "train_speed(iter/s)": 1.12381
    },
    {
      "acc": 0.71773586,
      "epoch": 0.10882800608828005,
      "grad_norm": 3.203125,
      "learning_rate": 9.999467339994827e-06,
      "loss": 1.18150978,
      "memory(GiB)": 102.53,
      "step": 4290,
      "train_speed(iter/s)": 1.124032
    },
    {
      "acc": 0.72557974,
      "epoch": 0.10895484525621511,
      "grad_norm": 4.3125,
      "learning_rate": 9.99945192399528e-06,
      "loss": 1.16464539,
      "memory(GiB)": 102.53,
      "step": 4295,
      "train_speed(iter/s)": 1.124178
    },
    {
      "acc": 0.71334572,
      "epoch": 0.10908168442415017,
      "grad_norm": 3.90625,
      "learning_rate": 9.999436288097515e-06,
      "loss": 1.18820868,
      "memory(GiB)": 102.53,
      "step": 4300,
      "train_speed(iter/s)": 1.1242
    },
    {
      "acc": 0.71309681,
      "epoch": 0.10920852359208523,
      "grad_norm": 4.5625,
      "learning_rate": 9.99942043230222e-06,
      "loss": 1.22099895,
      "memory(GiB)": 102.53,
      "step": 4305,
      "train_speed(iter/s)": 1.124333
    },
    {
      "acc": 0.71880693,
      "epoch": 0.10933536276002029,
      "grad_norm": 6.9375,
      "learning_rate": 9.999404356610095e-06,
      "loss": 1.12654371,
      "memory(GiB)": 102.53,
      "step": 4310,
      "train_speed(iter/s)": 1.124486
    },
    {
      "acc": 0.72239971,
      "epoch": 0.10946220192795535,
      "grad_norm": 4.25,
      "learning_rate": 9.999388061021846e-06,
      "loss": 1.21192665,
      "memory(GiB)": 102.53,
      "step": 4315,
      "train_speed(iter/s)": 1.124593
    },
    {
      "acc": 0.71381178,
      "epoch": 0.1095890410958904,
      "grad_norm": 3.875,
      "learning_rate": 9.99937154553819e-06,
      "loss": 1.21958017,
      "memory(GiB)": 102.53,
      "step": 4320,
      "train_speed(iter/s)": 1.124922
    },
    {
      "acc": 0.70076656,
      "epoch": 0.10971588026382546,
      "grad_norm": 3.828125,
      "learning_rate": 9.999354810159852e-06,
      "loss": 1.21869869,
      "memory(GiB)": 102.53,
      "step": 4325,
      "train_speed(iter/s)": 1.125056
    },
    {
      "acc": 0.70832024,
      "epoch": 0.10984271943176052,
      "grad_norm": 3.921875,
      "learning_rate": 9.999337854887567e-06,
      "loss": 1.21062336,
      "memory(GiB)": 102.53,
      "step": 4330,
      "train_speed(iter/s)": 1.125217
    },
    {
      "acc": 0.72450647,
      "epoch": 0.10996955859969558,
      "grad_norm": 3.875,
      "learning_rate": 9.999320679722086e-06,
      "loss": 1.19940329,
      "memory(GiB)": 102.53,
      "step": 4335,
      "train_speed(iter/s)": 1.125505
    },
    {
      "acc": 0.71991844,
      "epoch": 0.11009639776763064,
      "grad_norm": 3.390625,
      "learning_rate": 9.999303284664159e-06,
      "loss": 1.19159765,
      "memory(GiB)": 102.53,
      "step": 4340,
      "train_speed(iter/s)": 1.125748
    },
    {
      "acc": 0.73369513,
      "epoch": 0.1102232369355657,
      "grad_norm": 3.578125,
      "learning_rate": 9.999285669714555e-06,
      "loss": 1.15724201,
      "memory(GiB)": 102.53,
      "step": 4345,
      "train_speed(iter/s)": 1.125941
    },
    {
      "acc": 0.73248777,
      "epoch": 0.11035007610350075,
      "grad_norm": 3.671875,
      "learning_rate": 9.999267834874044e-06,
      "loss": 1.09580555,
      "memory(GiB)": 102.53,
      "step": 4350,
      "train_speed(iter/s)": 1.12615
    },
    {
      "acc": 0.72178535,
      "epoch": 0.11047691527143581,
      "grad_norm": 4.40625,
      "learning_rate": 9.999249780143416e-06,
      "loss": 1.15585155,
      "memory(GiB)": 102.53,
      "step": 4355,
      "train_speed(iter/s)": 1.126299
    },
    {
      "acc": 0.71434488,
      "epoch": 0.11060375443937087,
      "grad_norm": 3.4375,
      "learning_rate": 9.999231505523463e-06,
      "loss": 1.19923115,
      "memory(GiB)": 102.53,
      "step": 4360,
      "train_speed(iter/s)": 1.126421
    },
    {
      "acc": 0.70804033,
      "epoch": 0.11073059360730593,
      "grad_norm": 3.796875,
      "learning_rate": 9.999213011014987e-06,
      "loss": 1.23307505,
      "memory(GiB)": 102.53,
      "step": 4365,
      "train_speed(iter/s)": 1.12655
    },
    {
      "acc": 0.70508194,
      "epoch": 0.11085743277524099,
      "grad_norm": 3.234375,
      "learning_rate": 9.999194296618805e-06,
      "loss": 1.20742054,
      "memory(GiB)": 102.53,
      "step": 4370,
      "train_speed(iter/s)": 1.126734
    },
    {
      "acc": 0.72183294,
      "epoch": 0.11098427194317605,
      "grad_norm": 6.0625,
      "learning_rate": 9.999175362335735e-06,
      "loss": 1.18960247,
      "memory(GiB)": 102.53,
      "step": 4375,
      "train_speed(iter/s)": 1.126978
    },
    {
      "acc": 0.7214776,
      "epoch": 0.1111111111111111,
      "grad_norm": 3.890625,
      "learning_rate": 9.999156208166614e-06,
      "loss": 1.18157797,
      "memory(GiB)": 102.53,
      "step": 4380,
      "train_speed(iter/s)": 1.127218
    },
    {
      "acc": 0.71871018,
      "epoch": 0.11123795027904616,
      "grad_norm": 4.0,
      "learning_rate": 9.999136834112284e-06,
      "loss": 1.17692957,
      "memory(GiB)": 102.53,
      "step": 4385,
      "train_speed(iter/s)": 1.127441
    },
    {
      "acc": 0.7148066,
      "epoch": 0.11136478944698122,
      "grad_norm": 3.09375,
      "learning_rate": 9.999117240173597e-06,
      "loss": 1.22214651,
      "memory(GiB)": 102.53,
      "step": 4390,
      "train_speed(iter/s)": 1.127609
    },
    {
      "acc": 0.70932536,
      "epoch": 0.11149162861491628,
      "grad_norm": 4.03125,
      "learning_rate": 9.999097426351412e-06,
      "loss": 1.26540108,
      "memory(GiB)": 102.53,
      "step": 4395,
      "train_speed(iter/s)": 1.12788
    },
    {
      "acc": 0.71365957,
      "epoch": 0.11161846778285134,
      "grad_norm": 3.8125,
      "learning_rate": 9.999077392646606e-06,
      "loss": 1.19588041,
      "memory(GiB)": 102.53,
      "step": 4400,
      "train_speed(iter/s)": 1.128055
    },
    {
      "acc": 0.72305212,
      "epoch": 0.1117453069507864,
      "grad_norm": 3.859375,
      "learning_rate": 9.999057139060055e-06,
      "loss": 1.19292784,
      "memory(GiB)": 102.53,
      "step": 4405,
      "train_speed(iter/s)": 1.128259
    },
    {
      "acc": 0.72226605,
      "epoch": 0.11187214611872145,
      "grad_norm": 3.578125,
      "learning_rate": 9.999036665592653e-06,
      "loss": 1.17417336,
      "memory(GiB)": 102.53,
      "step": 4410,
      "train_speed(iter/s)": 1.128429
    },
    {
      "acc": 0.73090725,
      "epoch": 0.11199898528665651,
      "grad_norm": 3.671875,
      "learning_rate": 9.999015972245298e-06,
      "loss": 1.1834568,
      "memory(GiB)": 102.53,
      "step": 4415,
      "train_speed(iter/s)": 1.128543
    },
    {
      "acc": 0.71376629,
      "epoch": 0.11212582445459157,
      "grad_norm": 4.28125,
      "learning_rate": 9.998995059018901e-06,
      "loss": 1.21140041,
      "memory(GiB)": 102.53,
      "step": 4420,
      "train_speed(iter/s)": 1.128616
    },
    {
      "acc": 0.71090641,
      "epoch": 0.11225266362252663,
      "grad_norm": 4.125,
      "learning_rate": 9.998973925914384e-06,
      "loss": 1.16901665,
      "memory(GiB)": 102.53,
      "step": 4425,
      "train_speed(iter/s)": 1.128548
    },
    {
      "acc": 0.71466827,
      "epoch": 0.11237950279046169,
      "grad_norm": 3.875,
      "learning_rate": 9.998952572932675e-06,
      "loss": 1.20383949,
      "memory(GiB)": 102.53,
      "step": 4430,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.69750757,
      "epoch": 0.11250634195839675,
      "grad_norm": 3.84375,
      "learning_rate": 9.998931000074712e-06,
      "loss": 1.29375763,
      "memory(GiB)": 102.53,
      "step": 4435,
      "train_speed(iter/s)": 1.129076
    },
    {
      "acc": 0.71330833,
      "epoch": 0.1126331811263318,
      "grad_norm": 3.953125,
      "learning_rate": 9.998909207341446e-06,
      "loss": 1.17366018,
      "memory(GiB)": 102.53,
      "step": 4440,
      "train_speed(iter/s)": 1.129357
    },
    {
      "acc": 0.70537758,
      "epoch": 0.11276002029426686,
      "grad_norm": 3.703125,
      "learning_rate": 9.998887194733833e-06,
      "loss": 1.25937414,
      "memory(GiB)": 102.53,
      "step": 4445,
      "train_speed(iter/s)": 1.129562
    },
    {
      "acc": 0.7211103,
      "epoch": 0.11288685946220192,
      "grad_norm": 3.890625,
      "learning_rate": 9.998864962252843e-06,
      "loss": 1.14884949,
      "memory(GiB)": 102.53,
      "step": 4450,
      "train_speed(iter/s)": 1.129582
    },
    {
      "acc": 0.7099967,
      "epoch": 0.11301369863013698,
      "grad_norm": 3.484375,
      "learning_rate": 9.998842509899456e-06,
      "loss": 1.2543294,
      "memory(GiB)": 102.53,
      "step": 4455,
      "train_speed(iter/s)": 1.129793
    },
    {
      "acc": 0.72151909,
      "epoch": 0.11314053779807204,
      "grad_norm": 5.25,
      "learning_rate": 9.998819837674655e-06,
      "loss": 1.1971674,
      "memory(GiB)": 102.53,
      "step": 4460,
      "train_speed(iter/s)": 1.130019
    },
    {
      "acc": 0.72760053,
      "epoch": 0.1132673769660071,
      "grad_norm": 6.03125,
      "learning_rate": 9.99879694557944e-06,
      "loss": 1.1489666,
      "memory(GiB)": 102.53,
      "step": 4465,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.72400317,
      "epoch": 0.11339421613394216,
      "grad_norm": 3.875,
      "learning_rate": 9.998773833614816e-06,
      "loss": 1.20224915,
      "memory(GiB)": 102.53,
      "step": 4470,
      "train_speed(iter/s)": 1.130323
    },
    {
      "acc": 0.7270256,
      "epoch": 0.11352105530187721,
      "grad_norm": 3.734375,
      "learning_rate": 9.998750501781803e-06,
      "loss": 1.11188469,
      "memory(GiB)": 102.53,
      "step": 4475,
      "train_speed(iter/s)": 1.130426
    },
    {
      "acc": 0.72027254,
      "epoch": 0.11364789446981227,
      "grad_norm": 3.96875,
      "learning_rate": 9.998726950081425e-06,
      "loss": 1.19454823,
      "memory(GiB)": 102.53,
      "step": 4480,
      "train_speed(iter/s)": 1.130584
    },
    {
      "acc": 0.71580191,
      "epoch": 0.11377473363774733,
      "grad_norm": 4.8125,
      "learning_rate": 9.998703178514717e-06,
      "loss": 1.24046993,
      "memory(GiB)": 102.53,
      "step": 4485,
      "train_speed(iter/s)": 1.130785
    },
    {
      "acc": 0.70994925,
      "epoch": 0.11390157280568239,
      "grad_norm": 4.5,
      "learning_rate": 9.998679187082724e-06,
      "loss": 1.182271,
      "memory(GiB)": 102.53,
      "step": 4490,
      "train_speed(iter/s)": 1.130927
    },
    {
      "acc": 0.70935373,
      "epoch": 0.11402841197361745,
      "grad_norm": 3.3125,
      "learning_rate": 9.998654975786506e-06,
      "loss": 1.1616189,
      "memory(GiB)": 102.53,
      "step": 4495,
      "train_speed(iter/s)": 1.131158
    },
    {
      "acc": 0.7156229,
      "epoch": 0.1141552511415525,
      "grad_norm": 3.953125,
      "learning_rate": 9.998630544627123e-06,
      "loss": 1.17568989,
      "memory(GiB)": 102.53,
      "step": 4500,
      "train_speed(iter/s)": 1.131446
    },
    {
      "acc": 0.72649412,
      "epoch": 0.11428209030948756,
      "grad_norm": 3.25,
      "learning_rate": 9.998605893605653e-06,
      "loss": 1.16962299,
      "memory(GiB)": 102.53,
      "step": 4505,
      "train_speed(iter/s)": 1.13164
    },
    {
      "acc": 0.7185257,
      "epoch": 0.11440892947742262,
      "grad_norm": 3.6875,
      "learning_rate": 9.998581022723178e-06,
      "loss": 1.24450254,
      "memory(GiB)": 102.53,
      "step": 4510,
      "train_speed(iter/s)": 1.131797
    },
    {
      "acc": 0.71101727,
      "epoch": 0.11453576864535768,
      "grad_norm": 3.796875,
      "learning_rate": 9.998555931980792e-06,
      "loss": 1.24280663,
      "memory(GiB)": 102.53,
      "step": 4515,
      "train_speed(iter/s)": 1.131875
    },
    {
      "acc": 0.70833383,
      "epoch": 0.11466260781329274,
      "grad_norm": 3.484375,
      "learning_rate": 9.998530621379599e-06,
      "loss": 1.22238426,
      "memory(GiB)": 102.53,
      "step": 4520,
      "train_speed(iter/s)": 1.131937
    },
    {
      "acc": 0.7180522,
      "epoch": 0.1147894469812278,
      "grad_norm": 3.03125,
      "learning_rate": 9.998505090920713e-06,
      "loss": 1.20536461,
      "memory(GiB)": 102.53,
      "step": 4525,
      "train_speed(iter/s)": 1.132092
    },
    {
      "acc": 0.72770009,
      "epoch": 0.11491628614916286,
      "grad_norm": 3.703125,
      "learning_rate": 9.998479340605257e-06,
      "loss": 1.155686,
      "memory(GiB)": 102.53,
      "step": 4530,
      "train_speed(iter/s)": 1.132308
    },
    {
      "acc": 0.72230911,
      "epoch": 0.11504312531709791,
      "grad_norm": 3.21875,
      "learning_rate": 9.99845337043436e-06,
      "loss": 1.15288601,
      "memory(GiB)": 102.53,
      "step": 4535,
      "train_speed(iter/s)": 1.132559
    },
    {
      "acc": 0.70632381,
      "epoch": 0.11516996448503297,
      "grad_norm": 4.625,
      "learning_rate": 9.998427180409171e-06,
      "loss": 1.30772495,
      "memory(GiB)": 102.53,
      "step": 4540,
      "train_speed(iter/s)": 1.132532
    },
    {
      "acc": 0.71326299,
      "epoch": 0.11529680365296803,
      "grad_norm": 5.6875,
      "learning_rate": 9.998400770530836e-06,
      "loss": 1.22256184,
      "memory(GiB)": 102.53,
      "step": 4545,
      "train_speed(iter/s)": 1.132744
    },
    {
      "acc": 0.71830859,
      "epoch": 0.11542364282090309,
      "grad_norm": 3.546875,
      "learning_rate": 9.99837414080052e-06,
      "loss": 1.18697424,
      "memory(GiB)": 102.53,
      "step": 4550,
      "train_speed(iter/s)": 1.133
    },
    {
      "acc": 0.70279565,
      "epoch": 0.11555048198883815,
      "grad_norm": 3.671875,
      "learning_rate": 9.998347291219393e-06,
      "loss": 1.22003841,
      "memory(GiB)": 102.53,
      "step": 4555,
      "train_speed(iter/s)": 1.133225
    },
    {
      "acc": 0.72718582,
      "epoch": 0.1156773211567732,
      "grad_norm": 3.515625,
      "learning_rate": 9.998320221788635e-06,
      "loss": 1.1811903,
      "memory(GiB)": 102.53,
      "step": 4560,
      "train_speed(iter/s)": 1.133417
    },
    {
      "acc": 0.69248886,
      "epoch": 0.11580416032470826,
      "grad_norm": 4.59375,
      "learning_rate": 9.998292932509438e-06,
      "loss": 1.3474638,
      "memory(GiB)": 102.53,
      "step": 4565,
      "train_speed(iter/s)": 1.13368
    },
    {
      "acc": 0.7040669,
      "epoch": 0.11593099949264332,
      "grad_norm": 3.890625,
      "learning_rate": 9.998265423383003e-06,
      "loss": 1.26249685,
      "memory(GiB)": 102.53,
      "step": 4570,
      "train_speed(iter/s)": 1.133839
    },
    {
      "acc": 0.71839294,
      "epoch": 0.11605783866057838,
      "grad_norm": 4.75,
      "learning_rate": 9.998237694410537e-06,
      "loss": 1.18614101,
      "memory(GiB)": 102.53,
      "step": 4575,
      "train_speed(iter/s)": 1.134038
    },
    {
      "acc": 0.72839589,
      "epoch": 0.11618467782851344,
      "grad_norm": 4.375,
      "learning_rate": 9.998209745593264e-06,
      "loss": 1.13911266,
      "memory(GiB)": 102.53,
      "step": 4580,
      "train_speed(iter/s)": 1.134251
    },
    {
      "acc": 0.71794252,
      "epoch": 0.1163115169964485,
      "grad_norm": 3.546875,
      "learning_rate": 9.99818157693241e-06,
      "loss": 1.20211191,
      "memory(GiB)": 102.53,
      "step": 4585,
      "train_speed(iter/s)": 1.134451
    },
    {
      "acc": 0.73001862,
      "epoch": 0.11643835616438356,
      "grad_norm": 3.453125,
      "learning_rate": 9.998153188429216e-06,
      "loss": 1.08645096,
      "memory(GiB)": 102.53,
      "step": 4590,
      "train_speed(iter/s)": 1.134653
    },
    {
      "acc": 0.71655822,
      "epoch": 0.11656519533231861,
      "grad_norm": 3.546875,
      "learning_rate": 9.99812458008493e-06,
      "loss": 1.17177687,
      "memory(GiB)": 102.53,
      "step": 4595,
      "train_speed(iter/s)": 1.134812
    },
    {
      "acc": 0.71513491,
      "epoch": 0.11669203450025367,
      "grad_norm": 3.109375,
      "learning_rate": 9.998095751900806e-06,
      "loss": 1.22379723,
      "memory(GiB)": 102.53,
      "step": 4600,
      "train_speed(iter/s)": 1.135017
    },
    {
      "acc": 0.70865536,
      "epoch": 0.11681887366818873,
      "grad_norm": 2.875,
      "learning_rate": 9.99806670387812e-06,
      "loss": 1.19570885,
      "memory(GiB)": 102.53,
      "step": 4605,
      "train_speed(iter/s)": 1.135271
    },
    {
      "acc": 0.71374769,
      "epoch": 0.11694571283612379,
      "grad_norm": 4.3125,
      "learning_rate": 9.998037436018144e-06,
      "loss": 1.21607323,
      "memory(GiB)": 102.53,
      "step": 4610,
      "train_speed(iter/s)": 1.135443
    },
    {
      "acc": 0.71386251,
      "epoch": 0.11707255200405885,
      "grad_norm": 5.03125,
      "learning_rate": 9.998007948322168e-06,
      "loss": 1.1476017,
      "memory(GiB)": 102.53,
      "step": 4615,
      "train_speed(iter/s)": 1.13551
    },
    {
      "acc": 0.71878576,
      "epoch": 0.1171993911719939,
      "grad_norm": 3.46875,
      "learning_rate": 9.997978240791487e-06,
      "loss": 1.20006647,
      "memory(GiB)": 102.53,
      "step": 4620,
      "train_speed(iter/s)": 1.13578
    },
    {
      "acc": 0.70576444,
      "epoch": 0.11732623033992896,
      "grad_norm": 5.59375,
      "learning_rate": 9.99794831342741e-06,
      "loss": 1.23739185,
      "memory(GiB)": 102.53,
      "step": 4625,
      "train_speed(iter/s)": 1.135968
    },
    {
      "acc": 0.71711259,
      "epoch": 0.11745306950786402,
      "grad_norm": 3.609375,
      "learning_rate": 9.99791816623125e-06,
      "loss": 1.22323685,
      "memory(GiB)": 102.53,
      "step": 4630,
      "train_speed(iter/s)": 1.136169
    },
    {
      "acc": 0.71843934,
      "epoch": 0.11757990867579908,
      "grad_norm": 3.34375,
      "learning_rate": 9.997887799204335e-06,
      "loss": 1.17014322,
      "memory(GiB)": 102.53,
      "step": 4635,
      "train_speed(iter/s)": 1.136305
    },
    {
      "acc": 0.70565958,
      "epoch": 0.11770674784373414,
      "grad_norm": 3.625,
      "learning_rate": 9.997857212348e-06,
      "loss": 1.20761242,
      "memory(GiB)": 102.53,
      "step": 4640,
      "train_speed(iter/s)": 1.136485
    },
    {
      "acc": 0.71929169,
      "epoch": 0.1178335870116692,
      "grad_norm": 3.515625,
      "learning_rate": 9.997826405663593e-06,
      "loss": 1.18484612,
      "memory(GiB)": 102.53,
      "step": 4645,
      "train_speed(iter/s)": 1.136692
    },
    {
      "acc": 0.73429947,
      "epoch": 0.11796042617960426,
      "grad_norm": 4.09375,
      "learning_rate": 9.997795379152468e-06,
      "loss": 1.08337097,
      "memory(GiB)": 102.53,
      "step": 4650,
      "train_speed(iter/s)": 1.136806
    },
    {
      "acc": 0.69211917,
      "epoch": 0.11808726534753931,
      "grad_norm": 3.921875,
      "learning_rate": 9.997764132815985e-06,
      "loss": 1.2542695,
      "memory(GiB)": 102.53,
      "step": 4655,
      "train_speed(iter/s)": 1.137012
    },
    {
      "acc": 0.71369343,
      "epoch": 0.11821410451547437,
      "grad_norm": 4.0625,
      "learning_rate": 9.997732666655524e-06,
      "loss": 1.24709816,
      "memory(GiB)": 102.53,
      "step": 4660,
      "train_speed(iter/s)": 1.137255
    },
    {
      "acc": 0.70602922,
      "epoch": 0.11834094368340943,
      "grad_norm": 3.546875,
      "learning_rate": 9.997700980672469e-06,
      "loss": 1.2249651,
      "memory(GiB)": 102.53,
      "step": 4665,
      "train_speed(iter/s)": 1.137546
    },
    {
      "acc": 0.72166977,
      "epoch": 0.11846778285134449,
      "grad_norm": 3.65625,
      "learning_rate": 9.997669074868208e-06,
      "loss": 1.16146393,
      "memory(GiB)": 102.53,
      "step": 4670,
      "train_speed(iter/s)": 1.137735
    },
    {
      "acc": 0.72264996,
      "epoch": 0.11859462201927955,
      "grad_norm": 3.828125,
      "learning_rate": 9.997636949244151e-06,
      "loss": 1.20778198,
      "memory(GiB)": 102.53,
      "step": 4675,
      "train_speed(iter/s)": 1.13776
    },
    {
      "acc": 0.71109877,
      "epoch": 0.1187214611872146,
      "grad_norm": 3.578125,
      "learning_rate": 9.997604603801707e-06,
      "loss": 1.24694433,
      "memory(GiB)": 102.53,
      "step": 4680,
      "train_speed(iter/s)": 1.137994
    },
    {
      "acc": 0.69973459,
      "epoch": 0.11884830035514966,
      "grad_norm": 3.9375,
      "learning_rate": 9.9975720385423e-06,
      "loss": 1.26790953,
      "memory(GiB)": 102.53,
      "step": 4685,
      "train_speed(iter/s)": 1.138179
    },
    {
      "acc": 0.71915402,
      "epoch": 0.11897513952308472,
      "grad_norm": 4.3125,
      "learning_rate": 9.997539253467361e-06,
      "loss": 1.22169094,
      "memory(GiB)": 102.53,
      "step": 4690,
      "train_speed(iter/s)": 1.138243
    },
    {
      "acc": 0.71412506,
      "epoch": 0.11910197869101978,
      "grad_norm": 3.625,
      "learning_rate": 9.997506248578334e-06,
      "loss": 1.20202322,
      "memory(GiB)": 102.53,
      "step": 4695,
      "train_speed(iter/s)": 1.138486
    },
    {
      "acc": 0.72526197,
      "epoch": 0.11922881785895484,
      "grad_norm": 4.375,
      "learning_rate": 9.997473023876671e-06,
      "loss": 1.25503998,
      "memory(GiB)": 102.53,
      "step": 4700,
      "train_speed(iter/s)": 1.138706
    },
    {
      "acc": 0.71415615,
      "epoch": 0.1193556570268899,
      "grad_norm": 3.421875,
      "learning_rate": 9.997439579363831e-06,
      "loss": 1.26803217,
      "memory(GiB)": 102.53,
      "step": 4705,
      "train_speed(iter/s)": 1.138785
    },
    {
      "acc": 0.70785799,
      "epoch": 0.11948249619482496,
      "grad_norm": 3.4375,
      "learning_rate": 9.997405915041288e-06,
      "loss": 1.1793087,
      "memory(GiB)": 102.53,
      "step": 4710,
      "train_speed(iter/s)": 1.139035
    },
    {
      "acc": 0.73186107,
      "epoch": 0.11960933536276001,
      "grad_norm": 4.1875,
      "learning_rate": 9.99737203091052e-06,
      "loss": 1.16179209,
      "memory(GiB)": 102.53,
      "step": 4715,
      "train_speed(iter/s)": 1.139105
    },
    {
      "acc": 0.72913218,
      "epoch": 0.11973617453069507,
      "grad_norm": 3.625,
      "learning_rate": 9.997337926973018e-06,
      "loss": 1.14585724,
      "memory(GiB)": 102.53,
      "step": 4720,
      "train_speed(iter/s)": 1.139284
    },
    {
      "acc": 0.70755372,
      "epoch": 0.11986301369863013,
      "grad_norm": 3.828125,
      "learning_rate": 9.997303603230282e-06,
      "loss": 1.20966358,
      "memory(GiB)": 102.53,
      "step": 4725,
      "train_speed(iter/s)": 1.139335
    },
    {
      "acc": 0.72437449,
      "epoch": 0.11998985286656519,
      "grad_norm": 4.21875,
      "learning_rate": 9.997269059683822e-06,
      "loss": 1.14559765,
      "memory(GiB)": 102.53,
      "step": 4730,
      "train_speed(iter/s)": 1.139473
    },
    {
      "acc": 0.71362834,
      "epoch": 0.12011669203450025,
      "grad_norm": 4.625,
      "learning_rate": 9.997234296335159e-06,
      "loss": 1.22755575,
      "memory(GiB)": 102.53,
      "step": 4735,
      "train_speed(iter/s)": 1.139697
    },
    {
      "acc": 0.72106581,
      "epoch": 0.1202435312024353,
      "grad_norm": 3.21875,
      "learning_rate": 9.997199313185821e-06,
      "loss": 1.17923508,
      "memory(GiB)": 102.53,
      "step": 4740,
      "train_speed(iter/s)": 1.139764
    },
    {
      "acc": 0.73758898,
      "epoch": 0.12037037037037036,
      "grad_norm": 3.65625,
      "learning_rate": 9.997164110237345e-06,
      "loss": 1.08776827,
      "memory(GiB)": 102.53,
      "step": 4745,
      "train_speed(iter/s)": 1.139991
    },
    {
      "acc": 0.72816973,
      "epoch": 0.12049720953830542,
      "grad_norm": 4.6875,
      "learning_rate": 9.99712868749128e-06,
      "loss": 1.18293972,
      "memory(GiB)": 102.53,
      "step": 4750,
      "train_speed(iter/s)": 1.1401
    },
    {
      "acc": 0.738377,
      "epoch": 0.12062404870624048,
      "grad_norm": 4.5,
      "learning_rate": 9.997093044949186e-06,
      "loss": 1.17611618,
      "memory(GiB)": 102.53,
      "step": 4755,
      "train_speed(iter/s)": 1.140228
    },
    {
      "acc": 0.71733341,
      "epoch": 0.12075088787417554,
      "grad_norm": 3.859375,
      "learning_rate": 9.997057182612631e-06,
      "loss": 1.15808144,
      "memory(GiB)": 102.53,
      "step": 4760,
      "train_speed(iter/s)": 1.140314
    },
    {
      "acc": 0.717905,
      "epoch": 0.1208777270421106,
      "grad_norm": 4.34375,
      "learning_rate": 9.997021100483188e-06,
      "loss": 1.19280186,
      "memory(GiB)": 102.53,
      "step": 4765,
      "train_speed(iter/s)": 1.140473
    },
    {
      "acc": 0.72271585,
      "epoch": 0.12100456621004566,
      "grad_norm": 4.15625,
      "learning_rate": 9.996984798562448e-06,
      "loss": 1.14327831,
      "memory(GiB)": 102.53,
      "step": 4770,
      "train_speed(iter/s)": 1.140571
    },
    {
      "acc": 0.71065893,
      "epoch": 0.12113140537798071,
      "grad_norm": 4.21875,
      "learning_rate": 9.996948276852008e-06,
      "loss": 1.20146923,
      "memory(GiB)": 102.53,
      "step": 4775,
      "train_speed(iter/s)": 1.140804
    },
    {
      "acc": 0.71206193,
      "epoch": 0.12125824454591577,
      "grad_norm": 3.6875,
      "learning_rate": 9.99691153535347e-06,
      "loss": 1.22294216,
      "memory(GiB)": 102.53,
      "step": 4780,
      "train_speed(iter/s)": 1.140995
    },
    {
      "acc": 0.7246788,
      "epoch": 0.12138508371385083,
      "grad_norm": 3.609375,
      "learning_rate": 9.996874574068457e-06,
      "loss": 1.18037834,
      "memory(GiB)": 102.53,
      "step": 4785,
      "train_speed(iter/s)": 1.141122
    },
    {
      "acc": 0.71742053,
      "epoch": 0.12151192288178589,
      "grad_norm": 3.03125,
      "learning_rate": 9.996837392998586e-06,
      "loss": 1.17390003,
      "memory(GiB)": 102.54,
      "step": 4790,
      "train_speed(iter/s)": 1.141303
    },
    {
      "acc": 0.72109604,
      "epoch": 0.12163876204972095,
      "grad_norm": 4.34375,
      "learning_rate": 9.996799992145501e-06,
      "loss": 1.18090458,
      "memory(GiB)": 102.54,
      "step": 4795,
      "train_speed(iter/s)": 1.141494
    },
    {
      "acc": 0.7268959,
      "epoch": 0.121765601217656,
      "grad_norm": 3.84375,
      "learning_rate": 9.996762371510843e-06,
      "loss": 1.21814499,
      "memory(GiB)": 102.54,
      "step": 4800,
      "train_speed(iter/s)": 1.141697
    },
    {
      "acc": 0.72257862,
      "epoch": 0.12189244038559106,
      "grad_norm": 3.609375,
      "learning_rate": 9.996724531096264e-06,
      "loss": 1.16126499,
      "memory(GiB)": 102.54,
      "step": 4805,
      "train_speed(iter/s)": 1.141923
    },
    {
      "acc": 0.72073975,
      "epoch": 0.12201927955352612,
      "grad_norm": 4.25,
      "learning_rate": 9.996686470903434e-06,
      "loss": 1.18364744,
      "memory(GiB)": 102.54,
      "step": 4810,
      "train_speed(iter/s)": 1.142102
    },
    {
      "acc": 0.71927762,
      "epoch": 0.12214611872146118,
      "grad_norm": 3.453125,
      "learning_rate": 9.996648190934025e-06,
      "loss": 1.13496981,
      "memory(GiB)": 102.54,
      "step": 4815,
      "train_speed(iter/s)": 1.142312
    },
    {
      "acc": 0.72819252,
      "epoch": 0.12227295788939624,
      "grad_norm": 4.375,
      "learning_rate": 9.996609691189718e-06,
      "loss": 1.17931767,
      "memory(GiB)": 102.54,
      "step": 4820,
      "train_speed(iter/s)": 1.142517
    },
    {
      "acc": 0.73271885,
      "epoch": 0.1223997970573313,
      "grad_norm": 3.796875,
      "learning_rate": 9.996570971672209e-06,
      "loss": 1.14884729,
      "memory(GiB)": 102.54,
      "step": 4825,
      "train_speed(iter/s)": 1.142712
    },
    {
      "acc": 0.70104709,
      "epoch": 0.12252663622526636,
      "grad_norm": 4.25,
      "learning_rate": 9.996532032383202e-06,
      "loss": 1.26980343,
      "memory(GiB)": 102.54,
      "step": 4830,
      "train_speed(iter/s)": 1.142891
    },
    {
      "acc": 0.71745911,
      "epoch": 0.12265347539320141,
      "grad_norm": 4.53125,
      "learning_rate": 9.996492873324406e-06,
      "loss": 1.2408618,
      "memory(GiB)": 102.54,
      "step": 4835,
      "train_speed(iter/s)": 1.143008
    },
    {
      "acc": 0.72235589,
      "epoch": 0.12278031456113647,
      "grad_norm": 3.875,
      "learning_rate": 9.996453494497546e-06,
      "loss": 1.18915262,
      "memory(GiB)": 102.54,
      "step": 4840,
      "train_speed(iter/s)": 1.143118
    },
    {
      "acc": 0.72106247,
      "epoch": 0.12290715372907153,
      "grad_norm": 4.875,
      "learning_rate": 9.996413895904355e-06,
      "loss": 1.20346193,
      "memory(GiB)": 102.54,
      "step": 4845,
      "train_speed(iter/s)": 1.143281
    },
    {
      "acc": 0.71739073,
      "epoch": 0.12303399289700659,
      "grad_norm": 4.03125,
      "learning_rate": 9.996374077546573e-06,
      "loss": 1.1721447,
      "memory(GiB)": 102.54,
      "step": 4850,
      "train_speed(iter/s)": 1.143433
    },
    {
      "acc": 0.72580447,
      "epoch": 0.12316083206494165,
      "grad_norm": 3.59375,
      "learning_rate": 9.996334039425952e-06,
      "loss": 1.148069,
      "memory(GiB)": 102.54,
      "step": 4855,
      "train_speed(iter/s)": 1.143566
    },
    {
      "acc": 0.73363743,
      "epoch": 0.1232876712328767,
      "grad_norm": 4.59375,
      "learning_rate": 9.996293781544255e-06,
      "loss": 1.12231903,
      "memory(GiB)": 102.54,
      "step": 4860,
      "train_speed(iter/s)": 1.143704
    },
    {
      "acc": 0.71794415,
      "epoch": 0.12341451040081176,
      "grad_norm": 3.71875,
      "learning_rate": 9.996253303903247e-06,
      "loss": 1.14413624,
      "memory(GiB)": 102.54,
      "step": 4865,
      "train_speed(iter/s)": 1.143918
    },
    {
      "acc": 0.71728067,
      "epoch": 0.12354134956874682,
      "grad_norm": 3.546875,
      "learning_rate": 9.996212606504713e-06,
      "loss": 1.13241425,
      "memory(GiB)": 102.54,
      "step": 4870,
      "train_speed(iter/s)": 1.144091
    },
    {
      "acc": 0.73197298,
      "epoch": 0.12366818873668188,
      "grad_norm": 3.6875,
      "learning_rate": 9.996171689350444e-06,
      "loss": 1.18956242,
      "memory(GiB)": 102.54,
      "step": 4875,
      "train_speed(iter/s)": 1.144129
    },
    {
      "acc": 0.72305136,
      "epoch": 0.12379502790461694,
      "grad_norm": 3.453125,
      "learning_rate": 9.996130552442237e-06,
      "loss": 1.13564968,
      "memory(GiB)": 102.54,
      "step": 4880,
      "train_speed(iter/s)": 1.144318
    },
    {
      "acc": 0.7156383,
      "epoch": 0.123921867072552,
      "grad_norm": 4.03125,
      "learning_rate": 9.996089195781902e-06,
      "loss": 1.09372654,
      "memory(GiB)": 102.54,
      "step": 4885,
      "train_speed(iter/s)": 1.144367
    },
    {
      "acc": 0.70870705,
      "epoch": 0.12404870624048706,
      "grad_norm": 3.859375,
      "learning_rate": 9.996047619371256e-06,
      "loss": 1.1967802,
      "memory(GiB)": 102.54,
      "step": 4890,
      "train_speed(iter/s)": 1.144477
    },
    {
      "acc": 0.72023106,
      "epoch": 0.12417554540842211,
      "grad_norm": 4.3125,
      "learning_rate": 9.996005823212132e-06,
      "loss": 1.17186995,
      "memory(GiB)": 102.54,
      "step": 4895,
      "train_speed(iter/s)": 1.144648
    },
    {
      "acc": 0.71842847,
      "epoch": 0.12430238457635717,
      "grad_norm": 5.0625,
      "learning_rate": 9.995963807306368e-06,
      "loss": 1.15319052,
      "memory(GiB)": 102.54,
      "step": 4900,
      "train_speed(iter/s)": 1.144819
    },
    {
      "acc": 0.71710072,
      "epoch": 0.12442922374429223,
      "grad_norm": 3.453125,
      "learning_rate": 9.995921571655808e-06,
      "loss": 1.17947178,
      "memory(GiB)": 102.54,
      "step": 4905,
      "train_speed(iter/s)": 1.144938
    },
    {
      "acc": 0.70906415,
      "epoch": 0.12455606291222729,
      "grad_norm": 4.8125,
      "learning_rate": 9.995879116262312e-06,
      "loss": 1.22187757,
      "memory(GiB)": 102.54,
      "step": 4910,
      "train_speed(iter/s)": 1.145124
    },
    {
      "acc": 0.7353477,
      "epoch": 0.12468290208016235,
      "grad_norm": 3.53125,
      "learning_rate": 9.995836441127749e-06,
      "loss": 1.10397511,
      "memory(GiB)": 102.54,
      "step": 4915,
      "train_speed(iter/s)": 1.145239
    },
    {
      "acc": 0.72683392,
      "epoch": 0.1248097412480974,
      "grad_norm": 3.59375,
      "learning_rate": 9.995793546253993e-06,
      "loss": 1.11571674,
      "memory(GiB)": 102.54,
      "step": 4920,
      "train_speed(iter/s)": 1.145408
    },
    {
      "acc": 0.72069397,
      "epoch": 0.12493658041603246,
      "grad_norm": 4.0625,
      "learning_rate": 9.995750431642933e-06,
      "loss": 1.16858253,
      "memory(GiB)": 102.54,
      "step": 4925,
      "train_speed(iter/s)": 1.145588
    },
    {
      "acc": 0.72045603,
      "epoch": 0.12506341958396752,
      "grad_norm": 4.5,
      "learning_rate": 9.995707097296465e-06,
      "loss": 1.18591995,
      "memory(GiB)": 102.54,
      "step": 4930,
      "train_speed(iter/s)": 1.145774
    },
    {
      "acc": 0.71706648,
      "epoch": 0.1251902587519026,
      "grad_norm": 3.609375,
      "learning_rate": 9.995663543216493e-06,
      "loss": 1.20484467,
      "memory(GiB)": 102.54,
      "step": 4935,
      "train_speed(iter/s)": 1.145947
    },
    {
      "acc": 0.73032112,
      "epoch": 0.12531709791983764,
      "grad_norm": 3.59375,
      "learning_rate": 9.995619769404936e-06,
      "loss": 1.16843872,
      "memory(GiB)": 102.54,
      "step": 4940,
      "train_speed(iter/s)": 1.146114
    },
    {
      "acc": 0.70691528,
      "epoch": 0.1254439370877727,
      "grad_norm": 4.625,
      "learning_rate": 9.995575775863717e-06,
      "loss": 1.23536701,
      "memory(GiB)": 102.54,
      "step": 4945,
      "train_speed(iter/s)": 1.146266
    },
    {
      "acc": 0.72950873,
      "epoch": 0.12557077625570776,
      "grad_norm": 4.34375,
      "learning_rate": 9.995531562594773e-06,
      "loss": 1.16667976,
      "memory(GiB)": 102.54,
      "step": 4950,
      "train_speed(iter/s)": 1.146181
    },
    {
      "acc": 0.73130808,
      "epoch": 0.12569761542364283,
      "grad_norm": 4.21875,
      "learning_rate": 9.995487129600046e-06,
      "loss": 1.14292374,
      "memory(GiB)": 102.54,
      "step": 4955,
      "train_speed(iter/s)": 1.146275
    },
    {
      "acc": 0.72857356,
      "epoch": 0.12582445459157787,
      "grad_norm": 3.515625,
      "learning_rate": 9.995442476881491e-06,
      "loss": 1.14302778,
      "memory(GiB)": 102.54,
      "step": 4960,
      "train_speed(iter/s)": 1.146376
    },
    {
      "acc": 0.72272949,
      "epoch": 0.12595129375951294,
      "grad_norm": 3.28125,
      "learning_rate": 9.995397604441076e-06,
      "loss": 1.13861542,
      "memory(GiB)": 102.54,
      "step": 4965,
      "train_speed(iter/s)": 1.146527
    },
    {
      "acc": 0.72436547,
      "epoch": 0.126078132927448,
      "grad_norm": 4.03125,
      "learning_rate": 9.995352512280767e-06,
      "loss": 1.21687174,
      "memory(GiB)": 102.54,
      "step": 4970,
      "train_speed(iter/s)": 1.146569
    },
    {
      "acc": 0.72528105,
      "epoch": 0.12620497209538306,
      "grad_norm": 4.71875,
      "learning_rate": 9.995307200402555e-06,
      "loss": 1.17735806,
      "memory(GiB)": 102.54,
      "step": 4975,
      "train_speed(iter/s)": 1.146701
    },
    {
      "acc": 0.72181454,
      "epoch": 0.1263318112633181,
      "grad_norm": 3.984375,
      "learning_rate": 9.995261668808429e-06,
      "loss": 1.1178894,
      "memory(GiB)": 102.54,
      "step": 4980,
      "train_speed(iter/s)": 1.146775
    },
    {
      "acc": 0.73252296,
      "epoch": 0.12645865043125318,
      "grad_norm": 3.765625,
      "learning_rate": 9.995215917500395e-06,
      "loss": 1.13689766,
      "memory(GiB)": 102.54,
      "step": 4985,
      "train_speed(iter/s)": 1.146898
    },
    {
      "acc": 0.70271025,
      "epoch": 0.12658548959918822,
      "grad_norm": 3.53125,
      "learning_rate": 9.995169946480459e-06,
      "loss": 1.1830513,
      "memory(GiB)": 102.54,
      "step": 4990,
      "train_speed(iter/s)": 1.147038
    },
    {
      "acc": 0.71326389,
      "epoch": 0.1267123287671233,
      "grad_norm": 4.21875,
      "learning_rate": 9.99512375575065e-06,
      "loss": 1.16194878,
      "memory(GiB)": 102.54,
      "step": 4995,
      "train_speed(iter/s)": 1.147201
    },
    {
      "acc": 0.72145939,
      "epoch": 0.12683916793505834,
      "grad_norm": 4.15625,
      "learning_rate": 9.995077345312994e-06,
      "loss": 1.16318951,
      "memory(GiB)": 102.54,
      "step": 5000,
      "train_speed(iter/s)": 1.147377
    },
    {
      "epoch": 0.12683916793505834,
      "eval_acc": 0.7063436474772218,
      "eval_loss": 1.1507744789123535,
      "eval_runtime": 70.9494,
      "eval_samples_per_second": 89.782,
      "eval_steps_per_second": 22.453,
      "step": 5000
    },
    {
      "acc": 0.70748286,
      "epoch": 0.1269660071029934,
      "grad_norm": 4.65625,
      "learning_rate": 9.995030715169535e-06,
      "loss": 1.22778368,
      "memory(GiB)": 102.54,
      "step": 5005,
      "train_speed(iter/s)": 1.117693
    },
    {
      "acc": 0.70849228,
      "epoch": 0.12709284627092846,
      "grad_norm": 3.578125,
      "learning_rate": 9.994983865322327e-06,
      "loss": 1.25159616,
      "memory(GiB)": 102.54,
      "step": 5010,
      "train_speed(iter/s)": 1.117867
    },
    {
      "acc": 0.71676636,
      "epoch": 0.12721968543886353,
      "grad_norm": 4.625,
      "learning_rate": 9.994936795773424e-06,
      "loss": 1.19384356,
      "memory(GiB)": 102.54,
      "step": 5015,
      "train_speed(iter/s)": 1.117919
    },
    {
      "acc": 0.72171521,
      "epoch": 0.12734652460679857,
      "grad_norm": 3.125,
      "learning_rate": 9.994889506524903e-06,
      "loss": 1.17241411,
      "memory(GiB)": 102.54,
      "step": 5020,
      "train_speed(iter/s)": 1.118023
    },
    {
      "acc": 0.72899628,
      "epoch": 0.12747336377473364,
      "grad_norm": 4.09375,
      "learning_rate": 9.994841997578839e-06,
      "loss": 1.21122789,
      "memory(GiB)": 102.54,
      "step": 5025,
      "train_speed(iter/s)": 1.118179
    },
    {
      "acc": 0.72096138,
      "epoch": 0.1276002029426687,
      "grad_norm": 2.96875,
      "learning_rate": 9.994794268937325e-06,
      "loss": 1.20640678,
      "memory(GiB)": 102.54,
      "step": 5030,
      "train_speed(iter/s)": 1.118177
    },
    {
      "acc": 0.70785108,
      "epoch": 0.12772704211060376,
      "grad_norm": 5.3125,
      "learning_rate": 9.994746320602457e-06,
      "loss": 1.21918402,
      "memory(GiB)": 102.54,
      "step": 5035,
      "train_speed(iter/s)": 1.118409
    },
    {
      "acc": 0.71884937,
      "epoch": 0.1278538812785388,
      "grad_norm": 3.265625,
      "learning_rate": 9.994698152576347e-06,
      "loss": 1.21800413,
      "memory(GiB)": 102.54,
      "step": 5040,
      "train_speed(iter/s)": 1.118619
    },
    {
      "acc": 0.73097715,
      "epoch": 0.12798072044647388,
      "grad_norm": 4.1875,
      "learning_rate": 9.994649764861114e-06,
      "loss": 1.13911095,
      "memory(GiB)": 102.54,
      "step": 5045,
      "train_speed(iter/s)": 1.11886
    },
    {
      "acc": 0.71903896,
      "epoch": 0.12810755961440892,
      "grad_norm": 3.78125,
      "learning_rate": 9.994601157458882e-06,
      "loss": 1.15726299,
      "memory(GiB)": 102.54,
      "step": 5050,
      "train_speed(iter/s)": 1.119051
    },
    {
      "acc": 0.70163679,
      "epoch": 0.128234398782344,
      "grad_norm": 3.8125,
      "learning_rate": 9.994552330371792e-06,
      "loss": 1.23932056,
      "memory(GiB)": 102.54,
      "step": 5055,
      "train_speed(iter/s)": 1.119258
    },
    {
      "acc": 0.70560827,
      "epoch": 0.12836123795027904,
      "grad_norm": 3.125,
      "learning_rate": 9.994503283601993e-06,
      "loss": 1.18743553,
      "memory(GiB)": 102.54,
      "step": 5060,
      "train_speed(iter/s)": 1.119366
    },
    {
      "acc": 0.70687666,
      "epoch": 0.1284880771182141,
      "grad_norm": 3.328125,
      "learning_rate": 9.99445401715164e-06,
      "loss": 1.21093998,
      "memory(GiB)": 102.54,
      "step": 5065,
      "train_speed(iter/s)": 1.119459
    },
    {
      "acc": 0.71807671,
      "epoch": 0.12861491628614916,
      "grad_norm": 3.484375,
      "learning_rate": 9.994404531022901e-06,
      "loss": 1.176511,
      "memory(GiB)": 102.54,
      "step": 5070,
      "train_speed(iter/s)": 1.11959
    },
    {
      "acc": 0.73582163,
      "epoch": 0.12874175545408423,
      "grad_norm": 4.34375,
      "learning_rate": 9.994354825217954e-06,
      "loss": 1.12592316,
      "memory(GiB)": 102.54,
      "step": 5075,
      "train_speed(iter/s)": 1.119766
    },
    {
      "acc": 0.71744823,
      "epoch": 0.12886859462201927,
      "grad_norm": 4.1875,
      "learning_rate": 9.99430489973898e-06,
      "loss": 1.19510555,
      "memory(GiB)": 102.54,
      "step": 5080,
      "train_speed(iter/s)": 1.119927
    },
    {
      "acc": 0.70239649,
      "epoch": 0.12899543378995434,
      "grad_norm": 5.65625,
      "learning_rate": 9.994254754588182e-06,
      "loss": 1.24389687,
      "memory(GiB)": 102.54,
      "step": 5085,
      "train_speed(iter/s)": 1.120148
    },
    {
      "acc": 0.72347188,
      "epoch": 0.1291222729578894,
      "grad_norm": 3.265625,
      "learning_rate": 9.99420438976776e-06,
      "loss": 1.12455502,
      "memory(GiB)": 102.54,
      "step": 5090,
      "train_speed(iter/s)": 1.120336
    },
    {
      "acc": 0.71243186,
      "epoch": 0.12924911212582446,
      "grad_norm": 4.09375,
      "learning_rate": 9.994153805279932e-06,
      "loss": 1.18291464,
      "memory(GiB)": 102.54,
      "step": 5095,
      "train_speed(iter/s)": 1.120548
    },
    {
      "acc": 0.72562947,
      "epoch": 0.1293759512937595,
      "grad_norm": 3.828125,
      "learning_rate": 9.994103001126923e-06,
      "loss": 1.11301136,
      "memory(GiB)": 102.54,
      "step": 5100,
      "train_speed(iter/s)": 1.12071
    },
    {
      "acc": 0.72341504,
      "epoch": 0.12950279046169458,
      "grad_norm": 4.375,
      "learning_rate": 9.994051977310966e-06,
      "loss": 1.15825787,
      "memory(GiB)": 102.54,
      "step": 5105,
      "train_speed(iter/s)": 1.120944
    },
    {
      "acc": 0.6984684,
      "epoch": 0.12962962962962962,
      "grad_norm": 3.625,
      "learning_rate": 9.994000733834307e-06,
      "loss": 1.27817974,
      "memory(GiB)": 102.54,
      "step": 5110,
      "train_speed(iter/s)": 1.12111
    },
    {
      "acc": 0.72356453,
      "epoch": 0.1297564687975647,
      "grad_norm": 3.265625,
      "learning_rate": 9.993949270699197e-06,
      "loss": 1.16401443,
      "memory(GiB)": 102.54,
      "step": 5115,
      "train_speed(iter/s)": 1.121223
    },
    {
      "acc": 0.743082,
      "epoch": 0.12988330796549974,
      "grad_norm": 3.5,
      "learning_rate": 9.993897587907904e-06,
      "loss": 1.11216745,
      "memory(GiB)": 102.54,
      "step": 5120,
      "train_speed(iter/s)": 1.121441
    },
    {
      "acc": 0.71734276,
      "epoch": 0.1300101471334348,
      "grad_norm": 3.6875,
      "learning_rate": 9.993845685462697e-06,
      "loss": 1.17276478,
      "memory(GiB)": 102.54,
      "step": 5125,
      "train_speed(iter/s)": 1.121585
    },
    {
      "acc": 0.69734411,
      "epoch": 0.13013698630136986,
      "grad_norm": 4.28125,
      "learning_rate": 9.993793563365864e-06,
      "loss": 1.21764812,
      "memory(GiB)": 102.54,
      "step": 5130,
      "train_speed(iter/s)": 1.121759
    },
    {
      "acc": 0.71928844,
      "epoch": 0.13026382546930493,
      "grad_norm": 3.546875,
      "learning_rate": 9.993741221619692e-06,
      "loss": 1.1712965,
      "memory(GiB)": 102.54,
      "step": 5135,
      "train_speed(iter/s)": 1.121929
    },
    {
      "acc": 0.71331358,
      "epoch": 0.13039066463723997,
      "grad_norm": 3.71875,
      "learning_rate": 9.993688660226486e-06,
      "loss": 1.18117657,
      "memory(GiB)": 102.54,
      "step": 5140,
      "train_speed(iter/s)": 1.122004
    },
    {
      "acc": 0.74074297,
      "epoch": 0.13051750380517504,
      "grad_norm": 5.21875,
      "learning_rate": 9.993635879188557e-06,
      "loss": 1.11088285,
      "memory(GiB)": 102.54,
      "step": 5145,
      "train_speed(iter/s)": 1.121993
    },
    {
      "acc": 0.72156096,
      "epoch": 0.1306443429731101,
      "grad_norm": 4.28125,
      "learning_rate": 9.993582878508229e-06,
      "loss": 1.1621933,
      "memory(GiB)": 102.54,
      "step": 5150,
      "train_speed(iter/s)": 1.122159
    },
    {
      "acc": 0.70808082,
      "epoch": 0.13077118214104516,
      "grad_norm": 3.640625,
      "learning_rate": 9.993529658187829e-06,
      "loss": 1.20110979,
      "memory(GiB)": 102.54,
      "step": 5155,
      "train_speed(iter/s)": 1.122335
    },
    {
      "acc": 0.72163601,
      "epoch": 0.1308980213089802,
      "grad_norm": 3.921875,
      "learning_rate": 9.9934762182297e-06,
      "loss": 1.16998768,
      "memory(GiB)": 102.54,
      "step": 5160,
      "train_speed(iter/s)": 1.122521
    },
    {
      "acc": 0.7275176,
      "epoch": 0.13102486047691528,
      "grad_norm": 3.984375,
      "learning_rate": 9.993422558636194e-06,
      "loss": 1.14751492,
      "memory(GiB)": 102.54,
      "step": 5165,
      "train_speed(iter/s)": 1.122749
    },
    {
      "acc": 0.72138338,
      "epoch": 0.13115169964485032,
      "grad_norm": 3.359375,
      "learning_rate": 9.99336867940967e-06,
      "loss": 1.16937733,
      "memory(GiB)": 102.54,
      "step": 5170,
      "train_speed(iter/s)": 1.122796
    },
    {
      "acc": 0.72577004,
      "epoch": 0.1312785388127854,
      "grad_norm": 3.71875,
      "learning_rate": 9.993314580552497e-06,
      "loss": 1.13066282,
      "memory(GiB)": 102.54,
      "step": 5175,
      "train_speed(iter/s)": 1.122904
    },
    {
      "acc": 0.71969957,
      "epoch": 0.13140537798072044,
      "grad_norm": 4.78125,
      "learning_rate": 9.993260262067054e-06,
      "loss": 1.1449852,
      "memory(GiB)": 102.54,
      "step": 5180,
      "train_speed(iter/s)": 1.122958
    },
    {
      "acc": 0.70847316,
      "epoch": 0.1315322171486555,
      "grad_norm": 4.65625,
      "learning_rate": 9.993205723955734e-06,
      "loss": 1.20326052,
      "memory(GiB)": 102.54,
      "step": 5185,
      "train_speed(iter/s)": 1.123099
    },
    {
      "acc": 0.73169241,
      "epoch": 0.13165905631659056,
      "grad_norm": 4.90625,
      "learning_rate": 9.993150966220933e-06,
      "loss": 1.10567837,
      "memory(GiB)": 102.54,
      "step": 5190,
      "train_speed(iter/s)": 1.12323
    },
    {
      "acc": 0.7096468,
      "epoch": 0.13178589548452563,
      "grad_norm": 3.796875,
      "learning_rate": 9.993095988865057e-06,
      "loss": 1.18879938,
      "memory(GiB)": 102.54,
      "step": 5195,
      "train_speed(iter/s)": 1.123386
    },
    {
      "acc": 0.7120451,
      "epoch": 0.13191273465246067,
      "grad_norm": 3.40625,
      "learning_rate": 9.99304079189053e-06,
      "loss": 1.21830921,
      "memory(GiB)": 102.54,
      "step": 5200,
      "train_speed(iter/s)": 1.123545
    },
    {
      "acc": 0.7238101,
      "epoch": 0.13203957382039574,
      "grad_norm": 5.875,
      "learning_rate": 9.992985375299775e-06,
      "loss": 1.14933605,
      "memory(GiB)": 102.54,
      "step": 5205,
      "train_speed(iter/s)": 1.123554
    },
    {
      "acc": 0.71184196,
      "epoch": 0.1321664129883308,
      "grad_norm": 5.25,
      "learning_rate": 9.992929739095232e-06,
      "loss": 1.17125044,
      "memory(GiB)": 102.54,
      "step": 5210,
      "train_speed(iter/s)": 1.123744
    },
    {
      "acc": 0.71152301,
      "epoch": 0.13229325215626586,
      "grad_norm": 4.4375,
      "learning_rate": 9.992873883279345e-06,
      "loss": 1.21869736,
      "memory(GiB)": 102.54,
      "step": 5215,
      "train_speed(iter/s)": 1.123875
    },
    {
      "acc": 0.70504637,
      "epoch": 0.1324200913242009,
      "grad_norm": 3.15625,
      "learning_rate": 9.992817807854575e-06,
      "loss": 1.20076008,
      "memory(GiB)": 102.54,
      "step": 5220,
      "train_speed(iter/s)": 1.124061
    },
    {
      "acc": 0.72463546,
      "epoch": 0.13254693049213598,
      "grad_norm": 3.734375,
      "learning_rate": 9.992761512823386e-06,
      "loss": 1.18195477,
      "memory(GiB)": 102.54,
      "step": 5225,
      "train_speed(iter/s)": 1.124283
    },
    {
      "acc": 0.71714435,
      "epoch": 0.13267376966007102,
      "grad_norm": 4.46875,
      "learning_rate": 9.992704998188255e-06,
      "loss": 1.16014423,
      "memory(GiB)": 102.54,
      "step": 5230,
      "train_speed(iter/s)": 1.124375
    },
    {
      "acc": 0.69820194,
      "epoch": 0.1328006088280061,
      "grad_norm": 3.984375,
      "learning_rate": 9.992648263951668e-06,
      "loss": 1.24860353,
      "memory(GiB)": 102.54,
      "step": 5235,
      "train_speed(iter/s)": 1.124585
    },
    {
      "acc": 0.71754084,
      "epoch": 0.13292744799594114,
      "grad_norm": 3.65625,
      "learning_rate": 9.992591310116118e-06,
      "loss": 1.24080791,
      "memory(GiB)": 102.54,
      "step": 5240,
      "train_speed(iter/s)": 1.12476
    },
    {
      "acc": 0.7175868,
      "epoch": 0.1330542871638762,
      "grad_norm": 3.625,
      "learning_rate": 9.992534136684112e-06,
      "loss": 1.15656185,
      "memory(GiB)": 102.54,
      "step": 5245,
      "train_speed(iter/s)": 1.124919
    },
    {
      "acc": 0.7195334,
      "epoch": 0.13318112633181126,
      "grad_norm": 3.8125,
      "learning_rate": 9.992476743658165e-06,
      "loss": 1.16341867,
      "memory(GiB)": 102.54,
      "step": 5250,
      "train_speed(iter/s)": 1.124973
    },
    {
      "acc": 0.73141823,
      "epoch": 0.13330796549974633,
      "grad_norm": 3.3125,
      "learning_rate": 9.992419131040803e-06,
      "loss": 1.1118742,
      "memory(GiB)": 102.54,
      "step": 5255,
      "train_speed(iter/s)": 1.125058
    },
    {
      "acc": 0.7375999,
      "epoch": 0.13343480466768137,
      "grad_norm": 3.796875,
      "learning_rate": 9.992361298834555e-06,
      "loss": 1.09206581,
      "memory(GiB)": 102.54,
      "step": 5260,
      "train_speed(iter/s)": 1.125254
    },
    {
      "acc": 0.7180234,
      "epoch": 0.13356164383561644,
      "grad_norm": 4.0,
      "learning_rate": 9.99230324704197e-06,
      "loss": 1.20626345,
      "memory(GiB)": 102.54,
      "step": 5265,
      "train_speed(iter/s)": 1.125348
    },
    {
      "acc": 0.73029637,
      "epoch": 0.1336884830035515,
      "grad_norm": 4.46875,
      "learning_rate": 9.992244975665598e-06,
      "loss": 1.14522686,
      "memory(GiB)": 102.54,
      "step": 5270,
      "train_speed(iter/s)": 1.125484
    },
    {
      "acc": 0.72272396,
      "epoch": 0.13381532217148656,
      "grad_norm": 3.5,
      "learning_rate": 9.992186484708003e-06,
      "loss": 1.1896699,
      "memory(GiB)": 102.54,
      "step": 5275,
      "train_speed(iter/s)": 1.125673
    },
    {
      "acc": 0.72887678,
      "epoch": 0.1339421613394216,
      "grad_norm": 4.03125,
      "learning_rate": 9.992127774171759e-06,
      "loss": 1.12094383,
      "memory(GiB)": 102.54,
      "step": 5280,
      "train_speed(iter/s)": 1.125826
    },
    {
      "acc": 0.70720844,
      "epoch": 0.13406900050735668,
      "grad_norm": 4.0,
      "learning_rate": 9.992068844059446e-06,
      "loss": 1.2830904,
      "memory(GiB)": 102.54,
      "step": 5285,
      "train_speed(iter/s)": 1.126034
    },
    {
      "acc": 0.71451907,
      "epoch": 0.13419583967529172,
      "grad_norm": 4.84375,
      "learning_rate": 9.992009694373658e-06,
      "loss": 1.19913197,
      "memory(GiB)": 102.54,
      "step": 5290,
      "train_speed(iter/s)": 1.126163
    },
    {
      "acc": 0.72494812,
      "epoch": 0.1343226788432268,
      "grad_norm": 5.0,
      "learning_rate": 9.991950325116995e-06,
      "loss": 1.18667288,
      "memory(GiB)": 102.54,
      "step": 5295,
      "train_speed(iter/s)": 1.126284
    },
    {
      "acc": 0.71222963,
      "epoch": 0.13444951801116184,
      "grad_norm": 3.6875,
      "learning_rate": 9.99189073629207e-06,
      "loss": 1.16014671,
      "memory(GiB)": 102.54,
      "step": 5300,
      "train_speed(iter/s)": 1.126314
    },
    {
      "acc": 0.70481529,
      "epoch": 0.1345763571790969,
      "grad_norm": 5.125,
      "learning_rate": 9.991830927901505e-06,
      "loss": 1.25640926,
      "memory(GiB)": 102.54,
      "step": 5305,
      "train_speed(iter/s)": 1.126402
    },
    {
      "acc": 0.72178116,
      "epoch": 0.13470319634703196,
      "grad_norm": 3.65625,
      "learning_rate": 9.991770899947925e-06,
      "loss": 1.12713223,
      "memory(GiB)": 102.54,
      "step": 5310,
      "train_speed(iter/s)": 1.126568
    },
    {
      "acc": 0.71699419,
      "epoch": 0.13483003551496703,
      "grad_norm": 4.9375,
      "learning_rate": 9.991710652433977e-06,
      "loss": 1.17298136,
      "memory(GiB)": 102.54,
      "step": 5315,
      "train_speed(iter/s)": 1.126788
    },
    {
      "acc": 0.71472416,
      "epoch": 0.13495687468290207,
      "grad_norm": 3.734375,
      "learning_rate": 9.991650185362308e-06,
      "loss": 1.17688847,
      "memory(GiB)": 102.54,
      "step": 5320,
      "train_speed(iter/s)": 1.126961
    },
    {
      "acc": 0.71663423,
      "epoch": 0.13508371385083714,
      "grad_norm": 3.875,
      "learning_rate": 9.991589498735577e-06,
      "loss": 1.14859486,
      "memory(GiB)": 102.54,
      "step": 5325,
      "train_speed(iter/s)": 1.127121
    },
    {
      "acc": 0.72906933,
      "epoch": 0.1352105530187722,
      "grad_norm": 4.40625,
      "learning_rate": 9.991528592556454e-06,
      "loss": 1.12951584,
      "memory(GiB)": 102.54,
      "step": 5330,
      "train_speed(iter/s)": 1.127296
    },
    {
      "acc": 0.70292549,
      "epoch": 0.13533739218670726,
      "grad_norm": 4.4375,
      "learning_rate": 9.991467466827618e-06,
      "loss": 1.25244713,
      "memory(GiB)": 102.54,
      "step": 5335,
      "train_speed(iter/s)": 1.127443
    },
    {
      "acc": 0.71680627,
      "epoch": 0.1354642313546423,
      "grad_norm": 5.4375,
      "learning_rate": 9.99140612155176e-06,
      "loss": 1.19001408,
      "memory(GiB)": 102.54,
      "step": 5340,
      "train_speed(iter/s)": 1.127579
    },
    {
      "acc": 0.7147027,
      "epoch": 0.13559107052257738,
      "grad_norm": 4.15625,
      "learning_rate": 9.991344556731572e-06,
      "loss": 1.19892826,
      "memory(GiB)": 102.54,
      "step": 5345,
      "train_speed(iter/s)": 1.127796
    },
    {
      "acc": 0.73277197,
      "epoch": 0.13571790969051242,
      "grad_norm": 3.671875,
      "learning_rate": 9.991282772369766e-06,
      "loss": 1.13939342,
      "memory(GiB)": 102.54,
      "step": 5350,
      "train_speed(iter/s)": 1.127984
    },
    {
      "acc": 0.71882377,
      "epoch": 0.1358447488584475,
      "grad_norm": 4.40625,
      "learning_rate": 9.99122076846906e-06,
      "loss": 1.15696049,
      "memory(GiB)": 102.54,
      "step": 5355,
      "train_speed(iter/s)": 1.128173
    },
    {
      "acc": 0.72727575,
      "epoch": 0.13597158802638254,
      "grad_norm": 3.75,
      "learning_rate": 9.991158545032181e-06,
      "loss": 1.15864887,
      "memory(GiB)": 102.54,
      "step": 5360,
      "train_speed(iter/s)": 1.128396
    },
    {
      "acc": 0.73444276,
      "epoch": 0.1360984271943176,
      "grad_norm": 3.65625,
      "learning_rate": 9.991096102061865e-06,
      "loss": 1.13003025,
      "memory(GiB)": 102.54,
      "step": 5365,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.72400141,
      "epoch": 0.13622526636225266,
      "grad_norm": 4.65625,
      "learning_rate": 9.991033439560858e-06,
      "loss": 1.17656212,
      "memory(GiB)": 102.54,
      "step": 5370,
      "train_speed(iter/s)": 1.128805
    },
    {
      "acc": 0.70485182,
      "epoch": 0.13635210553018773,
      "grad_norm": 3.71875,
      "learning_rate": 9.990970557531918e-06,
      "loss": 1.25363512,
      "memory(GiB)": 102.54,
      "step": 5375,
      "train_speed(iter/s)": 1.128974
    },
    {
      "acc": 0.72651105,
      "epoch": 0.13647894469812277,
      "grad_norm": 4.03125,
      "learning_rate": 9.990907455977809e-06,
      "loss": 1.14980583,
      "memory(GiB)": 102.54,
      "step": 5380,
      "train_speed(iter/s)": 1.129103
    },
    {
      "acc": 0.71070595,
      "epoch": 0.13660578386605784,
      "grad_norm": 3.15625,
      "learning_rate": 9.990844134901308e-06,
      "loss": 1.23290157,
      "memory(GiB)": 102.54,
      "step": 5385,
      "train_speed(iter/s)": 1.129226
    },
    {
      "acc": 0.73101254,
      "epoch": 0.1367326230339929,
      "grad_norm": 3.578125,
      "learning_rate": 9.9907805943052e-06,
      "loss": 1.11718292,
      "memory(GiB)": 102.54,
      "step": 5390,
      "train_speed(iter/s)": 1.129291
    },
    {
      "acc": 0.71756415,
      "epoch": 0.13685946220192796,
      "grad_norm": 3.34375,
      "learning_rate": 9.990716834192278e-06,
      "loss": 1.11055021,
      "memory(GiB)": 102.54,
      "step": 5395,
      "train_speed(iter/s)": 1.129366
    },
    {
      "acc": 0.70729218,
      "epoch": 0.136986301369863,
      "grad_norm": 4.0,
      "learning_rate": 9.990652854565348e-06,
      "loss": 1.18378792,
      "memory(GiB)": 102.54,
      "step": 5400,
      "train_speed(iter/s)": 1.129531
    },
    {
      "acc": 0.71088448,
      "epoch": 0.13711314053779808,
      "grad_norm": 4.09375,
      "learning_rate": 9.990588655427225e-06,
      "loss": 1.24635458,
      "memory(GiB)": 102.54,
      "step": 5405,
      "train_speed(iter/s)": 1.129618
    },
    {
      "acc": 0.72300282,
      "epoch": 0.13723997970573312,
      "grad_norm": 4.1875,
      "learning_rate": 9.99052423678073e-06,
      "loss": 1.17175236,
      "memory(GiB)": 102.54,
      "step": 5410,
      "train_speed(iter/s)": 1.129803
    },
    {
      "acc": 0.72776232,
      "epoch": 0.1373668188736682,
      "grad_norm": 4.09375,
      "learning_rate": 9.990459598628697e-06,
      "loss": 1.11293468,
      "memory(GiB)": 102.54,
      "step": 5415,
      "train_speed(iter/s)": 1.13004
    },
    {
      "acc": 0.72138405,
      "epoch": 0.13749365804160324,
      "grad_norm": 3.234375,
      "learning_rate": 9.990394740973972e-06,
      "loss": 1.11910067,
      "memory(GiB)": 102.54,
      "step": 5420,
      "train_speed(iter/s)": 1.130033
    },
    {
      "acc": 0.72598448,
      "epoch": 0.1376204972095383,
      "grad_norm": 4.0,
      "learning_rate": 9.990329663819405e-06,
      "loss": 1.20795288,
      "memory(GiB)": 102.54,
      "step": 5425,
      "train_speed(iter/s)": 1.1302
    },
    {
      "acc": 0.72514839,
      "epoch": 0.13774733637747336,
      "grad_norm": 3.890625,
      "learning_rate": 9.99026436716786e-06,
      "loss": 1.12984486,
      "memory(GiB)": 102.54,
      "step": 5430,
      "train_speed(iter/s)": 1.130294
    },
    {
      "acc": 0.71695013,
      "epoch": 0.13787417554540843,
      "grad_norm": 2.984375,
      "learning_rate": 9.990198851022207e-06,
      "loss": 1.17528286,
      "memory(GiB)": 102.54,
      "step": 5435,
      "train_speed(iter/s)": 1.130478
    },
    {
      "acc": 0.72036104,
      "epoch": 0.13800101471334347,
      "grad_norm": 3.9375,
      "learning_rate": 9.99013311538533e-06,
      "loss": 1.15382462,
      "memory(GiB)": 102.54,
      "step": 5440,
      "train_speed(iter/s)": 1.130651
    },
    {
      "acc": 0.72491646,
      "epoch": 0.13812785388127855,
      "grad_norm": 3.953125,
      "learning_rate": 9.99006716026012e-06,
      "loss": 1.19378719,
      "memory(GiB)": 102.54,
      "step": 5445,
      "train_speed(iter/s)": 1.13067
    },
    {
      "acc": 0.71572809,
      "epoch": 0.1382546930492136,
      "grad_norm": 3.390625,
      "learning_rate": 9.990000985649475e-06,
      "loss": 1.20648394,
      "memory(GiB)": 102.54,
      "step": 5450,
      "train_speed(iter/s)": 1.130799
    },
    {
      "acc": 0.71796103,
      "epoch": 0.13838153221714866,
      "grad_norm": 4.125,
      "learning_rate": 9.989934591556308e-06,
      "loss": 1.16491909,
      "memory(GiB)": 102.54,
      "step": 5455,
      "train_speed(iter/s)": 1.130989
    },
    {
      "acc": 0.70482731,
      "epoch": 0.1385083713850837,
      "grad_norm": 4.3125,
      "learning_rate": 9.98986797798354e-06,
      "loss": 1.2472703,
      "memory(GiB)": 102.54,
      "step": 5460,
      "train_speed(iter/s)": 1.131091
    },
    {
      "acc": 0.72589469,
      "epoch": 0.13863521055301878,
      "grad_norm": 4.1875,
      "learning_rate": 9.989801144934102e-06,
      "loss": 1.14667969,
      "memory(GiB)": 102.54,
      "step": 5465,
      "train_speed(iter/s)": 1.131211
    },
    {
      "acc": 0.72741246,
      "epoch": 0.13876204972095382,
      "grad_norm": 4.03125,
      "learning_rate": 9.98973409241093e-06,
      "loss": 1.17450399,
      "memory(GiB)": 102.54,
      "step": 5470,
      "train_speed(iter/s)": 1.13141
    },
    {
      "acc": 0.71147118,
      "epoch": 0.1388888888888889,
      "grad_norm": 3.578125,
      "learning_rate": 9.989666820416974e-06,
      "loss": 1.20759497,
      "memory(GiB)": 102.54,
      "step": 5475,
      "train_speed(iter/s)": 1.131605
    },
    {
      "acc": 0.71670008,
      "epoch": 0.13901572805682394,
      "grad_norm": 5.21875,
      "learning_rate": 9.989599328955195e-06,
      "loss": 1.20672913,
      "memory(GiB)": 102.54,
      "step": 5480,
      "train_speed(iter/s)": 1.131706
    },
    {
      "acc": 0.72461739,
      "epoch": 0.139142567224759,
      "grad_norm": 3.140625,
      "learning_rate": 9.98953161802856e-06,
      "loss": 1.15167923,
      "memory(GiB)": 102.54,
      "step": 5485,
      "train_speed(iter/s)": 1.131794
    },
    {
      "acc": 0.74140358,
      "epoch": 0.13926940639269406,
      "grad_norm": 4.15625,
      "learning_rate": 9.98946368764005e-06,
      "loss": 1.09290733,
      "memory(GiB)": 102.54,
      "step": 5490,
      "train_speed(iter/s)": 1.131898
    },
    {
      "acc": 0.73685226,
      "epoch": 0.13939624556062913,
      "grad_norm": 4.4375,
      "learning_rate": 9.989395537792647e-06,
      "loss": 1.13717709,
      "memory(GiB)": 102.54,
      "step": 5495,
      "train_speed(iter/s)": 1.132088
    },
    {
      "acc": 0.71048369,
      "epoch": 0.13952308472856417,
      "grad_norm": 4.0625,
      "learning_rate": 9.989327168489356e-06,
      "loss": 1.19024296,
      "memory(GiB)": 102.54,
      "step": 5500,
      "train_speed(iter/s)": 1.132142
    },
    {
      "acc": 0.7199585,
      "epoch": 0.13964992389649925,
      "grad_norm": 3.4375,
      "learning_rate": 9.989258579733179e-06,
      "loss": 1.19099751,
      "memory(GiB)": 102.54,
      "step": 5505,
      "train_speed(iter/s)": 1.132227
    },
    {
      "acc": 0.71897879,
      "epoch": 0.1397767630644343,
      "grad_norm": 3.75,
      "learning_rate": 9.989189771527133e-06,
      "loss": 1.14693785,
      "memory(GiB)": 102.54,
      "step": 5510,
      "train_speed(iter/s)": 1.132346
    },
    {
      "acc": 0.72057686,
      "epoch": 0.13990360223236936,
      "grad_norm": 3.640625,
      "learning_rate": 9.989120743874248e-06,
      "loss": 1.1830966,
      "memory(GiB)": 102.54,
      "step": 5515,
      "train_speed(iter/s)": 1.132493
    },
    {
      "acc": 0.71380534,
      "epoch": 0.1400304414003044,
      "grad_norm": 5.6875,
      "learning_rate": 9.989051496777556e-06,
      "loss": 1.25213709,
      "memory(GiB)": 102.54,
      "step": 5520,
      "train_speed(iter/s)": 1.132718
    },
    {
      "acc": 0.70881705,
      "epoch": 0.14015728056823948,
      "grad_norm": 3.890625,
      "learning_rate": 9.988982030240104e-06,
      "loss": 1.21933832,
      "memory(GiB)": 102.54,
      "step": 5525,
      "train_speed(iter/s)": 1.132757
    },
    {
      "acc": 0.71137557,
      "epoch": 0.14028411973617452,
      "grad_norm": 4.40625,
      "learning_rate": 9.988912344264949e-06,
      "loss": 1.213134,
      "memory(GiB)": 102.54,
      "step": 5530,
      "train_speed(iter/s)": 1.132925
    },
    {
      "acc": 0.71931305,
      "epoch": 0.1404109589041096,
      "grad_norm": 3.375,
      "learning_rate": 9.988842438855156e-06,
      "loss": 1.11887703,
      "memory(GiB)": 102.54,
      "step": 5535,
      "train_speed(iter/s)": 1.13306
    },
    {
      "acc": 0.71597528,
      "epoch": 0.14053779807204464,
      "grad_norm": 4.34375,
      "learning_rate": 9.988772314013799e-06,
      "loss": 1.17964592,
      "memory(GiB)": 102.54,
      "step": 5540,
      "train_speed(iter/s)": 1.133144
    },
    {
      "acc": 0.72130938,
      "epoch": 0.1406646372399797,
      "grad_norm": 3.765625,
      "learning_rate": 9.988701969743961e-06,
      "loss": 1.17184439,
      "memory(GiB)": 102.54,
      "step": 5545,
      "train_speed(iter/s)": 1.133345
    },
    {
      "acc": 0.71625757,
      "epoch": 0.14079147640791476,
      "grad_norm": 2.953125,
      "learning_rate": 9.98863140604874e-06,
      "loss": 1.16777725,
      "memory(GiB)": 102.54,
      "step": 5550,
      "train_speed(iter/s)": 1.133524
    },
    {
      "acc": 0.72261591,
      "epoch": 0.14091831557584983,
      "grad_norm": 3.421875,
      "learning_rate": 9.988560622931233e-06,
      "loss": 1.1597949,
      "memory(GiB)": 102.54,
      "step": 5555,
      "train_speed(iter/s)": 1.133642
    },
    {
      "acc": 0.73971291,
      "epoch": 0.14104515474378487,
      "grad_norm": 3.421875,
      "learning_rate": 9.988489620394562e-06,
      "loss": 1.14294367,
      "memory(GiB)": 102.54,
      "step": 5560,
      "train_speed(iter/s)": 1.133792
    },
    {
      "acc": 0.735989,
      "epoch": 0.14117199391171995,
      "grad_norm": 3.515625,
      "learning_rate": 9.988418398441842e-06,
      "loss": 1.10490417,
      "memory(GiB)": 102.54,
      "step": 5565,
      "train_speed(iter/s)": 1.134019
    },
    {
      "acc": 0.70692854,
      "epoch": 0.141298833079655,
      "grad_norm": 4.1875,
      "learning_rate": 9.98834695707621e-06,
      "loss": 1.25937519,
      "memory(GiB)": 102.54,
      "step": 5570,
      "train_speed(iter/s)": 1.134222
    },
    {
      "acc": 0.71464152,
      "epoch": 0.14142567224759006,
      "grad_norm": 3.21875,
      "learning_rate": 9.98827529630081e-06,
      "loss": 1.18502874,
      "memory(GiB)": 102.54,
      "step": 5575,
      "train_speed(iter/s)": 1.134432
    },
    {
      "acc": 0.72586894,
      "epoch": 0.1415525114155251,
      "grad_norm": 3.5625,
      "learning_rate": 9.988203416118788e-06,
      "loss": 1.1050621,
      "memory(GiB)": 102.54,
      "step": 5580,
      "train_speed(iter/s)": 1.13455
    },
    {
      "acc": 0.7249238,
      "epoch": 0.14167935058346018,
      "grad_norm": 3.765625,
      "learning_rate": 9.98813131653331e-06,
      "loss": 1.15428963,
      "memory(GiB)": 102.54,
      "step": 5585,
      "train_speed(iter/s)": 1.134761
    },
    {
      "acc": 0.70981936,
      "epoch": 0.14180618975139522,
      "grad_norm": 3.65625,
      "learning_rate": 9.988058997547548e-06,
      "loss": 1.17106266,
      "memory(GiB)": 102.54,
      "step": 5590,
      "train_speed(iter/s)": 1.134783
    },
    {
      "acc": 0.70987015,
      "epoch": 0.1419330289193303,
      "grad_norm": 5.8125,
      "learning_rate": 9.987986459164678e-06,
      "loss": 1.24592323,
      "memory(GiB)": 102.54,
      "step": 5595,
      "train_speed(iter/s)": 1.134989
    },
    {
      "acc": 0.7172543,
      "epoch": 0.14205986808726534,
      "grad_norm": 4.5,
      "learning_rate": 9.987913701387897e-06,
      "loss": 1.18471394,
      "memory(GiB)": 102.54,
      "step": 5600,
      "train_speed(iter/s)": 1.135155
    },
    {
      "acc": 0.71161323,
      "epoch": 0.1421867072552004,
      "grad_norm": 3.375,
      "learning_rate": 9.9878407242204e-06,
      "loss": 1.20144567,
      "memory(GiB)": 102.54,
      "step": 5605,
      "train_speed(iter/s)": 1.135314
    },
    {
      "acc": 0.71835632,
      "epoch": 0.14231354642313546,
      "grad_norm": 4.28125,
      "learning_rate": 9.9877675276654e-06,
      "loss": 1.14334087,
      "memory(GiB)": 102.54,
      "step": 5610,
      "train_speed(iter/s)": 1.135387
    },
    {
      "acc": 0.72106943,
      "epoch": 0.14244038559107053,
      "grad_norm": 3.390625,
      "learning_rate": 9.987694111726114e-06,
      "loss": 1.14950333,
      "memory(GiB)": 102.54,
      "step": 5615,
      "train_speed(iter/s)": 1.13554
    },
    {
      "acc": 0.73206358,
      "epoch": 0.14256722475900557,
      "grad_norm": 3.375,
      "learning_rate": 9.987620476405774e-06,
      "loss": 1.1442359,
      "memory(GiB)": 102.54,
      "step": 5620,
      "train_speed(iter/s)": 1.1357
    },
    {
      "acc": 0.72717066,
      "epoch": 0.14269406392694065,
      "grad_norm": 3.59375,
      "learning_rate": 9.987546621707616e-06,
      "loss": 1.14007931,
      "memory(GiB)": 102.54,
      "step": 5625,
      "train_speed(iter/s)": 1.135805
    },
    {
      "acc": 0.71327839,
      "epoch": 0.1428209030948757,
      "grad_norm": 4.0,
      "learning_rate": 9.98747254763489e-06,
      "loss": 1.17967587,
      "memory(GiB)": 102.54,
      "step": 5630,
      "train_speed(iter/s)": 1.136022
    },
    {
      "acc": 0.71458602,
      "epoch": 0.14294774226281076,
      "grad_norm": 4.125,
      "learning_rate": 9.987398254190855e-06,
      "loss": 1.20940971,
      "memory(GiB)": 102.54,
      "step": 5635,
      "train_speed(iter/s)": 1.136141
    },
    {
      "acc": 0.72193117,
      "epoch": 0.1430745814307458,
      "grad_norm": 3.875,
      "learning_rate": 9.987323741378777e-06,
      "loss": 1.20235348,
      "memory(GiB)": 102.54,
      "step": 5640,
      "train_speed(iter/s)": 1.136318
    },
    {
      "acc": 0.73686514,
      "epoch": 0.14320142059868088,
      "grad_norm": 4.25,
      "learning_rate": 9.987249009201934e-06,
      "loss": 1.11214638,
      "memory(GiB)": 102.54,
      "step": 5645,
      "train_speed(iter/s)": 1.136475
    },
    {
      "acc": 0.72735424,
      "epoch": 0.14332825976661592,
      "grad_norm": 9.5,
      "learning_rate": 9.987174057663613e-06,
      "loss": 1.13626099,
      "memory(GiB)": 102.54,
      "step": 5650,
      "train_speed(iter/s)": 1.136632
    },
    {
      "acc": 0.7194427,
      "epoch": 0.143455098934551,
      "grad_norm": 4.5625,
      "learning_rate": 9.987098886767111e-06,
      "loss": 1.17789097,
      "memory(GiB)": 102.54,
      "step": 5655,
      "train_speed(iter/s)": 1.136808
    },
    {
      "acc": 0.70476379,
      "epoch": 0.14358193810248604,
      "grad_norm": 3.84375,
      "learning_rate": 9.987023496515734e-06,
      "loss": 1.23276997,
      "memory(GiB)": 102.54,
      "step": 5660,
      "train_speed(iter/s)": 1.136812
    },
    {
      "acc": 0.72320528,
      "epoch": 0.1437087772704211,
      "grad_norm": 5.1875,
      "learning_rate": 9.9869478869128e-06,
      "loss": 1.17818251,
      "memory(GiB)": 102.54,
      "step": 5665,
      "train_speed(iter/s)": 1.137005
    },
    {
      "acc": 0.71360483,
      "epoch": 0.14383561643835616,
      "grad_norm": 3.734375,
      "learning_rate": 9.98687205796163e-06,
      "loss": 1.22261715,
      "memory(GiB)": 102.54,
      "step": 5670,
      "train_speed(iter/s)": 1.136825
    },
    {
      "acc": 0.72180529,
      "epoch": 0.14396245560629123,
      "grad_norm": 4.09375,
      "learning_rate": 9.986796009665562e-06,
      "loss": 1.11938953,
      "memory(GiB)": 102.54,
      "step": 5675,
      "train_speed(iter/s)": 1.136993
    },
    {
      "acc": 0.72456713,
      "epoch": 0.14408929477422627,
      "grad_norm": 3.125,
      "learning_rate": 9.986719742027944e-06,
      "loss": 1.10446463,
      "memory(GiB)": 102.54,
      "step": 5680,
      "train_speed(iter/s)": 1.137173
    },
    {
      "acc": 0.72866192,
      "epoch": 0.14421613394216135,
      "grad_norm": 4.84375,
      "learning_rate": 9.986643255052125e-06,
      "loss": 1.14626818,
      "memory(GiB)": 102.54,
      "step": 5685,
      "train_speed(iter/s)": 1.137371
    },
    {
      "acc": 0.71348314,
      "epoch": 0.1443429731100964,
      "grad_norm": 3.359375,
      "learning_rate": 9.986566548741473e-06,
      "loss": 1.14208021,
      "memory(GiB)": 102.54,
      "step": 5690,
      "train_speed(iter/s)": 1.137569
    },
    {
      "acc": 0.72760644,
      "epoch": 0.14446981227803146,
      "grad_norm": 3.734375,
      "learning_rate": 9.98648962309936e-06,
      "loss": 1.15842237,
      "memory(GiB)": 102.54,
      "step": 5695,
      "train_speed(iter/s)": 1.137555
    },
    {
      "acc": 0.72817879,
      "epoch": 0.1445966514459665,
      "grad_norm": 4.21875,
      "learning_rate": 9.986412478129171e-06,
      "loss": 1.08876991,
      "memory(GiB)": 102.54,
      "step": 5700,
      "train_speed(iter/s)": 1.137699
    },
    {
      "acc": 0.72719994,
      "epoch": 0.14472349061390158,
      "grad_norm": 5.09375,
      "learning_rate": 9.9863351138343e-06,
      "loss": 1.14237995,
      "memory(GiB)": 102.54,
      "step": 5705,
      "train_speed(iter/s)": 1.137824
    },
    {
      "acc": 0.73023801,
      "epoch": 0.14485032978183662,
      "grad_norm": 3.859375,
      "learning_rate": 9.986257530218146e-06,
      "loss": 1.11479607,
      "memory(GiB)": 102.54,
      "step": 5710,
      "train_speed(iter/s)": 1.138006
    },
    {
      "acc": 0.72020793,
      "epoch": 0.1449771689497717,
      "grad_norm": 3.640625,
      "learning_rate": 9.986179727284124e-06,
      "loss": 1.15383358,
      "memory(GiB)": 102.54,
      "step": 5715,
      "train_speed(iter/s)": 1.138184
    },
    {
      "acc": 0.70230932,
      "epoch": 0.14510400811770674,
      "grad_norm": 5.125,
      "learning_rate": 9.986101705035656e-06,
      "loss": 1.21426029,
      "memory(GiB)": 102.54,
      "step": 5720,
      "train_speed(iter/s)": 1.138185
    },
    {
      "acc": 0.71431961,
      "epoch": 0.1452308472856418,
      "grad_norm": 3.8125,
      "learning_rate": 9.986023463476175e-06,
      "loss": 1.21940022,
      "memory(GiB)": 102.54,
      "step": 5725,
      "train_speed(iter/s)": 1.138191
    },
    {
      "acc": 0.7196876,
      "epoch": 0.14535768645357686,
      "grad_norm": 3.8125,
      "learning_rate": 9.985945002609119e-06,
      "loss": 1.16735744,
      "memory(GiB)": 102.54,
      "step": 5730,
      "train_speed(iter/s)": 1.13834
    },
    {
      "acc": 0.72003207,
      "epoch": 0.14548452562151193,
      "grad_norm": 4.8125,
      "learning_rate": 9.985866322437942e-06,
      "loss": 1.22761497,
      "memory(GiB)": 102.54,
      "step": 5735,
      "train_speed(iter/s)": 1.138494
    },
    {
      "acc": 0.72774453,
      "epoch": 0.14561136478944697,
      "grad_norm": 4.46875,
      "learning_rate": 9.985787422966105e-06,
      "loss": 1.16087894,
      "memory(GiB)": 102.54,
      "step": 5740,
      "train_speed(iter/s)": 1.138568
    },
    {
      "acc": 0.7265799,
      "epoch": 0.14573820395738205,
      "grad_norm": 4.6875,
      "learning_rate": 9.985708304197075e-06,
      "loss": 1.24788399,
      "memory(GiB)": 102.54,
      "step": 5745,
      "train_speed(iter/s)": 1.138717
    },
    {
      "acc": 0.72366486,
      "epoch": 0.1458650431253171,
      "grad_norm": 3.484375,
      "learning_rate": 9.985628966134336e-06,
      "loss": 1.1758297,
      "memory(GiB)": 102.54,
      "step": 5750,
      "train_speed(iter/s)": 1.138939
    },
    {
      "acc": 0.72094126,
      "epoch": 0.14599188229325216,
      "grad_norm": 4.625,
      "learning_rate": 9.985549408781377e-06,
      "loss": 1.15329428,
      "memory(GiB)": 102.54,
      "step": 5755,
      "train_speed(iter/s)": 1.138923
    },
    {
      "acc": 0.71267967,
      "epoch": 0.1461187214611872,
      "grad_norm": 3.515625,
      "learning_rate": 9.985469632141693e-06,
      "loss": 1.21316824,
      "memory(GiB)": 102.54,
      "step": 5760,
      "train_speed(iter/s)": 1.139054
    },
    {
      "acc": 0.71088176,
      "epoch": 0.14624556062912228,
      "grad_norm": 3.5,
      "learning_rate": 9.985389636218797e-06,
      "loss": 1.18488655,
      "memory(GiB)": 102.54,
      "step": 5765,
      "train_speed(iter/s)": 1.139175
    },
    {
      "acc": 0.72013326,
      "epoch": 0.14637239979705732,
      "grad_norm": 4.15625,
      "learning_rate": 9.985309421016207e-06,
      "loss": 1.17357931,
      "memory(GiB)": 102.54,
      "step": 5770,
      "train_speed(iter/s)": 1.139343
    },
    {
      "acc": 0.7325634,
      "epoch": 0.1464992389649924,
      "grad_norm": 3.859375,
      "learning_rate": 9.985228986537451e-06,
      "loss": 1.16114616,
      "memory(GiB)": 102.54,
      "step": 5775,
      "train_speed(iter/s)": 1.139523
    },
    {
      "acc": 0.72283068,
      "epoch": 0.14662607813292744,
      "grad_norm": 3.671875,
      "learning_rate": 9.985148332786068e-06,
      "loss": 1.12791815,
      "memory(GiB)": 102.54,
      "step": 5780,
      "train_speed(iter/s)": 1.139675
    },
    {
      "acc": 0.73533554,
      "epoch": 0.1467529173008625,
      "grad_norm": 4.21875,
      "learning_rate": 9.985067459765603e-06,
      "loss": 1.16038857,
      "memory(GiB)": 102.54,
      "step": 5785,
      "train_speed(iter/s)": 1.13984
    },
    {
      "acc": 0.72495999,
      "epoch": 0.14687975646879756,
      "grad_norm": 3.9375,
      "learning_rate": 9.984986367479615e-06,
      "loss": 1.18372164,
      "memory(GiB)": 102.54,
      "step": 5790,
      "train_speed(iter/s)": 1.13992
    },
    {
      "acc": 0.72372508,
      "epoch": 0.14700659563673263,
      "grad_norm": 3.875,
      "learning_rate": 9.984905055931668e-06,
      "loss": 1.14998398,
      "memory(GiB)": 102.54,
      "step": 5795,
      "train_speed(iter/s)": 1.140125
    },
    {
      "acc": 0.69205141,
      "epoch": 0.14713343480466767,
      "grad_norm": 3.890625,
      "learning_rate": 9.984823525125342e-06,
      "loss": 1.2278904,
      "memory(GiB)": 102.54,
      "step": 5800,
      "train_speed(iter/s)": 1.140342
    },
    {
      "acc": 0.71185613,
      "epoch": 0.14726027397260275,
      "grad_norm": 3.546875,
      "learning_rate": 9.984741775064222e-06,
      "loss": 1.19407349,
      "memory(GiB)": 102.54,
      "step": 5805,
      "train_speed(iter/s)": 1.140531
    },
    {
      "acc": 0.70591097,
      "epoch": 0.1473871131405378,
      "grad_norm": 3.359375,
      "learning_rate": 9.984659805751904e-06,
      "loss": 1.23380375,
      "memory(GiB)": 102.54,
      "step": 5810,
      "train_speed(iter/s)": 1.140673
    },
    {
      "acc": 0.72613425,
      "epoch": 0.14751395230847286,
      "grad_norm": 3.359375,
      "learning_rate": 9.984577617191993e-06,
      "loss": 1.16117506,
      "memory(GiB)": 102.54,
      "step": 5815,
      "train_speed(iter/s)": 1.140786
    },
    {
      "acc": 0.71025672,
      "epoch": 0.1476407914764079,
      "grad_norm": 4.09375,
      "learning_rate": 9.984495209388102e-06,
      "loss": 1.21913109,
      "memory(GiB)": 102.54,
      "step": 5820,
      "train_speed(iter/s)": 1.140993
    },
    {
      "acc": 0.7085484,
      "epoch": 0.14776763064434298,
      "grad_norm": 4.53125,
      "learning_rate": 9.984412582343859e-06,
      "loss": 1.21778984,
      "memory(GiB)": 102.54,
      "step": 5825,
      "train_speed(iter/s)": 1.141155
    },
    {
      "acc": 0.7191154,
      "epoch": 0.14789446981227802,
      "grad_norm": 4.0625,
      "learning_rate": 9.984329736062896e-06,
      "loss": 1.11837769,
      "memory(GiB)": 102.54,
      "step": 5830,
      "train_speed(iter/s)": 1.14133
    },
    {
      "acc": 0.70751371,
      "epoch": 0.1480213089802131,
      "grad_norm": 3.734375,
      "learning_rate": 9.984246670548858e-06,
      "loss": 1.19753304,
      "memory(GiB)": 102.54,
      "step": 5835,
      "train_speed(iter/s)": 1.141459
    },
    {
      "acc": 0.72445879,
      "epoch": 0.14814814814814814,
      "grad_norm": 3.640625,
      "learning_rate": 9.984163385805398e-06,
      "loss": 1.20593739,
      "memory(GiB)": 102.54,
      "step": 5840,
      "train_speed(iter/s)": 1.14159
    },
    {
      "acc": 0.72632942,
      "epoch": 0.1482749873160832,
      "grad_norm": 4.84375,
      "learning_rate": 9.984079881836182e-06,
      "loss": 1.19000072,
      "memory(GiB)": 102.54,
      "step": 5845,
      "train_speed(iter/s)": 1.141807
    },
    {
      "acc": 0.71798744,
      "epoch": 0.14840182648401826,
      "grad_norm": 4.1875,
      "learning_rate": 9.983996158644877e-06,
      "loss": 1.15155144,
      "memory(GiB)": 102.54,
      "step": 5850,
      "train_speed(iter/s)": 1.141951
    },
    {
      "acc": 0.728229,
      "epoch": 0.14852866565195333,
      "grad_norm": 3.125,
      "learning_rate": 9.983912216235172e-06,
      "loss": 1.08936682,
      "memory(GiB)": 102.54,
      "step": 5855,
      "train_speed(iter/s)": 1.1421
    },
    {
      "acc": 0.72169342,
      "epoch": 0.14865550481988837,
      "grad_norm": 5.25,
      "learning_rate": 9.983828054610754e-06,
      "loss": 1.18682861,
      "memory(GiB)": 102.54,
      "step": 5860,
      "train_speed(iter/s)": 1.142199
    },
    {
      "acc": 0.72373986,
      "epoch": 0.14878234398782345,
      "grad_norm": 3.875,
      "learning_rate": 9.983743673775328e-06,
      "loss": 1.20092497,
      "memory(GiB)": 102.54,
      "step": 5865,
      "train_speed(iter/s)": 1.142241
    },
    {
      "acc": 0.72786856,
      "epoch": 0.1489091831557585,
      "grad_norm": 4.4375,
      "learning_rate": 9.983659073732604e-06,
      "loss": 1.14686871,
      "memory(GiB)": 102.54,
      "step": 5870,
      "train_speed(iter/s)": 1.142478
    },
    {
      "acc": 0.71655769,
      "epoch": 0.14903602232369356,
      "grad_norm": 4.84375,
      "learning_rate": 9.983574254486303e-06,
      "loss": 1.18490143,
      "memory(GiB)": 102.54,
      "step": 5875,
      "train_speed(iter/s)": 1.142637
    },
    {
      "acc": 0.73087978,
      "epoch": 0.1491628614916286,
      "grad_norm": 3.1875,
      "learning_rate": 9.983489216040158e-06,
      "loss": 1.14867344,
      "memory(GiB)": 102.54,
      "step": 5880,
      "train_speed(iter/s)": 1.142776
    },
    {
      "acc": 0.7338109,
      "epoch": 0.14928970065956368,
      "grad_norm": 3.265625,
      "learning_rate": 9.983403958397907e-06,
      "loss": 1.14935646,
      "memory(GiB)": 102.54,
      "step": 5885,
      "train_speed(iter/s)": 1.142997
    },
    {
      "acc": 0.71625857,
      "epoch": 0.14941653982749872,
      "grad_norm": 3.9375,
      "learning_rate": 9.9833184815633e-06,
      "loss": 1.32658873,
      "memory(GiB)": 102.54,
      "step": 5890,
      "train_speed(iter/s)": 1.14315
    },
    {
      "acc": 0.71268296,
      "epoch": 0.1495433789954338,
      "grad_norm": 3.703125,
      "learning_rate": 9.983232785540097e-06,
      "loss": 1.24086294,
      "memory(GiB)": 102.54,
      "step": 5895,
      "train_speed(iter/s)": 1.143207
    },
    {
      "acc": 0.70942945,
      "epoch": 0.14967021816336884,
      "grad_norm": 4.1875,
      "learning_rate": 9.983146870332068e-06,
      "loss": 1.17605209,
      "memory(GiB)": 102.54,
      "step": 5900,
      "train_speed(iter/s)": 1.143355
    },
    {
      "acc": 0.71876497,
      "epoch": 0.1497970573313039,
      "grad_norm": 6.65625,
      "learning_rate": 9.98306073594299e-06,
      "loss": 1.206077,
      "memory(GiB)": 102.54,
      "step": 5905,
      "train_speed(iter/s)": 1.143536
    },
    {
      "acc": 0.72977667,
      "epoch": 0.14992389649923896,
      "grad_norm": 4.21875,
      "learning_rate": 9.982974382376656e-06,
      "loss": 1.12920218,
      "memory(GiB)": 102.54,
      "step": 5910,
      "train_speed(iter/s)": 1.143671
    },
    {
      "acc": 0.72954636,
      "epoch": 0.15005073566717403,
      "grad_norm": 3.90625,
      "learning_rate": 9.98288780963686e-06,
      "loss": 1.1516613,
      "memory(GiB)": 102.54,
      "step": 5915,
      "train_speed(iter/s)": 1.143733
    },
    {
      "acc": 0.7189394,
      "epoch": 0.15017757483510907,
      "grad_norm": 3.15625,
      "learning_rate": 9.98280101772741e-06,
      "loss": 1.16616268,
      "memory(GiB)": 102.54,
      "step": 5920,
      "train_speed(iter/s)": 1.143866
    },
    {
      "acc": 0.72055931,
      "epoch": 0.15030441400304415,
      "grad_norm": 3.375,
      "learning_rate": 9.982714006652126e-06,
      "loss": 1.20689907,
      "memory(GiB)": 102.54,
      "step": 5925,
      "train_speed(iter/s)": 1.143977
    },
    {
      "acc": 0.71699791,
      "epoch": 0.1504312531709792,
      "grad_norm": 3.40625,
      "learning_rate": 9.982626776414834e-06,
      "loss": 1.16074305,
      "memory(GiB)": 102.54,
      "step": 5930,
      "train_speed(iter/s)": 1.144067
    },
    {
      "acc": 0.71063647,
      "epoch": 0.15055809233891426,
      "grad_norm": 3.578125,
      "learning_rate": 9.98253932701937e-06,
      "loss": 1.18110704,
      "memory(GiB)": 102.54,
      "step": 5935,
      "train_speed(iter/s)": 1.144139
    },
    {
      "acc": 0.71621037,
      "epoch": 0.1506849315068493,
      "grad_norm": 4.84375,
      "learning_rate": 9.98245165846958e-06,
      "loss": 1.24152164,
      "memory(GiB)": 102.54,
      "step": 5940,
      "train_speed(iter/s)": 1.144299
    },
    {
      "acc": 0.73081045,
      "epoch": 0.15081177067478438,
      "grad_norm": 4.15625,
      "learning_rate": 9.982363770769323e-06,
      "loss": 1.15844908,
      "memory(GiB)": 102.54,
      "step": 5945,
      "train_speed(iter/s)": 1.144408
    },
    {
      "acc": 0.72091093,
      "epoch": 0.15093860984271942,
      "grad_norm": 3.796875,
      "learning_rate": 9.98227566392246e-06,
      "loss": 1.17235184,
      "memory(GiB)": 102.54,
      "step": 5950,
      "train_speed(iter/s)": 1.144396
    },
    {
      "acc": 0.721383,
      "epoch": 0.1510654490106545,
      "grad_norm": 4.21875,
      "learning_rate": 9.982187337932871e-06,
      "loss": 1.13185568,
      "memory(GiB)": 102.54,
      "step": 5955,
      "train_speed(iter/s)": 1.144592
    },
    {
      "acc": 0.70298982,
      "epoch": 0.15119228817858954,
      "grad_norm": 3.328125,
      "learning_rate": 9.98209879280444e-06,
      "loss": 1.22878771,
      "memory(GiB)": 102.54,
      "step": 5960,
      "train_speed(iter/s)": 1.14474
    },
    {
      "acc": 0.71218729,
      "epoch": 0.1513191273465246,
      "grad_norm": 4.46875,
      "learning_rate": 9.982010028541057e-06,
      "loss": 1.21157608,
      "memory(GiB)": 102.54,
      "step": 5965,
      "train_speed(iter/s)": 1.144875
    },
    {
      "acc": 0.71836057,
      "epoch": 0.15144596651445966,
      "grad_norm": 4.375,
      "learning_rate": 9.981921045146633e-06,
      "loss": 1.13411808,
      "memory(GiB)": 102.54,
      "step": 5970,
      "train_speed(iter/s)": 1.14492
    },
    {
      "acc": 0.72791386,
      "epoch": 0.15157280568239473,
      "grad_norm": 3.78125,
      "learning_rate": 9.981831842625079e-06,
      "loss": 1.12523899,
      "memory(GiB)": 102.54,
      "step": 5975,
      "train_speed(iter/s)": 1.145122
    },
    {
      "acc": 0.71317525,
      "epoch": 0.15169964485032977,
      "grad_norm": 3.953125,
      "learning_rate": 9.981742420980316e-06,
      "loss": 1.20917416,
      "memory(GiB)": 102.54,
      "step": 5980,
      "train_speed(iter/s)": 1.145271
    },
    {
      "acc": 0.72099791,
      "epoch": 0.15182648401826485,
      "grad_norm": 4.34375,
      "learning_rate": 9.981652780216281e-06,
      "loss": 1.16276054,
      "memory(GiB)": 102.54,
      "step": 5985,
      "train_speed(iter/s)": 1.145489
    },
    {
      "acc": 0.73686986,
      "epoch": 0.1519533231861999,
      "grad_norm": 5.03125,
      "learning_rate": 9.981562920336915e-06,
      "loss": 1.07780495,
      "memory(GiB)": 102.54,
      "step": 5990,
      "train_speed(iter/s)": 1.145645
    },
    {
      "acc": 0.70721345,
      "epoch": 0.15208016235413496,
      "grad_norm": 3.78125,
      "learning_rate": 9.98147284134617e-06,
      "loss": 1.21807289,
      "memory(GiB)": 102.54,
      "step": 5995,
      "train_speed(iter/s)": 1.145724
    },
    {
      "acc": 0.71152782,
      "epoch": 0.15220700152207,
      "grad_norm": 4.03125,
      "learning_rate": 9.981382543248011e-06,
      "loss": 1.21797113,
      "memory(GiB)": 102.54,
      "step": 6000,
      "train_speed(iter/s)": 1.145778
    },
    {
      "epoch": 0.15220700152207,
      "eval_acc": 0.7091657843573342,
      "eval_loss": 1.1336257457733154,
      "eval_runtime": 70.8065,
      "eval_samples_per_second": 89.963,
      "eval_steps_per_second": 22.498,
      "step": 6000
    },
    {
      "acc": 0.71615858,
      "epoch": 0.15233384069000508,
      "grad_norm": 3.78125,
      "learning_rate": 9.981292026046406e-06,
      "loss": 1.17758083,
      "memory(GiB)": 102.54,
      "step": 6005,
      "train_speed(iter/s)": 1.121115
    },
    {
      "acc": 0.71621108,
      "epoch": 0.15246067985794012,
      "grad_norm": 4.4375,
      "learning_rate": 9.981201289745337e-06,
      "loss": 1.19685259,
      "memory(GiB)": 102.54,
      "step": 6010,
      "train_speed(iter/s)": 1.121268
    },
    {
      "acc": 0.71425447,
      "epoch": 0.1525875190258752,
      "grad_norm": 3.84375,
      "learning_rate": 9.981110334348796e-06,
      "loss": 1.20905542,
      "memory(GiB)": 102.54,
      "step": 6015,
      "train_speed(iter/s)": 1.121445
    },
    {
      "acc": 0.73426614,
      "epoch": 0.15271435819381024,
      "grad_norm": 4.0,
      "learning_rate": 9.981019159860782e-06,
      "loss": 1.11708813,
      "memory(GiB)": 102.54,
      "step": 6020,
      "train_speed(iter/s)": 1.121663
    },
    {
      "acc": 0.72010102,
      "epoch": 0.1528411973617453,
      "grad_norm": 5.09375,
      "learning_rate": 9.98092776628531e-06,
      "loss": 1.15899887,
      "memory(GiB)": 102.54,
      "step": 6025,
      "train_speed(iter/s)": 1.121806
    },
    {
      "acc": 0.7321156,
      "epoch": 0.15296803652968036,
      "grad_norm": 3.421875,
      "learning_rate": 9.980836153626396e-06,
      "loss": 1.11671791,
      "memory(GiB)": 102.54,
      "step": 6030,
      "train_speed(iter/s)": 1.121941
    },
    {
      "acc": 0.73018208,
      "epoch": 0.15309487569761543,
      "grad_norm": 3.84375,
      "learning_rate": 9.980744321888068e-06,
      "loss": 1.15368509,
      "memory(GiB)": 102.54,
      "step": 6035,
      "train_speed(iter/s)": 1.122037
    },
    {
      "acc": 0.71681852,
      "epoch": 0.15322171486555047,
      "grad_norm": 3.546875,
      "learning_rate": 9.98065227107437e-06,
      "loss": 1.25954285,
      "memory(GiB)": 102.54,
      "step": 6040,
      "train_speed(iter/s)": 1.122185
    },
    {
      "acc": 0.72484598,
      "epoch": 0.15334855403348555,
      "grad_norm": 3.390625,
      "learning_rate": 9.980560001189346e-06,
      "loss": 1.18221989,
      "memory(GiB)": 102.54,
      "step": 6045,
      "train_speed(iter/s)": 1.122329
    },
    {
      "acc": 0.70506907,
      "epoch": 0.1534753932014206,
      "grad_norm": 3.6875,
      "learning_rate": 9.980467512237058e-06,
      "loss": 1.23622551,
      "memory(GiB)": 102.54,
      "step": 6050,
      "train_speed(iter/s)": 1.122502
    },
    {
      "acc": 0.70044336,
      "epoch": 0.15360223236935566,
      "grad_norm": 4.53125,
      "learning_rate": 9.98037480422157e-06,
      "loss": 1.18113308,
      "memory(GiB)": 105.75,
      "step": 6055,
      "train_speed(iter/s)": 1.12259
    },
    {
      "acc": 0.72740602,
      "epoch": 0.1537290715372907,
      "grad_norm": 4.5,
      "learning_rate": 9.980281877146964e-06,
      "loss": 1.19789066,
      "memory(GiB)": 105.75,
      "step": 6060,
      "train_speed(iter/s)": 1.122719
    },
    {
      "acc": 0.72121758,
      "epoch": 0.15385591070522578,
      "grad_norm": 3.65625,
      "learning_rate": 9.980188731017327e-06,
      "loss": 1.20682144,
      "memory(GiB)": 105.75,
      "step": 6065,
      "train_speed(iter/s)": 1.122886
    },
    {
      "acc": 0.73289595,
      "epoch": 0.15398274987316082,
      "grad_norm": 4.0625,
      "learning_rate": 9.980095365836753e-06,
      "loss": 1.14236279,
      "memory(GiB)": 105.75,
      "step": 6070,
      "train_speed(iter/s)": 1.12299
    },
    {
      "acc": 0.72456217,
      "epoch": 0.1541095890410959,
      "grad_norm": 4.5625,
      "learning_rate": 9.980001781609353e-06,
      "loss": 1.17969694,
      "memory(GiB)": 105.75,
      "step": 6075,
      "train_speed(iter/s)": 1.123053
    },
    {
      "acc": 0.71838312,
      "epoch": 0.15423642820903094,
      "grad_norm": 4.0,
      "learning_rate": 9.979907978339236e-06,
      "loss": 1.19149866,
      "memory(GiB)": 105.75,
      "step": 6080,
      "train_speed(iter/s)": 1.123265
    },
    {
      "acc": 0.72488546,
      "epoch": 0.154363267376966,
      "grad_norm": 4.0625,
      "learning_rate": 9.979813956030535e-06,
      "loss": 1.14361687,
      "memory(GiB)": 105.75,
      "step": 6085,
      "train_speed(iter/s)": 1.123442
    },
    {
      "acc": 0.71303778,
      "epoch": 0.15449010654490106,
      "grad_norm": 4.125,
      "learning_rate": 9.979719714687384e-06,
      "loss": 1.12554474,
      "memory(GiB)": 105.75,
      "step": 6090,
      "train_speed(iter/s)": 1.123565
    },
    {
      "acc": 0.71645465,
      "epoch": 0.15461694571283613,
      "grad_norm": 3.46875,
      "learning_rate": 9.979625254313924e-06,
      "loss": 1.24981318,
      "memory(GiB)": 105.75,
      "step": 6095,
      "train_speed(iter/s)": 1.123688
    },
    {
      "acc": 0.71467695,
      "epoch": 0.15474378488077117,
      "grad_norm": 4.59375,
      "learning_rate": 9.979530574914316e-06,
      "loss": 1.20724697,
      "memory(GiB)": 105.75,
      "step": 6100,
      "train_speed(iter/s)": 1.123849
    },
    {
      "acc": 0.72530422,
      "epoch": 0.15487062404870625,
      "grad_norm": 4.0,
      "learning_rate": 9.97943567649272e-06,
      "loss": 1.11760693,
      "memory(GiB)": 105.75,
      "step": 6105,
      "train_speed(iter/s)": 1.123899
    },
    {
      "acc": 0.72019792,
      "epoch": 0.1549974632166413,
      "grad_norm": 4.3125,
      "learning_rate": 9.979340559053311e-06,
      "loss": 1.13475819,
      "memory(GiB)": 105.75,
      "step": 6110,
      "train_speed(iter/s)": 1.123979
    },
    {
      "acc": 0.71608639,
      "epoch": 0.15512430238457636,
      "grad_norm": 3.15625,
      "learning_rate": 9.979245222600273e-06,
      "loss": 1.18363752,
      "memory(GiB)": 105.75,
      "step": 6115,
      "train_speed(iter/s)": 1.124152
    },
    {
      "acc": 0.70884542,
      "epoch": 0.1552511415525114,
      "grad_norm": 3.9375,
      "learning_rate": 9.979149667137801e-06,
      "loss": 1.2140377,
      "memory(GiB)": 105.75,
      "step": 6120,
      "train_speed(iter/s)": 1.124307
    },
    {
      "acc": 0.70994921,
      "epoch": 0.15537798072044648,
      "grad_norm": 3.984375,
      "learning_rate": 9.979053892670094e-06,
      "loss": 1.19030609,
      "memory(GiB)": 105.75,
      "step": 6125,
      "train_speed(iter/s)": 1.12447
    },
    {
      "acc": 0.71322346,
      "epoch": 0.15550481988838152,
      "grad_norm": 3.484375,
      "learning_rate": 9.978957899201369e-06,
      "loss": 1.23167887,
      "memory(GiB)": 105.75,
      "step": 6130,
      "train_speed(iter/s)": 1.124631
    },
    {
      "acc": 0.72481222,
      "epoch": 0.1556316590563166,
      "grad_norm": 3.40625,
      "learning_rate": 9.978861686735845e-06,
      "loss": 1.17845669,
      "memory(GiB)": 105.75,
      "step": 6135,
      "train_speed(iter/s)": 1.124776
    },
    {
      "acc": 0.71994438,
      "epoch": 0.15575849822425164,
      "grad_norm": 5.1875,
      "learning_rate": 9.978765255277756e-06,
      "loss": 1.1862195,
      "memory(GiB)": 105.75,
      "step": 6140,
      "train_speed(iter/s)": 1.124845
    },
    {
      "acc": 0.7264308,
      "epoch": 0.1558853373921867,
      "grad_norm": 3.5625,
      "learning_rate": 9.97866860483134e-06,
      "loss": 1.18672237,
      "memory(GiB)": 105.75,
      "step": 6145,
      "train_speed(iter/s)": 1.12499
    },
    {
      "acc": 0.73366461,
      "epoch": 0.15601217656012176,
      "grad_norm": 3.96875,
      "learning_rate": 9.978571735400853e-06,
      "loss": 1.13237448,
      "memory(GiB)": 105.75,
      "step": 6150,
      "train_speed(iter/s)": 1.125096
    },
    {
      "acc": 0.71039839,
      "epoch": 0.15613901572805683,
      "grad_norm": 4.34375,
      "learning_rate": 9.978474646990552e-06,
      "loss": 1.16194973,
      "memory(GiB)": 105.75,
      "step": 6155,
      "train_speed(iter/s)": 1.125169
    },
    {
      "acc": 0.72087421,
      "epoch": 0.15626585489599187,
      "grad_norm": 4.03125,
      "learning_rate": 9.97837733960471e-06,
      "loss": 1.18186274,
      "memory(GiB)": 105.75,
      "step": 6160,
      "train_speed(iter/s)": 1.125104
    },
    {
      "acc": 0.74317384,
      "epoch": 0.15639269406392695,
      "grad_norm": 4.46875,
      "learning_rate": 9.978279813247605e-06,
      "loss": 1.12187071,
      "memory(GiB)": 105.75,
      "step": 6165,
      "train_speed(iter/s)": 1.12529
    },
    {
      "acc": 0.73189201,
      "epoch": 0.156519533231862,
      "grad_norm": 3.65625,
      "learning_rate": 9.978182067923528e-06,
      "loss": 1.13508739,
      "memory(GiB)": 105.75,
      "step": 6170,
      "train_speed(iter/s)": 1.125387
    },
    {
      "acc": 0.71468477,
      "epoch": 0.15664637239979706,
      "grad_norm": 3.125,
      "learning_rate": 9.978084103636778e-06,
      "loss": 1.26429052,
      "memory(GiB)": 105.75,
      "step": 6175,
      "train_speed(iter/s)": 1.125433
    },
    {
      "acc": 0.72715645,
      "epoch": 0.1567732115677321,
      "grad_norm": 4.5,
      "learning_rate": 9.977985920391661e-06,
      "loss": 1.13865337,
      "memory(GiB)": 105.75,
      "step": 6180,
      "train_speed(iter/s)": 1.125593
    },
    {
      "acc": 0.72109594,
      "epoch": 0.15690005073566718,
      "grad_norm": 3.8125,
      "learning_rate": 9.977887518192501e-06,
      "loss": 1.20313148,
      "memory(GiB)": 105.75,
      "step": 6185,
      "train_speed(iter/s)": 1.125711
    },
    {
      "acc": 0.70536394,
      "epoch": 0.15702688990360222,
      "grad_norm": 3.234375,
      "learning_rate": 9.977788897043622e-06,
      "loss": 1.2460741,
      "memory(GiB)": 105.75,
      "step": 6190,
      "train_speed(iter/s)": 1.125867
    },
    {
      "acc": 0.72020769,
      "epoch": 0.1571537290715373,
      "grad_norm": 3.953125,
      "learning_rate": 9.977690056949363e-06,
      "loss": 1.1814249,
      "memory(GiB)": 105.75,
      "step": 6195,
      "train_speed(iter/s)": 1.125912
    },
    {
      "acc": 0.72003307,
      "epoch": 0.15728056823947234,
      "grad_norm": 4.59375,
      "learning_rate": 9.977590997914072e-06,
      "loss": 1.16373062,
      "memory(GiB)": 105.75,
      "step": 6200,
      "train_speed(iter/s)": 1.125977
    },
    {
      "acc": 0.71597195,
      "epoch": 0.1574074074074074,
      "grad_norm": 3.671875,
      "learning_rate": 9.977491719942106e-06,
      "loss": 1.15627832,
      "memory(GiB)": 105.75,
      "step": 6205,
      "train_speed(iter/s)": 1.126052
    },
    {
      "acc": 0.71249876,
      "epoch": 0.15753424657534246,
      "grad_norm": 3.859375,
      "learning_rate": 9.97739222303783e-06,
      "loss": 1.16665497,
      "memory(GiB)": 105.75,
      "step": 6210,
      "train_speed(iter/s)": 1.126176
    },
    {
      "acc": 0.72623892,
      "epoch": 0.15766108574327753,
      "grad_norm": 4.375,
      "learning_rate": 9.977292507205623e-06,
      "loss": 1.16884451,
      "memory(GiB)": 105.75,
      "step": 6215,
      "train_speed(iter/s)": 1.126314
    },
    {
      "acc": 0.70082703,
      "epoch": 0.15778792491121257,
      "grad_norm": 4.0,
      "learning_rate": 9.977192572449868e-06,
      "loss": 1.22422962,
      "memory(GiB)": 105.75,
      "step": 6220,
      "train_speed(iter/s)": 1.126497
    },
    {
      "acc": 0.72454538,
      "epoch": 0.15791476407914765,
      "grad_norm": 4.1875,
      "learning_rate": 9.977092418774962e-06,
      "loss": 1.17928925,
      "memory(GiB)": 105.75,
      "step": 6225,
      "train_speed(iter/s)": 1.126682
    },
    {
      "acc": 0.7136085,
      "epoch": 0.1580416032470827,
      "grad_norm": 4.15625,
      "learning_rate": 9.976992046185313e-06,
      "loss": 1.20122166,
      "memory(GiB)": 105.75,
      "step": 6230,
      "train_speed(iter/s)": 1.12674
    },
    {
      "acc": 0.7220715,
      "epoch": 0.15816844241501776,
      "grad_norm": 3.25,
      "learning_rate": 9.97689145468533e-06,
      "loss": 1.15632725,
      "memory(GiB)": 105.75,
      "step": 6235,
      "train_speed(iter/s)": 1.12693
    },
    {
      "acc": 0.7341032,
      "epoch": 0.1582952815829528,
      "grad_norm": 3.796875,
      "learning_rate": 9.976790644279442e-06,
      "loss": 1.10479107,
      "memory(GiB)": 105.75,
      "step": 6240,
      "train_speed(iter/s)": 1.127074
    },
    {
      "acc": 0.72026129,
      "epoch": 0.15842212075088788,
      "grad_norm": 3.828125,
      "learning_rate": 9.976689614972082e-06,
      "loss": 1.1144474,
      "memory(GiB)": 105.75,
      "step": 6245,
      "train_speed(iter/s)": 1.127115
    },
    {
      "acc": 0.72242298,
      "epoch": 0.15854895991882292,
      "grad_norm": 5.25,
      "learning_rate": 9.976588366767693e-06,
      "loss": 1.22182407,
      "memory(GiB)": 105.75,
      "step": 6250,
      "train_speed(iter/s)": 1.127282
    },
    {
      "acc": 0.71981301,
      "epoch": 0.158675799086758,
      "grad_norm": 4.1875,
      "learning_rate": 9.976486899670729e-06,
      "loss": 1.15422745,
      "memory(GiB)": 105.75,
      "step": 6255,
      "train_speed(iter/s)": 1.12736
    },
    {
      "acc": 0.72476478,
      "epoch": 0.15880263825469304,
      "grad_norm": 3.6875,
      "learning_rate": 9.976385213685652e-06,
      "loss": 1.15988226,
      "memory(GiB)": 105.75,
      "step": 6260,
      "train_speed(iter/s)": 1.127507
    },
    {
      "acc": 0.72574263,
      "epoch": 0.1589294774226281,
      "grad_norm": 3.859375,
      "learning_rate": 9.976283308816937e-06,
      "loss": 1.17097616,
      "memory(GiB)": 105.75,
      "step": 6265,
      "train_speed(iter/s)": 1.127692
    },
    {
      "acc": 0.73064146,
      "epoch": 0.15905631659056316,
      "grad_norm": 4.34375,
      "learning_rate": 9.976181185069063e-06,
      "loss": 1.13311691,
      "memory(GiB)": 105.75,
      "step": 6270,
      "train_speed(iter/s)": 1.127877
    },
    {
      "acc": 0.72497249,
      "epoch": 0.15918315575849823,
      "grad_norm": 2.9375,
      "learning_rate": 9.976078842446522e-06,
      "loss": 1.14449329,
      "memory(GiB)": 105.75,
      "step": 6275,
      "train_speed(iter/s)": 1.128028
    },
    {
      "acc": 0.71420374,
      "epoch": 0.15930999492643327,
      "grad_norm": 3.5625,
      "learning_rate": 9.97597628095382e-06,
      "loss": 1.28711071,
      "memory(GiB)": 105.75,
      "step": 6280,
      "train_speed(iter/s)": 1.128026
    },
    {
      "acc": 0.70883708,
      "epoch": 0.15943683409436835,
      "grad_norm": 4.125,
      "learning_rate": 9.975873500595464e-06,
      "loss": 1.23814793,
      "memory(GiB)": 105.75,
      "step": 6285,
      "train_speed(iter/s)": 1.128163
    },
    {
      "acc": 0.7234314,
      "epoch": 0.1595636732623034,
      "grad_norm": 4.0625,
      "learning_rate": 9.975770501375974e-06,
      "loss": 1.20562639,
      "memory(GiB)": 105.75,
      "step": 6290,
      "train_speed(iter/s)": 1.128273
    },
    {
      "acc": 0.72020831,
      "epoch": 0.15969051243023846,
      "grad_norm": 3.859375,
      "learning_rate": 9.975667283299884e-06,
      "loss": 1.14580708,
      "memory(GiB)": 105.75,
      "step": 6295,
      "train_speed(iter/s)": 1.12838
    },
    {
      "acc": 0.72281141,
      "epoch": 0.1598173515981735,
      "grad_norm": 4.53125,
      "learning_rate": 9.975563846371732e-06,
      "loss": 1.18370638,
      "memory(GiB)": 105.75,
      "step": 6300,
      "train_speed(iter/s)": 1.128501
    },
    {
      "acc": 0.72244067,
      "epoch": 0.15994419076610858,
      "grad_norm": 3.578125,
      "learning_rate": 9.975460190596068e-06,
      "loss": 1.13868961,
      "memory(GiB)": 105.75,
      "step": 6305,
      "train_speed(iter/s)": 1.128563
    },
    {
      "acc": 0.71099434,
      "epoch": 0.16007102993404362,
      "grad_norm": 4.6875,
      "learning_rate": 9.975356315977451e-06,
      "loss": 1.20105238,
      "memory(GiB)": 105.75,
      "step": 6310,
      "train_speed(iter/s)": 1.128731
    },
    {
      "acc": 0.72064209,
      "epoch": 0.1601978691019787,
      "grad_norm": 3.84375,
      "learning_rate": 9.975252222520449e-06,
      "loss": 1.14573221,
      "memory(GiB)": 105.75,
      "step": 6315,
      "train_speed(iter/s)": 1.128739
    },
    {
      "acc": 0.71247721,
      "epoch": 0.16032470826991374,
      "grad_norm": 3.453125,
      "learning_rate": 9.97514791022964e-06,
      "loss": 1.18454762,
      "memory(GiB)": 105.75,
      "step": 6320,
      "train_speed(iter/s)": 1.128886
    },
    {
      "acc": 0.7241663,
      "epoch": 0.1604515474378488,
      "grad_norm": 3.84375,
      "learning_rate": 9.975043379109617e-06,
      "loss": 1.15167999,
      "memory(GiB)": 105.75,
      "step": 6325,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.72867031,
      "epoch": 0.16057838660578386,
      "grad_norm": 3.46875,
      "learning_rate": 9.974938629164973e-06,
      "loss": 1.13083897,
      "memory(GiB)": 105.75,
      "step": 6330,
      "train_speed(iter/s)": 1.129133
    },
    {
      "acc": 0.72275724,
      "epoch": 0.16070522577371893,
      "grad_norm": 3.125,
      "learning_rate": 9.974833660400315e-06,
      "loss": 1.19644852,
      "memory(GiB)": 105.75,
      "step": 6335,
      "train_speed(iter/s)": 1.129307
    },
    {
      "acc": 0.71734419,
      "epoch": 0.16083206494165397,
      "grad_norm": 4.28125,
      "learning_rate": 9.974728472820264e-06,
      "loss": 1.13231258,
      "memory(GiB)": 105.75,
      "step": 6340,
      "train_speed(iter/s)": 1.129465
    },
    {
      "acc": 0.71767588,
      "epoch": 0.16095890410958905,
      "grad_norm": 3.09375,
      "learning_rate": 9.97462306642944e-06,
      "loss": 1.18533745,
      "memory(GiB)": 105.75,
      "step": 6345,
      "train_speed(iter/s)": 1.129512
    },
    {
      "acc": 0.73382196,
      "epoch": 0.1610857432775241,
      "grad_norm": 3.46875,
      "learning_rate": 9.974517441232487e-06,
      "loss": 1.10794868,
      "memory(GiB)": 105.75,
      "step": 6350,
      "train_speed(iter/s)": 1.129679
    },
    {
      "acc": 0.71573753,
      "epoch": 0.16121258244545916,
      "grad_norm": 3.953125,
      "learning_rate": 9.974411597234046e-06,
      "loss": 1.18453827,
      "memory(GiB)": 105.75,
      "step": 6355,
      "train_speed(iter/s)": 1.12979
    },
    {
      "acc": 0.71536756,
      "epoch": 0.1613394216133942,
      "grad_norm": 4.21875,
      "learning_rate": 9.974305534438774e-06,
      "loss": 1.16977415,
      "memory(GiB)": 105.75,
      "step": 6360,
      "train_speed(iter/s)": 1.129859
    },
    {
      "acc": 0.73098297,
      "epoch": 0.16146626078132928,
      "grad_norm": 3.6875,
      "learning_rate": 9.974199252851338e-06,
      "loss": 1.15652332,
      "memory(GiB)": 105.75,
      "step": 6365,
      "train_speed(iter/s)": 1.129988
    },
    {
      "acc": 0.72649908,
      "epoch": 0.16159309994926432,
      "grad_norm": 3.90625,
      "learning_rate": 9.974092752476408e-06,
      "loss": 1.14055958,
      "memory(GiB)": 105.75,
      "step": 6370,
      "train_speed(iter/s)": 1.130129
    },
    {
      "acc": 0.73053608,
      "epoch": 0.1617199391171994,
      "grad_norm": 3.5625,
      "learning_rate": 9.973986033318673e-06,
      "loss": 1.13864212,
      "memory(GiB)": 105.75,
      "step": 6375,
      "train_speed(iter/s)": 1.130219
    },
    {
      "acc": 0.73467994,
      "epoch": 0.16184677828513444,
      "grad_norm": 4.15625,
      "learning_rate": 9.973879095382824e-06,
      "loss": 1.09419518,
      "memory(GiB)": 105.75,
      "step": 6380,
      "train_speed(iter/s)": 1.130184
    },
    {
      "acc": 0.72795849,
      "epoch": 0.1619736174530695,
      "grad_norm": 4.53125,
      "learning_rate": 9.973771938673564e-06,
      "loss": 1.19022827,
      "memory(GiB)": 105.75,
      "step": 6385,
      "train_speed(iter/s)": 1.130313
    },
    {
      "acc": 0.71219435,
      "epoch": 0.16210045662100456,
      "grad_norm": 4.25,
      "learning_rate": 9.973664563195609e-06,
      "loss": 1.23352346,
      "memory(GiB)": 105.75,
      "step": 6390,
      "train_speed(iter/s)": 1.130411
    },
    {
      "acc": 0.71478205,
      "epoch": 0.16222729578893963,
      "grad_norm": 4.15625,
      "learning_rate": 9.973556968953682e-06,
      "loss": 1.20499153,
      "memory(GiB)": 105.75,
      "step": 6395,
      "train_speed(iter/s)": 1.130575
    },
    {
      "acc": 0.7169569,
      "epoch": 0.16235413495687467,
      "grad_norm": 3.71875,
      "learning_rate": 9.973449155952512e-06,
      "loss": 1.16118507,
      "memory(GiB)": 105.75,
      "step": 6400,
      "train_speed(iter/s)": 1.130703
    },
    {
      "acc": 0.73371377,
      "epoch": 0.16248097412480975,
      "grad_norm": 3.703125,
      "learning_rate": 9.973341124196847e-06,
      "loss": 1.12037811,
      "memory(GiB)": 105.75,
      "step": 6405,
      "train_speed(iter/s)": 1.130876
    },
    {
      "acc": 0.73035827,
      "epoch": 0.1626078132927448,
      "grad_norm": 3.40625,
      "learning_rate": 9.973232873691431e-06,
      "loss": 1.08258038,
      "memory(GiB)": 105.75,
      "step": 6410,
      "train_speed(iter/s)": 1.131009
    },
    {
      "acc": 0.71714215,
      "epoch": 0.16273465246067986,
      "grad_norm": 3.453125,
      "learning_rate": 9.973124404441031e-06,
      "loss": 1.16614065,
      "memory(GiB)": 105.75,
      "step": 6415,
      "train_speed(iter/s)": 1.130975
    },
    {
      "acc": 0.71548157,
      "epoch": 0.1628614916286149,
      "grad_norm": 3.921875,
      "learning_rate": 9.973015716450416e-06,
      "loss": 1.22685537,
      "memory(GiB)": 105.75,
      "step": 6420,
      "train_speed(iter/s)": 1.131037
    },
    {
      "acc": 0.72907853,
      "epoch": 0.16298833079654998,
      "grad_norm": 4.21875,
      "learning_rate": 9.972906809724367e-06,
      "loss": 1.13057041,
      "memory(GiB)": 105.75,
      "step": 6425,
      "train_speed(iter/s)": 1.131154
    },
    {
      "acc": 0.72719116,
      "epoch": 0.16311516996448502,
      "grad_norm": 4.84375,
      "learning_rate": 9.972797684267674e-06,
      "loss": 1.11938982,
      "memory(GiB)": 105.75,
      "step": 6430,
      "train_speed(iter/s)": 1.131288
    },
    {
      "acc": 0.72780604,
      "epoch": 0.1632420091324201,
      "grad_norm": 3.484375,
      "learning_rate": 9.972688340085137e-06,
      "loss": 1.11107798,
      "memory(GiB)": 105.75,
      "step": 6435,
      "train_speed(iter/s)": 1.131369
    },
    {
      "acc": 0.72793007,
      "epoch": 0.16336884830035514,
      "grad_norm": 4.71875,
      "learning_rate": 9.972578777181565e-06,
      "loss": 1.1354866,
      "memory(GiB)": 105.75,
      "step": 6440,
      "train_speed(iter/s)": 1.131443
    },
    {
      "acc": 0.71933775,
      "epoch": 0.1634956874682902,
      "grad_norm": 3.890625,
      "learning_rate": 9.972468995561778e-06,
      "loss": 1.13755255,
      "memory(GiB)": 105.75,
      "step": 6445,
      "train_speed(iter/s)": 1.131555
    },
    {
      "acc": 0.72154059,
      "epoch": 0.16362252663622526,
      "grad_norm": 3.84375,
      "learning_rate": 9.972358995230604e-06,
      "loss": 1.10559778,
      "memory(GiB)": 105.75,
      "step": 6450,
      "train_speed(iter/s)": 1.131659
    },
    {
      "acc": 0.72532287,
      "epoch": 0.16374936580416033,
      "grad_norm": 4.65625,
      "learning_rate": 9.97224877619288e-06,
      "loss": 1.18563137,
      "memory(GiB)": 105.75,
      "step": 6455,
      "train_speed(iter/s)": 1.131825
    },
    {
      "acc": 0.71216044,
      "epoch": 0.16387620497209537,
      "grad_norm": 3.9375,
      "learning_rate": 9.972138338453457e-06,
      "loss": 1.21323042,
      "memory(GiB)": 105.75,
      "step": 6460,
      "train_speed(iter/s)": 1.131942
    },
    {
      "acc": 0.7225193,
      "epoch": 0.16400304414003045,
      "grad_norm": 3.71875,
      "learning_rate": 9.972027682017191e-06,
      "loss": 1.16056719,
      "memory(GiB)": 105.75,
      "step": 6465,
      "train_speed(iter/s)": 1.132111
    },
    {
      "acc": 0.70774884,
      "epoch": 0.1641298833079655,
      "grad_norm": 3.15625,
      "learning_rate": 9.971916806888948e-06,
      "loss": 1.24284067,
      "memory(GiB)": 105.75,
      "step": 6470,
      "train_speed(iter/s)": 1.132222
    },
    {
      "acc": 0.71427774,
      "epoch": 0.16425672247590056,
      "grad_norm": 4.8125,
      "learning_rate": 9.971805713073606e-06,
      "loss": 1.20291052,
      "memory(GiB)": 105.75,
      "step": 6475,
      "train_speed(iter/s)": 1.132341
    },
    {
      "acc": 0.72262707,
      "epoch": 0.1643835616438356,
      "grad_norm": 3.328125,
      "learning_rate": 9.971694400576053e-06,
      "loss": 1.12492161,
      "memory(GiB)": 105.75,
      "step": 6480,
      "train_speed(iter/s)": 1.132319
    },
    {
      "acc": 0.72288537,
      "epoch": 0.16451040081177068,
      "grad_norm": 3.390625,
      "learning_rate": 9.971582869401182e-06,
      "loss": 1.17659626,
      "memory(GiB)": 105.75,
      "step": 6485,
      "train_speed(iter/s)": 1.132388
    },
    {
      "acc": 0.73055573,
      "epoch": 0.16463723997970572,
      "grad_norm": 3.34375,
      "learning_rate": 9.9714711195539e-06,
      "loss": 1.14411678,
      "memory(GiB)": 105.75,
      "step": 6490,
      "train_speed(iter/s)": 1.132553
    },
    {
      "acc": 0.72362452,
      "epoch": 0.1647640791476408,
      "grad_norm": 4.75,
      "learning_rate": 9.97135915103912e-06,
      "loss": 1.12848415,
      "memory(GiB)": 105.75,
      "step": 6495,
      "train_speed(iter/s)": 1.132732
    },
    {
      "acc": 0.72148457,
      "epoch": 0.16489091831557584,
      "grad_norm": 3.703125,
      "learning_rate": 9.971246963861772e-06,
      "loss": 1.15485907,
      "memory(GiB)": 105.75,
      "step": 6500,
      "train_speed(iter/s)": 1.132769
    },
    {
      "acc": 0.7217392,
      "epoch": 0.1650177574835109,
      "grad_norm": 3.21875,
      "learning_rate": 9.971134558026786e-06,
      "loss": 1.13852911,
      "memory(GiB)": 105.75,
      "step": 6505,
      "train_speed(iter/s)": 1.13294
    },
    {
      "acc": 0.72783017,
      "epoch": 0.16514459665144596,
      "grad_norm": 3.65625,
      "learning_rate": 9.971021933539108e-06,
      "loss": 1.12945309,
      "memory(GiB)": 105.75,
      "step": 6510,
      "train_speed(iter/s)": 1.133046
    },
    {
      "acc": 0.73940811,
      "epoch": 0.16527143581938103,
      "grad_norm": 4.4375,
      "learning_rate": 9.97090909040369e-06,
      "loss": 1.10106707,
      "memory(GiB)": 105.75,
      "step": 6515,
      "train_speed(iter/s)": 1.1332
    },
    {
      "acc": 0.71354189,
      "epoch": 0.16539827498731607,
      "grad_norm": 3.421875,
      "learning_rate": 9.970796028625499e-06,
      "loss": 1.20124073,
      "memory(GiB)": 105.75,
      "step": 6520,
      "train_speed(iter/s)": 1.133323
    },
    {
      "acc": 0.72749262,
      "epoch": 0.16552511415525115,
      "grad_norm": 4.0625,
      "learning_rate": 9.970682748209505e-06,
      "loss": 1.19792805,
      "memory(GiB)": 105.75,
      "step": 6525,
      "train_speed(iter/s)": 1.133402
    },
    {
      "acc": 0.72634039,
      "epoch": 0.1656519533231862,
      "grad_norm": 3.140625,
      "learning_rate": 9.97056924916069e-06,
      "loss": 1.14633799,
      "memory(GiB)": 105.75,
      "step": 6530,
      "train_speed(iter/s)": 1.133505
    },
    {
      "acc": 0.7373415,
      "epoch": 0.16577879249112126,
      "grad_norm": 3.609375,
      "learning_rate": 9.970455531484049e-06,
      "loss": 1.11093311,
      "memory(GiB)": 105.75,
      "step": 6535,
      "train_speed(iter/s)": 1.133632
    },
    {
      "acc": 0.73046069,
      "epoch": 0.1659056316590563,
      "grad_norm": 3.953125,
      "learning_rate": 9.97034159518458e-06,
      "loss": 1.14981098,
      "memory(GiB)": 105.75,
      "step": 6540,
      "train_speed(iter/s)": 1.133744
    },
    {
      "acc": 0.71702356,
      "epoch": 0.16603247082699138,
      "grad_norm": 4.40625,
      "learning_rate": 9.9702274402673e-06,
      "loss": 1.16812143,
      "memory(GiB)": 105.75,
      "step": 6545,
      "train_speed(iter/s)": 1.133925
    },
    {
      "acc": 0.73206167,
      "epoch": 0.16615930999492642,
      "grad_norm": 3.4375,
      "learning_rate": 9.970113066737223e-06,
      "loss": 1.15386591,
      "memory(GiB)": 105.75,
      "step": 6550,
      "train_speed(iter/s)": 1.134035
    },
    {
      "acc": 0.72216506,
      "epoch": 0.1662861491628615,
      "grad_norm": 4.40625,
      "learning_rate": 9.969998474599386e-06,
      "loss": 1.15568314,
      "memory(GiB)": 105.75,
      "step": 6555,
      "train_speed(iter/s)": 1.134122
    },
    {
      "acc": 0.73341465,
      "epoch": 0.16641298833079654,
      "grad_norm": 4.8125,
      "learning_rate": 9.969883663858826e-06,
      "loss": 1.11621571,
      "memory(GiB)": 105.75,
      "step": 6560,
      "train_speed(iter/s)": 1.134182
    },
    {
      "acc": 0.73327389,
      "epoch": 0.1665398274987316,
      "grad_norm": 4.25,
      "learning_rate": 9.969768634520593e-06,
      "loss": 1.13299885,
      "memory(GiB)": 105.75,
      "step": 6565,
      "train_speed(iter/s)": 1.134364
    },
    {
      "acc": 0.74236794,
      "epoch": 0.16666666666666666,
      "grad_norm": 3.203125,
      "learning_rate": 9.969653386589749e-06,
      "loss": 1.07275639,
      "memory(GiB)": 105.75,
      "step": 6570,
      "train_speed(iter/s)": 1.134514
    },
    {
      "acc": 0.72854567,
      "epoch": 0.16679350583460173,
      "grad_norm": 3.578125,
      "learning_rate": 9.96953792007136e-06,
      "loss": 1.15507641,
      "memory(GiB)": 105.75,
      "step": 6575,
      "train_speed(iter/s)": 1.134649
    },
    {
      "acc": 0.71301365,
      "epoch": 0.16692034500253677,
      "grad_norm": 3.453125,
      "learning_rate": 9.969422234970506e-06,
      "loss": 1.21637154,
      "memory(GiB)": 105.75,
      "step": 6580,
      "train_speed(iter/s)": 1.134706
    },
    {
      "acc": 0.73923512,
      "epoch": 0.16704718417047185,
      "grad_norm": 3.515625,
      "learning_rate": 9.969306331292273e-06,
      "loss": 1.10872116,
      "memory(GiB)": 105.75,
      "step": 6585,
      "train_speed(iter/s)": 1.134779
    },
    {
      "acc": 0.710495,
      "epoch": 0.1671740233384069,
      "grad_norm": 4.21875,
      "learning_rate": 9.969190209041764e-06,
      "loss": 1.23468952,
      "memory(GiB)": 105.75,
      "step": 6590,
      "train_speed(iter/s)": 1.134947
    },
    {
      "acc": 0.71591635,
      "epoch": 0.16730086250634196,
      "grad_norm": 4.21875,
      "learning_rate": 9.969073868224082e-06,
      "loss": 1.1795845,
      "memory(GiB)": 105.75,
      "step": 6595,
      "train_speed(iter/s)": 1.135078
    },
    {
      "acc": 0.70886359,
      "epoch": 0.167427701674277,
      "grad_norm": 3.5,
      "learning_rate": 9.968957308844346e-06,
      "loss": 1.26194239,
      "memory(GiB)": 105.75,
      "step": 6600,
      "train_speed(iter/s)": 1.13523
    },
    {
      "acc": 0.71925545,
      "epoch": 0.16755454084221208,
      "grad_norm": 4.5,
      "learning_rate": 9.968840530907684e-06,
      "loss": 1.20274086,
      "memory(GiB)": 105.75,
      "step": 6605,
      "train_speed(iter/s)": 1.135385
    },
    {
      "acc": 0.71352162,
      "epoch": 0.16768138001014712,
      "grad_norm": 5.1875,
      "learning_rate": 9.96872353441923e-06,
      "loss": 1.19362049,
      "memory(GiB)": 105.75,
      "step": 6610,
      "train_speed(iter/s)": 1.135488
    },
    {
      "acc": 0.71548572,
      "epoch": 0.1678082191780822,
      "grad_norm": 4.625,
      "learning_rate": 9.968606319384131e-06,
      "loss": 1.22377558,
      "memory(GiB)": 105.75,
      "step": 6615,
      "train_speed(iter/s)": 1.135571
    },
    {
      "acc": 0.71660872,
      "epoch": 0.16793505834601724,
      "grad_norm": 4.90625,
      "learning_rate": 9.968488885807544e-06,
      "loss": 1.23854074,
      "memory(GiB)": 105.75,
      "step": 6620,
      "train_speed(iter/s)": 1.135627
    },
    {
      "acc": 0.71954813,
      "epoch": 0.1680618975139523,
      "grad_norm": 3.28125,
      "learning_rate": 9.968371233694633e-06,
      "loss": 1.14128132,
      "memory(GiB)": 105.75,
      "step": 6625,
      "train_speed(iter/s)": 1.135776
    },
    {
      "acc": 0.72475948,
      "epoch": 0.16818873668188736,
      "grad_norm": 3.796875,
      "learning_rate": 9.968253363050573e-06,
      "loss": 1.15601807,
      "memory(GiB)": 105.75,
      "step": 6630,
      "train_speed(iter/s)": 1.135879
    },
    {
      "acc": 0.72422919,
      "epoch": 0.16831557584982243,
      "grad_norm": 3.0625,
      "learning_rate": 9.968135273880547e-06,
      "loss": 1.10187435,
      "memory(GiB)": 105.75,
      "step": 6635,
      "train_speed(iter/s)": 1.13594
    },
    {
      "acc": 0.71639271,
      "epoch": 0.16844241501775747,
      "grad_norm": 4.78125,
      "learning_rate": 9.968016966189753e-06,
      "loss": 1.15462885,
      "memory(GiB)": 105.75,
      "step": 6640,
      "train_speed(iter/s)": 1.136065
    },
    {
      "acc": 0.73303347,
      "epoch": 0.16856925418569255,
      "grad_norm": 4.0625,
      "learning_rate": 9.96789843998339e-06,
      "loss": 1.0714715,
      "memory(GiB)": 105.75,
      "step": 6645,
      "train_speed(iter/s)": 1.136168
    },
    {
      "acc": 0.71945934,
      "epoch": 0.1686960933536276,
      "grad_norm": 4.1875,
      "learning_rate": 9.967779695266675e-06,
      "loss": 1.16986198,
      "memory(GiB)": 105.75,
      "step": 6650,
      "train_speed(iter/s)": 1.136198
    },
    {
      "acc": 0.72632437,
      "epoch": 0.16882293252156266,
      "grad_norm": 3.6875,
      "learning_rate": 9.967660732044828e-06,
      "loss": 1.16496334,
      "memory(GiB)": 105.75,
      "step": 6655,
      "train_speed(iter/s)": 1.136342
    },
    {
      "acc": 0.71964407,
      "epoch": 0.1689497716894977,
      "grad_norm": 3.59375,
      "learning_rate": 9.967541550323085e-06,
      "loss": 1.1749136,
      "memory(GiB)": 105.75,
      "step": 6660,
      "train_speed(iter/s)": 1.136498
    },
    {
      "acc": 0.73144989,
      "epoch": 0.16907661085743278,
      "grad_norm": 4.25,
      "learning_rate": 9.967422150106685e-06,
      "loss": 1.14624443,
      "memory(GiB)": 105.75,
      "step": 6665,
      "train_speed(iter/s)": 1.136677
    },
    {
      "acc": 0.72218223,
      "epoch": 0.16920345002536782,
      "grad_norm": 3.25,
      "learning_rate": 9.96730253140088e-06,
      "loss": 1.15319786,
      "memory(GiB)": 105.75,
      "step": 6670,
      "train_speed(iter/s)": 1.136797
    },
    {
      "acc": 0.72780752,
      "epoch": 0.1693302891933029,
      "grad_norm": 3.90625,
      "learning_rate": 9.967182694210933e-06,
      "loss": 1.15896606,
      "memory(GiB)": 105.75,
      "step": 6675,
      "train_speed(iter/s)": 1.136886
    },
    {
      "acc": 0.73131132,
      "epoch": 0.16945712836123794,
      "grad_norm": 3.234375,
      "learning_rate": 9.967062638542116e-06,
      "loss": 1.13184013,
      "memory(GiB)": 105.75,
      "step": 6680,
      "train_speed(iter/s)": 1.136996
    },
    {
      "acc": 0.72121787,
      "epoch": 0.169583967529173,
      "grad_norm": 4.0,
      "learning_rate": 9.966942364399706e-06,
      "loss": 1.15179548,
      "memory(GiB)": 105.75,
      "step": 6685,
      "train_speed(iter/s)": 1.137154
    },
    {
      "acc": 0.71418562,
      "epoch": 0.16971080669710806,
      "grad_norm": 3.859375,
      "learning_rate": 9.966821871788995e-06,
      "loss": 1.17609816,
      "memory(GiB)": 105.75,
      "step": 6690,
      "train_speed(iter/s)": 1.137312
    },
    {
      "acc": 0.72153935,
      "epoch": 0.16983764586504313,
      "grad_norm": 4.21875,
      "learning_rate": 9.966701160715283e-06,
      "loss": 1.15631561,
      "memory(GiB)": 105.75,
      "step": 6695,
      "train_speed(iter/s)": 1.137344
    },
    {
      "acc": 0.73140635,
      "epoch": 0.16996448503297817,
      "grad_norm": 4.3125,
      "learning_rate": 9.96658023118388e-06,
      "loss": 1.16421623,
      "memory(GiB)": 105.75,
      "step": 6700,
      "train_speed(iter/s)": 1.137462
    },
    {
      "acc": 0.7239089,
      "epoch": 0.17009132420091325,
      "grad_norm": 4.5625,
      "learning_rate": 9.966459083200102e-06,
      "loss": 1.16058922,
      "memory(GiB)": 105.75,
      "step": 6705,
      "train_speed(iter/s)": 1.136434
    },
    {
      "acc": 0.71246276,
      "epoch": 0.1702181633688483,
      "grad_norm": 3.4375,
      "learning_rate": 9.966337716769283e-06,
      "loss": 1.22326393,
      "memory(GiB)": 105.75,
      "step": 6710,
      "train_speed(iter/s)": 1.136603
    },
    {
      "acc": 0.72209749,
      "epoch": 0.17034500253678336,
      "grad_norm": 3.875,
      "learning_rate": 9.966216131896755e-06,
      "loss": 1.20867023,
      "memory(GiB)": 105.75,
      "step": 6715,
      "train_speed(iter/s)": 1.136718
    },
    {
      "acc": 0.71371522,
      "epoch": 0.1704718417047184,
      "grad_norm": 4.3125,
      "learning_rate": 9.966094328587871e-06,
      "loss": 1.16857853,
      "memory(GiB)": 105.75,
      "step": 6720,
      "train_speed(iter/s)": 1.136818
    },
    {
      "acc": 0.71543999,
      "epoch": 0.17059868087265348,
      "grad_norm": 3.734375,
      "learning_rate": 9.965972306847986e-06,
      "loss": 1.23092356,
      "memory(GiB)": 105.75,
      "step": 6725,
      "train_speed(iter/s)": 1.136897
    },
    {
      "acc": 0.73468828,
      "epoch": 0.17072552004058852,
      "grad_norm": 4.125,
      "learning_rate": 9.965850066682468e-06,
      "loss": 1.06508074,
      "memory(GiB)": 105.75,
      "step": 6730,
      "train_speed(iter/s)": 1.137071
    },
    {
      "acc": 0.71671758,
      "epoch": 0.1708523592085236,
      "grad_norm": 3.59375,
      "learning_rate": 9.965727608096692e-06,
      "loss": 1.13884706,
      "memory(GiB)": 105.75,
      "step": 6735,
      "train_speed(iter/s)": 1.137257
    },
    {
      "acc": 0.72699294,
      "epoch": 0.17097919837645864,
      "grad_norm": 3.21875,
      "learning_rate": 9.965604931096045e-06,
      "loss": 1.18762455,
      "memory(GiB)": 105.75,
      "step": 6740,
      "train_speed(iter/s)": 1.13739
    },
    {
      "acc": 0.72059231,
      "epoch": 0.1711060375443937,
      "grad_norm": 4.40625,
      "learning_rate": 9.965482035685925e-06,
      "loss": 1.1878582,
      "memory(GiB)": 105.75,
      "step": 6745,
      "train_speed(iter/s)": 1.137508
    },
    {
      "acc": 0.72586403,
      "epoch": 0.17123287671232876,
      "grad_norm": 3.703125,
      "learning_rate": 9.965358921871735e-06,
      "loss": 1.14223509,
      "memory(GiB)": 105.75,
      "step": 6750,
      "train_speed(iter/s)": 1.137646
    },
    {
      "acc": 0.73918581,
      "epoch": 0.17135971588026383,
      "grad_norm": 3.609375,
      "learning_rate": 9.965235589658891e-06,
      "loss": 1.12982769,
      "memory(GiB)": 105.75,
      "step": 6755,
      "train_speed(iter/s)": 1.137723
    },
    {
      "acc": 0.7319768,
      "epoch": 0.17148655504819887,
      "grad_norm": 2.75,
      "learning_rate": 9.965112039052817e-06,
      "loss": 1.16018915,
      "memory(GiB)": 105.75,
      "step": 6760,
      "train_speed(iter/s)": 1.137838
    },
    {
      "acc": 0.71548791,
      "epoch": 0.17161339421613395,
      "grad_norm": 4.0625,
      "learning_rate": 9.964988270058948e-06,
      "loss": 1.20632973,
      "memory(GiB)": 105.75,
      "step": 6765,
      "train_speed(iter/s)": 1.13788
    },
    {
      "acc": 0.72260523,
      "epoch": 0.171740233384069,
      "grad_norm": 3.59375,
      "learning_rate": 9.96486428268273e-06,
      "loss": 1.12747784,
      "memory(GiB)": 105.75,
      "step": 6770,
      "train_speed(iter/s)": 1.13795
    },
    {
      "acc": 0.7262722,
      "epoch": 0.17186707255200406,
      "grad_norm": 4.15625,
      "learning_rate": 9.964740076929612e-06,
      "loss": 1.14567814,
      "memory(GiB)": 105.75,
      "step": 6775,
      "train_speed(iter/s)": 1.138021
    },
    {
      "acc": 0.71856465,
      "epoch": 0.1719939117199391,
      "grad_norm": 4.0625,
      "learning_rate": 9.964615652805059e-06,
      "loss": 1.20938473,
      "memory(GiB)": 105.75,
      "step": 6780,
      "train_speed(iter/s)": 1.138123
    },
    {
      "acc": 0.72929268,
      "epoch": 0.17212075088787418,
      "grad_norm": 4.15625,
      "learning_rate": 9.964491010314545e-06,
      "loss": 1.13096399,
      "memory(GiB)": 105.75,
      "step": 6785,
      "train_speed(iter/s)": 1.138207
    },
    {
      "acc": 0.72519684,
      "epoch": 0.17224759005580922,
      "grad_norm": 3.671875,
      "learning_rate": 9.964366149463552e-06,
      "loss": 1.16783314,
      "memory(GiB)": 105.75,
      "step": 6790,
      "train_speed(iter/s)": 1.138324
    },
    {
      "acc": 0.73900366,
      "epoch": 0.1723744292237443,
      "grad_norm": 3.234375,
      "learning_rate": 9.96424107025757e-06,
      "loss": 1.08622284,
      "memory(GiB)": 105.75,
      "step": 6795,
      "train_speed(iter/s)": 1.138458
    },
    {
      "acc": 0.72700081,
      "epoch": 0.17250126839167934,
      "grad_norm": 3.5,
      "learning_rate": 9.964115772702104e-06,
      "loss": 1.11902122,
      "memory(GiB)": 105.75,
      "step": 6800,
      "train_speed(iter/s)": 1.138634
    },
    {
      "acc": 0.71730223,
      "epoch": 0.1726281075596144,
      "grad_norm": 3.5,
      "learning_rate": 9.963990256802662e-06,
      "loss": 1.1892499,
      "memory(GiB)": 105.75,
      "step": 6805,
      "train_speed(iter/s)": 1.138752
    },
    {
      "acc": 0.7344285,
      "epoch": 0.17275494672754946,
      "grad_norm": 4.71875,
      "learning_rate": 9.963864522564765e-06,
      "loss": 1.08967876,
      "memory(GiB)": 105.75,
      "step": 6810,
      "train_speed(iter/s)": 1.138885
    },
    {
      "acc": 0.72169528,
      "epoch": 0.17288178589548453,
      "grad_norm": 3.25,
      "learning_rate": 9.963738569993945e-06,
      "loss": 1.18248758,
      "memory(GiB)": 105.75,
      "step": 6815,
      "train_speed(iter/s)": 1.138975
    },
    {
      "acc": 0.73289995,
      "epoch": 0.17300862506341957,
      "grad_norm": 4.53125,
      "learning_rate": 9.963612399095743e-06,
      "loss": 1.17333622,
      "memory(GiB)": 105.75,
      "step": 6820,
      "train_speed(iter/s)": 1.139025
    },
    {
      "acc": 0.71008644,
      "epoch": 0.17313546423135465,
      "grad_norm": 4.1875,
      "learning_rate": 9.963486009875705e-06,
      "loss": 1.21308231,
      "memory(GiB)": 105.75,
      "step": 6825,
      "train_speed(iter/s)": 1.139202
    },
    {
      "acc": 0.72632217,
      "epoch": 0.1732623033992897,
      "grad_norm": 3.75,
      "learning_rate": 9.963359402339393e-06,
      "loss": 1.15941925,
      "memory(GiB)": 105.75,
      "step": 6830,
      "train_speed(iter/s)": 1.139298
    },
    {
      "acc": 0.71787071,
      "epoch": 0.17338914256722476,
      "grad_norm": 4.96875,
      "learning_rate": 9.963232576492373e-06,
      "loss": 1.21109686,
      "memory(GiB)": 105.75,
      "step": 6835,
      "train_speed(iter/s)": 1.139447
    },
    {
      "acc": 0.7113708,
      "epoch": 0.1735159817351598,
      "grad_norm": 3.421875,
      "learning_rate": 9.963105532340226e-06,
      "loss": 1.23425961,
      "memory(GiB)": 105.75,
      "step": 6840,
      "train_speed(iter/s)": 1.139476
    },
    {
      "acc": 0.71547146,
      "epoch": 0.17364282090309488,
      "grad_norm": 4.5,
      "learning_rate": 9.962978269888538e-06,
      "loss": 1.18723936,
      "memory(GiB)": 105.75,
      "step": 6845,
      "train_speed(iter/s)": 1.139581
    },
    {
      "acc": 0.71541634,
      "epoch": 0.17376966007102992,
      "grad_norm": 3.078125,
      "learning_rate": 9.96285078914291e-06,
      "loss": 1.11602993,
      "memory(GiB)": 105.75,
      "step": 6850,
      "train_speed(iter/s)": 1.139708
    },
    {
      "acc": 0.71218882,
      "epoch": 0.173896499238965,
      "grad_norm": 3.6875,
      "learning_rate": 9.962723090108944e-06,
      "loss": 1.14961634,
      "memory(GiB)": 105.75,
      "step": 6855,
      "train_speed(iter/s)": 1.138912
    },
    {
      "acc": 0.7150454,
      "epoch": 0.17402333840690004,
      "grad_norm": 3.75,
      "learning_rate": 9.962595172792261e-06,
      "loss": 1.17627697,
      "memory(GiB)": 105.75,
      "step": 6860,
      "train_speed(iter/s)": 1.139042
    },
    {
      "acc": 0.72863302,
      "epoch": 0.1741501775748351,
      "grad_norm": 3.71875,
      "learning_rate": 9.962467037198487e-06,
      "loss": 1.07247791,
      "memory(GiB)": 105.75,
      "step": 6865,
      "train_speed(iter/s)": 1.139119
    },
    {
      "acc": 0.72044172,
      "epoch": 0.17427701674277016,
      "grad_norm": 3.34375,
      "learning_rate": 9.962338683333254e-06,
      "loss": 1.16166248,
      "memory(GiB)": 105.75,
      "step": 6870,
      "train_speed(iter/s)": 1.139253
    },
    {
      "acc": 0.72185588,
      "epoch": 0.17440385591070523,
      "grad_norm": 3.375,
      "learning_rate": 9.962210111202212e-06,
      "loss": 1.2229063,
      "memory(GiB)": 105.75,
      "step": 6875,
      "train_speed(iter/s)": 1.139419
    },
    {
      "acc": 0.71931257,
      "epoch": 0.17453069507864027,
      "grad_norm": 4.6875,
      "learning_rate": 9.962081320811015e-06,
      "loss": 1.1683094,
      "memory(GiB)": 105.75,
      "step": 6880,
      "train_speed(iter/s)": 1.13944
    },
    {
      "acc": 0.73385172,
      "epoch": 0.17465753424657535,
      "grad_norm": 3.984375,
      "learning_rate": 9.961952312165327e-06,
      "loss": 1.1406992,
      "memory(GiB)": 105.75,
      "step": 6885,
      "train_speed(iter/s)": 1.139471
    },
    {
      "acc": 0.73005672,
      "epoch": 0.1747843734145104,
      "grad_norm": 3.375,
      "learning_rate": 9.961823085270823e-06,
      "loss": 1.13422365,
      "memory(GiB)": 105.75,
      "step": 6890,
      "train_speed(iter/s)": 1.139501
    },
    {
      "acc": 0.73156929,
      "epoch": 0.17491121258244546,
      "grad_norm": 3.265625,
      "learning_rate": 9.961693640133187e-06,
      "loss": 1.06667099,
      "memory(GiB)": 105.75,
      "step": 6895,
      "train_speed(iter/s)": 1.139636
    },
    {
      "acc": 0.72517638,
      "epoch": 0.1750380517503805,
      "grad_norm": 3.640625,
      "learning_rate": 9.961563976758112e-06,
      "loss": 1.17034569,
      "memory(GiB)": 105.75,
      "step": 6900,
      "train_speed(iter/s)": 1.139722
    },
    {
      "acc": 0.7217803,
      "epoch": 0.17516489091831558,
      "grad_norm": 3.890625,
      "learning_rate": 9.961434095151301e-06,
      "loss": 1.17174225,
      "memory(GiB)": 105.75,
      "step": 6905,
      "train_speed(iter/s)": 1.139883
    },
    {
      "acc": 0.71921148,
      "epoch": 0.17529173008625062,
      "grad_norm": 2.890625,
      "learning_rate": 9.961303995318467e-06,
      "loss": 1.11234961,
      "memory(GiB)": 105.75,
      "step": 6910,
      "train_speed(iter/s)": 1.13996
    },
    {
      "acc": 0.7310935,
      "epoch": 0.1754185692541857,
      "grad_norm": 6.625,
      "learning_rate": 9.961173677265334e-06,
      "loss": 1.13227844,
      "memory(GiB)": 105.75,
      "step": 6915,
      "train_speed(iter/s)": 1.140056
    },
    {
      "acc": 0.72123847,
      "epoch": 0.17554540842212074,
      "grad_norm": 3.34375,
      "learning_rate": 9.961043140997632e-06,
      "loss": 1.1312561,
      "memory(GiB)": 105.75,
      "step": 6920,
      "train_speed(iter/s)": 1.140164
    },
    {
      "acc": 0.70837507,
      "epoch": 0.1756722475900558,
      "grad_norm": 3.890625,
      "learning_rate": 9.960912386521104e-06,
      "loss": 1.19920702,
      "memory(GiB)": 105.75,
      "step": 6925,
      "train_speed(iter/s)": 1.140117
    },
    {
      "acc": 0.72446585,
      "epoch": 0.17579908675799086,
      "grad_norm": 3.9375,
      "learning_rate": 9.9607814138415e-06,
      "loss": 1.13776703,
      "memory(GiB)": 105.75,
      "step": 6930,
      "train_speed(iter/s)": 1.14026
    },
    {
      "acc": 0.7218173,
      "epoch": 0.17592592592592593,
      "grad_norm": 5.0625,
      "learning_rate": 9.96065022296458e-06,
      "loss": 1.17259445,
      "memory(GiB)": 105.75,
      "step": 6935,
      "train_speed(iter/s)": 1.140391
    },
    {
      "acc": 0.72937799,
      "epoch": 0.17605276509386097,
      "grad_norm": 4.125,
      "learning_rate": 9.960518813896117e-06,
      "loss": 1.10327673,
      "memory(GiB)": 105.75,
      "step": 6940,
      "train_speed(iter/s)": 1.140435
    },
    {
      "acc": 0.71423435,
      "epoch": 0.17617960426179605,
      "grad_norm": 3.890625,
      "learning_rate": 9.960387186641887e-06,
      "loss": 1.1735096,
      "memory(GiB)": 105.75,
      "step": 6945,
      "train_speed(iter/s)": 1.14056
    },
    {
      "acc": 0.72168646,
      "epoch": 0.1763064434297311,
      "grad_norm": 4.0,
      "learning_rate": 9.960255341207686e-06,
      "loss": 1.11077423,
      "memory(GiB)": 105.75,
      "step": 6950,
      "train_speed(iter/s)": 1.140589
    },
    {
      "acc": 0.73446093,
      "epoch": 0.17643328259766616,
      "grad_norm": 3.234375,
      "learning_rate": 9.960123277599305e-06,
      "loss": 1.11386404,
      "memory(GiB)": 105.75,
      "step": 6955,
      "train_speed(iter/s)": 1.140724
    },
    {
      "acc": 0.70652852,
      "epoch": 0.1765601217656012,
      "grad_norm": 4.625,
      "learning_rate": 9.959990995822559e-06,
      "loss": 1.17536945,
      "memory(GiB)": 105.75,
      "step": 6960,
      "train_speed(iter/s)": 1.140849
    },
    {
      "acc": 0.72828984,
      "epoch": 0.17668696093353628,
      "grad_norm": 3.15625,
      "learning_rate": 9.959858495883263e-06,
      "loss": 1.1276247,
      "memory(GiB)": 105.75,
      "step": 6965,
      "train_speed(iter/s)": 1.140993
    },
    {
      "acc": 0.72962298,
      "epoch": 0.17681380010147132,
      "grad_norm": 3.078125,
      "learning_rate": 9.959725777787249e-06,
      "loss": 1.09828129,
      "memory(GiB)": 105.75,
      "step": 6970,
      "train_speed(iter/s)": 1.141123
    },
    {
      "acc": 0.726299,
      "epoch": 0.1769406392694064,
      "grad_norm": 4.1875,
      "learning_rate": 9.959592841540349e-06,
      "loss": 1.17386026,
      "memory(GiB)": 105.75,
      "step": 6975,
      "train_speed(iter/s)": 1.141201
    },
    {
      "acc": 0.70794406,
      "epoch": 0.17706747843734144,
      "grad_norm": 3.5,
      "learning_rate": 9.959459687148414e-06,
      "loss": 1.16332521,
      "memory(GiB)": 105.75,
      "step": 6980,
      "train_speed(iter/s)": 1.14135
    },
    {
      "acc": 0.71253958,
      "epoch": 0.1771943176052765,
      "grad_norm": 4.4375,
      "learning_rate": 9.959326314617299e-06,
      "loss": 1.17388535,
      "memory(GiB)": 105.75,
      "step": 6985,
      "train_speed(iter/s)": 1.141442
    },
    {
      "acc": 0.7170671,
      "epoch": 0.17732115677321156,
      "grad_norm": 4.4375,
      "learning_rate": 9.95919272395287e-06,
      "loss": 1.16816626,
      "memory(GiB)": 105.75,
      "step": 6990,
      "train_speed(iter/s)": 1.14152
    },
    {
      "acc": 0.71357751,
      "epoch": 0.17744799594114663,
      "grad_norm": 4.3125,
      "learning_rate": 9.959058915161006e-06,
      "loss": 1.26231861,
      "memory(GiB)": 105.75,
      "step": 6995,
      "train_speed(iter/s)": 1.140487
    },
    {
      "acc": 0.70727048,
      "epoch": 0.17757483510908167,
      "grad_norm": 3.71875,
      "learning_rate": 9.95892488824759e-06,
      "loss": 1.23110466,
      "memory(GiB)": 105.75,
      "step": 7000,
      "train_speed(iter/s)": 1.14058
    },
    {
      "epoch": 0.17757483510908167,
      "eval_acc": 0.7111759878209988,
      "eval_loss": 1.1214736700057983,
      "eval_runtime": 70.8307,
      "eval_samples_per_second": 89.933,
      "eval_steps_per_second": 22.49,
      "step": 7000
    },
    {
      "acc": 0.73726134,
      "epoch": 0.17770167427701675,
      "grad_norm": 3.921875,
      "learning_rate": 9.958790643218515e-06,
      "loss": 1.06112261,
      "memory(GiB)": 105.75,
      "step": 7005,
      "train_speed(iter/s)": 1.119531
    },
    {
      "acc": 0.71496639,
      "epoch": 0.1778285134449518,
      "grad_norm": 3.015625,
      "learning_rate": 9.95865618007969e-06,
      "loss": 1.14025173,
      "memory(GiB)": 105.75,
      "step": 7010,
      "train_speed(iter/s)": 1.119541
    },
    {
      "acc": 0.7261898,
      "epoch": 0.17795535261288686,
      "grad_norm": 3.34375,
      "learning_rate": 9.958521498837029e-06,
      "loss": 1.16174994,
      "memory(GiB)": 105.75,
      "step": 7015,
      "train_speed(iter/s)": 1.119685
    },
    {
      "acc": 0.72060471,
      "epoch": 0.1780821917808219,
      "grad_norm": 4.375,
      "learning_rate": 9.95838659949645e-06,
      "loss": 1.17203426,
      "memory(GiB)": 105.75,
      "step": 7020,
      "train_speed(iter/s)": 1.11977
    },
    {
      "acc": 0.74515467,
      "epoch": 0.17820903094875698,
      "grad_norm": 3.8125,
      "learning_rate": 9.958251482063894e-06,
      "loss": 1.08599463,
      "memory(GiB)": 105.75,
      "step": 7025,
      "train_speed(iter/s)": 1.11987
    },
    {
      "acc": 0.71558094,
      "epoch": 0.17833587011669202,
      "grad_norm": 3.890625,
      "learning_rate": 9.9581161465453e-06,
      "loss": 1.19476719,
      "memory(GiB)": 105.75,
      "step": 7030,
      "train_speed(iter/s)": 1.119971
    },
    {
      "acc": 0.72094479,
      "epoch": 0.1784627092846271,
      "grad_norm": 4.0,
      "learning_rate": 9.957980592946621e-06,
      "loss": 1.16407204,
      "memory(GiB)": 105.75,
      "step": 7035,
      "train_speed(iter/s)": 1.120111
    },
    {
      "acc": 0.73817415,
      "epoch": 0.17858954845256214,
      "grad_norm": 3.609375,
      "learning_rate": 9.957844821273822e-06,
      "loss": 1.10267096,
      "memory(GiB)": 105.75,
      "step": 7040,
      "train_speed(iter/s)": 1.120203
    },
    {
      "acc": 0.73136253,
      "epoch": 0.1787163876204972,
      "grad_norm": 3.453125,
      "learning_rate": 9.95770883153287e-06,
      "loss": 1.0705368,
      "memory(GiB)": 105.75,
      "step": 7045,
      "train_speed(iter/s)": 1.120352
    },
    {
      "acc": 0.72280149,
      "epoch": 0.17884322678843226,
      "grad_norm": 4.0,
      "learning_rate": 9.957572623729749e-06,
      "loss": 1.22093296,
      "memory(GiB)": 105.75,
      "step": 7050,
      "train_speed(iter/s)": 1.120499
    },
    {
      "acc": 0.71304898,
      "epoch": 0.17897006595636733,
      "grad_norm": 4.25,
      "learning_rate": 9.957436197870451e-06,
      "loss": 1.17528944,
      "memory(GiB)": 105.75,
      "step": 7055,
      "train_speed(iter/s)": 1.120643
    },
    {
      "acc": 0.72815084,
      "epoch": 0.17909690512430237,
      "grad_norm": 4.65625,
      "learning_rate": 9.957299553960975e-06,
      "loss": 1.20114784,
      "memory(GiB)": 105.75,
      "step": 7060,
      "train_speed(iter/s)": 1.120781
    },
    {
      "acc": 0.7307755,
      "epoch": 0.17922374429223745,
      "grad_norm": 3.90625,
      "learning_rate": 9.957162692007334e-06,
      "loss": 1.09090052,
      "memory(GiB)": 105.75,
      "step": 7065,
      "train_speed(iter/s)": 1.120839
    },
    {
      "acc": 0.73517952,
      "epoch": 0.1793505834601725,
      "grad_norm": 4.28125,
      "learning_rate": 9.957025612015543e-06,
      "loss": 1.14586182,
      "memory(GiB)": 105.75,
      "step": 7070,
      "train_speed(iter/s)": 1.12091
    },
    {
      "acc": 0.73221083,
      "epoch": 0.17947742262810756,
      "grad_norm": 3.328125,
      "learning_rate": 9.956888313991636e-06,
      "loss": 1.10549879,
      "memory(GiB)": 105.75,
      "step": 7075,
      "train_speed(iter/s)": 1.12099
    },
    {
      "acc": 0.71921015,
      "epoch": 0.1796042617960426,
      "grad_norm": 3.9375,
      "learning_rate": 9.956750797941648e-06,
      "loss": 1.17863922,
      "memory(GiB)": 105.75,
      "step": 7080,
      "train_speed(iter/s)": 1.121126
    },
    {
      "acc": 0.72129126,
      "epoch": 0.17973110096397768,
      "grad_norm": 3.25,
      "learning_rate": 9.95661306387163e-06,
      "loss": 1.20933151,
      "memory(GiB)": 105.75,
      "step": 7085,
      "train_speed(iter/s)": 1.121256
    },
    {
      "acc": 0.72669716,
      "epoch": 0.17985794013191272,
      "grad_norm": 3.390625,
      "learning_rate": 9.95647511178764e-06,
      "loss": 1.09922771,
      "memory(GiB)": 105.75,
      "step": 7090,
      "train_speed(iter/s)": 1.121326
    },
    {
      "acc": 0.72175751,
      "epoch": 0.1799847792998478,
      "grad_norm": 4.53125,
      "learning_rate": 9.956336941695747e-06,
      "loss": 1.17059793,
      "memory(GiB)": 105.75,
      "step": 7095,
      "train_speed(iter/s)": 1.121431
    },
    {
      "acc": 0.73118796,
      "epoch": 0.18011161846778284,
      "grad_norm": 4.21875,
      "learning_rate": 9.956198553602026e-06,
      "loss": 1.10983105,
      "memory(GiB)": 105.75,
      "step": 7100,
      "train_speed(iter/s)": 1.121479
    },
    {
      "acc": 0.69609013,
      "epoch": 0.1802384576357179,
      "grad_norm": 3.46875,
      "learning_rate": 9.956059947512563e-06,
      "loss": 1.23434048,
      "memory(GiB)": 105.75,
      "step": 7105,
      "train_speed(iter/s)": 1.121606
    },
    {
      "acc": 0.72342501,
      "epoch": 0.18036529680365296,
      "grad_norm": 3.828125,
      "learning_rate": 9.95592112343346e-06,
      "loss": 1.1561224,
      "memory(GiB)": 105.75,
      "step": 7110,
      "train_speed(iter/s)": 1.121787
    },
    {
      "acc": 0.72444606,
      "epoch": 0.18049213597158803,
      "grad_norm": 4.125,
      "learning_rate": 9.955782081370818e-06,
      "loss": 1.11725388,
      "memory(GiB)": 105.75,
      "step": 7115,
      "train_speed(iter/s)": 1.121864
    },
    {
      "acc": 0.73317108,
      "epoch": 0.18061897513952307,
      "grad_norm": 3.515625,
      "learning_rate": 9.955642821330752e-06,
      "loss": 1.14380035,
      "memory(GiB)": 105.75,
      "step": 7120,
      "train_speed(iter/s)": 1.121974
    },
    {
      "acc": 0.74119573,
      "epoch": 0.18074581430745815,
      "grad_norm": 3.375,
      "learning_rate": 9.95550334331939e-06,
      "loss": 1.07492657,
      "memory(GiB)": 105.75,
      "step": 7125,
      "train_speed(iter/s)": 1.121994
    },
    {
      "acc": 0.72744322,
      "epoch": 0.1808726534753932,
      "grad_norm": 3.546875,
      "learning_rate": 9.955363647342868e-06,
      "loss": 1.10207272,
      "memory(GiB)": 105.75,
      "step": 7130,
      "train_speed(iter/s)": 1.122035
    },
    {
      "acc": 0.71674643,
      "epoch": 0.18099949264332826,
      "grad_norm": 4.21875,
      "learning_rate": 9.955223733407327e-06,
      "loss": 1.18513412,
      "memory(GiB)": 105.75,
      "step": 7135,
      "train_speed(iter/s)": 1.12205
    },
    {
      "acc": 0.72321482,
      "epoch": 0.1811263318112633,
      "grad_norm": 3.703125,
      "learning_rate": 9.955083601518924e-06,
      "loss": 1.16349087,
      "memory(GiB)": 105.75,
      "step": 7140,
      "train_speed(iter/s)": 1.122145
    },
    {
      "acc": 0.70615463,
      "epoch": 0.18125317097919838,
      "grad_norm": 3.75,
      "learning_rate": 9.95494325168382e-06,
      "loss": 1.22441187,
      "memory(GiB)": 105.75,
      "step": 7145,
      "train_speed(iter/s)": 1.122279
    },
    {
      "acc": 0.71536112,
      "epoch": 0.18138001014713342,
      "grad_norm": 3.640625,
      "learning_rate": 9.954802683908192e-06,
      "loss": 1.21263828,
      "memory(GiB)": 105.75,
      "step": 7150,
      "train_speed(iter/s)": 1.122389
    },
    {
      "acc": 0.72853642,
      "epoch": 0.1815068493150685,
      "grad_norm": 3.59375,
      "learning_rate": 9.954661898198216e-06,
      "loss": 1.14512644,
      "memory(GiB)": 105.75,
      "step": 7155,
      "train_speed(iter/s)": 1.122518
    },
    {
      "acc": 0.71371131,
      "epoch": 0.18163368848300354,
      "grad_norm": 3.9375,
      "learning_rate": 9.954520894560092e-06,
      "loss": 1.17400208,
      "memory(GiB)": 105.75,
      "step": 7160,
      "train_speed(iter/s)": 1.122692
    },
    {
      "acc": 0.71998777,
      "epoch": 0.1817605276509386,
      "grad_norm": 3.25,
      "learning_rate": 9.954379673000018e-06,
      "loss": 1.171912,
      "memory(GiB)": 105.75,
      "step": 7165,
      "train_speed(iter/s)": 1.122783
    },
    {
      "acc": 0.71787581,
      "epoch": 0.18188736681887366,
      "grad_norm": 3.828125,
      "learning_rate": 9.954238233524208e-06,
      "loss": 1.1965764,
      "memory(GiB)": 105.75,
      "step": 7170,
      "train_speed(iter/s)": 1.122873
    },
    {
      "acc": 0.72233753,
      "epoch": 0.18201420598680873,
      "grad_norm": 4.5625,
      "learning_rate": 9.954096576138879e-06,
      "loss": 1.17561417,
      "memory(GiB)": 105.75,
      "step": 7175,
      "train_speed(iter/s)": 1.12294
    },
    {
      "acc": 0.72089691,
      "epoch": 0.18214104515474377,
      "grad_norm": 3.796875,
      "learning_rate": 9.953954700850264e-06,
      "loss": 1.19407434,
      "memory(GiB)": 105.75,
      "step": 7180,
      "train_speed(iter/s)": 1.123067
    },
    {
      "acc": 0.71766086,
      "epoch": 0.18226788432267885,
      "grad_norm": 3.203125,
      "learning_rate": 9.953812607664607e-06,
      "loss": 1.19247608,
      "memory(GiB)": 105.75,
      "step": 7185,
      "train_speed(iter/s)": 1.123174
    },
    {
      "acc": 0.73331213,
      "epoch": 0.1823947234906139,
      "grad_norm": 3.9375,
      "learning_rate": 9.95367029658815e-06,
      "loss": 1.15609369,
      "memory(GiB)": 105.75,
      "step": 7190,
      "train_speed(iter/s)": 1.123315
    },
    {
      "acc": 0.71085663,
      "epoch": 0.18252156265854896,
      "grad_norm": 4.46875,
      "learning_rate": 9.953527767627159e-06,
      "loss": 1.12277279,
      "memory(GiB)": 105.75,
      "step": 7195,
      "train_speed(iter/s)": 1.12339
    },
    {
      "acc": 0.73922691,
      "epoch": 0.182648401826484,
      "grad_norm": 3.34375,
      "learning_rate": 9.9533850207879e-06,
      "loss": 1.08024406,
      "memory(GiB)": 105.75,
      "step": 7200,
      "train_speed(iter/s)": 1.123447
    },
    {
      "acc": 0.73287344,
      "epoch": 0.18277524099441908,
      "grad_norm": 3.921875,
      "learning_rate": 9.953242056076652e-06,
      "loss": 1.15095234,
      "memory(GiB)": 105.75,
      "step": 7205,
      "train_speed(iter/s)": 1.123562
    },
    {
      "acc": 0.70968018,
      "epoch": 0.18290208016235412,
      "grad_norm": 4.0625,
      "learning_rate": 9.953098873499705e-06,
      "loss": 1.19006433,
      "memory(GiB)": 105.75,
      "step": 7210,
      "train_speed(iter/s)": 1.123729
    },
    {
      "acc": 0.72989421,
      "epoch": 0.1830289193302892,
      "grad_norm": 3.46875,
      "learning_rate": 9.952955473063356e-06,
      "loss": 1.11073875,
      "memory(GiB)": 105.75,
      "step": 7215,
      "train_speed(iter/s)": 1.123816
    },
    {
      "acc": 0.71362495,
      "epoch": 0.18315575849822424,
      "grad_norm": 3.765625,
      "learning_rate": 9.952811854773911e-06,
      "loss": 1.21388931,
      "memory(GiB)": 105.75,
      "step": 7220,
      "train_speed(iter/s)": 1.123973
    },
    {
      "acc": 0.71092334,
      "epoch": 0.1832825976661593,
      "grad_norm": 4.625,
      "learning_rate": 9.952668018637687e-06,
      "loss": 1.19445953,
      "memory(GiB)": 105.75,
      "step": 7225,
      "train_speed(iter/s)": 1.124051
    },
    {
      "acc": 0.72284193,
      "epoch": 0.18340943683409436,
      "grad_norm": 3.84375,
      "learning_rate": 9.952523964661014e-06,
      "loss": 1.14289713,
      "memory(GiB)": 105.75,
      "step": 7230,
      "train_speed(iter/s)": 1.124222
    },
    {
      "acc": 0.7226799,
      "epoch": 0.18353627600202943,
      "grad_norm": 4.09375,
      "learning_rate": 9.952379692850222e-06,
      "loss": 1.15996952,
      "memory(GiB)": 105.75,
      "step": 7235,
      "train_speed(iter/s)": 1.124351
    },
    {
      "acc": 0.72856393,
      "epoch": 0.18366311516996447,
      "grad_norm": 6.03125,
      "learning_rate": 9.952235203211663e-06,
      "loss": 1.10332384,
      "memory(GiB)": 105.75,
      "step": 7240,
      "train_speed(iter/s)": 1.124418
    },
    {
      "acc": 0.73352046,
      "epoch": 0.18378995433789955,
      "grad_norm": 3.46875,
      "learning_rate": 9.952090495751689e-06,
      "loss": 1.13433189,
      "memory(GiB)": 105.75,
      "step": 7245,
      "train_speed(iter/s)": 1.124548
    },
    {
      "acc": 0.72314281,
      "epoch": 0.1839167935058346,
      "grad_norm": 4.09375,
      "learning_rate": 9.951945570476666e-06,
      "loss": 1.15424871,
      "memory(GiB)": 105.75,
      "step": 7250,
      "train_speed(iter/s)": 1.124717
    },
    {
      "acc": 0.71185284,
      "epoch": 0.18404363267376966,
      "grad_norm": 4.09375,
      "learning_rate": 9.951800427392968e-06,
      "loss": 1.20547981,
      "memory(GiB)": 105.75,
      "step": 7255,
      "train_speed(iter/s)": 1.124816
    },
    {
      "acc": 0.72017612,
      "epoch": 0.1841704718417047,
      "grad_norm": 3.9375,
      "learning_rate": 9.951655066506977e-06,
      "loss": 1.21165657,
      "memory(GiB)": 105.75,
      "step": 7260,
      "train_speed(iter/s)": 1.124961
    },
    {
      "acc": 0.71639404,
      "epoch": 0.18429731100963978,
      "grad_norm": 3.53125,
      "learning_rate": 9.951509487825091e-06,
      "loss": 1.15894451,
      "memory(GiB)": 105.75,
      "step": 7265,
      "train_speed(iter/s)": 1.125069
    },
    {
      "acc": 0.71962485,
      "epoch": 0.18442415017757482,
      "grad_norm": 4.21875,
      "learning_rate": 9.95136369135371e-06,
      "loss": 1.1970232,
      "memory(GiB)": 105.75,
      "step": 7270,
      "train_speed(iter/s)": 1.125095
    },
    {
      "acc": 0.72796292,
      "epoch": 0.1845509893455099,
      "grad_norm": 3.671875,
      "learning_rate": 9.951217677099248e-06,
      "loss": 1.18632965,
      "memory(GiB)": 105.75,
      "step": 7275,
      "train_speed(iter/s)": 1.125249
    },
    {
      "acc": 0.72281199,
      "epoch": 0.18467782851344494,
      "grad_norm": 3.5625,
      "learning_rate": 9.951071445068125e-06,
      "loss": 1.14059515,
      "memory(GiB)": 105.75,
      "step": 7280,
      "train_speed(iter/s)": 1.125369
    },
    {
      "acc": 0.71798887,
      "epoch": 0.18480466768138,
      "grad_norm": 3.875,
      "learning_rate": 9.950924995266778e-06,
      "loss": 1.15748253,
      "memory(GiB)": 105.75,
      "step": 7285,
      "train_speed(iter/s)": 1.125445
    },
    {
      "acc": 0.72105246,
      "epoch": 0.18493150684931506,
      "grad_norm": 4.25,
      "learning_rate": 9.950778327701643e-06,
      "loss": 1.15114899,
      "memory(GiB)": 105.75,
      "step": 7290,
      "train_speed(iter/s)": 1.125575
    },
    {
      "acc": 0.74250073,
      "epoch": 0.18505834601725013,
      "grad_norm": 3.1875,
      "learning_rate": 9.950631442379175e-06,
      "loss": 1.11444387,
      "memory(GiB)": 105.75,
      "step": 7295,
      "train_speed(iter/s)": 1.125737
    },
    {
      "acc": 0.72365808,
      "epoch": 0.18518518518518517,
      "grad_norm": 4.3125,
      "learning_rate": 9.950484339305832e-06,
      "loss": 1.14174099,
      "memory(GiB)": 105.75,
      "step": 7300,
      "train_speed(iter/s)": 1.125721
    },
    {
      "acc": 0.726335,
      "epoch": 0.18531202435312025,
      "grad_norm": 3.765625,
      "learning_rate": 9.950337018488086e-06,
      "loss": 1.16852465,
      "memory(GiB)": 105.75,
      "step": 7305,
      "train_speed(iter/s)": 1.125844
    },
    {
      "acc": 0.7162776,
      "epoch": 0.1854388635210553,
      "grad_norm": 3.328125,
      "learning_rate": 9.950189479932417e-06,
      "loss": 1.15788822,
      "memory(GiB)": 105.75,
      "step": 7310,
      "train_speed(iter/s)": 1.125978
    },
    {
      "acc": 0.72612777,
      "epoch": 0.18556570268899036,
      "grad_norm": 3.453125,
      "learning_rate": 9.950041723645312e-06,
      "loss": 1.15045242,
      "memory(GiB)": 105.75,
      "step": 7315,
      "train_speed(iter/s)": 1.126036
    },
    {
      "acc": 0.71668406,
      "epoch": 0.1856925418569254,
      "grad_norm": 3.40625,
      "learning_rate": 9.949893749633273e-06,
      "loss": 1.18422022,
      "memory(GiB)": 105.75,
      "step": 7320,
      "train_speed(iter/s)": 1.126136
    },
    {
      "acc": 0.72435446,
      "epoch": 0.18581938102486048,
      "grad_norm": 3.859375,
      "learning_rate": 9.949745557902806e-06,
      "loss": 1.202491,
      "memory(GiB)": 105.75,
      "step": 7325,
      "train_speed(iter/s)": 1.126301
    },
    {
      "acc": 0.71600695,
      "epoch": 0.18594622019279552,
      "grad_norm": 3.125,
      "learning_rate": 9.949597148460433e-06,
      "loss": 1.20257492,
      "memory(GiB)": 105.75,
      "step": 7330,
      "train_speed(iter/s)": 1.126378
    },
    {
      "acc": 0.71859245,
      "epoch": 0.1860730593607306,
      "grad_norm": 3.921875,
      "learning_rate": 9.949448521312676e-06,
      "loss": 1.24076786,
      "memory(GiB)": 105.75,
      "step": 7335,
      "train_speed(iter/s)": 1.126464
    },
    {
      "acc": 0.72927122,
      "epoch": 0.18619989852866564,
      "grad_norm": 4.71875,
      "learning_rate": 9.949299676466077e-06,
      "loss": 1.17761459,
      "memory(GiB)": 105.75,
      "step": 7340,
      "train_speed(iter/s)": 1.126588
    },
    {
      "acc": 0.72503424,
      "epoch": 0.1863267376966007,
      "grad_norm": 4.125,
      "learning_rate": 9.94915061392718e-06,
      "loss": 1.1144393,
      "memory(GiB)": 105.75,
      "step": 7345,
      "train_speed(iter/s)": 1.126657
    },
    {
      "acc": 0.73679533,
      "epoch": 0.18645357686453576,
      "grad_norm": 3.65625,
      "learning_rate": 9.949001333702543e-06,
      "loss": 1.10579376,
      "memory(GiB)": 105.75,
      "step": 7350,
      "train_speed(iter/s)": 1.126789
    },
    {
      "acc": 0.7136291,
      "epoch": 0.18658041603247083,
      "grad_norm": 4.125,
      "learning_rate": 9.948851835798732e-06,
      "loss": 1.25826921,
      "memory(GiB)": 105.75,
      "step": 7355,
      "train_speed(iter/s)": 1.12694
    },
    {
      "acc": 0.70682039,
      "epoch": 0.18670725520040587,
      "grad_norm": 3.515625,
      "learning_rate": 9.948702120222323e-06,
      "loss": 1.20590916,
      "memory(GiB)": 105.75,
      "step": 7360,
      "train_speed(iter/s)": 1.127079
    },
    {
      "acc": 0.73645315,
      "epoch": 0.18683409436834095,
      "grad_norm": 3.734375,
      "learning_rate": 9.9485521869799e-06,
      "loss": 1.11210146,
      "memory(GiB)": 105.75,
      "step": 7365,
      "train_speed(iter/s)": 1.127096
    },
    {
      "acc": 0.74537468,
      "epoch": 0.186960933536276,
      "grad_norm": 3.453125,
      "learning_rate": 9.948402036078057e-06,
      "loss": 1.07221937,
      "memory(GiB)": 105.75,
      "step": 7370,
      "train_speed(iter/s)": 1.127179
    },
    {
      "acc": 0.71323786,
      "epoch": 0.18708777270421106,
      "grad_norm": 4.4375,
      "learning_rate": 9.948251667523401e-06,
      "loss": 1.19753819,
      "memory(GiB)": 105.75,
      "step": 7375,
      "train_speed(iter/s)": 1.12729
    },
    {
      "acc": 0.71244059,
      "epoch": 0.1872146118721461,
      "grad_norm": 3.515625,
      "learning_rate": 9.948101081322544e-06,
      "loss": 1.10897884,
      "memory(GiB)": 105.75,
      "step": 7380,
      "train_speed(iter/s)": 1.127388
    },
    {
      "acc": 0.72696452,
      "epoch": 0.18734145104008118,
      "grad_norm": 3.359375,
      "learning_rate": 9.947950277482109e-06,
      "loss": 1.13264847,
      "memory(GiB)": 105.75,
      "step": 7385,
      "train_speed(iter/s)": 1.127561
    },
    {
      "acc": 0.72184386,
      "epoch": 0.18746829020801623,
      "grad_norm": 3.609375,
      "learning_rate": 9.94779925600873e-06,
      "loss": 1.15806513,
      "memory(GiB)": 105.75,
      "step": 7390,
      "train_speed(iter/s)": 1.127707
    },
    {
      "acc": 0.73548965,
      "epoch": 0.1875951293759513,
      "grad_norm": 3.453125,
      "learning_rate": 9.947648016909048e-06,
      "loss": 1.12525415,
      "memory(GiB)": 105.75,
      "step": 7395,
      "train_speed(iter/s)": 1.127899
    },
    {
      "acc": 0.7291728,
      "epoch": 0.18772196854388634,
      "grad_norm": 4.0625,
      "learning_rate": 9.947496560189717e-06,
      "loss": 1.1476409,
      "memory(GiB)": 105.75,
      "step": 7400,
      "train_speed(iter/s)": 1.127997
    },
    {
      "acc": 0.72119598,
      "epoch": 0.18784880771182141,
      "grad_norm": 3.5625,
      "learning_rate": 9.9473448858574e-06,
      "loss": 1.160818,
      "memory(GiB)": 105.75,
      "step": 7405,
      "train_speed(iter/s)": 1.128119
    },
    {
      "acc": 0.7085288,
      "epoch": 0.18797564687975646,
      "grad_norm": 4.1875,
      "learning_rate": 9.947192993918765e-06,
      "loss": 1.23360825,
      "memory(GiB)": 105.75,
      "step": 7410,
      "train_speed(iter/s)": 1.128178
    },
    {
      "acc": 0.71742506,
      "epoch": 0.18810248604769153,
      "grad_norm": 4.15625,
      "learning_rate": 9.947040884380496e-06,
      "loss": 1.16943798,
      "memory(GiB)": 105.75,
      "step": 7415,
      "train_speed(iter/s)": 1.128239
    },
    {
      "acc": 0.73024349,
      "epoch": 0.18822932521562658,
      "grad_norm": 4.5625,
      "learning_rate": 9.946888557249281e-06,
      "loss": 1.14677563,
      "memory(GiB)": 105.75,
      "step": 7420,
      "train_speed(iter/s)": 1.12835
    },
    {
      "acc": 0.7301466,
      "epoch": 0.18835616438356165,
      "grad_norm": 3.625,
      "learning_rate": 9.946736012531821e-06,
      "loss": 1.12415953,
      "memory(GiB)": 105.75,
      "step": 7425,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.73304887,
      "epoch": 0.1884830035514967,
      "grad_norm": 3.546875,
      "learning_rate": 9.946583250234826e-06,
      "loss": 1.15221138,
      "memory(GiB)": 105.75,
      "step": 7430,
      "train_speed(iter/s)": 1.128634
    },
    {
      "acc": 0.72308626,
      "epoch": 0.18860984271943176,
      "grad_norm": 3.359375,
      "learning_rate": 9.946430270365015e-06,
      "loss": 1.09801693,
      "memory(GiB)": 105.75,
      "step": 7435,
      "train_speed(iter/s)": 1.128756
    },
    {
      "acc": 0.73304939,
      "epoch": 0.1887366818873668,
      "grad_norm": 3.90625,
      "learning_rate": 9.946277072929115e-06,
      "loss": 1.14503489,
      "memory(GiB)": 105.75,
      "step": 7440,
      "train_speed(iter/s)": 1.128824
    },
    {
      "acc": 0.72627234,
      "epoch": 0.18886352105530188,
      "grad_norm": 3.4375,
      "learning_rate": 9.946123657933867e-06,
      "loss": 1.15239487,
      "memory(GiB)": 105.75,
      "step": 7445,
      "train_speed(iter/s)": 1.128855
    },
    {
      "acc": 0.71845832,
      "epoch": 0.18899036022323693,
      "grad_norm": 3.71875,
      "learning_rate": 9.945970025386018e-06,
      "loss": 1.11700373,
      "memory(GiB)": 105.75,
      "step": 7450,
      "train_speed(iter/s)": 1.128973
    },
    {
      "acc": 0.72643528,
      "epoch": 0.189117199391172,
      "grad_norm": 4.53125,
      "learning_rate": 9.945816175292326e-06,
      "loss": 1.12157612,
      "memory(GiB)": 105.75,
      "step": 7455,
      "train_speed(iter/s)": 1.129022
    },
    {
      "acc": 0.71878424,
      "epoch": 0.18924403855910704,
      "grad_norm": 3.640625,
      "learning_rate": 9.945662107659554e-06,
      "loss": 1.2105567,
      "memory(GiB)": 105.75,
      "step": 7460,
      "train_speed(iter/s)": 1.129054
    },
    {
      "acc": 0.73262501,
      "epoch": 0.18937087772704211,
      "grad_norm": 4.625,
      "learning_rate": 9.945507822494485e-06,
      "loss": 1.13747635,
      "memory(GiB)": 105.75,
      "step": 7465,
      "train_speed(iter/s)": 1.129179
    },
    {
      "acc": 0.72822375,
      "epoch": 0.18949771689497716,
      "grad_norm": 4.1875,
      "learning_rate": 9.9453533198039e-06,
      "loss": 1.13625755,
      "memory(GiB)": 105.75,
      "step": 7470,
      "train_speed(iter/s)": 1.129271
    },
    {
      "acc": 0.71215458,
      "epoch": 0.18962455606291223,
      "grad_norm": 3.671875,
      "learning_rate": 9.945198599594598e-06,
      "loss": 1.155161,
      "memory(GiB)": 105.75,
      "step": 7475,
      "train_speed(iter/s)": 1.129433
    },
    {
      "acc": 0.71011076,
      "epoch": 0.18975139523084728,
      "grad_norm": 3.453125,
      "learning_rate": 9.945043661873381e-06,
      "loss": 1.20690556,
      "memory(GiB)": 105.75,
      "step": 7480,
      "train_speed(iter/s)": 1.129513
    },
    {
      "acc": 0.72992253,
      "epoch": 0.18987823439878235,
      "grad_norm": 3.296875,
      "learning_rate": 9.944888506647066e-06,
      "loss": 1.11405544,
      "memory(GiB)": 105.75,
      "step": 7485,
      "train_speed(iter/s)": 1.129511
    },
    {
      "acc": 0.73155856,
      "epoch": 0.1900050735667174,
      "grad_norm": 3.828125,
      "learning_rate": 9.944733133922479e-06,
      "loss": 1.15510197,
      "memory(GiB)": 105.75,
      "step": 7490,
      "train_speed(iter/s)": 1.129628
    },
    {
      "acc": 0.72615719,
      "epoch": 0.19013191273465246,
      "grad_norm": 4.15625,
      "learning_rate": 9.944577543706451e-06,
      "loss": 1.15412941,
      "memory(GiB)": 105.75,
      "step": 7495,
      "train_speed(iter/s)": 1.129742
    },
    {
      "acc": 0.72033072,
      "epoch": 0.1902587519025875,
      "grad_norm": 3.796875,
      "learning_rate": 9.944421736005825e-06,
      "loss": 1.14604292,
      "memory(GiB)": 105.75,
      "step": 7500,
      "train_speed(iter/s)": 1.129904
    },
    {
      "acc": 0.70894933,
      "epoch": 0.19038559107052258,
      "grad_norm": 3.46875,
      "learning_rate": 9.944265710827459e-06,
      "loss": 1.2265295,
      "memory(GiB)": 105.75,
      "step": 7505,
      "train_speed(iter/s)": 1.130043
    },
    {
      "acc": 0.72979884,
      "epoch": 0.19051243023845763,
      "grad_norm": 3.390625,
      "learning_rate": 9.944109468178208e-06,
      "loss": 1.12833462,
      "memory(GiB)": 105.75,
      "step": 7510,
      "train_speed(iter/s)": 1.130139
    },
    {
      "acc": 0.72578406,
      "epoch": 0.1906392694063927,
      "grad_norm": 3.46875,
      "learning_rate": 9.943953008064953e-06,
      "loss": 1.13902645,
      "memory(GiB)": 105.75,
      "step": 7515,
      "train_speed(iter/s)": 1.130239
    },
    {
      "acc": 0.72382846,
      "epoch": 0.19076610857432774,
      "grad_norm": 4.46875,
      "learning_rate": 9.94379633049457e-06,
      "loss": 1.14660892,
      "memory(GiB)": 105.75,
      "step": 7520,
      "train_speed(iter/s)": 1.130318
    },
    {
      "acc": 0.72695079,
      "epoch": 0.19089294774226281,
      "grad_norm": 3.359375,
      "learning_rate": 9.943639435473952e-06,
      "loss": 1.14149504,
      "memory(GiB)": 105.75,
      "step": 7525,
      "train_speed(iter/s)": 1.130458
    },
    {
      "acc": 0.73750753,
      "epoch": 0.19101978691019786,
      "grad_norm": 3.625,
      "learning_rate": 9.94348232301e-06,
      "loss": 1.11684856,
      "memory(GiB)": 105.75,
      "step": 7530,
      "train_speed(iter/s)": 1.130581
    },
    {
      "acc": 0.71189127,
      "epoch": 0.19114662607813293,
      "grad_norm": 4.125,
      "learning_rate": 9.943324993109624e-06,
      "loss": 1.16596832,
      "memory(GiB)": 105.75,
      "step": 7535,
      "train_speed(iter/s)": 1.130713
    },
    {
      "acc": 0.7316947,
      "epoch": 0.19127346524606798,
      "grad_norm": 4.46875,
      "learning_rate": 9.943167445779745e-06,
      "loss": 1.10122204,
      "memory(GiB)": 105.75,
      "step": 7540,
      "train_speed(iter/s)": 1.13082
    },
    {
      "acc": 0.74006605,
      "epoch": 0.19140030441400305,
      "grad_norm": 4.4375,
      "learning_rate": 9.94300968102729e-06,
      "loss": 1.10966387,
      "memory(GiB)": 105.75,
      "step": 7545,
      "train_speed(iter/s)": 1.130934
    },
    {
      "acc": 0.73355393,
      "epoch": 0.1915271435819381,
      "grad_norm": 3.390625,
      "learning_rate": 9.942851698859204e-06,
      "loss": 1.12510166,
      "memory(GiB)": 105.75,
      "step": 7550,
      "train_speed(iter/s)": 1.131093
    },
    {
      "acc": 0.74120216,
      "epoch": 0.19165398274987316,
      "grad_norm": 3.6875,
      "learning_rate": 9.94269349928243e-06,
      "loss": 1.08810368,
      "memory(GiB)": 105.75,
      "step": 7555,
      "train_speed(iter/s)": 1.131157
    },
    {
      "acc": 0.73601933,
      "epoch": 0.1917808219178082,
      "grad_norm": 3.40625,
      "learning_rate": 9.942535082303927e-06,
      "loss": 1.08780594,
      "memory(GiB)": 105.75,
      "step": 7560,
      "train_speed(iter/s)": 1.131171
    },
    {
      "acc": 0.72072372,
      "epoch": 0.19190766108574328,
      "grad_norm": 3.78125,
      "learning_rate": 9.942376447930666e-06,
      "loss": 1.17007608,
      "memory(GiB)": 105.75,
      "step": 7565,
      "train_speed(iter/s)": 1.131224
    },
    {
      "acc": 0.74178734,
      "epoch": 0.19203450025367833,
      "grad_norm": 3.390625,
      "learning_rate": 9.942217596169623e-06,
      "loss": 1.05733013,
      "memory(GiB)": 105.75,
      "step": 7570,
      "train_speed(iter/s)": 1.13132
    },
    {
      "acc": 0.71147828,
      "epoch": 0.1921613394216134,
      "grad_norm": 3.390625,
      "learning_rate": 9.942058527027785e-06,
      "loss": 1.17866764,
      "memory(GiB)": 105.75,
      "step": 7575,
      "train_speed(iter/s)": 1.131387
    },
    {
      "acc": 0.71348066,
      "epoch": 0.19228817858954844,
      "grad_norm": 4.21875,
      "learning_rate": 9.941899240512147e-06,
      "loss": 1.14913025,
      "memory(GiB)": 105.75,
      "step": 7580,
      "train_speed(iter/s)": 1.131483
    },
    {
      "acc": 0.71239848,
      "epoch": 0.19241501775748351,
      "grad_norm": 3.984375,
      "learning_rate": 9.941739736629716e-06,
      "loss": 1.16687126,
      "memory(GiB)": 105.75,
      "step": 7585,
      "train_speed(iter/s)": 1.131612
    },
    {
      "acc": 0.73221598,
      "epoch": 0.19254185692541856,
      "grad_norm": 3.8125,
      "learning_rate": 9.941580015387509e-06,
      "loss": 1.09796848,
      "memory(GiB)": 105.75,
      "step": 7590,
      "train_speed(iter/s)": 1.131627
    },
    {
      "acc": 0.70456061,
      "epoch": 0.19266869609335363,
      "grad_norm": 5.59375,
      "learning_rate": 9.94142007679255e-06,
      "loss": 1.22652874,
      "memory(GiB)": 105.75,
      "step": 7595,
      "train_speed(iter/s)": 1.131797
    },
    {
      "acc": 0.73357897,
      "epoch": 0.19279553526128868,
      "grad_norm": 4.875,
      "learning_rate": 9.941259920851874e-06,
      "loss": 1.09762764,
      "memory(GiB)": 105.75,
      "step": 7600,
      "train_speed(iter/s)": 1.131919
    },
    {
      "acc": 0.7228159,
      "epoch": 0.19292237442922375,
      "grad_norm": 5.09375,
      "learning_rate": 9.941099547572527e-06,
      "loss": 1.15882568,
      "memory(GiB)": 105.75,
      "step": 7605,
      "train_speed(iter/s)": 1.13209
    },
    {
      "acc": 0.72611046,
      "epoch": 0.1930492135971588,
      "grad_norm": 3.328125,
      "learning_rate": 9.94093895696156e-06,
      "loss": 1.1352663,
      "memory(GiB)": 105.75,
      "step": 7610,
      "train_speed(iter/s)": 1.132146
    },
    {
      "acc": 0.71758633,
      "epoch": 0.19317605276509386,
      "grad_norm": 4.09375,
      "learning_rate": 9.940778149026038e-06,
      "loss": 1.16261654,
      "memory(GiB)": 105.75,
      "step": 7615,
      "train_speed(iter/s)": 1.132245
    },
    {
      "acc": 0.7200645,
      "epoch": 0.1933028919330289,
      "grad_norm": 3.6875,
      "learning_rate": 9.940617123773036e-06,
      "loss": 1.17255344,
      "memory(GiB)": 105.75,
      "step": 7620,
      "train_speed(iter/s)": 1.132368
    },
    {
      "acc": 0.73108606,
      "epoch": 0.19342973110096398,
      "grad_norm": 3.984375,
      "learning_rate": 9.940455881209632e-06,
      "loss": 1.06736984,
      "memory(GiB)": 105.75,
      "step": 7625,
      "train_speed(iter/s)": 1.132502
    },
    {
      "acc": 0.72357178,
      "epoch": 0.19355657026889903,
      "grad_norm": 3.96875,
      "learning_rate": 9.940294421342922e-06,
      "loss": 1.07228203,
      "memory(GiB)": 105.75,
      "step": 7630,
      "train_speed(iter/s)": 1.132535
    },
    {
      "acc": 0.70825739,
      "epoch": 0.1936834094368341,
      "grad_norm": 4.125,
      "learning_rate": 9.940132744180007e-06,
      "loss": 1.20368958,
      "memory(GiB)": 105.75,
      "step": 7635,
      "train_speed(iter/s)": 1.132577
    },
    {
      "acc": 0.73180676,
      "epoch": 0.19381024860476914,
      "grad_norm": 3.84375,
      "learning_rate": 9.939970849727995e-06,
      "loss": 1.09578457,
      "memory(GiB)": 105.75,
      "step": 7640,
      "train_speed(iter/s)": 1.132638
    },
    {
      "acc": 0.71365595,
      "epoch": 0.19393708777270421,
      "grad_norm": 4.125,
      "learning_rate": 9.939808737994013e-06,
      "loss": 1.21886778,
      "memory(GiB)": 105.75,
      "step": 7645,
      "train_speed(iter/s)": 1.132731
    },
    {
      "acc": 0.72834339,
      "epoch": 0.19406392694063926,
      "grad_norm": 4.03125,
      "learning_rate": 9.939646408985186e-06,
      "loss": 1.1229969,
      "memory(GiB)": 105.75,
      "step": 7650,
      "train_speed(iter/s)": 1.132865
    },
    {
      "acc": 0.73169317,
      "epoch": 0.19419076610857433,
      "grad_norm": 3.9375,
      "learning_rate": 9.939483862708658e-06,
      "loss": 1.12660532,
      "memory(GiB)": 105.75,
      "step": 7655,
      "train_speed(iter/s)": 1.132959
    },
    {
      "acc": 0.71944032,
      "epoch": 0.19431760527650938,
      "grad_norm": 3.734375,
      "learning_rate": 9.939321099171575e-06,
      "loss": 1.12386837,
      "memory(GiB)": 105.75,
      "step": 7660,
      "train_speed(iter/s)": 1.133034
    },
    {
      "acc": 0.71836967,
      "epoch": 0.19444444444444445,
      "grad_norm": 3.21875,
      "learning_rate": 9.939158118381097e-06,
      "loss": 1.17727356,
      "memory(GiB)": 105.75,
      "step": 7665,
      "train_speed(iter/s)": 1.133071
    },
    {
      "acc": 0.7192554,
      "epoch": 0.1945712836123795,
      "grad_norm": 4.0,
      "learning_rate": 9.938994920344395e-06,
      "loss": 1.16102209,
      "memory(GiB)": 105.75,
      "step": 7670,
      "train_speed(iter/s)": 1.133154
    },
    {
      "acc": 0.73030233,
      "epoch": 0.19469812278031456,
      "grad_norm": 3.40625,
      "learning_rate": 9.938831505068645e-06,
      "loss": 1.08624954,
      "memory(GiB)": 105.75,
      "step": 7675,
      "train_speed(iter/s)": 1.133328
    },
    {
      "acc": 0.72474365,
      "epoch": 0.1948249619482496,
      "grad_norm": 3.625,
      "learning_rate": 9.938667872561035e-06,
      "loss": 1.09385242,
      "memory(GiB)": 105.75,
      "step": 7680,
      "train_speed(iter/s)": 1.133323
    },
    {
      "acc": 0.74455323,
      "epoch": 0.19495180111618468,
      "grad_norm": 3.671875,
      "learning_rate": 9.938504022828762e-06,
      "loss": 1.07429113,
      "memory(GiB)": 105.75,
      "step": 7685,
      "train_speed(iter/s)": 1.133388
    },
    {
      "acc": 0.72064004,
      "epoch": 0.19507864028411973,
      "grad_norm": 3.0625,
      "learning_rate": 9.938339955879033e-06,
      "loss": 1.14447098,
      "memory(GiB)": 105.75,
      "step": 7690,
      "train_speed(iter/s)": 1.133406
    },
    {
      "acc": 0.71281815,
      "epoch": 0.1952054794520548,
      "grad_norm": 3.375,
      "learning_rate": 9.938175671719064e-06,
      "loss": 1.18132896,
      "memory(GiB)": 105.75,
      "step": 7695,
      "train_speed(iter/s)": 1.133496
    },
    {
      "acc": 0.71365471,
      "epoch": 0.19533231861998984,
      "grad_norm": 3.796875,
      "learning_rate": 9.938011170356083e-06,
      "loss": 1.13779469,
      "memory(GiB)": 105.75,
      "step": 7700,
      "train_speed(iter/s)": 1.133586
    },
    {
      "acc": 0.71789021,
      "epoch": 0.19545915778792491,
      "grad_norm": 5.8125,
      "learning_rate": 9.937846451797324e-06,
      "loss": 1.15231438,
      "memory(GiB)": 105.75,
      "step": 7705,
      "train_speed(iter/s)": 1.133632
    },
    {
      "acc": 0.72998581,
      "epoch": 0.19558599695585996,
      "grad_norm": 4.8125,
      "learning_rate": 9.93768151605003e-06,
      "loss": 1.10081711,
      "memory(GiB)": 105.75,
      "step": 7710,
      "train_speed(iter/s)": 1.133664
    },
    {
      "acc": 0.73766026,
      "epoch": 0.19571283612379503,
      "grad_norm": 3.90625,
      "learning_rate": 9.93751636312146e-06,
      "loss": 1.1082756,
      "memory(GiB)": 105.75,
      "step": 7715,
      "train_speed(iter/s)": 1.133752
    },
    {
      "acc": 0.70945721,
      "epoch": 0.19583967529173008,
      "grad_norm": 4.9375,
      "learning_rate": 9.937350993018875e-06,
      "loss": 1.20267458,
      "memory(GiB)": 105.75,
      "step": 7720,
      "train_speed(iter/s)": 1.133838
    },
    {
      "acc": 0.72439604,
      "epoch": 0.19596651445966515,
      "grad_norm": 3.28125,
      "learning_rate": 9.93718540574955e-06,
      "loss": 1.1368372,
      "memory(GiB)": 105.75,
      "step": 7725,
      "train_speed(iter/s)": 1.133945
    },
    {
      "acc": 0.70740194,
      "epoch": 0.1960933536276002,
      "grad_norm": 3.40625,
      "learning_rate": 9.937019601320768e-06,
      "loss": 1.20460091,
      "memory(GiB)": 105.75,
      "step": 7730,
      "train_speed(iter/s)": 1.134046
    },
    {
      "acc": 0.71130476,
      "epoch": 0.19622019279553526,
      "grad_norm": 3.9375,
      "learning_rate": 9.936853579739823e-06,
      "loss": 1.14973211,
      "memory(GiB)": 105.75,
      "step": 7735,
      "train_speed(iter/s)": 1.134117
    },
    {
      "acc": 0.71572828,
      "epoch": 0.1963470319634703,
      "grad_norm": 4.8125,
      "learning_rate": 9.936687341014015e-06,
      "loss": 1.20400162,
      "memory(GiB)": 105.75,
      "step": 7740,
      "train_speed(iter/s)": 1.13422
    },
    {
      "acc": 0.73177185,
      "epoch": 0.19647387113140538,
      "grad_norm": 3.546875,
      "learning_rate": 9.936520885150655e-06,
      "loss": 1.09452791,
      "memory(GiB)": 105.75,
      "step": 7745,
      "train_speed(iter/s)": 1.134319
    },
    {
      "acc": 0.7194068,
      "epoch": 0.19660071029934043,
      "grad_norm": 3.640625,
      "learning_rate": 9.936354212157068e-06,
      "loss": 1.20154381,
      "memory(GiB)": 105.75,
      "step": 7750,
      "train_speed(iter/s)": 1.134401
    },
    {
      "acc": 0.71456776,
      "epoch": 0.1967275494672755,
      "grad_norm": 3.140625,
      "learning_rate": 9.936187322040584e-06,
      "loss": 1.19391212,
      "memory(GiB)": 105.75,
      "step": 7755,
      "train_speed(iter/s)": 1.134492
    },
    {
      "acc": 0.71380591,
      "epoch": 0.19685438863521054,
      "grad_norm": 3.328125,
      "learning_rate": 9.936020214808544e-06,
      "loss": 1.19790354,
      "memory(GiB)": 105.75,
      "step": 7760,
      "train_speed(iter/s)": 1.13459
    },
    {
      "acc": 0.73000565,
      "epoch": 0.19698122780314561,
      "grad_norm": 3.515625,
      "learning_rate": 9.935852890468297e-06,
      "loss": 1.1444232,
      "memory(GiB)": 105.75,
      "step": 7765,
      "train_speed(iter/s)": 1.13468
    },
    {
      "acc": 0.71464615,
      "epoch": 0.19710806697108066,
      "grad_norm": 4.96875,
      "learning_rate": 9.935685349027201e-06,
      "loss": 1.14356165,
      "memory(GiB)": 105.75,
      "step": 7770,
      "train_speed(iter/s)": 1.134804
    },
    {
      "acc": 0.71936336,
      "epoch": 0.19723490613901573,
      "grad_norm": 3.71875,
      "learning_rate": 9.935517590492627e-06,
      "loss": 1.13806477,
      "memory(GiB)": 105.75,
      "step": 7775,
      "train_speed(iter/s)": 1.134909
    },
    {
      "acc": 0.73532057,
      "epoch": 0.19736174530695078,
      "grad_norm": 3.546875,
      "learning_rate": 9.935349614871957e-06,
      "loss": 1.10696592,
      "memory(GiB)": 105.75,
      "step": 7780,
      "train_speed(iter/s)": 1.134935
    },
    {
      "acc": 0.73207521,
      "epoch": 0.19748858447488585,
      "grad_norm": 3.71875,
      "learning_rate": 9.935181422172574e-06,
      "loss": 1.15266953,
      "memory(GiB)": 105.75,
      "step": 7785,
      "train_speed(iter/s)": 1.135073
    },
    {
      "acc": 0.71355171,
      "epoch": 0.1976154236428209,
      "grad_norm": 4.375,
      "learning_rate": 9.935013012401878e-06,
      "loss": 1.22785492,
      "memory(GiB)": 105.75,
      "step": 7790,
      "train_speed(iter/s)": 1.13515
    },
    {
      "acc": 0.72791834,
      "epoch": 0.19774226281075596,
      "grad_norm": 4.0625,
      "learning_rate": 9.934844385567275e-06,
      "loss": 1.12040873,
      "memory(GiB)": 105.75,
      "step": 7795,
      "train_speed(iter/s)": 1.135283
    },
    {
      "acc": 0.72750001,
      "epoch": 0.197869101978691,
      "grad_norm": 4.0625,
      "learning_rate": 9.934675541676186e-06,
      "loss": 1.11611071,
      "memory(GiB)": 105.75,
      "step": 7800,
      "train_speed(iter/s)": 1.135409
    },
    {
      "acc": 0.74053898,
      "epoch": 0.19799594114662608,
      "grad_norm": 4.5625,
      "learning_rate": 9.934506480736034e-06,
      "loss": 1.0969141,
      "memory(GiB)": 105.75,
      "step": 7805,
      "train_speed(iter/s)": 1.135465
    },
    {
      "acc": 0.72796063,
      "epoch": 0.19812278031456113,
      "grad_norm": 3.75,
      "learning_rate": 9.934337202754257e-06,
      "loss": 1.13007641,
      "memory(GiB)": 105.75,
      "step": 7810,
      "train_speed(iter/s)": 1.135562
    },
    {
      "acc": 0.72816944,
      "epoch": 0.1982496194824962,
      "grad_norm": 4.15625,
      "learning_rate": 9.934167707738298e-06,
      "loss": 1.16344528,
      "memory(GiB)": 105.75,
      "step": 7815,
      "train_speed(iter/s)": 1.135733
    },
    {
      "acc": 0.72947102,
      "epoch": 0.19837645865043124,
      "grad_norm": 4.21875,
      "learning_rate": 9.933997995695615e-06,
      "loss": 1.13017597,
      "memory(GiB)": 105.75,
      "step": 7820,
      "train_speed(iter/s)": 1.135766
    },
    {
      "acc": 0.72002382,
      "epoch": 0.19850329781836631,
      "grad_norm": 3.78125,
      "learning_rate": 9.93382806663367e-06,
      "loss": 1.20512152,
      "memory(GiB)": 105.75,
      "step": 7825,
      "train_speed(iter/s)": 1.13586
    },
    {
      "acc": 0.73247271,
      "epoch": 0.19863013698630136,
      "grad_norm": 3.734375,
      "learning_rate": 9.933657920559939e-06,
      "loss": 1.11208401,
      "memory(GiB)": 105.75,
      "step": 7830,
      "train_speed(iter/s)": 1.13597
    },
    {
      "acc": 0.72439804,
      "epoch": 0.19875697615423643,
      "grad_norm": 3.625,
      "learning_rate": 9.933487557481905e-06,
      "loss": 1.16496353,
      "memory(GiB)": 105.75,
      "step": 7835,
      "train_speed(iter/s)": 1.136074
    },
    {
      "acc": 0.72913952,
      "epoch": 0.19888381532217148,
      "grad_norm": 3.671875,
      "learning_rate": 9.933316977407063e-06,
      "loss": 1.22986813,
      "memory(GiB)": 105.75,
      "step": 7840,
      "train_speed(iter/s)": 1.136183
    },
    {
      "acc": 0.73811445,
      "epoch": 0.19901065449010655,
      "grad_norm": 3.25,
      "learning_rate": 9.933146180342914e-06,
      "loss": 1.06016331,
      "memory(GiB)": 105.75,
      "step": 7845,
      "train_speed(iter/s)": 1.136247
    },
    {
      "acc": 0.72929087,
      "epoch": 0.1991374936580416,
      "grad_norm": 3.421875,
      "learning_rate": 9.932975166296972e-06,
      "loss": 1.15182848,
      "memory(GiB)": 105.75,
      "step": 7850,
      "train_speed(iter/s)": 1.13633
    },
    {
      "acc": 0.72735724,
      "epoch": 0.19926433282597666,
      "grad_norm": 4.09375,
      "learning_rate": 9.932803935276757e-06,
      "loss": 1.10470114,
      "memory(GiB)": 105.75,
      "step": 7855,
      "train_speed(iter/s)": 1.136406
    },
    {
      "acc": 0.71664324,
      "epoch": 0.1993911719939117,
      "grad_norm": 4.5625,
      "learning_rate": 9.932632487289802e-06,
      "loss": 1.20134068,
      "memory(GiB)": 105.75,
      "step": 7860,
      "train_speed(iter/s)": 1.136505
    },
    {
      "acc": 0.71934099,
      "epoch": 0.19951801116184678,
      "grad_norm": 3.75,
      "learning_rate": 9.932460822343649e-06,
      "loss": 1.13048725,
      "memory(GiB)": 105.75,
      "step": 7865,
      "train_speed(iter/s)": 1.136522
    },
    {
      "acc": 0.71473618,
      "epoch": 0.19964485032978183,
      "grad_norm": 3.875,
      "learning_rate": 9.932288940445845e-06,
      "loss": 1.25456066,
      "memory(GiB)": 105.75,
      "step": 7870,
      "train_speed(iter/s)": 1.136677
    },
    {
      "acc": 0.7256834,
      "epoch": 0.1997716894977169,
      "grad_norm": 4.03125,
      "learning_rate": 9.932116841603954e-06,
      "loss": 1.10730124,
      "memory(GiB)": 105.75,
      "step": 7875,
      "train_speed(iter/s)": 1.136801
    },
    {
      "acc": 0.7347199,
      "epoch": 0.19989852866565194,
      "grad_norm": 5.0625,
      "learning_rate": 9.931944525825542e-06,
      "loss": 1.137957,
      "memory(GiB)": 105.75,
      "step": 7880,
      "train_speed(iter/s)": 1.13688
    },
    {
      "acc": 0.72671404,
      "epoch": 0.20002536783358701,
      "grad_norm": 4.3125,
      "learning_rate": 9.931771993118191e-06,
      "loss": 1.08347931,
      "memory(GiB)": 105.75,
      "step": 7885,
      "train_speed(iter/s)": 1.136894
    },
    {
      "acc": 0.72689443,
      "epoch": 0.20015220700152206,
      "grad_norm": 2.875,
      "learning_rate": 9.931599243489489e-06,
      "loss": 1.16444702,
      "memory(GiB)": 105.75,
      "step": 7890,
      "train_speed(iter/s)": 1.13705
    },
    {
      "acc": 0.72087626,
      "epoch": 0.20027904616945713,
      "grad_norm": 3.96875,
      "learning_rate": 9.931426276947037e-06,
      "loss": 1.14236631,
      "memory(GiB)": 105.75,
      "step": 7895,
      "train_speed(iter/s)": 1.137184
    },
    {
      "acc": 0.71758862,
      "epoch": 0.20040588533739218,
      "grad_norm": 4.21875,
      "learning_rate": 9.931253093498437e-06,
      "loss": 1.15109072,
      "memory(GiB)": 105.75,
      "step": 7900,
      "train_speed(iter/s)": 1.137268
    },
    {
      "acc": 0.72181993,
      "epoch": 0.20053272450532725,
      "grad_norm": 2.8125,
      "learning_rate": 9.93107969315131e-06,
      "loss": 1.12441483,
      "memory(GiB)": 105.75,
      "step": 7905,
      "train_speed(iter/s)": 1.137401
    },
    {
      "acc": 0.73818069,
      "epoch": 0.2006595636732623,
      "grad_norm": 3.171875,
      "learning_rate": 9.930906075913281e-06,
      "loss": 1.14546947,
      "memory(GiB)": 105.75,
      "step": 7910,
      "train_speed(iter/s)": 1.137488
    },
    {
      "acc": 0.73970528,
      "epoch": 0.20078640284119736,
      "grad_norm": 3.125,
      "learning_rate": 9.93073224179199e-06,
      "loss": 1.10083618,
      "memory(GiB)": 105.75,
      "step": 7915,
      "train_speed(iter/s)": 1.13752
    },
    {
      "acc": 0.71902924,
      "epoch": 0.2009132420091324,
      "grad_norm": 4.3125,
      "learning_rate": 9.93055819079508e-06,
      "loss": 1.18406677,
      "memory(GiB)": 105.75,
      "step": 7920,
      "train_speed(iter/s)": 1.137607
    },
    {
      "acc": 0.72442818,
      "epoch": 0.20104008117706748,
      "grad_norm": 3.109375,
      "learning_rate": 9.930383922930207e-06,
      "loss": 1.21450233,
      "memory(GiB)": 105.75,
      "step": 7925,
      "train_speed(iter/s)": 1.137713
    },
    {
      "acc": 0.71407223,
      "epoch": 0.20116692034500253,
      "grad_norm": 3.84375,
      "learning_rate": 9.930209438205038e-06,
      "loss": 1.16929302,
      "memory(GiB)": 105.75,
      "step": 7930,
      "train_speed(iter/s)": 1.137781
    },
    {
      "acc": 0.72059608,
      "epoch": 0.2012937595129376,
      "grad_norm": 3.40625,
      "learning_rate": 9.930034736627245e-06,
      "loss": 1.15772133,
      "memory(GiB)": 105.75,
      "step": 7935,
      "train_speed(iter/s)": 1.13792
    },
    {
      "acc": 0.73034821,
      "epoch": 0.20142059868087264,
      "grad_norm": 3.671875,
      "learning_rate": 9.929859818204514e-06,
      "loss": 1.11735868,
      "memory(GiB)": 105.75,
      "step": 7940,
      "train_speed(iter/s)": 1.138038
    },
    {
      "acc": 0.73668914,
      "epoch": 0.20154743784880771,
      "grad_norm": 3.25,
      "learning_rate": 9.929684682944538e-06,
      "loss": 1.04593754,
      "memory(GiB)": 105.75,
      "step": 7945,
      "train_speed(iter/s)": 1.138071
    },
    {
      "acc": 0.72231541,
      "epoch": 0.20167427701674276,
      "grad_norm": 3.59375,
      "learning_rate": 9.929509330855018e-06,
      "loss": 1.17253342,
      "memory(GiB)": 105.75,
      "step": 7950,
      "train_speed(iter/s)": 1.138161
    },
    {
      "acc": 0.71681452,
      "epoch": 0.20180111618467783,
      "grad_norm": 3.5,
      "learning_rate": 9.929333761943672e-06,
      "loss": 1.19786901,
      "memory(GiB)": 105.75,
      "step": 7955,
      "train_speed(iter/s)": 1.138301
    },
    {
      "acc": 0.7133913,
      "epoch": 0.20192795535261288,
      "grad_norm": 4.15625,
      "learning_rate": 9.929157976218218e-06,
      "loss": 1.21287861,
      "memory(GiB)": 105.75,
      "step": 7960,
      "train_speed(iter/s)": 1.138434
    },
    {
      "acc": 0.71842518,
      "epoch": 0.20205479452054795,
      "grad_norm": 4.375,
      "learning_rate": 9.928981973686388e-06,
      "loss": 1.19988241,
      "memory(GiB)": 105.75,
      "step": 7965,
      "train_speed(iter/s)": 1.138555
    },
    {
      "acc": 0.73338099,
      "epoch": 0.202181633688483,
      "grad_norm": 3.25,
      "learning_rate": 9.928805754355926e-06,
      "loss": 1.06737394,
      "memory(GiB)": 105.75,
      "step": 7970,
      "train_speed(iter/s)": 1.138631
    },
    {
      "acc": 0.7272172,
      "epoch": 0.20230847285641806,
      "grad_norm": 4.34375,
      "learning_rate": 9.92862931823458e-06,
      "loss": 1.11697426,
      "memory(GiB)": 105.75,
      "step": 7975,
      "train_speed(iter/s)": 1.138742
    },
    {
      "acc": 0.72780685,
      "epoch": 0.2024353120243531,
      "grad_norm": 4.25,
      "learning_rate": 9.928452665330113e-06,
      "loss": 1.17477055,
      "memory(GiB)": 105.75,
      "step": 7980,
      "train_speed(iter/s)": 1.138809
    },
    {
      "acc": 0.7123631,
      "epoch": 0.20256215119228818,
      "grad_norm": 3.796875,
      "learning_rate": 9.928275795650293e-06,
      "loss": 1.20336027,
      "memory(GiB)": 105.75,
      "step": 7985,
      "train_speed(iter/s)": 1.138818
    },
    {
      "acc": 0.73639045,
      "epoch": 0.20268899036022323,
      "grad_norm": 3.59375,
      "learning_rate": 9.928098709202901e-06,
      "loss": 1.10327129,
      "memory(GiB)": 105.75,
      "step": 7990,
      "train_speed(iter/s)": 1.138928
    },
    {
      "acc": 0.71921625,
      "epoch": 0.2028158295281583,
      "grad_norm": 4.65625,
      "learning_rate": 9.927921405995727e-06,
      "loss": 1.17905855,
      "memory(GiB)": 105.75,
      "step": 7995,
      "train_speed(iter/s)": 1.139037
    },
    {
      "acc": 0.74113812,
      "epoch": 0.20294266869609334,
      "grad_norm": 3.9375,
      "learning_rate": 9.927743886036566e-06,
      "loss": 1.16721649,
      "memory(GiB)": 105.75,
      "step": 8000,
      "train_speed(iter/s)": 1.13902
    },
    {
      "epoch": 0.20294266869609334,
      "eval_acc": 0.7129878022039983,
      "eval_loss": 1.1124086380004883,
      "eval_runtime": 70.926,
      "eval_samples_per_second": 89.812,
      "eval_steps_per_second": 22.46,
      "step": 8000
    },
    {
      "acc": 0.73691449,
      "epoch": 0.20306950786402841,
      "grad_norm": 3.375,
      "learning_rate": 9.927566149333228e-06,
      "loss": 1.09677658,
      "memory(GiB)": 105.75,
      "step": 8005,
      "train_speed(iter/s)": 1.120556
    },
    {
      "acc": 0.71887693,
      "epoch": 0.20319634703196346,
      "grad_norm": 3.953125,
      "learning_rate": 9.92738819589353e-06,
      "loss": 1.14251795,
      "memory(GiB)": 105.75,
      "step": 8010,
      "train_speed(iter/s)": 1.120642
    },
    {
      "acc": 0.72393713,
      "epoch": 0.20332318619989853,
      "grad_norm": 4.3125,
      "learning_rate": 9.927210025725301e-06,
      "loss": 1.13467617,
      "memory(GiB)": 105.75,
      "step": 8015,
      "train_speed(iter/s)": 1.120717
    },
    {
      "acc": 0.7240171,
      "epoch": 0.20345002536783358,
      "grad_norm": 4.1875,
      "learning_rate": 9.927031638836377e-06,
      "loss": 1.18628712,
      "memory(GiB)": 105.75,
      "step": 8020,
      "train_speed(iter/s)": 1.12079
    },
    {
      "acc": 0.7209909,
      "epoch": 0.20357686453576865,
      "grad_norm": 4.46875,
      "learning_rate": 9.926853035234603e-06,
      "loss": 1.16182232,
      "memory(GiB)": 105.75,
      "step": 8025,
      "train_speed(iter/s)": 1.120875
    },
    {
      "acc": 0.73185644,
      "epoch": 0.2037037037037037,
      "grad_norm": 4.46875,
      "learning_rate": 9.926674214927836e-06,
      "loss": 1.19548292,
      "memory(GiB)": 105.75,
      "step": 8030,
      "train_speed(iter/s)": 1.120954
    },
    {
      "acc": 0.72364864,
      "epoch": 0.20383054287163876,
      "grad_norm": 3.1875,
      "learning_rate": 9.926495177923941e-06,
      "loss": 1.11289577,
      "memory(GiB)": 105.75,
      "step": 8035,
      "train_speed(iter/s)": 1.121086
    },
    {
      "acc": 0.72357979,
      "epoch": 0.2039573820395738,
      "grad_norm": 4.1875,
      "learning_rate": 9.926315924230794e-06,
      "loss": 1.14294872,
      "memory(GiB)": 105.75,
      "step": 8040,
      "train_speed(iter/s)": 1.121159
    },
    {
      "acc": 0.72268581,
      "epoch": 0.20408422120750888,
      "grad_norm": 3.46875,
      "learning_rate": 9.926136453856277e-06,
      "loss": 1.17177525,
      "memory(GiB)": 105.75,
      "step": 8045,
      "train_speed(iter/s)": 1.121259
    },
    {
      "acc": 0.73149142,
      "epoch": 0.20421106037544393,
      "grad_norm": 3.34375,
      "learning_rate": 9.925956766808286e-06,
      "loss": 1.14510574,
      "memory(GiB)": 105.75,
      "step": 8050,
      "train_speed(iter/s)": 1.121366
    },
    {
      "acc": 0.71574521,
      "epoch": 0.204337899543379,
      "grad_norm": 3.40625,
      "learning_rate": 9.925776863094723e-06,
      "loss": 1.14666367,
      "memory(GiB)": 105.75,
      "step": 8055,
      "train_speed(iter/s)": 1.121487
    },
    {
      "acc": 0.71468258,
      "epoch": 0.20446473871131404,
      "grad_norm": 3.53125,
      "learning_rate": 9.9255967427235e-06,
      "loss": 1.17707081,
      "memory(GiB)": 105.75,
      "step": 8060,
      "train_speed(iter/s)": 1.121613
    },
    {
      "acc": 0.7280129,
      "epoch": 0.20459157787924911,
      "grad_norm": 3.59375,
      "learning_rate": 9.925416405702544e-06,
      "loss": 1.11617832,
      "memory(GiB)": 105.75,
      "step": 8065,
      "train_speed(iter/s)": 1.121742
    },
    {
      "acc": 0.7269207,
      "epoch": 0.20471841704718416,
      "grad_norm": 3.78125,
      "learning_rate": 9.925235852039783e-06,
      "loss": 1.16444025,
      "memory(GiB)": 105.75,
      "step": 8070,
      "train_speed(iter/s)": 1.121839
    },
    {
      "acc": 0.7174017,
      "epoch": 0.20484525621511923,
      "grad_norm": 5.71875,
      "learning_rate": 9.92505508174316e-06,
      "loss": 1.20767498,
      "memory(GiB)": 105.75,
      "step": 8075,
      "train_speed(iter/s)": 1.121953
    },
    {
      "acc": 0.72791772,
      "epoch": 0.20497209538305428,
      "grad_norm": 5.65625,
      "learning_rate": 9.924874094820625e-06,
      "loss": 1.12420998,
      "memory(GiB)": 105.75,
      "step": 8080,
      "train_speed(iter/s)": 1.122011
    },
    {
      "acc": 0.72826414,
      "epoch": 0.20509893455098935,
      "grad_norm": 4.40625,
      "learning_rate": 9.924692891280139e-06,
      "loss": 1.1337656,
      "memory(GiB)": 105.75,
      "step": 8085,
      "train_speed(iter/s)": 1.122128
    },
    {
      "acc": 0.72866025,
      "epoch": 0.2052257737189244,
      "grad_norm": 3.65625,
      "learning_rate": 9.924511471129673e-06,
      "loss": 1.08940706,
      "memory(GiB)": 105.75,
      "step": 8090,
      "train_speed(iter/s)": 1.122216
    },
    {
      "acc": 0.72074981,
      "epoch": 0.20535261288685946,
      "grad_norm": 3.90625,
      "learning_rate": 9.924329834377206e-06,
      "loss": 1.12280684,
      "memory(GiB)": 105.75,
      "step": 8095,
      "train_speed(iter/s)": 1.122312
    },
    {
      "acc": 0.72558856,
      "epoch": 0.2054794520547945,
      "grad_norm": 4.21875,
      "learning_rate": 9.924147981030728e-06,
      "loss": 1.12580528,
      "memory(GiB)": 105.75,
      "step": 8100,
      "train_speed(iter/s)": 1.122444
    },
    {
      "acc": 0.73652868,
      "epoch": 0.20560629122272958,
      "grad_norm": 3.421875,
      "learning_rate": 9.923965911098235e-06,
      "loss": 1.0990345,
      "memory(GiB)": 105.75,
      "step": 8105,
      "train_speed(iter/s)": 1.122457
    },
    {
      "acc": 0.70679703,
      "epoch": 0.20573313039066463,
      "grad_norm": 4.9375,
      "learning_rate": 9.92378362458774e-06,
      "loss": 1.22586536,
      "memory(GiB)": 105.75,
      "step": 8110,
      "train_speed(iter/s)": 1.122571
    },
    {
      "acc": 0.7274332,
      "epoch": 0.2058599695585997,
      "grad_norm": 3.40625,
      "learning_rate": 9.923601121507256e-06,
      "loss": 1.13794556,
      "memory(GiB)": 105.75,
      "step": 8115,
      "train_speed(iter/s)": 1.122657
    },
    {
      "acc": 0.71221972,
      "epoch": 0.20598680872653474,
      "grad_norm": 4.09375,
      "learning_rate": 9.923418401864812e-06,
      "loss": 1.17517071,
      "memory(GiB)": 105.75,
      "step": 8120,
      "train_speed(iter/s)": 1.122702
    },
    {
      "acc": 0.72448664,
      "epoch": 0.20611364789446981,
      "grad_norm": 4.125,
      "learning_rate": 9.923235465668447e-06,
      "loss": 1.10230923,
      "memory(GiB)": 105.75,
      "step": 8125,
      "train_speed(iter/s)": 1.122817
    },
    {
      "acc": 0.72849255,
      "epoch": 0.20624048706240486,
      "grad_norm": 4.09375,
      "learning_rate": 9.923052312926204e-06,
      "loss": 1.13015842,
      "memory(GiB)": 105.75,
      "step": 8130,
      "train_speed(iter/s)": 1.122897
    },
    {
      "acc": 0.72207613,
      "epoch": 0.20636732623033993,
      "grad_norm": 3.421875,
      "learning_rate": 9.922868943646142e-06,
      "loss": 1.1292757,
      "memory(GiB)": 105.75,
      "step": 8135,
      "train_speed(iter/s)": 1.122995
    },
    {
      "acc": 0.72033229,
      "epoch": 0.20649416539827498,
      "grad_norm": 4.65625,
      "learning_rate": 9.922685357836324e-06,
      "loss": 1.12342281,
      "memory(GiB)": 105.75,
      "step": 8140,
      "train_speed(iter/s)": 1.123079
    },
    {
      "acc": 0.72362323,
      "epoch": 0.20662100456621005,
      "grad_norm": 3.953125,
      "learning_rate": 9.922501555504827e-06,
      "loss": 1.15121241,
      "memory(GiB)": 105.75,
      "step": 8145,
      "train_speed(iter/s)": 1.123185
    },
    {
      "acc": 0.72297812,
      "epoch": 0.2067478437341451,
      "grad_norm": 3.734375,
      "learning_rate": 9.922317536659733e-06,
      "loss": 1.12413282,
      "memory(GiB)": 105.75,
      "step": 8150,
      "train_speed(iter/s)": 1.123282
    },
    {
      "acc": 0.7361371,
      "epoch": 0.20687468290208016,
      "grad_norm": 3.640625,
      "learning_rate": 9.922133301309136e-06,
      "loss": 1.11797009,
      "memory(GiB)": 105.75,
      "step": 8155,
      "train_speed(iter/s)": 1.123413
    },
    {
      "acc": 0.72831001,
      "epoch": 0.2070015220700152,
      "grad_norm": 4.59375,
      "learning_rate": 9.921948849461142e-06,
      "loss": 1.17312632,
      "memory(GiB)": 105.75,
      "step": 8160,
      "train_speed(iter/s)": 1.123533
    },
    {
      "acc": 0.73035321,
      "epoch": 0.20712836123795028,
      "grad_norm": 3.859375,
      "learning_rate": 9.921764181123864e-06,
      "loss": 1.10486135,
      "memory(GiB)": 105.75,
      "step": 8165,
      "train_speed(iter/s)": 1.123669
    },
    {
      "acc": 0.73169069,
      "epoch": 0.20725520040588533,
      "grad_norm": 4.71875,
      "learning_rate": 9.921579296305421e-06,
      "loss": 1.12967596,
      "memory(GiB)": 105.75,
      "step": 8170,
      "train_speed(iter/s)": 1.123639
    },
    {
      "acc": 0.71137257,
      "epoch": 0.2073820395738204,
      "grad_norm": 3.96875,
      "learning_rate": 9.921394195013949e-06,
      "loss": 1.14143486,
      "memory(GiB)": 105.75,
      "step": 8175,
      "train_speed(iter/s)": 1.123774
    },
    {
      "acc": 0.72562995,
      "epoch": 0.20750887874175544,
      "grad_norm": 3.640625,
      "learning_rate": 9.921208877257586e-06,
      "loss": 1.16891289,
      "memory(GiB)": 105.75,
      "step": 8180,
      "train_speed(iter/s)": 1.123784
    },
    {
      "acc": 0.72634664,
      "epoch": 0.20763571790969051,
      "grad_norm": 5.375,
      "learning_rate": 9.921023343044486e-06,
      "loss": 1.14687443,
      "memory(GiB)": 105.75,
      "step": 8185,
      "train_speed(iter/s)": 1.123765
    },
    {
      "acc": 0.73586106,
      "epoch": 0.20776255707762556,
      "grad_norm": 4.90625,
      "learning_rate": 9.92083759238281e-06,
      "loss": 1.08427639,
      "memory(GiB)": 105.75,
      "step": 8190,
      "train_speed(iter/s)": 1.123827
    },
    {
      "acc": 0.7315279,
      "epoch": 0.20788939624556063,
      "grad_norm": 3.53125,
      "learning_rate": 9.920651625280725e-06,
      "loss": 1.17449694,
      "memory(GiB)": 105.75,
      "step": 8195,
      "train_speed(iter/s)": 1.12395
    },
    {
      "acc": 0.72166257,
      "epoch": 0.20801623541349568,
      "grad_norm": 4.28125,
      "learning_rate": 9.920465441746412e-06,
      "loss": 1.1579463,
      "memory(GiB)": 105.75,
      "step": 8200,
      "train_speed(iter/s)": 1.124111
    },
    {
      "acc": 0.72097573,
      "epoch": 0.20814307458143075,
      "grad_norm": 3.296875,
      "learning_rate": 9.920279041788062e-06,
      "loss": 1.17685156,
      "memory(GiB)": 105.75,
      "step": 8205,
      "train_speed(iter/s)": 1.124234
    },
    {
      "acc": 0.7300869,
      "epoch": 0.2082699137493658,
      "grad_norm": 3.828125,
      "learning_rate": 9.920092425413871e-06,
      "loss": 1.13192711,
      "memory(GiB)": 105.75,
      "step": 8210,
      "train_speed(iter/s)": 1.12435
    },
    {
      "acc": 0.7283411,
      "epoch": 0.20839675291730086,
      "grad_norm": 3.625,
      "learning_rate": 9.919905592632048e-06,
      "loss": 1.07926378,
      "memory(GiB)": 105.75,
      "step": 8215,
      "train_speed(iter/s)": 1.124414
    },
    {
      "acc": 0.71539974,
      "epoch": 0.2085235920852359,
      "grad_norm": 4.125,
      "learning_rate": 9.919718543450813e-06,
      "loss": 1.12388325,
      "memory(GiB)": 105.75,
      "step": 8220,
      "train_speed(iter/s)": 1.124517
    },
    {
      "acc": 0.7211257,
      "epoch": 0.20865043125317098,
      "grad_norm": 4.6875,
      "learning_rate": 9.919531277878391e-06,
      "loss": 1.17633667,
      "memory(GiB)": 105.75,
      "step": 8225,
      "train_speed(iter/s)": 1.124588
    },
    {
      "acc": 0.72759061,
      "epoch": 0.20877727042110603,
      "grad_norm": 5.59375,
      "learning_rate": 9.91934379592302e-06,
      "loss": 1.08918667,
      "memory(GiB)": 105.75,
      "step": 8230,
      "train_speed(iter/s)": 1.124663
    },
    {
      "acc": 0.73432255,
      "epoch": 0.2089041095890411,
      "grad_norm": 3.109375,
      "learning_rate": 9.919156097592944e-06,
      "loss": 1.05500641,
      "memory(GiB)": 105.75,
      "step": 8235,
      "train_speed(iter/s)": 1.124774
    },
    {
      "acc": 0.72889667,
      "epoch": 0.20903094875697614,
      "grad_norm": 4.15625,
      "learning_rate": 9.91896818289642e-06,
      "loss": 1.09493694,
      "memory(GiB)": 105.75,
      "step": 8240,
      "train_speed(iter/s)": 1.124851
    },
    {
      "acc": 0.72787323,
      "epoch": 0.20915778792491121,
      "grad_norm": 3.53125,
      "learning_rate": 9.918780051841716e-06,
      "loss": 1.14830656,
      "memory(GiB)": 105.75,
      "step": 8245,
      "train_speed(iter/s)": 1.124954
    },
    {
      "acc": 0.72264948,
      "epoch": 0.20928462709284626,
      "grad_norm": 3.484375,
      "learning_rate": 9.918591704437103e-06,
      "loss": 1.12773094,
      "memory(GiB)": 105.75,
      "step": 8250,
      "train_speed(iter/s)": 1.124958
    },
    {
      "acc": 0.72373018,
      "epoch": 0.20941146626078133,
      "grad_norm": 3.78125,
      "learning_rate": 9.918403140690866e-06,
      "loss": 1.13738546,
      "memory(GiB)": 105.75,
      "step": 8255,
      "train_speed(iter/s)": 1.125054
    },
    {
      "acc": 0.72160196,
      "epoch": 0.20953830542871638,
      "grad_norm": 3.53125,
      "learning_rate": 9.918214360611302e-06,
      "loss": 1.14533148,
      "memory(GiB)": 105.75,
      "step": 8260,
      "train_speed(iter/s)": 1.125179
    },
    {
      "acc": 0.72501893,
      "epoch": 0.20966514459665145,
      "grad_norm": 4.6875,
      "learning_rate": 9.918025364206712e-06,
      "loss": 1.13244934,
      "memory(GiB)": 105.75,
      "step": 8265,
      "train_speed(iter/s)": 1.125236
    },
    {
      "acc": 0.72468524,
      "epoch": 0.2097919837645865,
      "grad_norm": 3.421875,
      "learning_rate": 9.917836151485407e-06,
      "loss": 1.12786407,
      "memory(GiB)": 105.75,
      "step": 8270,
      "train_speed(iter/s)": 1.125331
    },
    {
      "acc": 0.73086596,
      "epoch": 0.20991882293252156,
      "grad_norm": 3.390625,
      "learning_rate": 9.917646722455713e-06,
      "loss": 1.15767822,
      "memory(GiB)": 105.75,
      "step": 8275,
      "train_speed(iter/s)": 1.125398
    },
    {
      "acc": 0.72514839,
      "epoch": 0.2100456621004566,
      "grad_norm": 3.84375,
      "learning_rate": 9.91745707712596e-06,
      "loss": 1.12492752,
      "memory(GiB)": 105.75,
      "step": 8280,
      "train_speed(iter/s)": 1.125501
    },
    {
      "acc": 0.72501359,
      "epoch": 0.21017250126839168,
      "grad_norm": 4.03125,
      "learning_rate": 9.91726721550449e-06,
      "loss": 1.15461855,
      "memory(GiB)": 105.75,
      "step": 8285,
      "train_speed(iter/s)": 1.125605
    },
    {
      "acc": 0.72435217,
      "epoch": 0.21029934043632673,
      "grad_norm": 2.96875,
      "learning_rate": 9.917077137599653e-06,
      "loss": 1.0964201,
      "memory(GiB)": 105.75,
      "step": 8290,
      "train_speed(iter/s)": 1.125691
    },
    {
      "acc": 0.7165225,
      "epoch": 0.2104261796042618,
      "grad_norm": 3.40625,
      "learning_rate": 9.916886843419811e-06,
      "loss": 1.17038803,
      "memory(GiB)": 105.75,
      "step": 8295,
      "train_speed(iter/s)": 1.125802
    },
    {
      "acc": 0.73790827,
      "epoch": 0.21055301877219684,
      "grad_norm": 4.0,
      "learning_rate": 9.916696332973334e-06,
      "loss": 1.14444942,
      "memory(GiB)": 105.75,
      "step": 8300,
      "train_speed(iter/s)": 1.125838
    },
    {
      "acc": 0.72265615,
      "epoch": 0.21067985794013191,
      "grad_norm": 3.90625,
      "learning_rate": 9.9165056062686e-06,
      "loss": 1.1140192,
      "memory(GiB)": 105.75,
      "step": 8305,
      "train_speed(iter/s)": 1.125953
    },
    {
      "acc": 0.71736321,
      "epoch": 0.21080669710806696,
      "grad_norm": 4.96875,
      "learning_rate": 9.916314663314e-06,
      "loss": 1.15492668,
      "memory(GiB)": 105.75,
      "step": 8310,
      "train_speed(iter/s)": 1.126055
    },
    {
      "acc": 0.72941318,
      "epoch": 0.21093353627600203,
      "grad_norm": 3.515625,
      "learning_rate": 9.91612350411793e-06,
      "loss": 1.14007387,
      "memory(GiB)": 105.75,
      "step": 8315,
      "train_speed(iter/s)": 1.126152
    },
    {
      "acc": 0.73733816,
      "epoch": 0.21106037544393708,
      "grad_norm": 4.21875,
      "learning_rate": 9.9159321286888e-06,
      "loss": 1.10029373,
      "memory(GiB)": 105.75,
      "step": 8320,
      "train_speed(iter/s)": 1.126215
    },
    {
      "acc": 0.72480049,
      "epoch": 0.21118721461187215,
      "grad_norm": 3.421875,
      "learning_rate": 9.915740537035026e-06,
      "loss": 1.15828438,
      "memory(GiB)": 105.75,
      "step": 8325,
      "train_speed(iter/s)": 1.126341
    },
    {
      "acc": 0.7223012,
      "epoch": 0.2113140537798072,
      "grad_norm": 4.21875,
      "learning_rate": 9.915548729165036e-06,
      "loss": 1.17713785,
      "memory(GiB)": 105.75,
      "step": 8330,
      "train_speed(iter/s)": 1.126451
    },
    {
      "acc": 0.74432569,
      "epoch": 0.21144089294774226,
      "grad_norm": 4.0,
      "learning_rate": 9.915356705087269e-06,
      "loss": 1.08875237,
      "memory(GiB)": 105.75,
      "step": 8335,
      "train_speed(iter/s)": 1.126501
    },
    {
      "acc": 0.71883645,
      "epoch": 0.2115677321156773,
      "grad_norm": 3.9375,
      "learning_rate": 9.915164464810166e-06,
      "loss": 1.16298008,
      "memory(GiB)": 105.75,
      "step": 8340,
      "train_speed(iter/s)": 1.126578
    },
    {
      "acc": 0.73407264,
      "epoch": 0.21169457128361238,
      "grad_norm": 3.984375,
      "learning_rate": 9.914972008342186e-06,
      "loss": 1.12235098,
      "memory(GiB)": 105.75,
      "step": 8345,
      "train_speed(iter/s)": 1.126562
    },
    {
      "acc": 0.71288376,
      "epoch": 0.21182141045154743,
      "grad_norm": 3.6875,
      "learning_rate": 9.914779335691793e-06,
      "loss": 1.18808174,
      "memory(GiB)": 105.75,
      "step": 8350,
      "train_speed(iter/s)": 1.126638
    },
    {
      "acc": 0.71592026,
      "epoch": 0.2119482496194825,
      "grad_norm": 3.421875,
      "learning_rate": 9.914586446867463e-06,
      "loss": 1.19773903,
      "memory(GiB)": 105.75,
      "step": 8355,
      "train_speed(iter/s)": 1.126734
    },
    {
      "acc": 0.7278264,
      "epoch": 0.21207508878741754,
      "grad_norm": 3.78125,
      "learning_rate": 9.914393341877678e-06,
      "loss": 1.15153952,
      "memory(GiB)": 105.75,
      "step": 8360,
      "train_speed(iter/s)": 1.126848
    },
    {
      "acc": 0.72271476,
      "epoch": 0.21220192795535261,
      "grad_norm": 3.96875,
      "learning_rate": 9.914200020730932e-06,
      "loss": 1.15317717,
      "memory(GiB)": 105.75,
      "step": 8365,
      "train_speed(iter/s)": 1.126899
    },
    {
      "acc": 0.72699566,
      "epoch": 0.21232876712328766,
      "grad_norm": 4.0625,
      "learning_rate": 9.914006483435732e-06,
      "loss": 1.11093779,
      "memory(GiB)": 105.75,
      "step": 8370,
      "train_speed(iter/s)": 1.127015
    },
    {
      "acc": 0.71777396,
      "epoch": 0.21245560629122273,
      "grad_norm": 3.484375,
      "learning_rate": 9.913812730000585e-06,
      "loss": 1.16298447,
      "memory(GiB)": 105.75,
      "step": 8375,
      "train_speed(iter/s)": 1.127066
    },
    {
      "acc": 0.73588018,
      "epoch": 0.21258244545915778,
      "grad_norm": 4.59375,
      "learning_rate": 9.913618760434015e-06,
      "loss": 1.1566,
      "memory(GiB)": 105.75,
      "step": 8380,
      "train_speed(iter/s)": 1.127211
    },
    {
      "acc": 0.72871299,
      "epoch": 0.21270928462709285,
      "grad_norm": 3.84375,
      "learning_rate": 9.913424574744555e-06,
      "loss": 1.06825714,
      "memory(GiB)": 105.75,
      "step": 8385,
      "train_speed(iter/s)": 1.127318
    },
    {
      "acc": 0.73067722,
      "epoch": 0.2128361237950279,
      "grad_norm": 3.9375,
      "learning_rate": 9.913230172940744e-06,
      "loss": 1.13090172,
      "memory(GiB)": 105.75,
      "step": 8390,
      "train_speed(iter/s)": 1.127383
    },
    {
      "acc": 0.71070814,
      "epoch": 0.21296296296296297,
      "grad_norm": 3.6875,
      "learning_rate": 9.913035555031136e-06,
      "loss": 1.18466816,
      "memory(GiB)": 105.75,
      "step": 8395,
      "train_speed(iter/s)": 1.127503
    },
    {
      "acc": 0.72711067,
      "epoch": 0.213089802130898,
      "grad_norm": 3.46875,
      "learning_rate": 9.912840721024288e-06,
      "loss": 1.10359488,
      "memory(GiB)": 105.75,
      "step": 8400,
      "train_speed(iter/s)": 1.12759
    },
    {
      "acc": 0.74916773,
      "epoch": 0.21321664129883308,
      "grad_norm": 3.40625,
      "learning_rate": 9.91264567092877e-06,
      "loss": 1.05658169,
      "memory(GiB)": 105.75,
      "step": 8405,
      "train_speed(iter/s)": 1.127723
    },
    {
      "acc": 0.72103086,
      "epoch": 0.21334348046676813,
      "grad_norm": 4.40625,
      "learning_rate": 9.912450404753164e-06,
      "loss": 1.2014658,
      "memory(GiB)": 105.75,
      "step": 8410,
      "train_speed(iter/s)": 1.12787
    },
    {
      "acc": 0.73184743,
      "epoch": 0.2134703196347032,
      "grad_norm": 4.34375,
      "learning_rate": 9.912254922506057e-06,
      "loss": 1.14118309,
      "memory(GiB)": 105.75,
      "step": 8415,
      "train_speed(iter/s)": 1.127992
    },
    {
      "acc": 0.7223938,
      "epoch": 0.21359715880263824,
      "grad_norm": 3.875,
      "learning_rate": 9.912059224196044e-06,
      "loss": 1.16406269,
      "memory(GiB)": 105.75,
      "step": 8420,
      "train_speed(iter/s)": 1.128098
    },
    {
      "acc": 0.7252367,
      "epoch": 0.21372399797057332,
      "grad_norm": 3.5,
      "learning_rate": 9.911863309831738e-06,
      "loss": 1.10650978,
      "memory(GiB)": 105.75,
      "step": 8425,
      "train_speed(iter/s)": 1.128185
    },
    {
      "acc": 0.71206331,
      "epoch": 0.21385083713850836,
      "grad_norm": 4.0,
      "learning_rate": 9.911667179421753e-06,
      "loss": 1.21862211,
      "memory(GiB)": 105.75,
      "step": 8430,
      "train_speed(iter/s)": 1.128328
    },
    {
      "acc": 0.73608074,
      "epoch": 0.21397767630644343,
      "grad_norm": 3.296875,
      "learning_rate": 9.911470832974717e-06,
      "loss": 1.09144688,
      "memory(GiB)": 105.75,
      "step": 8435,
      "train_speed(iter/s)": 1.128405
    },
    {
      "acc": 0.71896877,
      "epoch": 0.21410451547437848,
      "grad_norm": 3.609375,
      "learning_rate": 9.911274270499265e-06,
      "loss": 1.10453053,
      "memory(GiB)": 105.75,
      "step": 8440,
      "train_speed(iter/s)": 1.128505
    },
    {
      "acc": 0.73848896,
      "epoch": 0.21423135464231355,
      "grad_norm": 4.84375,
      "learning_rate": 9.911077492004044e-06,
      "loss": 1.11602087,
      "memory(GiB)": 105.75,
      "step": 8445,
      "train_speed(iter/s)": 1.128542
    },
    {
      "acc": 0.72528491,
      "epoch": 0.2143581938102486,
      "grad_norm": 3.796875,
      "learning_rate": 9.910880497497707e-06,
      "loss": 1.10661039,
      "memory(GiB)": 105.75,
      "step": 8450,
      "train_speed(iter/s)": 1.128636
    },
    {
      "acc": 0.72816944,
      "epoch": 0.21448503297818367,
      "grad_norm": 3.671875,
      "learning_rate": 9.910683286988922e-06,
      "loss": 1.11071167,
      "memory(GiB)": 105.75,
      "step": 8455,
      "train_speed(iter/s)": 1.128763
    },
    {
      "acc": 0.71410737,
      "epoch": 0.2146118721461187,
      "grad_norm": 3.78125,
      "learning_rate": 9.910485860486361e-06,
      "loss": 1.16077614,
      "memory(GiB)": 105.75,
      "step": 8460,
      "train_speed(iter/s)": 1.128904
    },
    {
      "acc": 0.71666007,
      "epoch": 0.21473871131405378,
      "grad_norm": 3.796875,
      "learning_rate": 9.910288217998707e-06,
      "loss": 1.17831001,
      "memory(GiB)": 105.75,
      "step": 8465,
      "train_speed(iter/s)": 1.129006
    },
    {
      "acc": 0.72176189,
      "epoch": 0.21486555048198883,
      "grad_norm": 3.671875,
      "learning_rate": 9.910090359534654e-06,
      "loss": 1.1573103,
      "memory(GiB)": 105.75,
      "step": 8470,
      "train_speed(iter/s)": 1.129086
    },
    {
      "acc": 0.7370544,
      "epoch": 0.2149923896499239,
      "grad_norm": 3.921875,
      "learning_rate": 9.909892285102907e-06,
      "loss": 1.13399229,
      "memory(GiB)": 105.75,
      "step": 8475,
      "train_speed(iter/s)": 1.129213
    },
    {
      "acc": 0.73027706,
      "epoch": 0.21511922881785894,
      "grad_norm": 4.25,
      "learning_rate": 9.909693994712174e-06,
      "loss": 1.11726665,
      "memory(GiB)": 105.75,
      "step": 8480,
      "train_speed(iter/s)": 1.129278
    },
    {
      "acc": 0.74236507,
      "epoch": 0.21524606798579402,
      "grad_norm": 3.71875,
      "learning_rate": 9.909495488371181e-06,
      "loss": 1.07133446,
      "memory(GiB)": 105.75,
      "step": 8485,
      "train_speed(iter/s)": 1.129271
    },
    {
      "acc": 0.72870116,
      "epoch": 0.21537290715372906,
      "grad_norm": 3.71875,
      "learning_rate": 9.909296766088657e-06,
      "loss": 1.1003459,
      "memory(GiB)": 105.75,
      "step": 8490,
      "train_speed(iter/s)": 1.129384
    },
    {
      "acc": 0.74136562,
      "epoch": 0.21549974632166413,
      "grad_norm": 4.25,
      "learning_rate": 9.909097827873341e-06,
      "loss": 1.10558224,
      "memory(GiB)": 105.75,
      "step": 8495,
      "train_speed(iter/s)": 1.129462
    },
    {
      "acc": 0.73620386,
      "epoch": 0.21562658548959918,
      "grad_norm": 4.125,
      "learning_rate": 9.908898673733986e-06,
      "loss": 1.15298233,
      "memory(GiB)": 105.75,
      "step": 8500,
      "train_speed(iter/s)": 1.129553
    },
    {
      "acc": 0.73645892,
      "epoch": 0.21575342465753425,
      "grad_norm": 3.75,
      "learning_rate": 9.90869930367935e-06,
      "loss": 1.12278385,
      "memory(GiB)": 105.75,
      "step": 8505,
      "train_speed(iter/s)": 1.129619
    },
    {
      "acc": 0.71283484,
      "epoch": 0.2158802638254693,
      "grad_norm": 4.4375,
      "learning_rate": 9.908499717718203e-06,
      "loss": 1.20624418,
      "memory(GiB)": 105.75,
      "step": 8510,
      "train_speed(iter/s)": 1.129756
    },
    {
      "acc": 0.72661529,
      "epoch": 0.21600710299340437,
      "grad_norm": 4.40625,
      "learning_rate": 9.908299915859325e-06,
      "loss": 1.14653244,
      "memory(GiB)": 105.75,
      "step": 8515,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.72404275,
      "epoch": 0.2161339421613394,
      "grad_norm": 3.71875,
      "learning_rate": 9.908099898111502e-06,
      "loss": 1.12672348,
      "memory(GiB)": 105.75,
      "step": 8520,
      "train_speed(iter/s)": 1.129894
    },
    {
      "acc": 0.72340436,
      "epoch": 0.21626078132927448,
      "grad_norm": 4.0,
      "learning_rate": 9.907899664483533e-06,
      "loss": 1.12005415,
      "memory(GiB)": 105.75,
      "step": 8525,
      "train_speed(iter/s)": 1.129965
    },
    {
      "acc": 0.71543608,
      "epoch": 0.21638762049720953,
      "grad_norm": 3.359375,
      "learning_rate": 9.907699214984223e-06,
      "loss": 1.16078835,
      "memory(GiB)": 105.75,
      "step": 8530,
      "train_speed(iter/s)": 1.130045
    },
    {
      "acc": 0.72162075,
      "epoch": 0.2165144596651446,
      "grad_norm": 4.0,
      "learning_rate": 9.90749854962239e-06,
      "loss": 1.14422932,
      "memory(GiB)": 105.75,
      "step": 8535,
      "train_speed(iter/s)": 1.130107
    },
    {
      "acc": 0.73162527,
      "epoch": 0.21664129883307964,
      "grad_norm": 4.5625,
      "learning_rate": 9.907297668406863e-06,
      "loss": 1.0915822,
      "memory(GiB)": 105.75,
      "step": 8540,
      "train_speed(iter/s)": 1.130218
    },
    {
      "acc": 0.72103548,
      "epoch": 0.21676813800101472,
      "grad_norm": 3.453125,
      "learning_rate": 9.907096571346474e-06,
      "loss": 1.1523056,
      "memory(GiB)": 105.75,
      "step": 8545,
      "train_speed(iter/s)": 1.130262
    },
    {
      "acc": 0.72645884,
      "epoch": 0.21689497716894976,
      "grad_norm": 3.203125,
      "learning_rate": 9.906895258450067e-06,
      "loss": 1.10958729,
      "memory(GiB)": 105.75,
      "step": 8550,
      "train_speed(iter/s)": 1.130365
    },
    {
      "acc": 0.731353,
      "epoch": 0.21702181633688483,
      "grad_norm": 3.296875,
      "learning_rate": 9.9066937297265e-06,
      "loss": 1.09124622,
      "memory(GiB)": 105.75,
      "step": 8555,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.72890835,
      "epoch": 0.21714865550481988,
      "grad_norm": 3.734375,
      "learning_rate": 9.906491985184637e-06,
      "loss": 1.09743996,
      "memory(GiB)": 105.75,
      "step": 8560,
      "train_speed(iter/s)": 1.130516
    },
    {
      "acc": 0.70833521,
      "epoch": 0.21727549467275495,
      "grad_norm": 4.125,
      "learning_rate": 9.906290024833349e-06,
      "loss": 1.17362452,
      "memory(GiB)": 105.75,
      "step": 8565,
      "train_speed(iter/s)": 1.130542
    },
    {
      "acc": 0.7194838,
      "epoch": 0.21740233384069,
      "grad_norm": 4.40625,
      "learning_rate": 9.906087848681523e-06,
      "loss": 1.14427891,
      "memory(GiB)": 105.75,
      "step": 8570,
      "train_speed(iter/s)": 1.130687
    },
    {
      "acc": 0.72308016,
      "epoch": 0.21752917300862507,
      "grad_norm": 3.875,
      "learning_rate": 9.905885456738046e-06,
      "loss": 1.15608845,
      "memory(GiB)": 105.75,
      "step": 8575,
      "train_speed(iter/s)": 1.130732
    },
    {
      "acc": 0.72895746,
      "epoch": 0.2176560121765601,
      "grad_norm": 3.890625,
      "learning_rate": 9.905682849011826e-06,
      "loss": 1.14495535,
      "memory(GiB)": 105.75,
      "step": 8580,
      "train_speed(iter/s)": 1.130824
    },
    {
      "acc": 0.72443304,
      "epoch": 0.21778285134449518,
      "grad_norm": 4.125,
      "learning_rate": 9.905480025511772e-06,
      "loss": 1.16403198,
      "memory(GiB)": 105.75,
      "step": 8585,
      "train_speed(iter/s)": 1.130938
    },
    {
      "acc": 0.71825614,
      "epoch": 0.21790969051243023,
      "grad_norm": 3.703125,
      "learning_rate": 9.905276986246804e-06,
      "loss": 1.16000004,
      "memory(GiB)": 105.75,
      "step": 8590,
      "train_speed(iter/s)": 1.131044
    },
    {
      "acc": 0.72362199,
      "epoch": 0.2180365296803653,
      "grad_norm": 3.921875,
      "learning_rate": 9.905073731225854e-06,
      "loss": 1.07990589,
      "memory(GiB)": 105.75,
      "step": 8595,
      "train_speed(iter/s)": 1.131153
    },
    {
      "acc": 0.70584269,
      "epoch": 0.21816336884830034,
      "grad_norm": 3.9375,
      "learning_rate": 9.904870260457861e-06,
      "loss": 1.14714575,
      "memory(GiB)": 105.75,
      "step": 8600,
      "train_speed(iter/s)": 1.131272
    },
    {
      "acc": 0.72190332,
      "epoch": 0.21829020801623542,
      "grad_norm": 4.1875,
      "learning_rate": 9.904666573951777e-06,
      "loss": 1.14527349,
      "memory(GiB)": 105.75,
      "step": 8605,
      "train_speed(iter/s)": 1.131362
    },
    {
      "acc": 0.71540384,
      "epoch": 0.21841704718417046,
      "grad_norm": 4.125,
      "learning_rate": 9.904462671716559e-06,
      "loss": 1.19589119,
      "memory(GiB)": 105.75,
      "step": 8610,
      "train_speed(iter/s)": 1.131401
    },
    {
      "acc": 0.71672606,
      "epoch": 0.21854388635210553,
      "grad_norm": 3.640625,
      "learning_rate": 9.904258553761175e-06,
      "loss": 1.20577631,
      "memory(GiB)": 105.75,
      "step": 8615,
      "train_speed(iter/s)": 1.131504
    },
    {
      "acc": 0.72182055,
      "epoch": 0.21867072552004058,
      "grad_norm": 3.21875,
      "learning_rate": 9.904054220094603e-06,
      "loss": 1.16703558,
      "memory(GiB)": 105.75,
      "step": 8620,
      "train_speed(iter/s)": 1.131594
    },
    {
      "acc": 0.72208033,
      "epoch": 0.21879756468797565,
      "grad_norm": 3.796875,
      "learning_rate": 9.903849670725833e-06,
      "loss": 1.15666046,
      "memory(GiB)": 105.75,
      "step": 8625,
      "train_speed(iter/s)": 1.131697
    },
    {
      "acc": 0.72514896,
      "epoch": 0.2189244038559107,
      "grad_norm": 3.796875,
      "learning_rate": 9.903644905663861e-06,
      "loss": 1.12452679,
      "memory(GiB)": 105.75,
      "step": 8630,
      "train_speed(iter/s)": 1.131822
    },
    {
      "acc": 0.71667862,
      "epoch": 0.21905124302384577,
      "grad_norm": 4.4375,
      "learning_rate": 9.90343992491769e-06,
      "loss": 1.13906574,
      "memory(GiB)": 105.75,
      "step": 8635,
      "train_speed(iter/s)": 1.131814
    },
    {
      "acc": 0.72729836,
      "epoch": 0.2191780821917808,
      "grad_norm": 3.421875,
      "learning_rate": 9.903234728496341e-06,
      "loss": 1.13348608,
      "memory(GiB)": 105.75,
      "step": 8640,
      "train_speed(iter/s)": 1.131817
    },
    {
      "acc": 0.70791349,
      "epoch": 0.21930492135971588,
      "grad_norm": 4.3125,
      "learning_rate": 9.903029316408838e-06,
      "loss": 1.20727882,
      "memory(GiB)": 105.75,
      "step": 8645,
      "train_speed(iter/s)": 1.131956
    },
    {
      "acc": 0.7382966,
      "epoch": 0.21943176052765093,
      "grad_norm": 3.46875,
      "learning_rate": 9.902823688664214e-06,
      "loss": 1.08421412,
      "memory(GiB)": 105.75,
      "step": 8650,
      "train_speed(iter/s)": 1.13206
    },
    {
      "acc": 0.7309763,
      "epoch": 0.219558599695586,
      "grad_norm": 4.84375,
      "learning_rate": 9.902617845271514e-06,
      "loss": 1.10796442,
      "memory(GiB)": 105.75,
      "step": 8655,
      "train_speed(iter/s)": 1.132148
    },
    {
      "acc": 0.73497419,
      "epoch": 0.21968543886352104,
      "grad_norm": 3.296875,
      "learning_rate": 9.902411786239794e-06,
      "loss": 1.07729359,
      "memory(GiB)": 105.75,
      "step": 8660,
      "train_speed(iter/s)": 1.13226
    },
    {
      "acc": 0.73060789,
      "epoch": 0.21981227803145612,
      "grad_norm": 3.265625,
      "learning_rate": 9.902205511578114e-06,
      "loss": 1.13984718,
      "memory(GiB)": 105.75,
      "step": 8665,
      "train_speed(iter/s)": 1.132332
    },
    {
      "acc": 0.71855097,
      "epoch": 0.21993911719939116,
      "grad_norm": 4.21875,
      "learning_rate": 9.90199902129555e-06,
      "loss": 1.18076162,
      "memory(GiB)": 105.75,
      "step": 8670,
      "train_speed(iter/s)": 1.132468
    },
    {
      "acc": 0.71395369,
      "epoch": 0.22006595636732623,
      "grad_norm": 4.15625,
      "learning_rate": 9.901792315401184e-06,
      "loss": 1.17491188,
      "memory(GiB)": 105.75,
      "step": 8675,
      "train_speed(iter/s)": 1.13254
    },
    {
      "acc": 0.73154135,
      "epoch": 0.22019279553526128,
      "grad_norm": 3.453125,
      "learning_rate": 9.901585393904104e-06,
      "loss": 1.06468,
      "memory(GiB)": 105.75,
      "step": 8680,
      "train_speed(iter/s)": 1.132583
    },
    {
      "acc": 0.72308264,
      "epoch": 0.22031963470319635,
      "grad_norm": 3.5,
      "learning_rate": 9.901378256813418e-06,
      "loss": 1.16532726,
      "memory(GiB)": 105.75,
      "step": 8685,
      "train_speed(iter/s)": 1.13269
    },
    {
      "acc": 0.7366055,
      "epoch": 0.2204464738711314,
      "grad_norm": 3.921875,
      "learning_rate": 9.901170904138232e-06,
      "loss": 1.08402519,
      "memory(GiB)": 105.75,
      "step": 8690,
      "train_speed(iter/s)": 1.132736
    },
    {
      "acc": 0.71172361,
      "epoch": 0.22057331303906647,
      "grad_norm": 3.546875,
      "learning_rate": 9.900963335887667e-06,
      "loss": 1.1961235,
      "memory(GiB)": 105.75,
      "step": 8695,
      "train_speed(iter/s)": 1.13284
    },
    {
      "acc": 0.72692795,
      "epoch": 0.2207001522070015,
      "grad_norm": 4.09375,
      "learning_rate": 9.900755552070852e-06,
      "loss": 1.14670372,
      "memory(GiB)": 105.75,
      "step": 8700,
      "train_speed(iter/s)": 1.132939
    },
    {
      "acc": 0.74078035,
      "epoch": 0.22082699137493658,
      "grad_norm": 3.734375,
      "learning_rate": 9.900547552696931e-06,
      "loss": 1.0784873,
      "memory(GiB)": 105.75,
      "step": 8705,
      "train_speed(iter/s)": 1.133012
    },
    {
      "acc": 0.72560549,
      "epoch": 0.22095383054287163,
      "grad_norm": 3.515625,
      "learning_rate": 9.900339337775046e-06,
      "loss": 1.17035103,
      "memory(GiB)": 105.75,
      "step": 8710,
      "train_speed(iter/s)": 1.133109
    },
    {
      "acc": 0.72707343,
      "epoch": 0.2210806697108067,
      "grad_norm": 4.125,
      "learning_rate": 9.90013090731436e-06,
      "loss": 1.16447067,
      "memory(GiB)": 105.75,
      "step": 8715,
      "train_speed(iter/s)": 1.133198
    },
    {
      "acc": 0.71881332,
      "epoch": 0.22120750887874174,
      "grad_norm": 4.28125,
      "learning_rate": 9.89992226132404e-06,
      "loss": 1.1980608,
      "memory(GiB)": 105.75,
      "step": 8720,
      "train_speed(iter/s)": 1.133304
    },
    {
      "acc": 0.73036437,
      "epoch": 0.22133434804667682,
      "grad_norm": 3.078125,
      "learning_rate": 9.899713399813261e-06,
      "loss": 1.09488239,
      "memory(GiB)": 105.75,
      "step": 8725,
      "train_speed(iter/s)": 1.133407
    },
    {
      "acc": 0.7329246,
      "epoch": 0.22146118721461186,
      "grad_norm": 3.96875,
      "learning_rate": 9.899504322791212e-06,
      "loss": 1.12952204,
      "memory(GiB)": 105.75,
      "step": 8730,
      "train_speed(iter/s)": 1.13352
    },
    {
      "acc": 0.72434568,
      "epoch": 0.22158802638254693,
      "grad_norm": 3.5625,
      "learning_rate": 9.899295030267086e-06,
      "loss": 1.19321613,
      "memory(GiB)": 105.75,
      "step": 8735,
      "train_speed(iter/s)": 1.133558
    },
    {
      "acc": 0.72518454,
      "epoch": 0.22171486555048198,
      "grad_norm": 3.90625,
      "learning_rate": 9.899085522250094e-06,
      "loss": 1.13412943,
      "memory(GiB)": 105.75,
      "step": 8740,
      "train_speed(iter/s)": 1.133629
    },
    {
      "acc": 0.73385267,
      "epoch": 0.22184170471841705,
      "grad_norm": 3.375,
      "learning_rate": 9.898875798749446e-06,
      "loss": 1.13814964,
      "memory(GiB)": 105.75,
      "step": 8745,
      "train_speed(iter/s)": 1.133745
    },
    {
      "acc": 0.72514963,
      "epoch": 0.2219685438863521,
      "grad_norm": 4.125,
      "learning_rate": 9.898665859774367e-06,
      "loss": 1.16391726,
      "memory(GiB)": 105.75,
      "step": 8750,
      "train_speed(iter/s)": 1.13387
    },
    {
      "acc": 0.72295914,
      "epoch": 0.22209538305428717,
      "grad_norm": 5.25,
      "learning_rate": 9.898455705334095e-06,
      "loss": 1.16326141,
      "memory(GiB)": 105.75,
      "step": 8755,
      "train_speed(iter/s)": 1.133982
    },
    {
      "acc": 0.72069631,
      "epoch": 0.2222222222222222,
      "grad_norm": 3.25,
      "learning_rate": 9.89824533543787e-06,
      "loss": 1.15863361,
      "memory(GiB)": 105.75,
      "step": 8760,
      "train_speed(iter/s)": 1.134048
    },
    {
      "acc": 0.70820537,
      "epoch": 0.22234906139015728,
      "grad_norm": 3.53125,
      "learning_rate": 9.898034750094946e-06,
      "loss": 1.18058453,
      "memory(GiB)": 105.75,
      "step": 8765,
      "train_speed(iter/s)": 1.134155
    },
    {
      "acc": 0.72048025,
      "epoch": 0.22247590055809233,
      "grad_norm": 4.25,
      "learning_rate": 9.897823949314586e-06,
      "loss": 1.19073143,
      "memory(GiB)": 105.75,
      "step": 8770,
      "train_speed(iter/s)": 1.134277
    },
    {
      "acc": 0.72573891,
      "epoch": 0.2226027397260274,
      "grad_norm": 4.0625,
      "learning_rate": 9.897612933106061e-06,
      "loss": 1.20746384,
      "memory(GiB)": 105.75,
      "step": 8775,
      "train_speed(iter/s)": 1.134407
    },
    {
      "acc": 0.72653131,
      "epoch": 0.22272957889396244,
      "grad_norm": 3.375,
      "learning_rate": 9.897401701478654e-06,
      "loss": 1.11744938,
      "memory(GiB)": 105.75,
      "step": 8780,
      "train_speed(iter/s)": 1.134457
    },
    {
      "acc": 0.73059196,
      "epoch": 0.22285641806189752,
      "grad_norm": 4.15625,
      "learning_rate": 9.897190254441653e-06,
      "loss": 1.14255877,
      "memory(GiB)": 105.75,
      "step": 8785,
      "train_speed(iter/s)": 1.134483
    },
    {
      "acc": 0.71184039,
      "epoch": 0.22298325722983256,
      "grad_norm": 3.4375,
      "learning_rate": 9.896978592004363e-06,
      "loss": 1.18995676,
      "memory(GiB)": 105.75,
      "step": 8790,
      "train_speed(iter/s)": 1.134561
    },
    {
      "acc": 0.71642189,
      "epoch": 0.22311009639776763,
      "grad_norm": 4.59375,
      "learning_rate": 9.896766714176089e-06,
      "loss": 1.16850462,
      "memory(GiB)": 105.75,
      "step": 8795,
      "train_speed(iter/s)": 1.134682
    },
    {
      "acc": 0.72525034,
      "epoch": 0.22323693556570268,
      "grad_norm": 4.1875,
      "learning_rate": 9.896554620966152e-06,
      "loss": 1.15543003,
      "memory(GiB)": 105.75,
      "step": 8800,
      "train_speed(iter/s)": 1.134802
    },
    {
      "acc": 0.72837024,
      "epoch": 0.22336377473363775,
      "grad_norm": 4.40625,
      "learning_rate": 9.896342312383883e-06,
      "loss": 1.1330965,
      "memory(GiB)": 105.75,
      "step": 8805,
      "train_speed(iter/s)": 1.134855
    },
    {
      "acc": 0.73426018,
      "epoch": 0.2234906139015728,
      "grad_norm": 4.84375,
      "learning_rate": 9.896129788438617e-06,
      "loss": 1.13705559,
      "memory(GiB)": 105.75,
      "step": 8810,
      "train_speed(iter/s)": 1.134952
    },
    {
      "acc": 0.73402252,
      "epoch": 0.22361745306950787,
      "grad_norm": 3.4375,
      "learning_rate": 9.895917049139704e-06,
      "loss": 1.1090519,
      "memory(GiB)": 105.75,
      "step": 8815,
      "train_speed(iter/s)": 1.135066
    },
    {
      "acc": 0.7128067,
      "epoch": 0.2237442922374429,
      "grad_norm": 5.125,
      "learning_rate": 9.895704094496502e-06,
      "loss": 1.1744278,
      "memory(GiB)": 105.75,
      "step": 8820,
      "train_speed(iter/s)": 1.135109
    },
    {
      "acc": 0.73967733,
      "epoch": 0.22387113140537798,
      "grad_norm": 3.21875,
      "learning_rate": 9.895490924518372e-06,
      "loss": 1.07975464,
      "memory(GiB)": 105.75,
      "step": 8825,
      "train_speed(iter/s)": 1.135184
    },
    {
      "acc": 0.73084984,
      "epoch": 0.22399797057331303,
      "grad_norm": 3.515625,
      "learning_rate": 9.895277539214698e-06,
      "loss": 1.06754341,
      "memory(GiB)": 105.75,
      "step": 8830,
      "train_speed(iter/s)": 1.135215
    },
    {
      "acc": 0.71631632,
      "epoch": 0.2241248097412481,
      "grad_norm": 3.8125,
      "learning_rate": 9.895063938594859e-06,
      "loss": 1.19421844,
      "memory(GiB)": 105.75,
      "step": 8835,
      "train_speed(iter/s)": 1.135291
    },
    {
      "acc": 0.71436987,
      "epoch": 0.22425164890918314,
      "grad_norm": 3.0625,
      "learning_rate": 9.894850122668256e-06,
      "loss": 1.16164989,
      "memory(GiB)": 105.75,
      "step": 8840,
      "train_speed(iter/s)": 1.135352
    },
    {
      "acc": 0.72491865,
      "epoch": 0.22437848807711822,
      "grad_norm": 3.109375,
      "learning_rate": 9.89463609144429e-06,
      "loss": 1.10994301,
      "memory(GiB)": 105.75,
      "step": 8845,
      "train_speed(iter/s)": 1.135386
    },
    {
      "acc": 0.73443041,
      "epoch": 0.22450532724505326,
      "grad_norm": 4.21875,
      "learning_rate": 9.894421844932375e-06,
      "loss": 1.13905392,
      "memory(GiB)": 105.75,
      "step": 8850,
      "train_speed(iter/s)": 1.135413
    },
    {
      "acc": 0.7489028,
      "epoch": 0.22463216641298833,
      "grad_norm": 4.28125,
      "learning_rate": 9.894207383141937e-06,
      "loss": 1.06442356,
      "memory(GiB)": 105.75,
      "step": 8855,
      "train_speed(iter/s)": 1.135515
    },
    {
      "acc": 0.71765924,
      "epoch": 0.22475900558092338,
      "grad_norm": 4.25,
      "learning_rate": 9.893992706082405e-06,
      "loss": 1.11581249,
      "memory(GiB)": 105.75,
      "step": 8860,
      "train_speed(iter/s)": 1.135593
    },
    {
      "acc": 0.73112321,
      "epoch": 0.22488584474885845,
      "grad_norm": 3.46875,
      "learning_rate": 9.893777813763223e-06,
      "loss": 1.14427891,
      "memory(GiB)": 105.75,
      "step": 8865,
      "train_speed(iter/s)": 1.135667
    },
    {
      "acc": 0.72254367,
      "epoch": 0.2250126839167935,
      "grad_norm": 5.125,
      "learning_rate": 9.893562706193847e-06,
      "loss": 1.19293461,
      "memory(GiB)": 105.75,
      "step": 8870,
      "train_speed(iter/s)": 1.135737
    },
    {
      "acc": 0.73111978,
      "epoch": 0.22513952308472857,
      "grad_norm": 3.34375,
      "learning_rate": 9.893347383383732e-06,
      "loss": 1.11769924,
      "memory(GiB)": 105.75,
      "step": 8875,
      "train_speed(iter/s)": 1.135877
    },
    {
      "acc": 0.74334593,
      "epoch": 0.2252663622526636,
      "grad_norm": 3.6875,
      "learning_rate": 9.893131845342352e-06,
      "loss": 1.1348628,
      "memory(GiB)": 105.75,
      "step": 8880,
      "train_speed(iter/s)": 1.136005
    },
    {
      "acc": 0.73323083,
      "epoch": 0.22539320142059868,
      "grad_norm": 3.40625,
      "learning_rate": 9.892916092079188e-06,
      "loss": 1.14984379,
      "memory(GiB)": 105.75,
      "step": 8885,
      "train_speed(iter/s)": 1.136064
    },
    {
      "acc": 0.73333097,
      "epoch": 0.22552004058853373,
      "grad_norm": 3.4375,
      "learning_rate": 9.89270012360373e-06,
      "loss": 1.14000244,
      "memory(GiB)": 105.75,
      "step": 8890,
      "train_speed(iter/s)": 1.136167
    },
    {
      "acc": 0.73622665,
      "epoch": 0.2256468797564688,
      "grad_norm": 3.53125,
      "learning_rate": 9.892483939925476e-06,
      "loss": 1.10762424,
      "memory(GiB)": 105.75,
      "step": 8895,
      "train_speed(iter/s)": 1.136229
    },
    {
      "acc": 0.7151865,
      "epoch": 0.22577371892440384,
      "grad_norm": 4.25,
      "learning_rate": 9.892267541053933e-06,
      "loss": 1.14411583,
      "memory(GiB)": 105.75,
      "step": 8900,
      "train_speed(iter/s)": 1.136313
    },
    {
      "acc": 0.72869301,
      "epoch": 0.22590055809233892,
      "grad_norm": 4.1875,
      "learning_rate": 9.892050926998624e-06,
      "loss": 1.10607929,
      "memory(GiB)": 105.75,
      "step": 8905,
      "train_speed(iter/s)": 1.136318
    },
    {
      "acc": 0.71997113,
      "epoch": 0.22602739726027396,
      "grad_norm": 3.546875,
      "learning_rate": 9.891834097769071e-06,
      "loss": 1.16797695,
      "memory(GiB)": 105.75,
      "step": 8910,
      "train_speed(iter/s)": 1.136411
    },
    {
      "acc": 0.70919013,
      "epoch": 0.22615423642820903,
      "grad_norm": 3.3125,
      "learning_rate": 9.891617053374816e-06,
      "loss": 1.20994349,
      "memory(GiB)": 105.75,
      "step": 8915,
      "train_speed(iter/s)": 1.13643
    },
    {
      "acc": 0.71876774,
      "epoch": 0.22628107559614408,
      "grad_norm": 4.0625,
      "learning_rate": 9.891399793825403e-06,
      "loss": 1.15733624,
      "memory(GiB)": 105.75,
      "step": 8920,
      "train_speed(iter/s)": 1.136535
    },
    {
      "acc": 0.72525401,
      "epoch": 0.22640791476407915,
      "grad_norm": 3.5,
      "learning_rate": 9.891182319130387e-06,
      "loss": 1.21379766,
      "memory(GiB)": 105.75,
      "step": 8925,
      "train_speed(iter/s)": 1.136658
    },
    {
      "acc": 0.72252102,
      "epoch": 0.2265347539320142,
      "grad_norm": 3.96875,
      "learning_rate": 9.890964629299336e-06,
      "loss": 1.17547865,
      "memory(GiB)": 105.75,
      "step": 8930,
      "train_speed(iter/s)": 1.136714
    },
    {
      "acc": 0.71905293,
      "epoch": 0.22666159309994927,
      "grad_norm": 3.359375,
      "learning_rate": 9.890746724341825e-06,
      "loss": 1.19138937,
      "memory(GiB)": 105.75,
      "step": 8935,
      "train_speed(iter/s)": 1.136781
    },
    {
      "acc": 0.72399087,
      "epoch": 0.2267884322678843,
      "grad_norm": 3.671875,
      "learning_rate": 9.890528604267436e-06,
      "loss": 1.08584242,
      "memory(GiB)": 105.75,
      "step": 8940,
      "train_speed(iter/s)": 1.136852
    },
    {
      "acc": 0.73428478,
      "epoch": 0.22691527143581938,
      "grad_norm": 4.25,
      "learning_rate": 9.890310269085765e-06,
      "loss": 1.13329163,
      "memory(GiB)": 105.75,
      "step": 8945,
      "train_speed(iter/s)": 1.136942
    },
    {
      "acc": 0.70603027,
      "epoch": 0.22704211060375443,
      "grad_norm": 3.53125,
      "learning_rate": 9.890091718806414e-06,
      "loss": 1.1898385,
      "memory(GiB)": 105.75,
      "step": 8950,
      "train_speed(iter/s)": 1.137002
    },
    {
      "acc": 0.72305026,
      "epoch": 0.2271689497716895,
      "grad_norm": 3.96875,
      "learning_rate": 9.889872953438996e-06,
      "loss": 1.13512325,
      "memory(GiB)": 105.75,
      "step": 8955,
      "train_speed(iter/s)": 1.137077
    },
    {
      "acc": 0.72251911,
      "epoch": 0.22729578893962454,
      "grad_norm": 5.0625,
      "learning_rate": 9.889653972993136e-06,
      "loss": 1.15200281,
      "memory(GiB)": 105.75,
      "step": 8960,
      "train_speed(iter/s)": 1.137207
    },
    {
      "acc": 0.72571411,
      "epoch": 0.22742262810755962,
      "grad_norm": 3.453125,
      "learning_rate": 9.889434777478464e-06,
      "loss": 1.14004059,
      "memory(GiB)": 105.75,
      "step": 8965,
      "train_speed(iter/s)": 1.137322
    },
    {
      "acc": 0.72517395,
      "epoch": 0.22754946727549466,
      "grad_norm": 3.53125,
      "learning_rate": 9.88921536690462e-06,
      "loss": 1.18119478,
      "memory(GiB)": 105.75,
      "step": 8970,
      "train_speed(iter/s)": 1.137353
    },
    {
      "acc": 0.71215038,
      "epoch": 0.22767630644342973,
      "grad_norm": 4.0,
      "learning_rate": 9.888995741281252e-06,
      "loss": 1.19741421,
      "memory(GiB)": 105.75,
      "step": 8975,
      "train_speed(iter/s)": 1.137429
    },
    {
      "acc": 0.72813702,
      "epoch": 0.22780314561136478,
      "grad_norm": 4.03125,
      "learning_rate": 9.888775900618028e-06,
      "loss": 1.08057117,
      "memory(GiB)": 105.75,
      "step": 8980,
      "train_speed(iter/s)": 1.137561
    },
    {
      "acc": 0.71936421,
      "epoch": 0.22792998477929985,
      "grad_norm": 4.1875,
      "learning_rate": 9.88855584492461e-06,
      "loss": 1.17453899,
      "memory(GiB)": 105.75,
      "step": 8985,
      "train_speed(iter/s)": 1.13767
    },
    {
      "acc": 0.71900148,
      "epoch": 0.2280568239472349,
      "grad_norm": 4.21875,
      "learning_rate": 9.888335574210681e-06,
      "loss": 1.17154999,
      "memory(GiB)": 105.75,
      "step": 8990,
      "train_speed(iter/s)": 1.137702
    },
    {
      "acc": 0.72446542,
      "epoch": 0.22818366311516997,
      "grad_norm": 4.0,
      "learning_rate": 9.888115088485931e-06,
      "loss": 1.06667261,
      "memory(GiB)": 105.75,
      "step": 8995,
      "train_speed(iter/s)": 1.137801
    },
    {
      "acc": 0.72282629,
      "epoch": 0.228310502283105,
      "grad_norm": 3.796875,
      "learning_rate": 9.887894387760053e-06,
      "loss": 1.14697895,
      "memory(GiB)": 105.75,
      "step": 9000,
      "train_speed(iter/s)": 1.137875
    },
    {
      "epoch": 0.228310502283105,
      "eval_acc": 0.7142608336100339,
      "eval_loss": 1.1050251722335815,
      "eval_runtime": 71.0462,
      "eval_samples_per_second": 89.66,
      "eval_steps_per_second": 22.422,
      "step": 9000
    },
    {
      "acc": 0.72553339,
      "epoch": 0.22843734145104008,
      "grad_norm": 4.59375,
      "learning_rate": 9.887673472042757e-06,
      "loss": 1.17173119,
      "memory(GiB)": 105.75,
      "step": 9005,
      "train_speed(iter/s)": 1.121451
    },
    {
      "acc": 0.73020358,
      "epoch": 0.22856418061897513,
      "grad_norm": 3.75,
      "learning_rate": 9.88745234134376e-06,
      "loss": 1.15367689,
      "memory(GiB)": 105.75,
      "step": 9010,
      "train_speed(iter/s)": 1.121496
    },
    {
      "acc": 0.71703234,
      "epoch": 0.2286910197869102,
      "grad_norm": 3.46875,
      "learning_rate": 9.887230995672789e-06,
      "loss": 1.16526413,
      "memory(GiB)": 105.75,
      "step": 9015,
      "train_speed(iter/s)": 1.121554
    },
    {
      "acc": 0.72579737,
      "epoch": 0.22881785895484524,
      "grad_norm": 3.765625,
      "learning_rate": 9.887009435039578e-06,
      "loss": 1.09857702,
      "memory(GiB)": 105.75,
      "step": 9020,
      "train_speed(iter/s)": 1.121599
    },
    {
      "acc": 0.72041187,
      "epoch": 0.22894469812278032,
      "grad_norm": 3.984375,
      "learning_rate": 9.886787659453873e-06,
      "loss": 1.10557537,
      "memory(GiB)": 105.75,
      "step": 9025,
      "train_speed(iter/s)": 1.121642
    },
    {
      "acc": 0.71890445,
      "epoch": 0.22907153729071536,
      "grad_norm": 3.59375,
      "learning_rate": 9.886565668925429e-06,
      "loss": 1.12407484,
      "memory(GiB)": 105.75,
      "step": 9030,
      "train_speed(iter/s)": 1.121718
    },
    {
      "acc": 0.73393879,
      "epoch": 0.22919837645865043,
      "grad_norm": 5.9375,
      "learning_rate": 9.88634346346401e-06,
      "loss": 1.10652084,
      "memory(GiB)": 105.75,
      "step": 9035,
      "train_speed(iter/s)": 1.121811
    },
    {
      "acc": 0.72235937,
      "epoch": 0.22932521562658548,
      "grad_norm": 3.609375,
      "learning_rate": 9.88612104307939e-06,
      "loss": 1.12742853,
      "memory(GiB)": 105.75,
      "step": 9040,
      "train_speed(iter/s)": 1.121905
    },
    {
      "acc": 0.73141208,
      "epoch": 0.22945205479452055,
      "grad_norm": 3.609375,
      "learning_rate": 9.885898407781352e-06,
      "loss": 1.12630539,
      "memory(GiB)": 105.75,
      "step": 9045,
      "train_speed(iter/s)": 1.121995
    },
    {
      "acc": 0.73392506,
      "epoch": 0.2295788939624556,
      "grad_norm": 3.8125,
      "learning_rate": 9.885675557579686e-06,
      "loss": 1.19662609,
      "memory(GiB)": 105.75,
      "step": 9050,
      "train_speed(iter/s)": 1.122096
    },
    {
      "acc": 0.72965016,
      "epoch": 0.22970573313039067,
      "grad_norm": 3.9375,
      "learning_rate": 9.885452492484198e-06,
      "loss": 1.09137421,
      "memory(GiB)": 105.75,
      "step": 9055,
      "train_speed(iter/s)": 1.122244
    },
    {
      "acc": 0.72501836,
      "epoch": 0.2298325722983257,
      "grad_norm": 4.0625,
      "learning_rate": 9.885229212504697e-06,
      "loss": 1.13819561,
      "memory(GiB)": 105.75,
      "step": 9060,
      "train_speed(iter/s)": 1.122344
    },
    {
      "acc": 0.7217267,
      "epoch": 0.22995941146626078,
      "grad_norm": 3.1875,
      "learning_rate": 9.885005717651002e-06,
      "loss": 1.11435585,
      "memory(GiB)": 105.75,
      "step": 9065,
      "train_speed(iter/s)": 1.122404
    },
    {
      "acc": 0.72941332,
      "epoch": 0.23008625063419583,
      "grad_norm": 4.3125,
      "learning_rate": 9.88478200793295e-06,
      "loss": 1.10310402,
      "memory(GiB)": 105.75,
      "step": 9070,
      "train_speed(iter/s)": 1.12239
    },
    {
      "acc": 0.72931685,
      "epoch": 0.2302130898021309,
      "grad_norm": 3.578125,
      "learning_rate": 9.884558083360372e-06,
      "loss": 1.0963501,
      "memory(GiB)": 105.75,
      "step": 9075,
      "train_speed(iter/s)": 1.122503
    },
    {
      "acc": 0.73896847,
      "epoch": 0.23033992897006594,
      "grad_norm": 3.59375,
      "learning_rate": 9.884333943943123e-06,
      "loss": 1.05957432,
      "memory(GiB)": 105.75,
      "step": 9080,
      "train_speed(iter/s)": 1.122576
    },
    {
      "acc": 0.72984247,
      "epoch": 0.23046676813800102,
      "grad_norm": 3.640625,
      "learning_rate": 9.884109589691062e-06,
      "loss": 1.14532528,
      "memory(GiB)": 105.75,
      "step": 9085,
      "train_speed(iter/s)": 1.122721
    },
    {
      "acc": 0.72091155,
      "epoch": 0.23059360730593606,
      "grad_norm": 3.578125,
      "learning_rate": 9.883885020614052e-06,
      "loss": 1.18813334,
      "memory(GiB)": 105.75,
      "step": 9090,
      "train_speed(iter/s)": 1.122845
    },
    {
      "acc": 0.73755341,
      "epoch": 0.23072044647387113,
      "grad_norm": 3.40625,
      "learning_rate": 9.883660236721977e-06,
      "loss": 1.04926147,
      "memory(GiB)": 105.75,
      "step": 9095,
      "train_speed(iter/s)": 1.12294
    },
    {
      "acc": 0.71850214,
      "epoch": 0.23084728564180618,
      "grad_norm": 3.546875,
      "learning_rate": 9.883435238024718e-06,
      "loss": 1.15853758,
      "memory(GiB)": 105.75,
      "step": 9100,
      "train_speed(iter/s)": 1.123052
    },
    {
      "acc": 0.74372802,
      "epoch": 0.23097412480974125,
      "grad_norm": 3.625,
      "learning_rate": 9.883210024532176e-06,
      "loss": 1.07028027,
      "memory(GiB)": 105.75,
      "step": 9105,
      "train_speed(iter/s)": 1.123111
    },
    {
      "acc": 0.73824043,
      "epoch": 0.2311009639776763,
      "grad_norm": 3.78125,
      "learning_rate": 9.882984596254255e-06,
      "loss": 1.14296732,
      "memory(GiB)": 105.75,
      "step": 9110,
      "train_speed(iter/s)": 1.123219
    },
    {
      "acc": 0.72976351,
      "epoch": 0.23122780314561137,
      "grad_norm": 3.546875,
      "learning_rate": 9.88275895320087e-06,
      "loss": 1.15492392,
      "memory(GiB)": 105.75,
      "step": 9115,
      "train_speed(iter/s)": 1.123237
    },
    {
      "acc": 0.72669125,
      "epoch": 0.2313546423135464,
      "grad_norm": 4.0,
      "learning_rate": 9.882533095381947e-06,
      "loss": 1.15172806,
      "memory(GiB)": 105.75,
      "step": 9120,
      "train_speed(iter/s)": 1.123308
    },
    {
      "acc": 0.71858788,
      "epoch": 0.23148148148148148,
      "grad_norm": 5.28125,
      "learning_rate": 9.882307022807419e-06,
      "loss": 1.11668653,
      "memory(GiB)": 105.75,
      "step": 9125,
      "train_speed(iter/s)": 1.123437
    },
    {
      "acc": 0.71759896,
      "epoch": 0.23160832064941653,
      "grad_norm": 3.234375,
      "learning_rate": 9.88208073548723e-06,
      "loss": 1.24228249,
      "memory(GiB)": 105.75,
      "step": 9130,
      "train_speed(iter/s)": 1.123552
    },
    {
      "acc": 0.72801595,
      "epoch": 0.2317351598173516,
      "grad_norm": 3.5625,
      "learning_rate": 9.881854233431333e-06,
      "loss": 1.13961525,
      "memory(GiB)": 105.75,
      "step": 9135,
      "train_speed(iter/s)": 1.123642
    },
    {
      "acc": 0.72818108,
      "epoch": 0.23186199898528664,
      "grad_norm": 3.328125,
      "learning_rate": 9.881627516649692e-06,
      "loss": 1.12399502,
      "memory(GiB)": 105.75,
      "step": 9140,
      "train_speed(iter/s)": 1.123741
    },
    {
      "acc": 0.71107006,
      "epoch": 0.23198883815322172,
      "grad_norm": 3.546875,
      "learning_rate": 9.881400585152278e-06,
      "loss": 1.20905056,
      "memory(GiB)": 105.75,
      "step": 9145,
      "train_speed(iter/s)": 1.123867
    },
    {
      "acc": 0.73048577,
      "epoch": 0.23211567732115676,
      "grad_norm": 3.3125,
      "learning_rate": 9.881173438949072e-06,
      "loss": 1.15887938,
      "memory(GiB)": 105.75,
      "step": 9150,
      "train_speed(iter/s)": 1.123978
    },
    {
      "acc": 0.73623476,
      "epoch": 0.23224251648909183,
      "grad_norm": 3.25,
      "learning_rate": 9.880946078050064e-06,
      "loss": 1.07372265,
      "memory(GiB)": 105.75,
      "step": 9155,
      "train_speed(iter/s)": 1.124105
    },
    {
      "acc": 0.70784874,
      "epoch": 0.23236935565702688,
      "grad_norm": 3.453125,
      "learning_rate": 9.880718502465258e-06,
      "loss": 1.19719505,
      "memory(GiB)": 105.75,
      "step": 9160,
      "train_speed(iter/s)": 1.124163
    },
    {
      "acc": 0.71190381,
      "epoch": 0.23249619482496195,
      "grad_norm": 3.484375,
      "learning_rate": 9.88049071220466e-06,
      "loss": 1.1639864,
      "memory(GiB)": 105.75,
      "step": 9165,
      "train_speed(iter/s)": 1.124251
    },
    {
      "acc": 0.72707624,
      "epoch": 0.232623033992897,
      "grad_norm": 3.65625,
      "learning_rate": 9.88026270727829e-06,
      "loss": 1.1553792,
      "memory(GiB)": 105.75,
      "step": 9170,
      "train_speed(iter/s)": 1.124326
    },
    {
      "acc": 0.71347542,
      "epoch": 0.23274987316083207,
      "grad_norm": 3.53125,
      "learning_rate": 9.880034487696179e-06,
      "loss": 1.14574108,
      "memory(GiB)": 105.75,
      "step": 9175,
      "train_speed(iter/s)": 1.124407
    },
    {
      "acc": 0.71908751,
      "epoch": 0.2328767123287671,
      "grad_norm": 5.5625,
      "learning_rate": 9.879806053468361e-06,
      "loss": 1.15115929,
      "memory(GiB)": 105.75,
      "step": 9180,
      "train_speed(iter/s)": 1.124477
    },
    {
      "acc": 0.72763653,
      "epoch": 0.23300355149670218,
      "grad_norm": 3.421875,
      "learning_rate": 9.879577404604889e-06,
      "loss": 1.15795155,
      "memory(GiB)": 105.75,
      "step": 9185,
      "train_speed(iter/s)": 1.124604
    },
    {
      "acc": 0.71751938,
      "epoch": 0.23313039066463723,
      "grad_norm": 3.515625,
      "learning_rate": 9.879348541115816e-06,
      "loss": 1.16479845,
      "memory(GiB)": 105.75,
      "step": 9190,
      "train_speed(iter/s)": 1.124724
    },
    {
      "acc": 0.72320995,
      "epoch": 0.2332572298325723,
      "grad_norm": 3.015625,
      "learning_rate": 9.879119463011208e-06,
      "loss": 1.1422308,
      "memory(GiB)": 105.75,
      "step": 9195,
      "train_speed(iter/s)": 1.124847
    },
    {
      "acc": 0.73629999,
      "epoch": 0.23338406900050734,
      "grad_norm": 3.703125,
      "learning_rate": 9.878890170301143e-06,
      "loss": 1.11117353,
      "memory(GiB)": 105.75,
      "step": 9200,
      "train_speed(iter/s)": 1.124933
    },
    {
      "acc": 0.73251195,
      "epoch": 0.23351090816844242,
      "grad_norm": 3.21875,
      "learning_rate": 9.878660662995706e-06,
      "loss": 1.12255077,
      "memory(GiB)": 105.75,
      "step": 9205,
      "train_speed(iter/s)": 1.124982
    },
    {
      "acc": 0.7272851,
      "epoch": 0.23363774733637746,
      "grad_norm": 4.5,
      "learning_rate": 9.878430941104991e-06,
      "loss": 1.12286434,
      "memory(GiB)": 105.75,
      "step": 9210,
      "train_speed(iter/s)": 1.125099
    },
    {
      "acc": 0.72386951,
      "epoch": 0.23376458650431253,
      "grad_norm": 4.125,
      "learning_rate": 9.878201004639104e-06,
      "loss": 1.19951248,
      "memory(GiB)": 105.75,
      "step": 9215,
      "train_speed(iter/s)": 1.125224
    },
    {
      "acc": 0.74185715,
      "epoch": 0.23389142567224758,
      "grad_norm": 3.84375,
      "learning_rate": 9.877970853608156e-06,
      "loss": 1.10413208,
      "memory(GiB)": 105.75,
      "step": 9220,
      "train_speed(iter/s)": 1.125315
    },
    {
      "acc": 0.72532692,
      "epoch": 0.23401826484018265,
      "grad_norm": 4.1875,
      "learning_rate": 9.87774048802227e-06,
      "loss": 1.13956051,
      "memory(GiB)": 105.75,
      "step": 9225,
      "train_speed(iter/s)": 1.125322
    },
    {
      "acc": 0.72714968,
      "epoch": 0.2341451040081177,
      "grad_norm": 3.578125,
      "learning_rate": 9.877509907891583e-06,
      "loss": 1.06574001,
      "memory(GiB)": 105.75,
      "step": 9230,
      "train_speed(iter/s)": 1.125452
    },
    {
      "acc": 0.73932214,
      "epoch": 0.23427194317605277,
      "grad_norm": 3.953125,
      "learning_rate": 9.877279113226232e-06,
      "loss": 1.03993378,
      "memory(GiB)": 105.75,
      "step": 9235,
      "train_speed(iter/s)": 1.125502
    },
    {
      "acc": 0.72851858,
      "epoch": 0.2343987823439878,
      "grad_norm": 3.609375,
      "learning_rate": 9.87704810403637e-06,
      "loss": 1.09142208,
      "memory(GiB)": 105.75,
      "step": 9240,
      "train_speed(iter/s)": 1.125536
    },
    {
      "acc": 0.72126846,
      "epoch": 0.23452562151192288,
      "grad_norm": 3.890625,
      "learning_rate": 9.876816880332157e-06,
      "loss": 1.16783676,
      "memory(GiB)": 105.75,
      "step": 9245,
      "train_speed(iter/s)": 1.125531
    },
    {
      "acc": 0.72920294,
      "epoch": 0.23465246067985793,
      "grad_norm": 2.859375,
      "learning_rate": 9.876585442123765e-06,
      "loss": 1.1341301,
      "memory(GiB)": 105.75,
      "step": 9250,
      "train_speed(iter/s)": 1.125607
    },
    {
      "acc": 0.72894959,
      "epoch": 0.234779299847793,
      "grad_norm": 3.96875,
      "learning_rate": 9.876353789421373e-06,
      "loss": 1.14213333,
      "memory(GiB)": 105.75,
      "step": 9255,
      "train_speed(iter/s)": 1.125651
    },
    {
      "acc": 0.71920004,
      "epoch": 0.23490613901572804,
      "grad_norm": 4.46875,
      "learning_rate": 9.876121922235171e-06,
      "loss": 1.19612131,
      "memory(GiB)": 105.75,
      "step": 9260,
      "train_speed(iter/s)": 1.125756
    },
    {
      "acc": 0.72782993,
      "epoch": 0.23503297818366312,
      "grad_norm": 3.578125,
      "learning_rate": 9.875889840575356e-06,
      "loss": 1.18881979,
      "memory(GiB)": 105.75,
      "step": 9265,
      "train_speed(iter/s)": 1.125895
    },
    {
      "acc": 0.71897707,
      "epoch": 0.23515981735159816,
      "grad_norm": 3.359375,
      "learning_rate": 9.875657544452135e-06,
      "loss": 1.14452362,
      "memory(GiB)": 105.75,
      "step": 9270,
      "train_speed(iter/s)": 1.125899
    },
    {
      "acc": 0.71674585,
      "epoch": 0.23528665651953323,
      "grad_norm": 3.765625,
      "learning_rate": 9.875425033875728e-06,
      "loss": 1.11976137,
      "memory(GiB)": 105.75,
      "step": 9275,
      "train_speed(iter/s)": 1.126004
    },
    {
      "acc": 0.73990679,
      "epoch": 0.23541349568746828,
      "grad_norm": 4.9375,
      "learning_rate": 9.875192308856363e-06,
      "loss": 1.15307541,
      "memory(GiB)": 105.75,
      "step": 9280,
      "train_speed(iter/s)": 1.126042
    },
    {
      "acc": 0.73521924,
      "epoch": 0.23554033485540335,
      "grad_norm": 3.96875,
      "learning_rate": 9.87495936940427e-06,
      "loss": 1.09583054,
      "memory(GiB)": 105.75,
      "step": 9285,
      "train_speed(iter/s)": 1.126128
    },
    {
      "acc": 0.71613197,
      "epoch": 0.2356671740233384,
      "grad_norm": 3.71875,
      "learning_rate": 9.874726215529702e-06,
      "loss": 1.1782135,
      "memory(GiB)": 105.75,
      "step": 9290,
      "train_speed(iter/s)": 1.126267
    },
    {
      "acc": 0.72872295,
      "epoch": 0.23579401319127347,
      "grad_norm": 4.3125,
      "learning_rate": 9.87449284724291e-06,
      "loss": 1.08791599,
      "memory(GiB)": 105.75,
      "step": 9295,
      "train_speed(iter/s)": 1.12636
    },
    {
      "acc": 0.72879443,
      "epoch": 0.2359208523592085,
      "grad_norm": 3.5,
      "learning_rate": 9.874259264554159e-06,
      "loss": 1.15112381,
      "memory(GiB)": 105.75,
      "step": 9300,
      "train_speed(iter/s)": 1.126447
    },
    {
      "acc": 0.73686514,
      "epoch": 0.23604769152714358,
      "grad_norm": 3.375,
      "learning_rate": 9.874025467473722e-06,
      "loss": 1.08208265,
      "memory(GiB)": 105.75,
      "step": 9305,
      "train_speed(iter/s)": 1.126564
    },
    {
      "acc": 0.71386681,
      "epoch": 0.23617453069507863,
      "grad_norm": 3.796875,
      "learning_rate": 9.873791456011887e-06,
      "loss": 1.17669001,
      "memory(GiB)": 105.75,
      "step": 9310,
      "train_speed(iter/s)": 1.126631
    },
    {
      "acc": 0.72335835,
      "epoch": 0.2363013698630137,
      "grad_norm": 4.375,
      "learning_rate": 9.873557230178942e-06,
      "loss": 1.12115707,
      "memory(GiB)": 105.75,
      "step": 9315,
      "train_speed(iter/s)": 1.126729
    },
    {
      "acc": 0.72399545,
      "epoch": 0.23642820903094874,
      "grad_norm": 3.5,
      "learning_rate": 9.873322789985191e-06,
      "loss": 1.10458841,
      "memory(GiB)": 105.75,
      "step": 9320,
      "train_speed(iter/s)": 1.126794
    },
    {
      "acc": 0.71964111,
      "epoch": 0.23655504819888382,
      "grad_norm": 3.875,
      "learning_rate": 9.873088135440949e-06,
      "loss": 1.14756565,
      "memory(GiB)": 105.75,
      "step": 9325,
      "train_speed(iter/s)": 1.126848
    },
    {
      "acc": 0.70530539,
      "epoch": 0.23668188736681886,
      "grad_norm": 3.546875,
      "learning_rate": 9.87285326655653e-06,
      "loss": 1.20367317,
      "memory(GiB)": 105.75,
      "step": 9330,
      "train_speed(iter/s)": 1.126846
    },
    {
      "acc": 0.72453175,
      "epoch": 0.23680872653475393,
      "grad_norm": 3.65625,
      "learning_rate": 9.87261818334227e-06,
      "loss": 1.12628746,
      "memory(GiB)": 105.75,
      "step": 9335,
      "train_speed(iter/s)": 1.126934
    },
    {
      "acc": 0.70095205,
      "epoch": 0.23693556570268898,
      "grad_norm": 3.8125,
      "learning_rate": 9.87238288580851e-06,
      "loss": 1.206779,
      "memory(GiB)": 105.75,
      "step": 9340,
      "train_speed(iter/s)": 1.127022
    },
    {
      "acc": 0.72394676,
      "epoch": 0.23706240487062405,
      "grad_norm": 3.421875,
      "learning_rate": 9.872147373965594e-06,
      "loss": 1.14732542,
      "memory(GiB)": 105.75,
      "step": 9345,
      "train_speed(iter/s)": 1.12712
    },
    {
      "acc": 0.72006369,
      "epoch": 0.2371892440385591,
      "grad_norm": 5.5,
      "learning_rate": 9.871911647823884e-06,
      "loss": 1.1990386,
      "memory(GiB)": 105.75,
      "step": 9350,
      "train_speed(iter/s)": 1.127244
    },
    {
      "acc": 0.73032041,
      "epoch": 0.23731608320649417,
      "grad_norm": 3.28125,
      "learning_rate": 9.871675707393749e-06,
      "loss": 1.13042355,
      "memory(GiB)": 105.75,
      "step": 9355,
      "train_speed(iter/s)": 1.12732
    },
    {
      "acc": 0.73549786,
      "epoch": 0.2374429223744292,
      "grad_norm": 4.0,
      "learning_rate": 9.871439552685566e-06,
      "loss": 1.13933544,
      "memory(GiB)": 105.75,
      "step": 9360,
      "train_speed(iter/s)": 1.127409
    },
    {
      "acc": 0.72334976,
      "epoch": 0.23756976154236428,
      "grad_norm": 3.375,
      "learning_rate": 9.871203183709723e-06,
      "loss": 1.15589676,
      "memory(GiB)": 105.75,
      "step": 9365,
      "train_speed(iter/s)": 1.127518
    },
    {
      "acc": 0.74115934,
      "epoch": 0.23769660071029933,
      "grad_norm": 4.40625,
      "learning_rate": 9.870966600476614e-06,
      "loss": 1.13175535,
      "memory(GiB)": 105.75,
      "step": 9370,
      "train_speed(iter/s)": 1.127634
    },
    {
      "acc": 0.73760977,
      "epoch": 0.2378234398782344,
      "grad_norm": 4.28125,
      "learning_rate": 9.870729802996647e-06,
      "loss": 1.11978245,
      "memory(GiB)": 105.75,
      "step": 9375,
      "train_speed(iter/s)": 1.12772
    },
    {
      "acc": 0.72493048,
      "epoch": 0.23795027904616944,
      "grad_norm": 4.5,
      "learning_rate": 9.870492791280239e-06,
      "loss": 1.105369,
      "memory(GiB)": 105.75,
      "step": 9380,
      "train_speed(iter/s)": 1.127827
    },
    {
      "acc": 0.72761559,
      "epoch": 0.23807711821410452,
      "grad_norm": 5.625,
      "learning_rate": 9.87025556533781e-06,
      "loss": 1.08993549,
      "memory(GiB)": 105.75,
      "step": 9385,
      "train_speed(iter/s)": 1.127901
    },
    {
      "acc": 0.74476252,
      "epoch": 0.23820395738203956,
      "grad_norm": 4.53125,
      "learning_rate": 9.870018125179799e-06,
      "loss": 1.06905327,
      "memory(GiB)": 105.75,
      "step": 9390,
      "train_speed(iter/s)": 1.127989
    },
    {
      "acc": 0.7368248,
      "epoch": 0.23833079654997463,
      "grad_norm": 4.34375,
      "learning_rate": 9.869780470816647e-06,
      "loss": 1.06857281,
      "memory(GiB)": 105.75,
      "step": 9395,
      "train_speed(iter/s)": 1.128074
    },
    {
      "acc": 0.73707981,
      "epoch": 0.23845763571790968,
      "grad_norm": 3.234375,
      "learning_rate": 9.869542602258809e-06,
      "loss": 1.07639103,
      "memory(GiB)": 105.75,
      "step": 9400,
      "train_speed(iter/s)": 1.128153
    },
    {
      "acc": 0.71823726,
      "epoch": 0.23858447488584475,
      "grad_norm": 4.75,
      "learning_rate": 9.869304519516745e-06,
      "loss": 1.21504154,
      "memory(GiB)": 105.75,
      "step": 9405,
      "train_speed(iter/s)": 1.128224
    },
    {
      "acc": 0.72842569,
      "epoch": 0.2387113140537798,
      "grad_norm": 3.46875,
      "learning_rate": 9.869066222600928e-06,
      "loss": 1.16934719,
      "memory(GiB)": 105.75,
      "step": 9410,
      "train_speed(iter/s)": 1.128282
    },
    {
      "acc": 0.72392573,
      "epoch": 0.23883815322171487,
      "grad_norm": 2.984375,
      "learning_rate": 9.86882771152184e-06,
      "loss": 1.12086697,
      "memory(GiB)": 105.75,
      "step": 9415,
      "train_speed(iter/s)": 1.128298
    },
    {
      "acc": 0.70533352,
      "epoch": 0.2389649923896499,
      "grad_norm": 3.640625,
      "learning_rate": 9.868588986289973e-06,
      "loss": 1.25690994,
      "memory(GiB)": 105.75,
      "step": 9420,
      "train_speed(iter/s)": 1.128394
    },
    {
      "acc": 0.71435552,
      "epoch": 0.23909183155758498,
      "grad_norm": 3.703125,
      "learning_rate": 9.868350046915825e-06,
      "loss": 1.22022018,
      "memory(GiB)": 105.75,
      "step": 9425,
      "train_speed(iter/s)": 1.128495
    },
    {
      "acc": 0.71946301,
      "epoch": 0.23921867072552003,
      "grad_norm": 4.375,
      "learning_rate": 9.868110893409906e-06,
      "loss": 1.17342224,
      "memory(GiB)": 105.75,
      "step": 9430,
      "train_speed(iter/s)": 1.128594
    },
    {
      "acc": 0.74957228,
      "epoch": 0.2393455098934551,
      "grad_norm": 4.28125,
      "learning_rate": 9.867871525782735e-06,
      "loss": 1.0751421,
      "memory(GiB)": 105.75,
      "step": 9435,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.72722368,
      "epoch": 0.23947234906139014,
      "grad_norm": 3.453125,
      "learning_rate": 9.86763194404484e-06,
      "loss": 1.13262138,
      "memory(GiB)": 105.75,
      "step": 9440,
      "train_speed(iter/s)": 1.128832
    },
    {
      "acc": 0.7110673,
      "epoch": 0.23959918822932522,
      "grad_norm": 3.5625,
      "learning_rate": 9.867392148206762e-06,
      "loss": 1.15273914,
      "memory(GiB)": 105.75,
      "step": 9445,
      "train_speed(iter/s)": 1.128927
    },
    {
      "acc": 0.72543349,
      "epoch": 0.23972602739726026,
      "grad_norm": 4.15625,
      "learning_rate": 9.867152138279043e-06,
      "loss": 1.13128643,
      "memory(GiB)": 105.75,
      "step": 9450,
      "train_speed(iter/s)": 1.129042
    },
    {
      "acc": 0.72763591,
      "epoch": 0.23985286656519533,
      "grad_norm": 3.265625,
      "learning_rate": 9.866911914272246e-06,
      "loss": 1.08974628,
      "memory(GiB)": 105.75,
      "step": 9455,
      "train_speed(iter/s)": 1.129135
    },
    {
      "acc": 0.73336186,
      "epoch": 0.23997970573313038,
      "grad_norm": 3.75,
      "learning_rate": 9.866671476196931e-06,
      "loss": 1.12960367,
      "memory(GiB)": 105.75,
      "step": 9460,
      "train_speed(iter/s)": 1.129223
    },
    {
      "acc": 0.73386335,
      "epoch": 0.24010654490106545,
      "grad_norm": 3.4375,
      "learning_rate": 9.866430824063678e-06,
      "loss": 1.08421564,
      "memory(GiB)": 105.75,
      "step": 9465,
      "train_speed(iter/s)": 1.129298
    },
    {
      "acc": 0.74144387,
      "epoch": 0.2402333840690005,
      "grad_norm": 4.28125,
      "learning_rate": 9.86618995788307e-06,
      "loss": 1.07934084,
      "memory(GiB)": 108.99,
      "step": 9470,
      "train_speed(iter/s)": 1.129313
    },
    {
      "acc": 0.71913342,
      "epoch": 0.24036022323693557,
      "grad_norm": 4.375,
      "learning_rate": 9.865948877665702e-06,
      "loss": 1.15095119,
      "memory(GiB)": 108.99,
      "step": 9475,
      "train_speed(iter/s)": 1.129436
    },
    {
      "acc": 0.7318295,
      "epoch": 0.2404870624048706,
      "grad_norm": 4.3125,
      "learning_rate": 9.865707583422178e-06,
      "loss": 1.15698051,
      "memory(GiB)": 108.99,
      "step": 9480,
      "train_speed(iter/s)": 1.129555
    },
    {
      "acc": 0.72999697,
      "epoch": 0.24061390157280568,
      "grad_norm": 4.0625,
      "learning_rate": 9.865466075163108e-06,
      "loss": 1.14195709,
      "memory(GiB)": 108.99,
      "step": 9485,
      "train_speed(iter/s)": 1.129624
    },
    {
      "acc": 0.74155531,
      "epoch": 0.24074074074074073,
      "grad_norm": 3.328125,
      "learning_rate": 9.86522435289912e-06,
      "loss": 1.08055649,
      "memory(GiB)": 108.99,
      "step": 9490,
      "train_speed(iter/s)": 1.129724
    },
    {
      "acc": 0.71842165,
      "epoch": 0.2408675799086758,
      "grad_norm": 3.671875,
      "learning_rate": 9.864982416640843e-06,
      "loss": 1.21028395,
      "memory(GiB)": 108.99,
      "step": 9495,
      "train_speed(iter/s)": 1.129843
    },
    {
      "acc": 0.72860503,
      "epoch": 0.24099441907661084,
      "grad_norm": 4.375,
      "learning_rate": 9.864740266398918e-06,
      "loss": 1.13262548,
      "memory(GiB)": 108.99,
      "step": 9500,
      "train_speed(iter/s)": 1.129883
    },
    {
      "acc": 0.72829351,
      "epoch": 0.24112125824454592,
      "grad_norm": 3.40625,
      "learning_rate": 9.864497902183996e-06,
      "loss": 1.10044947,
      "memory(GiB)": 108.99,
      "step": 9505,
      "train_speed(iter/s)": 1.129959
    },
    {
      "acc": 0.73596616,
      "epoch": 0.24124809741248096,
      "grad_norm": 4.4375,
      "learning_rate": 9.864255324006738e-06,
      "loss": 1.09414864,
      "memory(GiB)": 108.99,
      "step": 9510,
      "train_speed(iter/s)": 1.130058
    },
    {
      "acc": 0.72043629,
      "epoch": 0.24137493658041603,
      "grad_norm": 4.03125,
      "learning_rate": 9.864012531877814e-06,
      "loss": 1.18776751,
      "memory(GiB)": 108.99,
      "step": 9515,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.71850777,
      "epoch": 0.24150177574835108,
      "grad_norm": 3.5625,
      "learning_rate": 9.863769525807903e-06,
      "loss": 1.16533222,
      "memory(GiB)": 108.99,
      "step": 9520,
      "train_speed(iter/s)": 1.13027
    },
    {
      "acc": 0.742663,
      "epoch": 0.24162861491628615,
      "grad_norm": 3.75,
      "learning_rate": 9.863526305807694e-06,
      "loss": 1.05067978,
      "memory(GiB)": 108.99,
      "step": 9525,
      "train_speed(iter/s)": 1.130372
    },
    {
      "acc": 0.72497368,
      "epoch": 0.2417554540842212,
      "grad_norm": 5.21875,
      "learning_rate": 9.863282871887882e-06,
      "loss": 1.19718246,
      "memory(GiB)": 108.99,
      "step": 9530,
      "train_speed(iter/s)": 1.130479
    },
    {
      "acc": 0.72769108,
      "epoch": 0.24188229325215627,
      "grad_norm": 3.453125,
      "learning_rate": 9.863039224059177e-06,
      "loss": 1.14582205,
      "memory(GiB)": 108.99,
      "step": 9535,
      "train_speed(iter/s)": 1.130571
    },
    {
      "acc": 0.72638035,
      "epoch": 0.2420091324200913,
      "grad_norm": 3.46875,
      "learning_rate": 9.862795362332293e-06,
      "loss": 1.08710661,
      "memory(GiB)": 108.99,
      "step": 9540,
      "train_speed(iter/s)": 1.130629
    },
    {
      "acc": 0.74316463,
      "epoch": 0.24213597158802638,
      "grad_norm": 3.609375,
      "learning_rate": 9.862551286717961e-06,
      "loss": 1.09500017,
      "memory(GiB)": 108.99,
      "step": 9545,
      "train_speed(iter/s)": 1.130697
    },
    {
      "acc": 0.73321137,
      "epoch": 0.24226281075596143,
      "grad_norm": 4.84375,
      "learning_rate": 9.862306997226914e-06,
      "loss": 1.08733711,
      "memory(GiB)": 108.99,
      "step": 9550,
      "train_speed(iter/s)": 1.130739
    },
    {
      "acc": 0.71742692,
      "epoch": 0.2423896499238965,
      "grad_norm": 4.1875,
      "learning_rate": 9.862062493869895e-06,
      "loss": 1.16599674,
      "memory(GiB)": 108.99,
      "step": 9555,
      "train_speed(iter/s)": 1.130854
    },
    {
      "acc": 0.73146667,
      "epoch": 0.24251648909183154,
      "grad_norm": 3.828125,
      "learning_rate": 9.861817776657661e-06,
      "loss": 1.07993412,
      "memory(GiB)": 108.99,
      "step": 9560,
      "train_speed(iter/s)": 1.130961
    },
    {
      "acc": 0.71421089,
      "epoch": 0.24264332825976662,
      "grad_norm": 4.84375,
      "learning_rate": 9.861572845600973e-06,
      "loss": 1.16105852,
      "memory(GiB)": 108.99,
      "step": 9565,
      "train_speed(iter/s)": 1.1311
    },
    {
      "acc": 0.72553368,
      "epoch": 0.24277016742770166,
      "grad_norm": 3.296875,
      "learning_rate": 9.861327700710608e-06,
      "loss": 1.09643478,
      "memory(GiB)": 108.99,
      "step": 9570,
      "train_speed(iter/s)": 1.131165
    },
    {
      "acc": 0.71843767,
      "epoch": 0.24289700659563673,
      "grad_norm": 3.703125,
      "learning_rate": 9.861082341997345e-06,
      "loss": 1.15728521,
      "memory(GiB)": 108.99,
      "step": 9575,
      "train_speed(iter/s)": 1.131278
    },
    {
      "acc": 0.72938194,
      "epoch": 0.24302384576357178,
      "grad_norm": 3.078125,
      "learning_rate": 9.860836769471977e-06,
      "loss": 1.10623274,
      "memory(GiB)": 108.99,
      "step": 9580,
      "train_speed(iter/s)": 1.131347
    },
    {
      "acc": 0.72367716,
      "epoch": 0.24315068493150685,
      "grad_norm": 3.5625,
      "learning_rate": 9.860590983145307e-06,
      "loss": 1.17642012,
      "memory(GiB)": 108.99,
      "step": 9585,
      "train_speed(iter/s)": 1.131422
    },
    {
      "acc": 0.72877874,
      "epoch": 0.2432775240994419,
      "grad_norm": 4.25,
      "learning_rate": 9.860344983028146e-06,
      "loss": 1.15070724,
      "memory(GiB)": 108.99,
      "step": 9590,
      "train_speed(iter/s)": 1.131554
    },
    {
      "acc": 0.72104969,
      "epoch": 0.24340436326737697,
      "grad_norm": 3.5625,
      "learning_rate": 9.86009876913131e-06,
      "loss": 1.17748299,
      "memory(GiB)": 108.99,
      "step": 9595,
      "train_speed(iter/s)": 1.131642
    },
    {
      "acc": 0.72673182,
      "epoch": 0.243531202435312,
      "grad_norm": 2.796875,
      "learning_rate": 9.859852341465633e-06,
      "loss": 1.18143711,
      "memory(GiB)": 108.99,
      "step": 9600,
      "train_speed(iter/s)": 1.131742
    },
    {
      "acc": 0.7298214,
      "epoch": 0.24365804160324708,
      "grad_norm": 3.78125,
      "learning_rate": 9.859605700041951e-06,
      "loss": 1.16021738,
      "memory(GiB)": 108.99,
      "step": 9605,
      "train_speed(iter/s)": 1.131778
    },
    {
      "acc": 0.74216585,
      "epoch": 0.24378488077118213,
      "grad_norm": 4.0625,
      "learning_rate": 9.859358844871113e-06,
      "loss": 1.05582314,
      "memory(GiB)": 108.99,
      "step": 9610,
      "train_speed(iter/s)": 1.131885
    },
    {
      "acc": 0.72288876,
      "epoch": 0.2439117199391172,
      "grad_norm": 3.78125,
      "learning_rate": 9.859111775963981e-06,
      "loss": 1.10510197,
      "memory(GiB)": 108.99,
      "step": 9615,
      "train_speed(iter/s)": 1.131987
    },
    {
      "acc": 0.73229761,
      "epoch": 0.24403855910705224,
      "grad_norm": 3.625,
      "learning_rate": 9.858864493331417e-06,
      "loss": 1.12343216,
      "memory(GiB)": 108.99,
      "step": 9620,
      "train_speed(iter/s)": 1.132098
    },
    {
      "acc": 0.71177149,
      "epoch": 0.24416539827498732,
      "grad_norm": 4.875,
      "learning_rate": 9.858616996984297e-06,
      "loss": 1.20757084,
      "memory(GiB)": 108.99,
      "step": 9625,
      "train_speed(iter/s)": 1.13221
    },
    {
      "acc": 0.71570358,
      "epoch": 0.24429223744292236,
      "grad_norm": 3.625,
      "learning_rate": 9.858369286933513e-06,
      "loss": 1.16164856,
      "memory(GiB)": 108.99,
      "step": 9630,
      "train_speed(iter/s)": 1.132318
    },
    {
      "acc": 0.73002224,
      "epoch": 0.24441907661085743,
      "grad_norm": 3.5,
      "learning_rate": 9.858121363189954e-06,
      "loss": 1.14775476,
      "memory(GiB)": 108.99,
      "step": 9635,
      "train_speed(iter/s)": 1.132391
    },
    {
      "acc": 0.71997323,
      "epoch": 0.24454591577879248,
      "grad_norm": 4.125,
      "learning_rate": 9.85787322576453e-06,
      "loss": 1.19191723,
      "memory(GiB)": 108.99,
      "step": 9640,
      "train_speed(iter/s)": 1.132518
    },
    {
      "acc": 0.722826,
      "epoch": 0.24467275494672755,
      "grad_norm": 3.3125,
      "learning_rate": 9.85762487466815e-06,
      "loss": 1.14528456,
      "memory(GiB)": 108.99,
      "step": 9645,
      "train_speed(iter/s)": 1.132572
    },
    {
      "acc": 0.73671107,
      "epoch": 0.2447995941146626,
      "grad_norm": 4.09375,
      "learning_rate": 9.857376309911741e-06,
      "loss": 1.04809361,
      "memory(GiB)": 108.99,
      "step": 9650,
      "train_speed(iter/s)": 1.13263
    },
    {
      "acc": 0.72606521,
      "epoch": 0.24492643328259767,
      "grad_norm": 3.28125,
      "learning_rate": 9.857127531506237e-06,
      "loss": 1.17432652,
      "memory(GiB)": 108.99,
      "step": 9655,
      "train_speed(iter/s)": 1.132719
    },
    {
      "acc": 0.72129602,
      "epoch": 0.2450532724505327,
      "grad_norm": 3.96875,
      "learning_rate": 9.856878539462577e-06,
      "loss": 1.1351696,
      "memory(GiB)": 108.99,
      "step": 9660,
      "train_speed(iter/s)": 1.132764
    },
    {
      "acc": 0.73919134,
      "epoch": 0.24518011161846778,
      "grad_norm": 3.59375,
      "learning_rate": 9.856629333791716e-06,
      "loss": 1.07775974,
      "memory(GiB)": 108.99,
      "step": 9665,
      "train_speed(iter/s)": 1.132802
    },
    {
      "acc": 0.72332144,
      "epoch": 0.24530695078640283,
      "grad_norm": 3.328125,
      "learning_rate": 9.856379914504612e-06,
      "loss": 1.14434357,
      "memory(GiB)": 108.99,
      "step": 9670,
      "train_speed(iter/s)": 1.132882
    },
    {
      "acc": 0.72576594,
      "epoch": 0.2454337899543379,
      "grad_norm": 3.15625,
      "learning_rate": 9.856130281612237e-06,
      "loss": 1.15602608,
      "memory(GiB)": 108.99,
      "step": 9675,
      "train_speed(iter/s)": 1.132995
    },
    {
      "acc": 0.71817513,
      "epoch": 0.24556062912227294,
      "grad_norm": 3.453125,
      "learning_rate": 9.855880435125572e-06,
      "loss": 1.09994478,
      "memory(GiB)": 108.99,
      "step": 9680,
      "train_speed(iter/s)": 1.133136
    },
    {
      "acc": 0.72304268,
      "epoch": 0.24568746829020802,
      "grad_norm": 3.875,
      "learning_rate": 9.855630375055604e-06,
      "loss": 1.1321846,
      "memory(GiB)": 108.99,
      "step": 9685,
      "train_speed(iter/s)": 1.133236
    },
    {
      "acc": 0.72830949,
      "epoch": 0.24581430745814306,
      "grad_norm": 3.390625,
      "learning_rate": 9.855380101413336e-06,
      "loss": 1.14236126,
      "memory(GiB)": 108.99,
      "step": 9690,
      "train_speed(iter/s)": 1.1333
    },
    {
      "acc": 0.72624288,
      "epoch": 0.24594114662607813,
      "grad_norm": 3.546875,
      "learning_rate": 9.855129614209771e-06,
      "loss": 1.11481934,
      "memory(GiB)": 108.99,
      "step": 9695,
      "train_speed(iter/s)": 1.133391
    },
    {
      "acc": 0.73024645,
      "epoch": 0.24606798579401318,
      "grad_norm": 4.09375,
      "learning_rate": 9.85487891345593e-06,
      "loss": 1.1716835,
      "memory(GiB)": 108.99,
      "step": 9700,
      "train_speed(iter/s)": 1.133513
    },
    {
      "acc": 0.71786799,
      "epoch": 0.24619482496194825,
      "grad_norm": 4.875,
      "learning_rate": 9.85462799916284e-06,
      "loss": 1.19204283,
      "memory(GiB)": 108.99,
      "step": 9705,
      "train_speed(iter/s)": 1.133608
    },
    {
      "acc": 0.71852198,
      "epoch": 0.2463216641298833,
      "grad_norm": 3.703125,
      "learning_rate": 9.854376871341535e-06,
      "loss": 1.19025469,
      "memory(GiB)": 108.99,
      "step": 9710,
      "train_speed(iter/s)": 1.133704
    },
    {
      "acc": 0.72178974,
      "epoch": 0.24644850329781837,
      "grad_norm": 4.46875,
      "learning_rate": 9.854125530003063e-06,
      "loss": 1.18567171,
      "memory(GiB)": 108.99,
      "step": 9715,
      "train_speed(iter/s)": 1.133801
    },
    {
      "acc": 0.72709603,
      "epoch": 0.2465753424657534,
      "grad_norm": 3.890625,
      "learning_rate": 9.853873975158476e-06,
      "loss": 1.09316864,
      "memory(GiB)": 108.99,
      "step": 9720,
      "train_speed(iter/s)": 1.133894
    },
    {
      "acc": 0.72605419,
      "epoch": 0.24670218163368848,
      "grad_norm": 3.59375,
      "learning_rate": 9.853622206818842e-06,
      "loss": 1.16957827,
      "memory(GiB)": 108.99,
      "step": 9725,
      "train_speed(iter/s)": 1.133979
    },
    {
      "acc": 0.72457151,
      "epoch": 0.24682902080162353,
      "grad_norm": 3.328125,
      "learning_rate": 9.853370224995233e-06,
      "loss": 1.12951298,
      "memory(GiB)": 108.99,
      "step": 9730,
      "train_speed(iter/s)": 1.13405
    },
    {
      "acc": 0.7435998,
      "epoch": 0.2469558599695586,
      "grad_norm": 3.59375,
      "learning_rate": 9.853118029698733e-06,
      "loss": 1.07385645,
      "memory(GiB)": 108.99,
      "step": 9735,
      "train_speed(iter/s)": 1.134011
    },
    {
      "acc": 0.73576846,
      "epoch": 0.24708269913749364,
      "grad_norm": 3.9375,
      "learning_rate": 9.852865620940436e-06,
      "loss": 1.156674,
      "memory(GiB)": 108.99,
      "step": 9740,
      "train_speed(iter/s)": 1.134102
    },
    {
      "acc": 0.71794276,
      "epoch": 0.24720953830542872,
      "grad_norm": 3.140625,
      "learning_rate": 9.85261299873144e-06,
      "loss": 1.1513588,
      "memory(GiB)": 108.99,
      "step": 9745,
      "train_speed(iter/s)": 1.134191
    },
    {
      "acc": 0.7396656,
      "epoch": 0.24733637747336376,
      "grad_norm": 3.65625,
      "learning_rate": 9.85236016308286e-06,
      "loss": 1.10589294,
      "memory(GiB)": 108.99,
      "step": 9750,
      "train_speed(iter/s)": 1.134317
    },
    {
      "acc": 0.72939043,
      "epoch": 0.24746321664129883,
      "grad_norm": 3.65625,
      "learning_rate": 9.852107114005816e-06,
      "loss": 1.13997784,
      "memory(GiB)": 108.99,
      "step": 9755,
      "train_speed(iter/s)": 1.134366
    },
    {
      "acc": 0.74732661,
      "epoch": 0.24759005580923388,
      "grad_norm": 3.609375,
      "learning_rate": 9.851853851511437e-06,
      "loss": 1.08550043,
      "memory(GiB)": 108.99,
      "step": 9760,
      "train_speed(iter/s)": 1.134438
    },
    {
      "acc": 0.73142128,
      "epoch": 0.24771689497716895,
      "grad_norm": 4.28125,
      "learning_rate": 9.851600375610864e-06,
      "loss": 1.10250587,
      "memory(GiB)": 108.99,
      "step": 9765,
      "train_speed(iter/s)": 1.134563
    },
    {
      "acc": 0.72273045,
      "epoch": 0.247843734145104,
      "grad_norm": 4.3125,
      "learning_rate": 9.851346686315246e-06,
      "loss": 1.15985155,
      "memory(GiB)": 108.99,
      "step": 9770,
      "train_speed(iter/s)": 1.134648
    },
    {
      "acc": 0.72180672,
      "epoch": 0.24797057331303907,
      "grad_norm": 3.28125,
      "learning_rate": 9.851092783635742e-06,
      "loss": 1.18227615,
      "memory(GiB)": 108.99,
      "step": 9775,
      "train_speed(iter/s)": 1.134747
    },
    {
      "acc": 0.72730961,
      "epoch": 0.2480974124809741,
      "grad_norm": 4.0625,
      "learning_rate": 9.850838667583518e-06,
      "loss": 1.11056538,
      "memory(GiB)": 108.99,
      "step": 9780,
      "train_speed(iter/s)": 1.134847
    },
    {
      "acc": 0.73238373,
      "epoch": 0.24822425164890918,
      "grad_norm": 3.859375,
      "learning_rate": 9.850584338169752e-06,
      "loss": 1.09292049,
      "memory(GiB)": 108.99,
      "step": 9785,
      "train_speed(iter/s)": 1.134962
    },
    {
      "acc": 0.72018986,
      "epoch": 0.24835109081684423,
      "grad_norm": 3.984375,
      "learning_rate": 9.85032979540563e-06,
      "loss": 1.14161148,
      "memory(GiB)": 108.99,
      "step": 9790,
      "train_speed(iter/s)": 1.135042
    },
    {
      "acc": 0.71965117,
      "epoch": 0.2484779299847793,
      "grad_norm": 3.5,
      "learning_rate": 9.85007503930235e-06,
      "loss": 1.15302353,
      "memory(GiB)": 108.99,
      "step": 9795,
      "train_speed(iter/s)": 1.135144
    },
    {
      "acc": 0.7300272,
      "epoch": 0.24860476915271434,
      "grad_norm": 3.5625,
      "learning_rate": 9.849820069871114e-06,
      "loss": 1.11841431,
      "memory(GiB)": 108.99,
      "step": 9800,
      "train_speed(iter/s)": 1.135232
    },
    {
      "acc": 0.72257228,
      "epoch": 0.24873160832064942,
      "grad_norm": 4.65625,
      "learning_rate": 9.849564887123138e-06,
      "loss": 1.15904484,
      "memory(GiB)": 108.99,
      "step": 9805,
      "train_speed(iter/s)": 1.135314
    },
    {
      "acc": 0.71677189,
      "epoch": 0.24885844748858446,
      "grad_norm": 3.421875,
      "learning_rate": 9.849309491069647e-06,
      "loss": 1.14783926,
      "memory(GiB)": 108.99,
      "step": 9810,
      "train_speed(iter/s)": 1.135362
    },
    {
      "acc": 0.72509747,
      "epoch": 0.24898528665651953,
      "grad_norm": 4.40625,
      "learning_rate": 9.849053881721876e-06,
      "loss": 1.105445,
      "memory(GiB)": 108.99,
      "step": 9815,
      "train_speed(iter/s)": 1.135413
    },
    {
      "acc": 0.73171926,
      "epoch": 0.24911212582445458,
      "grad_norm": 3.453125,
      "learning_rate": 9.848798059091064e-06,
      "loss": 1.15360088,
      "memory(GiB)": 108.99,
      "step": 9820,
      "train_speed(iter/s)": 1.135539
    },
    {
      "acc": 0.73103647,
      "epoch": 0.24923896499238965,
      "grad_norm": 3.796875,
      "learning_rate": 9.848542023188466e-06,
      "loss": 1.15608988,
      "memory(GiB)": 108.99,
      "step": 9825,
      "train_speed(iter/s)": 1.135585
    },
    {
      "acc": 0.75044298,
      "epoch": 0.2493658041603247,
      "grad_norm": 4.1875,
      "learning_rate": 9.848285774025342e-06,
      "loss": 1.04508591,
      "memory(GiB)": 108.99,
      "step": 9830,
      "train_speed(iter/s)": 1.135642
    },
    {
      "acc": 0.72366085,
      "epoch": 0.24949264332825977,
      "grad_norm": 4.96875,
      "learning_rate": 9.848029311612963e-06,
      "loss": 1.13094845,
      "memory(GiB)": 108.99,
      "step": 9835,
      "train_speed(iter/s)": 1.135697
    },
    {
      "acc": 0.73163109,
      "epoch": 0.2496194824961948,
      "grad_norm": 4.3125,
      "learning_rate": 9.84777263596261e-06,
      "loss": 1.12812967,
      "memory(GiB)": 108.99,
      "step": 9840,
      "train_speed(iter/s)": 1.135771
    },
    {
      "acc": 0.72354946,
      "epoch": 0.24974632166412988,
      "grad_norm": 3.515625,
      "learning_rate": 9.847515747085573e-06,
      "loss": 1.15787449,
      "memory(GiB)": 108.99,
      "step": 9845,
      "train_speed(iter/s)": 1.135856
    },
    {
      "acc": 0.72891989,
      "epoch": 0.24987316083206493,
      "grad_norm": 3.390625,
      "learning_rate": 9.847258644993151e-06,
      "loss": 1.17045765,
      "memory(GiB)": 108.99,
      "step": 9850,
      "train_speed(iter/s)": 1.135906
    },
    {
      "acc": 0.7082736,
      "epoch": 0.25,
      "grad_norm": 3.484375,
      "learning_rate": 9.847001329696653e-06,
      "loss": 1.18643761,
      "memory(GiB)": 108.99,
      "step": 9855,
      "train_speed(iter/s)": 1.135971
    },
    {
      "acc": 0.73395777,
      "epoch": 0.25012683916793504,
      "grad_norm": 3.40625,
      "learning_rate": 9.846743801207395e-06,
      "loss": 1.09488125,
      "memory(GiB)": 108.99,
      "step": 9860,
      "train_speed(iter/s)": 1.136058
    },
    {
      "acc": 0.71736856,
      "epoch": 0.25025367833587014,
      "grad_norm": 3.78125,
      "learning_rate": 9.846486059536706e-06,
      "loss": 1.163235,
      "memory(GiB)": 112.26,
      "step": 9865,
      "train_speed(iter/s)": 1.136069
    },
    {
      "acc": 0.72049422,
      "epoch": 0.2503805175038052,
      "grad_norm": 3.234375,
      "learning_rate": 9.846228104695922e-06,
      "loss": 1.13028622,
      "memory(GiB)": 112.26,
      "step": 9870,
      "train_speed(iter/s)": 1.13615
    },
    {
      "acc": 0.70985837,
      "epoch": 0.25050735667174023,
      "grad_norm": 3.84375,
      "learning_rate": 9.84596993669639e-06,
      "loss": 1.23376083,
      "memory(GiB)": 112.26,
      "step": 9875,
      "train_speed(iter/s)": 1.136228
    },
    {
      "acc": 0.72684617,
      "epoch": 0.2506341958396753,
      "grad_norm": 8.25,
      "learning_rate": 9.845711555549464e-06,
      "loss": 1.13291874,
      "memory(GiB)": 112.26,
      "step": 9880,
      "train_speed(iter/s)": 1.136251
    },
    {
      "acc": 0.72748709,
      "epoch": 0.2507610350076104,
      "grad_norm": 3.609375,
      "learning_rate": 9.845452961266509e-06,
      "loss": 1.10511055,
      "memory(GiB)": 112.26,
      "step": 9885,
      "train_speed(iter/s)": 1.136343
    },
    {
      "acc": 0.731779,
      "epoch": 0.2508878741755454,
      "grad_norm": 3.71875,
      "learning_rate": 9.845194153858899e-06,
      "loss": 1.12155218,
      "memory(GiB)": 112.26,
      "step": 9890,
      "train_speed(iter/s)": 1.136445
    },
    {
      "acc": 0.72192917,
      "epoch": 0.25101471334348047,
      "grad_norm": 3.5,
      "learning_rate": 9.844935133338018e-06,
      "loss": 1.09626236,
      "memory(GiB)": 112.26,
      "step": 9895,
      "train_speed(iter/s)": 1.136523
    },
    {
      "acc": 0.70569754,
      "epoch": 0.2511415525114155,
      "grad_norm": 3.515625,
      "learning_rate": 9.84467589971526e-06,
      "loss": 1.21370535,
      "memory(GiB)": 112.26,
      "step": 9900,
      "train_speed(iter/s)": 1.136551
    },
    {
      "acc": 0.72072477,
      "epoch": 0.2512683916793506,
      "grad_norm": 3.859375,
      "learning_rate": 9.844416453002027e-06,
      "loss": 1.15672264,
      "memory(GiB)": 112.26,
      "step": 9905,
      "train_speed(iter/s)": 1.136574
    },
    {
      "acc": 0.72566652,
      "epoch": 0.25139523084728566,
      "grad_norm": 3.5,
      "learning_rate": 9.844156793209725e-06,
      "loss": 1.10406275,
      "memory(GiB)": 112.26,
      "step": 9910,
      "train_speed(iter/s)": 1.136671
    },
    {
      "acc": 0.72815619,
      "epoch": 0.2515220700152207,
      "grad_norm": 4.125,
      "learning_rate": 9.843896920349783e-06,
      "loss": 1.12553778,
      "memory(GiB)": 112.26,
      "step": 9915,
      "train_speed(iter/s)": 1.136718
    },
    {
      "acc": 0.727424,
      "epoch": 0.25164890918315574,
      "grad_norm": 3.34375,
      "learning_rate": 9.843636834433627e-06,
      "loss": 1.14021969,
      "memory(GiB)": 112.26,
      "step": 9920,
      "train_speed(iter/s)": 1.136822
    },
    {
      "acc": 0.72929621,
      "epoch": 0.25177574835109084,
      "grad_norm": 3.75,
      "learning_rate": 9.843376535472698e-06,
      "loss": 1.1054327,
      "memory(GiB)": 112.26,
      "step": 9925,
      "train_speed(iter/s)": 1.136908
    },
    {
      "acc": 0.74055486,
      "epoch": 0.2519025875190259,
      "grad_norm": 2.828125,
      "learning_rate": 9.843116023478445e-06,
      "loss": 1.05337791,
      "memory(GiB)": 112.26,
      "step": 9930,
      "train_speed(iter/s)": 1.137012
    },
    {
      "acc": 0.72818165,
      "epoch": 0.25202942668696093,
      "grad_norm": 3.328125,
      "learning_rate": 9.842855298462327e-06,
      "loss": 1.13943624,
      "memory(GiB)": 112.26,
      "step": 9935,
      "train_speed(iter/s)": 1.13711
    },
    {
      "acc": 0.72499537,
      "epoch": 0.252156265854896,
      "grad_norm": 4.25,
      "learning_rate": 9.84259436043581e-06,
      "loss": 1.15208263,
      "memory(GiB)": 112.26,
      "step": 9940,
      "train_speed(iter/s)": 1.137196
    },
    {
      "acc": 0.73234606,
      "epoch": 0.2522831050228311,
      "grad_norm": 3.921875,
      "learning_rate": 9.842333209410372e-06,
      "loss": 1.10945425,
      "memory(GiB)": 112.26,
      "step": 9945,
      "train_speed(iter/s)": 1.137218
    },
    {
      "acc": 0.73107343,
      "epoch": 0.2524099441907661,
      "grad_norm": 3.4375,
      "learning_rate": 9.842071845397502e-06,
      "loss": 1.06414671,
      "memory(GiB)": 112.26,
      "step": 9950,
      "train_speed(iter/s)": 1.137308
    },
    {
      "acc": 0.71986942,
      "epoch": 0.25253678335870117,
      "grad_norm": 3.625,
      "learning_rate": 9.841810268408692e-06,
      "loss": 1.16438351,
      "memory(GiB)": 112.26,
      "step": 9955,
      "train_speed(iter/s)": 1.13737
    },
    {
      "acc": 0.72544365,
      "epoch": 0.2526636225266362,
      "grad_norm": 3.609375,
      "learning_rate": 9.841548478455451e-06,
      "loss": 1.16835613,
      "memory(GiB)": 112.26,
      "step": 9960,
      "train_speed(iter/s)": 1.137437
    },
    {
      "acc": 0.72446637,
      "epoch": 0.2527904616945713,
      "grad_norm": 3.953125,
      "learning_rate": 9.841286475549291e-06,
      "loss": 1.16065617,
      "memory(GiB)": 112.26,
      "step": 9965,
      "train_speed(iter/s)": 1.137531
    },
    {
      "acc": 0.73188024,
      "epoch": 0.25291730086250636,
      "grad_norm": 3.890625,
      "learning_rate": 9.841024259701737e-06,
      "loss": 1.09482508,
      "memory(GiB)": 112.26,
      "step": 9970,
      "train_speed(iter/s)": 1.137569
    },
    {
      "acc": 0.7309885,
      "epoch": 0.2530441400304414,
      "grad_norm": 3.65625,
      "learning_rate": 9.840761830924323e-06,
      "loss": 1.13350649,
      "memory(GiB)": 112.26,
      "step": 9975,
      "train_speed(iter/s)": 1.137693
    },
    {
      "acc": 0.71761265,
      "epoch": 0.25317097919837644,
      "grad_norm": 4.65625,
      "learning_rate": 9.84049918922859e-06,
      "loss": 1.15284882,
      "memory(GiB)": 112.26,
      "step": 9980,
      "train_speed(iter/s)": 1.137796
    },
    {
      "acc": 0.71703715,
      "epoch": 0.25329781836631154,
      "grad_norm": 3.703125,
      "learning_rate": 9.840236334626091e-06,
      "loss": 1.11971073,
      "memory(GiB)": 112.26,
      "step": 9985,
      "train_speed(iter/s)": 1.137864
    },
    {
      "acc": 0.72490911,
      "epoch": 0.2534246575342466,
      "grad_norm": 2.953125,
      "learning_rate": 9.83997326712839e-06,
      "loss": 1.11152821,
      "memory(GiB)": 112.26,
      "step": 9990,
      "train_speed(iter/s)": 1.137941
    },
    {
      "acc": 0.74521604,
      "epoch": 0.25355149670218163,
      "grad_norm": 3.34375,
      "learning_rate": 9.839709986747054e-06,
      "loss": 1.07805023,
      "memory(GiB)": 112.26,
      "step": 9995,
      "train_speed(iter/s)": 1.138041
    },
    {
      "acc": 0.7340302,
      "epoch": 0.2536783358701167,
      "grad_norm": 3.328125,
      "learning_rate": 9.839446493493667e-06,
      "loss": 1.08750505,
      "memory(GiB)": 112.26,
      "step": 10000,
      "train_speed(iter/s)": 1.138118
    },
    {
      "epoch": 0.2536783358701167,
      "eval_acc": 0.7155848196852087,
      "eval_loss": 1.0988587141036987,
      "eval_runtime": 70.9184,
      "eval_samples_per_second": 89.822,
      "eval_steps_per_second": 22.462,
      "step": 10000
    },
    {
      "acc": 0.72424617,
      "epoch": 0.2538051750380518,
      "grad_norm": 3.515625,
      "learning_rate": 9.839182787379815e-06,
      "loss": 1.06905947,
      "memory(GiB)": 112.26,
      "step": 10005,
      "train_speed(iter/s)": 1.123401
    },
    {
      "acc": 0.72920637,
      "epoch": 0.2539320142059868,
      "grad_norm": 3.78125,
      "learning_rate": 9.8389188684171e-06,
      "loss": 1.09560261,
      "memory(GiB)": 112.26,
      "step": 10010,
      "train_speed(iter/s)": 1.123449
    },
    {
      "acc": 0.73047848,
      "epoch": 0.25405885337392187,
      "grad_norm": 3.734375,
      "learning_rate": 9.838654736617128e-06,
      "loss": 1.06714058,
      "memory(GiB)": 112.26,
      "step": 10015,
      "train_speed(iter/s)": 1.123532
    },
    {
      "acc": 0.73116035,
      "epoch": 0.2541856925418569,
      "grad_norm": 3.78125,
      "learning_rate": 9.838390391991517e-06,
      "loss": 1.10376797,
      "memory(GiB)": 112.26,
      "step": 10020,
      "train_speed(iter/s)": 1.123657
    },
    {
      "acc": 0.7205678,
      "epoch": 0.254312531709792,
      "grad_norm": 3.84375,
      "learning_rate": 9.838125834551895e-06,
      "loss": 1.1658186,
      "memory(GiB)": 112.26,
      "step": 10025,
      "train_speed(iter/s)": 1.12369
    },
    {
      "acc": 0.72910061,
      "epoch": 0.25443937087772706,
      "grad_norm": 3.484375,
      "learning_rate": 9.837861064309899e-06,
      "loss": 1.13988705,
      "memory(GiB)": 112.26,
      "step": 10030,
      "train_speed(iter/s)": 1.123787
    },
    {
      "acc": 0.726966,
      "epoch": 0.2545662100456621,
      "grad_norm": 3.703125,
      "learning_rate": 9.837596081277173e-06,
      "loss": 1.06381178,
      "memory(GiB)": 112.26,
      "step": 10035,
      "train_speed(iter/s)": 1.123768
    },
    {
      "acc": 0.72645459,
      "epoch": 0.25469304921359714,
      "grad_norm": 4.0,
      "learning_rate": 9.837330885465373e-06,
      "loss": 1.12975159,
      "memory(GiB)": 112.26,
      "step": 10040,
      "train_speed(iter/s)": 1.12387
    },
    {
      "acc": 0.72174721,
      "epoch": 0.25481988838153224,
      "grad_norm": 3.53125,
      "learning_rate": 9.837065476886163e-06,
      "loss": 1.1616641,
      "memory(GiB)": 112.26,
      "step": 10045,
      "train_speed(iter/s)": 1.123935
    },
    {
      "acc": 0.72225628,
      "epoch": 0.2549467275494673,
      "grad_norm": 4.4375,
      "learning_rate": 9.83679985555122e-06,
      "loss": 1.13511963,
      "memory(GiB)": 112.26,
      "step": 10050,
      "train_speed(iter/s)": 1.12404
    },
    {
      "acc": 0.73008485,
      "epoch": 0.25507356671740233,
      "grad_norm": 3.578125,
      "learning_rate": 9.836534021472222e-06,
      "loss": 1.12033672,
      "memory(GiB)": 112.26,
      "step": 10055,
      "train_speed(iter/s)": 1.124148
    },
    {
      "acc": 0.7254478,
      "epoch": 0.2552004058853374,
      "grad_norm": 3.734375,
      "learning_rate": 9.836267974660866e-06,
      "loss": 1.14261589,
      "memory(GiB)": 112.26,
      "step": 10060,
      "train_speed(iter/s)": 1.124205
    },
    {
      "acc": 0.72174606,
      "epoch": 0.2553272450532725,
      "grad_norm": 3.5,
      "learning_rate": 9.836001715128851e-06,
      "loss": 1.15507498,
      "memory(GiB)": 112.26,
      "step": 10065,
      "train_speed(iter/s)": 1.12428
    },
    {
      "acc": 0.72793307,
      "epoch": 0.2554540842212075,
      "grad_norm": 4.25,
      "learning_rate": 9.835735242887889e-06,
      "loss": 1.12132416,
      "memory(GiB)": 112.26,
      "step": 10070,
      "train_speed(iter/s)": 1.124368
    },
    {
      "acc": 0.73225932,
      "epoch": 0.25558092338914257,
      "grad_norm": 3.78125,
      "learning_rate": 9.835468557949701e-06,
      "loss": 1.12510366,
      "memory(GiB)": 112.26,
      "step": 10075,
      "train_speed(iter/s)": 1.12442
    },
    {
      "acc": 0.72080808,
      "epoch": 0.2557077625570776,
      "grad_norm": 3.515625,
      "learning_rate": 9.83520166032602e-06,
      "loss": 1.15362148,
      "memory(GiB)": 112.26,
      "step": 10080,
      "train_speed(iter/s)": 1.124509
    },
    {
      "acc": 0.72010756,
      "epoch": 0.2558346017250127,
      "grad_norm": 4.34375,
      "learning_rate": 9.834934550028579e-06,
      "loss": 1.12981148,
      "memory(GiB)": 112.26,
      "step": 10085,
      "train_speed(iter/s)": 1.124625
    },
    {
      "acc": 0.72718554,
      "epoch": 0.25596144089294776,
      "grad_norm": 4.125,
      "learning_rate": 9.83466722706913e-06,
      "loss": 1.15596924,
      "memory(GiB)": 112.26,
      "step": 10090,
      "train_speed(iter/s)": 1.124709
    },
    {
      "acc": 0.72675095,
      "epoch": 0.2560882800608828,
      "grad_norm": 3.640625,
      "learning_rate": 9.834399691459433e-06,
      "loss": 1.14101028,
      "memory(GiB)": 112.26,
      "step": 10095,
      "train_speed(iter/s)": 1.124802
    },
    {
      "acc": 0.72771807,
      "epoch": 0.25621511922881784,
      "grad_norm": 3.96875,
      "learning_rate": 9.83413194321125e-06,
      "loss": 1.11210632,
      "memory(GiB)": 112.26,
      "step": 10100,
      "train_speed(iter/s)": 1.124874
    },
    {
      "acc": 0.73233695,
      "epoch": 0.25634195839675294,
      "grad_norm": 4.3125,
      "learning_rate": 9.833863982336365e-06,
      "loss": 1.10562305,
      "memory(GiB)": 112.26,
      "step": 10105,
      "train_speed(iter/s)": 1.124946
    },
    {
      "acc": 0.73756504,
      "epoch": 0.256468797564688,
      "grad_norm": 3.4375,
      "learning_rate": 9.83359580884656e-06,
      "loss": 1.12241993,
      "memory(GiB)": 112.26,
      "step": 10110,
      "train_speed(iter/s)": 1.125067
    },
    {
      "acc": 0.7352212,
      "epoch": 0.25659563673262303,
      "grad_norm": 3.65625,
      "learning_rate": 9.83332742275363e-06,
      "loss": 1.128512,
      "memory(GiB)": 112.26,
      "step": 10115,
      "train_speed(iter/s)": 1.125093
    },
    {
      "acc": 0.71426687,
      "epoch": 0.2567224759005581,
      "grad_norm": 4.75,
      "learning_rate": 9.833058824069382e-06,
      "loss": 1.17009916,
      "memory(GiB)": 112.26,
      "step": 10120,
      "train_speed(iter/s)": 1.125151
    },
    {
      "acc": 0.73107185,
      "epoch": 0.2568493150684932,
      "grad_norm": 4.125,
      "learning_rate": 9.832790012805626e-06,
      "loss": 1.09705687,
      "memory(GiB)": 112.26,
      "step": 10125,
      "train_speed(iter/s)": 1.125195
    },
    {
      "acc": 0.73241129,
      "epoch": 0.2569761542364282,
      "grad_norm": 4.53125,
      "learning_rate": 9.832520988974191e-06,
      "loss": 1.07562943,
      "memory(GiB)": 112.26,
      "step": 10130,
      "train_speed(iter/s)": 1.125292
    },
    {
      "acc": 0.73549356,
      "epoch": 0.25710299340436327,
      "grad_norm": 3.609375,
      "learning_rate": 9.832251752586907e-06,
      "loss": 1.07380962,
      "memory(GiB)": 112.26,
      "step": 10135,
      "train_speed(iter/s)": 1.125361
    },
    {
      "acc": 0.73704267,
      "epoch": 0.2572298325722983,
      "grad_norm": 3.234375,
      "learning_rate": 9.831982303655617e-06,
      "loss": 1.07174511,
      "memory(GiB)": 112.26,
      "step": 10140,
      "train_speed(iter/s)": 1.125472
    },
    {
      "acc": 0.7309833,
      "epoch": 0.2573566717402334,
      "grad_norm": 3.859375,
      "learning_rate": 9.83171264219217e-06,
      "loss": 1.11292276,
      "memory(GiB)": 112.26,
      "step": 10145,
      "train_speed(iter/s)": 1.125532
    },
    {
      "acc": 0.7538063,
      "epoch": 0.25748351090816846,
      "grad_norm": 3.71875,
      "learning_rate": 9.831442768208429e-06,
      "loss": 1.00312681,
      "memory(GiB)": 112.26,
      "step": 10150,
      "train_speed(iter/s)": 1.125487
    },
    {
      "acc": 0.74229217,
      "epoch": 0.2576103500761035,
      "grad_norm": 3.359375,
      "learning_rate": 9.831172681716265e-06,
      "loss": 1.09755573,
      "memory(GiB)": 112.26,
      "step": 10155,
      "train_speed(iter/s)": 1.125505
    },
    {
      "acc": 0.73920231,
      "epoch": 0.25773718924403854,
      "grad_norm": 3.515625,
      "learning_rate": 9.830902382727556e-06,
      "loss": 1.09797554,
      "memory(GiB)": 112.26,
      "step": 10160,
      "train_speed(iter/s)": 1.125582
    },
    {
      "acc": 0.73974485,
      "epoch": 0.25786402841197364,
      "grad_norm": 3.296875,
      "learning_rate": 9.830631871254193e-06,
      "loss": 1.08144169,
      "memory(GiB)": 112.26,
      "step": 10165,
      "train_speed(iter/s)": 1.12568
    },
    {
      "acc": 0.73523188,
      "epoch": 0.2579908675799087,
      "grad_norm": 3.65625,
      "learning_rate": 9.830361147308074e-06,
      "loss": 1.10491743,
      "memory(GiB)": 112.26,
      "step": 10170,
      "train_speed(iter/s)": 1.125782
    },
    {
      "acc": 0.72355313,
      "epoch": 0.25811770674784373,
      "grad_norm": 3.53125,
      "learning_rate": 9.830090210901104e-06,
      "loss": 1.15481052,
      "memory(GiB)": 112.26,
      "step": 10175,
      "train_speed(iter/s)": 1.125898
    },
    {
      "acc": 0.72988968,
      "epoch": 0.2582445459157788,
      "grad_norm": 4.15625,
      "learning_rate": 9.829819062045203e-06,
      "loss": 1.12414341,
      "memory(GiB)": 112.26,
      "step": 10180,
      "train_speed(iter/s)": 1.125954
    },
    {
      "acc": 0.74186249,
      "epoch": 0.2583713850837139,
      "grad_norm": 3.578125,
      "learning_rate": 9.829547700752295e-06,
      "loss": 1.04670858,
      "memory(GiB)": 112.26,
      "step": 10185,
      "train_speed(iter/s)": 1.126065
    },
    {
      "acc": 0.71175976,
      "epoch": 0.2584982242516489,
      "grad_norm": 3.78125,
      "learning_rate": 9.829276127034315e-06,
      "loss": 1.17894173,
      "memory(GiB)": 112.26,
      "step": 10190,
      "train_speed(iter/s)": 1.126126
    },
    {
      "acc": 0.71944585,
      "epoch": 0.25862506341958397,
      "grad_norm": 4.40625,
      "learning_rate": 9.829004340903214e-06,
      "loss": 1.13466215,
      "memory(GiB)": 112.26,
      "step": 10195,
      "train_speed(iter/s)": 1.126232
    },
    {
      "acc": 0.72059412,
      "epoch": 0.258751902587519,
      "grad_norm": 3.0,
      "learning_rate": 9.82873234237094e-06,
      "loss": 1.18812189,
      "memory(GiB)": 112.26,
      "step": 10200,
      "train_speed(iter/s)": 1.126341
    },
    {
      "acc": 0.71160665,
      "epoch": 0.2588787417554541,
      "grad_norm": 5.40625,
      "learning_rate": 9.828460131449457e-06,
      "loss": 1.20235538,
      "memory(GiB)": 112.26,
      "step": 10205,
      "train_speed(iter/s)": 1.126443
    },
    {
      "acc": 0.71079111,
      "epoch": 0.25900558092338916,
      "grad_norm": 3.796875,
      "learning_rate": 9.828187708150743e-06,
      "loss": 1.1461771,
      "memory(GiB)": 112.26,
      "step": 10210,
      "train_speed(iter/s)": 1.126538
    },
    {
      "acc": 0.73647547,
      "epoch": 0.2591324200913242,
      "grad_norm": 3.4375,
      "learning_rate": 9.827915072486776e-06,
      "loss": 1.08291864,
      "memory(GiB)": 112.26,
      "step": 10215,
      "train_speed(iter/s)": 1.126606
    },
    {
      "acc": 0.72740421,
      "epoch": 0.25925925925925924,
      "grad_norm": 4.09375,
      "learning_rate": 9.827642224469547e-06,
      "loss": 1.11871357,
      "memory(GiB)": 112.26,
      "step": 10220,
      "train_speed(iter/s)": 1.126616
    },
    {
      "acc": 0.72254958,
      "epoch": 0.25938609842719434,
      "grad_norm": 4.40625,
      "learning_rate": 9.827369164111062e-06,
      "loss": 1.19189272,
      "memory(GiB)": 112.26,
      "step": 10225,
      "train_speed(iter/s)": 1.126693
    },
    {
      "acc": 0.71901379,
      "epoch": 0.2595129375951294,
      "grad_norm": 4.0625,
      "learning_rate": 9.827095891423328e-06,
      "loss": 1.18340492,
      "memory(GiB)": 112.26,
      "step": 10230,
      "train_speed(iter/s)": 1.126799
    },
    {
      "acc": 0.74230604,
      "epoch": 0.25963977676306443,
      "grad_norm": 4.03125,
      "learning_rate": 9.826822406418366e-06,
      "loss": 1.03380938,
      "memory(GiB)": 112.26,
      "step": 10235,
      "train_speed(iter/s)": 1.126878
    },
    {
      "acc": 0.73470087,
      "epoch": 0.2597666159309995,
      "grad_norm": 3.328125,
      "learning_rate": 9.826548709108202e-06,
      "loss": 1.05021191,
      "memory(GiB)": 112.26,
      "step": 10240,
      "train_speed(iter/s)": 1.12695
    },
    {
      "acc": 0.72874818,
      "epoch": 0.2598934550989346,
      "grad_norm": 4.0,
      "learning_rate": 9.826274799504878e-06,
      "loss": 1.08543835,
      "memory(GiB)": 112.26,
      "step": 10245,
      "train_speed(iter/s)": 1.127046
    },
    {
      "acc": 0.73219423,
      "epoch": 0.2600202942668696,
      "grad_norm": 3.484375,
      "learning_rate": 9.82600067762044e-06,
      "loss": 1.14755077,
      "memory(GiB)": 112.26,
      "step": 10250,
      "train_speed(iter/s)": 1.127112
    },
    {
      "acc": 0.73521228,
      "epoch": 0.26014713343480467,
      "grad_norm": 4.1875,
      "learning_rate": 9.825726343466947e-06,
      "loss": 1.12386913,
      "memory(GiB)": 112.26,
      "step": 10255,
      "train_speed(iter/s)": 1.127171
    },
    {
      "acc": 0.72945948,
      "epoch": 0.2602739726027397,
      "grad_norm": 3.71875,
      "learning_rate": 9.825451797056462e-06,
      "loss": 1.11132727,
      "memory(GiB)": 112.26,
      "step": 10260,
      "train_speed(iter/s)": 1.127231
    },
    {
      "acc": 0.7242898,
      "epoch": 0.2604008117706748,
      "grad_norm": 4.0625,
      "learning_rate": 9.825177038401064e-06,
      "loss": 1.12614546,
      "memory(GiB)": 112.26,
      "step": 10265,
      "train_speed(iter/s)": 1.127323
    },
    {
      "acc": 0.7188343,
      "epoch": 0.26052765093860986,
      "grad_norm": 3.390625,
      "learning_rate": 9.824902067512838e-06,
      "loss": 1.15485287,
      "memory(GiB)": 112.26,
      "step": 10270,
      "train_speed(iter/s)": 1.127401
    },
    {
      "acc": 0.73193135,
      "epoch": 0.2606544901065449,
      "grad_norm": 3.765625,
      "learning_rate": 9.824626884403877e-06,
      "loss": 1.13869677,
      "memory(GiB)": 112.26,
      "step": 10275,
      "train_speed(iter/s)": 1.12751
    },
    {
      "acc": 0.71967282,
      "epoch": 0.26078132927447994,
      "grad_norm": 3.484375,
      "learning_rate": 9.824351489086283e-06,
      "loss": 1.11955414,
      "memory(GiB)": 112.26,
      "step": 10280,
      "train_speed(iter/s)": 1.127517
    },
    {
      "acc": 0.73422813,
      "epoch": 0.26090816844241504,
      "grad_norm": 4.96875,
      "learning_rate": 9.824075881572176e-06,
      "loss": 1.12562141,
      "memory(GiB)": 112.26,
      "step": 10285,
      "train_speed(iter/s)": 1.127614
    },
    {
      "acc": 0.73464289,
      "epoch": 0.2610350076103501,
      "grad_norm": 3.921875,
      "learning_rate": 9.823800061873669e-06,
      "loss": 1.13397913,
      "memory(GiB)": 112.26,
      "step": 10290,
      "train_speed(iter/s)": 1.12767
    },
    {
      "acc": 0.73408208,
      "epoch": 0.26116184677828513,
      "grad_norm": 4.3125,
      "learning_rate": 9.8235240300029e-06,
      "loss": 1.14485579,
      "memory(GiB)": 112.26,
      "step": 10295,
      "train_speed(iter/s)": 1.127761
    },
    {
      "acc": 0.72416348,
      "epoch": 0.2612886859462202,
      "grad_norm": 3.453125,
      "learning_rate": 9.82324778597201e-06,
      "loss": 1.12564211,
      "memory(GiB)": 112.26,
      "step": 10300,
      "train_speed(iter/s)": 1.127851
    },
    {
      "acc": 0.72826986,
      "epoch": 0.2614155251141553,
      "grad_norm": 3.828125,
      "learning_rate": 9.822971329793147e-06,
      "loss": 1.13923798,
      "memory(GiB)": 112.26,
      "step": 10305,
      "train_speed(iter/s)": 1.127958
    },
    {
      "acc": 0.73733234,
      "epoch": 0.2615423642820903,
      "grad_norm": 3.46875,
      "learning_rate": 9.822694661478471e-06,
      "loss": 1.06192455,
      "memory(GiB)": 112.26,
      "step": 10310,
      "train_speed(iter/s)": 1.128012
    },
    {
      "acc": 0.72693543,
      "epoch": 0.26166920345002537,
      "grad_norm": 4.0625,
      "learning_rate": 9.822417781040154e-06,
      "loss": 1.15537853,
      "memory(GiB)": 112.26,
      "step": 10315,
      "train_speed(iter/s)": 1.128057
    },
    {
      "acc": 0.71757364,
      "epoch": 0.2617960426179604,
      "grad_norm": 3.359375,
      "learning_rate": 9.822140688490372e-06,
      "loss": 1.15086374,
      "memory(GiB)": 112.26,
      "step": 10320,
      "train_speed(iter/s)": 1.128109
    },
    {
      "acc": 0.72917962,
      "epoch": 0.2619228817858955,
      "grad_norm": 3.8125,
      "learning_rate": 9.821863383841312e-06,
      "loss": 1.12048664,
      "memory(GiB)": 112.26,
      "step": 10325,
      "train_speed(iter/s)": 1.128206
    },
    {
      "acc": 0.7420897,
      "epoch": 0.26204972095383056,
      "grad_norm": 3.46875,
      "learning_rate": 9.821585867105173e-06,
      "loss": 1.12309875,
      "memory(GiB)": 112.26,
      "step": 10330,
      "train_speed(iter/s)": 1.12826
    },
    {
      "acc": 0.72044554,
      "epoch": 0.2621765601217656,
      "grad_norm": 3.75,
      "learning_rate": 9.821308138294162e-06,
      "loss": 1.16075439,
      "memory(GiB)": 112.26,
      "step": 10335,
      "train_speed(iter/s)": 1.128339
    },
    {
      "acc": 0.72293425,
      "epoch": 0.26230339928970065,
      "grad_norm": 3.9375,
      "learning_rate": 9.821030197420492e-06,
      "loss": 1.16228933,
      "memory(GiB)": 112.26,
      "step": 10340,
      "train_speed(iter/s)": 1.128386
    },
    {
      "acc": 0.72654419,
      "epoch": 0.26243023845763574,
      "grad_norm": 3.65625,
      "learning_rate": 9.820752044496389e-06,
      "loss": 1.11739426,
      "memory(GiB)": 112.26,
      "step": 10345,
      "train_speed(iter/s)": 1.128453
    },
    {
      "acc": 0.71735182,
      "epoch": 0.2625570776255708,
      "grad_norm": 4.0625,
      "learning_rate": 9.82047367953409e-06,
      "loss": 1.0693037,
      "memory(GiB)": 112.26,
      "step": 10350,
      "train_speed(iter/s)": 1.128433
    },
    {
      "acc": 0.74259233,
      "epoch": 0.26268391679350583,
      "grad_norm": 3.96875,
      "learning_rate": 9.820195102545835e-06,
      "loss": 1.08917027,
      "memory(GiB)": 112.26,
      "step": 10355,
      "train_speed(iter/s)": 1.12849
    },
    {
      "acc": 0.71587305,
      "epoch": 0.2628107559614409,
      "grad_norm": 3.234375,
      "learning_rate": 9.81991631354388e-06,
      "loss": 1.11796522,
      "memory(GiB)": 112.26,
      "step": 10360,
      "train_speed(iter/s)": 1.128576
    },
    {
      "acc": 0.71679173,
      "epoch": 0.262937595129376,
      "grad_norm": 4.0625,
      "learning_rate": 9.819637312540485e-06,
      "loss": 1.19070168,
      "memory(GiB)": 112.26,
      "step": 10365,
      "train_speed(iter/s)": 1.128649
    },
    {
      "acc": 0.72247944,
      "epoch": 0.263064434297311,
      "grad_norm": 3.484375,
      "learning_rate": 9.819358099547923e-06,
      "loss": 1.09399452,
      "memory(GiB)": 112.26,
      "step": 10370,
      "train_speed(iter/s)": 1.128639
    },
    {
      "acc": 0.71035757,
      "epoch": 0.26319127346524607,
      "grad_norm": 3.71875,
      "learning_rate": 9.819078674578474e-06,
      "loss": 1.20918961,
      "memory(GiB)": 112.26,
      "step": 10375,
      "train_speed(iter/s)": 1.12874
    },
    {
      "acc": 0.71105924,
      "epoch": 0.2633181126331811,
      "grad_norm": 3.828125,
      "learning_rate": 9.818799037644432e-06,
      "loss": 1.206073,
      "memory(GiB)": 112.26,
      "step": 10380,
      "train_speed(iter/s)": 1.128828
    },
    {
      "acc": 0.73282366,
      "epoch": 0.2634449518011162,
      "grad_norm": 3.28125,
      "learning_rate": 9.818519188758092e-06,
      "loss": 1.11842356,
      "memory(GiB)": 112.26,
      "step": 10385,
      "train_speed(iter/s)": 1.128903
    },
    {
      "acc": 0.72691536,
      "epoch": 0.26357179096905126,
      "grad_norm": 3.65625,
      "learning_rate": 9.818239127931765e-06,
      "loss": 1.12920408,
      "memory(GiB)": 112.26,
      "step": 10390,
      "train_speed(iter/s)": 1.129007
    },
    {
      "acc": 0.72085381,
      "epoch": 0.2636986301369863,
      "grad_norm": 3.515625,
      "learning_rate": 9.81795885517777e-06,
      "loss": 1.17587471,
      "memory(GiB)": 112.26,
      "step": 10395,
      "train_speed(iter/s)": 1.129069
    },
    {
      "acc": 0.72500572,
      "epoch": 0.26382546930492135,
      "grad_norm": 3.1875,
      "learning_rate": 9.817678370508434e-06,
      "loss": 1.14825802,
      "memory(GiB)": 112.26,
      "step": 10400,
      "train_speed(iter/s)": 1.129155
    },
    {
      "acc": 0.71671925,
      "epoch": 0.26395230847285645,
      "grad_norm": 3.765625,
      "learning_rate": 9.817397673936093e-06,
      "loss": 1.16781855,
      "memory(GiB)": 112.26,
      "step": 10405,
      "train_speed(iter/s)": 1.129244
    },
    {
      "acc": 0.71469111,
      "epoch": 0.2640791476407915,
      "grad_norm": 4.28125,
      "learning_rate": 9.817116765473095e-06,
      "loss": 1.20179691,
      "memory(GiB)": 112.26,
      "step": 10410,
      "train_speed(iter/s)": 1.129296
    },
    {
      "acc": 0.73979573,
      "epoch": 0.26420598680872653,
      "grad_norm": 3.625,
      "learning_rate": 9.816835645131795e-06,
      "loss": 1.0618659,
      "memory(GiB)": 112.26,
      "step": 10415,
      "train_speed(iter/s)": 1.129413
    },
    {
      "acc": 0.7309247,
      "epoch": 0.2643328259766616,
      "grad_norm": 4.09375,
      "learning_rate": 9.816554312924555e-06,
      "loss": 1.11361694,
      "memory(GiB)": 112.26,
      "step": 10420,
      "train_speed(iter/s)": 1.129464
    },
    {
      "acc": 0.73107147,
      "epoch": 0.2644596651445967,
      "grad_norm": 3.71875,
      "learning_rate": 9.816272768863756e-06,
      "loss": 1.13258038,
      "memory(GiB)": 112.26,
      "step": 10425,
      "train_speed(iter/s)": 1.129528
    },
    {
      "acc": 0.73868775,
      "epoch": 0.2645865043125317,
      "grad_norm": 3.8125,
      "learning_rate": 9.815991012961773e-06,
      "loss": 1.09607353,
      "memory(GiB)": 112.26,
      "step": 10430,
      "train_speed(iter/s)": 1.129586
    },
    {
      "acc": 0.72633762,
      "epoch": 0.26471334348046677,
      "grad_norm": 3.484375,
      "learning_rate": 9.815709045231008e-06,
      "loss": 1.20128775,
      "memory(GiB)": 112.26,
      "step": 10435,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.72311625,
      "epoch": 0.2648401826484018,
      "grad_norm": 3.265625,
      "learning_rate": 9.815426865683858e-06,
      "loss": 1.19084816,
      "memory(GiB)": 112.26,
      "step": 10440,
      "train_speed(iter/s)": 1.129764
    },
    {
      "acc": 0.73318725,
      "epoch": 0.2649670218163369,
      "grad_norm": 3.453125,
      "learning_rate": 9.815144474332732e-06,
      "loss": 1.08092194,
      "memory(GiB)": 112.26,
      "step": 10445,
      "train_speed(iter/s)": 1.12985
    },
    {
      "acc": 0.73597913,
      "epoch": 0.26509386098427196,
      "grad_norm": 3.53125,
      "learning_rate": 9.814861871190056e-06,
      "loss": 1.09259605,
      "memory(GiB)": 112.26,
      "step": 10450,
      "train_speed(iter/s)": 1.12993
    },
    {
      "acc": 0.73070121,
      "epoch": 0.265220700152207,
      "grad_norm": 4.34375,
      "learning_rate": 9.814579056268256e-06,
      "loss": 1.06887541,
      "memory(GiB)": 112.26,
      "step": 10455,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.72669678,
      "epoch": 0.26534753932014205,
      "grad_norm": 3.6875,
      "learning_rate": 9.814296029579776e-06,
      "loss": 1.1262495,
      "memory(GiB)": 112.26,
      "step": 10460,
      "train_speed(iter/s)": 1.130085
    },
    {
      "acc": 0.71357241,
      "epoch": 0.26547437848807715,
      "grad_norm": 3.46875,
      "learning_rate": 9.814012791137063e-06,
      "loss": 1.19395695,
      "memory(GiB)": 112.26,
      "step": 10465,
      "train_speed(iter/s)": 1.130169
    },
    {
      "acc": 0.72271919,
      "epoch": 0.2656012176560122,
      "grad_norm": 3.9375,
      "learning_rate": 9.81372934095257e-06,
      "loss": 1.1461462,
      "memory(GiB)": 112.26,
      "step": 10470,
      "train_speed(iter/s)": 1.130122
    },
    {
      "acc": 0.71565609,
      "epoch": 0.26572805682394723,
      "grad_norm": 6.46875,
      "learning_rate": 9.813445679038773e-06,
      "loss": 1.1674181,
      "memory(GiB)": 112.26,
      "step": 10475,
      "train_speed(iter/s)": 1.130235
    },
    {
      "acc": 0.72102394,
      "epoch": 0.2658548959918823,
      "grad_norm": 6.3125,
      "learning_rate": 9.813161805408145e-06,
      "loss": 1.16724157,
      "memory(GiB)": 112.26,
      "step": 10480,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.72819972,
      "epoch": 0.2659817351598174,
      "grad_norm": 3.9375,
      "learning_rate": 9.812877720073169e-06,
      "loss": 1.14483709,
      "memory(GiB)": 112.26,
      "step": 10485,
      "train_speed(iter/s)": 1.130373
    },
    {
      "acc": 0.71696911,
      "epoch": 0.2661085743277524,
      "grad_norm": 4.59375,
      "learning_rate": 9.812593423046344e-06,
      "loss": 1.17073927,
      "memory(GiB)": 112.26,
      "step": 10490,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.71281486,
      "epoch": 0.26623541349568747,
      "grad_norm": 3.375,
      "learning_rate": 9.812308914340174e-06,
      "loss": 1.20952168,
      "memory(GiB)": 112.26,
      "step": 10495,
      "train_speed(iter/s)": 1.130526
    },
    {
      "acc": 0.73074636,
      "epoch": 0.2663622526636225,
      "grad_norm": 4.46875,
      "learning_rate": 9.812024193967171e-06,
      "loss": 1.17697887,
      "memory(GiB)": 112.26,
      "step": 10500,
      "train_speed(iter/s)": 1.130606
    },
    {
      "acc": 0.72587204,
      "epoch": 0.2664890918315576,
      "grad_norm": 3.765625,
      "learning_rate": 9.811739261939861e-06,
      "loss": 1.15422297,
      "memory(GiB)": 112.26,
      "step": 10505,
      "train_speed(iter/s)": 1.130694
    },
    {
      "acc": 0.73172965,
      "epoch": 0.26661593099949266,
      "grad_norm": 3.1875,
      "learning_rate": 9.811454118270775e-06,
      "loss": 1.14649944,
      "memory(GiB)": 112.26,
      "step": 10510,
      "train_speed(iter/s)": 1.130739
    },
    {
      "acc": 0.71716123,
      "epoch": 0.2667427701674277,
      "grad_norm": 3.65625,
      "learning_rate": 9.811168762972457e-06,
      "loss": 1.14083462,
      "memory(GiB)": 112.26,
      "step": 10515,
      "train_speed(iter/s)": 1.130811
    },
    {
      "acc": 0.72321,
      "epoch": 0.26686960933536275,
      "grad_norm": 4.1875,
      "learning_rate": 9.810883196057454e-06,
      "loss": 1.16577311,
      "memory(GiB)": 112.26,
      "step": 10520,
      "train_speed(iter/s)": 1.130843
    },
    {
      "acc": 0.73450575,
      "epoch": 0.26699644850329785,
      "grad_norm": 3.53125,
      "learning_rate": 9.81059741753833e-06,
      "loss": 1.08320675,
      "memory(GiB)": 112.26,
      "step": 10525,
      "train_speed(iter/s)": 1.13091
    },
    {
      "acc": 0.72063274,
      "epoch": 0.2671232876712329,
      "grad_norm": 3.59375,
      "learning_rate": 9.810311427427653e-06,
      "loss": 1.14608364,
      "memory(GiB)": 112.26,
      "step": 10530,
      "train_speed(iter/s)": 1.131001
    },
    {
      "acc": 0.74028873,
      "epoch": 0.26725012683916793,
      "grad_norm": 3.734375,
      "learning_rate": 9.810025225738005e-06,
      "loss": 1.13794098,
      "memory(GiB)": 112.26,
      "step": 10535,
      "train_speed(iter/s)": 1.131101
    },
    {
      "acc": 0.69921842,
      "epoch": 0.267376966007103,
      "grad_norm": 4.71875,
      "learning_rate": 9.809738812481971e-06,
      "loss": 1.22788353,
      "memory(GiB)": 112.26,
      "step": 10540,
      "train_speed(iter/s)": 1.131171
    },
    {
      "acc": 0.72449517,
      "epoch": 0.2675038051750381,
      "grad_norm": 3.796875,
      "learning_rate": 9.809452187672149e-06,
      "loss": 1.12272196,
      "memory(GiB)": 112.26,
      "step": 10545,
      "train_speed(iter/s)": 1.131272
    },
    {
      "acc": 0.72088447,
      "epoch": 0.2676306443429731,
      "grad_norm": 3.421875,
      "learning_rate": 9.809165351321149e-06,
      "loss": 1.15414143,
      "memory(GiB)": 112.26,
      "step": 10550,
      "train_speed(iter/s)": 1.131353
    },
    {
      "acc": 0.7413373,
      "epoch": 0.26775748351090817,
      "grad_norm": 4.5625,
      "learning_rate": 9.808878303441585e-06,
      "loss": 1.08535175,
      "memory(GiB)": 112.26,
      "step": 10555,
      "train_speed(iter/s)": 1.1314
    },
    {
      "acc": 0.72740707,
      "epoch": 0.2678843226788432,
      "grad_norm": 4.5,
      "learning_rate": 9.808591044046083e-06,
      "loss": 1.14023285,
      "memory(GiB)": 112.26,
      "step": 10560,
      "train_speed(iter/s)": 1.131445
    },
    {
      "acc": 0.72350845,
      "epoch": 0.2680111618467783,
      "grad_norm": 3.953125,
      "learning_rate": 9.808303573147277e-06,
      "loss": 1.14083805,
      "memory(GiB)": 112.26,
      "step": 10565,
      "train_speed(iter/s)": 1.131464
    },
    {
      "acc": 0.73230953,
      "epoch": 0.26813800101471336,
      "grad_norm": 4.34375,
      "learning_rate": 9.808015890757812e-06,
      "loss": 1.13671846,
      "memory(GiB)": 112.26,
      "step": 10570,
      "train_speed(iter/s)": 1.131559
    },
    {
      "acc": 0.72785182,
      "epoch": 0.2682648401826484,
      "grad_norm": 4.09375,
      "learning_rate": 9.807727996890343e-06,
      "loss": 1.10884418,
      "memory(GiB)": 112.26,
      "step": 10575,
      "train_speed(iter/s)": 1.131611
    },
    {
      "acc": 0.7240541,
      "epoch": 0.26839167935058345,
      "grad_norm": 3.984375,
      "learning_rate": 9.807439891557533e-06,
      "loss": 1.14047756,
      "memory(GiB)": 112.26,
      "step": 10580,
      "train_speed(iter/s)": 1.131703
    },
    {
      "acc": 0.71852875,
      "epoch": 0.26851851851851855,
      "grad_norm": 4.09375,
      "learning_rate": 9.80715157477205e-06,
      "loss": 1.17278976,
      "memory(GiB)": 112.26,
      "step": 10585,
      "train_speed(iter/s)": 1.131755
    },
    {
      "acc": 0.72181973,
      "epoch": 0.2686453576864536,
      "grad_norm": 3.5,
      "learning_rate": 9.806863046546581e-06,
      "loss": 1.18084698,
      "memory(GiB)": 112.26,
      "step": 10590,
      "train_speed(iter/s)": 1.131822
    },
    {
      "acc": 0.72635016,
      "epoch": 0.26877219685438863,
      "grad_norm": 3.140625,
      "learning_rate": 9.806574306893814e-06,
      "loss": 1.13683224,
      "memory(GiB)": 112.26,
      "step": 10595,
      "train_speed(iter/s)": 1.131873
    },
    {
      "acc": 0.72950888,
      "epoch": 0.2688990360223237,
      "grad_norm": 4.03125,
      "learning_rate": 9.806285355826447e-06,
      "loss": 1.12114258,
      "memory(GiB)": 112.26,
      "step": 10600,
      "train_speed(iter/s)": 1.131941
    },
    {
      "acc": 0.74110813,
      "epoch": 0.2690258751902588,
      "grad_norm": 3.765625,
      "learning_rate": 9.805996193357194e-06,
      "loss": 1.07135172,
      "memory(GiB)": 112.26,
      "step": 10605,
      "train_speed(iter/s)": 1.132027
    },
    {
      "acc": 0.7162693,
      "epoch": 0.2691527143581938,
      "grad_norm": 3.609375,
      "learning_rate": 9.80570681949877e-06,
      "loss": 1.16385708,
      "memory(GiB)": 112.26,
      "step": 10610,
      "train_speed(iter/s)": 1.132097
    },
    {
      "acc": 0.7202992,
      "epoch": 0.26927955352612887,
      "grad_norm": 3.59375,
      "learning_rate": 9.805417234263905e-06,
      "loss": 1.14120741,
      "memory(GiB)": 112.26,
      "step": 10615,
      "train_speed(iter/s)": 1.1322
    },
    {
      "acc": 0.71782942,
      "epoch": 0.2694063926940639,
      "grad_norm": 3.46875,
      "learning_rate": 9.805127437665333e-06,
      "loss": 1.20899916,
      "memory(GiB)": 112.26,
      "step": 10620,
      "train_speed(iter/s)": 1.132267
    },
    {
      "acc": 0.71446152,
      "epoch": 0.269533231861999,
      "grad_norm": 3.25,
      "learning_rate": 9.804837429715805e-06,
      "loss": 1.15153217,
      "memory(GiB)": 112.26,
      "step": 10625,
      "train_speed(iter/s)": 1.132327
    },
    {
      "acc": 0.7368711,
      "epoch": 0.26966007102993406,
      "grad_norm": 3.4375,
      "learning_rate": 9.804547210428074e-06,
      "loss": 1.11918116,
      "memory(GiB)": 112.26,
      "step": 10630,
      "train_speed(iter/s)": 1.13239
    },
    {
      "acc": 0.72090425,
      "epoch": 0.2697869101978691,
      "grad_norm": 3.890625,
      "learning_rate": 9.804256779814906e-06,
      "loss": 1.15199642,
      "memory(GiB)": 112.26,
      "step": 10635,
      "train_speed(iter/s)": 1.132438
    },
    {
      "acc": 0.73136168,
      "epoch": 0.26991374936580415,
      "grad_norm": 3.734375,
      "learning_rate": 9.803966137889076e-06,
      "loss": 1.10654945,
      "memory(GiB)": 112.26,
      "step": 10640,
      "train_speed(iter/s)": 1.132431
    },
    {
      "acc": 0.71407299,
      "epoch": 0.27004058853373925,
      "grad_norm": 3.71875,
      "learning_rate": 9.803675284663368e-06,
      "loss": 1.20208693,
      "memory(GiB)": 112.26,
      "step": 10645,
      "train_speed(iter/s)": 1.132519
    },
    {
      "acc": 0.72856102,
      "epoch": 0.2701674277016743,
      "grad_norm": 4.4375,
      "learning_rate": 9.803384220150571e-06,
      "loss": 1.16332779,
      "memory(GiB)": 112.26,
      "step": 10650,
      "train_speed(iter/s)": 1.132582
    },
    {
      "acc": 0.72394419,
      "epoch": 0.27029426686960933,
      "grad_norm": 4.40625,
      "learning_rate": 9.803092944363493e-06,
      "loss": 1.1717761,
      "memory(GiB)": 112.26,
      "step": 10655,
      "train_speed(iter/s)": 1.13272
    },
    {
      "acc": 0.73883924,
      "epoch": 0.2704211060375444,
      "grad_norm": 4.03125,
      "learning_rate": 9.802801457314943e-06,
      "loss": 1.09346581,
      "memory(GiB)": 112.26,
      "step": 10660,
      "train_speed(iter/s)": 1.132824
    },
    {
      "acc": 0.72966003,
      "epoch": 0.2705479452054795,
      "grad_norm": 4.90625,
      "learning_rate": 9.802509759017741e-06,
      "loss": 1.09718666,
      "memory(GiB)": 112.26,
      "step": 10665,
      "train_speed(iter/s)": 1.132797
    },
    {
      "acc": 0.71607189,
      "epoch": 0.2706747843734145,
      "grad_norm": 2.859375,
      "learning_rate": 9.802217849484719e-06,
      "loss": 1.20886145,
      "memory(GiB)": 112.26,
      "step": 10670,
      "train_speed(iter/s)": 1.132908
    },
    {
      "acc": 0.72282043,
      "epoch": 0.27080162354134957,
      "grad_norm": 4.25,
      "learning_rate": 9.801925728728715e-06,
      "loss": 1.11969566,
      "memory(GiB)": 112.26,
      "step": 10675,
      "train_speed(iter/s)": 1.133002
    },
    {
      "acc": 0.72747784,
      "epoch": 0.2709284627092846,
      "grad_norm": 3.609375,
      "learning_rate": 9.801633396762577e-06,
      "loss": 1.14241753,
      "memory(GiB)": 112.26,
      "step": 10680,
      "train_speed(iter/s)": 1.133076
    },
    {
      "acc": 0.73424516,
      "epoch": 0.2710553018772197,
      "grad_norm": 4.15625,
      "learning_rate": 9.801340853599167e-06,
      "loss": 1.15267067,
      "memory(GiB)": 112.26,
      "step": 10685,
      "train_speed(iter/s)": 1.133175
    },
    {
      "acc": 0.74922247,
      "epoch": 0.27118214104515476,
      "grad_norm": 5.03125,
      "learning_rate": 9.801048099251348e-06,
      "loss": 1.09270153,
      "memory(GiB)": 112.26,
      "step": 10690,
      "train_speed(iter/s)": 1.133257
    },
    {
      "acc": 0.72029586,
      "epoch": 0.2713089802130898,
      "grad_norm": 3.40625,
      "learning_rate": 9.800755133731999e-06,
      "loss": 1.12826157,
      "memory(GiB)": 112.26,
      "step": 10695,
      "train_speed(iter/s)": 1.133326
    },
    {
      "acc": 0.72744951,
      "epoch": 0.27143581938102485,
      "grad_norm": 3.546875,
      "learning_rate": 9.800461957054006e-06,
      "loss": 1.12100983,
      "memory(GiB)": 112.26,
      "step": 10700,
      "train_speed(iter/s)": 1.133385
    },
    {
      "acc": 0.72797923,
      "epoch": 0.27156265854895995,
      "grad_norm": 3.875,
      "learning_rate": 9.800168569230261e-06,
      "loss": 1.10669689,
      "memory(GiB)": 112.26,
      "step": 10705,
      "train_speed(iter/s)": 1.133443
    },
    {
      "acc": 0.73446398,
      "epoch": 0.271689497716895,
      "grad_norm": 3.453125,
      "learning_rate": 9.799874970273674e-06,
      "loss": 1.09496727,
      "memory(GiB)": 112.26,
      "step": 10710,
      "train_speed(iter/s)": 1.133542
    },
    {
      "acc": 0.73224616,
      "epoch": 0.27181633688483003,
      "grad_norm": 3.375,
      "learning_rate": 9.799581160197156e-06,
      "loss": 1.137043,
      "memory(GiB)": 112.26,
      "step": 10715,
      "train_speed(iter/s)": 1.133609
    },
    {
      "acc": 0.73776093,
      "epoch": 0.2719431760527651,
      "grad_norm": 2.96875,
      "learning_rate": 9.799287139013628e-06,
      "loss": 1.08930893,
      "memory(GiB)": 112.26,
      "step": 10720,
      "train_speed(iter/s)": 1.133647
    },
    {
      "acc": 0.73810959,
      "epoch": 0.2720700152207002,
      "grad_norm": 3.84375,
      "learning_rate": 9.798992906736028e-06,
      "loss": 1.07662029,
      "memory(GiB)": 112.26,
      "step": 10725,
      "train_speed(iter/s)": 1.133718
    },
    {
      "acc": 0.72654753,
      "epoch": 0.2721968543886352,
      "grad_norm": 3.625,
      "learning_rate": 9.79869846337729e-06,
      "loss": 1.15304585,
      "memory(GiB)": 112.26,
      "step": 10730,
      "train_speed(iter/s)": 1.133711
    },
    {
      "acc": 0.7206563,
      "epoch": 0.27232369355657027,
      "grad_norm": 4.40625,
      "learning_rate": 9.79840380895037e-06,
      "loss": 1.15058975,
      "memory(GiB)": 112.26,
      "step": 10735,
      "train_speed(iter/s)": 1.133702
    },
    {
      "acc": 0.73432035,
      "epoch": 0.2724505327245053,
      "grad_norm": 3.4375,
      "learning_rate": 9.798108943468228e-06,
      "loss": 1.05310364,
      "memory(GiB)": 112.26,
      "step": 10740,
      "train_speed(iter/s)": 1.133729
    },
    {
      "acc": 0.72898941,
      "epoch": 0.2725773718924404,
      "grad_norm": 3.359375,
      "learning_rate": 9.797813866943832e-06,
      "loss": 1.08389511,
      "memory(GiB)": 112.26,
      "step": 10745,
      "train_speed(iter/s)": 1.133807
    },
    {
      "acc": 0.73741117,
      "epoch": 0.27270421106037546,
      "grad_norm": 4.125,
      "learning_rate": 9.797518579390162e-06,
      "loss": 1.02448597,
      "memory(GiB)": 112.26,
      "step": 10750,
      "train_speed(iter/s)": 1.133903
    },
    {
      "acc": 0.73400888,
      "epoch": 0.2728310502283105,
      "grad_norm": 2.96875,
      "learning_rate": 9.797223080820204e-06,
      "loss": 1.11092491,
      "memory(GiB)": 112.26,
      "step": 10755,
      "train_speed(iter/s)": 1.133965
    },
    {
      "acc": 0.72977028,
      "epoch": 0.27295788939624555,
      "grad_norm": 3.671875,
      "learning_rate": 9.796927371246958e-06,
      "loss": 1.11400452,
      "memory(GiB)": 112.26,
      "step": 10760,
      "train_speed(iter/s)": 1.134071
    },
    {
      "acc": 0.73204184,
      "epoch": 0.27308472856418065,
      "grad_norm": 3.75,
      "learning_rate": 9.796631450683431e-06,
      "loss": 1.11155357,
      "memory(GiB)": 112.26,
      "step": 10765,
      "train_speed(iter/s)": 1.134153
    },
    {
      "acc": 0.71601505,
      "epoch": 0.2732115677321157,
      "grad_norm": 3.875,
      "learning_rate": 9.796335319142637e-06,
      "loss": 1.12112017,
      "memory(GiB)": 112.26,
      "step": 10770,
      "train_speed(iter/s)": 1.134204
    },
    {
      "acc": 0.72772241,
      "epoch": 0.27333840690005073,
      "grad_norm": 3.90625,
      "learning_rate": 9.796038976637599e-06,
      "loss": 1.11220074,
      "memory(GiB)": 112.26,
      "step": 10775,
      "train_speed(iter/s)": 1.134283
    },
    {
      "acc": 0.73010387,
      "epoch": 0.2734652460679858,
      "grad_norm": 3.578125,
      "learning_rate": 9.795742423181355e-06,
      "loss": 1.1324091,
      "memory(GiB)": 112.26,
      "step": 10780,
      "train_speed(iter/s)": 1.134356
    },
    {
      "acc": 0.71065245,
      "epoch": 0.2735920852359209,
      "grad_norm": 3.421875,
      "learning_rate": 9.795445658786948e-06,
      "loss": 1.220644,
      "memory(GiB)": 112.26,
      "step": 10785,
      "train_speed(iter/s)": 1.134422
    },
    {
      "acc": 0.72342167,
      "epoch": 0.2737189244038559,
      "grad_norm": 3.328125,
      "learning_rate": 9.795148683467431e-06,
      "loss": 1.13658113,
      "memory(GiB)": 112.26,
      "step": 10790,
      "train_speed(iter/s)": 1.134506
    },
    {
      "acc": 0.71557331,
      "epoch": 0.27384576357179097,
      "grad_norm": 3.71875,
      "learning_rate": 9.794851497235866e-06,
      "loss": 1.15317707,
      "memory(GiB)": 112.26,
      "step": 10795,
      "train_speed(iter/s)": 1.134592
    },
    {
      "acc": 0.72653875,
      "epoch": 0.273972602739726,
      "grad_norm": 4.09375,
      "learning_rate": 9.794554100105325e-06,
      "loss": 1.12189293,
      "memory(GiB)": 112.26,
      "step": 10800,
      "train_speed(iter/s)": 1.134681
    },
    {
      "acc": 0.72862172,
      "epoch": 0.2740994419076611,
      "grad_norm": 3.140625,
      "learning_rate": 9.794256492088888e-06,
      "loss": 1.08415108,
      "memory(GiB)": 112.26,
      "step": 10805,
      "train_speed(iter/s)": 1.134773
    },
    {
      "acc": 0.7298481,
      "epoch": 0.27422628107559616,
      "grad_norm": 3.96875,
      "learning_rate": 9.793958673199647e-06,
      "loss": 1.160427,
      "memory(GiB)": 112.26,
      "step": 10810,
      "train_speed(iter/s)": 1.13485
    },
    {
      "acc": 0.73365464,
      "epoch": 0.2743531202435312,
      "grad_norm": 3.53125,
      "learning_rate": 9.793660643450697e-06,
      "loss": 1.10638027,
      "memory(GiB)": 112.26,
      "step": 10815,
      "train_speed(iter/s)": 1.1349
    },
    {
      "acc": 0.72449894,
      "epoch": 0.27447995941146625,
      "grad_norm": 3.65625,
      "learning_rate": 9.793362402855152e-06,
      "loss": 1.13211679,
      "memory(GiB)": 112.26,
      "step": 10820,
      "train_speed(iter/s)": 1.134955
    },
    {
      "acc": 0.72581334,
      "epoch": 0.27460679857940135,
      "grad_norm": 3.6875,
      "learning_rate": 9.79306395142613e-06,
      "loss": 1.12443514,
      "memory(GiB)": 112.26,
      "step": 10825,
      "train_speed(iter/s)": 1.135005
    },
    {
      "acc": 0.73692603,
      "epoch": 0.2747336377473364,
      "grad_norm": 3.046875,
      "learning_rate": 9.792765289176751e-06,
      "loss": 1.07143326,
      "memory(GiB)": 112.26,
      "step": 10830,
      "train_speed(iter/s)": 1.13504
    },
    {
      "acc": 0.72745028,
      "epoch": 0.27486047691527143,
      "grad_norm": 3.671875,
      "learning_rate": 9.79246641612016e-06,
      "loss": 1.12358513,
      "memory(GiB)": 112.26,
      "step": 10835,
      "train_speed(iter/s)": 1.13514
    },
    {
      "acc": 0.73209891,
      "epoch": 0.2749873160832065,
      "grad_norm": 3.484375,
      "learning_rate": 9.792167332269498e-06,
      "loss": 1.10434351,
      "memory(GiB)": 112.26,
      "step": 10840,
      "train_speed(iter/s)": 1.135212
    },
    {
      "acc": 0.73780785,
      "epoch": 0.2751141552511416,
      "grad_norm": 3.3125,
      "learning_rate": 9.791868037637922e-06,
      "loss": 1.11533508,
      "memory(GiB)": 112.26,
      "step": 10845,
      "train_speed(iter/s)": 1.1353
    },
    {
      "acc": 0.72798433,
      "epoch": 0.2752409944190766,
      "grad_norm": 4.28125,
      "learning_rate": 9.791568532238594e-06,
      "loss": 1.14381084,
      "memory(GiB)": 112.26,
      "step": 10850,
      "train_speed(iter/s)": 1.135384
    },
    {
      "acc": 0.73515091,
      "epoch": 0.27536783358701167,
      "grad_norm": 3.640625,
      "learning_rate": 9.79126881608469e-06,
      "loss": 1.12640238,
      "memory(GiB)": 112.26,
      "step": 10855,
      "train_speed(iter/s)": 1.135437
    },
    {
      "acc": 0.73294444,
      "epoch": 0.2754946727549467,
      "grad_norm": 4.125,
      "learning_rate": 9.790968889189392e-06,
      "loss": 1.11889849,
      "memory(GiB)": 112.26,
      "step": 10860,
      "train_speed(iter/s)": 1.135535
    },
    {
      "acc": 0.73660121,
      "epoch": 0.2756215119228818,
      "grad_norm": 4.28125,
      "learning_rate": 9.790668751565893e-06,
      "loss": 1.13831186,
      "memory(GiB)": 112.26,
      "step": 10865,
      "train_speed(iter/s)": 1.135624
    },
    {
      "acc": 0.72597904,
      "epoch": 0.27574835109081686,
      "grad_norm": 3.34375,
      "learning_rate": 9.790368403227391e-06,
      "loss": 1.17082462,
      "memory(GiB)": 112.26,
      "step": 10870,
      "train_speed(iter/s)": 1.135717
    },
    {
      "acc": 0.72408037,
      "epoch": 0.2758751902587519,
      "grad_norm": 2.953125,
      "learning_rate": 9.7900678441871e-06,
      "loss": 1.07797165,
      "memory(GiB)": 112.26,
      "step": 10875,
      "train_speed(iter/s)": 1.135733
    },
    {
      "acc": 0.72152042,
      "epoch": 0.27600202942668695,
      "grad_norm": 3.515625,
      "learning_rate": 9.78976707445824e-06,
      "loss": 1.09714069,
      "memory(GiB)": 112.26,
      "step": 10880,
      "train_speed(iter/s)": 1.135743
    },
    {
      "acc": 0.72997236,
      "epoch": 0.27612886859462205,
      "grad_norm": 4.0,
      "learning_rate": 9.78946609405404e-06,
      "loss": 1.11736441,
      "memory(GiB)": 112.26,
      "step": 10885,
      "train_speed(iter/s)": 1.135767
    },
    {
      "acc": 0.73782983,
      "epoch": 0.2762557077625571,
      "grad_norm": 5.75,
      "learning_rate": 9.789164902987738e-06,
      "loss": 1.09687996,
      "memory(GiB)": 112.26,
      "step": 10890,
      "train_speed(iter/s)": 1.135847
    },
    {
      "acc": 0.74289351,
      "epoch": 0.27638254693049213,
      "grad_norm": 3.390625,
      "learning_rate": 9.78886350127258e-06,
      "loss": 1.08796892,
      "memory(GiB)": 112.26,
      "step": 10895,
      "train_speed(iter/s)": 1.135887
    },
    {
      "acc": 0.72243681,
      "epoch": 0.2765093860984272,
      "grad_norm": 3.578125,
      "learning_rate": 9.788561888921825e-06,
      "loss": 1.15774584,
      "memory(GiB)": 112.26,
      "step": 10900,
      "train_speed(iter/s)": 1.135956
    },
    {
      "acc": 0.7349237,
      "epoch": 0.2766362252663623,
      "grad_norm": 4.4375,
      "learning_rate": 9.788260065948738e-06,
      "loss": 1.16578913,
      "memory(GiB)": 112.26,
      "step": 10905,
      "train_speed(iter/s)": 1.136034
    },
    {
      "acc": 0.71704264,
      "epoch": 0.2767630644342973,
      "grad_norm": 4.0,
      "learning_rate": 9.787958032366596e-06,
      "loss": 1.17531042,
      "memory(GiB)": 112.26,
      "step": 10910,
      "train_speed(iter/s)": 1.13609
    },
    {
      "acc": 0.73199015,
      "epoch": 0.27688990360223237,
      "grad_norm": 3.453125,
      "learning_rate": 9.787655788188684e-06,
      "loss": 1.07752666,
      "memory(GiB)": 112.26,
      "step": 10915,
      "train_speed(iter/s)": 1.136169
    },
    {
      "acc": 0.73978419,
      "epoch": 0.2770167427701674,
      "grad_norm": 3.859375,
      "learning_rate": 9.787353333428293e-06,
      "loss": 1.04917316,
      "memory(GiB)": 112.26,
      "step": 10920,
      "train_speed(iter/s)": 1.136263
    },
    {
      "acc": 0.72327156,
      "epoch": 0.2771435819381025,
      "grad_norm": 4.09375,
      "learning_rate": 9.78705066809873e-06,
      "loss": 1.15285244,
      "memory(GiB)": 112.26,
      "step": 10925,
      "train_speed(iter/s)": 1.136341
    },
    {
      "acc": 0.71492963,
      "epoch": 0.27727042110603756,
      "grad_norm": 3.796875,
      "learning_rate": 9.786747792213304e-06,
      "loss": 1.19179888,
      "memory(GiB)": 112.26,
      "step": 10930,
      "train_speed(iter/s)": 1.136412
    },
    {
      "acc": 0.74428787,
      "epoch": 0.2773972602739726,
      "grad_norm": 3.96875,
      "learning_rate": 9.78644470578534e-06,
      "loss": 1.09414635,
      "memory(GiB)": 112.26,
      "step": 10935,
      "train_speed(iter/s)": 1.13651
    },
    {
      "acc": 0.71239161,
      "epoch": 0.27752409944190765,
      "grad_norm": 3.578125,
      "learning_rate": 9.78614140882817e-06,
      "loss": 1.20589647,
      "memory(GiB)": 112.26,
      "step": 10940,
      "train_speed(iter/s)": 1.136538
    },
    {
      "acc": 0.74490595,
      "epoch": 0.27765093860984275,
      "grad_norm": 3.453125,
      "learning_rate": 9.78583790135513e-06,
      "loss": 1.06869526,
      "memory(GiB)": 112.26,
      "step": 10945,
      "train_speed(iter/s)": 1.136608
    },
    {
      "acc": 0.73021669,
      "epoch": 0.2777777777777778,
      "grad_norm": 3.828125,
      "learning_rate": 9.785534183379571e-06,
      "loss": 1.11962566,
      "memory(GiB)": 112.26,
      "step": 10950,
      "train_speed(iter/s)": 1.136666
    },
    {
      "acc": 0.72624407,
      "epoch": 0.27790461694571283,
      "grad_norm": 3.5625,
      "learning_rate": 9.785230254914855e-06,
      "loss": 1.13710346,
      "memory(GiB)": 112.26,
      "step": 10955,
      "train_speed(iter/s)": 1.136688
    },
    {
      "acc": 0.71911631,
      "epoch": 0.2780314561136479,
      "grad_norm": 3.390625,
      "learning_rate": 9.784926115974346e-06,
      "loss": 1.13106613,
      "memory(GiB)": 112.26,
      "step": 10960,
      "train_speed(iter/s)": 1.136783
    },
    {
      "acc": 0.74076509,
      "epoch": 0.278158295281583,
      "grad_norm": 3.265625,
      "learning_rate": 9.784621766571424e-06,
      "loss": 1.11140194,
      "memory(GiB)": 112.26,
      "step": 10965,
      "train_speed(iter/s)": 1.136833
    },
    {
      "acc": 0.72308817,
      "epoch": 0.278285134449518,
      "grad_norm": 3.734375,
      "learning_rate": 9.784317206719475e-06,
      "loss": 1.20356388,
      "memory(GiB)": 112.26,
      "step": 10970,
      "train_speed(iter/s)": 1.13689
    },
    {
      "acc": 0.71746635,
      "epoch": 0.27841197361745307,
      "grad_norm": 3.109375,
      "learning_rate": 9.784012436431896e-06,
      "loss": 1.16460028,
      "memory(GiB)": 112.26,
      "step": 10975,
      "train_speed(iter/s)": 1.136908
    },
    {
      "acc": 0.73054905,
      "epoch": 0.2785388127853881,
      "grad_norm": 3.265625,
      "learning_rate": 9.78370745572209e-06,
      "loss": 1.1464488,
      "memory(GiB)": 112.26,
      "step": 10980,
      "train_speed(iter/s)": 1.136986
    },
    {
      "acc": 0.72364616,
      "epoch": 0.2786656519533232,
      "grad_norm": 4.65625,
      "learning_rate": 9.783402264603471e-06,
      "loss": 1.07724028,
      "memory(GiB)": 112.26,
      "step": 10985,
      "train_speed(iter/s)": 1.137016
    },
    {
      "acc": 0.71901984,
      "epoch": 0.27879249112125826,
      "grad_norm": 3.21875,
      "learning_rate": 9.783096863089465e-06,
      "loss": 1.14147701,
      "memory(GiB)": 112.26,
      "step": 10990,
      "train_speed(iter/s)": 1.137099
    },
    {
      "acc": 0.74692273,
      "epoch": 0.2789193302891933,
      "grad_norm": 4.03125,
      "learning_rate": 9.782791251193505e-06,
      "loss": 1.00055532,
      "memory(GiB)": 112.26,
      "step": 10995,
      "train_speed(iter/s)": 1.137185
    },
    {
      "acc": 0.72244654,
      "epoch": 0.27904616945712835,
      "grad_norm": 3.09375,
      "learning_rate": 9.782485428929032e-06,
      "loss": 1.09954824,
      "memory(GiB)": 112.26,
      "step": 11000,
      "train_speed(iter/s)": 1.137266
    },
    {
      "epoch": 0.27904616945712835,
      "eval_acc": 0.7163420394815153,
      "eval_loss": 1.0936415195465088,
      "eval_runtime": 70.941,
      "eval_samples_per_second": 89.793,
      "eval_steps_per_second": 22.455,
      "step": 11000
    },
    {
      "acc": 0.74010873,
      "epoch": 0.27917300862506345,
      "grad_norm": 3.890625,
      "learning_rate": 9.782179396309496e-06,
      "loss": 1.1361084,
      "memory(GiB)": 112.26,
      "step": 11005,
      "train_speed(iter/s)": 1.123865
    },
    {
      "acc": 0.7156085,
      "epoch": 0.2792998477929985,
      "grad_norm": 3.359375,
      "learning_rate": 9.78187315334836e-06,
      "loss": 1.14794188,
      "memory(GiB)": 112.26,
      "step": 11010,
      "train_speed(iter/s)": 1.12396
    },
    {
      "acc": 0.73260827,
      "epoch": 0.27942668696093353,
      "grad_norm": 3.859375,
      "learning_rate": 9.781566700059094e-06,
      "loss": 1.0977747,
      "memory(GiB)": 112.26,
      "step": 11015,
      "train_speed(iter/s)": 1.124044
    },
    {
      "acc": 0.72401171,
      "epoch": 0.2795535261288686,
      "grad_norm": 4.9375,
      "learning_rate": 9.781260036455176e-06,
      "loss": 1.16384392,
      "memory(GiB)": 112.26,
      "step": 11020,
      "train_speed(iter/s)": 1.124095
    },
    {
      "acc": 0.73524055,
      "epoch": 0.2796803652968037,
      "grad_norm": 3.234375,
      "learning_rate": 9.780953162550093e-06,
      "loss": 1.09269342,
      "memory(GiB)": 112.26,
      "step": 11025,
      "train_speed(iter/s)": 1.124153
    },
    {
      "acc": 0.71979523,
      "epoch": 0.2798072044647387,
      "grad_norm": 3.875,
      "learning_rate": 9.780646078357346e-06,
      "loss": 1.13387499,
      "memory(GiB)": 112.26,
      "step": 11030,
      "train_speed(iter/s)": 1.124213
    },
    {
      "acc": 0.73020525,
      "epoch": 0.27993404363267377,
      "grad_norm": 3.984375,
      "learning_rate": 9.78033878389044e-06,
      "loss": 1.15556068,
      "memory(GiB)": 112.26,
      "step": 11035,
      "train_speed(iter/s)": 1.124307
    },
    {
      "acc": 0.72342229,
      "epoch": 0.2800608828006088,
      "grad_norm": 4.25,
      "learning_rate": 9.780031279162892e-06,
      "loss": 1.16265011,
      "memory(GiB)": 112.26,
      "step": 11040,
      "train_speed(iter/s)": 1.12434
    },
    {
      "acc": 0.73895912,
      "epoch": 0.2801877219685439,
      "grad_norm": 4.96875,
      "learning_rate": 9.779723564188228e-06,
      "loss": 1.16095028,
      "memory(GiB)": 112.26,
      "step": 11045,
      "train_speed(iter/s)": 1.124454
    },
    {
      "acc": 0.72139492,
      "epoch": 0.28031456113647896,
      "grad_norm": 4.375,
      "learning_rate": 9.77941563897998e-06,
      "loss": 1.15418415,
      "memory(GiB)": 112.26,
      "step": 11050,
      "train_speed(iter/s)": 1.124557
    },
    {
      "acc": 0.73451653,
      "epoch": 0.280441400304414,
      "grad_norm": 3.609375,
      "learning_rate": 9.779107503551695e-06,
      "loss": 1.14455891,
      "memory(GiB)": 112.26,
      "step": 11055,
      "train_speed(iter/s)": 1.124626
    },
    {
      "acc": 0.74146862,
      "epoch": 0.28056823947234905,
      "grad_norm": 4.375,
      "learning_rate": 9.778799157916926e-06,
      "loss": 1.08315372,
      "memory(GiB)": 112.26,
      "step": 11060,
      "train_speed(iter/s)": 1.1247
    },
    {
      "acc": 0.72448182,
      "epoch": 0.28069507864028415,
      "grad_norm": 3.203125,
      "learning_rate": 9.77849060208923e-06,
      "loss": 1.14031591,
      "memory(GiB)": 112.26,
      "step": 11065,
      "train_speed(iter/s)": 1.124687
    },
    {
      "acc": 0.71168861,
      "epoch": 0.2808219178082192,
      "grad_norm": 3.484375,
      "learning_rate": 9.778181836082185e-06,
      "loss": 1.15216541,
      "memory(GiB)": 112.26,
      "step": 11070,
      "train_speed(iter/s)": 1.124775
    },
    {
      "acc": 0.73419743,
      "epoch": 0.28094875697615423,
      "grad_norm": 4.34375,
      "learning_rate": 9.777872859909373e-06,
      "loss": 1.13034763,
      "memory(GiB)": 112.26,
      "step": 11075,
      "train_speed(iter/s)": 1.124829
    },
    {
      "acc": 0.74919019,
      "epoch": 0.2810755961440893,
      "grad_norm": 3.90625,
      "learning_rate": 9.777563673584376e-06,
      "loss": 1.0399497,
      "memory(GiB)": 112.26,
      "step": 11080,
      "train_speed(iter/s)": 1.12492
    },
    {
      "acc": 0.73103218,
      "epoch": 0.2812024353120244,
      "grad_norm": 4.0,
      "learning_rate": 9.777254277120801e-06,
      "loss": 1.08823433,
      "memory(GiB)": 112.26,
      "step": 11085,
      "train_speed(iter/s)": 1.124969
    },
    {
      "acc": 0.74188943,
      "epoch": 0.2813292744799594,
      "grad_norm": 3.34375,
      "learning_rate": 9.776944670532253e-06,
      "loss": 1.08616943,
      "memory(GiB)": 112.26,
      "step": 11090,
      "train_speed(iter/s)": 1.124953
    },
    {
      "acc": 0.73362408,
      "epoch": 0.28145611364789447,
      "grad_norm": 4.03125,
      "learning_rate": 9.776634853832352e-06,
      "loss": 1.09371214,
      "memory(GiB)": 112.26,
      "step": 11095,
      "train_speed(iter/s)": 1.125057
    },
    {
      "acc": 0.72272196,
      "epoch": 0.2815829528158295,
      "grad_norm": 3.75,
      "learning_rate": 9.776324827034724e-06,
      "loss": 1.12867985,
      "memory(GiB)": 112.26,
      "step": 11100,
      "train_speed(iter/s)": 1.125098
    },
    {
      "acc": 0.72815509,
      "epoch": 0.2817097919837646,
      "grad_norm": 3.375,
      "learning_rate": 9.776014590153005e-06,
      "loss": 1.12828703,
      "memory(GiB)": 112.26,
      "step": 11105,
      "train_speed(iter/s)": 1.1252
    },
    {
      "acc": 0.73183727,
      "epoch": 0.28183663115169966,
      "grad_norm": 3.96875,
      "learning_rate": 9.77570414320084e-06,
      "loss": 1.08817501,
      "memory(GiB)": 112.26,
      "step": 11110,
      "train_speed(iter/s)": 1.125251
    },
    {
      "acc": 0.73536153,
      "epoch": 0.2819634703196347,
      "grad_norm": 3.90625,
      "learning_rate": 9.775393486191884e-06,
      "loss": 1.08151875,
      "memory(GiB)": 112.26,
      "step": 11115,
      "train_speed(iter/s)": 1.125336
    },
    {
      "acc": 0.72075462,
      "epoch": 0.28209030948756975,
      "grad_norm": 4.4375,
      "learning_rate": 9.775082619139805e-06,
      "loss": 1.14267311,
      "memory(GiB)": 112.26,
      "step": 11120,
      "train_speed(iter/s)": 1.12544
    },
    {
      "acc": 0.74456859,
      "epoch": 0.28221714865550485,
      "grad_norm": 4.40625,
      "learning_rate": 9.77477154205827e-06,
      "loss": 1.07561607,
      "memory(GiB)": 112.26,
      "step": 11125,
      "train_speed(iter/s)": 1.125522
    },
    {
      "acc": 0.7267375,
      "epoch": 0.2823439878234399,
      "grad_norm": 3.671875,
      "learning_rate": 9.774460254960968e-06,
      "loss": 1.14733677,
      "memory(GiB)": 112.26,
      "step": 11130,
      "train_speed(iter/s)": 1.125573
    },
    {
      "acc": 0.73617516,
      "epoch": 0.28247082699137493,
      "grad_norm": 4.25,
      "learning_rate": 9.774148757861584e-06,
      "loss": 1.09365759,
      "memory(GiB)": 112.26,
      "step": 11135,
      "train_speed(iter/s)": 1.125607
    },
    {
      "acc": 0.72467899,
      "epoch": 0.28259766615931,
      "grad_norm": 4.0,
      "learning_rate": 9.773837050773824e-06,
      "loss": 1.15785103,
      "memory(GiB)": 112.26,
      "step": 11140,
      "train_speed(iter/s)": 1.12568
    },
    {
      "acc": 0.71595435,
      "epoch": 0.2827245053272451,
      "grad_norm": 4.3125,
      "learning_rate": 9.773525133711399e-06,
      "loss": 1.18339825,
      "memory(GiB)": 112.26,
      "step": 11145,
      "train_speed(iter/s)": 1.125764
    },
    {
      "acc": 0.72474093,
      "epoch": 0.2828513444951801,
      "grad_norm": 3.3125,
      "learning_rate": 9.773213006688024e-06,
      "loss": 1.15660982,
      "memory(GiB)": 112.26,
      "step": 11150,
      "train_speed(iter/s)": 1.125854
    },
    {
      "acc": 0.71588693,
      "epoch": 0.28297818366311517,
      "grad_norm": 4.125,
      "learning_rate": 9.77290066971743e-06,
      "loss": 1.21042747,
      "memory(GiB)": 112.26,
      "step": 11155,
      "train_speed(iter/s)": 1.125952
    },
    {
      "acc": 0.72822208,
      "epoch": 0.2831050228310502,
      "grad_norm": 3.234375,
      "learning_rate": 9.772588122813358e-06,
      "loss": 1.11559544,
      "memory(GiB)": 112.26,
      "step": 11160,
      "train_speed(iter/s)": 1.126027
    },
    {
      "acc": 0.73893065,
      "epoch": 0.2832318619989853,
      "grad_norm": 4.0,
      "learning_rate": 9.772275365989548e-06,
      "loss": 1.16117134,
      "memory(GiB)": 112.26,
      "step": 11165,
      "train_speed(iter/s)": 1.126127
    },
    {
      "acc": 0.73870816,
      "epoch": 0.28335870116692036,
      "grad_norm": 3.6875,
      "learning_rate": 9.771962399259764e-06,
      "loss": 1.10298195,
      "memory(GiB)": 112.26,
      "step": 11170,
      "train_speed(iter/s)": 1.1262
    },
    {
      "acc": 0.73957601,
      "epoch": 0.2834855403348554,
      "grad_norm": 3.671875,
      "learning_rate": 9.771649222637767e-06,
      "loss": 1.04777107,
      "memory(GiB)": 112.26,
      "step": 11175,
      "train_speed(iter/s)": 1.126263
    },
    {
      "acc": 0.71153646,
      "epoch": 0.28361237950279045,
      "grad_norm": 4.0,
      "learning_rate": 9.771335836137332e-06,
      "loss": 1.14577923,
      "memory(GiB)": 112.26,
      "step": 11180,
      "train_speed(iter/s)": 1.126334
    },
    {
      "acc": 0.73542323,
      "epoch": 0.28373921867072555,
      "grad_norm": 3.625,
      "learning_rate": 9.771022239772248e-06,
      "loss": 1.06239214,
      "memory(GiB)": 112.26,
      "step": 11185,
      "train_speed(iter/s)": 1.126388
    },
    {
      "acc": 0.71979666,
      "epoch": 0.2838660578386606,
      "grad_norm": 3.71875,
      "learning_rate": 9.770708433556302e-06,
      "loss": 1.1600029,
      "memory(GiB)": 112.26,
      "step": 11190,
      "train_speed(iter/s)": 1.126473
    },
    {
      "acc": 0.71536489,
      "epoch": 0.28399289700659563,
      "grad_norm": 4.375,
      "learning_rate": 9.7703944175033e-06,
      "loss": 1.14829617,
      "memory(GiB)": 112.26,
      "step": 11195,
      "train_speed(iter/s)": 1.126555
    },
    {
      "acc": 0.73560071,
      "epoch": 0.2841197361745307,
      "grad_norm": 3.640625,
      "learning_rate": 9.770080191627054e-06,
      "loss": 1.07028999,
      "memory(GiB)": 112.26,
      "step": 11200,
      "train_speed(iter/s)": 1.126641
    },
    {
      "acc": 0.73469176,
      "epoch": 0.2842465753424658,
      "grad_norm": 3.1875,
      "learning_rate": 9.769765755941383e-06,
      "loss": 1.10794268,
      "memory(GiB)": 112.26,
      "step": 11205,
      "train_speed(iter/s)": 1.12674
    },
    {
      "acc": 0.72627192,
      "epoch": 0.2843734145104008,
      "grad_norm": 3.828125,
      "learning_rate": 9.76945111046012e-06,
      "loss": 1.10166759,
      "memory(GiB)": 112.26,
      "step": 11210,
      "train_speed(iter/s)": 1.126841
    },
    {
      "acc": 0.72129955,
      "epoch": 0.28450025367833587,
      "grad_norm": 3.875,
      "learning_rate": 9.769136255197103e-06,
      "loss": 1.19956036,
      "memory(GiB)": 112.26,
      "step": 11215,
      "train_speed(iter/s)": 1.126909
    },
    {
      "acc": 0.72419033,
      "epoch": 0.2846270928462709,
      "grad_norm": 4.1875,
      "learning_rate": 9.768821190166179e-06,
      "loss": 1.13030834,
      "memory(GiB)": 112.26,
      "step": 11220,
      "train_speed(iter/s)": 1.127026
    },
    {
      "acc": 0.73126898,
      "epoch": 0.284753932014206,
      "grad_norm": 3.609375,
      "learning_rate": 9.76850591538121e-06,
      "loss": 1.06238432,
      "memory(GiB)": 112.26,
      "step": 11225,
      "train_speed(iter/s)": 1.127106
    },
    {
      "acc": 0.71927938,
      "epoch": 0.28488077118214106,
      "grad_norm": 3.890625,
      "learning_rate": 9.76819043085606e-06,
      "loss": 1.14596367,
      "memory(GiB)": 112.26,
      "step": 11230,
      "train_speed(iter/s)": 1.127144
    },
    {
      "acc": 0.73653955,
      "epoch": 0.2850076103500761,
      "grad_norm": 3.203125,
      "learning_rate": 9.767874736604605e-06,
      "loss": 1.08088703,
      "memory(GiB)": 112.26,
      "step": 11235,
      "train_speed(iter/s)": 1.127201
    },
    {
      "acc": 0.73469276,
      "epoch": 0.28513444951801115,
      "grad_norm": 3.796875,
      "learning_rate": 9.767558832640734e-06,
      "loss": 1.06443653,
      "memory(GiB)": 112.26,
      "step": 11240,
      "train_speed(iter/s)": 1.127264
    },
    {
      "acc": 0.72571712,
      "epoch": 0.28526128868594625,
      "grad_norm": 3.703125,
      "learning_rate": 9.76724271897834e-06,
      "loss": 1.09048529,
      "memory(GiB)": 112.26,
      "step": 11245,
      "train_speed(iter/s)": 1.12732
    },
    {
      "acc": 0.71770153,
      "epoch": 0.2853881278538813,
      "grad_norm": 3.734375,
      "learning_rate": 9.766926395631326e-06,
      "loss": 1.16300411,
      "memory(GiB)": 112.26,
      "step": 11250,
      "train_speed(iter/s)": 1.127416
    },
    {
      "acc": 0.74791965,
      "epoch": 0.28551496702181633,
      "grad_norm": 4.03125,
      "learning_rate": 9.766609862613607e-06,
      "loss": 1.03211212,
      "memory(GiB)": 112.26,
      "step": 11255,
      "train_speed(iter/s)": 1.127457
    },
    {
      "acc": 0.73099871,
      "epoch": 0.2856418061897514,
      "grad_norm": 4.09375,
      "learning_rate": 9.766293119939104e-06,
      "loss": 1.13961391,
      "memory(GiB)": 112.26,
      "step": 11260,
      "train_speed(iter/s)": 1.127517
    },
    {
      "acc": 0.73423643,
      "epoch": 0.2857686453576865,
      "grad_norm": 3.40625,
      "learning_rate": 9.76597616762175e-06,
      "loss": 1.11853886,
      "memory(GiB)": 112.26,
      "step": 11265,
      "train_speed(iter/s)": 1.12759
    },
    {
      "acc": 0.72208757,
      "epoch": 0.2858954845256215,
      "grad_norm": 3.171875,
      "learning_rate": 9.765659005675488e-06,
      "loss": 1.10832634,
      "memory(GiB)": 112.26,
      "step": 11270,
      "train_speed(iter/s)": 1.127654
    },
    {
      "acc": 0.71421776,
      "epoch": 0.28602232369355657,
      "grad_norm": 3.734375,
      "learning_rate": 9.765341634114263e-06,
      "loss": 1.15448418,
      "memory(GiB)": 112.26,
      "step": 11275,
      "train_speed(iter/s)": 1.127718
    },
    {
      "acc": 0.72936044,
      "epoch": 0.2861491628614916,
      "grad_norm": 3.640625,
      "learning_rate": 9.765024052952037e-06,
      "loss": 1.15150433,
      "memory(GiB)": 112.26,
      "step": 11280,
      "train_speed(iter/s)": 1.127823
    },
    {
      "acc": 0.72422032,
      "epoch": 0.2862760020294267,
      "grad_norm": 3.625,
      "learning_rate": 9.76470626220278e-06,
      "loss": 1.14981213,
      "memory(GiB)": 112.26,
      "step": 11285,
      "train_speed(iter/s)": 1.127908
    },
    {
      "acc": 0.72713375,
      "epoch": 0.28640284119736176,
      "grad_norm": 3.828125,
      "learning_rate": 9.76438826188047e-06,
      "loss": 1.1131628,
      "memory(GiB)": 112.26,
      "step": 11290,
      "train_speed(iter/s)": 1.12794
    },
    {
      "acc": 0.71732349,
      "epoch": 0.2865296803652968,
      "grad_norm": 4.84375,
      "learning_rate": 9.76407005199909e-06,
      "loss": 1.14153347,
      "memory(GiB)": 112.26,
      "step": 11295,
      "train_speed(iter/s)": 1.127975
    },
    {
      "acc": 0.72042947,
      "epoch": 0.28665651953323185,
      "grad_norm": 2.796875,
      "learning_rate": 9.76375163257264e-06,
      "loss": 1.12945852,
      "memory(GiB)": 112.26,
      "step": 11300,
      "train_speed(iter/s)": 1.128038
    },
    {
      "acc": 0.73750801,
      "epoch": 0.28678335870116695,
      "grad_norm": 3.984375,
      "learning_rate": 9.763433003615124e-06,
      "loss": 1.11092157,
      "memory(GiB)": 112.26,
      "step": 11305,
      "train_speed(iter/s)": 1.128097
    },
    {
      "acc": 0.73035145,
      "epoch": 0.286910197869102,
      "grad_norm": 4.28125,
      "learning_rate": 9.763114165140559e-06,
      "loss": 1.18742142,
      "memory(GiB)": 112.26,
      "step": 11310,
      "train_speed(iter/s)": 1.128139
    },
    {
      "acc": 0.71737871,
      "epoch": 0.28703703703703703,
      "grad_norm": 3.515625,
      "learning_rate": 9.762795117162967e-06,
      "loss": 1.16307316,
      "memory(GiB)": 112.26,
      "step": 11315,
      "train_speed(iter/s)": 1.128187
    },
    {
      "acc": 0.7370656,
      "epoch": 0.2871638762049721,
      "grad_norm": 3.9375,
      "learning_rate": 9.76247585969638e-06,
      "loss": 1.09123077,
      "memory(GiB)": 112.26,
      "step": 11320,
      "train_speed(iter/s)": 1.128253
    },
    {
      "acc": 0.73887696,
      "epoch": 0.2872907153729072,
      "grad_norm": 3.359375,
      "learning_rate": 9.762156392754842e-06,
      "loss": 1.07773123,
      "memory(GiB)": 112.26,
      "step": 11325,
      "train_speed(iter/s)": 1.128294
    },
    {
      "acc": 0.70412321,
      "epoch": 0.2874175545408422,
      "grad_norm": 3.828125,
      "learning_rate": 9.761836716352405e-06,
      "loss": 1.15801792,
      "memory(GiB)": 112.26,
      "step": 11330,
      "train_speed(iter/s)": 1.128323
    },
    {
      "acc": 0.7187778,
      "epoch": 0.28754439370877727,
      "grad_norm": 3.515625,
      "learning_rate": 9.761516830503128e-06,
      "loss": 1.15358868,
      "memory(GiB)": 112.26,
      "step": 11335,
      "train_speed(iter/s)": 1.128445
    },
    {
      "acc": 0.73074017,
      "epoch": 0.2876712328767123,
      "grad_norm": 3.671875,
      "learning_rate": 9.761196735221083e-06,
      "loss": 1.12959194,
      "memory(GiB)": 112.26,
      "step": 11340,
      "train_speed(iter/s)": 1.128543
    },
    {
      "acc": 0.72933111,
      "epoch": 0.2877980720446474,
      "grad_norm": 3.671875,
      "learning_rate": 9.76087643052035e-06,
      "loss": 1.12334309,
      "memory(GiB)": 112.26,
      "step": 11345,
      "train_speed(iter/s)": 1.128622
    },
    {
      "acc": 0.72303143,
      "epoch": 0.28792491121258246,
      "grad_norm": 3.625,
      "learning_rate": 9.760555916415015e-06,
      "loss": 1.12605915,
      "memory(GiB)": 112.26,
      "step": 11350,
      "train_speed(iter/s)": 1.128669
    },
    {
      "acc": 0.73517766,
      "epoch": 0.2880517503805175,
      "grad_norm": 3.640625,
      "learning_rate": 9.760235192919175e-06,
      "loss": 1.08268757,
      "memory(GiB)": 112.26,
      "step": 11355,
      "train_speed(iter/s)": 1.128751
    },
    {
      "acc": 0.72025185,
      "epoch": 0.28817858954845255,
      "grad_norm": 4.15625,
      "learning_rate": 9.75991426004694e-06,
      "loss": 1.14733391,
      "memory(GiB)": 112.26,
      "step": 11360,
      "train_speed(iter/s)": 1.12882
    },
    {
      "acc": 0.7274066,
      "epoch": 0.28830542871638765,
      "grad_norm": 3.484375,
      "learning_rate": 9.759593117812423e-06,
      "loss": 1.12331123,
      "memory(GiB)": 112.26,
      "step": 11365,
      "train_speed(iter/s)": 1.12887
    },
    {
      "acc": 0.73664837,
      "epoch": 0.2884322678843227,
      "grad_norm": 3.734375,
      "learning_rate": 9.75927176622975e-06,
      "loss": 1.09277859,
      "memory(GiB)": 112.26,
      "step": 11370,
      "train_speed(iter/s)": 1.128938
    },
    {
      "acc": 0.71850758,
      "epoch": 0.28855910705225774,
      "grad_norm": 3.515625,
      "learning_rate": 9.758950205313057e-06,
      "loss": 1.1739563,
      "memory(GiB)": 112.26,
      "step": 11375,
      "train_speed(iter/s)": 1.128978
    },
    {
      "acc": 0.73860588,
      "epoch": 0.2886859462201928,
      "grad_norm": 3.015625,
      "learning_rate": 9.758628435076488e-06,
      "loss": 1.0615798,
      "memory(GiB)": 112.26,
      "step": 11380,
      "train_speed(iter/s)": 1.129053
    },
    {
      "acc": 0.72378607,
      "epoch": 0.2888127853881279,
      "grad_norm": 3.875,
      "learning_rate": 9.758306455534193e-06,
      "loss": 1.13609924,
      "memory(GiB)": 112.26,
      "step": 11385,
      "train_speed(iter/s)": 1.129117
    },
    {
      "acc": 0.72081776,
      "epoch": 0.2889396245560629,
      "grad_norm": 4.0,
      "learning_rate": 9.757984266700336e-06,
      "loss": 1.12989788,
      "memory(GiB)": 112.26,
      "step": 11390,
      "train_speed(iter/s)": 1.129215
    },
    {
      "acc": 0.73170052,
      "epoch": 0.28906646372399797,
      "grad_norm": 4.84375,
      "learning_rate": 9.75766186858909e-06,
      "loss": 1.0848443,
      "memory(GiB)": 112.26,
      "step": 11395,
      "train_speed(iter/s)": 1.129305
    },
    {
      "acc": 0.7242465,
      "epoch": 0.289193302891933,
      "grad_norm": 3.609375,
      "learning_rate": 9.757339261214631e-06,
      "loss": 1.18008757,
      "memory(GiB)": 112.26,
      "step": 11400,
      "train_speed(iter/s)": 1.129417
    },
    {
      "acc": 0.72186394,
      "epoch": 0.2893201420598681,
      "grad_norm": 3.59375,
      "learning_rate": 9.757016444591152e-06,
      "loss": 1.13029575,
      "memory(GiB)": 112.26,
      "step": 11405,
      "train_speed(iter/s)": 1.129486
    },
    {
      "acc": 0.72289524,
      "epoch": 0.28944698122780316,
      "grad_norm": 3.15625,
      "learning_rate": 9.756693418732852e-06,
      "loss": 1.13637848,
      "memory(GiB)": 112.26,
      "step": 11410,
      "train_speed(iter/s)": 1.129586
    },
    {
      "acc": 0.72751427,
      "epoch": 0.2895738203957382,
      "grad_norm": 3.8125,
      "learning_rate": 9.756370183653938e-06,
      "loss": 1.19976635,
      "memory(GiB)": 112.26,
      "step": 11415,
      "train_speed(iter/s)": 1.129647
    },
    {
      "acc": 0.74000411,
      "epoch": 0.28970065956367325,
      "grad_norm": 4.375,
      "learning_rate": 9.756046739368628e-06,
      "loss": 1.0771965,
      "memory(GiB)": 112.26,
      "step": 11420,
      "train_speed(iter/s)": 1.129717
    },
    {
      "acc": 0.71393857,
      "epoch": 0.28982749873160835,
      "grad_norm": 4.15625,
      "learning_rate": 9.755723085891147e-06,
      "loss": 1.16056004,
      "memory(GiB)": 112.26,
      "step": 11425,
      "train_speed(iter/s)": 1.129781
    },
    {
      "acc": 0.74087667,
      "epoch": 0.2899543378995434,
      "grad_norm": 3.828125,
      "learning_rate": 9.755399223235734e-06,
      "loss": 1.0598793,
      "memory(GiB)": 112.26,
      "step": 11430,
      "train_speed(iter/s)": 1.129825
    },
    {
      "acc": 0.7263834,
      "epoch": 0.29008117706747844,
      "grad_norm": 4.75,
      "learning_rate": 9.75507515141663e-06,
      "loss": 1.10281696,
      "memory(GiB)": 112.26,
      "step": 11435,
      "train_speed(iter/s)": 1.129918
    },
    {
      "acc": 0.72710004,
      "epoch": 0.2902080162354135,
      "grad_norm": 4.03125,
      "learning_rate": 9.75475087044809e-06,
      "loss": 1.1119441,
      "memory(GiB)": 112.26,
      "step": 11440,
      "train_speed(iter/s)": 1.12993
    },
    {
      "acc": 0.72347245,
      "epoch": 0.2903348554033486,
      "grad_norm": 3.875,
      "learning_rate": 9.754426380344382e-06,
      "loss": 1.15921621,
      "memory(GiB)": 112.26,
      "step": 11445,
      "train_speed(iter/s)": 1.130007
    },
    {
      "acc": 0.72432313,
      "epoch": 0.2904616945712836,
      "grad_norm": 3.6875,
      "learning_rate": 9.754101681119772e-06,
      "loss": 1.14404049,
      "memory(GiB)": 112.26,
      "step": 11450,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.71541977,
      "epoch": 0.29058853373921867,
      "grad_norm": 4.03125,
      "learning_rate": 9.753776772788545e-06,
      "loss": 1.16532841,
      "memory(GiB)": 112.26,
      "step": 11455,
      "train_speed(iter/s)": 1.130198
    },
    {
      "acc": 0.72829924,
      "epoch": 0.2907153729071537,
      "grad_norm": 3.3125,
      "learning_rate": 9.753451655364992e-06,
      "loss": 1.12206736,
      "memory(GiB)": 112.26,
      "step": 11460,
      "train_speed(iter/s)": 1.130284
    },
    {
      "acc": 0.72656374,
      "epoch": 0.2908422120750888,
      "grad_norm": 3.796875,
      "learning_rate": 9.75312632886341e-06,
      "loss": 1.16676369,
      "memory(GiB)": 112.26,
      "step": 11465,
      "train_speed(iter/s)": 1.130366
    },
    {
      "acc": 0.75114269,
      "epoch": 0.29096905124302386,
      "grad_norm": 3.3125,
      "learning_rate": 9.752800793298113e-06,
      "loss": 1.04758787,
      "memory(GiB)": 112.26,
      "step": 11470,
      "train_speed(iter/s)": 1.130453
    },
    {
      "acc": 0.73489575,
      "epoch": 0.2910958904109589,
      "grad_norm": 3.796875,
      "learning_rate": 9.752475048683419e-06,
      "loss": 1.12555294,
      "memory(GiB)": 112.26,
      "step": 11475,
      "train_speed(iter/s)": 1.13052
    },
    {
      "acc": 0.73316298,
      "epoch": 0.29122272957889395,
      "grad_norm": 3.171875,
      "learning_rate": 9.752149095033651e-06,
      "loss": 1.07983456,
      "memory(GiB)": 112.26,
      "step": 11480,
      "train_speed(iter/s)": 1.130606
    },
    {
      "acc": 0.73540254,
      "epoch": 0.29134956874682905,
      "grad_norm": 4.1875,
      "learning_rate": 9.75182293236315e-06,
      "loss": 1.07466669,
      "memory(GiB)": 112.26,
      "step": 11485,
      "train_speed(iter/s)": 1.130676
    },
    {
      "acc": 0.7249445,
      "epoch": 0.2914764079147641,
      "grad_norm": 4.25,
      "learning_rate": 9.751496560686262e-06,
      "loss": 1.03588581,
      "memory(GiB)": 112.26,
      "step": 11490,
      "train_speed(iter/s)": 1.130747
    },
    {
      "acc": 0.72673802,
      "epoch": 0.29160324708269914,
      "grad_norm": 3.625,
      "learning_rate": 9.751169980017341e-06,
      "loss": 1.09111204,
      "memory(GiB)": 112.26,
      "step": 11495,
      "train_speed(iter/s)": 1.130831
    },
    {
      "acc": 0.73105903,
      "epoch": 0.2917300862506342,
      "grad_norm": 3.375,
      "learning_rate": 9.750843190370752e-06,
      "loss": 1.08958569,
      "memory(GiB)": 112.26,
      "step": 11500,
      "train_speed(iter/s)": 1.13092
    },
    {
      "acc": 0.73912172,
      "epoch": 0.2918569254185693,
      "grad_norm": 2.75,
      "learning_rate": 9.750516191760868e-06,
      "loss": 1.08294048,
      "memory(GiB)": 112.26,
      "step": 11505,
      "train_speed(iter/s)": 1.130977
    },
    {
      "acc": 0.7359767,
      "epoch": 0.2919837645865043,
      "grad_norm": 2.9375,
      "learning_rate": 9.750188984202073e-06,
      "loss": 1.08596859,
      "memory(GiB)": 112.26,
      "step": 11510,
      "train_speed(iter/s)": 1.131026
    },
    {
      "acc": 0.72608957,
      "epoch": 0.29211060375443937,
      "grad_norm": 3.90625,
      "learning_rate": 9.749861567708759e-06,
      "loss": 1.17152452,
      "memory(GiB)": 112.26,
      "step": 11515,
      "train_speed(iter/s)": 1.131117
    },
    {
      "acc": 0.71587124,
      "epoch": 0.2922374429223744,
      "grad_norm": 4.25,
      "learning_rate": 9.749533942295323e-06,
      "loss": 1.16473598,
      "memory(GiB)": 112.26,
      "step": 11520,
      "train_speed(iter/s)": 1.131195
    },
    {
      "acc": 0.7315299,
      "epoch": 0.2923642820903095,
      "grad_norm": 4.53125,
      "learning_rate": 9.749206107976183e-06,
      "loss": 1.07246323,
      "memory(GiB)": 112.26,
      "step": 11525,
      "train_speed(iter/s)": 1.131312
    },
    {
      "acc": 0.71690764,
      "epoch": 0.29249112125824456,
      "grad_norm": 4.03125,
      "learning_rate": 9.748878064765753e-06,
      "loss": 1.17374763,
      "memory(GiB)": 112.26,
      "step": 11530,
      "train_speed(iter/s)": 1.131387
    },
    {
      "acc": 0.72652478,
      "epoch": 0.2926179604261796,
      "grad_norm": 4.90625,
      "learning_rate": 9.748549812678466e-06,
      "loss": 1.17834721,
      "memory(GiB)": 112.26,
      "step": 11535,
      "train_speed(iter/s)": 1.131485
    },
    {
      "acc": 0.72966805,
      "epoch": 0.29274479959411465,
      "grad_norm": 3.421875,
      "learning_rate": 9.748221351728754e-06,
      "loss": 1.15031948,
      "memory(GiB)": 112.26,
      "step": 11540,
      "train_speed(iter/s)": 1.131577
    },
    {
      "acc": 0.7284235,
      "epoch": 0.29287163876204975,
      "grad_norm": 4.21875,
      "learning_rate": 9.747892681931067e-06,
      "loss": 1.10329046,
      "memory(GiB)": 112.26,
      "step": 11545,
      "train_speed(iter/s)": 1.131664
    },
    {
      "acc": 0.72158575,
      "epoch": 0.2929984779299848,
      "grad_norm": 4.0,
      "learning_rate": 9.747563803299865e-06,
      "loss": 1.13605366,
      "memory(GiB)": 112.26,
      "step": 11550,
      "train_speed(iter/s)": 1.131771
    },
    {
      "acc": 0.72975254,
      "epoch": 0.29312531709791984,
      "grad_norm": 3.75,
      "learning_rate": 9.74723471584961e-06,
      "loss": 1.10143089,
      "memory(GiB)": 112.26,
      "step": 11555,
      "train_speed(iter/s)": 1.131845
    },
    {
      "acc": 0.73090429,
      "epoch": 0.2932521562658549,
      "grad_norm": 3.828125,
      "learning_rate": 9.746905419594777e-06,
      "loss": 1.09319115,
      "memory(GiB)": 112.26,
      "step": 11560,
      "train_speed(iter/s)": 1.131925
    },
    {
      "acc": 0.72523165,
      "epoch": 0.29337899543379,
      "grad_norm": 3.8125,
      "learning_rate": 9.746575914549851e-06,
      "loss": 1.14243994,
      "memory(GiB)": 112.26,
      "step": 11565,
      "train_speed(iter/s)": 1.13201
    },
    {
      "acc": 0.71740518,
      "epoch": 0.293505834601725,
      "grad_norm": 3.796875,
      "learning_rate": 9.746246200729323e-06,
      "loss": 1.17554016,
      "memory(GiB)": 112.26,
      "step": 11570,
      "train_speed(iter/s)": 1.132077
    },
    {
      "acc": 0.733392,
      "epoch": 0.29363267376966007,
      "grad_norm": 3.71875,
      "learning_rate": 9.745916278147696e-06,
      "loss": 1.09169788,
      "memory(GiB)": 112.26,
      "step": 11575,
      "train_speed(iter/s)": 1.132131
    },
    {
      "acc": 0.73578644,
      "epoch": 0.2937595129375951,
      "grad_norm": 4.875,
      "learning_rate": 9.745586146819484e-06,
      "loss": 1.12001343,
      "memory(GiB)": 112.26,
      "step": 11580,
      "train_speed(iter/s)": 1.132159
    },
    {
      "acc": 0.73001041,
      "epoch": 0.2938863521055302,
      "grad_norm": 3.46875,
      "learning_rate": 9.745255806759205e-06,
      "loss": 1.18919411,
      "memory(GiB)": 112.26,
      "step": 11585,
      "train_speed(iter/s)": 1.132249
    },
    {
      "acc": 0.72680864,
      "epoch": 0.29401319127346526,
      "grad_norm": 4.125,
      "learning_rate": 9.74492525798139e-06,
      "loss": 1.14524498,
      "memory(GiB)": 112.26,
      "step": 11590,
      "train_speed(iter/s)": 1.132321
    },
    {
      "acc": 0.71973758,
      "epoch": 0.2941400304414003,
      "grad_norm": 3.46875,
      "learning_rate": 9.744594500500578e-06,
      "loss": 1.1450285,
      "memory(GiB)": 112.26,
      "step": 11595,
      "train_speed(iter/s)": 1.132388
    },
    {
      "acc": 0.72322612,
      "epoch": 0.29426686960933535,
      "grad_norm": 4.09375,
      "learning_rate": 9.744263534331315e-06,
      "loss": 1.1120573,
      "memory(GiB)": 112.26,
      "step": 11600,
      "train_speed(iter/s)": 1.13245
    },
    {
      "acc": 0.73961029,
      "epoch": 0.29439370877727045,
      "grad_norm": 3.734375,
      "learning_rate": 9.743932359488161e-06,
      "loss": 1.09147358,
      "memory(GiB)": 112.26,
      "step": 11605,
      "train_speed(iter/s)": 1.132522
    },
    {
      "acc": 0.72286768,
      "epoch": 0.2945205479452055,
      "grad_norm": 3.21875,
      "learning_rate": 9.743600975985681e-06,
      "loss": 1.15253563,
      "memory(GiB)": 112.26,
      "step": 11610,
      "train_speed(iter/s)": 1.132605
    },
    {
      "acc": 0.73685255,
      "epoch": 0.29464738711314054,
      "grad_norm": 3.609375,
      "learning_rate": 9.743269383838452e-06,
      "loss": 1.13975067,
      "memory(GiB)": 112.26,
      "step": 11615,
      "train_speed(iter/s)": 1.1327
    },
    {
      "acc": 0.73353558,
      "epoch": 0.2947742262810756,
      "grad_norm": 4.0625,
      "learning_rate": 9.74293758306106e-06,
      "loss": 1.0921977,
      "memory(GiB)": 112.26,
      "step": 11620,
      "train_speed(iter/s)": 1.132768
    },
    {
      "acc": 0.71992531,
      "epoch": 0.2949010654490107,
      "grad_norm": 5.375,
      "learning_rate": 9.742605573668096e-06,
      "loss": 1.11986465,
      "memory(GiB)": 112.26,
      "step": 11625,
      "train_speed(iter/s)": 1.132836
    },
    {
      "acc": 0.730055,
      "epoch": 0.2950279046169457,
      "grad_norm": 5.0625,
      "learning_rate": 9.742273355674164e-06,
      "loss": 1.17893953,
      "memory(GiB)": 112.26,
      "step": 11630,
      "train_speed(iter/s)": 1.132913
    },
    {
      "acc": 0.73761215,
      "epoch": 0.29515474378488077,
      "grad_norm": 3.46875,
      "learning_rate": 9.741940929093879e-06,
      "loss": 1.12951412,
      "memory(GiB)": 112.26,
      "step": 11635,
      "train_speed(iter/s)": 1.132972
    },
    {
      "acc": 0.73717957,
      "epoch": 0.2952815829528158,
      "grad_norm": 3.390625,
      "learning_rate": 9.741608293941858e-06,
      "loss": 1.05660334,
      "memory(GiB)": 112.26,
      "step": 11640,
      "train_speed(iter/s)": 1.13299
    },
    {
      "acc": 0.73462963,
      "epoch": 0.2954084221207509,
      "grad_norm": 3.84375,
      "learning_rate": 9.741275450232736e-06,
      "loss": 1.13233595,
      "memory(GiB)": 112.26,
      "step": 11645,
      "train_speed(iter/s)": 1.133043
    },
    {
      "acc": 0.73891182,
      "epoch": 0.29553526128868596,
      "grad_norm": 3.65625,
      "learning_rate": 9.740942397981151e-06,
      "loss": 1.03833466,
      "memory(GiB)": 112.26,
      "step": 11650,
      "train_speed(iter/s)": 1.133089
    },
    {
      "acc": 0.72739682,
      "epoch": 0.295662100456621,
      "grad_norm": 3.59375,
      "learning_rate": 9.740609137201752e-06,
      "loss": 1.12472992,
      "memory(GiB)": 112.26,
      "step": 11655,
      "train_speed(iter/s)": 1.133157
    },
    {
      "acc": 0.73756037,
      "epoch": 0.29578893962455605,
      "grad_norm": 3.984375,
      "learning_rate": 9.7402756679092e-06,
      "loss": 1.11285667,
      "memory(GiB)": 112.26,
      "step": 11660,
      "train_speed(iter/s)": 1.133203
    },
    {
      "acc": 0.72903786,
      "epoch": 0.29591577879249115,
      "grad_norm": 3.828125,
      "learning_rate": 9.739941990118157e-06,
      "loss": 1.07401037,
      "memory(GiB)": 112.26,
      "step": 11665,
      "train_speed(iter/s)": 1.133277
    },
    {
      "acc": 0.73227177,
      "epoch": 0.2960426179604262,
      "grad_norm": 3.21875,
      "learning_rate": 9.739608103843306e-06,
      "loss": 1.11008854,
      "memory(GiB)": 112.26,
      "step": 11670,
      "train_speed(iter/s)": 1.133247
    },
    {
      "acc": 0.72638245,
      "epoch": 0.29616945712836124,
      "grad_norm": 3.203125,
      "learning_rate": 9.739274009099328e-06,
      "loss": 1.13655624,
      "memory(GiB)": 112.26,
      "step": 11675,
      "train_speed(iter/s)": 1.13331
    },
    {
      "acc": 0.73362069,
      "epoch": 0.2962962962962963,
      "grad_norm": 3.65625,
      "learning_rate": 9.738939705900922e-06,
      "loss": 1.11211605,
      "memory(GiB)": 112.26,
      "step": 11680,
      "train_speed(iter/s)": 1.133404
    },
    {
      "acc": 0.73903661,
      "epoch": 0.2964231354642314,
      "grad_norm": 3.125,
      "learning_rate": 9.738605194262787e-06,
      "loss": 1.07529678,
      "memory(GiB)": 112.26,
      "step": 11685,
      "train_speed(iter/s)": 1.13348
    },
    {
      "acc": 0.72897348,
      "epoch": 0.2965499746321664,
      "grad_norm": 2.984375,
      "learning_rate": 9.738270474199641e-06,
      "loss": 1.11816387,
      "memory(GiB)": 112.26,
      "step": 11690,
      "train_speed(iter/s)": 1.133553
    },
    {
      "acc": 0.71709962,
      "epoch": 0.29667681380010147,
      "grad_norm": 4.625,
      "learning_rate": 9.737935545726205e-06,
      "loss": 1.15533905,
      "memory(GiB)": 112.26,
      "step": 11695,
      "train_speed(iter/s)": 1.133624
    },
    {
      "acc": 0.73455515,
      "epoch": 0.2968036529680365,
      "grad_norm": 3.90625,
      "learning_rate": 9.737600408857208e-06,
      "loss": 1.12004633,
      "memory(GiB)": 112.26,
      "step": 11700,
      "train_speed(iter/s)": 1.133697
    },
    {
      "acc": 0.72541294,
      "epoch": 0.2969304921359716,
      "grad_norm": 3.78125,
      "learning_rate": 9.737265063607395e-06,
      "loss": 1.13268595,
      "memory(GiB)": 112.26,
      "step": 11705,
      "train_speed(iter/s)": 1.133763
    },
    {
      "acc": 0.73079944,
      "epoch": 0.29705733130390666,
      "grad_norm": 3.9375,
      "learning_rate": 9.736929509991515e-06,
      "loss": 1.09643307,
      "memory(GiB)": 112.26,
      "step": 11710,
      "train_speed(iter/s)": 1.133822
    },
    {
      "acc": 0.73616486,
      "epoch": 0.2971841704718417,
      "grad_norm": 4.0625,
      "learning_rate": 9.736593748024325e-06,
      "loss": 1.11842089,
      "memory(GiB)": 112.26,
      "step": 11715,
      "train_speed(iter/s)": 1.133921
    },
    {
      "acc": 0.7350625,
      "epoch": 0.29731100963977675,
      "grad_norm": 3.234375,
      "learning_rate": 9.736257777720595e-06,
      "loss": 1.06865768,
      "memory(GiB)": 112.26,
      "step": 11720,
      "train_speed(iter/s)": 1.134009
    },
    {
      "acc": 0.7382865,
      "epoch": 0.29743784880771185,
      "grad_norm": 4.75,
      "learning_rate": 9.735921599095101e-06,
      "loss": 1.09594927,
      "memory(GiB)": 112.26,
      "step": 11725,
      "train_speed(iter/s)": 1.134092
    },
    {
      "acc": 0.73302498,
      "epoch": 0.2975646879756469,
      "grad_norm": 3.296875,
      "learning_rate": 9.735585212162633e-06,
      "loss": 1.08184605,
      "memory(GiB)": 112.26,
      "step": 11730,
      "train_speed(iter/s)": 1.134186
    },
    {
      "acc": 0.72396536,
      "epoch": 0.29769152714358194,
      "grad_norm": 4.09375,
      "learning_rate": 9.735248616937983e-06,
      "loss": 1.14986973,
      "memory(GiB)": 112.26,
      "step": 11735,
      "train_speed(iter/s)": 1.134261
    },
    {
      "acc": 0.72649632,
      "epoch": 0.297818366311517,
      "grad_norm": 3.765625,
      "learning_rate": 9.734911813435957e-06,
      "loss": 1.10335703,
      "memory(GiB)": 112.26,
      "step": 11740,
      "train_speed(iter/s)": 1.134323
    },
    {
      "acc": 0.72483158,
      "epoch": 0.2979452054794521,
      "grad_norm": 3.328125,
      "learning_rate": 9.73457480167137e-06,
      "loss": 1.22378531,
      "memory(GiB)": 112.26,
      "step": 11745,
      "train_speed(iter/s)": 1.134414
    },
    {
      "acc": 0.73637943,
      "epoch": 0.2980720446473871,
      "grad_norm": 3.84375,
      "learning_rate": 9.734237581659045e-06,
      "loss": 1.12398911,
      "memory(GiB)": 112.26,
      "step": 11750,
      "train_speed(iter/s)": 1.134492
    },
    {
      "acc": 0.72988291,
      "epoch": 0.29819888381532217,
      "grad_norm": 3.59375,
      "learning_rate": 9.733900153413813e-06,
      "loss": 1.08375463,
      "memory(GiB)": 112.26,
      "step": 11755,
      "train_speed(iter/s)": 1.134533
    },
    {
      "acc": 0.72882466,
      "epoch": 0.2983257229832572,
      "grad_norm": 4.1875,
      "learning_rate": 9.733562516950519e-06,
      "loss": 1.11163301,
      "memory(GiB)": 112.26,
      "step": 11760,
      "train_speed(iter/s)": 1.134593
    },
    {
      "acc": 0.72350426,
      "epoch": 0.2984525621511923,
      "grad_norm": 4.84375,
      "learning_rate": 9.73322467228401e-06,
      "loss": 1.12475977,
      "memory(GiB)": 112.26,
      "step": 11765,
      "train_speed(iter/s)": 1.134628
    },
    {
      "acc": 0.72720528,
      "epoch": 0.29857940131912736,
      "grad_norm": 4.75,
      "learning_rate": 9.73288661942915e-06,
      "loss": 1.08949947,
      "memory(GiB)": 112.26,
      "step": 11770,
      "train_speed(iter/s)": 1.134694
    },
    {
      "acc": 0.73860674,
      "epoch": 0.2987062404870624,
      "grad_norm": 3.953125,
      "learning_rate": 9.732548358400802e-06,
      "loss": 1.08581753,
      "memory(GiB)": 112.26,
      "step": 11775,
      "train_speed(iter/s)": 1.134726
    },
    {
      "acc": 0.72903433,
      "epoch": 0.29883307965499745,
      "grad_norm": 3.09375,
      "learning_rate": 9.73220988921385e-06,
      "loss": 1.06297493,
      "memory(GiB)": 112.26,
      "step": 11780,
      "train_speed(iter/s)": 1.134734
    },
    {
      "acc": 0.73080516,
      "epoch": 0.29895991882293255,
      "grad_norm": 3.765625,
      "learning_rate": 9.73187121188318e-06,
      "loss": 1.08448238,
      "memory(GiB)": 112.26,
      "step": 11785,
      "train_speed(iter/s)": 1.134823
    },
    {
      "acc": 0.74175444,
      "epoch": 0.2990867579908676,
      "grad_norm": 4.46875,
      "learning_rate": 9.731532326423686e-06,
      "loss": 1.10065737,
      "memory(GiB)": 112.26,
      "step": 11790,
      "train_speed(iter/s)": 1.13491
    },
    {
      "acc": 0.74356413,
      "epoch": 0.29921359715880264,
      "grad_norm": 3.25,
      "learning_rate": 9.731193232850277e-06,
      "loss": 1.05892086,
      "memory(GiB)": 112.26,
      "step": 11795,
      "train_speed(iter/s)": 1.13497
    },
    {
      "acc": 0.72554827,
      "epoch": 0.2993404363267377,
      "grad_norm": 3.234375,
      "learning_rate": 9.730853931177866e-06,
      "loss": 1.12180519,
      "memory(GiB)": 112.26,
      "step": 11800,
      "train_speed(iter/s)": 1.135041
    },
    {
      "acc": 0.73120794,
      "epoch": 0.2994672754946728,
      "grad_norm": 4.0,
      "learning_rate": 9.730514421421378e-06,
      "loss": 1.1207571,
      "memory(GiB)": 112.26,
      "step": 11805,
      "train_speed(iter/s)": 1.135134
    },
    {
      "acc": 0.7271687,
      "epoch": 0.2995941146626078,
      "grad_norm": 3.203125,
      "learning_rate": 9.730174703595745e-06,
      "loss": 1.12878017,
      "memory(GiB)": 112.26,
      "step": 11810,
      "train_speed(iter/s)": 1.135138
    },
    {
      "acc": 0.73362465,
      "epoch": 0.29972095383054287,
      "grad_norm": 3.4375,
      "learning_rate": 9.72983477771591e-06,
      "loss": 1.0675374,
      "memory(GiB)": 112.26,
      "step": 11815,
      "train_speed(iter/s)": 1.135188
    },
    {
      "acc": 0.72551055,
      "epoch": 0.2998477929984779,
      "grad_norm": 3.25,
      "learning_rate": 9.729494643796823e-06,
      "loss": 1.16384525,
      "memory(GiB)": 112.26,
      "step": 11820,
      "train_speed(iter/s)": 1.135272
    },
    {
      "acc": 0.72656088,
      "epoch": 0.299974632166413,
      "grad_norm": 3.46875,
      "learning_rate": 9.729154301853448e-06,
      "loss": 1.13079424,
      "memory(GiB)": 112.26,
      "step": 11825,
      "train_speed(iter/s)": 1.135348
    },
    {
      "acc": 0.72444172,
      "epoch": 0.30010147133434806,
      "grad_norm": 5.125,
      "learning_rate": 9.72881375190075e-06,
      "loss": 1.16071472,
      "memory(GiB)": 112.26,
      "step": 11830,
      "train_speed(iter/s)": 1.13536
    },
    {
      "acc": 0.74376273,
      "epoch": 0.3002283105022831,
      "grad_norm": 3.140625,
      "learning_rate": 9.728472993953712e-06,
      "loss": 1.06861582,
      "memory(GiB)": 112.26,
      "step": 11835,
      "train_speed(iter/s)": 1.135387
    },
    {
      "acc": 0.7301621,
      "epoch": 0.30035514967021815,
      "grad_norm": 3.25,
      "learning_rate": 9.728132028027323e-06,
      "loss": 1.04957619,
      "memory(GiB)": 112.26,
      "step": 11840,
      "train_speed(iter/s)": 1.135442
    },
    {
      "acc": 0.74338126,
      "epoch": 0.30048198883815325,
      "grad_norm": 3.34375,
      "learning_rate": 9.727790854136573e-06,
      "loss": 1.09595718,
      "memory(GiB)": 112.26,
      "step": 11845,
      "train_speed(iter/s)": 1.135507
    },
    {
      "acc": 0.73782082,
      "epoch": 0.3006088280060883,
      "grad_norm": 3.1875,
      "learning_rate": 9.727449472296476e-06,
      "loss": 1.06598854,
      "memory(GiB)": 112.26,
      "step": 11850,
      "train_speed(iter/s)": 1.135536
    },
    {
      "acc": 0.72314997,
      "epoch": 0.30073566717402334,
      "grad_norm": 4.4375,
      "learning_rate": 9.727107882522045e-06,
      "loss": 1.15892391,
      "memory(GiB)": 112.26,
      "step": 11855,
      "train_speed(iter/s)": 1.135619
    },
    {
      "acc": 0.72986908,
      "epoch": 0.3008625063419584,
      "grad_norm": 3.875,
      "learning_rate": 9.726766084828303e-06,
      "loss": 1.10220337,
      "memory(GiB)": 112.26,
      "step": 11860,
      "train_speed(iter/s)": 1.135672
    },
    {
      "acc": 0.72066884,
      "epoch": 0.3009893455098935,
      "grad_norm": 4.9375,
      "learning_rate": 9.726424079230286e-06,
      "loss": 1.10105877,
      "memory(GiB)": 112.26,
      "step": 11865,
      "train_speed(iter/s)": 1.135686
    },
    {
      "acc": 0.73164492,
      "epoch": 0.3011161846778285,
      "grad_norm": 3.671875,
      "learning_rate": 9.726081865743036e-06,
      "loss": 1.10924578,
      "memory(GiB)": 112.26,
      "step": 11870,
      "train_speed(iter/s)": 1.135773
    },
    {
      "acc": 0.74727163,
      "epoch": 0.30124302384576357,
      "grad_norm": 3.328125,
      "learning_rate": 9.725739444381603e-06,
      "loss": 1.07527657,
      "memory(GiB)": 112.26,
      "step": 11875,
      "train_speed(iter/s)": 1.135847
    },
    {
      "acc": 0.72413177,
      "epoch": 0.3013698630136986,
      "grad_norm": 3.59375,
      "learning_rate": 9.725396815161053e-06,
      "loss": 1.1389739,
      "memory(GiB)": 112.26,
      "step": 11880,
      "train_speed(iter/s)": 1.135888
    },
    {
      "acc": 0.7270853,
      "epoch": 0.3014967021816337,
      "grad_norm": 3.59375,
      "learning_rate": 9.725053978096453e-06,
      "loss": 1.15386868,
      "memory(GiB)": 112.26,
      "step": 11885,
      "train_speed(iter/s)": 1.13594
    },
    {
      "acc": 0.72248273,
      "epoch": 0.30162354134956876,
      "grad_norm": 3.359375,
      "learning_rate": 9.724710933202884e-06,
      "loss": 1.17581863,
      "memory(GiB)": 112.26,
      "step": 11890,
      "train_speed(iter/s)": 1.135981
    },
    {
      "acc": 0.73305988,
      "epoch": 0.3017503805175038,
      "grad_norm": 3.796875,
      "learning_rate": 9.724367680495432e-06,
      "loss": 1.12197437,
      "memory(GiB)": 112.26,
      "step": 11895,
      "train_speed(iter/s)": 1.136054
    },
    {
      "acc": 0.74735007,
      "epoch": 0.30187721968543885,
      "grad_norm": 3.3125,
      "learning_rate": 9.724024219989198e-06,
      "loss": 1.06483784,
      "memory(GiB)": 112.26,
      "step": 11900,
      "train_speed(iter/s)": 1.136095
    },
    {
      "acc": 0.71867537,
      "epoch": 0.30200405885337395,
      "grad_norm": 4.03125,
      "learning_rate": 9.723680551699286e-06,
      "loss": 1.12336006,
      "memory(GiB)": 112.26,
      "step": 11905,
      "train_speed(iter/s)": 1.136103
    },
    {
      "acc": 0.7255847,
      "epoch": 0.302130898021309,
      "grad_norm": 4.59375,
      "learning_rate": 9.723336675640815e-06,
      "loss": 1.18465557,
      "memory(GiB)": 112.26,
      "step": 11910,
      "train_speed(iter/s)": 1.136133
    },
    {
      "acc": 0.73069963,
      "epoch": 0.30225773718924404,
      "grad_norm": 3.59375,
      "learning_rate": 9.722992591828908e-06,
      "loss": 1.12272272,
      "memory(GiB)": 112.26,
      "step": 11915,
      "train_speed(iter/s)": 1.136187
    },
    {
      "acc": 0.73988857,
      "epoch": 0.3023845763571791,
      "grad_norm": 3.984375,
      "learning_rate": 9.722648300278701e-06,
      "loss": 1.02307587,
      "memory(GiB)": 112.26,
      "step": 11920,
      "train_speed(iter/s)": 1.136214
    },
    {
      "acc": 0.73612103,
      "epoch": 0.3025114155251142,
      "grad_norm": 3.890625,
      "learning_rate": 9.722303801005338e-06,
      "loss": 1.11433535,
      "memory(GiB)": 112.26,
      "step": 11925,
      "train_speed(iter/s)": 1.136274
    },
    {
      "acc": 0.72961245,
      "epoch": 0.3026382546930492,
      "grad_norm": 4.125,
      "learning_rate": 9.721959094023968e-06,
      "loss": 1.16425114,
      "memory(GiB)": 112.26,
      "step": 11930,
      "train_speed(iter/s)": 1.136277
    },
    {
      "acc": 0.74297829,
      "epoch": 0.30276509386098427,
      "grad_norm": 4.25,
      "learning_rate": 9.721614179349754e-06,
      "loss": 1.04353275,
      "memory(GiB)": 112.26,
      "step": 11935,
      "train_speed(iter/s)": 1.136371
    },
    {
      "acc": 0.74129429,
      "epoch": 0.3028919330289193,
      "grad_norm": 4.03125,
      "learning_rate": 9.72126905699787e-06,
      "loss": 1.13904982,
      "memory(GiB)": 112.26,
      "step": 11940,
      "train_speed(iter/s)": 1.136456
    },
    {
      "acc": 0.71999698,
      "epoch": 0.3030187721968544,
      "grad_norm": 3.09375,
      "learning_rate": 9.720923726983493e-06,
      "loss": 1.09516439,
      "memory(GiB)": 112.26,
      "step": 11945,
      "train_speed(iter/s)": 1.13651
    },
    {
      "acc": 0.7178762,
      "epoch": 0.30314561136478946,
      "grad_norm": 3.09375,
      "learning_rate": 9.720578189321814e-06,
      "loss": 1.13472271,
      "memory(GiB)": 112.26,
      "step": 11950,
      "train_speed(iter/s)": 1.136568
    },
    {
      "acc": 0.73856826,
      "epoch": 0.3032724505327245,
      "grad_norm": 4.125,
      "learning_rate": 9.72023244402803e-06,
      "loss": 1.11585693,
      "memory(GiB)": 112.26,
      "step": 11955,
      "train_speed(iter/s)": 1.136591
    },
    {
      "acc": 0.72824144,
      "epoch": 0.30339928970065955,
      "grad_norm": 3.53125,
      "learning_rate": 9.719886491117348e-06,
      "loss": 1.11588211,
      "memory(GiB)": 112.26,
      "step": 11960,
      "train_speed(iter/s)": 1.136653
    },
    {
      "acc": 0.73498421,
      "epoch": 0.30352612886859465,
      "grad_norm": 4.1875,
      "learning_rate": 9.719540330604986e-06,
      "loss": 1.0820097,
      "memory(GiB)": 112.26,
      "step": 11965,
      "train_speed(iter/s)": 1.136713
    },
    {
      "acc": 0.73687449,
      "epoch": 0.3036529680365297,
      "grad_norm": 4.0,
      "learning_rate": 9.71919396250617e-06,
      "loss": 1.13300877,
      "memory(GiB)": 112.26,
      "step": 11970,
      "train_speed(iter/s)": 1.136796
    },
    {
      "acc": 0.71239662,
      "epoch": 0.30377980720446474,
      "grad_norm": 3.53125,
      "learning_rate": 9.718847386836131e-06,
      "loss": 1.17668982,
      "memory(GiB)": 112.26,
      "step": 11975,
      "train_speed(iter/s)": 1.136852
    },
    {
      "acc": 0.73156776,
      "epoch": 0.3039066463723998,
      "grad_norm": 3.625,
      "learning_rate": 9.718500603610119e-06,
      "loss": 1.1370574,
      "memory(GiB)": 112.26,
      "step": 11980,
      "train_speed(iter/s)": 1.136938
    },
    {
      "acc": 0.72048492,
      "epoch": 0.3040334855403349,
      "grad_norm": 4.75,
      "learning_rate": 9.718153612843382e-06,
      "loss": 1.14100723,
      "memory(GiB)": 112.26,
      "step": 11985,
      "train_speed(iter/s)": 1.137021
    },
    {
      "acc": 0.72036929,
      "epoch": 0.3041603247082699,
      "grad_norm": 3.21875,
      "learning_rate": 9.717806414551186e-06,
      "loss": 1.16119099,
      "memory(GiB)": 112.26,
      "step": 11990,
      "train_speed(iter/s)": 1.136979
    },
    {
      "acc": 0.73234482,
      "epoch": 0.30428716387620497,
      "grad_norm": 4.75,
      "learning_rate": 9.717459008748798e-06,
      "loss": 1.13000031,
      "memory(GiB)": 112.26,
      "step": 11995,
      "train_speed(iter/s)": 1.137043
    },
    {
      "acc": 0.73182373,
      "epoch": 0.30441400304414,
      "grad_norm": 4.1875,
      "learning_rate": 9.717111395451501e-06,
      "loss": 1.09453678,
      "memory(GiB)": 112.26,
      "step": 12000,
      "train_speed(iter/s)": 1.137129
    },
    {
      "epoch": 0.30441400304414,
      "eval_acc": 0.7173156077910524,
      "eval_loss": 1.0887031555175781,
      "eval_runtime": 70.8161,
      "eval_samples_per_second": 89.951,
      "eval_steps_per_second": 22.495,
      "step": 12000
    },
    {
      "acc": 0.72615027,
      "epoch": 0.3045408422120751,
      "grad_norm": 3.5625,
      "learning_rate": 9.716763574674586e-06,
      "loss": 1.17159243,
      "memory(GiB)": 112.26,
      "step": 12005,
      "train_speed(iter/s)": 1.124928
    },
    {
      "acc": 0.74389143,
      "epoch": 0.30466768138001016,
      "grad_norm": 3.359375,
      "learning_rate": 9.71641554643335e-06,
      "loss": 1.03904705,
      "memory(GiB)": 112.26,
      "step": 12010,
      "train_speed(iter/s)": 1.124957
    },
    {
      "acc": 0.73380971,
      "epoch": 0.3047945205479452,
      "grad_norm": 3.46875,
      "learning_rate": 9.7160673107431e-06,
      "loss": 1.07161312,
      "memory(GiB)": 112.26,
      "step": 12015,
      "train_speed(iter/s)": 1.125028
    },
    {
      "acc": 0.70741463,
      "epoch": 0.30492135971588025,
      "grad_norm": 4.5625,
      "learning_rate": 9.715718867619155e-06,
      "loss": 1.19253387,
      "memory(GiB)": 112.26,
      "step": 12020,
      "train_speed(iter/s)": 1.125015
    },
    {
      "acc": 0.73236151,
      "epoch": 0.30504819888381535,
      "grad_norm": 3.28125,
      "learning_rate": 9.715370217076838e-06,
      "loss": 1.08540773,
      "memory(GiB)": 112.26,
      "step": 12025,
      "train_speed(iter/s)": 1.125047
    },
    {
      "acc": 0.71795158,
      "epoch": 0.3051750380517504,
      "grad_norm": 3.671875,
      "learning_rate": 9.715021359131489e-06,
      "loss": 1.1412035,
      "memory(GiB)": 112.26,
      "step": 12030,
      "train_speed(iter/s)": 1.12511
    },
    {
      "acc": 0.72628593,
      "epoch": 0.30530187721968544,
      "grad_norm": 5.125,
      "learning_rate": 9.714672293798449e-06,
      "loss": 1.15130081,
      "memory(GiB)": 112.26,
      "step": 12035,
      "train_speed(iter/s)": 1.125174
    },
    {
      "acc": 0.71947403,
      "epoch": 0.3054287163876205,
      "grad_norm": 3.8125,
      "learning_rate": 9.71432302109307e-06,
      "loss": 1.15897093,
      "memory(GiB)": 112.26,
      "step": 12040,
      "train_speed(iter/s)": 1.125218
    },
    {
      "acc": 0.71750565,
      "epoch": 0.3055555555555556,
      "grad_norm": 3.953125,
      "learning_rate": 9.713973541030716e-06,
      "loss": 1.09895248,
      "memory(GiB)": 112.26,
      "step": 12045,
      "train_speed(iter/s)": 1.125179
    },
    {
      "acc": 0.73223128,
      "epoch": 0.3056823947234906,
      "grad_norm": 3.859375,
      "learning_rate": 9.713623853626763e-06,
      "loss": 1.05843906,
      "memory(GiB)": 112.26,
      "step": 12050,
      "train_speed(iter/s)": 1.125266
    },
    {
      "acc": 0.73449841,
      "epoch": 0.30580923389142567,
      "grad_norm": 3.640625,
      "learning_rate": 9.713273958896586e-06,
      "loss": 1.10621033,
      "memory(GiB)": 112.26,
      "step": 12055,
      "train_speed(iter/s)": 1.125329
    },
    {
      "acc": 0.73322973,
      "epoch": 0.3059360730593607,
      "grad_norm": 3.109375,
      "learning_rate": 9.712923856855578e-06,
      "loss": 1.07160749,
      "memory(GiB)": 112.26,
      "step": 12060,
      "train_speed(iter/s)": 1.125404
    },
    {
      "acc": 0.72112608,
      "epoch": 0.3060629122272958,
      "grad_norm": 4.21875,
      "learning_rate": 9.712573547519134e-06,
      "loss": 1.11728191,
      "memory(GiB)": 112.26,
      "step": 12065,
      "train_speed(iter/s)": 1.125474
    },
    {
      "acc": 0.71589804,
      "epoch": 0.30618975139523086,
      "grad_norm": 4.9375,
      "learning_rate": 9.712223030902668e-06,
      "loss": 1.18210583,
      "memory(GiB)": 112.26,
      "step": 12070,
      "train_speed(iter/s)": 1.125543
    },
    {
      "acc": 0.73504562,
      "epoch": 0.3063165905631659,
      "grad_norm": 4.1875,
      "learning_rate": 9.711872307021594e-06,
      "loss": 1.10210028,
      "memory(GiB)": 112.26,
      "step": 12075,
      "train_speed(iter/s)": 1.125595
    },
    {
      "acc": 0.72661171,
      "epoch": 0.30644342973110095,
      "grad_norm": 4.375,
      "learning_rate": 9.711521375891339e-06,
      "loss": 1.1633852,
      "memory(GiB)": 112.26,
      "step": 12080,
      "train_speed(iter/s)": 1.125663
    },
    {
      "acc": 0.72855906,
      "epoch": 0.30657026889903605,
      "grad_norm": 4.03125,
      "learning_rate": 9.71117023752734e-06,
      "loss": 1.13936014,
      "memory(GiB)": 112.26,
      "step": 12085,
      "train_speed(iter/s)": 1.125743
    },
    {
      "acc": 0.72748041,
      "epoch": 0.3066971080669711,
      "grad_norm": 3.71875,
      "learning_rate": 9.710818891945037e-06,
      "loss": 1.09295864,
      "memory(GiB)": 112.26,
      "step": 12090,
      "train_speed(iter/s)": 1.125742
    },
    {
      "acc": 0.73320265,
      "epoch": 0.30682394723490614,
      "grad_norm": 3.65625,
      "learning_rate": 9.71046733915989e-06,
      "loss": 1.09000072,
      "memory(GiB)": 112.26,
      "step": 12095,
      "train_speed(iter/s)": 1.125762
    },
    {
      "acc": 0.73149223,
      "epoch": 0.3069507864028412,
      "grad_norm": 3.484375,
      "learning_rate": 9.710115579187356e-06,
      "loss": 1.13514347,
      "memory(GiB)": 112.26,
      "step": 12100,
      "train_speed(iter/s)": 1.125844
    },
    {
      "acc": 0.72290998,
      "epoch": 0.3070776255707763,
      "grad_norm": 4.125,
      "learning_rate": 9.709763612042911e-06,
      "loss": 1.15151272,
      "memory(GiB)": 112.26,
      "step": 12105,
      "train_speed(iter/s)": 1.12593
    },
    {
      "acc": 0.72800617,
      "epoch": 0.3072044647387113,
      "grad_norm": 3.4375,
      "learning_rate": 9.709411437742035e-06,
      "loss": 1.03931646,
      "memory(GiB)": 112.26,
      "step": 12110,
      "train_speed(iter/s)": 1.125939
    },
    {
      "acc": 0.74104795,
      "epoch": 0.30733130390664637,
      "grad_norm": 4.40625,
      "learning_rate": 9.709059056300218e-06,
      "loss": 1.05899191,
      "memory(GiB)": 112.26,
      "step": 12115,
      "train_speed(iter/s)": 1.125909
    },
    {
      "acc": 0.72875795,
      "epoch": 0.3074581430745814,
      "grad_norm": 3.71875,
      "learning_rate": 9.708706467732958e-06,
      "loss": 1.10790768,
      "memory(GiB)": 112.26,
      "step": 12120,
      "train_speed(iter/s)": 1.125959
    },
    {
      "acc": 0.72038069,
      "epoch": 0.3075849822425165,
      "grad_norm": 3.71875,
      "learning_rate": 9.708353672055766e-06,
      "loss": 1.18289261,
      "memory(GiB)": 112.26,
      "step": 12125,
      "train_speed(iter/s)": 1.126017
    },
    {
      "acc": 0.72739382,
      "epoch": 0.30771182141045156,
      "grad_norm": 4.09375,
      "learning_rate": 9.708000669284158e-06,
      "loss": 1.17140865,
      "memory(GiB)": 112.26,
      "step": 12130,
      "train_speed(iter/s)": 1.126101
    },
    {
      "acc": 0.73344173,
      "epoch": 0.3078386605783866,
      "grad_norm": 4.0,
      "learning_rate": 9.707647459433661e-06,
      "loss": 1.11540565,
      "memory(GiB)": 112.26,
      "step": 12135,
      "train_speed(iter/s)": 1.1262
    },
    {
      "acc": 0.72586985,
      "epoch": 0.30796549974632165,
      "grad_norm": 4.3125,
      "learning_rate": 9.707294042519808e-06,
      "loss": 1.10960455,
      "memory(GiB)": 112.26,
      "step": 12140,
      "train_speed(iter/s)": 1.126268
    },
    {
      "acc": 0.72707071,
      "epoch": 0.30809233891425675,
      "grad_norm": 3.59375,
      "learning_rate": 9.70694041855815e-06,
      "loss": 1.18928452,
      "memory(GiB)": 112.26,
      "step": 12145,
      "train_speed(iter/s)": 1.126301
    },
    {
      "acc": 0.72174397,
      "epoch": 0.3082191780821918,
      "grad_norm": 3.1875,
      "learning_rate": 9.706586587564236e-06,
      "loss": 1.17862406,
      "memory(GiB)": 112.26,
      "step": 12150,
      "train_speed(iter/s)": 1.126347
    },
    {
      "acc": 0.72032537,
      "epoch": 0.30834601725012684,
      "grad_norm": 4.21875,
      "learning_rate": 9.70623254955363e-06,
      "loss": 1.12251348,
      "memory(GiB)": 112.26,
      "step": 12155,
      "train_speed(iter/s)": 1.12639
    },
    {
      "acc": 0.74614143,
      "epoch": 0.3084728564180619,
      "grad_norm": 5.6875,
      "learning_rate": 9.705878304541905e-06,
      "loss": 1.05524158,
      "memory(GiB)": 112.26,
      "step": 12160,
      "train_speed(iter/s)": 1.12648
    },
    {
      "acc": 0.72941885,
      "epoch": 0.308599695585997,
      "grad_norm": 3.453125,
      "learning_rate": 9.705523852544643e-06,
      "loss": 1.10210972,
      "memory(GiB)": 112.26,
      "step": 12165,
      "train_speed(iter/s)": 1.126531
    },
    {
      "acc": 0.72082963,
      "epoch": 0.308726534753932,
      "grad_norm": 4.59375,
      "learning_rate": 9.705169193577434e-06,
      "loss": 1.19509201,
      "memory(GiB)": 112.26,
      "step": 12170,
      "train_speed(iter/s)": 1.126548
    },
    {
      "acc": 0.74766531,
      "epoch": 0.30885337392186707,
      "grad_norm": 4.125,
      "learning_rate": 9.704814327655874e-06,
      "loss": 1.08740177,
      "memory(GiB)": 112.26,
      "step": 12175,
      "train_speed(iter/s)": 1.126611
    },
    {
      "acc": 0.74089227,
      "epoch": 0.3089802130898021,
      "grad_norm": 3.875,
      "learning_rate": 9.704459254795575e-06,
      "loss": 1.0811327,
      "memory(GiB)": 112.26,
      "step": 12180,
      "train_speed(iter/s)": 1.126665
    },
    {
      "acc": 0.72109265,
      "epoch": 0.3091070522577372,
      "grad_norm": 3.3125,
      "learning_rate": 9.704103975012155e-06,
      "loss": 1.11871119,
      "memory(GiB)": 112.26,
      "step": 12185,
      "train_speed(iter/s)": 1.126736
    },
    {
      "acc": 0.72576952,
      "epoch": 0.30923389142567226,
      "grad_norm": 3.71875,
      "learning_rate": 9.703748488321238e-06,
      "loss": 1.07752323,
      "memory(GiB)": 112.26,
      "step": 12190,
      "train_speed(iter/s)": 1.126802
    },
    {
      "acc": 0.74548397,
      "epoch": 0.3093607305936073,
      "grad_norm": 3.859375,
      "learning_rate": 9.703392794738464e-06,
      "loss": 1.07423725,
      "memory(GiB)": 112.26,
      "step": 12195,
      "train_speed(iter/s)": 1.126847
    },
    {
      "acc": 0.72739978,
      "epoch": 0.30948756976154235,
      "grad_norm": 4.09375,
      "learning_rate": 9.703036894279476e-06,
      "loss": 1.14804029,
      "memory(GiB)": 112.26,
      "step": 12200,
      "train_speed(iter/s)": 1.126928
    },
    {
      "acc": 0.75190725,
      "epoch": 0.30961440892947745,
      "grad_norm": 4.09375,
      "learning_rate": 9.702680786959925e-06,
      "loss": 1.04862003,
      "memory(GiB)": 112.26,
      "step": 12205,
      "train_speed(iter/s)": 1.12698
    },
    {
      "acc": 0.73003039,
      "epoch": 0.3097412480974125,
      "grad_norm": 3.453125,
      "learning_rate": 9.702324472795481e-06,
      "loss": 1.11387749,
      "memory(GiB)": 112.26,
      "step": 12210,
      "train_speed(iter/s)": 1.127024
    },
    {
      "acc": 0.72382174,
      "epoch": 0.30986808726534754,
      "grad_norm": 3.90625,
      "learning_rate": 9.70196795180181e-06,
      "loss": 1.12587624,
      "memory(GiB)": 112.26,
      "step": 12215,
      "train_speed(iter/s)": 1.12709
    },
    {
      "acc": 0.73033128,
      "epoch": 0.3099949264332826,
      "grad_norm": 4.5,
      "learning_rate": 9.701611223994596e-06,
      "loss": 1.14257889,
      "memory(GiB)": 112.26,
      "step": 12220,
      "train_speed(iter/s)": 1.127163
    },
    {
      "acc": 0.72610054,
      "epoch": 0.3101217656012177,
      "grad_norm": 3.390625,
      "learning_rate": 9.701254289389529e-06,
      "loss": 1.09738903,
      "memory(GiB)": 112.26,
      "step": 12225,
      "train_speed(iter/s)": 1.127232
    },
    {
      "acc": 0.73515015,
      "epoch": 0.3102486047691527,
      "grad_norm": 4.34375,
      "learning_rate": 9.700897148002308e-06,
      "loss": 1.12760115,
      "memory(GiB)": 112.26,
      "step": 12230,
      "train_speed(iter/s)": 1.127269
    },
    {
      "acc": 0.72809339,
      "epoch": 0.31037544393708777,
      "grad_norm": 3.484375,
      "learning_rate": 9.700539799848645e-06,
      "loss": 1.16525669,
      "memory(GiB)": 112.26,
      "step": 12235,
      "train_speed(iter/s)": 1.12734
    },
    {
      "acc": 0.72558117,
      "epoch": 0.3105022831050228,
      "grad_norm": 3.5625,
      "learning_rate": 9.700182244944252e-06,
      "loss": 1.1151619,
      "memory(GiB)": 112.26,
      "step": 12240,
      "train_speed(iter/s)": 1.12739
    },
    {
      "acc": 0.71713786,
      "epoch": 0.3106291222729579,
      "grad_norm": 3.671875,
      "learning_rate": 9.69982448330486e-06,
      "loss": 1.16539545,
      "memory(GiB)": 112.26,
      "step": 12245,
      "train_speed(iter/s)": 1.127479
    },
    {
      "acc": 0.71529007,
      "epoch": 0.31075596144089296,
      "grad_norm": 4.0625,
      "learning_rate": 9.699466514946206e-06,
      "loss": 1.21358986,
      "memory(GiB)": 112.26,
      "step": 12250,
      "train_speed(iter/s)": 1.127516
    },
    {
      "acc": 0.74595222,
      "epoch": 0.310882800608828,
      "grad_norm": 4.03125,
      "learning_rate": 9.699108339884032e-06,
      "loss": 1.06341677,
      "memory(GiB)": 112.26,
      "step": 12255,
      "train_speed(iter/s)": 1.127573
    },
    {
      "acc": 0.71457682,
      "epoch": 0.31100963977676305,
      "grad_norm": 3.46875,
      "learning_rate": 9.698749958134093e-06,
      "loss": 1.18046198,
      "memory(GiB)": 112.26,
      "step": 12260,
      "train_speed(iter/s)": 1.127642
    },
    {
      "acc": 0.72328472,
      "epoch": 0.31113647894469815,
      "grad_norm": 3.859375,
      "learning_rate": 9.698391369712152e-06,
      "loss": 1.18674707,
      "memory(GiB)": 112.26,
      "step": 12265,
      "train_speed(iter/s)": 1.127716
    },
    {
      "acc": 0.72862806,
      "epoch": 0.3112633181126332,
      "grad_norm": 3.578125,
      "learning_rate": 9.698032574633982e-06,
      "loss": 1.12150574,
      "memory(GiB)": 112.26,
      "step": 12270,
      "train_speed(iter/s)": 1.127804
    },
    {
      "acc": 0.73023195,
      "epoch": 0.31139015728056824,
      "grad_norm": 3.453125,
      "learning_rate": 9.697673572915364e-06,
      "loss": 1.10139427,
      "memory(GiB)": 112.26,
      "step": 12275,
      "train_speed(iter/s)": 1.127905
    },
    {
      "acc": 0.72107568,
      "epoch": 0.3115169964485033,
      "grad_norm": 3.75,
      "learning_rate": 9.697314364572087e-06,
      "loss": 1.14769135,
      "memory(GiB)": 112.26,
      "step": 12280,
      "train_speed(iter/s)": 1.127972
    },
    {
      "acc": 0.72785087,
      "epoch": 0.3116438356164384,
      "grad_norm": 3.921875,
      "learning_rate": 9.696954949619955e-06,
      "loss": 1.15925579,
      "memory(GiB)": 112.26,
      "step": 12285,
      "train_speed(iter/s)": 1.128038
    },
    {
      "acc": 0.73141189,
      "epoch": 0.3117706747843734,
      "grad_norm": 3.421875,
      "learning_rate": 9.696595328074774e-06,
      "loss": 1.09866905,
      "memory(GiB)": 112.26,
      "step": 12290,
      "train_speed(iter/s)": 1.128109
    },
    {
      "acc": 0.73968024,
      "epoch": 0.31189751395230847,
      "grad_norm": 4.0,
      "learning_rate": 9.69623549995236e-06,
      "loss": 1.13462334,
      "memory(GiB)": 112.26,
      "step": 12295,
      "train_speed(iter/s)": 1.128207
    },
    {
      "acc": 0.71725144,
      "epoch": 0.3120243531202435,
      "grad_norm": 3.828125,
      "learning_rate": 9.695875465268543e-06,
      "loss": 1.17229414,
      "memory(GiB)": 112.26,
      "step": 12300,
      "train_speed(iter/s)": 1.128315
    },
    {
      "acc": 0.73996487,
      "epoch": 0.3121511922881786,
      "grad_norm": 4.625,
      "learning_rate": 9.695515224039156e-06,
      "loss": 1.11595097,
      "memory(GiB)": 112.26,
      "step": 12305,
      "train_speed(iter/s)": 1.128377
    },
    {
      "acc": 0.73148417,
      "epoch": 0.31227803145611366,
      "grad_norm": 3.9375,
      "learning_rate": 9.695154776280047e-06,
      "loss": 1.0868763,
      "memory(GiB)": 112.26,
      "step": 12310,
      "train_speed(iter/s)": 1.128457
    },
    {
      "acc": 0.72031918,
      "epoch": 0.3124048706240487,
      "grad_norm": 4.0,
      "learning_rate": 9.694794122007067e-06,
      "loss": 1.14912634,
      "memory(GiB)": 112.26,
      "step": 12315,
      "train_speed(iter/s)": 1.128498
    },
    {
      "acc": 0.72930002,
      "epoch": 0.31253170979198375,
      "grad_norm": 3.59375,
      "learning_rate": 9.694433261236083e-06,
      "loss": 1.11008091,
      "memory(GiB)": 112.26,
      "step": 12320,
      "train_speed(iter/s)": 1.128592
    },
    {
      "acc": 0.7308465,
      "epoch": 0.31265854895991885,
      "grad_norm": 3.71875,
      "learning_rate": 9.694072193982962e-06,
      "loss": 1.15511398,
      "memory(GiB)": 112.26,
      "step": 12325,
      "train_speed(iter/s)": 1.12864
    },
    {
      "acc": 0.73031969,
      "epoch": 0.3127853881278539,
      "grad_norm": 3.765625,
      "learning_rate": 9.69371092026359e-06,
      "loss": 1.13899355,
      "memory(GiB)": 112.26,
      "step": 12330,
      "train_speed(iter/s)": 1.128717
    },
    {
      "acc": 0.75243726,
      "epoch": 0.31291222729578894,
      "grad_norm": 3.609375,
      "learning_rate": 9.693349440093855e-06,
      "loss": 1.06769848,
      "memory(GiB)": 112.26,
      "step": 12335,
      "train_speed(iter/s)": 1.12873
    },
    {
      "acc": 0.73961077,
      "epoch": 0.313039066463724,
      "grad_norm": 3.265625,
      "learning_rate": 9.69298775348966e-06,
      "loss": 1.0523262,
      "memory(GiB)": 112.26,
      "step": 12340,
      "train_speed(iter/s)": 1.128779
    },
    {
      "acc": 0.73561983,
      "epoch": 0.3131659056316591,
      "grad_norm": 3.890625,
      "learning_rate": 9.69262586046691e-06,
      "loss": 1.13198118,
      "memory(GiB)": 112.26,
      "step": 12345,
      "train_speed(iter/s)": 1.12883
    },
    {
      "acc": 0.73628211,
      "epoch": 0.3132927447995941,
      "grad_norm": 3.875,
      "learning_rate": 9.692263761041521e-06,
      "loss": 1.12065449,
      "memory(GiB)": 112.26,
      "step": 12350,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.72886353,
      "epoch": 0.31341958396752917,
      "grad_norm": 2.921875,
      "learning_rate": 9.691901455229425e-06,
      "loss": 1.09055157,
      "memory(GiB)": 112.26,
      "step": 12355,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.72681427,
      "epoch": 0.3135464231354642,
      "grad_norm": 3.453125,
      "learning_rate": 9.691538943046552e-06,
      "loss": 1.13546848,
      "memory(GiB)": 112.26,
      "step": 12360,
      "train_speed(iter/s)": 1.129072
    },
    {
      "acc": 0.72685943,
      "epoch": 0.3136732623033993,
      "grad_norm": 3.265625,
      "learning_rate": 9.691176224508853e-06,
      "loss": 1.15161657,
      "memory(GiB)": 112.26,
      "step": 12365,
      "train_speed(iter/s)": 1.129132
    },
    {
      "acc": 0.72902269,
      "epoch": 0.31380010147133436,
      "grad_norm": 3.734375,
      "learning_rate": 9.690813299632278e-06,
      "loss": 1.0816968,
      "memory(GiB)": 112.26,
      "step": 12370,
      "train_speed(iter/s)": 1.129221
    },
    {
      "acc": 0.73149781,
      "epoch": 0.3139269406392694,
      "grad_norm": 3.390625,
      "learning_rate": 9.690450168432793e-06,
      "loss": 1.12664413,
      "memory(GiB)": 112.26,
      "step": 12375,
      "train_speed(iter/s)": 1.129301
    },
    {
      "acc": 0.71489234,
      "epoch": 0.31405377980720445,
      "grad_norm": 3.28125,
      "learning_rate": 9.690086830926366e-06,
      "loss": 1.12033997,
      "memory(GiB)": 112.26,
      "step": 12380,
      "train_speed(iter/s)": 1.129391
    },
    {
      "acc": 0.70843515,
      "epoch": 0.31418061897513955,
      "grad_norm": 3.375,
      "learning_rate": 9.689723287128981e-06,
      "loss": 1.15739508,
      "memory(GiB)": 112.26,
      "step": 12385,
      "train_speed(iter/s)": 1.129453
    },
    {
      "acc": 0.7293448,
      "epoch": 0.3143074581430746,
      "grad_norm": 3.90625,
      "learning_rate": 9.689359537056628e-06,
      "loss": 1.10939922,
      "memory(GiB)": 112.26,
      "step": 12390,
      "train_speed(iter/s)": 1.129544
    },
    {
      "acc": 0.73451986,
      "epoch": 0.31443429731100964,
      "grad_norm": 3.5625,
      "learning_rate": 9.688995580725304e-06,
      "loss": 1.07575684,
      "memory(GiB)": 112.26,
      "step": 12395,
      "train_speed(iter/s)": 1.129634
    },
    {
      "acc": 0.73699908,
      "epoch": 0.3145611364789447,
      "grad_norm": 3.75,
      "learning_rate": 9.688631418151022e-06,
      "loss": 1.05672255,
      "memory(GiB)": 112.26,
      "step": 12400,
      "train_speed(iter/s)": 1.129701
    },
    {
      "acc": 0.73357973,
      "epoch": 0.3146879756468798,
      "grad_norm": 4.09375,
      "learning_rate": 9.688267049349796e-06,
      "loss": 1.0873085,
      "memory(GiB)": 112.26,
      "step": 12405,
      "train_speed(iter/s)": 1.12978
    },
    {
      "acc": 0.72746406,
      "epoch": 0.3148148148148148,
      "grad_norm": 3.5,
      "learning_rate": 9.687902474337654e-06,
      "loss": 1.1926466,
      "memory(GiB)": 112.26,
      "step": 12410,
      "train_speed(iter/s)": 1.129864
    },
    {
      "acc": 0.72821021,
      "epoch": 0.31494165398274987,
      "grad_norm": 3.390625,
      "learning_rate": 9.687537693130631e-06,
      "loss": 1.09546652,
      "memory(GiB)": 112.26,
      "step": 12415,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.72183681,
      "epoch": 0.3150684931506849,
      "grad_norm": 3.8125,
      "learning_rate": 9.687172705744773e-06,
      "loss": 1.15608826,
      "memory(GiB)": 112.26,
      "step": 12420,
      "train_speed(iter/s)": 1.129982
    },
    {
      "acc": 0.71290627,
      "epoch": 0.31519533231862,
      "grad_norm": 3.78125,
      "learning_rate": 9.686807512196132e-06,
      "loss": 1.17334394,
      "memory(GiB)": 112.26,
      "step": 12425,
      "train_speed(iter/s)": 1.130013
    },
    {
      "acc": 0.73212342,
      "epoch": 0.31532217148655506,
      "grad_norm": 4.0625,
      "learning_rate": 9.68644211250077e-06,
      "loss": 1.10003414,
      "memory(GiB)": 112.26,
      "step": 12430,
      "train_speed(iter/s)": 1.130095
    },
    {
      "acc": 0.71260786,
      "epoch": 0.3154490106544901,
      "grad_norm": 4.28125,
      "learning_rate": 9.686076506674761e-06,
      "loss": 1.15293074,
      "memory(GiB)": 112.26,
      "step": 12435,
      "train_speed(iter/s)": 1.130178
    },
    {
      "acc": 0.72352366,
      "epoch": 0.31557584982242515,
      "grad_norm": 3.375,
      "learning_rate": 9.685710694734187e-06,
      "loss": 1.11553555,
      "memory(GiB)": 112.26,
      "step": 12440,
      "train_speed(iter/s)": 1.130216
    },
    {
      "acc": 0.73038759,
      "epoch": 0.31570268899036025,
      "grad_norm": 3.84375,
      "learning_rate": 9.685344676695135e-06,
      "loss": 1.10966644,
      "memory(GiB)": 112.26,
      "step": 12445,
      "train_speed(iter/s)": 1.130299
    },
    {
      "acc": 0.72537899,
      "epoch": 0.3158295281582953,
      "grad_norm": 5.25,
      "learning_rate": 9.684978452573706e-06,
      "loss": 1.1294632,
      "memory(GiB)": 112.26,
      "step": 12450,
      "train_speed(iter/s)": 1.130357
    },
    {
      "acc": 0.73355732,
      "epoch": 0.31595636732623034,
      "grad_norm": 3.25,
      "learning_rate": 9.684612022386008e-06,
      "loss": 1.06493893,
      "memory(GiB)": 112.26,
      "step": 12455,
      "train_speed(iter/s)": 1.130329
    },
    {
      "acc": 0.71842632,
      "epoch": 0.3160832064941654,
      "grad_norm": 3.21875,
      "learning_rate": 9.68424538614816e-06,
      "loss": 1.14727468,
      "memory(GiB)": 112.26,
      "step": 12460,
      "train_speed(iter/s)": 1.130413
    },
    {
      "acc": 0.72749057,
      "epoch": 0.3162100456621005,
      "grad_norm": 3.859375,
      "learning_rate": 9.683878543876281e-06,
      "loss": 1.1368474,
      "memory(GiB)": 112.26,
      "step": 12465,
      "train_speed(iter/s)": 1.130502
    },
    {
      "acc": 0.73258324,
      "epoch": 0.3163368848300355,
      "grad_norm": 3.921875,
      "learning_rate": 9.683511495586516e-06,
      "loss": 1.10374985,
      "memory(GiB)": 112.26,
      "step": 12470,
      "train_speed(iter/s)": 1.130602
    },
    {
      "acc": 0.73289771,
      "epoch": 0.31646372399797057,
      "grad_norm": 3.6875,
      "learning_rate": 9.683144241295003e-06,
      "loss": 1.06017132,
      "memory(GiB)": 112.26,
      "step": 12475,
      "train_speed(iter/s)": 1.130583
    },
    {
      "acc": 0.72869711,
      "epoch": 0.3165905631659056,
      "grad_norm": 4.84375,
      "learning_rate": 9.682776781017899e-06,
      "loss": 1.12493477,
      "memory(GiB)": 112.26,
      "step": 12480,
      "train_speed(iter/s)": 1.130662
    },
    {
      "acc": 0.71789961,
      "epoch": 0.3167174023338407,
      "grad_norm": 4.25,
      "learning_rate": 9.682409114771364e-06,
      "loss": 1.13377047,
      "memory(GiB)": 112.26,
      "step": 12485,
      "train_speed(iter/s)": 1.130676
    },
    {
      "acc": 0.71099472,
      "epoch": 0.31684424150177576,
      "grad_norm": 3.578125,
      "learning_rate": 9.682041242571571e-06,
      "loss": 1.10532074,
      "memory(GiB)": 112.26,
      "step": 12490,
      "train_speed(iter/s)": 1.130745
    },
    {
      "acc": 0.72944026,
      "epoch": 0.3169710806697108,
      "grad_norm": 4.3125,
      "learning_rate": 9.681673164434701e-06,
      "loss": 1.12967882,
      "memory(GiB)": 112.26,
      "step": 12495,
      "train_speed(iter/s)": 1.130843
    },
    {
      "acc": 0.73748603,
      "epoch": 0.31709791983764585,
      "grad_norm": 3.140625,
      "learning_rate": 9.681304880376942e-06,
      "loss": 1.08807983,
      "memory(GiB)": 112.26,
      "step": 12500,
      "train_speed(iter/s)": 1.130919
    },
    {
      "acc": 0.73023872,
      "epoch": 0.31722475900558095,
      "grad_norm": 4.0,
      "learning_rate": 9.680936390414495e-06,
      "loss": 1.21400318,
      "memory(GiB)": 112.26,
      "step": 12505,
      "train_speed(iter/s)": 1.13101
    },
    {
      "acc": 0.72756209,
      "epoch": 0.317351598173516,
      "grad_norm": 4.125,
      "learning_rate": 9.680567694563566e-06,
      "loss": 1.12855034,
      "memory(GiB)": 112.26,
      "step": 12510,
      "train_speed(iter/s)": 1.131045
    },
    {
      "acc": 0.73145089,
      "epoch": 0.31747843734145104,
      "grad_norm": 3.8125,
      "learning_rate": 9.680198792840371e-06,
      "loss": 1.12891197,
      "memory(GiB)": 112.26,
      "step": 12515,
      "train_speed(iter/s)": 1.131054
    },
    {
      "acc": 0.71860933,
      "epoch": 0.3176052765093861,
      "grad_norm": 3.609375,
      "learning_rate": 9.67982968526114e-06,
      "loss": 1.11775169,
      "memory(GiB)": 112.26,
      "step": 12520,
      "train_speed(iter/s)": 1.131114
    },
    {
      "acc": 0.73874707,
      "epoch": 0.3177321156773212,
      "grad_norm": 3.546875,
      "learning_rate": 9.679460371842104e-06,
      "loss": 1.07945166,
      "memory(GiB)": 112.26,
      "step": 12525,
      "train_speed(iter/s)": 1.131138
    },
    {
      "acc": 0.72597504,
      "epoch": 0.3178589548452562,
      "grad_norm": 3.625,
      "learning_rate": 9.679090852599508e-06,
      "loss": 1.13543911,
      "memory(GiB)": 112.26,
      "step": 12530,
      "train_speed(iter/s)": 1.131193
    },
    {
      "acc": 0.72069931,
      "epoch": 0.31798579401319127,
      "grad_norm": 4.125,
      "learning_rate": 9.678721127549608e-06,
      "loss": 1.14434433,
      "memory(GiB)": 112.26,
      "step": 12535,
      "train_speed(iter/s)": 1.131261
    },
    {
      "acc": 0.71665792,
      "epoch": 0.3181126331811263,
      "grad_norm": 4.25,
      "learning_rate": 9.678351196708662e-06,
      "loss": 1.20813065,
      "memory(GiB)": 112.26,
      "step": 12540,
      "train_speed(iter/s)": 1.131329
    },
    {
      "acc": 0.72760515,
      "epoch": 0.3182394723490614,
      "grad_norm": 4.1875,
      "learning_rate": 9.677981060092943e-06,
      "loss": 1.15240383,
      "memory(GiB)": 112.26,
      "step": 12545,
      "train_speed(iter/s)": 1.131381
    },
    {
      "acc": 0.71596518,
      "epoch": 0.31836631151699646,
      "grad_norm": 3.015625,
      "learning_rate": 9.677610717718732e-06,
      "loss": 1.18433838,
      "memory(GiB)": 112.26,
      "step": 12550,
      "train_speed(iter/s)": 1.131432
    },
    {
      "acc": 0.70196581,
      "epoch": 0.3184931506849315,
      "grad_norm": 4.4375,
      "learning_rate": 9.677240169602317e-06,
      "loss": 1.19804001,
      "memory(GiB)": 112.26,
      "step": 12555,
      "train_speed(iter/s)": 1.131514
    },
    {
      "acc": 0.72929044,
      "epoch": 0.31861998985286655,
      "grad_norm": 4.875,
      "learning_rate": 9.676869415759999e-06,
      "loss": 1.16287346,
      "memory(GiB)": 112.26,
      "step": 12560,
      "train_speed(iter/s)": 1.131529
    },
    {
      "acc": 0.71898384,
      "epoch": 0.31874682902080165,
      "grad_norm": 3.671875,
      "learning_rate": 9.67649845620808e-06,
      "loss": 1.19721851,
      "memory(GiB)": 112.26,
      "step": 12565,
      "train_speed(iter/s)": 1.131613
    },
    {
      "acc": 0.72862043,
      "epoch": 0.3188736681887367,
      "grad_norm": 3.640625,
      "learning_rate": 9.676127290962883e-06,
      "loss": 1.14966469,
      "memory(GiB)": 112.26,
      "step": 12570,
      "train_speed(iter/s)": 1.131667
    },
    {
      "acc": 0.71562767,
      "epoch": 0.31900050735667174,
      "grad_norm": 4.03125,
      "learning_rate": 9.675755920040728e-06,
      "loss": 1.14279766,
      "memory(GiB)": 112.26,
      "step": 12575,
      "train_speed(iter/s)": 1.131704
    },
    {
      "acc": 0.73874989,
      "epoch": 0.3191273465246068,
      "grad_norm": 3.5,
      "learning_rate": 9.675384343457954e-06,
      "loss": 1.10331135,
      "memory(GiB)": 112.26,
      "step": 12580,
      "train_speed(iter/s)": 1.131689
    },
    {
      "acc": 0.7250145,
      "epoch": 0.3192541856925419,
      "grad_norm": 3.59375,
      "learning_rate": 9.675012561230901e-06,
      "loss": 1.16478252,
      "memory(GiB)": 112.26,
      "step": 12585,
      "train_speed(iter/s)": 1.131781
    },
    {
      "acc": 0.73259416,
      "epoch": 0.3193810248604769,
      "grad_norm": 4.0,
      "learning_rate": 9.674640573375924e-06,
      "loss": 1.15420723,
      "memory(GiB)": 112.26,
      "step": 12590,
      "train_speed(iter/s)": 1.131855
    },
    {
      "acc": 0.72771215,
      "epoch": 0.31950786402841197,
      "grad_norm": 4.78125,
      "learning_rate": 9.674268379909383e-06,
      "loss": 1.15744743,
      "memory(GiB)": 112.26,
      "step": 12595,
      "train_speed(iter/s)": 1.131887
    },
    {
      "acc": 0.73180847,
      "epoch": 0.319634703196347,
      "grad_norm": 4.65625,
      "learning_rate": 9.67389598084765e-06,
      "loss": 1.11326036,
      "memory(GiB)": 112.26,
      "step": 12600,
      "train_speed(iter/s)": 1.131883
    },
    {
      "acc": 0.73028917,
      "epoch": 0.3197615423642821,
      "grad_norm": 5.0625,
      "learning_rate": 9.673523376207103e-06,
      "loss": 1.07738552,
      "memory(GiB)": 112.26,
      "step": 12605,
      "train_speed(iter/s)": 1.131963
    },
    {
      "acc": 0.71874318,
      "epoch": 0.31988838153221716,
      "grad_norm": 4.65625,
      "learning_rate": 9.673150566004135e-06,
      "loss": 1.13601074,
      "memory(GiB)": 112.26,
      "step": 12610,
      "train_speed(iter/s)": 1.13205
    },
    {
      "acc": 0.71776066,
      "epoch": 0.3200152207001522,
      "grad_norm": 3.6875,
      "learning_rate": 9.672777550255137e-06,
      "loss": 1.18910055,
      "memory(GiB)": 112.26,
      "step": 12615,
      "train_speed(iter/s)": 1.132083
    },
    {
      "acc": 0.73537712,
      "epoch": 0.32014205986808725,
      "grad_norm": 3.59375,
      "learning_rate": 9.672404328976523e-06,
      "loss": 1.12800751,
      "memory(GiB)": 112.26,
      "step": 12620,
      "train_speed(iter/s)": 1.132124
    },
    {
      "acc": 0.73631268,
      "epoch": 0.32026889903602235,
      "grad_norm": 3.96875,
      "learning_rate": 9.672030902184706e-06,
      "loss": 1.09984627,
      "memory(GiB)": 112.26,
      "step": 12625,
      "train_speed(iter/s)": 1.132183
    },
    {
      "acc": 0.7251471,
      "epoch": 0.3203957382039574,
      "grad_norm": 3.484375,
      "learning_rate": 9.671657269896108e-06,
      "loss": 1.20538549,
      "memory(GiB)": 112.26,
      "step": 12630,
      "train_speed(iter/s)": 1.132218
    },
    {
      "acc": 0.73854032,
      "epoch": 0.32052257737189244,
      "grad_norm": 3.328125,
      "learning_rate": 9.671283432127169e-06,
      "loss": 1.08984642,
      "memory(GiB)": 112.26,
      "step": 12635,
      "train_speed(iter/s)": 1.132272
    },
    {
      "acc": 0.72724385,
      "epoch": 0.3206494165398275,
      "grad_norm": 3.5625,
      "learning_rate": 9.670909388894328e-06,
      "loss": 1.08428993,
      "memory(GiB)": 112.26,
      "step": 12640,
      "train_speed(iter/s)": 1.132356
    },
    {
      "acc": 0.72509823,
      "epoch": 0.3207762557077626,
      "grad_norm": 3.234375,
      "learning_rate": 9.670535140214037e-06,
      "loss": 1.14404659,
      "memory(GiB)": 112.26,
      "step": 12645,
      "train_speed(iter/s)": 1.132378
    },
    {
      "acc": 0.73347826,
      "epoch": 0.3209030948756976,
      "grad_norm": 3.875,
      "learning_rate": 9.670160686102759e-06,
      "loss": 1.12437572,
      "memory(GiB)": 112.26,
      "step": 12650,
      "train_speed(iter/s)": 1.132445
    },
    {
      "acc": 0.72016544,
      "epoch": 0.32102993404363267,
      "grad_norm": 3.75,
      "learning_rate": 9.669786026576962e-06,
      "loss": 1.15488205,
      "memory(GiB)": 112.26,
      "step": 12655,
      "train_speed(iter/s)": 1.132449
    },
    {
      "acc": 0.72866721,
      "epoch": 0.3211567732115677,
      "grad_norm": 3.765625,
      "learning_rate": 9.669411161653127e-06,
      "loss": 1.09751883,
      "memory(GiB)": 112.26,
      "step": 12660,
      "train_speed(iter/s)": 1.132511
    },
    {
      "acc": 0.7249054,
      "epoch": 0.3212836123795028,
      "grad_norm": 3.515625,
      "learning_rate": 9.669036091347742e-06,
      "loss": 1.09809875,
      "memory(GiB)": 112.26,
      "step": 12665,
      "train_speed(iter/s)": 1.13258
    },
    {
      "acc": 0.7367784,
      "epoch": 0.32141045154743786,
      "grad_norm": 4.1875,
      "learning_rate": 9.668660815677304e-06,
      "loss": 1.07981701,
      "memory(GiB)": 112.26,
      "step": 12670,
      "train_speed(iter/s)": 1.132623
    },
    {
      "acc": 0.74918909,
      "epoch": 0.3215372907153729,
      "grad_norm": 4.65625,
      "learning_rate": 9.668285334658319e-06,
      "loss": 1.0885437,
      "memory(GiB)": 112.26,
      "step": 12675,
      "train_speed(iter/s)": 1.132641
    },
    {
      "acc": 0.71918755,
      "epoch": 0.32166412988330795,
      "grad_norm": 3.71875,
      "learning_rate": 9.667909648307302e-06,
      "loss": 1.1614399,
      "memory(GiB)": 112.26,
      "step": 12680,
      "train_speed(iter/s)": 1.132714
    },
    {
      "acc": 0.74520884,
      "epoch": 0.32179096905124305,
      "grad_norm": 4.5625,
      "learning_rate": 9.66753375664078e-06,
      "loss": 1.04724884,
      "memory(GiB)": 112.26,
      "step": 12685,
      "train_speed(iter/s)": 1.13276
    },
    {
      "acc": 0.72467418,
      "epoch": 0.3219178082191781,
      "grad_norm": 4.21875,
      "learning_rate": 9.667157659675284e-06,
      "loss": 1.1431139,
      "memory(GiB)": 112.26,
      "step": 12690,
      "train_speed(iter/s)": 1.132823
    },
    {
      "acc": 0.72589407,
      "epoch": 0.32204464738711314,
      "grad_norm": 3.921875,
      "learning_rate": 9.666781357427355e-06,
      "loss": 1.13660984,
      "memory(GiB)": 112.26,
      "step": 12695,
      "train_speed(iter/s)": 1.132891
    },
    {
      "acc": 0.72882504,
      "epoch": 0.3221714865550482,
      "grad_norm": 3.734375,
      "learning_rate": 9.666404849913546e-06,
      "loss": 1.10427656,
      "memory(GiB)": 112.26,
      "step": 12700,
      "train_speed(iter/s)": 1.132936
    },
    {
      "acc": 0.73670588,
      "epoch": 0.3222983257229833,
      "grad_norm": 4.5,
      "learning_rate": 9.66602813715042e-06,
      "loss": 1.08197594,
      "memory(GiB)": 112.26,
      "step": 12705,
      "train_speed(iter/s)": 1.132969
    },
    {
      "acc": 0.73731518,
      "epoch": 0.3224251648909183,
      "grad_norm": 3.8125,
      "learning_rate": 9.665651219154543e-06,
      "loss": 1.16999664,
      "memory(GiB)": 112.26,
      "step": 12710,
      "train_speed(iter/s)": 1.133026
    },
    {
      "acc": 0.73276639,
      "epoch": 0.32255200405885337,
      "grad_norm": 3.34375,
      "learning_rate": 9.665274095942495e-06,
      "loss": 1.16493797,
      "memory(GiB)": 112.26,
      "step": 12715,
      "train_speed(iter/s)": 1.133079
    },
    {
      "acc": 0.72913861,
      "epoch": 0.3226788432267884,
      "grad_norm": 4.34375,
      "learning_rate": 9.664896767530862e-06,
      "loss": 1.15962009,
      "memory(GiB)": 112.26,
      "step": 12720,
      "train_speed(iter/s)": 1.133148
    },
    {
      "acc": 0.72731256,
      "epoch": 0.3228056823947235,
      "grad_norm": 3.4375,
      "learning_rate": 9.664519233936242e-06,
      "loss": 1.16323681,
      "memory(GiB)": 112.26,
      "step": 12725,
      "train_speed(iter/s)": 1.133179
    },
    {
      "acc": 0.73118029,
      "epoch": 0.32293252156265856,
      "grad_norm": 3.359375,
      "learning_rate": 9.664141495175242e-06,
      "loss": 1.0471674,
      "memory(GiB)": 112.26,
      "step": 12730,
      "train_speed(iter/s)": 1.133162
    },
    {
      "acc": 0.73768735,
      "epoch": 0.3230593607305936,
      "grad_norm": 3.421875,
      "learning_rate": 9.663763551264476e-06,
      "loss": 1.12540789,
      "memory(GiB)": 112.26,
      "step": 12735,
      "train_speed(iter/s)": 1.133227
    },
    {
      "acc": 0.7304821,
      "epoch": 0.32318619989852865,
      "grad_norm": 4.0625,
      "learning_rate": 9.663385402220565e-06,
      "loss": 1.10653019,
      "memory(GiB)": 112.26,
      "step": 12740,
      "train_speed(iter/s)": 1.133261
    },
    {
      "acc": 0.73791575,
      "epoch": 0.32331303906646375,
      "grad_norm": 4.34375,
      "learning_rate": 9.663007048060144e-06,
      "loss": 1.17374821,
      "memory(GiB)": 112.26,
      "step": 12745,
      "train_speed(iter/s)": 1.133338
    },
    {
      "acc": 0.73848934,
      "epoch": 0.3234398782343988,
      "grad_norm": 3.25,
      "learning_rate": 9.662628488799854e-06,
      "loss": 1.05858192,
      "memory(GiB)": 112.26,
      "step": 12750,
      "train_speed(iter/s)": 1.133401
    },
    {
      "acc": 0.71926808,
      "epoch": 0.32356671740233384,
      "grad_norm": 3.96875,
      "learning_rate": 9.662249724456346e-06,
      "loss": 1.12018948,
      "memory(GiB)": 112.26,
      "step": 12755,
      "train_speed(iter/s)": 1.13348
    },
    {
      "acc": 0.73127537,
      "epoch": 0.3236935565702689,
      "grad_norm": 4.5,
      "learning_rate": 9.661870755046278e-06,
      "loss": 1.11265545,
      "memory(GiB)": 112.26,
      "step": 12760,
      "train_speed(iter/s)": 1.133546
    },
    {
      "acc": 0.72529378,
      "epoch": 0.323820395738204,
      "grad_norm": 3.46875,
      "learning_rate": 9.661491580586322e-06,
      "loss": 1.0668128,
      "memory(GiB)": 112.26,
      "step": 12765,
      "train_speed(iter/s)": 1.13357
    },
    {
      "acc": 0.72166147,
      "epoch": 0.323947234906139,
      "grad_norm": 4.3125,
      "learning_rate": 9.661112201093156e-06,
      "loss": 1.11995945,
      "memory(GiB)": 112.26,
      "step": 12770,
      "train_speed(iter/s)": 1.133645
    },
    {
      "acc": 0.72313619,
      "epoch": 0.32407407407407407,
      "grad_norm": 4.0625,
      "learning_rate": 9.660732616583463e-06,
      "loss": 1.16471882,
      "memory(GiB)": 112.26,
      "step": 12775,
      "train_speed(iter/s)": 1.133668
    },
    {
      "acc": 0.74451456,
      "epoch": 0.3242009132420091,
      "grad_norm": 3.75,
      "learning_rate": 9.660352827073941e-06,
      "loss": 1.08975868,
      "memory(GiB)": 112.26,
      "step": 12780,
      "train_speed(iter/s)": 1.133716
    },
    {
      "acc": 0.71509333,
      "epoch": 0.3243277524099442,
      "grad_norm": 3.71875,
      "learning_rate": 9.659972832581295e-06,
      "loss": 1.15708628,
      "memory(GiB)": 112.26,
      "step": 12785,
      "train_speed(iter/s)": 1.133796
    },
    {
      "acc": 0.72958279,
      "epoch": 0.32445459157787926,
      "grad_norm": 3.328125,
      "learning_rate": 9.659592633122238e-06,
      "loss": 1.08491478,
      "memory(GiB)": 112.26,
      "step": 12790,
      "train_speed(iter/s)": 1.133865
    },
    {
      "acc": 0.72951827,
      "epoch": 0.3245814307458143,
      "grad_norm": 5.09375,
      "learning_rate": 9.659212228713495e-06,
      "loss": 1.14973841,
      "memory(GiB)": 112.26,
      "step": 12795,
      "train_speed(iter/s)": 1.13391
    },
    {
      "acc": 0.7329113,
      "epoch": 0.32470826991374935,
      "grad_norm": 4.0,
      "learning_rate": 9.658831619371793e-06,
      "loss": 1.13464394,
      "memory(GiB)": 112.26,
      "step": 12800,
      "train_speed(iter/s)": 1.133945
    },
    {
      "acc": 0.7231986,
      "epoch": 0.32483510908168445,
      "grad_norm": 4.09375,
      "learning_rate": 9.658450805113879e-06,
      "loss": 1.15098171,
      "memory(GiB)": 112.26,
      "step": 12805,
      "train_speed(iter/s)": 1.13403
    },
    {
      "acc": 0.73554859,
      "epoch": 0.3249619482496195,
      "grad_norm": 3.609375,
      "learning_rate": 9.6580697859565e-06,
      "loss": 1.08679123,
      "memory(GiB)": 112.26,
      "step": 12810,
      "train_speed(iter/s)": 1.134048
    },
    {
      "acc": 0.74801459,
      "epoch": 0.32508878741755454,
      "grad_norm": 3.296875,
      "learning_rate": 9.657688561916414e-06,
      "loss": 1.02039719,
      "memory(GiB)": 112.26,
      "step": 12815,
      "train_speed(iter/s)": 1.134081
    },
    {
      "acc": 0.73875294,
      "epoch": 0.3252156265854896,
      "grad_norm": 4.28125,
      "learning_rate": 9.65730713301039e-06,
      "loss": 1.07616673,
      "memory(GiB)": 112.26,
      "step": 12820,
      "train_speed(iter/s)": 1.134137
    },
    {
      "acc": 0.72701092,
      "epoch": 0.3253424657534247,
      "grad_norm": 3.78125,
      "learning_rate": 9.656925499255206e-06,
      "loss": 1.11797962,
      "memory(GiB)": 112.26,
      "step": 12825,
      "train_speed(iter/s)": 1.134233
    },
    {
      "acc": 0.74166393,
      "epoch": 0.3254693049213597,
      "grad_norm": 3.25,
      "learning_rate": 9.656543660667646e-06,
      "loss": 1.07550488,
      "memory(GiB)": 112.26,
      "step": 12830,
      "train_speed(iter/s)": 1.134316
    },
    {
      "acc": 0.73781753,
      "epoch": 0.32559614408929477,
      "grad_norm": 3.90625,
      "learning_rate": 9.656161617264507e-06,
      "loss": 1.06755619,
      "memory(GiB)": 112.26,
      "step": 12835,
      "train_speed(iter/s)": 1.134354
    },
    {
      "acc": 0.71821032,
      "epoch": 0.3257229832572298,
      "grad_norm": 4.46875,
      "learning_rate": 9.65577936906259e-06,
      "loss": 1.113624,
      "memory(GiB)": 112.26,
      "step": 12840,
      "train_speed(iter/s)": 1.134368
    },
    {
      "acc": 0.71094923,
      "epoch": 0.3258498224251649,
      "grad_norm": 4.59375,
      "learning_rate": 9.65539691607871e-06,
      "loss": 1.1349925,
      "memory(GiB)": 112.26,
      "step": 12845,
      "train_speed(iter/s)": 1.134414
    },
    {
      "acc": 0.71942968,
      "epoch": 0.32597666159309996,
      "grad_norm": 3.296875,
      "learning_rate": 9.65501425832969e-06,
      "loss": 1.17147284,
      "memory(GiB)": 112.26,
      "step": 12850,
      "train_speed(iter/s)": 1.13447
    },
    {
      "acc": 0.72774811,
      "epoch": 0.326103500761035,
      "grad_norm": 3.515625,
      "learning_rate": 9.65463139583236e-06,
      "loss": 1.11307764,
      "memory(GiB)": 112.26,
      "step": 12855,
      "train_speed(iter/s)": 1.134524
    },
    {
      "acc": 0.72863522,
      "epoch": 0.32623033992897005,
      "grad_norm": 3.796875,
      "learning_rate": 9.65424832860356e-06,
      "loss": 1.11764317,
      "memory(GiB)": 112.26,
      "step": 12860,
      "train_speed(iter/s)": 1.13461
    },
    {
      "acc": 0.72296581,
      "epoch": 0.32635717909690515,
      "grad_norm": 3.65625,
      "learning_rate": 9.653865056660136e-06,
      "loss": 1.15635567,
      "memory(GiB)": 112.26,
      "step": 12865,
      "train_speed(iter/s)": 1.13465
    },
    {
      "acc": 0.72531538,
      "epoch": 0.3264840182648402,
      "grad_norm": 3.734375,
      "learning_rate": 9.653481580018951e-06,
      "loss": 1.14956875,
      "memory(GiB)": 112.26,
      "step": 12870,
      "train_speed(iter/s)": 1.134703
    },
    {
      "acc": 0.72251625,
      "epoch": 0.32661085743277524,
      "grad_norm": 4.15625,
      "learning_rate": 9.653097898696869e-06,
      "loss": 1.16862478,
      "memory(GiB)": 112.26,
      "step": 12875,
      "train_speed(iter/s)": 1.134757
    },
    {
      "acc": 0.72787542,
      "epoch": 0.3267376966007103,
      "grad_norm": 4.15625,
      "learning_rate": 9.652714012710766e-06,
      "loss": 1.14800787,
      "memory(GiB)": 112.26,
      "step": 12880,
      "train_speed(iter/s)": 1.134779
    },
    {
      "acc": 0.72342339,
      "epoch": 0.3268645357686454,
      "grad_norm": 4.5625,
      "learning_rate": 9.65232992207753e-06,
      "loss": 1.18950596,
      "memory(GiB)": 112.26,
      "step": 12885,
      "train_speed(iter/s)": 1.134847
    },
    {
      "acc": 0.73057165,
      "epoch": 0.3269913749365804,
      "grad_norm": 3.25,
      "learning_rate": 9.651945626814052e-06,
      "loss": 1.15339088,
      "memory(GiB)": 112.26,
      "step": 12890,
      "train_speed(iter/s)": 1.13493
    },
    {
      "acc": 0.73220854,
      "epoch": 0.32711821410451547,
      "grad_norm": 4.6875,
      "learning_rate": 9.651561126937236e-06,
      "loss": 1.10344353,
      "memory(GiB)": 112.26,
      "step": 12895,
      "train_speed(iter/s)": 1.134968
    },
    {
      "acc": 0.72229567,
      "epoch": 0.3272450532724505,
      "grad_norm": 4.28125,
      "learning_rate": 9.651176422463994e-06,
      "loss": 1.17170925,
      "memory(GiB)": 112.26,
      "step": 12900,
      "train_speed(iter/s)": 1.135048
    },
    {
      "acc": 0.73673811,
      "epoch": 0.3273718924403856,
      "grad_norm": 3.140625,
      "learning_rate": 9.650791513411246e-06,
      "loss": 1.05733471,
      "memory(GiB)": 112.26,
      "step": 12905,
      "train_speed(iter/s)": 1.135086
    },
    {
      "acc": 0.71680622,
      "epoch": 0.32749873160832066,
      "grad_norm": 3.28125,
      "learning_rate": 9.650406399795924e-06,
      "loss": 1.15249519,
      "memory(GiB)": 112.26,
      "step": 12910,
      "train_speed(iter/s)": 1.135121
    },
    {
      "acc": 0.72751784,
      "epoch": 0.3276255707762557,
      "grad_norm": 4.5625,
      "learning_rate": 9.650021081634965e-06,
      "loss": 1.12685738,
      "memory(GiB)": 112.26,
      "step": 12915,
      "train_speed(iter/s)": 1.13519
    },
    {
      "acc": 0.72314153,
      "epoch": 0.32775240994419075,
      "grad_norm": 3.765625,
      "learning_rate": 9.649635558945318e-06,
      "loss": 1.13795395,
      "memory(GiB)": 112.26,
      "step": 12920,
      "train_speed(iter/s)": 1.135263
    },
    {
      "acc": 0.72352171,
      "epoch": 0.32787924911212585,
      "grad_norm": 3.140625,
      "learning_rate": 9.649249831743941e-06,
      "loss": 1.13997574,
      "memory(GiB)": 112.26,
      "step": 12925,
      "train_speed(iter/s)": 1.135299
    },
    {
      "acc": 0.72756166,
      "epoch": 0.3280060882800609,
      "grad_norm": 3.40625,
      "learning_rate": 9.6488639000478e-06,
      "loss": 1.14239845,
      "memory(GiB)": 112.26,
      "step": 12930,
      "train_speed(iter/s)": 1.135367
    },
    {
      "acc": 0.73637838,
      "epoch": 0.32813292744799594,
      "grad_norm": 3.828125,
      "learning_rate": 9.648477763873868e-06,
      "loss": 1.12066193,
      "memory(GiB)": 112.26,
      "step": 12935,
      "train_speed(iter/s)": 1.135432
    },
    {
      "acc": 0.73746853,
      "epoch": 0.328259766615931,
      "grad_norm": 4.0,
      "learning_rate": 9.648091423239128e-06,
      "loss": 1.07442665,
      "memory(GiB)": 112.26,
      "step": 12940,
      "train_speed(iter/s)": 1.135484
    },
    {
      "acc": 0.73018827,
      "epoch": 0.3283866057838661,
      "grad_norm": 3.984375,
      "learning_rate": 9.647704878160576e-06,
      "loss": 1.0986207,
      "memory(GiB)": 112.26,
      "step": 12945,
      "train_speed(iter/s)": 1.135539
    },
    {
      "acc": 0.71358819,
      "epoch": 0.3285134449518011,
      "grad_norm": 3.8125,
      "learning_rate": 9.647318128655213e-06,
      "loss": 1.17217493,
      "memory(GiB)": 112.26,
      "step": 12950,
      "train_speed(iter/s)": 1.135591
    },
    {
      "acc": 0.74311171,
      "epoch": 0.32864028411973617,
      "grad_norm": 3.171875,
      "learning_rate": 9.64693117474005e-06,
      "loss": 1.06100769,
      "memory(GiB)": 112.26,
      "step": 12955,
      "train_speed(iter/s)": 1.135619
    },
    {
      "acc": 0.73369498,
      "epoch": 0.3287671232876712,
      "grad_norm": 4.0625,
      "learning_rate": 9.646544016432109e-06,
      "loss": 1.1078805,
      "memory(GiB)": 112.26,
      "step": 12960,
      "train_speed(iter/s)": 1.135636
    },
    {
      "acc": 0.7347156,
      "epoch": 0.3288939624556063,
      "grad_norm": 3.953125,
      "learning_rate": 9.646156653748415e-06,
      "loss": 1.08832445,
      "memory(GiB)": 112.26,
      "step": 12965,
      "train_speed(iter/s)": 1.135681
    },
    {
      "acc": 0.7350749,
      "epoch": 0.32902080162354136,
      "grad_norm": 4.1875,
      "learning_rate": 9.645769086706008e-06,
      "loss": 1.15365562,
      "memory(GiB)": 112.26,
      "step": 12970,
      "train_speed(iter/s)": 1.135716
    },
    {
      "acc": 0.72792106,
      "epoch": 0.3291476407914764,
      "grad_norm": 3.078125,
      "learning_rate": 9.645381315321934e-06,
      "loss": 1.13273983,
      "memory(GiB)": 112.26,
      "step": 12975,
      "train_speed(iter/s)": 1.13577
    },
    {
      "acc": 0.72275481,
      "epoch": 0.32927447995941145,
      "grad_norm": 3.1875,
      "learning_rate": 9.64499333961325e-06,
      "loss": 1.16138783,
      "memory(GiB)": 112.26,
      "step": 12980,
      "train_speed(iter/s)": 1.135856
    },
    {
      "acc": 0.73896847,
      "epoch": 0.32940131912734655,
      "grad_norm": 3.40625,
      "learning_rate": 9.64460515959702e-06,
      "loss": 1.02685966,
      "memory(GiB)": 112.26,
      "step": 12985,
      "train_speed(iter/s)": 1.135937
    },
    {
      "acc": 0.72459354,
      "epoch": 0.3295281582952816,
      "grad_norm": 3.90625,
      "learning_rate": 9.64421677529032e-06,
      "loss": 1.14080143,
      "memory(GiB)": 112.26,
      "step": 12990,
      "train_speed(iter/s)": 1.13597
    },
    {
      "acc": 0.74555979,
      "epoch": 0.32965499746321664,
      "grad_norm": 3.46875,
      "learning_rate": 9.64382818671023e-06,
      "loss": 1.07006607,
      "memory(GiB)": 112.26,
      "step": 12995,
      "train_speed(iter/s)": 1.136038
    },
    {
      "acc": 0.73361917,
      "epoch": 0.3297818366311517,
      "grad_norm": 4.4375,
      "learning_rate": 9.643439393873844e-06,
      "loss": 1.08215942,
      "memory(GiB)": 112.26,
      "step": 13000,
      "train_speed(iter/s)": 1.136044
    },
    {
      "epoch": 0.3297818366311517,
      "eval_acc": 0.7179308227717252,
      "eval_loss": 1.0849425792694092,
      "eval_runtime": 70.8799,
      "eval_samples_per_second": 89.87,
      "eval_steps_per_second": 22.475,
      "step": 13000
    },
    {
      "acc": 0.74043131,
      "epoch": 0.3299086757990868,
      "grad_norm": 3.65625,
      "learning_rate": 9.643050396798262e-06,
      "loss": 1.12585335,
      "memory(GiB)": 112.26,
      "step": 13005,
      "train_speed(iter/s)": 1.124792
    },
    {
      "acc": 0.73765006,
      "epoch": 0.3300355149670218,
      "grad_norm": 5.28125,
      "learning_rate": 9.642661195500593e-06,
      "loss": 1.02918091,
      "memory(GiB)": 112.26,
      "step": 13010,
      "train_speed(iter/s)": 1.124815
    },
    {
      "acc": 0.72876687,
      "epoch": 0.33016235413495687,
      "grad_norm": 4.25,
      "learning_rate": 9.642271789997956e-06,
      "loss": 1.11300068,
      "memory(GiB)": 112.26,
      "step": 13015,
      "train_speed(iter/s)": 1.124869
    },
    {
      "acc": 0.73420749,
      "epoch": 0.3302891933028919,
      "grad_norm": 3.03125,
      "learning_rate": 9.64188218030748e-06,
      "loss": 1.04260044,
      "memory(GiB)": 112.26,
      "step": 13020,
      "train_speed(iter/s)": 1.124952
    },
    {
      "acc": 0.73552399,
      "epoch": 0.330416032470827,
      "grad_norm": 3.390625,
      "learning_rate": 9.641492366446301e-06,
      "loss": 1.10849991,
      "memory(GiB)": 112.26,
      "step": 13025,
      "train_speed(iter/s)": 1.124998
    },
    {
      "acc": 0.72506871,
      "epoch": 0.33054287163876206,
      "grad_norm": 3.453125,
      "learning_rate": 9.641102348431565e-06,
      "loss": 1.10441837,
      "memory(GiB)": 112.26,
      "step": 13030,
      "train_speed(iter/s)": 1.125056
    },
    {
      "acc": 0.7285511,
      "epoch": 0.3306697108066971,
      "grad_norm": 3.671875,
      "learning_rate": 9.640712126280429e-06,
      "loss": 1.11080265,
      "memory(GiB)": 112.26,
      "step": 13035,
      "train_speed(iter/s)": 1.1251
    },
    {
      "acc": 0.73279381,
      "epoch": 0.33079654997463215,
      "grad_norm": 3.25,
      "learning_rate": 9.640321700010053e-06,
      "loss": 1.08485584,
      "memory(GiB)": 112.26,
      "step": 13040,
      "train_speed(iter/s)": 1.125127
    },
    {
      "acc": 0.73126249,
      "epoch": 0.33092338914256725,
      "grad_norm": 3.71875,
      "learning_rate": 9.63993106963761e-06,
      "loss": 1.11579704,
      "memory(GiB)": 112.26,
      "step": 13045,
      "train_speed(iter/s)": 1.12521
    },
    {
      "acc": 0.72534175,
      "epoch": 0.3310502283105023,
      "grad_norm": 3.328125,
      "learning_rate": 9.639540235180283e-06,
      "loss": 1.1158288,
      "memory(GiB)": 112.26,
      "step": 13050,
      "train_speed(iter/s)": 1.125278
    },
    {
      "acc": 0.74359694,
      "epoch": 0.33117706747843734,
      "grad_norm": 4.1875,
      "learning_rate": 9.639149196655263e-06,
      "loss": 1.08077888,
      "memory(GiB)": 112.26,
      "step": 13055,
      "train_speed(iter/s)": 1.125343
    },
    {
      "acc": 0.72381277,
      "epoch": 0.3313039066463724,
      "grad_norm": 3.78125,
      "learning_rate": 9.638757954079749e-06,
      "loss": 1.1174017,
      "memory(GiB)": 112.26,
      "step": 13060,
      "train_speed(iter/s)": 1.125393
    },
    {
      "acc": 0.73957682,
      "epoch": 0.3314307458143075,
      "grad_norm": 4.625,
      "learning_rate": 9.638366507470948e-06,
      "loss": 1.08432922,
      "memory(GiB)": 112.26,
      "step": 13065,
      "train_speed(iter/s)": 1.125449
    },
    {
      "acc": 0.7375329,
      "epoch": 0.3315575849822425,
      "grad_norm": 3.703125,
      "learning_rate": 9.637974856846082e-06,
      "loss": 1.09991961,
      "memory(GiB)": 112.26,
      "step": 13070,
      "train_speed(iter/s)": 1.125487
    },
    {
      "acc": 0.73978758,
      "epoch": 0.33168442415017757,
      "grad_norm": 4.15625,
      "learning_rate": 9.637583002222373e-06,
      "loss": 1.04666023,
      "memory(GiB)": 112.26,
      "step": 13075,
      "train_speed(iter/s)": 1.125509
    },
    {
      "acc": 0.73391891,
      "epoch": 0.3318112633181126,
      "grad_norm": 3.578125,
      "learning_rate": 9.637190943617059e-06,
      "loss": 1.09996347,
      "memory(GiB)": 112.26,
      "step": 13080,
      "train_speed(iter/s)": 1.125586
    },
    {
      "acc": 0.72677732,
      "epoch": 0.3319381024860477,
      "grad_norm": 4.03125,
      "learning_rate": 9.636798681047383e-06,
      "loss": 1.09715157,
      "memory(GiB)": 112.26,
      "step": 13085,
      "train_speed(iter/s)": 1.125639
    },
    {
      "acc": 0.7440177,
      "epoch": 0.33206494165398276,
      "grad_norm": 4.65625,
      "learning_rate": 9.6364062145306e-06,
      "loss": 1.10091553,
      "memory(GiB)": 112.26,
      "step": 13090,
      "train_speed(iter/s)": 1.125719
    },
    {
      "acc": 0.72518301,
      "epoch": 0.3321917808219178,
      "grad_norm": 3.21875,
      "learning_rate": 9.636013544083971e-06,
      "loss": 1.12721519,
      "memory(GiB)": 112.26,
      "step": 13095,
      "train_speed(iter/s)": 1.125673
    },
    {
      "acc": 0.73396344,
      "epoch": 0.33231861998985285,
      "grad_norm": 3.75,
      "learning_rate": 9.635620669724768e-06,
      "loss": 1.10573549,
      "memory(GiB)": 112.26,
      "step": 13100,
      "train_speed(iter/s)": 1.125726
    },
    {
      "acc": 0.73272328,
      "epoch": 0.33244545915778795,
      "grad_norm": 4.03125,
      "learning_rate": 9.635227591470272e-06,
      "loss": 1.15346031,
      "memory(GiB)": 112.26,
      "step": 13105,
      "train_speed(iter/s)": 1.125783
    },
    {
      "acc": 0.73470583,
      "epoch": 0.332572298325723,
      "grad_norm": 3.734375,
      "learning_rate": 9.63483430933777e-06,
      "loss": 1.09416008,
      "memory(GiB)": 112.26,
      "step": 13110,
      "train_speed(iter/s)": 1.125824
    },
    {
      "acc": 0.73279772,
      "epoch": 0.33269913749365804,
      "grad_norm": 3.796875,
      "learning_rate": 9.634440823344565e-06,
      "loss": 1.14943905,
      "memory(GiB)": 112.26,
      "step": 13115,
      "train_speed(iter/s)": 1.125917
    },
    {
      "acc": 0.7431953,
      "epoch": 0.3328259766615931,
      "grad_norm": 3.828125,
      "learning_rate": 9.634047133507959e-06,
      "loss": 1.06341724,
      "memory(GiB)": 112.26,
      "step": 13120,
      "train_speed(iter/s)": 1.125994
    },
    {
      "acc": 0.74321198,
      "epoch": 0.3329528158295282,
      "grad_norm": 3.765625,
      "learning_rate": 9.63365323984527e-06,
      "loss": 1.0579586,
      "memory(GiB)": 112.26,
      "step": 13125,
      "train_speed(iter/s)": 1.126069
    },
    {
      "acc": 0.73906136,
      "epoch": 0.3330796549974632,
      "grad_norm": 4.0,
      "learning_rate": 9.633259142373825e-06,
      "loss": 1.07176781,
      "memory(GiB)": 112.26,
      "step": 13130,
      "train_speed(iter/s)": 1.12609
    },
    {
      "acc": 0.71244903,
      "epoch": 0.33320649416539827,
      "grad_norm": 4.25,
      "learning_rate": 9.632864841110957e-06,
      "loss": 1.13197803,
      "memory(GiB)": 112.26,
      "step": 13135,
      "train_speed(iter/s)": 1.12612
    },
    {
      "acc": 0.72914376,
      "epoch": 0.3333333333333333,
      "grad_norm": 4.46875,
      "learning_rate": 9.632470336074009e-06,
      "loss": 1.16821938,
      "memory(GiB)": 112.26,
      "step": 13140,
      "train_speed(iter/s)": 1.126211
    },
    {
      "acc": 0.74013062,
      "epoch": 0.3334601725012684,
      "grad_norm": 3.9375,
      "learning_rate": 9.632075627280333e-06,
      "loss": 1.04846315,
      "memory(GiB)": 112.26,
      "step": 13145,
      "train_speed(iter/s)": 1.126289
    },
    {
      "acc": 0.72295036,
      "epoch": 0.33358701166920346,
      "grad_norm": 3.96875,
      "learning_rate": 9.631680714747292e-06,
      "loss": 1.12261715,
      "memory(GiB)": 112.26,
      "step": 13150,
      "train_speed(iter/s)": 1.126335
    },
    {
      "acc": 0.73851414,
      "epoch": 0.3337138508371385,
      "grad_norm": 5.28125,
      "learning_rate": 9.63128559849225e-06,
      "loss": 1.07124557,
      "memory(GiB)": 112.26,
      "step": 13155,
      "train_speed(iter/s)": 1.126417
    },
    {
      "acc": 0.7292861,
      "epoch": 0.33384069000507355,
      "grad_norm": 4.75,
      "learning_rate": 9.630890278532594e-06,
      "loss": 1.08559294,
      "memory(GiB)": 112.26,
      "step": 13160,
      "train_speed(iter/s)": 1.126509
    },
    {
      "acc": 0.7050653,
      "epoch": 0.33396752917300865,
      "grad_norm": 3.25,
      "learning_rate": 9.630494754885706e-06,
      "loss": 1.1872551,
      "memory(GiB)": 112.26,
      "step": 13165,
      "train_speed(iter/s)": 1.126537
    },
    {
      "acc": 0.72872486,
      "epoch": 0.3340943683409437,
      "grad_norm": 3.703125,
      "learning_rate": 9.630099027568986e-06,
      "loss": 1.09294615,
      "memory(GiB)": 112.26,
      "step": 13170,
      "train_speed(iter/s)": 1.126599
    },
    {
      "acc": 0.74457235,
      "epoch": 0.33422120750887874,
      "grad_norm": 3.703125,
      "learning_rate": 9.629703096599839e-06,
      "loss": 1.12097397,
      "memory(GiB)": 112.26,
      "step": 13175,
      "train_speed(iter/s)": 1.126694
    },
    {
      "acc": 0.72871237,
      "epoch": 0.3343480466768138,
      "grad_norm": 3.59375,
      "learning_rate": 9.629306961995678e-06,
      "loss": 1.10763302,
      "memory(GiB)": 112.26,
      "step": 13180,
      "train_speed(iter/s)": 1.126719
    },
    {
      "acc": 0.71359849,
      "epoch": 0.3344748858447489,
      "grad_norm": 3.90625,
      "learning_rate": 9.62891062377393e-06,
      "loss": 1.14984102,
      "memory(GiB)": 112.26,
      "step": 13185,
      "train_speed(iter/s)": 1.126781
    },
    {
      "acc": 0.73139482,
      "epoch": 0.3346017250126839,
      "grad_norm": 4.21875,
      "learning_rate": 9.628514081952026e-06,
      "loss": 1.12869072,
      "memory(GiB)": 112.26,
      "step": 13190,
      "train_speed(iter/s)": 1.126811
    },
    {
      "acc": 0.70287991,
      "epoch": 0.33472856418061897,
      "grad_norm": 4.21875,
      "learning_rate": 9.628117336547408e-06,
      "loss": 1.21426134,
      "memory(GiB)": 112.26,
      "step": 13195,
      "train_speed(iter/s)": 1.126896
    },
    {
      "acc": 0.71855974,
      "epoch": 0.334855403348554,
      "grad_norm": 3.15625,
      "learning_rate": 9.627720387577525e-06,
      "loss": 1.12022705,
      "memory(GiB)": 112.26,
      "step": 13200,
      "train_speed(iter/s)": 1.126942
    },
    {
      "acc": 0.7284297,
      "epoch": 0.3349822425164891,
      "grad_norm": 4.0625,
      "learning_rate": 9.62732323505984e-06,
      "loss": 1.14139328,
      "memory(GiB)": 112.26,
      "step": 13205,
      "train_speed(iter/s)": 1.127035
    },
    {
      "acc": 0.73094015,
      "epoch": 0.33510908168442416,
      "grad_norm": 3.34375,
      "learning_rate": 9.62692587901182e-06,
      "loss": 1.0702733,
      "memory(GiB)": 112.26,
      "step": 13210,
      "train_speed(iter/s)": 1.127061
    },
    {
      "acc": 0.72394876,
      "epoch": 0.3352359208523592,
      "grad_norm": 3.9375,
      "learning_rate": 9.62652831945094e-06,
      "loss": 1.12924995,
      "memory(GiB)": 112.26,
      "step": 13215,
      "train_speed(iter/s)": 1.127121
    },
    {
      "acc": 0.7448638,
      "epoch": 0.33536276002029425,
      "grad_norm": 3.765625,
      "learning_rate": 9.626130556394689e-06,
      "loss": 1.13937473,
      "memory(GiB)": 112.26,
      "step": 13220,
      "train_speed(iter/s)": 1.127157
    },
    {
      "acc": 0.72835484,
      "epoch": 0.33548959918822935,
      "grad_norm": 3.671875,
      "learning_rate": 9.625732589860562e-06,
      "loss": 1.17501354,
      "memory(GiB)": 112.26,
      "step": 13225,
      "train_speed(iter/s)": 1.127229
    },
    {
      "acc": 0.72160816,
      "epoch": 0.3356164383561644,
      "grad_norm": 4.0625,
      "learning_rate": 9.625334419866064e-06,
      "loss": 1.15758476,
      "memory(GiB)": 112.26,
      "step": 13230,
      "train_speed(iter/s)": 1.127309
    },
    {
      "acc": 0.72820368,
      "epoch": 0.33574327752409944,
      "grad_norm": 4.0,
      "learning_rate": 9.624936046428708e-06,
      "loss": 1.10859776,
      "memory(GiB)": 112.26,
      "step": 13235,
      "train_speed(iter/s)": 1.127324
    },
    {
      "acc": 0.73625026,
      "epoch": 0.3358701166920345,
      "grad_norm": 3.6875,
      "learning_rate": 9.624537469566015e-06,
      "loss": 1.09989109,
      "memory(GiB)": 112.26,
      "step": 13240,
      "train_speed(iter/s)": 1.127384
    },
    {
      "acc": 0.73555117,
      "epoch": 0.3359969558599696,
      "grad_norm": 4.0,
      "learning_rate": 9.624138689295516e-06,
      "loss": 1.06130238,
      "memory(GiB)": 112.26,
      "step": 13245,
      "train_speed(iter/s)": 1.127452
    },
    {
      "acc": 0.7309391,
      "epoch": 0.3361237950279046,
      "grad_norm": 3.671875,
      "learning_rate": 9.623739705634753e-06,
      "loss": 1.07164574,
      "memory(GiB)": 112.26,
      "step": 13250,
      "train_speed(iter/s)": 1.127543
    },
    {
      "acc": 0.73374643,
      "epoch": 0.33625063419583967,
      "grad_norm": 4.25,
      "learning_rate": 9.623340518601274e-06,
      "loss": 1.12179604,
      "memory(GiB)": 112.26,
      "step": 13255,
      "train_speed(iter/s)": 1.127592
    },
    {
      "acc": 0.7216341,
      "epoch": 0.3363774733637747,
      "grad_norm": 4.90625,
      "learning_rate": 9.622941128212639e-06,
      "loss": 1.20361881,
      "memory(GiB)": 112.26,
      "step": 13260,
      "train_speed(iter/s)": 1.127684
    },
    {
      "acc": 0.73385649,
      "epoch": 0.3365043125317098,
      "grad_norm": 3.875,
      "learning_rate": 9.622541534486411e-06,
      "loss": 1.13578348,
      "memory(GiB)": 112.26,
      "step": 13265,
      "train_speed(iter/s)": 1.127799
    },
    {
      "acc": 0.72225227,
      "epoch": 0.33663115169964486,
      "grad_norm": 4.0625,
      "learning_rate": 9.62214173744017e-06,
      "loss": 1.12618151,
      "memory(GiB)": 112.26,
      "step": 13270,
      "train_speed(iter/s)": 1.127873
    },
    {
      "acc": 0.71832647,
      "epoch": 0.3367579908675799,
      "grad_norm": 3.84375,
      "learning_rate": 9.6217417370915e-06,
      "loss": 1.10642862,
      "memory(GiB)": 112.26,
      "step": 13275,
      "train_speed(iter/s)": 1.127937
    },
    {
      "acc": 0.73441401,
      "epoch": 0.33688483003551495,
      "grad_norm": 4.03125,
      "learning_rate": 9.62134153345799e-06,
      "loss": 1.08337002,
      "memory(GiB)": 112.26,
      "step": 13280,
      "train_speed(iter/s)": 1.127975
    },
    {
      "acc": 0.72822933,
      "epoch": 0.33701166920345005,
      "grad_norm": 3.8125,
      "learning_rate": 9.620941126557248e-06,
      "loss": 1.06747656,
      "memory(GiB)": 112.26,
      "step": 13285,
      "train_speed(iter/s)": 1.128047
    },
    {
      "acc": 0.73903475,
      "epoch": 0.3371385083713851,
      "grad_norm": 3.265625,
      "learning_rate": 9.620540516406885e-06,
      "loss": 1.04117584,
      "memory(GiB)": 112.26,
      "step": 13290,
      "train_speed(iter/s)": 1.128075
    },
    {
      "acc": 0.72391496,
      "epoch": 0.33726534753932014,
      "grad_norm": 3.296875,
      "learning_rate": 9.620139703024522e-06,
      "loss": 1.1056489,
      "memory(GiB)": 112.26,
      "step": 13295,
      "train_speed(iter/s)": 1.128149
    },
    {
      "acc": 0.71209655,
      "epoch": 0.3373921867072552,
      "grad_norm": 4.125,
      "learning_rate": 9.619738686427785e-06,
      "loss": 1.17131023,
      "memory(GiB)": 112.26,
      "step": 13300,
      "train_speed(iter/s)": 1.128242
    },
    {
      "acc": 0.72867103,
      "epoch": 0.3375190258751903,
      "grad_norm": 3.265625,
      "learning_rate": 9.619337466634317e-06,
      "loss": 1.1017046,
      "memory(GiB)": 112.26,
      "step": 13305,
      "train_speed(iter/s)": 1.128323
    },
    {
      "acc": 0.73595285,
      "epoch": 0.3376458650431253,
      "grad_norm": 3.75,
      "learning_rate": 9.618936043661762e-06,
      "loss": 1.07923164,
      "memory(GiB)": 112.26,
      "step": 13310,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.71941857,
      "epoch": 0.33777270421106037,
      "grad_norm": 4.90625,
      "learning_rate": 9.618534417527779e-06,
      "loss": 1.12749462,
      "memory(GiB)": 112.26,
      "step": 13315,
      "train_speed(iter/s)": 1.128475
    },
    {
      "acc": 0.73020706,
      "epoch": 0.3378995433789954,
      "grad_norm": 4.1875,
      "learning_rate": 9.61813258825003e-06,
      "loss": 1.09049292,
      "memory(GiB)": 112.26,
      "step": 13320,
      "train_speed(iter/s)": 1.128543
    },
    {
      "acc": 0.72941217,
      "epoch": 0.3380263825469305,
      "grad_norm": 3.71875,
      "learning_rate": 9.617730555846191e-06,
      "loss": 1.10772181,
      "memory(GiB)": 112.26,
      "step": 13325,
      "train_speed(iter/s)": 1.128584
    },
    {
      "acc": 0.7253005,
      "epoch": 0.33815322171486556,
      "grad_norm": 4.09375,
      "learning_rate": 9.617328320333947e-06,
      "loss": 1.10857515,
      "memory(GiB)": 112.26,
      "step": 13330,
      "train_speed(iter/s)": 1.128643
    },
    {
      "acc": 0.74689221,
      "epoch": 0.3382800608828006,
      "grad_norm": 3.828125,
      "learning_rate": 9.616925881730989e-06,
      "loss": 1.01910782,
      "memory(GiB)": 112.26,
      "step": 13335,
      "train_speed(iter/s)": 1.128637
    },
    {
      "acc": 0.73393717,
      "epoch": 0.33840690005073565,
      "grad_norm": 3.796875,
      "learning_rate": 9.616523240055017e-06,
      "loss": 1.10386181,
      "memory(GiB)": 112.26,
      "step": 13340,
      "train_speed(iter/s)": 1.128676
    },
    {
      "acc": 0.71543097,
      "epoch": 0.33853373921867075,
      "grad_norm": 3.640625,
      "learning_rate": 9.616120395323743e-06,
      "loss": 1.16180458,
      "memory(GiB)": 112.26,
      "step": 13345,
      "train_speed(iter/s)": 1.128702
    },
    {
      "acc": 0.73183498,
      "epoch": 0.3386605783866058,
      "grad_norm": 3.4375,
      "learning_rate": 9.615717347554882e-06,
      "loss": 1.09134007,
      "memory(GiB)": 112.26,
      "step": 13350,
      "train_speed(iter/s)": 1.12877
    },
    {
      "acc": 0.71713963,
      "epoch": 0.33878741755454084,
      "grad_norm": 3.3125,
      "learning_rate": 9.615314096766166e-06,
      "loss": 1.10223627,
      "memory(GiB)": 112.26,
      "step": 13355,
      "train_speed(iter/s)": 1.128824
    },
    {
      "acc": 0.722756,
      "epoch": 0.3389142567224759,
      "grad_norm": 4.1875,
      "learning_rate": 9.61491064297533e-06,
      "loss": 1.15333481,
      "memory(GiB)": 112.26,
      "step": 13360,
      "train_speed(iter/s)": 1.128862
    },
    {
      "acc": 0.71818733,
      "epoch": 0.339041095890411,
      "grad_norm": 3.8125,
      "learning_rate": 9.614506986200119e-06,
      "loss": 1.16635303,
      "memory(GiB)": 112.26,
      "step": 13365,
      "train_speed(iter/s)": 1.128842
    },
    {
      "acc": 0.72889061,
      "epoch": 0.339167935058346,
      "grad_norm": 4.4375,
      "learning_rate": 9.61410312645829e-06,
      "loss": 1.11408463,
      "memory(GiB)": 112.26,
      "step": 13370,
      "train_speed(iter/s)": 1.128891
    },
    {
      "acc": 0.72588863,
      "epoch": 0.33929477422628107,
      "grad_norm": 4.21875,
      "learning_rate": 9.613699063767603e-06,
      "loss": 1.13843765,
      "memory(GiB)": 112.26,
      "step": 13375,
      "train_speed(iter/s)": 1.128898
    },
    {
      "acc": 0.72899203,
      "epoch": 0.3394216133942161,
      "grad_norm": 3.796875,
      "learning_rate": 9.613294798145833e-06,
      "loss": 1.14357061,
      "memory(GiB)": 112.26,
      "step": 13380,
      "train_speed(iter/s)": 1.12897
    },
    {
      "acc": 0.73355389,
      "epoch": 0.3395484525621512,
      "grad_norm": 3.90625,
      "learning_rate": 9.612890329610762e-06,
      "loss": 1.08021641,
      "memory(GiB)": 112.26,
      "step": 13385,
      "train_speed(iter/s)": 1.129006
    },
    {
      "acc": 0.73568711,
      "epoch": 0.33967529173008626,
      "grad_norm": 3.65625,
      "learning_rate": 9.612485658180178e-06,
      "loss": 1.07432957,
      "memory(GiB)": 112.26,
      "step": 13390,
      "train_speed(iter/s)": 1.129073
    },
    {
      "acc": 0.73476276,
      "epoch": 0.3398021308980213,
      "grad_norm": 3.65625,
      "learning_rate": 9.612080783871882e-06,
      "loss": 1.07378969,
      "memory(GiB)": 112.26,
      "step": 13395,
      "train_speed(iter/s)": 1.129123
    },
    {
      "acc": 0.73085613,
      "epoch": 0.33992897006595635,
      "grad_norm": 3.46875,
      "learning_rate": 9.611675706703682e-06,
      "loss": 1.0823308,
      "memory(GiB)": 112.26,
      "step": 13400,
      "train_speed(iter/s)": 1.129189
    },
    {
      "acc": 0.72427664,
      "epoch": 0.34005580923389145,
      "grad_norm": 4.71875,
      "learning_rate": 9.611270426693395e-06,
      "loss": 1.1531518,
      "memory(GiB)": 112.26,
      "step": 13405,
      "train_speed(iter/s)": 1.129238
    },
    {
      "acc": 0.71245127,
      "epoch": 0.3401826484018265,
      "grad_norm": 4.3125,
      "learning_rate": 9.610864943858847e-06,
      "loss": 1.12569065,
      "memory(GiB)": 112.26,
      "step": 13410,
      "train_speed(iter/s)": 1.129312
    },
    {
      "acc": 0.73361239,
      "epoch": 0.34030948756976154,
      "grad_norm": 4.125,
      "learning_rate": 9.61045925821787e-06,
      "loss": 1.09170122,
      "memory(GiB)": 112.26,
      "step": 13415,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.72823172,
      "epoch": 0.3404363267376966,
      "grad_norm": 3.421875,
      "learning_rate": 9.610053369788314e-06,
      "loss": 1.11883907,
      "memory(GiB)": 112.26,
      "step": 13420,
      "train_speed(iter/s)": 1.129423
    },
    {
      "acc": 0.72748561,
      "epoch": 0.3405631659056317,
      "grad_norm": 3.6875,
      "learning_rate": 9.609647278588027e-06,
      "loss": 1.1975605,
      "memory(GiB)": 112.26,
      "step": 13425,
      "train_speed(iter/s)": 1.1295
    },
    {
      "acc": 0.72762179,
      "epoch": 0.3406900050735667,
      "grad_norm": 2.890625,
      "learning_rate": 9.609240984634871e-06,
      "loss": 1.06224203,
      "memory(GiB)": 112.26,
      "step": 13430,
      "train_speed(iter/s)": 1.129568
    },
    {
      "acc": 0.7349761,
      "epoch": 0.34081684424150177,
      "grad_norm": 3.8125,
      "learning_rate": 9.608834487946719e-06,
      "loss": 1.12202139,
      "memory(GiB)": 112.26,
      "step": 13435,
      "train_speed(iter/s)": 1.129574
    },
    {
      "acc": 0.71657066,
      "epoch": 0.3409436834094368,
      "grad_norm": 4.3125,
      "learning_rate": 9.60842778854145e-06,
      "loss": 1.12350235,
      "memory(GiB)": 112.26,
      "step": 13440,
      "train_speed(iter/s)": 1.129658
    },
    {
      "acc": 0.73583579,
      "epoch": 0.3410705225773719,
      "grad_norm": 3.5,
      "learning_rate": 9.60802088643695e-06,
      "loss": 1.0980916,
      "memory(GiB)": 112.26,
      "step": 13445,
      "train_speed(iter/s)": 1.129704
    },
    {
      "acc": 0.71744657,
      "epoch": 0.34119736174530696,
      "grad_norm": 3.265625,
      "learning_rate": 9.60761378165112e-06,
      "loss": 1.10544968,
      "memory(GiB)": 112.26,
      "step": 13450,
      "train_speed(iter/s)": 1.129737
    },
    {
      "acc": 0.74393191,
      "epoch": 0.341324200913242,
      "grad_norm": 3.5625,
      "learning_rate": 9.607206474201863e-06,
      "loss": 1.07821579,
      "memory(GiB)": 112.26,
      "step": 13455,
      "train_speed(iter/s)": 1.129324
    },
    {
      "acc": 0.73460064,
      "epoch": 0.34145104008117705,
      "grad_norm": 3.984375,
      "learning_rate": 9.606798964107096e-06,
      "loss": 1.16635504,
      "memory(GiB)": 112.26,
      "step": 13460,
      "train_speed(iter/s)": 1.129362
    },
    {
      "acc": 0.74030519,
      "epoch": 0.34157787924911215,
      "grad_norm": 3.828125,
      "learning_rate": 9.60639125138474e-06,
      "loss": 1.0570199,
      "memory(GiB)": 112.26,
      "step": 13465,
      "train_speed(iter/s)": 1.129448
    },
    {
      "acc": 0.73400402,
      "epoch": 0.3417047184170472,
      "grad_norm": 4.125,
      "learning_rate": 9.605983336052735e-06,
      "loss": 1.11156654,
      "memory(GiB)": 112.26,
      "step": 13470,
      "train_speed(iter/s)": 1.129541
    },
    {
      "acc": 0.71554232,
      "epoch": 0.34183155758498224,
      "grad_norm": 3.53125,
      "learning_rate": 9.605575218129017e-06,
      "loss": 1.13494377,
      "memory(GiB)": 112.26,
      "step": 13475,
      "train_speed(iter/s)": 1.129605
    },
    {
      "acc": 0.72018232,
      "epoch": 0.3419583967529173,
      "grad_norm": 3.59375,
      "learning_rate": 9.605166897631539e-06,
      "loss": 1.19102659,
      "memory(GiB)": 112.26,
      "step": 13480,
      "train_speed(iter/s)": 1.129643
    },
    {
      "acc": 0.73304324,
      "epoch": 0.3420852359208524,
      "grad_norm": 3.71875,
      "learning_rate": 9.604758374578259e-06,
      "loss": 1.1303587,
      "memory(GiB)": 112.26,
      "step": 13485,
      "train_speed(iter/s)": 1.129687
    },
    {
      "acc": 0.72704391,
      "epoch": 0.3422120750887874,
      "grad_norm": 4.75,
      "learning_rate": 9.604349648987148e-06,
      "loss": 1.11919479,
      "memory(GiB)": 112.26,
      "step": 13490,
      "train_speed(iter/s)": 1.129723
    },
    {
      "acc": 0.73396854,
      "epoch": 0.34233891425672247,
      "grad_norm": 3.953125,
      "learning_rate": 9.603940720876181e-06,
      "loss": 1.12688427,
      "memory(GiB)": 112.26,
      "step": 13495,
      "train_speed(iter/s)": 1.129773
    },
    {
      "acc": 0.72444167,
      "epoch": 0.3424657534246575,
      "grad_norm": 3.71875,
      "learning_rate": 9.603531590263348e-06,
      "loss": 1.10941505,
      "memory(GiB)": 112.26,
      "step": 13500,
      "train_speed(iter/s)": 1.129828
    },
    {
      "acc": 0.72949581,
      "epoch": 0.3425925925925926,
      "grad_norm": 3.0625,
      "learning_rate": 9.603122257166641e-06,
      "loss": 1.11416206,
      "memory(GiB)": 112.26,
      "step": 13505,
      "train_speed(iter/s)": 1.12988
    },
    {
      "acc": 0.74079924,
      "epoch": 0.34271943176052766,
      "grad_norm": 3.296875,
      "learning_rate": 9.602712721604066e-06,
      "loss": 1.06105423,
      "memory(GiB)": 112.26,
      "step": 13510,
      "train_speed(iter/s)": 1.129954
    },
    {
      "acc": 0.72603717,
      "epoch": 0.3428462709284627,
      "grad_norm": 4.15625,
      "learning_rate": 9.602302983593637e-06,
      "loss": 1.137957,
      "memory(GiB)": 112.26,
      "step": 13515,
      "train_speed(iter/s)": 1.130036
    },
    {
      "acc": 0.73507943,
      "epoch": 0.34297311009639775,
      "grad_norm": 4.5,
      "learning_rate": 9.601893043153372e-06,
      "loss": 1.09050941,
      "memory(GiB)": 112.26,
      "step": 13520,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.72862411,
      "epoch": 0.34309994926433285,
      "grad_norm": 3.578125,
      "learning_rate": 9.601482900301308e-06,
      "loss": 1.10731983,
      "memory(GiB)": 112.26,
      "step": 13525,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.73541994,
      "epoch": 0.3432267884322679,
      "grad_norm": 3.609375,
      "learning_rate": 9.60107255505548e-06,
      "loss": 1.12548876,
      "memory(GiB)": 112.26,
      "step": 13530,
      "train_speed(iter/s)": 1.130169
    },
    {
      "acc": 0.7143373,
      "epoch": 0.34335362760020294,
      "grad_norm": 3.40625,
      "learning_rate": 9.60066200743394e-06,
      "loss": 1.21839933,
      "memory(GiB)": 112.26,
      "step": 13535,
      "train_speed(iter/s)": 1.130271
    },
    {
      "acc": 0.72511139,
      "epoch": 0.343480466768138,
      "grad_norm": 5.1875,
      "learning_rate": 9.600251257454744e-06,
      "loss": 1.09796829,
      "memory(GiB)": 112.26,
      "step": 13540,
      "train_speed(iter/s)": 1.130365
    },
    {
      "acc": 0.7199863,
      "epoch": 0.3436073059360731,
      "grad_norm": 3.328125,
      "learning_rate": 9.599840305135959e-06,
      "loss": 1.14660778,
      "memory(GiB)": 112.26,
      "step": 13545,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.73721848,
      "epoch": 0.3437341451040081,
      "grad_norm": 3.609375,
      "learning_rate": 9.59942915049566e-06,
      "loss": 1.05366249,
      "memory(GiB)": 112.26,
      "step": 13550,
      "train_speed(iter/s)": 1.13051
    },
    {
      "acc": 0.71587601,
      "epoch": 0.34386098427194317,
      "grad_norm": 3.59375,
      "learning_rate": 9.599017793551933e-06,
      "loss": 1.12368736,
      "memory(GiB)": 112.26,
      "step": 13555,
      "train_speed(iter/s)": 1.130577
    },
    {
      "acc": 0.70919218,
      "epoch": 0.3439878234398782,
      "grad_norm": 3.703125,
      "learning_rate": 9.598606234322869e-06,
      "loss": 1.21641865,
      "memory(GiB)": 112.26,
      "step": 13560,
      "train_speed(iter/s)": 1.130612
    },
    {
      "acc": 0.74476461,
      "epoch": 0.3441146626078133,
      "grad_norm": 3.515625,
      "learning_rate": 9.598194472826574e-06,
      "loss": 1.09031839,
      "memory(GiB)": 112.26,
      "step": 13565,
      "train_speed(iter/s)": 1.13068
    },
    {
      "acc": 0.72945976,
      "epoch": 0.34424150177574836,
      "grad_norm": 4.4375,
      "learning_rate": 9.597782509081154e-06,
      "loss": 1.13528538,
      "memory(GiB)": 112.26,
      "step": 13570,
      "train_speed(iter/s)": 1.130726
    },
    {
      "acc": 0.73079958,
      "epoch": 0.3443683409436834,
      "grad_norm": 3.421875,
      "learning_rate": 9.597370343104733e-06,
      "loss": 1.08643351,
      "memory(GiB)": 112.26,
      "step": 13575,
      "train_speed(iter/s)": 1.130808
    },
    {
      "acc": 0.7390728,
      "epoch": 0.34449518011161845,
      "grad_norm": 4.3125,
      "learning_rate": 9.596957974915438e-06,
      "loss": 1.05015278,
      "memory(GiB)": 112.26,
      "step": 13580,
      "train_speed(iter/s)": 1.130831
    },
    {
      "acc": 0.72534504,
      "epoch": 0.34462201927955355,
      "grad_norm": 2.9375,
      "learning_rate": 9.596545404531408e-06,
      "loss": 1.13116083,
      "memory(GiB)": 112.26,
      "step": 13585,
      "train_speed(iter/s)": 1.130907
    },
    {
      "acc": 0.72241635,
      "epoch": 0.3447488584474886,
      "grad_norm": 3.28125,
      "learning_rate": 9.596132631970788e-06,
      "loss": 1.09503841,
      "memory(GiB)": 112.26,
      "step": 13590,
      "train_speed(iter/s)": 1.130974
    },
    {
      "acc": 0.75255294,
      "epoch": 0.34487569761542364,
      "grad_norm": 3.484375,
      "learning_rate": 9.595719657251735e-06,
      "loss": 1.05764923,
      "memory(GiB)": 112.26,
      "step": 13595,
      "train_speed(iter/s)": 1.130595
    },
    {
      "acc": 0.73895903,
      "epoch": 0.3450025367833587,
      "grad_norm": 4.0,
      "learning_rate": 9.595306480392413e-06,
      "loss": 1.08109055,
      "memory(GiB)": 112.26,
      "step": 13600,
      "train_speed(iter/s)": 1.130638
    },
    {
      "acc": 0.72719507,
      "epoch": 0.3451293759512938,
      "grad_norm": 4.4375,
      "learning_rate": 9.594893101410995e-06,
      "loss": 1.13246918,
      "memory(GiB)": 112.26,
      "step": 13605,
      "train_speed(iter/s)": 1.130688
    },
    {
      "acc": 0.72596407,
      "epoch": 0.3452562151192288,
      "grad_norm": 3.515625,
      "learning_rate": 9.594479520325665e-06,
      "loss": 1.12323837,
      "memory(GiB)": 112.26,
      "step": 13610,
      "train_speed(iter/s)": 1.130715
    },
    {
      "acc": 0.71900511,
      "epoch": 0.34538305428716387,
      "grad_norm": 3.9375,
      "learning_rate": 9.594065737154611e-06,
      "loss": 1.08135872,
      "memory(GiB)": 112.26,
      "step": 13615,
      "train_speed(iter/s)": 1.130805
    },
    {
      "acc": 0.73220196,
      "epoch": 0.3455098934550989,
      "grad_norm": 4.09375,
      "learning_rate": 9.593651751916037e-06,
      "loss": 1.05221663,
      "memory(GiB)": 112.26,
      "step": 13620,
      "train_speed(iter/s)": 1.130834
    },
    {
      "acc": 0.74321752,
      "epoch": 0.345636732623034,
      "grad_norm": 3.734375,
      "learning_rate": 9.593237564628149e-06,
      "loss": 1.00396776,
      "memory(GiB)": 112.26,
      "step": 13625,
      "train_speed(iter/s)": 1.130914
    },
    {
      "acc": 0.73987455,
      "epoch": 0.34576357179096906,
      "grad_norm": 3.5625,
      "learning_rate": 9.592823175309164e-06,
      "loss": 1.04204283,
      "memory(GiB)": 112.26,
      "step": 13630,
      "train_speed(iter/s)": 1.131013
    },
    {
      "acc": 0.73401594,
      "epoch": 0.3458904109589041,
      "grad_norm": 3.203125,
      "learning_rate": 9.592408583977311e-06,
      "loss": 1.07165632,
      "memory(GiB)": 112.26,
      "step": 13635,
      "train_speed(iter/s)": 1.131027
    },
    {
      "acc": 0.71609273,
      "epoch": 0.34601725012683915,
      "grad_norm": 4.03125,
      "learning_rate": 9.591993790650826e-06,
      "loss": 1.09274559,
      "memory(GiB)": 112.26,
      "step": 13640,
      "train_speed(iter/s)": 1.131109
    },
    {
      "acc": 0.72939682,
      "epoch": 0.34614408929477425,
      "grad_norm": 3.90625,
      "learning_rate": 9.591578795347952e-06,
      "loss": 1.13491211,
      "memory(GiB)": 112.26,
      "step": 13645,
      "train_speed(iter/s)": 1.131166
    },
    {
      "acc": 0.73427954,
      "epoch": 0.3462709284627093,
      "grad_norm": 4.125,
      "learning_rate": 9.591163598086943e-06,
      "loss": 1.10710945,
      "memory(GiB)": 112.26,
      "step": 13650,
      "train_speed(iter/s)": 1.131224
    },
    {
      "acc": 0.72730942,
      "epoch": 0.34639776763064434,
      "grad_norm": 3.34375,
      "learning_rate": 9.59074819888606e-06,
      "loss": 1.12576227,
      "memory(GiB)": 112.26,
      "step": 13655,
      "train_speed(iter/s)": 1.131302
    },
    {
      "acc": 0.73369126,
      "epoch": 0.3465246067985794,
      "grad_norm": 3.6875,
      "learning_rate": 9.590332597763575e-06,
      "loss": 1.08965349,
      "memory(GiB)": 112.26,
      "step": 13660,
      "train_speed(iter/s)": 1.131367
    },
    {
      "acc": 0.73279696,
      "epoch": 0.3466514459665145,
      "grad_norm": 3.6875,
      "learning_rate": 9.589916794737768e-06,
      "loss": 1.14132023,
      "memory(GiB)": 112.26,
      "step": 13665,
      "train_speed(iter/s)": 1.131442
    },
    {
      "acc": 0.72677422,
      "epoch": 0.3467782851344495,
      "grad_norm": 3.78125,
      "learning_rate": 9.589500789826927e-06,
      "loss": 1.1866375,
      "memory(GiB)": 112.26,
      "step": 13670,
      "train_speed(iter/s)": 1.131468
    },
    {
      "acc": 0.71560602,
      "epoch": 0.34690512430238457,
      "grad_norm": 3.71875,
      "learning_rate": 9.589084583049353e-06,
      "loss": 1.19828043,
      "memory(GiB)": 112.26,
      "step": 13675,
      "train_speed(iter/s)": 1.131494
    },
    {
      "acc": 0.7333899,
      "epoch": 0.3470319634703196,
      "grad_norm": 4.25,
      "learning_rate": 9.588668174423348e-06,
      "loss": 1.10970507,
      "memory(GiB)": 112.26,
      "step": 13680,
      "train_speed(iter/s)": 1.131543
    },
    {
      "acc": 0.72277136,
      "epoch": 0.3471588026382547,
      "grad_norm": 3.53125,
      "learning_rate": 9.588251563967232e-06,
      "loss": 1.15728874,
      "memory(GiB)": 112.26,
      "step": 13685,
      "train_speed(iter/s)": 1.131606
    },
    {
      "acc": 0.71959982,
      "epoch": 0.34728564180618976,
      "grad_norm": 3.546875,
      "learning_rate": 9.587834751699326e-06,
      "loss": 1.15717936,
      "memory(GiB)": 112.26,
      "step": 13690,
      "train_speed(iter/s)": 1.131642
    },
    {
      "acc": 0.72536588,
      "epoch": 0.3474124809741248,
      "grad_norm": 4.53125,
      "learning_rate": 9.587417737637963e-06,
      "loss": 1.15405979,
      "memory(GiB)": 112.26,
      "step": 13695,
      "train_speed(iter/s)": 1.131246
    },
    {
      "acc": 0.72981539,
      "epoch": 0.34753932014205985,
      "grad_norm": 3.890625,
      "learning_rate": 9.587000521801488e-06,
      "loss": 1.09706783,
      "memory(GiB)": 112.26,
      "step": 13700,
      "train_speed(iter/s)": 1.131256
    },
    {
      "acc": 0.73146877,
      "epoch": 0.34766615930999495,
      "grad_norm": 4.0,
      "learning_rate": 9.58658310420825e-06,
      "loss": 1.12488813,
      "memory(GiB)": 112.26,
      "step": 13705,
      "train_speed(iter/s)": 1.131301
    },
    {
      "acc": 0.73287754,
      "epoch": 0.34779299847793,
      "grad_norm": 3.671875,
      "learning_rate": 9.58616548487661e-06,
      "loss": 1.11212959,
      "memory(GiB)": 112.26,
      "step": 13710,
      "train_speed(iter/s)": 1.131364
    },
    {
      "acc": 0.73016815,
      "epoch": 0.34791983764586504,
      "grad_norm": 4.1875,
      "learning_rate": 9.585747663824936e-06,
      "loss": 1.15084629,
      "memory(GiB)": 112.26,
      "step": 13715,
      "train_speed(iter/s)": 1.131416
    },
    {
      "acc": 0.73306012,
      "epoch": 0.3480466768138001,
      "grad_norm": 3.875,
      "learning_rate": 9.585329641071606e-06,
      "loss": 1.09449577,
      "memory(GiB)": 112.26,
      "step": 13720,
      "train_speed(iter/s)": 1.13149
    },
    {
      "acc": 0.72360563,
      "epoch": 0.3481735159817352,
      "grad_norm": 4.3125,
      "learning_rate": 9.584911416635007e-06,
      "loss": 1.13273811,
      "memory(GiB)": 112.26,
      "step": 13725,
      "train_speed(iter/s)": 1.131546
    },
    {
      "acc": 0.72934456,
      "epoch": 0.3483003551496702,
      "grad_norm": 3.65625,
      "learning_rate": 9.584492990533533e-06,
      "loss": 1.12143326,
      "memory(GiB)": 112.26,
      "step": 13730,
      "train_speed(iter/s)": 1.131593
    },
    {
      "acc": 0.73441958,
      "epoch": 0.34842719431760527,
      "grad_norm": 3.6875,
      "learning_rate": 9.58407436278559e-06,
      "loss": 1.035742,
      "memory(GiB)": 112.26,
      "step": 13735,
      "train_speed(iter/s)": 1.131633
    },
    {
      "acc": 0.7240561,
      "epoch": 0.3485540334855403,
      "grad_norm": 3.5,
      "learning_rate": 9.583655533409588e-06,
      "loss": 1.11240978,
      "memory(GiB)": 112.26,
      "step": 13740,
      "train_speed(iter/s)": 1.131699
    },
    {
      "acc": 0.73372102,
      "epoch": 0.3486808726534754,
      "grad_norm": 2.953125,
      "learning_rate": 9.583236502423952e-06,
      "loss": 1.10842209,
      "memory(GiB)": 112.26,
      "step": 13745,
      "train_speed(iter/s)": 1.131736
    },
    {
      "acc": 0.73101282,
      "epoch": 0.34880771182141046,
      "grad_norm": 3.65625,
      "learning_rate": 9.582817269847112e-06,
      "loss": 1.14306755,
      "memory(GiB)": 112.26,
      "step": 13750,
      "train_speed(iter/s)": 1.131767
    },
    {
      "acc": 0.7343915,
      "epoch": 0.3489345509893455,
      "grad_norm": 3.71875,
      "learning_rate": 9.582397835697509e-06,
      "loss": 1.0736351,
      "memory(GiB)": 112.26,
      "step": 13755,
      "train_speed(iter/s)": 1.131792
    },
    {
      "acc": 0.72834148,
      "epoch": 0.34906139015728055,
      "grad_norm": 3.40625,
      "learning_rate": 9.581978199993587e-06,
      "loss": 1.11146746,
      "memory(GiB)": 112.26,
      "step": 13760,
      "train_speed(iter/s)": 1.131839
    },
    {
      "acc": 0.72432919,
      "epoch": 0.34918822932521565,
      "grad_norm": 3.15625,
      "learning_rate": 9.58155836275381e-06,
      "loss": 1.10500574,
      "memory(GiB)": 112.26,
      "step": 13765,
      "train_speed(iter/s)": 1.131891
    },
    {
      "acc": 0.72798796,
      "epoch": 0.3493150684931507,
      "grad_norm": 4.0625,
      "learning_rate": 9.581138323996639e-06,
      "loss": 1.1688858,
      "memory(GiB)": 112.26,
      "step": 13770,
      "train_speed(iter/s)": 1.131965
    },
    {
      "acc": 0.73992825,
      "epoch": 0.34944190766108574,
      "grad_norm": 3.4375,
      "learning_rate": 9.580718083740553e-06,
      "loss": 1.15266838,
      "memory(GiB)": 112.26,
      "step": 13775,
      "train_speed(iter/s)": 1.131988
    },
    {
      "acc": 0.75382328,
      "epoch": 0.3495687468290208,
      "grad_norm": 3.59375,
      "learning_rate": 9.580297642004032e-06,
      "loss": 1.03105659,
      "memory(GiB)": 112.26,
      "step": 13780,
      "train_speed(iter/s)": 1.132008
    },
    {
      "acc": 0.73314853,
      "epoch": 0.3496955859969559,
      "grad_norm": 3.359375,
      "learning_rate": 9.579876998805573e-06,
      "loss": 1.15280228,
      "memory(GiB)": 112.26,
      "step": 13785,
      "train_speed(iter/s)": 1.132076
    },
    {
      "acc": 0.73240771,
      "epoch": 0.3498224251648909,
      "grad_norm": 3.875,
      "learning_rate": 9.579456154163676e-06,
      "loss": 1.11614943,
      "memory(GiB)": 112.26,
      "step": 13790,
      "train_speed(iter/s)": 1.132162
    },
    {
      "acc": 0.71951809,
      "epoch": 0.34994926433282597,
      "grad_norm": 3.546875,
      "learning_rate": 9.57903510809685e-06,
      "loss": 1.12047682,
      "memory(GiB)": 112.26,
      "step": 13795,
      "train_speed(iter/s)": 1.132198
    },
    {
      "acc": 0.73430405,
      "epoch": 0.350076103500761,
      "grad_norm": 4.15625,
      "learning_rate": 9.578613860623617e-06,
      "loss": 1.08636532,
      "memory(GiB)": 112.26,
      "step": 13800,
      "train_speed(iter/s)": 1.132232
    },
    {
      "acc": 0.73895798,
      "epoch": 0.3502029426686961,
      "grad_norm": 3.71875,
      "learning_rate": 9.578192411762503e-06,
      "loss": 1.0239809,
      "memory(GiB)": 112.26,
      "step": 13805,
      "train_speed(iter/s)": 1.132266
    },
    {
      "acc": 0.71987929,
      "epoch": 0.35032978183663116,
      "grad_norm": 3.0625,
      "learning_rate": 9.577770761532049e-06,
      "loss": 1.17959442,
      "memory(GiB)": 112.26,
      "step": 13810,
      "train_speed(iter/s)": 1.13231
    },
    {
      "acc": 0.73009143,
      "epoch": 0.3504566210045662,
      "grad_norm": 3.953125,
      "learning_rate": 9.577348909950797e-06,
      "loss": 1.12987919,
      "memory(GiB)": 112.26,
      "step": 13815,
      "train_speed(iter/s)": 1.132337
    },
    {
      "acc": 0.74066563,
      "epoch": 0.35058346017250125,
      "grad_norm": 3.46875,
      "learning_rate": 9.576926857037303e-06,
      "loss": 0.99035902,
      "memory(GiB)": 112.26,
      "step": 13820,
      "train_speed(iter/s)": 1.13239
    },
    {
      "acc": 0.7409586,
      "epoch": 0.35071029934043635,
      "grad_norm": 3.796875,
      "learning_rate": 9.576504602810133e-06,
      "loss": 1.1104682,
      "memory(GiB)": 112.26,
      "step": 13825,
      "train_speed(iter/s)": 1.132462
    },
    {
      "acc": 0.7445919,
      "epoch": 0.3508371385083714,
      "grad_norm": 3.421875,
      "learning_rate": 9.576082147287858e-06,
      "loss": 1.08008213,
      "memory(GiB)": 112.26,
      "step": 13830,
      "train_speed(iter/s)": 1.132487
    },
    {
      "acc": 0.72870569,
      "epoch": 0.35096397767630644,
      "grad_norm": 3.984375,
      "learning_rate": 9.575659490489058e-06,
      "loss": 1.07634535,
      "memory(GiB)": 112.26,
      "step": 13835,
      "train_speed(iter/s)": 1.132549
    },
    {
      "acc": 0.73557358,
      "epoch": 0.3510908168442415,
      "grad_norm": 3.59375,
      "learning_rate": 9.575236632432325e-06,
      "loss": 1.12281837,
      "memory(GiB)": 112.26,
      "step": 13840,
      "train_speed(iter/s)": 1.132619
    },
    {
      "acc": 0.73305326,
      "epoch": 0.3512176560121766,
      "grad_norm": 4.09375,
      "learning_rate": 9.574813573136259e-06,
      "loss": 1.12880936,
      "memory(GiB)": 112.26,
      "step": 13845,
      "train_speed(iter/s)": 1.132675
    },
    {
      "acc": 0.73318453,
      "epoch": 0.3513444951801116,
      "grad_norm": 3.28125,
      "learning_rate": 9.574390312619466e-06,
      "loss": 1.10093307,
      "memory(GiB)": 112.26,
      "step": 13850,
      "train_speed(iter/s)": 1.132744
    },
    {
      "acc": 0.73346348,
      "epoch": 0.35147133434804667,
      "grad_norm": 3.390625,
      "learning_rate": 9.573966850900565e-06,
      "loss": 1.12635384,
      "memory(GiB)": 112.26,
      "step": 13855,
      "train_speed(iter/s)": 1.132762
    },
    {
      "acc": 0.7273716,
      "epoch": 0.3515981735159817,
      "grad_norm": 3.75,
      "learning_rate": 9.57354318799818e-06,
      "loss": 1.09431744,
      "memory(GiB)": 112.26,
      "step": 13860,
      "train_speed(iter/s)": 1.13282
    },
    {
      "acc": 0.72837381,
      "epoch": 0.3517250126839168,
      "grad_norm": 3.578125,
      "learning_rate": 9.573119323930946e-06,
      "loss": 1.0890852,
      "memory(GiB)": 112.26,
      "step": 13865,
      "train_speed(iter/s)": 1.132886
    },
    {
      "acc": 0.73603902,
      "epoch": 0.35185185185185186,
      "grad_norm": 3.609375,
      "learning_rate": 9.572695258717507e-06,
      "loss": 1.1083725,
      "memory(GiB)": 112.26,
      "step": 13870,
      "train_speed(iter/s)": 1.132954
    },
    {
      "acc": 0.7246264,
      "epoch": 0.3519786910197869,
      "grad_norm": 3.484375,
      "learning_rate": 9.572270992376513e-06,
      "loss": 1.113766,
      "memory(GiB)": 112.26,
      "step": 13875,
      "train_speed(iter/s)": 1.133013
    },
    {
      "acc": 0.72932382,
      "epoch": 0.35210553018772195,
      "grad_norm": 3.34375,
      "learning_rate": 9.571846524926629e-06,
      "loss": 1.11544819,
      "memory(GiB)": 112.26,
      "step": 13880,
      "train_speed(iter/s)": 1.133077
    },
    {
      "acc": 0.73902941,
      "epoch": 0.35223236935565705,
      "grad_norm": 3.34375,
      "learning_rate": 9.571421856386522e-06,
      "loss": 1.11724501,
      "memory(GiB)": 112.26,
      "step": 13885,
      "train_speed(iter/s)": 1.133158
    },
    {
      "acc": 0.72948999,
      "epoch": 0.3523592085235921,
      "grad_norm": 3.75,
      "learning_rate": 9.570996986774872e-06,
      "loss": 1.11709127,
      "memory(GiB)": 112.26,
      "step": 13890,
      "train_speed(iter/s)": 1.133191
    },
    {
      "acc": 0.72988577,
      "epoch": 0.35248604769152714,
      "grad_norm": 4.53125,
      "learning_rate": 9.570571916110366e-06,
      "loss": 1.1379796,
      "memory(GiB)": 112.26,
      "step": 13895,
      "train_speed(iter/s)": 1.133197
    },
    {
      "acc": 0.73910933,
      "epoch": 0.3526128868594622,
      "grad_norm": 3.34375,
      "learning_rate": 9.570146644411705e-06,
      "loss": 1.09682302,
      "memory(GiB)": 112.26,
      "step": 13900,
      "train_speed(iter/s)": 1.133238
    },
    {
      "acc": 0.73126745,
      "epoch": 0.3527397260273973,
      "grad_norm": 3.96875,
      "learning_rate": 9.569721171697587e-06,
      "loss": 1.12403898,
      "memory(GiB)": 112.26,
      "step": 13905,
      "train_speed(iter/s)": 1.133312
    },
    {
      "acc": 0.72665768,
      "epoch": 0.3528665651953323,
      "grad_norm": 3.40625,
      "learning_rate": 9.569295497986727e-06,
      "loss": 1.18641033,
      "memory(GiB)": 112.26,
      "step": 13910,
      "train_speed(iter/s)": 1.133394
    },
    {
      "acc": 0.74631052,
      "epoch": 0.35299340436326737,
      "grad_norm": 3.921875,
      "learning_rate": 9.568869623297855e-06,
      "loss": 1.07081022,
      "memory(GiB)": 112.26,
      "step": 13915,
      "train_speed(iter/s)": 1.133474
    },
    {
      "acc": 0.72241254,
      "epoch": 0.3531202435312024,
      "grad_norm": 3.453125,
      "learning_rate": 9.568443547649697e-06,
      "loss": 1.2167902,
      "memory(GiB)": 112.26,
      "step": 13920,
      "train_speed(iter/s)": 1.133533
    },
    {
      "acc": 0.73327627,
      "epoch": 0.3532470826991375,
      "grad_norm": 3.859375,
      "learning_rate": 9.568017271060994e-06,
      "loss": 1.13219147,
      "memory(GiB)": 112.26,
      "step": 13925,
      "train_speed(iter/s)": 1.133545
    },
    {
      "acc": 0.73444471,
      "epoch": 0.35337392186707256,
      "grad_norm": 4.625,
      "learning_rate": 9.567590793550498e-06,
      "loss": 1.09291496,
      "memory(GiB)": 112.26,
      "step": 13930,
      "train_speed(iter/s)": 1.133588
    },
    {
      "acc": 0.72860198,
      "epoch": 0.3535007610350076,
      "grad_norm": 4.03125,
      "learning_rate": 9.567164115136965e-06,
      "loss": 1.12785606,
      "memory(GiB)": 112.26,
      "step": 13935,
      "train_speed(iter/s)": 1.133663
    },
    {
      "acc": 0.73745933,
      "epoch": 0.35362760020294265,
      "grad_norm": 3.359375,
      "learning_rate": 9.566737235839166e-06,
      "loss": 1.11183367,
      "memory(GiB)": 112.26,
      "step": 13940,
      "train_speed(iter/s)": 1.13373
    },
    {
      "acc": 0.72630973,
      "epoch": 0.35375443937087775,
      "grad_norm": 4.3125,
      "learning_rate": 9.566310155675871e-06,
      "loss": 1.13500881,
      "memory(GiB)": 112.26,
      "step": 13945,
      "train_speed(iter/s)": 1.133772
    },
    {
      "acc": 0.71789627,
      "epoch": 0.3538812785388128,
      "grad_norm": 2.84375,
      "learning_rate": 9.56588287466587e-06,
      "loss": 1.09482441,
      "memory(GiB)": 112.26,
      "step": 13950,
      "train_speed(iter/s)": 1.133811
    },
    {
      "acc": 0.74056249,
      "epoch": 0.35400811770674784,
      "grad_norm": 4.0,
      "learning_rate": 9.565455392827954e-06,
      "loss": 1.07982159,
      "memory(GiB)": 112.26,
      "step": 13955,
      "train_speed(iter/s)": 1.133858
    },
    {
      "acc": 0.73006315,
      "epoch": 0.3541349568746829,
      "grad_norm": 3.375,
      "learning_rate": 9.565027710180927e-06,
      "loss": 1.12484598,
      "memory(GiB)": 112.26,
      "step": 13960,
      "train_speed(iter/s)": 1.133932
    },
    {
      "acc": 0.74051008,
      "epoch": 0.354261796042618,
      "grad_norm": 3.703125,
      "learning_rate": 9.5645998267436e-06,
      "loss": 1.02144909,
      "memory(GiB)": 112.26,
      "step": 13965,
      "train_speed(iter/s)": 1.134009
    },
    {
      "acc": 0.71621652,
      "epoch": 0.354388635210553,
      "grad_norm": 3.375,
      "learning_rate": 9.564171742534794e-06,
      "loss": 1.12545109,
      "memory(GiB)": 112.26,
      "step": 13970,
      "train_speed(iter/s)": 1.134059
    },
    {
      "acc": 0.72555008,
      "epoch": 0.35451547437848807,
      "grad_norm": 4.125,
      "learning_rate": 9.563743457573336e-06,
      "loss": 1.14389992,
      "memory(GiB)": 112.26,
      "step": 13975,
      "train_speed(iter/s)": 1.134088
    },
    {
      "acc": 0.72324505,
      "epoch": 0.3546423135464231,
      "grad_norm": 3.359375,
      "learning_rate": 9.563314971878065e-06,
      "loss": 1.13694057,
      "memory(GiB)": 112.26,
      "step": 13980,
      "train_speed(iter/s)": 1.134112
    },
    {
      "acc": 0.7251092,
      "epoch": 0.3547691527143582,
      "grad_norm": 3.671875,
      "learning_rate": 9.562886285467828e-06,
      "loss": 1.09663086,
      "memory(GiB)": 112.26,
      "step": 13985,
      "train_speed(iter/s)": 1.134157
    },
    {
      "acc": 0.7250061,
      "epoch": 0.35489599188229326,
      "grad_norm": 3.9375,
      "learning_rate": 9.56245739836148e-06,
      "loss": 1.14041338,
      "memory(GiB)": 112.26,
      "step": 13990,
      "train_speed(iter/s)": 1.13422
    },
    {
      "acc": 0.72532921,
      "epoch": 0.3550228310502283,
      "grad_norm": 4.1875,
      "learning_rate": 9.562028310577887e-06,
      "loss": 1.10047722,
      "memory(GiB)": 112.26,
      "step": 13995,
      "train_speed(iter/s)": 1.134259
    },
    {
      "acc": 0.72740507,
      "epoch": 0.35514967021816335,
      "grad_norm": 3.859375,
      "learning_rate": 9.56159902213592e-06,
      "loss": 1.14662342,
      "memory(GiB)": 112.26,
      "step": 14000,
      "train_speed(iter/s)": 1.13434
    },
    {
      "epoch": 0.35514967021816335,
      "eval_acc": 0.7187034960332626,
      "eval_loss": 1.081547737121582,
      "eval_runtime": 70.9025,
      "eval_samples_per_second": 89.842,
      "eval_steps_per_second": 22.467,
      "step": 14000
    },
    {
      "acc": 0.7287653,
      "epoch": 0.35527650938609845,
      "grad_norm": 4.0625,
      "learning_rate": 9.561169533054462e-06,
      "loss": 1.11551895,
      "memory(GiB)": 112.26,
      "step": 14005,
      "train_speed(iter/s)": 1.123865
    },
    {
      "acc": 0.73185353,
      "epoch": 0.3554033485540335,
      "grad_norm": 4.53125,
      "learning_rate": 9.560739843352404e-06,
      "loss": 1.152318,
      "memory(GiB)": 112.26,
      "step": 14010,
      "train_speed(iter/s)": 1.123927
    },
    {
      "acc": 0.72293506,
      "epoch": 0.35553018772196854,
      "grad_norm": 4.0,
      "learning_rate": 9.560309953048645e-06,
      "loss": 1.16571388,
      "memory(GiB)": 112.26,
      "step": 14015,
      "train_speed(iter/s)": 1.123976
    },
    {
      "acc": 0.71704378,
      "epoch": 0.3556570268899036,
      "grad_norm": 3.34375,
      "learning_rate": 9.559879862162095e-06,
      "loss": 1.14803085,
      "memory(GiB)": 112.26,
      "step": 14020,
      "train_speed(iter/s)": 1.124015
    },
    {
      "acc": 0.72897825,
      "epoch": 0.3557838660578387,
      "grad_norm": 3.859375,
      "learning_rate": 9.55944957071167e-06,
      "loss": 1.16834526,
      "memory(GiB)": 112.26,
      "step": 14025,
      "train_speed(iter/s)": 1.124077
    },
    {
      "acc": 0.73274641,
      "epoch": 0.3559107052257737,
      "grad_norm": 4.59375,
      "learning_rate": 9.559019078716295e-06,
      "loss": 1.13767815,
      "memory(GiB)": 112.26,
      "step": 14030,
      "train_speed(iter/s)": 1.124177
    },
    {
      "acc": 0.72054162,
      "epoch": 0.35603754439370877,
      "grad_norm": 4.8125,
      "learning_rate": 9.558588386194907e-06,
      "loss": 1.1852169,
      "memory(GiB)": 112.26,
      "step": 14035,
      "train_speed(iter/s)": 1.124244
    },
    {
      "acc": 0.72402582,
      "epoch": 0.3561643835616438,
      "grad_norm": 4.625,
      "learning_rate": 9.55815749316645e-06,
      "loss": 1.07109652,
      "memory(GiB)": 112.26,
      "step": 14040,
      "train_speed(iter/s)": 1.124289
    },
    {
      "acc": 0.72061419,
      "epoch": 0.3562912227295789,
      "grad_norm": 3.609375,
      "learning_rate": 9.557726399649875e-06,
      "loss": 1.12624931,
      "memory(GiB)": 112.26,
      "step": 14045,
      "train_speed(iter/s)": 1.124347
    },
    {
      "acc": 0.72851205,
      "epoch": 0.35641806189751396,
      "grad_norm": 4.9375,
      "learning_rate": 9.557295105664144e-06,
      "loss": 1.10388031,
      "memory(GiB)": 112.26,
      "step": 14050,
      "train_speed(iter/s)": 1.12442
    },
    {
      "acc": 0.72625065,
      "epoch": 0.356544901065449,
      "grad_norm": 3.765625,
      "learning_rate": 9.556863611228228e-06,
      "loss": 1.1414712,
      "memory(GiB)": 112.26,
      "step": 14055,
      "train_speed(iter/s)": 1.124408
    },
    {
      "acc": 0.72952399,
      "epoch": 0.35667174023338405,
      "grad_norm": 3.9375,
      "learning_rate": 9.556431916361105e-06,
      "loss": 1.09052544,
      "memory(GiB)": 112.26,
      "step": 14060,
      "train_speed(iter/s)": 1.124454
    },
    {
      "acc": 0.72337465,
      "epoch": 0.35679857940131915,
      "grad_norm": 3.859375,
      "learning_rate": 9.556000021081764e-06,
      "loss": 1.12083549,
      "memory(GiB)": 112.26,
      "step": 14065,
      "train_speed(iter/s)": 1.124504
    },
    {
      "acc": 0.74443703,
      "epoch": 0.3569254185692542,
      "grad_norm": 4.375,
      "learning_rate": 9.5555679254092e-06,
      "loss": 1.03794127,
      "memory(GiB)": 112.26,
      "step": 14070,
      "train_speed(iter/s)": 1.124565
    },
    {
      "acc": 0.7200892,
      "epoch": 0.35705225773718924,
      "grad_norm": 4.125,
      "learning_rate": 9.55513562936242e-06,
      "loss": 1.1898344,
      "memory(GiB)": 112.26,
      "step": 14075,
      "train_speed(iter/s)": 1.124616
    },
    {
      "acc": 0.71517029,
      "epoch": 0.3571790969051243,
      "grad_norm": 4.0625,
      "learning_rate": 9.554703132960437e-06,
      "loss": 1.21258602,
      "memory(GiB)": 112.26,
      "step": 14080,
      "train_speed(iter/s)": 1.124647
    },
    {
      "acc": 0.74935298,
      "epoch": 0.3573059360730594,
      "grad_norm": 3.34375,
      "learning_rate": 9.554270436222277e-06,
      "loss": 1.03482933,
      "memory(GiB)": 112.26,
      "step": 14085,
      "train_speed(iter/s)": 1.124655
    },
    {
      "acc": 0.72594333,
      "epoch": 0.3574327752409944,
      "grad_norm": 3.640625,
      "learning_rate": 9.553837539166969e-06,
      "loss": 1.10117426,
      "memory(GiB)": 112.26,
      "step": 14090,
      "train_speed(iter/s)": 1.124722
    },
    {
      "acc": 0.72062788,
      "epoch": 0.35755961440892947,
      "grad_norm": 3.796875,
      "learning_rate": 9.553404441813554e-06,
      "loss": 1.15378904,
      "memory(GiB)": 112.26,
      "step": 14095,
      "train_speed(iter/s)": 1.124746
    },
    {
      "acc": 0.73522253,
      "epoch": 0.3576864535768645,
      "grad_norm": 5.21875,
      "learning_rate": 9.552971144181083e-06,
      "loss": 1.07309322,
      "memory(GiB)": 112.26,
      "step": 14100,
      "train_speed(iter/s)": 1.124764
    },
    {
      "acc": 0.73536177,
      "epoch": 0.3578132927447996,
      "grad_norm": 3.453125,
      "learning_rate": 9.552537646288612e-06,
      "loss": 1.11730537,
      "memory(GiB)": 112.26,
      "step": 14105,
      "train_speed(iter/s)": 1.124824
    },
    {
      "acc": 0.74425311,
      "epoch": 0.35794013191273466,
      "grad_norm": 3.8125,
      "learning_rate": 9.552103948155211e-06,
      "loss": 1.07087154,
      "memory(GiB)": 112.26,
      "step": 14110,
      "train_speed(iter/s)": 1.124887
    },
    {
      "acc": 0.74493394,
      "epoch": 0.3580669710806697,
      "grad_norm": 4.40625,
      "learning_rate": 9.551670049799954e-06,
      "loss": 1.0936636,
      "memory(GiB)": 112.26,
      "step": 14115,
      "train_speed(iter/s)": 1.124968
    },
    {
      "acc": 0.72239842,
      "epoch": 0.35819381024860475,
      "grad_norm": 3.703125,
      "learning_rate": 9.551235951241927e-06,
      "loss": 1.09988194,
      "memory(GiB)": 112.26,
      "step": 14120,
      "train_speed(iter/s)": 1.125021
    },
    {
      "acc": 0.71845016,
      "epoch": 0.35832064941653985,
      "grad_norm": 4.03125,
      "learning_rate": 9.550801652500223e-06,
      "loss": 1.21449347,
      "memory(GiB)": 112.26,
      "step": 14125,
      "train_speed(iter/s)": 1.125054
    },
    {
      "acc": 0.73505192,
      "epoch": 0.3584474885844749,
      "grad_norm": 3.9375,
      "learning_rate": 9.550367153593944e-06,
      "loss": 1.11687622,
      "memory(GiB)": 112.26,
      "step": 14130,
      "train_speed(iter/s)": 1.1251
    },
    {
      "acc": 0.72852235,
      "epoch": 0.35857432775240994,
      "grad_norm": 3.34375,
      "learning_rate": 9.549932454542202e-06,
      "loss": 1.10030117,
      "memory(GiB)": 112.26,
      "step": 14135,
      "train_speed(iter/s)": 1.125114
    },
    {
      "acc": 0.74351573,
      "epoch": 0.358701166920345,
      "grad_norm": 5.25,
      "learning_rate": 9.549497555364115e-06,
      "loss": 1.03570518,
      "memory(GiB)": 112.26,
      "step": 14140,
      "train_speed(iter/s)": 1.1252
    },
    {
      "acc": 0.73409309,
      "epoch": 0.3588280060882801,
      "grad_norm": 4.78125,
      "learning_rate": 9.549062456078816e-06,
      "loss": 1.10408812,
      "memory(GiB)": 112.26,
      "step": 14145,
      "train_speed(iter/s)": 1.125257
    },
    {
      "acc": 0.73029699,
      "epoch": 0.3589548452562151,
      "grad_norm": 3.546875,
      "learning_rate": 9.54862715670544e-06,
      "loss": 1.0940856,
      "memory(GiB)": 112.26,
      "step": 14150,
      "train_speed(iter/s)": 1.125313
    },
    {
      "acc": 0.73573389,
      "epoch": 0.35908168442415017,
      "grad_norm": 3.3125,
      "learning_rate": 9.548191657263132e-06,
      "loss": 1.09559994,
      "memory(GiB)": 112.26,
      "step": 14155,
      "train_speed(iter/s)": 1.125401
    },
    {
      "acc": 0.73855448,
      "epoch": 0.3592085235920852,
      "grad_norm": 3.53125,
      "learning_rate": 9.547755957771049e-06,
      "loss": 1.09772549,
      "memory(GiB)": 112.26,
      "step": 14160,
      "train_speed(iter/s)": 1.125434
    },
    {
      "acc": 0.73516011,
      "epoch": 0.3593353627600203,
      "grad_norm": 3.5,
      "learning_rate": 9.547320058248356e-06,
      "loss": 1.07232523,
      "memory(GiB)": 112.26,
      "step": 14165,
      "train_speed(iter/s)": 1.125496
    },
    {
      "acc": 0.72920361,
      "epoch": 0.35946220192795536,
      "grad_norm": 3.96875,
      "learning_rate": 9.546883958714223e-06,
      "loss": 1.14065857,
      "memory(GiB)": 112.26,
      "step": 14170,
      "train_speed(iter/s)": 1.125573
    },
    {
      "acc": 0.71114049,
      "epoch": 0.3595890410958904,
      "grad_norm": 3.78125,
      "learning_rate": 9.546447659187834e-06,
      "loss": 1.17791443,
      "memory(GiB)": 112.26,
      "step": 14175,
      "train_speed(iter/s)": 1.125635
    },
    {
      "acc": 0.74062557,
      "epoch": 0.35971588026382545,
      "grad_norm": 3.328125,
      "learning_rate": 9.546011159688377e-06,
      "loss": 1.08285389,
      "memory(GiB)": 112.26,
      "step": 14180,
      "train_speed(iter/s)": 1.125704
    },
    {
      "acc": 0.72835903,
      "epoch": 0.35984271943176055,
      "grad_norm": 3.734375,
      "learning_rate": 9.545574460235055e-06,
      "loss": 1.13755779,
      "memory(GiB)": 112.26,
      "step": 14185,
      "train_speed(iter/s)": 1.125758
    },
    {
      "acc": 0.7301713,
      "epoch": 0.3599695585996956,
      "grad_norm": 3.5,
      "learning_rate": 9.545137560847071e-06,
      "loss": 1.07366085,
      "memory(GiB)": 112.26,
      "step": 14190,
      "train_speed(iter/s)": 1.125824
    },
    {
      "acc": 0.73379521,
      "epoch": 0.36009639776763064,
      "grad_norm": 3.828125,
      "learning_rate": 9.544700461543647e-06,
      "loss": 1.09338284,
      "memory(GiB)": 112.26,
      "step": 14195,
      "train_speed(iter/s)": 1.125915
    },
    {
      "acc": 0.73989086,
      "epoch": 0.3602232369355657,
      "grad_norm": 3.609375,
      "learning_rate": 9.544263162344005e-06,
      "loss": 1.08084908,
      "memory(GiB)": 112.26,
      "step": 14200,
      "train_speed(iter/s)": 1.125991
    },
    {
      "acc": 0.72165956,
      "epoch": 0.3603500761035008,
      "grad_norm": 4.0625,
      "learning_rate": 9.54382566326738e-06,
      "loss": 1.16252108,
      "memory(GiB)": 112.26,
      "step": 14205,
      "train_speed(iter/s)": 1.126062
    },
    {
      "acc": 0.72266188,
      "epoch": 0.3604769152714358,
      "grad_norm": 3.375,
      "learning_rate": 9.543387964333018e-06,
      "loss": 1.08985586,
      "memory(GiB)": 112.26,
      "step": 14210,
      "train_speed(iter/s)": 1.126118
    },
    {
      "acc": 0.71498237,
      "epoch": 0.36060375443937087,
      "grad_norm": 3.96875,
      "learning_rate": 9.542950065560165e-06,
      "loss": 1.12069368,
      "memory(GiB)": 112.26,
      "step": 14215,
      "train_speed(iter/s)": 1.126196
    },
    {
      "acc": 0.71680536,
      "epoch": 0.3607305936073059,
      "grad_norm": 3.4375,
      "learning_rate": 9.542511966968087e-06,
      "loss": 1.17859268,
      "memory(GiB)": 112.26,
      "step": 14220,
      "train_speed(iter/s)": 1.126237
    },
    {
      "acc": 0.7354022,
      "epoch": 0.360857432775241,
      "grad_norm": 3.8125,
      "learning_rate": 9.542073668576052e-06,
      "loss": 1.04024754,
      "memory(GiB)": 112.26,
      "step": 14225,
      "train_speed(iter/s)": 1.126294
    },
    {
      "acc": 0.73432183,
      "epoch": 0.36098427194317606,
      "grad_norm": 2.9375,
      "learning_rate": 9.541635170403338e-06,
      "loss": 1.06601477,
      "memory(GiB)": 112.26,
      "step": 14230,
      "train_speed(iter/s)": 1.126349
    },
    {
      "acc": 0.72788839,
      "epoch": 0.3611111111111111,
      "grad_norm": 3.453125,
      "learning_rate": 9.541196472469234e-06,
      "loss": 1.0976119,
      "memory(GiB)": 112.26,
      "step": 14235,
      "train_speed(iter/s)": 1.126345
    },
    {
      "acc": 0.72532144,
      "epoch": 0.36123795027904615,
      "grad_norm": 4.3125,
      "learning_rate": 9.540757574793032e-06,
      "loss": 1.12938023,
      "memory(GiB)": 112.26,
      "step": 14240,
      "train_speed(iter/s)": 1.126414
    },
    {
      "acc": 0.72728987,
      "epoch": 0.36136478944698125,
      "grad_norm": 3.765625,
      "learning_rate": 9.540318477394039e-06,
      "loss": 1.11982527,
      "memory(GiB)": 112.26,
      "step": 14245,
      "train_speed(iter/s)": 1.126502
    },
    {
      "acc": 0.74570584,
      "epoch": 0.3614916286149163,
      "grad_norm": 3.125,
      "learning_rate": 9.539879180291568e-06,
      "loss": 1.06300344,
      "memory(GiB)": 112.26,
      "step": 14250,
      "train_speed(iter/s)": 1.126547
    },
    {
      "acc": 0.73128777,
      "epoch": 0.36161846778285134,
      "grad_norm": 3.484375,
      "learning_rate": 9.539439683504943e-06,
      "loss": 1.1053278,
      "memory(GiB)": 112.26,
      "step": 14255,
      "train_speed(iter/s)": 1.126604
    },
    {
      "acc": 0.72132277,
      "epoch": 0.3617453069507864,
      "grad_norm": 3.71875,
      "learning_rate": 9.538999987053492e-06,
      "loss": 1.20261879,
      "memory(GiB)": 112.26,
      "step": 14260,
      "train_speed(iter/s)": 1.126691
    },
    {
      "acc": 0.72302399,
      "epoch": 0.3618721461187215,
      "grad_norm": 3.3125,
      "learning_rate": 9.538560090956557e-06,
      "loss": 1.13714685,
      "memory(GiB)": 112.26,
      "step": 14265,
      "train_speed(iter/s)": 1.12673
    },
    {
      "acc": 0.73877435,
      "epoch": 0.3619989852866565,
      "grad_norm": 4.21875,
      "learning_rate": 9.538119995233485e-06,
      "loss": 1.10627327,
      "memory(GiB)": 112.26,
      "step": 14270,
      "train_speed(iter/s)": 1.126787
    },
    {
      "acc": 0.73622303,
      "epoch": 0.36212582445459157,
      "grad_norm": 3.28125,
      "learning_rate": 9.537679699903637e-06,
      "loss": 1.11264839,
      "memory(GiB)": 112.26,
      "step": 14275,
      "train_speed(iter/s)": 1.126833
    },
    {
      "acc": 0.74522672,
      "epoch": 0.3622526636225266,
      "grad_norm": 4.65625,
      "learning_rate": 9.537239204986375e-06,
      "loss": 1.01381874,
      "memory(GiB)": 112.26,
      "step": 14280,
      "train_speed(iter/s)": 1.126908
    },
    {
      "acc": 0.71580024,
      "epoch": 0.3623795027904617,
      "grad_norm": 3.40625,
      "learning_rate": 9.536798510501075e-06,
      "loss": 1.12483568,
      "memory(GiB)": 112.26,
      "step": 14285,
      "train_speed(iter/s)": 1.126982
    },
    {
      "acc": 0.74171858,
      "epoch": 0.36250634195839676,
      "grad_norm": 6.0625,
      "learning_rate": 9.536357616467123e-06,
      "loss": 1.085886,
      "memory(GiB)": 112.26,
      "step": 14290,
      "train_speed(iter/s)": 1.127068
    },
    {
      "acc": 0.73368168,
      "epoch": 0.3626331811263318,
      "grad_norm": 3.25,
      "learning_rate": 9.535916522903908e-06,
      "loss": 1.05577183,
      "memory(GiB)": 112.26,
      "step": 14295,
      "train_speed(iter/s)": 1.127123
    },
    {
      "acc": 0.71332006,
      "epoch": 0.36276002029426685,
      "grad_norm": 4.375,
      "learning_rate": 9.535475229830832e-06,
      "loss": 1.19064121,
      "memory(GiB)": 112.26,
      "step": 14300,
      "train_speed(iter/s)": 1.12716
    },
    {
      "acc": 0.72860947,
      "epoch": 0.36288685946220195,
      "grad_norm": 3.375,
      "learning_rate": 9.535033737267308e-06,
      "loss": 1.06624756,
      "memory(GiB)": 112.26,
      "step": 14305,
      "train_speed(iter/s)": 1.127221
    },
    {
      "acc": 0.72794361,
      "epoch": 0.363013698630137,
      "grad_norm": 3.734375,
      "learning_rate": 9.534592045232752e-06,
      "loss": 1.03502026,
      "memory(GiB)": 112.26,
      "step": 14310,
      "train_speed(iter/s)": 1.127247
    },
    {
      "acc": 0.71576686,
      "epoch": 0.36314053779807204,
      "grad_norm": 3.921875,
      "learning_rate": 9.534150153746591e-06,
      "loss": 1.2073473,
      "memory(GiB)": 112.26,
      "step": 14315,
      "train_speed(iter/s)": 1.127251
    },
    {
      "acc": 0.72714787,
      "epoch": 0.3632673769660071,
      "grad_norm": 4.1875,
      "learning_rate": 9.533708062828264e-06,
      "loss": 1.09670238,
      "memory(GiB)": 112.26,
      "step": 14320,
      "train_speed(iter/s)": 1.12731
    },
    {
      "acc": 0.72157135,
      "epoch": 0.3633942161339422,
      "grad_norm": 3.796875,
      "learning_rate": 9.533265772497216e-06,
      "loss": 1.17242403,
      "memory(GiB)": 112.26,
      "step": 14325,
      "train_speed(iter/s)": 1.127378
    },
    {
      "acc": 0.73625407,
      "epoch": 0.3635210553018772,
      "grad_norm": 3.875,
      "learning_rate": 9.532823282772899e-06,
      "loss": 1.07381983,
      "memory(GiB)": 112.26,
      "step": 14330,
      "train_speed(iter/s)": 1.127462
    },
    {
      "acc": 0.72020254,
      "epoch": 0.36364789446981227,
      "grad_norm": 4.03125,
      "learning_rate": 9.532380593674775e-06,
      "loss": 1.11642265,
      "memory(GiB)": 112.26,
      "step": 14335,
      "train_speed(iter/s)": 1.127517
    },
    {
      "acc": 0.72122288,
      "epoch": 0.3637747336377473,
      "grad_norm": 4.5,
      "learning_rate": 9.531937705222319e-06,
      "loss": 1.14560251,
      "memory(GiB)": 112.26,
      "step": 14340,
      "train_speed(iter/s)": 1.1276
    },
    {
      "acc": 0.71915121,
      "epoch": 0.3639015728056824,
      "grad_norm": 3.640625,
      "learning_rate": 9.531494617435006e-06,
      "loss": 1.09412546,
      "memory(GiB)": 112.26,
      "step": 14345,
      "train_speed(iter/s)": 1.127651
    },
    {
      "acc": 0.72743216,
      "epoch": 0.36402841197361746,
      "grad_norm": 5.0625,
      "learning_rate": 9.531051330332331e-06,
      "loss": 1.07303772,
      "memory(GiB)": 112.26,
      "step": 14350,
      "train_speed(iter/s)": 1.127718
    },
    {
      "acc": 0.71802197,
      "epoch": 0.3641552511415525,
      "grad_norm": 3.640625,
      "learning_rate": 9.530607843933788e-06,
      "loss": 1.14778109,
      "memory(GiB)": 112.26,
      "step": 14355,
      "train_speed(iter/s)": 1.127779
    },
    {
      "acc": 0.73180914,
      "epoch": 0.36428209030948755,
      "grad_norm": 3.515625,
      "learning_rate": 9.530164158258883e-06,
      "loss": 1.05987206,
      "memory(GiB)": 112.26,
      "step": 14360,
      "train_speed(iter/s)": 1.127839
    },
    {
      "acc": 0.73955531,
      "epoch": 0.36440892947742265,
      "grad_norm": 4.03125,
      "learning_rate": 9.529720273327135e-06,
      "loss": 1.09193573,
      "memory(GiB)": 112.26,
      "step": 14365,
      "train_speed(iter/s)": 1.127901
    },
    {
      "acc": 0.72579374,
      "epoch": 0.3645357686453577,
      "grad_norm": 4.3125,
      "learning_rate": 9.529276189158063e-06,
      "loss": 1.16466341,
      "memory(GiB)": 112.26,
      "step": 14370,
      "train_speed(iter/s)": 1.127977
    },
    {
      "acc": 0.73760357,
      "epoch": 0.36466260781329274,
      "grad_norm": 3.390625,
      "learning_rate": 9.528831905771205e-06,
      "loss": 1.11359425,
      "memory(GiB)": 112.26,
      "step": 14375,
      "train_speed(iter/s)": 1.127981
    },
    {
      "acc": 0.73142705,
      "epoch": 0.3647894469812278,
      "grad_norm": 4.6875,
      "learning_rate": 9.528387423186098e-06,
      "loss": 1.14957867,
      "memory(GiB)": 112.26,
      "step": 14380,
      "train_speed(iter/s)": 1.128019
    },
    {
      "acc": 0.72544394,
      "epoch": 0.3649162861491629,
      "grad_norm": 3.5625,
      "learning_rate": 9.527942741422297e-06,
      "loss": 1.09326,
      "memory(GiB)": 112.26,
      "step": 14385,
      "train_speed(iter/s)": 1.128101
    },
    {
      "acc": 0.7180747,
      "epoch": 0.3650431253170979,
      "grad_norm": 3.890625,
      "learning_rate": 9.527497860499355e-06,
      "loss": 1.19938889,
      "memory(GiB)": 112.26,
      "step": 14390,
      "train_speed(iter/s)": 1.128132
    },
    {
      "acc": 0.74730034,
      "epoch": 0.36516996448503297,
      "grad_norm": 3.96875,
      "learning_rate": 9.527052780436845e-06,
      "loss": 1.01118374,
      "memory(GiB)": 112.26,
      "step": 14395,
      "train_speed(iter/s)": 1.128194
    },
    {
      "acc": 0.72337255,
      "epoch": 0.365296803652968,
      "grad_norm": 3.84375,
      "learning_rate": 9.52660750125434e-06,
      "loss": 1.10502472,
      "memory(GiB)": 112.26,
      "step": 14400,
      "train_speed(iter/s)": 1.12822
    },
    {
      "acc": 0.72515483,
      "epoch": 0.3654236428209031,
      "grad_norm": 3.40625,
      "learning_rate": 9.52616202297143e-06,
      "loss": 1.11434479,
      "memory(GiB)": 112.26,
      "step": 14405,
      "train_speed(iter/s)": 1.128295
    },
    {
      "acc": 0.72537193,
      "epoch": 0.36555048198883816,
      "grad_norm": 3.046875,
      "learning_rate": 9.525716345607706e-06,
      "loss": 1.12089176,
      "memory(GiB)": 112.26,
      "step": 14410,
      "train_speed(iter/s)": 1.128337
    },
    {
      "acc": 0.71418643,
      "epoch": 0.3656773211567732,
      "grad_norm": 3.375,
      "learning_rate": 9.52527046918277e-06,
      "loss": 1.16513996,
      "memory(GiB)": 112.26,
      "step": 14415,
      "train_speed(iter/s)": 1.128413
    },
    {
      "acc": 0.7159193,
      "epoch": 0.36580416032470825,
      "grad_norm": 3.296875,
      "learning_rate": 9.524824393716235e-06,
      "loss": 1.16525249,
      "memory(GiB)": 112.26,
      "step": 14420,
      "train_speed(iter/s)": 1.128445
    },
    {
      "acc": 0.73158221,
      "epoch": 0.36593099949264335,
      "grad_norm": 3.75,
      "learning_rate": 9.524378119227722e-06,
      "loss": 1.07626152,
      "memory(GiB)": 112.26,
      "step": 14425,
      "train_speed(iter/s)": 1.128517
    },
    {
      "acc": 0.73750992,
      "epoch": 0.3660578386605784,
      "grad_norm": 3.78125,
      "learning_rate": 9.523931645736858e-06,
      "loss": 1.11367264,
      "memory(GiB)": 112.26,
      "step": 14430,
      "train_speed(iter/s)": 1.128587
    },
    {
      "acc": 0.73340483,
      "epoch": 0.36618467782851344,
      "grad_norm": 3.671875,
      "learning_rate": 9.523484973263283e-06,
      "loss": 1.11697216,
      "memory(GiB)": 112.26,
      "step": 14435,
      "train_speed(iter/s)": 1.128662
    },
    {
      "acc": 0.73870354,
      "epoch": 0.3663115169964485,
      "grad_norm": 4.28125,
      "learning_rate": 9.523038101826644e-06,
      "loss": 1.08167439,
      "memory(GiB)": 112.26,
      "step": 14440,
      "train_speed(iter/s)": 1.128731
    },
    {
      "acc": 0.71409559,
      "epoch": 0.3664383561643836,
      "grad_norm": 3.984375,
      "learning_rate": 9.522591031446596e-06,
      "loss": 1.18586664,
      "memory(GiB)": 112.26,
      "step": 14445,
      "train_speed(iter/s)": 1.128794
    },
    {
      "acc": 0.73748255,
      "epoch": 0.3665651953323186,
      "grad_norm": 3.84375,
      "learning_rate": 9.522143762142801e-06,
      "loss": 1.07270622,
      "memory(GiB)": 112.26,
      "step": 14450,
      "train_speed(iter/s)": 1.12884
    },
    {
      "acc": 0.74304619,
      "epoch": 0.36669203450025367,
      "grad_norm": 3.78125,
      "learning_rate": 9.521696293934934e-06,
      "loss": 1.06909485,
      "memory(GiB)": 112.26,
      "step": 14455,
      "train_speed(iter/s)": 1.128905
    },
    {
      "acc": 0.72759533,
      "epoch": 0.3668188736681887,
      "grad_norm": 3.34375,
      "learning_rate": 9.521248626842676e-06,
      "loss": 1.14563828,
      "memory(GiB)": 112.26,
      "step": 14460,
      "train_speed(iter/s)": 1.128973
    },
    {
      "acc": 0.72883596,
      "epoch": 0.3669457128361238,
      "grad_norm": 3.453125,
      "learning_rate": 9.520800760885716e-06,
      "loss": 1.14314423,
      "memory(GiB)": 112.26,
      "step": 14465,
      "train_speed(iter/s)": 1.129036
    },
    {
      "acc": 0.72958961,
      "epoch": 0.36707255200405886,
      "grad_norm": 3.484375,
      "learning_rate": 9.520352696083756e-06,
      "loss": 1.08450241,
      "memory(GiB)": 112.26,
      "step": 14470,
      "train_speed(iter/s)": 1.129077
    },
    {
      "acc": 0.73501048,
      "epoch": 0.3671993911719939,
      "grad_norm": 3.734375,
      "learning_rate": 9.519904432456504e-06,
      "loss": 1.04170523,
      "memory(GiB)": 112.26,
      "step": 14475,
      "train_speed(iter/s)": 1.129153
    },
    {
      "acc": 0.74141641,
      "epoch": 0.36732623033992895,
      "grad_norm": 3.78125,
      "learning_rate": 9.519455970023672e-06,
      "loss": 1.0368885,
      "memory(GiB)": 112.26,
      "step": 14480,
      "train_speed(iter/s)": 1.129217
    },
    {
      "acc": 0.72744374,
      "epoch": 0.36745306950786405,
      "grad_norm": 3.921875,
      "learning_rate": 9.519007308804991e-06,
      "loss": 1.11537056,
      "memory(GiB)": 112.26,
      "step": 14485,
      "train_speed(iter/s)": 1.129249
    },
    {
      "acc": 0.72571487,
      "epoch": 0.3675799086757991,
      "grad_norm": 3.03125,
      "learning_rate": 9.518558448820193e-06,
      "loss": 1.06508904,
      "memory(GiB)": 112.26,
      "step": 14490,
      "train_speed(iter/s)": 1.129289
    },
    {
      "acc": 0.73400116,
      "epoch": 0.36770674784373414,
      "grad_norm": 4.1875,
      "learning_rate": 9.518109390089017e-06,
      "loss": 1.09792709,
      "memory(GiB)": 112.26,
      "step": 14495,
      "train_speed(iter/s)": 1.129324
    },
    {
      "acc": 0.72060957,
      "epoch": 0.3678335870116692,
      "grad_norm": 4.75,
      "learning_rate": 9.517660132631222e-06,
      "loss": 1.16546869,
      "memory(GiB)": 112.26,
      "step": 14500,
      "train_speed(iter/s)": 1.129356
    },
    {
      "acc": 0.74874048,
      "epoch": 0.3679604261796043,
      "grad_norm": 3.484375,
      "learning_rate": 9.517210676466561e-06,
      "loss": 1.08492622,
      "memory(GiB)": 112.26,
      "step": 14505,
      "train_speed(iter/s)": 1.129415
    },
    {
      "acc": 0.72706423,
      "epoch": 0.3680872653475393,
      "grad_norm": 2.859375,
      "learning_rate": 9.516761021614809e-06,
      "loss": 1.10022469,
      "memory(GiB)": 112.26,
      "step": 14510,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.73171005,
      "epoch": 0.36821410451547437,
      "grad_norm": 3.421875,
      "learning_rate": 9.51631116809574e-06,
      "loss": 1.10663548,
      "memory(GiB)": 112.26,
      "step": 14515,
      "train_speed(iter/s)": 1.129486
    },
    {
      "acc": 0.72121944,
      "epoch": 0.3683409436834094,
      "grad_norm": 3.765625,
      "learning_rate": 9.515861115929144e-06,
      "loss": 1.18959055,
      "memory(GiB)": 112.26,
      "step": 14520,
      "train_speed(iter/s)": 1.129547
    },
    {
      "acc": 0.72492404,
      "epoch": 0.3684677828513445,
      "grad_norm": 5.3125,
      "learning_rate": 9.515410865134812e-06,
      "loss": 1.12210245,
      "memory(GiB)": 112.26,
      "step": 14525,
      "train_speed(iter/s)": 1.129584
    },
    {
      "acc": 0.74360642,
      "epoch": 0.36859462201927956,
      "grad_norm": 3.921875,
      "learning_rate": 9.514960415732551e-06,
      "loss": 1.04274492,
      "memory(GiB)": 112.26,
      "step": 14530,
      "train_speed(iter/s)": 1.129642
    },
    {
      "acc": 0.72216368,
      "epoch": 0.3687214611872146,
      "grad_norm": 4.25,
      "learning_rate": 9.514509767742172e-06,
      "loss": 1.16695108,
      "memory(GiB)": 112.26,
      "step": 14535,
      "train_speed(iter/s)": 1.129707
    },
    {
      "acc": 0.73438148,
      "epoch": 0.36884830035514965,
      "grad_norm": 5.5625,
      "learning_rate": 9.5140589211835e-06,
      "loss": 1.1076767,
      "memory(GiB)": 112.26,
      "step": 14540,
      "train_speed(iter/s)": 1.129772
    },
    {
      "acc": 0.73188782,
      "epoch": 0.36897513952308475,
      "grad_norm": 4.5,
      "learning_rate": 9.513607876076363e-06,
      "loss": 1.16614332,
      "memory(GiB)": 112.26,
      "step": 14545,
      "train_speed(iter/s)": 1.129833
    },
    {
      "acc": 0.73701868,
      "epoch": 0.3691019786910198,
      "grad_norm": 4.65625,
      "learning_rate": 9.513156632440598e-06,
      "loss": 1.0765748,
      "memory(GiB)": 112.26,
      "step": 14550,
      "train_speed(iter/s)": 1.129913
    },
    {
      "acc": 0.72614975,
      "epoch": 0.36922881785895484,
      "grad_norm": 3.34375,
      "learning_rate": 9.512705190296055e-06,
      "loss": 1.12423525,
      "memory(GiB)": 112.26,
      "step": 14555,
      "train_speed(iter/s)": 1.129951
    },
    {
      "acc": 0.73530555,
      "epoch": 0.3693556570268899,
      "grad_norm": 3.40625,
      "learning_rate": 9.512253549662588e-06,
      "loss": 1.05822821,
      "memory(GiB)": 112.26,
      "step": 14560,
      "train_speed(iter/s)": 1.129973
    },
    {
      "acc": 0.72650857,
      "epoch": 0.369482496194825,
      "grad_norm": 3.96875,
      "learning_rate": 9.511801710560066e-06,
      "loss": 1.20800848,
      "memory(GiB)": 112.26,
      "step": 14565,
      "train_speed(iter/s)": 1.130019
    },
    {
      "acc": 0.73992562,
      "epoch": 0.36960933536276,
      "grad_norm": 4.25,
      "learning_rate": 9.511349673008364e-06,
      "loss": 1.05338726,
      "memory(GiB)": 112.26,
      "step": 14570,
      "train_speed(iter/s)": 1.13007
    },
    {
      "acc": 0.73152695,
      "epoch": 0.36973617453069507,
      "grad_norm": 5.53125,
      "learning_rate": 9.510897437027358e-06,
      "loss": 1.08807545,
      "memory(GiB)": 112.26,
      "step": 14575,
      "train_speed(iter/s)": 1.130124
    },
    {
      "acc": 0.73719387,
      "epoch": 0.3698630136986301,
      "grad_norm": 3.71875,
      "learning_rate": 9.510445002636943e-06,
      "loss": 1.10969219,
      "memory(GiB)": 112.26,
      "step": 14580,
      "train_speed(iter/s)": 1.130183
    },
    {
      "acc": 0.74235497,
      "epoch": 0.3699898528665652,
      "grad_norm": 3.953125,
      "learning_rate": 9.50999236985702e-06,
      "loss": 1.08697987,
      "memory(GiB)": 112.26,
      "step": 14585,
      "train_speed(iter/s)": 1.130256
    },
    {
      "acc": 0.73289428,
      "epoch": 0.37011669203450026,
      "grad_norm": 4.1875,
      "learning_rate": 9.509539538707497e-06,
      "loss": 1.16475477,
      "memory(GiB)": 112.26,
      "step": 14590,
      "train_speed(iter/s)": 1.13029
    },
    {
      "acc": 0.72921047,
      "epoch": 0.3702435312024353,
      "grad_norm": 4.6875,
      "learning_rate": 9.50908650920829e-06,
      "loss": 1.10033054,
      "memory(GiB)": 112.26,
      "step": 14595,
      "train_speed(iter/s)": 1.130358
    },
    {
      "acc": 0.72241068,
      "epoch": 0.37037037037037035,
      "grad_norm": 3.203125,
      "learning_rate": 9.50863328137933e-06,
      "loss": 1.11314888,
      "memory(GiB)": 112.26,
      "step": 14600,
      "train_speed(iter/s)": 1.130394
    },
    {
      "acc": 0.7330328,
      "epoch": 0.37049720953830545,
      "grad_norm": 3.515625,
      "learning_rate": 9.508179855240545e-06,
      "loss": 1.07880344,
      "memory(GiB)": 112.26,
      "step": 14605,
      "train_speed(iter/s)": 1.130445
    },
    {
      "acc": 0.73372903,
      "epoch": 0.3706240487062405,
      "grad_norm": 3.5625,
      "learning_rate": 9.507726230811884e-06,
      "loss": 1.14977055,
      "memory(GiB)": 112.26,
      "step": 14610,
      "train_speed(iter/s)": 1.130497
    },
    {
      "acc": 0.72841139,
      "epoch": 0.37075088787417554,
      "grad_norm": 4.0625,
      "learning_rate": 9.507272408113298e-06,
      "loss": 1.08484488,
      "memory(GiB)": 112.26,
      "step": 14615,
      "train_speed(iter/s)": 1.130491
    },
    {
      "acc": 0.70923891,
      "epoch": 0.3708777270421106,
      "grad_norm": 3.203125,
      "learning_rate": 9.506818387164748e-06,
      "loss": 1.16601505,
      "memory(GiB)": 112.26,
      "step": 14620,
      "train_speed(iter/s)": 1.130516
    },
    {
      "acc": 0.72398319,
      "epoch": 0.3710045662100457,
      "grad_norm": 3.828125,
      "learning_rate": 9.506364167986204e-06,
      "loss": 1.1610918,
      "memory(GiB)": 112.26,
      "step": 14625,
      "train_speed(iter/s)": 1.13053
    },
    {
      "acc": 0.74083252,
      "epoch": 0.3711314053779807,
      "grad_norm": 4.25,
      "learning_rate": 9.505909750597644e-06,
      "loss": 1.1026207,
      "memory(GiB)": 112.26,
      "step": 14630,
      "train_speed(iter/s)": 1.13059
    },
    {
      "acc": 0.72084866,
      "epoch": 0.37125824454591577,
      "grad_norm": 4.15625,
      "learning_rate": 9.505455135019055e-06,
      "loss": 1.07782612,
      "memory(GiB)": 112.26,
      "step": 14635,
      "train_speed(iter/s)": 1.130644
    },
    {
      "acc": 0.73077674,
      "epoch": 0.3713850837138508,
      "grad_norm": 5.03125,
      "learning_rate": 9.505000321270435e-06,
      "loss": 1.0812005,
      "memory(GiB)": 112.26,
      "step": 14640,
      "train_speed(iter/s)": 1.130724
    },
    {
      "acc": 0.73807454,
      "epoch": 0.3715119228817859,
      "grad_norm": 4.15625,
      "learning_rate": 9.504545309371786e-06,
      "loss": 1.11164589,
      "memory(GiB)": 112.26,
      "step": 14645,
      "train_speed(iter/s)": 1.130759
    },
    {
      "acc": 0.71774464,
      "epoch": 0.37163876204972096,
      "grad_norm": 3.265625,
      "learning_rate": 9.504090099343125e-06,
      "loss": 1.15799465,
      "memory(GiB)": 112.26,
      "step": 14650,
      "train_speed(iter/s)": 1.130841
    },
    {
      "acc": 0.75801482,
      "epoch": 0.371765601217656,
      "grad_norm": 3.75,
      "learning_rate": 9.50363469120447e-06,
      "loss": 1.03081322,
      "memory(GiB)": 112.26,
      "step": 14655,
      "train_speed(iter/s)": 1.130839
    },
    {
      "acc": 0.71004524,
      "epoch": 0.37189244038559105,
      "grad_norm": 3.578125,
      "learning_rate": 9.503179084975855e-06,
      "loss": 1.1580512,
      "memory(GiB)": 112.26,
      "step": 14660,
      "train_speed(iter/s)": 1.130905
    },
    {
      "acc": 0.72056808,
      "epoch": 0.37201927955352615,
      "grad_norm": 3.515625,
      "learning_rate": 9.502723280677319e-06,
      "loss": 1.13277168,
      "memory(GiB)": 112.26,
      "step": 14665,
      "train_speed(iter/s)": 1.130876
    },
    {
      "acc": 0.73182487,
      "epoch": 0.3721461187214612,
      "grad_norm": 4.15625,
      "learning_rate": 9.50226727832891e-06,
      "loss": 1.14222279,
      "memory(GiB)": 112.26,
      "step": 14670,
      "train_speed(iter/s)": 1.130936
    },
    {
      "acc": 0.71668043,
      "epoch": 0.37227295788939624,
      "grad_norm": 3.90625,
      "learning_rate": 9.501811077950685e-06,
      "loss": 1.12697477,
      "memory(GiB)": 112.26,
      "step": 14675,
      "train_speed(iter/s)": 1.130966
    },
    {
      "acc": 0.73149605,
      "epoch": 0.3723997970573313,
      "grad_norm": 3.96875,
      "learning_rate": 9.501354679562708e-06,
      "loss": 1.0920536,
      "memory(GiB)": 112.26,
      "step": 14680,
      "train_speed(iter/s)": 1.13101
    },
    {
      "acc": 0.72479587,
      "epoch": 0.3725266362252664,
      "grad_norm": 3.9375,
      "learning_rate": 9.500898083185058e-06,
      "loss": 1.13700943,
      "memory(GiB)": 112.26,
      "step": 14685,
      "train_speed(iter/s)": 1.131067
    },
    {
      "acc": 0.72781911,
      "epoch": 0.3726534753932014,
      "grad_norm": 3.59375,
      "learning_rate": 9.500441288837812e-06,
      "loss": 1.08190079,
      "memory(GiB)": 112.26,
      "step": 14690,
      "train_speed(iter/s)": 1.131084
    },
    {
      "acc": 0.72368073,
      "epoch": 0.37278031456113647,
      "grad_norm": 4.15625,
      "learning_rate": 9.499984296541066e-06,
      "loss": 1.16016159,
      "memory(GiB)": 112.26,
      "step": 14695,
      "train_speed(iter/s)": 1.13115
    },
    {
      "acc": 0.71560192,
      "epoch": 0.3729071537290715,
      "grad_norm": 4.21875,
      "learning_rate": 9.49952710631492e-06,
      "loss": 1.22716694,
      "memory(GiB)": 112.26,
      "step": 14700,
      "train_speed(iter/s)": 1.131212
    },
    {
      "acc": 0.73746982,
      "epoch": 0.3730339928970066,
      "grad_norm": 3.875,
      "learning_rate": 9.499069718179484e-06,
      "loss": 1.0827631,
      "memory(GiB)": 112.26,
      "step": 14705,
      "train_speed(iter/s)": 1.131255
    },
    {
      "acc": 0.73816609,
      "epoch": 0.37316083206494166,
      "grad_norm": 3.828125,
      "learning_rate": 9.498612132154874e-06,
      "loss": 1.06100388,
      "memory(GiB)": 112.26,
      "step": 14710,
      "train_speed(iter/s)": 1.131317
    },
    {
      "acc": 0.72601309,
      "epoch": 0.3732876712328767,
      "grad_norm": 2.890625,
      "learning_rate": 9.498154348261217e-06,
      "loss": 1.11014156,
      "memory(GiB)": 112.26,
      "step": 14715,
      "train_speed(iter/s)": 1.13134
    },
    {
      "acc": 0.74024944,
      "epoch": 0.37341451040081175,
      "grad_norm": 3.765625,
      "learning_rate": 9.497696366518649e-06,
      "loss": 1.0721571,
      "memory(GiB)": 112.26,
      "step": 14720,
      "train_speed(iter/s)": 1.131406
    },
    {
      "acc": 0.72325869,
      "epoch": 0.37354134956874685,
      "grad_norm": 3.3125,
      "learning_rate": 9.497238186947315e-06,
      "loss": 1.16618137,
      "memory(GiB)": 112.26,
      "step": 14725,
      "train_speed(iter/s)": 1.131435
    },
    {
      "acc": 0.72372112,
      "epoch": 0.3736681887366819,
      "grad_norm": 3.6875,
      "learning_rate": 9.496779809567367e-06,
      "loss": 1.17984581,
      "memory(GiB)": 112.26,
      "step": 14730,
      "train_speed(iter/s)": 1.1315
    },
    {
      "acc": 0.73336105,
      "epoch": 0.37379502790461694,
      "grad_norm": 3.125,
      "learning_rate": 9.496321234398967e-06,
      "loss": 1.05999107,
      "memory(GiB)": 112.26,
      "step": 14735,
      "train_speed(iter/s)": 1.131558
    },
    {
      "acc": 0.72898388,
      "epoch": 0.373921867072552,
      "grad_norm": 3.046875,
      "learning_rate": 9.495862461462282e-06,
      "loss": 1.09979076,
      "memory(GiB)": 112.26,
      "step": 14740,
      "train_speed(iter/s)": 1.131585
    },
    {
      "acc": 0.7292048,
      "epoch": 0.3740487062404871,
      "grad_norm": 3.3125,
      "learning_rate": 9.495403490777495e-06,
      "loss": 1.12272568,
      "memory(GiB)": 112.26,
      "step": 14745,
      "train_speed(iter/s)": 1.131612
    },
    {
      "acc": 0.74653234,
      "epoch": 0.3741755454084221,
      "grad_norm": 3.640625,
      "learning_rate": 9.49494432236479e-06,
      "loss": 1.05983744,
      "memory(GiB)": 112.26,
      "step": 14750,
      "train_speed(iter/s)": 1.131633
    },
    {
      "acc": 0.73861804,
      "epoch": 0.37430238457635717,
      "grad_norm": 3.421875,
      "learning_rate": 9.494484956244368e-06,
      "loss": 1.09019537,
      "memory(GiB)": 112.26,
      "step": 14755,
      "train_speed(iter/s)": 1.131698
    },
    {
      "acc": 0.73337355,
      "epoch": 0.3744292237442922,
      "grad_norm": 4.3125,
      "learning_rate": 9.49402539243643e-06,
      "loss": 1.15496073,
      "memory(GiB)": 112.26,
      "step": 14760,
      "train_speed(iter/s)": 1.131761
    },
    {
      "acc": 0.73491049,
      "epoch": 0.3745560629122273,
      "grad_norm": 3.375,
      "learning_rate": 9.49356563096119e-06,
      "loss": 1.10658731,
      "memory(GiB)": 112.26,
      "step": 14765,
      "train_speed(iter/s)": 1.131797
    },
    {
      "acc": 0.74062424,
      "epoch": 0.37468290208016236,
      "grad_norm": 3.421875,
      "learning_rate": 9.49310567183887e-06,
      "loss": 1.10001488,
      "memory(GiB)": 112.26,
      "step": 14770,
      "train_speed(iter/s)": 1.131871
    },
    {
      "acc": 0.73348794,
      "epoch": 0.3748097412480974,
      "grad_norm": 4.0625,
      "learning_rate": 9.492645515089706e-06,
      "loss": 1.1078371,
      "memory(GiB)": 112.26,
      "step": 14775,
      "train_speed(iter/s)": 1.131937
    },
    {
      "acc": 0.73075638,
      "epoch": 0.37493658041603245,
      "grad_norm": 4.46875,
      "learning_rate": 9.492185160733934e-06,
      "loss": 1.08901091,
      "memory(GiB)": 112.26,
      "step": 14780,
      "train_speed(iter/s)": 1.131979
    },
    {
      "acc": 0.72748246,
      "epoch": 0.37506341958396755,
      "grad_norm": 4.625,
      "learning_rate": 9.491724608791798e-06,
      "loss": 1.12480164,
      "memory(GiB)": 112.26,
      "step": 14785,
      "train_speed(iter/s)": 1.131998
    },
    {
      "acc": 0.71914096,
      "epoch": 0.3751902587519026,
      "grad_norm": 3.6875,
      "learning_rate": 9.491263859283563e-06,
      "loss": 1.10503912,
      "memory(GiB)": 112.26,
      "step": 14790,
      "train_speed(iter/s)": 1.13202
    },
    {
      "acc": 0.73594437,
      "epoch": 0.37531709791983764,
      "grad_norm": 3.0,
      "learning_rate": 9.490802912229491e-06,
      "loss": 1.10259075,
      "memory(GiB)": 112.26,
      "step": 14795,
      "train_speed(iter/s)": 1.132067
    },
    {
      "acc": 0.72428699,
      "epoch": 0.3754439370877727,
      "grad_norm": 3.046875,
      "learning_rate": 9.490341767649858e-06,
      "loss": 1.16601763,
      "memory(GiB)": 112.26,
      "step": 14800,
      "train_speed(iter/s)": 1.132125
    },
    {
      "acc": 0.74041605,
      "epoch": 0.3755707762557078,
      "grad_norm": 3.75,
      "learning_rate": 9.489880425564944e-06,
      "loss": 1.07631111,
      "memory(GiB)": 112.26,
      "step": 14805,
      "train_speed(iter/s)": 1.132169
    },
    {
      "acc": 0.72820749,
      "epoch": 0.37569761542364283,
      "grad_norm": 3.34375,
      "learning_rate": 9.489418885995043e-06,
      "loss": 1.10390568,
      "memory(GiB)": 112.26,
      "step": 14810,
      "train_speed(iter/s)": 1.132218
    },
    {
      "acc": 0.71559443,
      "epoch": 0.3758244545915779,
      "grad_norm": 3.609375,
      "learning_rate": 9.488957148960457e-06,
      "loss": 1.1782485,
      "memory(GiB)": 112.26,
      "step": 14815,
      "train_speed(iter/s)": 1.132264
    },
    {
      "acc": 0.72029214,
      "epoch": 0.3759512937595129,
      "grad_norm": 3.5625,
      "learning_rate": 9.488495214481494e-06,
      "loss": 1.08719549,
      "memory(GiB)": 112.26,
      "step": 14820,
      "train_speed(iter/s)": 1.13232
    },
    {
      "acc": 0.7375742,
      "epoch": 0.376078132927448,
      "grad_norm": 3.65625,
      "learning_rate": 9.48803308257847e-06,
      "loss": 1.10383358,
      "memory(GiB)": 112.26,
      "step": 14825,
      "train_speed(iter/s)": 1.132359
    },
    {
      "acc": 0.73650432,
      "epoch": 0.37620497209538306,
      "grad_norm": 3.953125,
      "learning_rate": 9.487570753271716e-06,
      "loss": 1.08267298,
      "memory(GiB)": 112.26,
      "step": 14830,
      "train_speed(iter/s)": 1.132439
    },
    {
      "acc": 0.71909857,
      "epoch": 0.3763318112633181,
      "grad_norm": 4.5625,
      "learning_rate": 9.487108226581564e-06,
      "loss": 1.14494638,
      "memory(GiB)": 112.26,
      "step": 14835,
      "train_speed(iter/s)": 1.132506
    },
    {
      "acc": 0.73347511,
      "epoch": 0.37645865043125315,
      "grad_norm": 3.265625,
      "learning_rate": 9.486645502528355e-06,
      "loss": 1.07363033,
      "memory(GiB)": 112.26,
      "step": 14840,
      "train_speed(iter/s)": 1.13256
    },
    {
      "acc": 0.73392806,
      "epoch": 0.37658548959918825,
      "grad_norm": 3.3125,
      "learning_rate": 9.486182581132449e-06,
      "loss": 1.08270712,
      "memory(GiB)": 112.26,
      "step": 14845,
      "train_speed(iter/s)": 1.132622
    },
    {
      "acc": 0.73687248,
      "epoch": 0.3767123287671233,
      "grad_norm": 3.9375,
      "learning_rate": 9.485719462414202e-06,
      "loss": 1.05278358,
      "memory(GiB)": 112.26,
      "step": 14850,
      "train_speed(iter/s)": 1.132697
    },
    {
      "acc": 0.73464756,
      "epoch": 0.37683916793505834,
      "grad_norm": 4.78125,
      "learning_rate": 9.485256146393987e-06,
      "loss": 1.16456938,
      "memory(GiB)": 112.26,
      "step": 14855,
      "train_speed(iter/s)": 1.132761
    },
    {
      "acc": 0.73417678,
      "epoch": 0.3769660071029934,
      "grad_norm": 4.21875,
      "learning_rate": 9.484792633092182e-06,
      "loss": 1.11961689,
      "memory(GiB)": 112.26,
      "step": 14860,
      "train_speed(iter/s)": 1.132801
    },
    {
      "acc": 0.74062614,
      "epoch": 0.3770928462709285,
      "grad_norm": 3.84375,
      "learning_rate": 9.484328922529172e-06,
      "loss": 1.0450388,
      "memory(GiB)": 112.26,
      "step": 14865,
      "train_speed(iter/s)": 1.13287
    },
    {
      "acc": 0.72108831,
      "epoch": 0.37721968543886353,
      "grad_norm": 3.3125,
      "learning_rate": 9.483865014725356e-06,
      "loss": 1.06001406,
      "memory(GiB)": 112.26,
      "step": 14870,
      "train_speed(iter/s)": 1.132891
    },
    {
      "acc": 0.73151317,
      "epoch": 0.3773465246067986,
      "grad_norm": 4.96875,
      "learning_rate": 9.483400909701139e-06,
      "loss": 1.12878704,
      "memory(GiB)": 112.26,
      "step": 14875,
      "train_speed(iter/s)": 1.132954
    },
    {
      "acc": 0.71745749,
      "epoch": 0.3774733637747336,
      "grad_norm": 3.5625,
      "learning_rate": 9.482936607476931e-06,
      "loss": 1.14737129,
      "memory(GiB)": 112.26,
      "step": 14880,
      "train_speed(iter/s)": 1.13301
    },
    {
      "acc": 0.71917505,
      "epoch": 0.3776002029426687,
      "grad_norm": 3.984375,
      "learning_rate": 9.482472108073157e-06,
      "loss": 1.15992527,
      "memory(GiB)": 112.26,
      "step": 14885,
      "train_speed(iter/s)": 1.133071
    },
    {
      "acc": 0.72606435,
      "epoch": 0.37772704211060376,
      "grad_norm": 3.9375,
      "learning_rate": 9.482007411510245e-06,
      "loss": 1.11194839,
      "memory(GiB)": 112.26,
      "step": 14890,
      "train_speed(iter/s)": 1.133101
    },
    {
      "acc": 0.73916116,
      "epoch": 0.3778538812785388,
      "grad_norm": 3.796875,
      "learning_rate": 9.48154251780864e-06,
      "loss": 1.03917332,
      "memory(GiB)": 112.26,
      "step": 14895,
      "train_speed(iter/s)": 1.133125
    },
    {
      "acc": 0.73520517,
      "epoch": 0.37798072044647385,
      "grad_norm": 3.828125,
      "learning_rate": 9.481077426988782e-06,
      "loss": 1.10957851,
      "memory(GiB)": 112.26,
      "step": 14900,
      "train_speed(iter/s)": 1.133192
    },
    {
      "acc": 0.72065167,
      "epoch": 0.37810755961440895,
      "grad_norm": 3.78125,
      "learning_rate": 9.480612139071134e-06,
      "loss": 1.13673315,
      "memory(GiB)": 112.26,
      "step": 14905,
      "train_speed(iter/s)": 1.133248
    },
    {
      "acc": 0.71733475,
      "epoch": 0.378234398782344,
      "grad_norm": 4.0,
      "learning_rate": 9.48014665407616e-06,
      "loss": 1.15105972,
      "memory(GiB)": 112.26,
      "step": 14910,
      "train_speed(iter/s)": 1.133294
    },
    {
      "acc": 0.74740076,
      "epoch": 0.37836123795027904,
      "grad_norm": 3.546875,
      "learning_rate": 9.479680972024334e-06,
      "loss": 1.09733047,
      "memory(GiB)": 112.26,
      "step": 14915,
      "train_speed(iter/s)": 1.13337
    },
    {
      "acc": 0.74286251,
      "epoch": 0.3784880771182141,
      "grad_norm": 4.1875,
      "learning_rate": 9.47921509293614e-06,
      "loss": 1.04377823,
      "memory(GiB)": 112.26,
      "step": 14920,
      "train_speed(iter/s)": 1.13342
    },
    {
      "acc": 0.73593912,
      "epoch": 0.3786149162861492,
      "grad_norm": 3.671875,
      "learning_rate": 9.478749016832066e-06,
      "loss": 1.14598436,
      "memory(GiB)": 112.26,
      "step": 14925,
      "train_speed(iter/s)": 1.133451
    },
    {
      "acc": 0.72973638,
      "epoch": 0.37874175545408423,
      "grad_norm": 3.015625,
      "learning_rate": 9.478282743732613e-06,
      "loss": 1.07177896,
      "memory(GiB)": 112.26,
      "step": 14930,
      "train_speed(iter/s)": 1.13348
    },
    {
      "acc": 0.73488159,
      "epoch": 0.3788685946220193,
      "grad_norm": 3.953125,
      "learning_rate": 9.477816273658293e-06,
      "loss": 1.13126774,
      "memory(GiB)": 112.26,
      "step": 14935,
      "train_speed(iter/s)": 1.133517
    },
    {
      "acc": 0.72259073,
      "epoch": 0.3789954337899543,
      "grad_norm": 3.5,
      "learning_rate": 9.47734960662962e-06,
      "loss": 1.13302803,
      "memory(GiB)": 112.26,
      "step": 14940,
      "train_speed(iter/s)": 1.133519
    },
    {
      "acc": 0.72684755,
      "epoch": 0.3791222729578894,
      "grad_norm": 3.875,
      "learning_rate": 9.476882742667122e-06,
      "loss": 1.11114025,
      "memory(GiB)": 112.26,
      "step": 14945,
      "train_speed(iter/s)": 1.133581
    },
    {
      "acc": 0.73250608,
      "epoch": 0.37924911212582446,
      "grad_norm": 3.609375,
      "learning_rate": 9.476415681791333e-06,
      "loss": 1.05309277,
      "memory(GiB)": 112.26,
      "step": 14950,
      "train_speed(iter/s)": 1.1336
    },
    {
      "acc": 0.72881527,
      "epoch": 0.3793759512937595,
      "grad_norm": 3.65625,
      "learning_rate": 9.475948424022798e-06,
      "loss": 1.09427376,
      "memory(GiB)": 112.26,
      "step": 14955,
      "train_speed(iter/s)": 1.133653
    },
    {
      "acc": 0.73966155,
      "epoch": 0.37950279046169455,
      "grad_norm": 3.484375,
      "learning_rate": 9.475480969382065e-06,
      "loss": 1.07495689,
      "memory(GiB)": 112.26,
      "step": 14960,
      "train_speed(iter/s)": 1.133695
    },
    {
      "acc": 0.73312464,
      "epoch": 0.37962962962962965,
      "grad_norm": 3.5,
      "learning_rate": 9.475013317889699e-06,
      "loss": 1.0891573,
      "memory(GiB)": 112.26,
      "step": 14965,
      "train_speed(iter/s)": 1.133749
    },
    {
      "acc": 0.73690147,
      "epoch": 0.3797564687975647,
      "grad_norm": 3.890625,
      "learning_rate": 9.474545469566267e-06,
      "loss": 1.0663147,
      "memory(GiB)": 112.26,
      "step": 14970,
      "train_speed(iter/s)": 1.1338
    },
    {
      "acc": 0.73028593,
      "epoch": 0.37988330796549974,
      "grad_norm": 3.53125,
      "learning_rate": 9.474077424432348e-06,
      "loss": 1.07679024,
      "memory(GiB)": 112.26,
      "step": 14975,
      "train_speed(iter/s)": 1.133843
    },
    {
      "acc": 0.72377543,
      "epoch": 0.3800101471334348,
      "grad_norm": 4.03125,
      "learning_rate": 9.47360918250853e-06,
      "loss": 1.17408943,
      "memory(GiB)": 112.26,
      "step": 14980,
      "train_speed(iter/s)": 1.133875
    },
    {
      "acc": 0.72733626,
      "epoch": 0.3801369863013699,
      "grad_norm": 4.3125,
      "learning_rate": 9.473140743815405e-06,
      "loss": 1.16744566,
      "memory(GiB)": 112.26,
      "step": 14985,
      "train_speed(iter/s)": 1.133961
    },
    {
      "acc": 0.75036345,
      "epoch": 0.38026382546930493,
      "grad_norm": 3.296875,
      "learning_rate": 9.47267210837358e-06,
      "loss": 1.06400871,
      "memory(GiB)": 112.26,
      "step": 14990,
      "train_speed(iter/s)": 1.134022
    },
    {
      "acc": 0.73682213,
      "epoch": 0.38039066463724,
      "grad_norm": 4.53125,
      "learning_rate": 9.472203276203667e-06,
      "loss": 1.10080833,
      "memory(GiB)": 112.26,
      "step": 14995,
      "train_speed(iter/s)": 1.134097
    },
    {
      "acc": 0.73411727,
      "epoch": 0.380517503805175,
      "grad_norm": 3.640625,
      "learning_rate": 9.471734247326284e-06,
      "loss": 1.10654411,
      "memory(GiB)": 112.26,
      "step": 15000,
      "train_speed(iter/s)": 1.134137
    },
    {
      "epoch": 0.380517503805175,
      "eval_acc": 0.7192355964306671,
      "eval_loss": 1.078657627105713,
      "eval_runtime": 70.9567,
      "eval_samples_per_second": 89.773,
      "eval_steps_per_second": 22.45,
      "step": 15000
    },
    {
      "acc": 0.73133717,
      "epoch": 0.3806443429731101,
      "grad_norm": 4.0625,
      "learning_rate": 9.471265021762067e-06,
      "loss": 1.09675732,
      "memory(GiB)": 112.26,
      "step": 15005,
      "train_speed(iter/s)": 1.124402
    },
    {
      "acc": 0.75059538,
      "epoch": 0.38077118214104516,
      "grad_norm": 4.03125,
      "learning_rate": 9.47079559953165e-06,
      "loss": 1.01291447,
      "memory(GiB)": 112.26,
      "step": 15010,
      "train_speed(iter/s)": 1.124468
    },
    {
      "acc": 0.71532378,
      "epoch": 0.3808980213089802,
      "grad_norm": 3.84375,
      "learning_rate": 9.470325980655683e-06,
      "loss": 1.12647514,
      "memory(GiB)": 112.26,
      "step": 15015,
      "train_speed(iter/s)": 1.124541
    },
    {
      "acc": 0.73107157,
      "epoch": 0.38102486047691525,
      "grad_norm": 5.375,
      "learning_rate": 9.46985616515482e-06,
      "loss": 1.16201096,
      "memory(GiB)": 112.26,
      "step": 15020,
      "train_speed(iter/s)": 1.124606
    },
    {
      "acc": 0.7262167,
      "epoch": 0.38115169964485035,
      "grad_norm": 3.953125,
      "learning_rate": 9.469386153049727e-06,
      "loss": 1.09177713,
      "memory(GiB)": 112.26,
      "step": 15025,
      "train_speed(iter/s)": 1.124616
    },
    {
      "acc": 0.74390802,
      "epoch": 0.3812785388127854,
      "grad_norm": 5.03125,
      "learning_rate": 9.468915944361076e-06,
      "loss": 1.0505743,
      "memory(GiB)": 112.26,
      "step": 15030,
      "train_speed(iter/s)": 1.124675
    },
    {
      "acc": 0.73479843,
      "epoch": 0.38140537798072044,
      "grad_norm": 3.09375,
      "learning_rate": 9.468445539109551e-06,
      "loss": 1.11367149,
      "memory(GiB)": 112.26,
      "step": 15035,
      "train_speed(iter/s)": 1.124708
    },
    {
      "acc": 0.72041636,
      "epoch": 0.3815322171486555,
      "grad_norm": 3.734375,
      "learning_rate": 9.46797493731584e-06,
      "loss": 1.1731472,
      "memory(GiB)": 112.26,
      "step": 15040,
      "train_speed(iter/s)": 1.124765
    },
    {
      "acc": 0.74248242,
      "epoch": 0.3816590563165906,
      "grad_norm": 3.078125,
      "learning_rate": 9.467504139000642e-06,
      "loss": 1.09667978,
      "memory(GiB)": 112.26,
      "step": 15045,
      "train_speed(iter/s)": 1.124809
    },
    {
      "acc": 0.73430567,
      "epoch": 0.38178589548452563,
      "grad_norm": 3.359375,
      "learning_rate": 9.467033144184667e-06,
      "loss": 1.1386097,
      "memory(GiB)": 112.26,
      "step": 15050,
      "train_speed(iter/s)": 1.124816
    },
    {
      "acc": 0.73458967,
      "epoch": 0.3819127346524607,
      "grad_norm": 4.34375,
      "learning_rate": 9.466561952888632e-06,
      "loss": 1.11665277,
      "memory(GiB)": 112.26,
      "step": 15055,
      "train_speed(iter/s)": 1.124846
    },
    {
      "acc": 0.73047538,
      "epoch": 0.3820395738203957,
      "grad_norm": 4.21875,
      "learning_rate": 9.466090565133259e-06,
      "loss": 1.09858208,
      "memory(GiB)": 112.26,
      "step": 15060,
      "train_speed(iter/s)": 1.124909
    },
    {
      "acc": 0.72876949,
      "epoch": 0.3821664129883308,
      "grad_norm": 3.1875,
      "learning_rate": 9.465618980939284e-06,
      "loss": 1.10579376,
      "memory(GiB)": 112.26,
      "step": 15065,
      "train_speed(iter/s)": 1.124965
    },
    {
      "acc": 0.73983307,
      "epoch": 0.38229325215626586,
      "grad_norm": 3.671875,
      "learning_rate": 9.465147200327446e-06,
      "loss": 1.12402153,
      "memory(GiB)": 112.26,
      "step": 15070,
      "train_speed(iter/s)": 1.124986
    },
    {
      "acc": 0.7385211,
      "epoch": 0.3824200913242009,
      "grad_norm": 4.03125,
      "learning_rate": 9.464675223318503e-06,
      "loss": 1.03899174,
      "memory(GiB)": 112.26,
      "step": 15075,
      "train_speed(iter/s)": 1.125052
    },
    {
      "acc": 0.74482698,
      "epoch": 0.38254693049213595,
      "grad_norm": 4.0625,
      "learning_rate": 9.464203049933207e-06,
      "loss": 1.08197765,
      "memory(GiB)": 112.26,
      "step": 15080,
      "train_speed(iter/s)": 1.125066
    },
    {
      "acc": 0.75248461,
      "epoch": 0.38267376966007105,
      "grad_norm": 4.125,
      "learning_rate": 9.463730680192332e-06,
      "loss": 1.07164717,
      "memory(GiB)": 112.26,
      "step": 15085,
      "train_speed(iter/s)": 1.125133
    },
    {
      "acc": 0.72667913,
      "epoch": 0.3828006088280061,
      "grad_norm": 3.53125,
      "learning_rate": 9.46325811411665e-06,
      "loss": 1.15315638,
      "memory(GiB)": 112.26,
      "step": 15090,
      "train_speed(iter/s)": 1.12517
    },
    {
      "acc": 0.73708615,
      "epoch": 0.38292744799594114,
      "grad_norm": 4.5625,
      "learning_rate": 9.462785351726951e-06,
      "loss": 1.07583857,
      "memory(GiB)": 112.26,
      "step": 15095,
      "train_speed(iter/s)": 1.125232
    },
    {
      "acc": 0.72913094,
      "epoch": 0.3830542871638762,
      "grad_norm": 3.4375,
      "learning_rate": 9.462312393044027e-06,
      "loss": 1.09432144,
      "memory(GiB)": 112.26,
      "step": 15100,
      "train_speed(iter/s)": 1.125259
    },
    {
      "acc": 0.7492609,
      "epoch": 0.3831811263318113,
      "grad_norm": 3.71875,
      "learning_rate": 9.46183923808868e-06,
      "loss": 1.05522013,
      "memory(GiB)": 112.26,
      "step": 15105,
      "train_speed(iter/s)": 1.125288
    },
    {
      "acc": 0.73398142,
      "epoch": 0.38330796549974633,
      "grad_norm": 3.5625,
      "learning_rate": 9.461365886881724e-06,
      "loss": 1.11425819,
      "memory(GiB)": 112.26,
      "step": 15110,
      "train_speed(iter/s)": 1.125297
    },
    {
      "acc": 0.73787408,
      "epoch": 0.3834348046676814,
      "grad_norm": 3.671875,
      "learning_rate": 9.460892339443977e-06,
      "loss": 1.14170971,
      "memory(GiB)": 112.26,
      "step": 15115,
      "train_speed(iter/s)": 1.125357
    },
    {
      "acc": 0.73207402,
      "epoch": 0.3835616438356164,
      "grad_norm": 4.90625,
      "learning_rate": 9.460418595796268e-06,
      "loss": 1.09162312,
      "memory(GiB)": 112.26,
      "step": 15120,
      "train_speed(iter/s)": 1.125406
    },
    {
      "acc": 0.72470255,
      "epoch": 0.3836884830035515,
      "grad_norm": 3.40625,
      "learning_rate": 9.459944655959437e-06,
      "loss": 1.13315859,
      "memory(GiB)": 112.26,
      "step": 15125,
      "train_speed(iter/s)": 1.125462
    },
    {
      "acc": 0.74496355,
      "epoch": 0.38381532217148656,
      "grad_norm": 3.671875,
      "learning_rate": 9.459470519954325e-06,
      "loss": 1.03338842,
      "memory(GiB)": 112.26,
      "step": 15130,
      "train_speed(iter/s)": 1.125529
    },
    {
      "acc": 0.73643522,
      "epoch": 0.3839421613394216,
      "grad_norm": 4.4375,
      "learning_rate": 9.458996187801791e-06,
      "loss": 1.06955032,
      "memory(GiB)": 112.26,
      "step": 15135,
      "train_speed(iter/s)": 1.12559
    },
    {
      "acc": 0.72668538,
      "epoch": 0.38406900050735665,
      "grad_norm": 4.15625,
      "learning_rate": 9.458521659522697e-06,
      "loss": 1.14270687,
      "memory(GiB)": 112.26,
      "step": 15140,
      "train_speed(iter/s)": 1.125675
    },
    {
      "acc": 0.72129917,
      "epoch": 0.38419583967529175,
      "grad_norm": 3.59375,
      "learning_rate": 9.458046935137913e-06,
      "loss": 1.13898869,
      "memory(GiB)": 112.26,
      "step": 15145,
      "train_speed(iter/s)": 1.125731
    },
    {
      "acc": 0.73714838,
      "epoch": 0.3843226788432268,
      "grad_norm": 3.5625,
      "learning_rate": 9.457572014668323e-06,
      "loss": 1.12474728,
      "memory(GiB)": 112.26,
      "step": 15150,
      "train_speed(iter/s)": 1.125813
    },
    {
      "acc": 0.73322773,
      "epoch": 0.38444951801116184,
      "grad_norm": 3.515625,
      "learning_rate": 9.457096898134813e-06,
      "loss": 1.09887981,
      "memory(GiB)": 112.26,
      "step": 15155,
      "train_speed(iter/s)": 1.125865
    },
    {
      "acc": 0.74331141,
      "epoch": 0.3845763571790969,
      "grad_norm": 4.59375,
      "learning_rate": 9.45662158555828e-06,
      "loss": 1.12270012,
      "memory(GiB)": 112.26,
      "step": 15160,
      "train_speed(iter/s)": 1.125906
    },
    {
      "acc": 0.73160925,
      "epoch": 0.384703196347032,
      "grad_norm": 5.03125,
      "learning_rate": 9.456146076959636e-06,
      "loss": 1.08632116,
      "memory(GiB)": 112.26,
      "step": 15165,
      "train_speed(iter/s)": 1.125969
    },
    {
      "acc": 0.72972221,
      "epoch": 0.38483003551496703,
      "grad_norm": 3.59375,
      "learning_rate": 9.455670372359791e-06,
      "loss": 1.14696426,
      "memory(GiB)": 112.26,
      "step": 15170,
      "train_speed(iter/s)": 1.126015
    },
    {
      "acc": 0.7290689,
      "epoch": 0.3849568746829021,
      "grad_norm": 3.53125,
      "learning_rate": 9.45519447177967e-06,
      "loss": 1.09557381,
      "memory(GiB)": 112.26,
      "step": 15175,
      "train_speed(iter/s)": 1.12606
    },
    {
      "acc": 0.72673864,
      "epoch": 0.3850837138508371,
      "grad_norm": 3.828125,
      "learning_rate": 9.454718375240204e-06,
      "loss": 1.17285051,
      "memory(GiB)": 112.26,
      "step": 15180,
      "train_speed(iter/s)": 1.126117
    },
    {
      "acc": 0.74336014,
      "epoch": 0.3852105530187722,
      "grad_norm": 4.71875,
      "learning_rate": 9.454242082762336e-06,
      "loss": 1.0640172,
      "memory(GiB)": 112.26,
      "step": 15185,
      "train_speed(iter/s)": 1.126193
    },
    {
      "acc": 0.73833647,
      "epoch": 0.38533739218670726,
      "grad_norm": 4.5,
      "learning_rate": 9.453765594367014e-06,
      "loss": 1.12118435,
      "memory(GiB)": 112.26,
      "step": 15190,
      "train_speed(iter/s)": 1.126254
    },
    {
      "acc": 0.73743458,
      "epoch": 0.3854642313546423,
      "grad_norm": 3.5625,
      "learning_rate": 9.453288910075196e-06,
      "loss": 1.09191589,
      "memory(GiB)": 112.26,
      "step": 15195,
      "train_speed(iter/s)": 1.126335
    },
    {
      "acc": 0.73135419,
      "epoch": 0.38559107052257735,
      "grad_norm": 4.25,
      "learning_rate": 9.452812029907849e-06,
      "loss": 1.1338419,
      "memory(GiB)": 112.26,
      "step": 15200,
      "train_speed(iter/s)": 1.126386
    },
    {
      "acc": 0.73321452,
      "epoch": 0.38571790969051245,
      "grad_norm": 3.40625,
      "learning_rate": 9.452334953885951e-06,
      "loss": 1.102707,
      "memory(GiB)": 112.26,
      "step": 15205,
      "train_speed(iter/s)": 1.126443
    },
    {
      "acc": 0.7303442,
      "epoch": 0.3858447488584475,
      "grad_norm": 3.890625,
      "learning_rate": 9.451857682030481e-06,
      "loss": 1.13154926,
      "memory(GiB)": 112.26,
      "step": 15210,
      "train_speed(iter/s)": 1.126504
    },
    {
      "acc": 0.74040809,
      "epoch": 0.38597158802638254,
      "grad_norm": 4.40625,
      "learning_rate": 9.451380214362436e-06,
      "loss": 1.12346859,
      "memory(GiB)": 112.26,
      "step": 15215,
      "train_speed(iter/s)": 1.126571
    },
    {
      "acc": 0.73726544,
      "epoch": 0.3860984271943176,
      "grad_norm": 3.203125,
      "learning_rate": 9.450902550902814e-06,
      "loss": 1.10326786,
      "memory(GiB)": 112.26,
      "step": 15220,
      "train_speed(iter/s)": 1.126617
    },
    {
      "acc": 0.71687851,
      "epoch": 0.3862252663622527,
      "grad_norm": 3.6875,
      "learning_rate": 9.450424691672626e-06,
      "loss": 1.18150854,
      "memory(GiB)": 112.26,
      "step": 15225,
      "train_speed(iter/s)": 1.12669
    },
    {
      "acc": 0.73167377,
      "epoch": 0.38635210553018773,
      "grad_norm": 3.671875,
      "learning_rate": 9.449946636692891e-06,
      "loss": 1.09274273,
      "memory(GiB)": 112.26,
      "step": 15230,
      "train_speed(iter/s)": 1.1267
    },
    {
      "acc": 0.73878655,
      "epoch": 0.3864789446981228,
      "grad_norm": 4.21875,
      "learning_rate": 9.449468385984634e-06,
      "loss": 1.06054363,
      "memory(GiB)": 112.26,
      "step": 15235,
      "train_speed(iter/s)": 1.126779
    },
    {
      "acc": 0.73762207,
      "epoch": 0.3866057838660578,
      "grad_norm": 4.1875,
      "learning_rate": 9.448989939568892e-06,
      "loss": 1.0814991,
      "memory(GiB)": 112.26,
      "step": 15240,
      "train_speed(iter/s)": 1.126835
    },
    {
      "acc": 0.7142972,
      "epoch": 0.3867326230339929,
      "grad_norm": 3.421875,
      "learning_rate": 9.448511297466708e-06,
      "loss": 1.16038208,
      "memory(GiB)": 112.26,
      "step": 15245,
      "train_speed(iter/s)": 1.126866
    },
    {
      "acc": 0.73233085,
      "epoch": 0.38685946220192796,
      "grad_norm": 3.734375,
      "learning_rate": 9.448032459699139e-06,
      "loss": 1.07464142,
      "memory(GiB)": 112.26,
      "step": 15250,
      "train_speed(iter/s)": 1.126904
    },
    {
      "acc": 0.71064091,
      "epoch": 0.386986301369863,
      "grad_norm": 3.609375,
      "learning_rate": 9.447553426287244e-06,
      "loss": 1.18370647,
      "memory(GiB)": 112.26,
      "step": 15255,
      "train_speed(iter/s)": 1.126931
    },
    {
      "acc": 0.73330202,
      "epoch": 0.38711314053779805,
      "grad_norm": 3.203125,
      "learning_rate": 9.44707419725209e-06,
      "loss": 1.07494678,
      "memory(GiB)": 112.26,
      "step": 15260,
      "train_speed(iter/s)": 1.126988
    },
    {
      "acc": 0.72456751,
      "epoch": 0.38723997970573315,
      "grad_norm": 3.984375,
      "learning_rate": 9.446594772614759e-06,
      "loss": 1.15294266,
      "memory(GiB)": 112.26,
      "step": 15265,
      "train_speed(iter/s)": 1.12706
    },
    {
      "acc": 0.72953601,
      "epoch": 0.3873668188736682,
      "grad_norm": 3.71875,
      "learning_rate": 9.446115152396335e-06,
      "loss": 1.09343557,
      "memory(GiB)": 112.26,
      "step": 15270,
      "train_speed(iter/s)": 1.127086
    },
    {
      "acc": 0.75116854,
      "epoch": 0.38749365804160324,
      "grad_norm": 4.5625,
      "learning_rate": 9.445635336617919e-06,
      "loss": 1.03904486,
      "memory(GiB)": 112.26,
      "step": 15275,
      "train_speed(iter/s)": 1.127128
    },
    {
      "acc": 0.73036785,
      "epoch": 0.3876204972095383,
      "grad_norm": 2.828125,
      "learning_rate": 9.445155325300612e-06,
      "loss": 1.14310818,
      "memory(GiB)": 112.26,
      "step": 15280,
      "train_speed(iter/s)": 1.127164
    },
    {
      "acc": 0.73441954,
      "epoch": 0.3877473363774734,
      "grad_norm": 3.78125,
      "learning_rate": 9.444675118465528e-06,
      "loss": 1.1259613,
      "memory(GiB)": 112.26,
      "step": 15285,
      "train_speed(iter/s)": 1.127214
    },
    {
      "acc": 0.73509064,
      "epoch": 0.38787417554540843,
      "grad_norm": 3.5,
      "learning_rate": 9.444194716133785e-06,
      "loss": 1.1230526,
      "memory(GiB)": 112.26,
      "step": 15290,
      "train_speed(iter/s)": 1.12726
    },
    {
      "acc": 0.73658733,
      "epoch": 0.3880010147133435,
      "grad_norm": 3.609375,
      "learning_rate": 9.44371411832652e-06,
      "loss": 1.04775448,
      "memory(GiB)": 112.26,
      "step": 15295,
      "train_speed(iter/s)": 1.127327
    },
    {
      "acc": 0.71994801,
      "epoch": 0.3881278538812785,
      "grad_norm": 3.75,
      "learning_rate": 9.443233325064867e-06,
      "loss": 1.15653839,
      "memory(GiB)": 112.26,
      "step": 15300,
      "train_speed(iter/s)": 1.127363
    },
    {
      "acc": 0.72270193,
      "epoch": 0.3882546930492136,
      "grad_norm": 3.359375,
      "learning_rate": 9.442752336369976e-06,
      "loss": 1.12143269,
      "memory(GiB)": 112.26,
      "step": 15305,
      "train_speed(iter/s)": 1.127408
    },
    {
      "acc": 0.75044651,
      "epoch": 0.38838153221714866,
      "grad_norm": 3.140625,
      "learning_rate": 9.442271152263e-06,
      "loss": 1.04763527,
      "memory(GiB)": 112.26,
      "step": 15310,
      "train_speed(iter/s)": 1.127401
    },
    {
      "acc": 0.72870154,
      "epoch": 0.3885083713850837,
      "grad_norm": 3.328125,
      "learning_rate": 9.441789772765107e-06,
      "loss": 1.13655872,
      "memory(GiB)": 112.26,
      "step": 15315,
      "train_speed(iter/s)": 1.127464
    },
    {
      "acc": 0.72053251,
      "epoch": 0.38863521055301875,
      "grad_norm": 3.59375,
      "learning_rate": 9.441308197897467e-06,
      "loss": 1.1433466,
      "memory(GiB)": 112.26,
      "step": 15320,
      "train_speed(iter/s)": 1.127519
    },
    {
      "acc": 0.7330193,
      "epoch": 0.38876204972095385,
      "grad_norm": 4.40625,
      "learning_rate": 9.440826427681264e-06,
      "loss": 1.14755936,
      "memory(GiB)": 112.26,
      "step": 15325,
      "train_speed(iter/s)": 1.127537
    },
    {
      "acc": 0.73595772,
      "epoch": 0.3888888888888889,
      "grad_norm": 4.3125,
      "learning_rate": 9.44034446213769e-06,
      "loss": 1.09151154,
      "memory(GiB)": 112.26,
      "step": 15330,
      "train_speed(iter/s)": 1.127582
    },
    {
      "acc": 0.72706823,
      "epoch": 0.38901572805682394,
      "grad_norm": 3.734375,
      "learning_rate": 9.439862301287939e-06,
      "loss": 1.09903164,
      "memory(GiB)": 112.26,
      "step": 15335,
      "train_speed(iter/s)": 1.127665
    },
    {
      "acc": 0.73318291,
      "epoch": 0.389142567224759,
      "grad_norm": 4.28125,
      "learning_rate": 9.439379945153223e-06,
      "loss": 1.14552898,
      "memory(GiB)": 112.26,
      "step": 15340,
      "train_speed(iter/s)": 1.127739
    },
    {
      "acc": 0.74947057,
      "epoch": 0.3892694063926941,
      "grad_norm": 4.25,
      "learning_rate": 9.438897393754755e-06,
      "loss": 1.06397038,
      "memory(GiB)": 112.26,
      "step": 15345,
      "train_speed(iter/s)": 1.127813
    },
    {
      "acc": 0.73136463,
      "epoch": 0.38939624556062913,
      "grad_norm": 3.578125,
      "learning_rate": 9.438414647113762e-06,
      "loss": 1.09048367,
      "memory(GiB)": 112.26,
      "step": 15350,
      "train_speed(iter/s)": 1.127847
    },
    {
      "acc": 0.72757025,
      "epoch": 0.3895230847285642,
      "grad_norm": 3.65625,
      "learning_rate": 9.437931705251478e-06,
      "loss": 1.10831261,
      "memory(GiB)": 112.26,
      "step": 15355,
      "train_speed(iter/s)": 1.127907
    },
    {
      "acc": 0.73836632,
      "epoch": 0.3896499238964992,
      "grad_norm": 3.390625,
      "learning_rate": 9.437448568189142e-06,
      "loss": 1.03279552,
      "memory(GiB)": 112.26,
      "step": 15360,
      "train_speed(iter/s)": 1.12796
    },
    {
      "acc": 0.73461347,
      "epoch": 0.3897767630644343,
      "grad_norm": 3.328125,
      "learning_rate": 9.436965235948008e-06,
      "loss": 1.06931639,
      "memory(GiB)": 112.26,
      "step": 15365,
      "train_speed(iter/s)": 1.128031
    },
    {
      "acc": 0.73018003,
      "epoch": 0.38990360223236936,
      "grad_norm": 3.265625,
      "learning_rate": 9.436481708549332e-06,
      "loss": 1.12053432,
      "memory(GiB)": 112.26,
      "step": 15370,
      "train_speed(iter/s)": 1.128095
    },
    {
      "acc": 0.72829514,
      "epoch": 0.3900304414003044,
      "grad_norm": 3.59375,
      "learning_rate": 9.435997986014382e-06,
      "loss": 1.17010765,
      "memory(GiB)": 112.26,
      "step": 15375,
      "train_speed(iter/s)": 1.128175
    },
    {
      "acc": 0.71766529,
      "epoch": 0.39015728056823945,
      "grad_norm": 4.03125,
      "learning_rate": 9.435514068364437e-06,
      "loss": 1.20959663,
      "memory(GiB)": 112.26,
      "step": 15380,
      "train_speed(iter/s)": 1.128202
    },
    {
      "acc": 0.73295555,
      "epoch": 0.39028411973617455,
      "grad_norm": 3.65625,
      "learning_rate": 9.43502995562078e-06,
      "loss": 1.0848074,
      "memory(GiB)": 112.26,
      "step": 15385,
      "train_speed(iter/s)": 1.128231
    },
    {
      "acc": 0.73094177,
      "epoch": 0.3904109589041096,
      "grad_norm": 4.90625,
      "learning_rate": 9.434545647804703e-06,
      "loss": 1.1473134,
      "memory(GiB)": 112.26,
      "step": 15390,
      "train_speed(iter/s)": 1.128308
    },
    {
      "acc": 0.74318719,
      "epoch": 0.39053779807204464,
      "grad_norm": 4.25,
      "learning_rate": 9.434061144937512e-06,
      "loss": 1.07698593,
      "memory(GiB)": 112.26,
      "step": 15395,
      "train_speed(iter/s)": 1.128342
    },
    {
      "acc": 0.74025531,
      "epoch": 0.3906646372399797,
      "grad_norm": 3.9375,
      "learning_rate": 9.433576447040513e-06,
      "loss": 1.04690018,
      "memory(GiB)": 112.26,
      "step": 15400,
      "train_speed(iter/s)": 1.128393
    },
    {
      "acc": 0.73630552,
      "epoch": 0.3907914764079148,
      "grad_norm": 3.328125,
      "learning_rate": 9.433091554135029e-06,
      "loss": 1.14689713,
      "memory(GiB)": 112.26,
      "step": 15405,
      "train_speed(iter/s)": 1.128461
    },
    {
      "acc": 0.73214016,
      "epoch": 0.39091831557584983,
      "grad_norm": 3.921875,
      "learning_rate": 9.432606466242384e-06,
      "loss": 1.16604528,
      "memory(GiB)": 112.26,
      "step": 15410,
      "train_speed(iter/s)": 1.12851
    },
    {
      "acc": 0.73189158,
      "epoch": 0.3910451547437849,
      "grad_norm": 3.28125,
      "learning_rate": 9.43212118338392e-06,
      "loss": 1.07728729,
      "memory(GiB)": 112.26,
      "step": 15415,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.73171749,
      "epoch": 0.3911719939117199,
      "grad_norm": 3.421875,
      "learning_rate": 9.431635705580975e-06,
      "loss": 1.09983072,
      "memory(GiB)": 112.26,
      "step": 15420,
      "train_speed(iter/s)": 1.128653
    },
    {
      "acc": 0.72821007,
      "epoch": 0.391298833079655,
      "grad_norm": 4.15625,
      "learning_rate": 9.431150032854907e-06,
      "loss": 1.10065117,
      "memory(GiB)": 112.26,
      "step": 15425,
      "train_speed(iter/s)": 1.128705
    },
    {
      "acc": 0.72876148,
      "epoch": 0.39142567224759006,
      "grad_norm": 4.15625,
      "learning_rate": 9.430664165227077e-06,
      "loss": 1.06472359,
      "memory(GiB)": 112.26,
      "step": 15430,
      "train_speed(iter/s)": 1.128747
    },
    {
      "acc": 0.73347216,
      "epoch": 0.3915525114155251,
      "grad_norm": 3.5,
      "learning_rate": 9.430178102718857e-06,
      "loss": 1.12825279,
      "memory(GiB)": 112.26,
      "step": 15435,
      "train_speed(iter/s)": 1.128807
    },
    {
      "acc": 0.73596325,
      "epoch": 0.39167935058346015,
      "grad_norm": 3.703125,
      "learning_rate": 9.429691845351623e-06,
      "loss": 1.05316525,
      "memory(GiB)": 112.26,
      "step": 15440,
      "train_speed(iter/s)": 1.128828
    },
    {
      "acc": 0.73445892,
      "epoch": 0.39180618975139525,
      "grad_norm": 3.484375,
      "learning_rate": 9.429205393146763e-06,
      "loss": 1.03800545,
      "memory(GiB)": 112.26,
      "step": 15445,
      "train_speed(iter/s)": 1.12889
    },
    {
      "acc": 0.72884936,
      "epoch": 0.3919330289193303,
      "grad_norm": 3.84375,
      "learning_rate": 9.428718746125678e-06,
      "loss": 1.15006008,
      "memory(GiB)": 112.26,
      "step": 15450,
      "train_speed(iter/s)": 1.128942
    },
    {
      "acc": 0.73779593,
      "epoch": 0.39205986808726534,
      "grad_norm": 3.9375,
      "learning_rate": 9.428231904309768e-06,
      "loss": 1.16826897,
      "memory(GiB)": 112.26,
      "step": 15455,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.72079659,
      "epoch": 0.3921867072552004,
      "grad_norm": 3.703125,
      "learning_rate": 9.427744867720448e-06,
      "loss": 1.15586624,
      "memory(GiB)": 112.26,
      "step": 15460,
      "train_speed(iter/s)": 1.129025
    },
    {
      "acc": 0.72286491,
      "epoch": 0.3923135464231355,
      "grad_norm": 4.03125,
      "learning_rate": 9.42725763637914e-06,
      "loss": 1.11594257,
      "memory(GiB)": 112.26,
      "step": 15465,
      "train_speed(iter/s)": 1.129075
    },
    {
      "acc": 0.73852997,
      "epoch": 0.39244038559107053,
      "grad_norm": 3.546875,
      "learning_rate": 9.426770210307277e-06,
      "loss": 1.06390905,
      "memory(GiB)": 112.26,
      "step": 15470,
      "train_speed(iter/s)": 1.129096
    },
    {
      "acc": 0.72569752,
      "epoch": 0.3925672247590056,
      "grad_norm": 3.5,
      "learning_rate": 9.426282589526294e-06,
      "loss": 1.11403475,
      "memory(GiB)": 112.26,
      "step": 15475,
      "train_speed(iter/s)": 1.129161
    },
    {
      "acc": 0.74063921,
      "epoch": 0.3926940639269406,
      "grad_norm": 3.21875,
      "learning_rate": 9.425794774057641e-06,
      "loss": 1.08691015,
      "memory(GiB)": 112.26,
      "step": 15480,
      "train_speed(iter/s)": 1.129226
    },
    {
      "acc": 0.73083792,
      "epoch": 0.3928209030948757,
      "grad_norm": 3.65625,
      "learning_rate": 9.425306763922775e-06,
      "loss": 1.14092808,
      "memory(GiB)": 112.26,
      "step": 15485,
      "train_speed(iter/s)": 1.129293
    },
    {
      "acc": 0.70661521,
      "epoch": 0.39294774226281076,
      "grad_norm": 4.65625,
      "learning_rate": 9.42481855914316e-06,
      "loss": 1.15439434,
      "memory(GiB)": 112.26,
      "step": 15490,
      "train_speed(iter/s)": 1.129353
    },
    {
      "acc": 0.71259403,
      "epoch": 0.3930745814307458,
      "grad_norm": 4.8125,
      "learning_rate": 9.424330159740269e-06,
      "loss": 1.11996374,
      "memory(GiB)": 112.26,
      "step": 15495,
      "train_speed(iter/s)": 1.129427
    },
    {
      "acc": 0.75269465,
      "epoch": 0.39320142059868085,
      "grad_norm": 3.203125,
      "learning_rate": 9.423841565735582e-06,
      "loss": 1.00440235,
      "memory(GiB)": 112.26,
      "step": 15500,
      "train_speed(iter/s)": 1.129471
    },
    {
      "acc": 0.73334632,
      "epoch": 0.39332825976661595,
      "grad_norm": 3.734375,
      "learning_rate": 9.423352777150597e-06,
      "loss": 1.14203606,
      "memory(GiB)": 112.26,
      "step": 15505,
      "train_speed(iter/s)": 1.129548
    },
    {
      "acc": 0.74129686,
      "epoch": 0.393455098934551,
      "grad_norm": 4.3125,
      "learning_rate": 9.422863794006804e-06,
      "loss": 1.09692526,
      "memory(GiB)": 112.26,
      "step": 15510,
      "train_speed(iter/s)": 1.129618
    },
    {
      "acc": 0.72673845,
      "epoch": 0.39358193810248604,
      "grad_norm": 3.25,
      "learning_rate": 9.422374616325716e-06,
      "loss": 1.11138592,
      "memory(GiB)": 112.26,
      "step": 15515,
      "train_speed(iter/s)": 1.129699
    },
    {
      "acc": 0.72624912,
      "epoch": 0.3937087772704211,
      "grad_norm": 3.953125,
      "learning_rate": 9.421885244128847e-06,
      "loss": 1.12057304,
      "memory(GiB)": 112.26,
      "step": 15520,
      "train_speed(iter/s)": 1.129747
    },
    {
      "acc": 0.7339097,
      "epoch": 0.3938356164383562,
      "grad_norm": 3.734375,
      "learning_rate": 9.421395677437724e-06,
      "loss": 1.08102055,
      "memory(GiB)": 112.26,
      "step": 15525,
      "train_speed(iter/s)": 1.129803
    },
    {
      "acc": 0.74207768,
      "epoch": 0.39396245560629123,
      "grad_norm": 4.1875,
      "learning_rate": 9.42090591627388e-06,
      "loss": 1.08279152,
      "memory(GiB)": 112.26,
      "step": 15530,
      "train_speed(iter/s)": 1.129857
    },
    {
      "acc": 0.72393866,
      "epoch": 0.3940892947742263,
      "grad_norm": 4.28125,
      "learning_rate": 9.420415960658853e-06,
      "loss": 1.09223499,
      "memory(GiB)": 112.26,
      "step": 15535,
      "train_speed(iter/s)": 1.129887
    },
    {
      "acc": 0.73343906,
      "epoch": 0.3942161339421613,
      "grad_norm": 3.71875,
      "learning_rate": 9.419925810614196e-06,
      "loss": 1.10459833,
      "memory(GiB)": 112.26,
      "step": 15540,
      "train_speed(iter/s)": 1.129934
    },
    {
      "acc": 0.72412882,
      "epoch": 0.3943429731100964,
      "grad_norm": 5.375,
      "learning_rate": 9.419435466161471e-06,
      "loss": 1.12334805,
      "memory(GiB)": 112.26,
      "step": 15545,
      "train_speed(iter/s)": 1.13002
    },
    {
      "acc": 0.72623749,
      "epoch": 0.39446981227803146,
      "grad_norm": 3.734375,
      "learning_rate": 9.418944927322242e-06,
      "loss": 1.14500504,
      "memory(GiB)": 112.26,
      "step": 15550,
      "train_speed(iter/s)": 1.130084
    },
    {
      "acc": 0.74019823,
      "epoch": 0.3945966514459665,
      "grad_norm": 3.828125,
      "learning_rate": 9.418454194118085e-06,
      "loss": 1.05915852,
      "memory(GiB)": 112.26,
      "step": 15555,
      "train_speed(iter/s)": 1.130151
    },
    {
      "acc": 0.73055172,
      "epoch": 0.39472349061390155,
      "grad_norm": 3.875,
      "learning_rate": 9.417963266570587e-06,
      "loss": 1.14346848,
      "memory(GiB)": 112.26,
      "step": 15560,
      "train_speed(iter/s)": 1.130198
    },
    {
      "acc": 0.72878981,
      "epoch": 0.39485032978183665,
      "grad_norm": 3.171875,
      "learning_rate": 9.417472144701338e-06,
      "loss": 1.10471764,
      "memory(GiB)": 112.26,
      "step": 15565,
      "train_speed(iter/s)": 1.130277
    },
    {
      "acc": 0.74180899,
      "epoch": 0.3949771689497717,
      "grad_norm": 3.40625,
      "learning_rate": 9.416980828531944e-06,
      "loss": 1.044835,
      "memory(GiB)": 112.26,
      "step": 15570,
      "train_speed(iter/s)": 1.130363
    },
    {
      "acc": 0.7221447,
      "epoch": 0.39510400811770674,
      "grad_norm": 3.71875,
      "learning_rate": 9.41648931808401e-06,
      "loss": 1.11883183,
      "memory(GiB)": 112.26,
      "step": 15575,
      "train_speed(iter/s)": 1.130438
    },
    {
      "acc": 0.73266945,
      "epoch": 0.3952308472856418,
      "grad_norm": 3.796875,
      "learning_rate": 9.415997613379159e-06,
      "loss": 1.10081959,
      "memory(GiB)": 112.26,
      "step": 15580,
      "train_speed(iter/s)": 1.130496
    },
    {
      "acc": 0.73793955,
      "epoch": 0.3953576864535769,
      "grad_norm": 3.75,
      "learning_rate": 9.415505714439016e-06,
      "loss": 1.07506323,
      "memory(GiB)": 112.26,
      "step": 15585,
      "train_speed(iter/s)": 1.130545
    },
    {
      "acc": 0.72310143,
      "epoch": 0.39548452562151193,
      "grad_norm": 3.234375,
      "learning_rate": 9.415013621285219e-06,
      "loss": 1.12931871,
      "memory(GiB)": 112.26,
      "step": 15590,
      "train_speed(iter/s)": 1.13055
    },
    {
      "acc": 0.74088259,
      "epoch": 0.395611364789447,
      "grad_norm": 3.90625,
      "learning_rate": 9.41452133393941e-06,
      "loss": 1.04777184,
      "memory(GiB)": 112.26,
      "step": 15595,
      "train_speed(iter/s)": 1.130602
    },
    {
      "acc": 0.73728881,
      "epoch": 0.395738203957382,
      "grad_norm": 3.109375,
      "learning_rate": 9.414028852423245e-06,
      "loss": 1.07925014,
      "memory(GiB)": 112.26,
      "step": 15600,
      "train_speed(iter/s)": 1.130646
    },
    {
      "acc": 0.74048548,
      "epoch": 0.3958650431253171,
      "grad_norm": 5.09375,
      "learning_rate": 9.413536176758384e-06,
      "loss": 1.06076679,
      "memory(GiB)": 112.26,
      "step": 15605,
      "train_speed(iter/s)": 1.130702
    },
    {
      "acc": 0.72339172,
      "epoch": 0.39599188229325216,
      "grad_norm": 3.84375,
      "learning_rate": 9.413043306966496e-06,
      "loss": 1.11026726,
      "memory(GiB)": 112.26,
      "step": 15610,
      "train_speed(iter/s)": 1.130782
    },
    {
      "acc": 0.74436569,
      "epoch": 0.3961187214611872,
      "grad_norm": 4.5625,
      "learning_rate": 9.41255024306926e-06,
      "loss": 1.05912914,
      "memory(GiB)": 112.26,
      "step": 15615,
      "train_speed(iter/s)": 1.130803
    },
    {
      "acc": 0.74711628,
      "epoch": 0.39624556062912225,
      "grad_norm": 4.15625,
      "learning_rate": 9.412056985088364e-06,
      "loss": 1.09669971,
      "memory(GiB)": 112.26,
      "step": 15620,
      "train_speed(iter/s)": 1.130814
    },
    {
      "acc": 0.73590097,
      "epoch": 0.39637239979705735,
      "grad_norm": 4.53125,
      "learning_rate": 9.411563533045505e-06,
      "loss": 1.12810984,
      "memory(GiB)": 112.26,
      "step": 15625,
      "train_speed(iter/s)": 1.130862
    },
    {
      "acc": 0.71949759,
      "epoch": 0.3964992389649924,
      "grad_norm": 4.09375,
      "learning_rate": 9.411069886962383e-06,
      "loss": 1.14914465,
      "memory(GiB)": 112.26,
      "step": 15630,
      "train_speed(iter/s)": 1.130894
    },
    {
      "acc": 0.72715111,
      "epoch": 0.39662607813292744,
      "grad_norm": 4.8125,
      "learning_rate": 9.410576046860716e-06,
      "loss": 1.13312845,
      "memory(GiB)": 112.26,
      "step": 15635,
      "train_speed(iter/s)": 1.130957
    },
    {
      "acc": 0.74202037,
      "epoch": 0.3967529173008625,
      "grad_norm": 3.859375,
      "learning_rate": 9.41008201276222e-06,
      "loss": 1.05674543,
      "memory(GiB)": 112.26,
      "step": 15640,
      "train_speed(iter/s)": 1.131014
    },
    {
      "acc": 0.73321228,
      "epoch": 0.3968797564687976,
      "grad_norm": 3.359375,
      "learning_rate": 9.409587784688629e-06,
      "loss": 1.13716335,
      "memory(GiB)": 112.26,
      "step": 15645,
      "train_speed(iter/s)": 1.131046
    },
    {
      "acc": 0.7110507,
      "epoch": 0.39700659563673263,
      "grad_norm": 3.734375,
      "learning_rate": 9.409093362661678e-06,
      "loss": 1.17871733,
      "memory(GiB)": 112.26,
      "step": 15650,
      "train_speed(iter/s)": 1.131103
    },
    {
      "acc": 0.73807507,
      "epoch": 0.3971334348046677,
      "grad_norm": 4.03125,
      "learning_rate": 9.408598746703119e-06,
      "loss": 1.07598038,
      "memory(GiB)": 112.26,
      "step": 15655,
      "train_speed(iter/s)": 1.131176
    },
    {
      "acc": 0.73720131,
      "epoch": 0.3972602739726027,
      "grad_norm": 3.90625,
      "learning_rate": 9.408103936834703e-06,
      "loss": 1.12298508,
      "memory(GiB)": 112.26,
      "step": 15660,
      "train_speed(iter/s)": 1.131197
    },
    {
      "acc": 0.73008308,
      "epoch": 0.3973871131405378,
      "grad_norm": 3.953125,
      "learning_rate": 9.407608933078194e-06,
      "loss": 1.12298594,
      "memory(GiB)": 112.26,
      "step": 15665,
      "train_speed(iter/s)": 1.131233
    },
    {
      "acc": 0.73776035,
      "epoch": 0.39751395230847286,
      "grad_norm": 4.5625,
      "learning_rate": 9.407113735455366e-06,
      "loss": 1.09247665,
      "memory(GiB)": 112.26,
      "step": 15670,
      "train_speed(iter/s)": 1.131263
    },
    {
      "acc": 0.74469323,
      "epoch": 0.3976407914764079,
      "grad_norm": 3.9375,
      "learning_rate": 9.406618343988e-06,
      "loss": 1.05663252,
      "memory(GiB)": 112.26,
      "step": 15675,
      "train_speed(iter/s)": 1.131338
    },
    {
      "acc": 0.72730865,
      "epoch": 0.39776763064434295,
      "grad_norm": 3.625,
      "learning_rate": 9.406122758697885e-06,
      "loss": 1.11217146,
      "memory(GiB)": 112.26,
      "step": 15680,
      "train_speed(iter/s)": 1.131403
    },
    {
      "acc": 0.73195333,
      "epoch": 0.39789446981227805,
      "grad_norm": 3.359375,
      "learning_rate": 9.405626979606819e-06,
      "loss": 1.14973564,
      "memory(GiB)": 112.26,
      "step": 15685,
      "train_speed(iter/s)": 1.131424
    },
    {
      "acc": 0.73062897,
      "epoch": 0.3980213089802131,
      "grad_norm": 3.421875,
      "learning_rate": 9.405131006736608e-06,
      "loss": 1.08585224,
      "memory(GiB)": 112.26,
      "step": 15690,
      "train_speed(iter/s)": 1.131455
    },
    {
      "acc": 0.74464445,
      "epoch": 0.39814814814814814,
      "grad_norm": 3.90625,
      "learning_rate": 9.404634840109069e-06,
      "loss": 1.10334415,
      "memory(GiB)": 112.26,
      "step": 15695,
      "train_speed(iter/s)": 1.131452
    },
    {
      "acc": 0.72729192,
      "epoch": 0.3982749873160832,
      "grad_norm": 3.578125,
      "learning_rate": 9.404138479746022e-06,
      "loss": 1.09802494,
      "memory(GiB)": 112.26,
      "step": 15700,
      "train_speed(iter/s)": 1.131497
    },
    {
      "acc": 0.73089886,
      "epoch": 0.3984018264840183,
      "grad_norm": 3.765625,
      "learning_rate": 9.403641925669304e-06,
      "loss": 1.12625542,
      "memory(GiB)": 112.26,
      "step": 15705,
      "train_speed(iter/s)": 1.131528
    },
    {
      "acc": 0.72608023,
      "epoch": 0.39852866565195333,
      "grad_norm": 2.890625,
      "learning_rate": 9.403145177900752e-06,
      "loss": 1.15477028,
      "memory(GiB)": 112.26,
      "step": 15710,
      "train_speed(iter/s)": 1.131549
    },
    {
      "acc": 0.72441959,
      "epoch": 0.3986555048198884,
      "grad_norm": 4.03125,
      "learning_rate": 9.402648236462217e-06,
      "loss": 1.0956831,
      "memory(GiB)": 112.26,
      "step": 15715,
      "train_speed(iter/s)": 1.131609
    },
    {
      "acc": 0.73336039,
      "epoch": 0.3987823439878234,
      "grad_norm": 3.09375,
      "learning_rate": 9.402151101375557e-06,
      "loss": 1.10523987,
      "memory(GiB)": 112.26,
      "step": 15720,
      "train_speed(iter/s)": 1.131642
    },
    {
      "acc": 0.71806912,
      "epoch": 0.3989091831557585,
      "grad_norm": 3.6875,
      "learning_rate": 9.401653772662638e-06,
      "loss": 1.11842718,
      "memory(GiB)": 112.26,
      "step": 15725,
      "train_speed(iter/s)": 1.131694
    },
    {
      "acc": 0.72808075,
      "epoch": 0.39903602232369356,
      "grad_norm": 3.390625,
      "learning_rate": 9.401156250345331e-06,
      "loss": 1.11208305,
      "memory(GiB)": 112.26,
      "step": 15730,
      "train_speed(iter/s)": 1.131737
    },
    {
      "acc": 0.73307562,
      "epoch": 0.3991628614916286,
      "grad_norm": 3.609375,
      "learning_rate": 9.400658534445524e-06,
      "loss": 1.06551266,
      "memory(GiB)": 112.26,
      "step": 15735,
      "train_speed(iter/s)": 1.131775
    },
    {
      "acc": 0.72903619,
      "epoch": 0.39928970065956365,
      "grad_norm": 3.8125,
      "learning_rate": 9.40016062498511e-06,
      "loss": 1.10546551,
      "memory(GiB)": 112.26,
      "step": 15740,
      "train_speed(iter/s)": 1.131819
    },
    {
      "acc": 0.72753448,
      "epoch": 0.39941653982749875,
      "grad_norm": 3.84375,
      "learning_rate": 9.399662521985982e-06,
      "loss": 1.10546112,
      "memory(GiB)": 112.26,
      "step": 15745,
      "train_speed(iter/s)": 1.131857
    },
    {
      "acc": 0.73885398,
      "epoch": 0.3995433789954338,
      "grad_norm": 5.03125,
      "learning_rate": 9.399164225470055e-06,
      "loss": 1.10476685,
      "memory(GiB)": 112.26,
      "step": 15750,
      "train_speed(iter/s)": 1.131895
    },
    {
      "acc": 0.73170328,
      "epoch": 0.39967021816336884,
      "grad_norm": 4.03125,
      "learning_rate": 9.398665735459245e-06,
      "loss": 1.12707863,
      "memory(GiB)": 112.26,
      "step": 15755,
      "train_speed(iter/s)": 1.131959
    },
    {
      "acc": 0.71457148,
      "epoch": 0.3997970573313039,
      "grad_norm": 2.890625,
      "learning_rate": 9.398167051975475e-06,
      "loss": 1.13646049,
      "memory(GiB)": 112.26,
      "step": 15760,
      "train_speed(iter/s)": 1.131979
    },
    {
      "acc": 0.72410488,
      "epoch": 0.399923896499239,
      "grad_norm": 4.09375,
      "learning_rate": 9.397668175040684e-06,
      "loss": 1.09120531,
      "memory(GiB)": 112.26,
      "step": 15765,
      "train_speed(iter/s)": 1.131995
    },
    {
      "acc": 0.71981812,
      "epoch": 0.40005073566717403,
      "grad_norm": 3.75,
      "learning_rate": 9.397169104676813e-06,
      "loss": 1.1329361,
      "memory(GiB)": 112.26,
      "step": 15770,
      "train_speed(iter/s)": 1.132066
    },
    {
      "acc": 0.72457614,
      "epoch": 0.4001775748351091,
      "grad_norm": 3.59375,
      "learning_rate": 9.39666984090581e-06,
      "loss": 1.1441987,
      "memory(GiB)": 112.26,
      "step": 15775,
      "train_speed(iter/s)": 1.132101
    },
    {
      "acc": 0.73754997,
      "epoch": 0.4003044140030441,
      "grad_norm": 3.625,
      "learning_rate": 9.396170383749642e-06,
      "loss": 1.10625801,
      "memory(GiB)": 112.26,
      "step": 15780,
      "train_speed(iter/s)": 1.132121
    },
    {
      "acc": 0.73161526,
      "epoch": 0.4004312531709792,
      "grad_norm": 3.296875,
      "learning_rate": 9.39567073323027e-06,
      "loss": 1.08510656,
      "memory(GiB)": 112.26,
      "step": 15785,
      "train_speed(iter/s)": 1.132184
    },
    {
      "acc": 0.71766934,
      "epoch": 0.40055809233891426,
      "grad_norm": 3.828125,
      "learning_rate": 9.395170889369674e-06,
      "loss": 1.18553162,
      "memory(GiB)": 112.26,
      "step": 15790,
      "train_speed(iter/s)": 1.132274
    },
    {
      "acc": 0.7418828,
      "epoch": 0.4006849315068493,
      "grad_norm": 3.828125,
      "learning_rate": 9.39467085218984e-06,
      "loss": 1.11322365,
      "memory(GiB)": 112.26,
      "step": 15795,
      "train_speed(iter/s)": 1.132257
    },
    {
      "acc": 0.73186893,
      "epoch": 0.40081177067478435,
      "grad_norm": 3.28125,
      "learning_rate": 9.39417062171276e-06,
      "loss": 1.09689531,
      "memory(GiB)": 112.26,
      "step": 15800,
      "train_speed(iter/s)": 1.132337
    },
    {
      "acc": 0.73899765,
      "epoch": 0.40093860984271945,
      "grad_norm": 3.921875,
      "learning_rate": 9.393670197960439e-06,
      "loss": 1.0925415,
      "memory(GiB)": 112.26,
      "step": 15805,
      "train_speed(iter/s)": 1.132367
    },
    {
      "acc": 0.73417311,
      "epoch": 0.4010654490106545,
      "grad_norm": 3.171875,
      "learning_rate": 9.393169580954884e-06,
      "loss": 1.08155384,
      "memory(GiB)": 112.26,
      "step": 15810,
      "train_speed(iter/s)": 1.132413
    },
    {
      "acc": 0.72408934,
      "epoch": 0.40119228817858954,
      "grad_norm": 3.078125,
      "learning_rate": 9.392668770718118e-06,
      "loss": 1.15957956,
      "memory(GiB)": 112.26,
      "step": 15815,
      "train_speed(iter/s)": 1.132458
    },
    {
      "acc": 0.73640137,
      "epoch": 0.4013191273465246,
      "grad_norm": 3.71875,
      "learning_rate": 9.392167767272169e-06,
      "loss": 1.11570091,
      "memory(GiB)": 112.26,
      "step": 15820,
      "train_speed(iter/s)": 1.132514
    },
    {
      "acc": 0.72390132,
      "epoch": 0.4014459665144597,
      "grad_norm": 3.4375,
      "learning_rate": 9.39166657063907e-06,
      "loss": 1.12455444,
      "memory(GiB)": 112.26,
      "step": 15825,
      "train_speed(iter/s)": 1.132546
    },
    {
      "acc": 0.72520137,
      "epoch": 0.40157280568239473,
      "grad_norm": 3.203125,
      "learning_rate": 9.391165180840869e-06,
      "loss": 1.09158134,
      "memory(GiB)": 112.26,
      "step": 15830,
      "train_speed(iter/s)": 1.132588
    },
    {
      "acc": 0.72809391,
      "epoch": 0.4016996448503298,
      "grad_norm": 4.40625,
      "learning_rate": 9.390663597899619e-06,
      "loss": 1.13357859,
      "memory(GiB)": 112.26,
      "step": 15835,
      "train_speed(iter/s)": 1.132648
    },
    {
      "acc": 0.74074016,
      "epoch": 0.4018264840182648,
      "grad_norm": 3.734375,
      "learning_rate": 9.39016182183738e-06,
      "loss": 1.04039736,
      "memory(GiB)": 112.26,
      "step": 15840,
      "train_speed(iter/s)": 1.132707
    },
    {
      "acc": 0.7280457,
      "epoch": 0.4019533231861999,
      "grad_norm": 4.0625,
      "learning_rate": 9.389659852676223e-06,
      "loss": 1.09667082,
      "memory(GiB)": 112.26,
      "step": 15845,
      "train_speed(iter/s)": 1.13275
    },
    {
      "acc": 0.75049253,
      "epoch": 0.40208016235413496,
      "grad_norm": 4.21875,
      "learning_rate": 9.389157690438228e-06,
      "loss": 1.02804861,
      "memory(GiB)": 112.26,
      "step": 15850,
      "train_speed(iter/s)": 1.132771
    },
    {
      "acc": 0.73321428,
      "epoch": 0.40220700152207,
      "grad_norm": 3.703125,
      "learning_rate": 9.38865533514548e-06,
      "loss": 1.05987854,
      "memory(GiB)": 112.26,
      "step": 15855,
      "train_speed(iter/s)": 1.13282
    },
    {
      "acc": 0.74423146,
      "epoch": 0.40233384069000505,
      "grad_norm": 3.3125,
      "learning_rate": 9.388152786820078e-06,
      "loss": 1.02927818,
      "memory(GiB)": 112.26,
      "step": 15860,
      "train_speed(iter/s)": 1.132846
    },
    {
      "acc": 0.71559935,
      "epoch": 0.40246067985794015,
      "grad_norm": 3.5625,
      "learning_rate": 9.387650045484124e-06,
      "loss": 1.20844784,
      "memory(GiB)": 112.26,
      "step": 15865,
      "train_speed(iter/s)": 1.132881
    },
    {
      "acc": 0.73089161,
      "epoch": 0.4025875190258752,
      "grad_norm": 3.9375,
      "learning_rate": 9.387147111159734e-06,
      "loss": 1.0832922,
      "memory(GiB)": 112.26,
      "step": 15870,
      "train_speed(iter/s)": 1.132957
    },
    {
      "acc": 0.73007336,
      "epoch": 0.40271435819381024,
      "grad_norm": 4.75,
      "learning_rate": 9.386643983869025e-06,
      "loss": 1.11165447,
      "memory(GiB)": 112.26,
      "step": 15875,
      "train_speed(iter/s)": 1.133007
    },
    {
      "acc": 0.72688708,
      "epoch": 0.4028411973617453,
      "grad_norm": 4.9375,
      "learning_rate": 9.386140663634127e-06,
      "loss": 1.18553095,
      "memory(GiB)": 112.26,
      "step": 15880,
      "train_speed(iter/s)": 1.133065
    },
    {
      "acc": 0.72575321,
      "epoch": 0.4029680365296804,
      "grad_norm": 3.71875,
      "learning_rate": 9.385637150477182e-06,
      "loss": 1.12829704,
      "memory(GiB)": 112.26,
      "step": 15885,
      "train_speed(iter/s)": 1.133112
    },
    {
      "acc": 0.72248569,
      "epoch": 0.40309487569761543,
      "grad_norm": 4.0625,
      "learning_rate": 9.385133444420333e-06,
      "loss": 1.15590458,
      "memory(GiB)": 112.26,
      "step": 15890,
      "train_speed(iter/s)": 1.133179
    },
    {
      "acc": 0.74526553,
      "epoch": 0.4032217148655505,
      "grad_norm": 4.59375,
      "learning_rate": 9.384629545485738e-06,
      "loss": 1.02494316,
      "memory(GiB)": 112.26,
      "step": 15895,
      "train_speed(iter/s)": 1.133203
    },
    {
      "acc": 0.72430568,
      "epoch": 0.4033485540334855,
      "grad_norm": 3.40625,
      "learning_rate": 9.38412545369556e-06,
      "loss": 1.1232008,
      "memory(GiB)": 112.26,
      "step": 15900,
      "train_speed(iter/s)": 1.133213
    },
    {
      "acc": 0.72823925,
      "epoch": 0.4034753932014206,
      "grad_norm": 5.0,
      "learning_rate": 9.383621169071971e-06,
      "loss": 1.0916419,
      "memory(GiB)": 112.26,
      "step": 15905,
      "train_speed(iter/s)": 1.133293
    },
    {
      "acc": 0.74311857,
      "epoch": 0.40360223236935566,
      "grad_norm": 3.421875,
      "learning_rate": 9.38311669163715e-06,
      "loss": 1.12880287,
      "memory(GiB)": 112.26,
      "step": 15910,
      "train_speed(iter/s)": 1.133318
    },
    {
      "acc": 0.73693895,
      "epoch": 0.4037290715372907,
      "grad_norm": 4.65625,
      "learning_rate": 9.38261202141329e-06,
      "loss": 1.083815,
      "memory(GiB)": 112.26,
      "step": 15915,
      "train_speed(iter/s)": 1.133373
    },
    {
      "acc": 0.73206987,
      "epoch": 0.40385591070522575,
      "grad_norm": 4.46875,
      "learning_rate": 9.382107158422585e-06,
      "loss": 1.09914188,
      "memory(GiB)": 112.26,
      "step": 15920,
      "train_speed(iter/s)": 1.133421
    },
    {
      "acc": 0.72828393,
      "epoch": 0.40398274987316085,
      "grad_norm": 3.984375,
      "learning_rate": 9.381602102687241e-06,
      "loss": 1.09456272,
      "memory(GiB)": 112.26,
      "step": 15925,
      "train_speed(iter/s)": 1.13345
    },
    {
      "acc": 0.73306823,
      "epoch": 0.4041095890410959,
      "grad_norm": 4.0,
      "learning_rate": 9.381096854229476e-06,
      "loss": 1.11140051,
      "memory(GiB)": 112.26,
      "step": 15930,
      "train_speed(iter/s)": 1.13349
    },
    {
      "acc": 0.73866086,
      "epoch": 0.40423642820903094,
      "grad_norm": 3.421875,
      "learning_rate": 9.38059141307151e-06,
      "loss": 1.10644531,
      "memory(GiB)": 112.26,
      "step": 15935,
      "train_speed(iter/s)": 1.133529
    },
    {
      "acc": 0.73687506,
      "epoch": 0.404363267376966,
      "grad_norm": 3.46875,
      "learning_rate": 9.380085779235577e-06,
      "loss": 1.07494421,
      "memory(GiB)": 112.26,
      "step": 15940,
      "train_speed(iter/s)": 1.13354
    },
    {
      "acc": 0.72372928,
      "epoch": 0.4044901065449011,
      "grad_norm": 3.34375,
      "learning_rate": 9.379579952743916e-06,
      "loss": 1.13014011,
      "memory(GiB)": 112.26,
      "step": 15945,
      "train_speed(iter/s)": 1.133603
    },
    {
      "acc": 0.73337812,
      "epoch": 0.40461694571283613,
      "grad_norm": 4.125,
      "learning_rate": 9.379073933618774e-06,
      "loss": 1.10602512,
      "memory(GiB)": 112.26,
      "step": 15950,
      "train_speed(iter/s)": 1.133676
    },
    {
      "acc": 0.72771158,
      "epoch": 0.4047437848807712,
      "grad_norm": 3.421875,
      "learning_rate": 9.37856772188241e-06,
      "loss": 1.11452646,
      "memory(GiB)": 112.26,
      "step": 15955,
      "train_speed(iter/s)": 1.133723
    },
    {
      "acc": 0.73161297,
      "epoch": 0.4048706240487062,
      "grad_norm": 3.4375,
      "learning_rate": 9.378061317557088e-06,
      "loss": 1.07560692,
      "memory(GiB)": 112.26,
      "step": 15960,
      "train_speed(iter/s)": 1.133781
    },
    {
      "acc": 0.75053487,
      "epoch": 0.4049974632166413,
      "grad_norm": 3.984375,
      "learning_rate": 9.377554720665083e-06,
      "loss": 1.08272324,
      "memory(GiB)": 112.26,
      "step": 15965,
      "train_speed(iter/s)": 1.13384
    },
    {
      "acc": 0.72873468,
      "epoch": 0.40512430238457636,
      "grad_norm": 3.5625,
      "learning_rate": 9.377047931228677e-06,
      "loss": 1.14007168,
      "memory(GiB)": 112.26,
      "step": 15970,
      "train_speed(iter/s)": 1.133882
    },
    {
      "acc": 0.736939,
      "epoch": 0.4052511415525114,
      "grad_norm": 4.65625,
      "learning_rate": 9.376540949270161e-06,
      "loss": 1.06931524,
      "memory(GiB)": 112.26,
      "step": 15975,
      "train_speed(iter/s)": 1.133962
    },
    {
      "acc": 0.73441381,
      "epoch": 0.40537798072044645,
      "grad_norm": 3.53125,
      "learning_rate": 9.376033774811833e-06,
      "loss": 1.06550388,
      "memory(GiB)": 112.26,
      "step": 15980,
      "train_speed(iter/s)": 1.134034
    },
    {
      "acc": 0.74395142,
      "epoch": 0.40550481988838155,
      "grad_norm": 3.921875,
      "learning_rate": 9.375526407876003e-06,
      "loss": 1.07078009,
      "memory(GiB)": 112.26,
      "step": 15985,
      "train_speed(iter/s)": 1.134102
    },
    {
      "acc": 0.72143497,
      "epoch": 0.4056316590563166,
      "grad_norm": 4.40625,
      "learning_rate": 9.375018848484987e-06,
      "loss": 1.1413578,
      "memory(GiB)": 112.26,
      "step": 15990,
      "train_speed(iter/s)": 1.13415
    },
    {
      "acc": 0.7355999,
      "epoch": 0.40575849822425164,
      "grad_norm": 3.09375,
      "learning_rate": 9.374511096661108e-06,
      "loss": 1.08399696,
      "memory(GiB)": 112.26,
      "step": 15995,
      "train_speed(iter/s)": 1.134162
    },
    {
      "acc": 0.73388805,
      "epoch": 0.4058853373921867,
      "grad_norm": 3.265625,
      "learning_rate": 9.374003152426701e-06,
      "loss": 1.08534565,
      "memory(GiB)": 112.26,
      "step": 16000,
      "train_speed(iter/s)": 1.134224
    },
    {
      "epoch": 0.4058853373921867,
      "eval_acc": 0.7197960977911986,
      "eval_loss": 1.0756316184997559,
      "eval_runtime": 70.8242,
      "eval_samples_per_second": 89.941,
      "eval_steps_per_second": 22.492,
      "step": 16000
    },
    {
      "acc": 0.72549744,
      "epoch": 0.4060121765601218,
      "grad_norm": 3.875,
      "learning_rate": 9.373495015804106e-06,
      "loss": 1.09608364,
      "memory(GiB)": 112.26,
      "step": 16005,
      "train_speed(iter/s)": 1.125117
    },
    {
      "acc": 0.71620226,
      "epoch": 0.40613901572805683,
      "grad_norm": 3.90625,
      "learning_rate": 9.372986686815674e-06,
      "loss": 1.13290882,
      "memory(GiB)": 112.26,
      "step": 16010,
      "train_speed(iter/s)": 1.125174
    },
    {
      "acc": 0.7375412,
      "epoch": 0.4062658548959919,
      "grad_norm": 4.15625,
      "learning_rate": 9.372478165483763e-06,
      "loss": 1.06277561,
      "memory(GiB)": 112.26,
      "step": 16015,
      "train_speed(iter/s)": 1.125237
    },
    {
      "acc": 0.73649859,
      "epoch": 0.4063926940639269,
      "grad_norm": 3.625,
      "learning_rate": 9.371969451830743e-06,
      "loss": 1.12152662,
      "memory(GiB)": 112.26,
      "step": 16020,
      "train_speed(iter/s)": 1.125263
    },
    {
      "acc": 0.73725286,
      "epoch": 0.406519533231862,
      "grad_norm": 3.46875,
      "learning_rate": 9.371460545878986e-06,
      "loss": 1.06080265,
      "memory(GiB)": 112.26,
      "step": 16025,
      "train_speed(iter/s)": 1.125326
    },
    {
      "acc": 0.73456206,
      "epoch": 0.40664637239979706,
      "grad_norm": 3.90625,
      "learning_rate": 9.370951447650875e-06,
      "loss": 1.08320236,
      "memory(GiB)": 112.26,
      "step": 16030,
      "train_speed(iter/s)": 1.125363
    },
    {
      "acc": 0.71078539,
      "epoch": 0.4067732115677321,
      "grad_norm": 3.609375,
      "learning_rate": 9.370442157168806e-06,
      "loss": 1.14444141,
      "memory(GiB)": 112.26,
      "step": 16035,
      "train_speed(iter/s)": 1.125422
    },
    {
      "acc": 0.72619634,
      "epoch": 0.40690005073566715,
      "grad_norm": 3.375,
      "learning_rate": 9.369932674455177e-06,
      "loss": 1.10072489,
      "memory(GiB)": 112.26,
      "step": 16040,
      "train_speed(iter/s)": 1.125483
    },
    {
      "acc": 0.74550304,
      "epoch": 0.40702688990360225,
      "grad_norm": 3.546875,
      "learning_rate": 9.3694229995324e-06,
      "loss": 1.03207951,
      "memory(GiB)": 112.26,
      "step": 16045,
      "train_speed(iter/s)": 1.125538
    },
    {
      "acc": 0.73849721,
      "epoch": 0.4071537290715373,
      "grad_norm": 4.25,
      "learning_rate": 9.368913132422891e-06,
      "loss": 1.10159092,
      "memory(GiB)": 112.26,
      "step": 16050,
      "train_speed(iter/s)": 1.12561
    },
    {
      "acc": 0.7286932,
      "epoch": 0.40728056823947234,
      "grad_norm": 3.6875,
      "learning_rate": 9.368403073149079e-06,
      "loss": 1.09570599,
      "memory(GiB)": 112.26,
      "step": 16055,
      "train_speed(iter/s)": 1.125667
    },
    {
      "acc": 0.72703094,
      "epoch": 0.4074074074074074,
      "grad_norm": 4.28125,
      "learning_rate": 9.367892821733393e-06,
      "loss": 1.08550701,
      "memory(GiB)": 112.26,
      "step": 16060,
      "train_speed(iter/s)": 1.125693
    },
    {
      "acc": 0.73374028,
      "epoch": 0.4075342465753425,
      "grad_norm": 3.609375,
      "learning_rate": 9.367382378198282e-06,
      "loss": 1.12000036,
      "memory(GiB)": 112.26,
      "step": 16065,
      "train_speed(iter/s)": 1.125756
    },
    {
      "acc": 0.73138475,
      "epoch": 0.40766108574327753,
      "grad_norm": 4.75,
      "learning_rate": 9.366871742566193e-06,
      "loss": 1.05982294,
      "memory(GiB)": 112.26,
      "step": 16070,
      "train_speed(iter/s)": 1.125809
    },
    {
      "acc": 0.7260036,
      "epoch": 0.4077879249112126,
      "grad_norm": 3.9375,
      "learning_rate": 9.36636091485959e-06,
      "loss": 1.10871315,
      "memory(GiB)": 112.26,
      "step": 16075,
      "train_speed(iter/s)": 1.125867
    },
    {
      "acc": 0.73518715,
      "epoch": 0.4079147640791476,
      "grad_norm": 3.921875,
      "learning_rate": 9.365849895100939e-06,
      "loss": 1.08071079,
      "memory(GiB)": 112.26,
      "step": 16080,
      "train_speed(iter/s)": 1.125904
    },
    {
      "acc": 0.74069042,
      "epoch": 0.4080416032470827,
      "grad_norm": 4.90625,
      "learning_rate": 9.365338683312714e-06,
      "loss": 1.0642108,
      "memory(GiB)": 112.26,
      "step": 16085,
      "train_speed(iter/s)": 1.12595
    },
    {
      "acc": 0.73338714,
      "epoch": 0.40816844241501776,
      "grad_norm": 3.296875,
      "learning_rate": 9.364827279517408e-06,
      "loss": 1.1005312,
      "memory(GiB)": 112.26,
      "step": 16090,
      "train_speed(iter/s)": 1.125996
    },
    {
      "acc": 0.72336998,
      "epoch": 0.4082952815829528,
      "grad_norm": 3.296875,
      "learning_rate": 9.36431568373751e-06,
      "loss": 1.15507326,
      "memory(GiB)": 112.26,
      "step": 16095,
      "train_speed(iter/s)": 1.126051
    },
    {
      "acc": 0.74108582,
      "epoch": 0.40842212075088785,
      "grad_norm": 3.765625,
      "learning_rate": 9.363803895995522e-06,
      "loss": 1.06938782,
      "memory(GiB)": 112.26,
      "step": 16100,
      "train_speed(iter/s)": 1.126086
    },
    {
      "acc": 0.73868341,
      "epoch": 0.40854895991882295,
      "grad_norm": 3.90625,
      "learning_rate": 9.363291916313955e-06,
      "loss": 1.07801819,
      "memory(GiB)": 112.26,
      "step": 16105,
      "train_speed(iter/s)": 1.126155
    },
    {
      "acc": 0.73129768,
      "epoch": 0.408675799086758,
      "grad_norm": 3.15625,
      "learning_rate": 9.362779744715332e-06,
      "loss": 1.10311432,
      "memory(GiB)": 112.26,
      "step": 16110,
      "train_speed(iter/s)": 1.126159
    },
    {
      "acc": 0.73387918,
      "epoch": 0.40880263825469304,
      "grad_norm": 4.0625,
      "learning_rate": 9.362267381222174e-06,
      "loss": 1.10552464,
      "memory(GiB)": 112.26,
      "step": 16115,
      "train_speed(iter/s)": 1.12622
    },
    {
      "acc": 0.73371897,
      "epoch": 0.4089294774226281,
      "grad_norm": 3.4375,
      "learning_rate": 9.361754825857022e-06,
      "loss": 1.09124393,
      "memory(GiB)": 112.26,
      "step": 16120,
      "train_speed(iter/s)": 1.126239
    },
    {
      "acc": 0.72323093,
      "epoch": 0.4090563165905632,
      "grad_norm": 3.671875,
      "learning_rate": 9.36124207864242e-06,
      "loss": 1.10974493,
      "memory(GiB)": 112.26,
      "step": 16125,
      "train_speed(iter/s)": 1.12629
    },
    {
      "acc": 0.72747297,
      "epoch": 0.40918315575849823,
      "grad_norm": 3.90625,
      "learning_rate": 9.360729139600917e-06,
      "loss": 1.12688713,
      "memory(GiB)": 112.26,
      "step": 16130,
      "train_speed(iter/s)": 1.126361
    },
    {
      "acc": 0.73983307,
      "epoch": 0.4093099949264333,
      "grad_norm": 3.546875,
      "learning_rate": 9.36021600875508e-06,
      "loss": 1.11159449,
      "memory(GiB)": 112.26,
      "step": 16135,
      "train_speed(iter/s)": 1.126424
    },
    {
      "acc": 0.71832285,
      "epoch": 0.4094368340943683,
      "grad_norm": 3.828125,
      "learning_rate": 9.359702686127474e-06,
      "loss": 1.12050266,
      "memory(GiB)": 112.26,
      "step": 16140,
      "train_speed(iter/s)": 1.126487
    },
    {
      "acc": 0.73734121,
      "epoch": 0.4095636732623034,
      "grad_norm": 3.5625,
      "learning_rate": 9.359189171740679e-06,
      "loss": 1.13507977,
      "memory(GiB)": 112.26,
      "step": 16145,
      "train_speed(iter/s)": 1.126544
    },
    {
      "acc": 0.72085752,
      "epoch": 0.40969051243023846,
      "grad_norm": 3.671875,
      "learning_rate": 9.358675465617283e-06,
      "loss": 1.11945744,
      "memory(GiB)": 112.26,
      "step": 16150,
      "train_speed(iter/s)": 1.126615
    },
    {
      "acc": 0.73094144,
      "epoch": 0.4098173515981735,
      "grad_norm": 3.9375,
      "learning_rate": 9.35816156777988e-06,
      "loss": 1.13303738,
      "memory(GiB)": 112.26,
      "step": 16155,
      "train_speed(iter/s)": 1.126678
    },
    {
      "acc": 0.71952238,
      "epoch": 0.40994419076610855,
      "grad_norm": 4.5625,
      "learning_rate": 9.357647478251072e-06,
      "loss": 1.10284538,
      "memory(GiB)": 112.26,
      "step": 16160,
      "train_speed(iter/s)": 1.126746
    },
    {
      "acc": 0.724611,
      "epoch": 0.41007102993404365,
      "grad_norm": 4.21875,
      "learning_rate": 9.357133197053475e-06,
      "loss": 1.15712843,
      "memory(GiB)": 112.26,
      "step": 16165,
      "train_speed(iter/s)": 1.126829
    },
    {
      "acc": 0.733463,
      "epoch": 0.4101978691019787,
      "grad_norm": 5.0625,
      "learning_rate": 9.356618724209704e-06,
      "loss": 1.11166363,
      "memory(GiB)": 112.26,
      "step": 16170,
      "train_speed(iter/s)": 1.126881
    },
    {
      "acc": 0.73506303,
      "epoch": 0.41032470826991374,
      "grad_norm": 4.34375,
      "learning_rate": 9.356104059742392e-06,
      "loss": 1.05830383,
      "memory(GiB)": 112.26,
      "step": 16175,
      "train_speed(iter/s)": 1.126934
    },
    {
      "acc": 0.72340484,
      "epoch": 0.4104515474378488,
      "grad_norm": 3.65625,
      "learning_rate": 9.355589203674175e-06,
      "loss": 1.13377018,
      "memory(GiB)": 112.26,
      "step": 16180,
      "train_speed(iter/s)": 1.12699
    },
    {
      "acc": 0.74885168,
      "epoch": 0.4105783866057839,
      "grad_norm": 4.5,
      "learning_rate": 9.355074156027699e-06,
      "loss": 1.05167007,
      "memory(GiB)": 112.26,
      "step": 16185,
      "train_speed(iter/s)": 1.127049
    },
    {
      "acc": 0.72603712,
      "epoch": 0.41070522577371893,
      "grad_norm": 3.625,
      "learning_rate": 9.354558916825616e-06,
      "loss": 1.13197117,
      "memory(GiB)": 112.26,
      "step": 16190,
      "train_speed(iter/s)": 1.127104
    },
    {
      "acc": 0.73510799,
      "epoch": 0.410832064941654,
      "grad_norm": 3.21875,
      "learning_rate": 9.354043486090592e-06,
      "loss": 1.06166496,
      "memory(GiB)": 112.26,
      "step": 16195,
      "train_speed(iter/s)": 1.127143
    },
    {
      "acc": 0.71495728,
      "epoch": 0.410958904109589,
      "grad_norm": 3.78125,
      "learning_rate": 9.353527863845296e-06,
      "loss": 1.15798512,
      "memory(GiB)": 112.26,
      "step": 16200,
      "train_speed(iter/s)": 1.127215
    },
    {
      "acc": 0.74694242,
      "epoch": 0.4110857432775241,
      "grad_norm": 3.1875,
      "learning_rate": 9.353012050112405e-06,
      "loss": 1.07766037,
      "memory(GiB)": 112.26,
      "step": 16205,
      "train_speed(iter/s)": 1.127251
    },
    {
      "acc": 0.73154984,
      "epoch": 0.41121258244545916,
      "grad_norm": 3.40625,
      "learning_rate": 9.352496044914611e-06,
      "loss": 1.10079823,
      "memory(GiB)": 112.26,
      "step": 16210,
      "train_speed(iter/s)": 1.127298
    },
    {
      "acc": 0.73826923,
      "epoch": 0.4113394216133942,
      "grad_norm": 4.75,
      "learning_rate": 9.351979848274608e-06,
      "loss": 1.08527241,
      "memory(GiB)": 112.26,
      "step": 16215,
      "train_speed(iter/s)": 1.12734
    },
    {
      "acc": 0.75349965,
      "epoch": 0.41146626078132925,
      "grad_norm": 3.265625,
      "learning_rate": 9.351463460215102e-06,
      "loss": 0.99027443,
      "memory(GiB)": 112.26,
      "step": 16220,
      "train_speed(iter/s)": 1.127388
    },
    {
      "acc": 0.73862057,
      "epoch": 0.41159309994926435,
      "grad_norm": 4.125,
      "learning_rate": 9.350946880758804e-06,
      "loss": 1.06497765,
      "memory(GiB)": 112.26,
      "step": 16225,
      "train_speed(iter/s)": 1.127442
    },
    {
      "acc": 0.73344908,
      "epoch": 0.4117199391171994,
      "grad_norm": 3.46875,
      "learning_rate": 9.350430109928437e-06,
      "loss": 1.0979126,
      "memory(GiB)": 112.26,
      "step": 16230,
      "train_speed(iter/s)": 1.127492
    },
    {
      "acc": 0.73671765,
      "epoch": 0.41184677828513444,
      "grad_norm": 4.5,
      "learning_rate": 9.349913147746731e-06,
      "loss": 1.14503994,
      "memory(GiB)": 112.26,
      "step": 16235,
      "train_speed(iter/s)": 1.127555
    },
    {
      "acc": 0.73806777,
      "epoch": 0.4119736174530695,
      "grad_norm": 3.296875,
      "learning_rate": 9.349395994236423e-06,
      "loss": 1.06374187,
      "memory(GiB)": 112.26,
      "step": 16240,
      "train_speed(iter/s)": 1.127625
    },
    {
      "acc": 0.72614374,
      "epoch": 0.4121004566210046,
      "grad_norm": 3.640625,
      "learning_rate": 9.348878649420262e-06,
      "loss": 1.16557779,
      "memory(GiB)": 112.26,
      "step": 16245,
      "train_speed(iter/s)": 1.127692
    },
    {
      "acc": 0.72348733,
      "epoch": 0.41222729578893963,
      "grad_norm": 3.953125,
      "learning_rate": 9.348361113321e-06,
      "loss": 1.11205292,
      "memory(GiB)": 112.26,
      "step": 16250,
      "train_speed(iter/s)": 1.127704
    },
    {
      "acc": 0.73330421,
      "epoch": 0.4123541349568747,
      "grad_norm": 3.75,
      "learning_rate": 9.347843385961403e-06,
      "loss": 1.12025204,
      "memory(GiB)": 112.26,
      "step": 16255,
      "train_speed(iter/s)": 1.127747
    },
    {
      "acc": 0.72050571,
      "epoch": 0.4124809741248097,
      "grad_norm": 3.96875,
      "learning_rate": 9.347325467364242e-06,
      "loss": 1.1143465,
      "memory(GiB)": 112.26,
      "step": 16260,
      "train_speed(iter/s)": 1.127824
    },
    {
      "acc": 0.74096355,
      "epoch": 0.4126078132927448,
      "grad_norm": 3.53125,
      "learning_rate": 9.346807357552296e-06,
      "loss": 1.07936077,
      "memory(GiB)": 112.26,
      "step": 16265,
      "train_speed(iter/s)": 1.127875
    },
    {
      "acc": 0.72403631,
      "epoch": 0.41273465246067986,
      "grad_norm": 3.328125,
      "learning_rate": 9.346289056548357e-06,
      "loss": 1.12473202,
      "memory(GiB)": 112.26,
      "step": 16270,
      "train_speed(iter/s)": 1.127937
    },
    {
      "acc": 0.74383836,
      "epoch": 0.4128614916286149,
      "grad_norm": 3.625,
      "learning_rate": 9.345770564375221e-06,
      "loss": 1.0543623,
      "memory(GiB)": 112.26,
      "step": 16275,
      "train_speed(iter/s)": 1.127982
    },
    {
      "acc": 0.72159328,
      "epoch": 0.41298833079654995,
      "grad_norm": 3.34375,
      "learning_rate": 9.345251881055692e-06,
      "loss": 1.0911665,
      "memory(GiB)": 112.26,
      "step": 16280,
      "train_speed(iter/s)": 1.128013
    },
    {
      "acc": 0.72906475,
      "epoch": 0.41311516996448505,
      "grad_norm": 4.25,
      "learning_rate": 9.344733006612585e-06,
      "loss": 1.14109669,
      "memory(GiB)": 112.26,
      "step": 16285,
      "train_speed(iter/s)": 1.128062
    },
    {
      "acc": 0.73738055,
      "epoch": 0.4132420091324201,
      "grad_norm": 3.8125,
      "learning_rate": 9.344213941068724e-06,
      "loss": 1.10357113,
      "memory(GiB)": 112.26,
      "step": 16290,
      "train_speed(iter/s)": 1.128097
    },
    {
      "acc": 0.72674084,
      "epoch": 0.41336884830035514,
      "grad_norm": 4.0625,
      "learning_rate": 9.343694684446937e-06,
      "loss": 1.11984501,
      "memory(GiB)": 112.26,
      "step": 16295,
      "train_speed(iter/s)": 1.128113
    },
    {
      "acc": 0.73413568,
      "epoch": 0.4134956874682902,
      "grad_norm": 3.46875,
      "learning_rate": 9.343175236770065e-06,
      "loss": 1.07232361,
      "memory(GiB)": 112.26,
      "step": 16300,
      "train_speed(iter/s)": 1.128171
    },
    {
      "acc": 0.73499174,
      "epoch": 0.4136225266362253,
      "grad_norm": 3.015625,
      "learning_rate": 9.342655598060955e-06,
      "loss": 1.08220835,
      "memory(GiB)": 112.26,
      "step": 16305,
      "train_speed(iter/s)": 1.128238
    },
    {
      "acc": 0.73431482,
      "epoch": 0.41374936580416033,
      "grad_norm": 3.140625,
      "learning_rate": 9.342135768342464e-06,
      "loss": 1.07671213,
      "memory(GiB)": 112.26,
      "step": 16310,
      "train_speed(iter/s)": 1.128287
    },
    {
      "acc": 0.73622398,
      "epoch": 0.4138762049720954,
      "grad_norm": 3.578125,
      "learning_rate": 9.341615747637454e-06,
      "loss": 1.0711688,
      "memory(GiB)": 112.26,
      "step": 16315,
      "train_speed(iter/s)": 1.128363
    },
    {
      "acc": 0.72351151,
      "epoch": 0.4140030441400304,
      "grad_norm": 3.140625,
      "learning_rate": 9.3410955359688e-06,
      "loss": 1.1373189,
      "memory(GiB)": 112.26,
      "step": 16320,
      "train_speed(iter/s)": 1.128432
    },
    {
      "acc": 0.73646631,
      "epoch": 0.4141298833079655,
      "grad_norm": 4.4375,
      "learning_rate": 9.340575133359385e-06,
      "loss": 1.07157001,
      "memory(GiB)": 112.26,
      "step": 16325,
      "train_speed(iter/s)": 1.128454
    },
    {
      "acc": 0.72947273,
      "epoch": 0.41425672247590056,
      "grad_norm": 3.5625,
      "learning_rate": 9.340054539832095e-06,
      "loss": 1.07759438,
      "memory(GiB)": 112.26,
      "step": 16330,
      "train_speed(iter/s)": 1.128487
    },
    {
      "acc": 0.72357607,
      "epoch": 0.4143835616438356,
      "grad_norm": 4.0625,
      "learning_rate": 9.339533755409828e-06,
      "loss": 1.15522938,
      "memory(GiB)": 112.26,
      "step": 16335,
      "train_speed(iter/s)": 1.128552
    },
    {
      "acc": 0.72857618,
      "epoch": 0.41451040081177065,
      "grad_norm": 3.578125,
      "learning_rate": 9.339012780115492e-06,
      "loss": 1.0964879,
      "memory(GiB)": 112.26,
      "step": 16340,
      "train_speed(iter/s)": 1.128595
    },
    {
      "acc": 0.7328393,
      "epoch": 0.41463723997970575,
      "grad_norm": 3.203125,
      "learning_rate": 9.338491613972002e-06,
      "loss": 1.07463646,
      "memory(GiB)": 112.26,
      "step": 16345,
      "train_speed(iter/s)": 1.128634
    },
    {
      "acc": 0.7525691,
      "epoch": 0.4147640791476408,
      "grad_norm": 3.609375,
      "learning_rate": 9.337970257002282e-06,
      "loss": 1.08716021,
      "memory(GiB)": 112.26,
      "step": 16350,
      "train_speed(iter/s)": 1.128671
    },
    {
      "acc": 0.72666311,
      "epoch": 0.41489091831557584,
      "grad_norm": 4.34375,
      "learning_rate": 9.337448709229261e-06,
      "loss": 1.18569469,
      "memory(GiB)": 112.26,
      "step": 16355,
      "train_speed(iter/s)": 1.128711
    },
    {
      "acc": 0.73990641,
      "epoch": 0.4150177574835109,
      "grad_norm": 3.875,
      "learning_rate": 9.336926970675883e-06,
      "loss": 1.10909958,
      "memory(GiB)": 112.26,
      "step": 16360,
      "train_speed(iter/s)": 1.128776
    },
    {
      "acc": 0.72136326,
      "epoch": 0.415144596651446,
      "grad_norm": 3.671875,
      "learning_rate": 9.33640504136509e-06,
      "loss": 1.14362612,
      "memory(GiB)": 112.26,
      "step": 16365,
      "train_speed(iter/s)": 1.128826
    },
    {
      "acc": 0.73030286,
      "epoch": 0.41527143581938103,
      "grad_norm": 3.953125,
      "learning_rate": 9.335882921319845e-06,
      "loss": 1.09648933,
      "memory(GiB)": 112.26,
      "step": 16370,
      "train_speed(iter/s)": 1.128895
    },
    {
      "acc": 0.74631009,
      "epoch": 0.4153982749873161,
      "grad_norm": 3.359375,
      "learning_rate": 9.335360610563111e-06,
      "loss": 1.12515659,
      "memory(GiB)": 112.26,
      "step": 16375,
      "train_speed(iter/s)": 1.128975
    },
    {
      "acc": 0.73500276,
      "epoch": 0.4155251141552511,
      "grad_norm": 4.78125,
      "learning_rate": 9.33483810911786e-06,
      "loss": 1.09626617,
      "memory(GiB)": 112.26,
      "step": 16380,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.70785661,
      "epoch": 0.4156519533231862,
      "grad_norm": 3.859375,
      "learning_rate": 9.334315417007079e-06,
      "loss": 1.19127922,
      "memory(GiB)": 112.26,
      "step": 16385,
      "train_speed(iter/s)": 1.129047
    },
    {
      "acc": 0.71971073,
      "epoch": 0.41577879249112126,
      "grad_norm": 3.453125,
      "learning_rate": 9.333792534253751e-06,
      "loss": 1.13375607,
      "memory(GiB)": 112.26,
      "step": 16390,
      "train_speed(iter/s)": 1.129107
    },
    {
      "acc": 0.72443409,
      "epoch": 0.4159056316590563,
      "grad_norm": 3.578125,
      "learning_rate": 9.333269460880879e-06,
      "loss": 1.12192373,
      "memory(GiB)": 112.26,
      "step": 16395,
      "train_speed(iter/s)": 1.129167
    },
    {
      "acc": 0.73444719,
      "epoch": 0.41603247082699135,
      "grad_norm": 4.875,
      "learning_rate": 9.33274619691147e-06,
      "loss": 1.04437723,
      "memory(GiB)": 112.26,
      "step": 16400,
      "train_speed(iter/s)": 1.129224
    },
    {
      "acc": 0.73384871,
      "epoch": 0.41615930999492645,
      "grad_norm": 4.0,
      "learning_rate": 9.332222742368537e-06,
      "loss": 1.07700319,
      "memory(GiB)": 112.26,
      "step": 16405,
      "train_speed(iter/s)": 1.129289
    },
    {
      "acc": 0.72708788,
      "epoch": 0.4162861491628615,
      "grad_norm": 3.359375,
      "learning_rate": 9.331699097275108e-06,
      "loss": 1.11418324,
      "memory(GiB)": 112.26,
      "step": 16410,
      "train_speed(iter/s)": 1.129335
    },
    {
      "acc": 0.73407183,
      "epoch": 0.41641298833079654,
      "grad_norm": 5.25,
      "learning_rate": 9.331175261654213e-06,
      "loss": 1.11541271,
      "memory(GiB)": 112.26,
      "step": 16415,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.72575426,
      "epoch": 0.4165398274987316,
      "grad_norm": 3.6875,
      "learning_rate": 9.330651235528891e-06,
      "loss": 1.11981354,
      "memory(GiB)": 112.26,
      "step": 16420,
      "train_speed(iter/s)": 1.12945
    },
    {
      "acc": 0.72426014,
      "epoch": 0.4166666666666667,
      "grad_norm": 3.5625,
      "learning_rate": 9.330127018922195e-06,
      "loss": 1.13209724,
      "memory(GiB)": 112.26,
      "step": 16425,
      "train_speed(iter/s)": 1.129509
    },
    {
      "acc": 0.74540005,
      "epoch": 0.41679350583460173,
      "grad_norm": 3.359375,
      "learning_rate": 9.329602611857179e-06,
      "loss": 1.02400923,
      "memory(GiB)": 112.26,
      "step": 16430,
      "train_speed(iter/s)": 1.129558
    },
    {
      "acc": 0.72624073,
      "epoch": 0.4169203450025368,
      "grad_norm": 3.6875,
      "learning_rate": 9.329078014356909e-06,
      "loss": 1.07552719,
      "memory(GiB)": 112.26,
      "step": 16435,
      "train_speed(iter/s)": 1.129605
    },
    {
      "acc": 0.74559345,
      "epoch": 0.4170471841704718,
      "grad_norm": 3.796875,
      "learning_rate": 9.32855322644446e-06,
      "loss": 1.01425762,
      "memory(GiB)": 112.26,
      "step": 16440,
      "train_speed(iter/s)": 1.129642
    },
    {
      "acc": 0.73326101,
      "epoch": 0.4171740233384069,
      "grad_norm": 3.671875,
      "learning_rate": 9.328028248142916e-06,
      "loss": 1.06592312,
      "memory(GiB)": 112.26,
      "step": 16445,
      "train_speed(iter/s)": 1.129676
    },
    {
      "acc": 0.71937723,
      "epoch": 0.41730086250634196,
      "grad_norm": 3.125,
      "learning_rate": 9.327503079475365e-06,
      "loss": 1.14662304,
      "memory(GiB)": 112.26,
      "step": 16450,
      "train_speed(iter/s)": 1.129721
    },
    {
      "acc": 0.73671317,
      "epoch": 0.417427701674277,
      "grad_norm": 4.09375,
      "learning_rate": 9.326977720464908e-06,
      "loss": 1.05972252,
      "memory(GiB)": 112.26,
      "step": 16455,
      "train_speed(iter/s)": 1.129775
    },
    {
      "acc": 0.73841949,
      "epoch": 0.41755454084221205,
      "grad_norm": 4.21875,
      "learning_rate": 9.326452171134652e-06,
      "loss": 1.10407047,
      "memory(GiB)": 112.26,
      "step": 16460,
      "train_speed(iter/s)": 1.129805
    },
    {
      "acc": 0.72739186,
      "epoch": 0.41768138001014715,
      "grad_norm": 4.0625,
      "learning_rate": 9.325926431507714e-06,
      "loss": 1.09113045,
      "memory(GiB)": 112.26,
      "step": 16465,
      "train_speed(iter/s)": 1.129822
    },
    {
      "acc": 0.72827902,
      "epoch": 0.4178082191780822,
      "grad_norm": 3.625,
      "learning_rate": 9.325400501607218e-06,
      "loss": 1.07535076,
      "memory(GiB)": 112.26,
      "step": 16470,
      "train_speed(iter/s)": 1.129878
    },
    {
      "acc": 0.72641363,
      "epoch": 0.41793505834601724,
      "grad_norm": 4.3125,
      "learning_rate": 9.324874381456295e-06,
      "loss": 1.13872271,
      "memory(GiB)": 112.26,
      "step": 16475,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.73388062,
      "epoch": 0.4180618975139523,
      "grad_norm": 4.8125,
      "learning_rate": 9.324348071078088e-06,
      "loss": 1.09271221,
      "memory(GiB)": 112.26,
      "step": 16480,
      "train_speed(iter/s)": 1.129992
    },
    {
      "acc": 0.71730604,
      "epoch": 0.4181887366818874,
      "grad_norm": 3.578125,
      "learning_rate": 9.323821570495748e-06,
      "loss": 1.13889599,
      "memory(GiB)": 112.26,
      "step": 16485,
      "train_speed(iter/s)": 1.130024
    },
    {
      "acc": 0.72700701,
      "epoch": 0.41831557584982243,
      "grad_norm": 3.765625,
      "learning_rate": 9.32329487973243e-06,
      "loss": 1.11864262,
      "memory(GiB)": 112.26,
      "step": 16490,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.73907361,
      "epoch": 0.4184424150177575,
      "grad_norm": 3.46875,
      "learning_rate": 9.3227679988113e-06,
      "loss": 1.13319721,
      "memory(GiB)": 112.26,
      "step": 16495,
      "train_speed(iter/s)": 1.130043
    },
    {
      "acc": 0.74077072,
      "epoch": 0.4185692541856925,
      "grad_norm": 4.3125,
      "learning_rate": 9.322240927755534e-06,
      "loss": 1.09150276,
      "memory(GiB)": 112.26,
      "step": 16500,
      "train_speed(iter/s)": 1.130045
    },
    {
      "acc": 0.73146534,
      "epoch": 0.4186960933536276,
      "grad_norm": 5.0,
      "learning_rate": 9.321713666588314e-06,
      "loss": 1.10369129,
      "memory(GiB)": 112.26,
      "step": 16505,
      "train_speed(iter/s)": 1.130089
    },
    {
      "acc": 0.732377,
      "epoch": 0.41882293252156266,
      "grad_norm": 3.75,
      "learning_rate": 9.321186215332833e-06,
      "loss": 1.14872065,
      "memory(GiB)": 112.26,
      "step": 16510,
      "train_speed(iter/s)": 1.130152
    },
    {
      "acc": 0.7344759,
      "epoch": 0.4189497716894977,
      "grad_norm": 3.375,
      "learning_rate": 9.320658574012289e-06,
      "loss": 1.10920124,
      "memory(GiB)": 112.26,
      "step": 16515,
      "train_speed(iter/s)": 1.130206
    },
    {
      "acc": 0.73374195,
      "epoch": 0.41907661085743275,
      "grad_norm": 3.671875,
      "learning_rate": 9.32013074264989e-06,
      "loss": 1.07319546,
      "memory(GiB)": 112.26,
      "step": 16520,
      "train_speed(iter/s)": 1.130245
    },
    {
      "acc": 0.74185128,
      "epoch": 0.41920345002536785,
      "grad_norm": 3.828125,
      "learning_rate": 9.319602721268853e-06,
      "loss": 1.07158861,
      "memory(GiB)": 112.26,
      "step": 16525,
      "train_speed(iter/s)": 1.13029
    },
    {
      "acc": 0.75411863,
      "epoch": 0.4193302891933029,
      "grad_norm": 3.359375,
      "learning_rate": 9.319074509892403e-06,
      "loss": 1.03889942,
      "memory(GiB)": 112.26,
      "step": 16530,
      "train_speed(iter/s)": 1.130326
    },
    {
      "acc": 0.73148327,
      "epoch": 0.41945712836123794,
      "grad_norm": 3.46875,
      "learning_rate": 9.318546108543774e-06,
      "loss": 1.05401554,
      "memory(GiB)": 112.26,
      "step": 16535,
      "train_speed(iter/s)": 1.13038
    },
    {
      "acc": 0.70572643,
      "epoch": 0.419583967529173,
      "grad_norm": 4.0,
      "learning_rate": 9.318017517246205e-06,
      "loss": 1.16268806,
      "memory(GiB)": 112.26,
      "step": 16540,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.71672449,
      "epoch": 0.4197108066971081,
      "grad_norm": 4.375,
      "learning_rate": 9.317488736022948e-06,
      "loss": 1.15280943,
      "memory(GiB)": 112.26,
      "step": 16545,
      "train_speed(iter/s)": 1.130467
    },
    {
      "acc": 0.7248848,
      "epoch": 0.41983764586504313,
      "grad_norm": 4.5,
      "learning_rate": 9.316959764897259e-06,
      "loss": 1.12221241,
      "memory(GiB)": 112.26,
      "step": 16550,
      "train_speed(iter/s)": 1.130537
    },
    {
      "acc": 0.72799273,
      "epoch": 0.4199644850329782,
      "grad_norm": 3.984375,
      "learning_rate": 9.316430603892406e-06,
      "loss": 1.0574192,
      "memory(GiB)": 112.26,
      "step": 16555,
      "train_speed(iter/s)": 1.130564
    },
    {
      "acc": 0.72533712,
      "epoch": 0.4200913242009132,
      "grad_norm": 3.296875,
      "learning_rate": 9.315901253031663e-06,
      "loss": 1.11719055,
      "memory(GiB)": 112.26,
      "step": 16560,
      "train_speed(iter/s)": 1.130605
    },
    {
      "acc": 0.72376113,
      "epoch": 0.4202181633688483,
      "grad_norm": 4.25,
      "learning_rate": 9.315371712338315e-06,
      "loss": 1.22609406,
      "memory(GiB)": 112.26,
      "step": 16565,
      "train_speed(iter/s)": 1.130636
    },
    {
      "acc": 0.73106995,
      "epoch": 0.42034500253678336,
      "grad_norm": 3.609375,
      "learning_rate": 9.314841981835652e-06,
      "loss": 1.09294128,
      "memory(GiB)": 112.26,
      "step": 16570,
      "train_speed(iter/s)": 1.130636
    },
    {
      "acc": 0.71636381,
      "epoch": 0.4204718417047184,
      "grad_norm": 3.796875,
      "learning_rate": 9.314312061546974e-06,
      "loss": 1.16117153,
      "memory(GiB)": 112.26,
      "step": 16575,
      "train_speed(iter/s)": 1.130692
    },
    {
      "acc": 0.72465329,
      "epoch": 0.42059868087265345,
      "grad_norm": 3.125,
      "learning_rate": 9.313781951495588e-06,
      "loss": 1.13081055,
      "memory(GiB)": 112.26,
      "step": 16580,
      "train_speed(iter/s)": 1.130742
    },
    {
      "acc": 0.72801175,
      "epoch": 0.42072552004058855,
      "grad_norm": 3.578125,
      "learning_rate": 9.313251651704816e-06,
      "loss": 1.14243221,
      "memory(GiB)": 112.26,
      "step": 16585,
      "train_speed(iter/s)": 1.130807
    },
    {
      "acc": 0.73392363,
      "epoch": 0.4208523592085236,
      "grad_norm": 3.46875,
      "learning_rate": 9.312721162197975e-06,
      "loss": 1.10396566,
      "memory(GiB)": 112.26,
      "step": 16590,
      "train_speed(iter/s)": 1.13083
    },
    {
      "acc": 0.74567575,
      "epoch": 0.42097919837645864,
      "grad_norm": 3.484375,
      "learning_rate": 9.312190482998405e-06,
      "loss": 1.07433443,
      "memory(GiB)": 112.26,
      "step": 16595,
      "train_speed(iter/s)": 1.130897
    },
    {
      "acc": 0.7348691,
      "epoch": 0.4211060375443937,
      "grad_norm": 3.703125,
      "learning_rate": 9.311659614129443e-06,
      "loss": 1.12407742,
      "memory(GiB)": 112.26,
      "step": 16600,
      "train_speed(iter/s)": 1.130942
    },
    {
      "acc": 0.73167596,
      "epoch": 0.4212328767123288,
      "grad_norm": 4.03125,
      "learning_rate": 9.311128555614443e-06,
      "loss": 1.12727003,
      "memory(GiB)": 112.26,
      "step": 16605,
      "train_speed(iter/s)": 1.131014
    },
    {
      "acc": 0.73335662,
      "epoch": 0.42135971588026383,
      "grad_norm": 3.171875,
      "learning_rate": 9.31059730747676e-06,
      "loss": 1.05842514,
      "memory(GiB)": 112.26,
      "step": 16610,
      "train_speed(iter/s)": 1.131061
    },
    {
      "acc": 0.74546824,
      "epoch": 0.4214865550481989,
      "grad_norm": 3.515625,
      "learning_rate": 9.310065869739763e-06,
      "loss": 1.09112101,
      "memory(GiB)": 112.26,
      "step": 16615,
      "train_speed(iter/s)": 1.131135
    },
    {
      "acc": 0.72612801,
      "epoch": 0.4216133942161339,
      "grad_norm": 3.390625,
      "learning_rate": 9.309534242426826e-06,
      "loss": 1.0796814,
      "memory(GiB)": 112.26,
      "step": 16620,
      "train_speed(iter/s)": 1.13119
    },
    {
      "acc": 0.73644543,
      "epoch": 0.421740233384069,
      "grad_norm": 3.234375,
      "learning_rate": 9.30900242556133e-06,
      "loss": 1.06611938,
      "memory(GiB)": 112.26,
      "step": 16625,
      "train_speed(iter/s)": 1.13126
    },
    {
      "acc": 0.73549976,
      "epoch": 0.42186707255200406,
      "grad_norm": 4.09375,
      "learning_rate": 9.308470419166672e-06,
      "loss": 1.03592491,
      "memory(GiB)": 112.26,
      "step": 16630,
      "train_speed(iter/s)": 1.131282
    },
    {
      "acc": 0.72696986,
      "epoch": 0.4219939117199391,
      "grad_norm": 3.609375,
      "learning_rate": 9.307938223266247e-06,
      "loss": 1.07704306,
      "memory(GiB)": 112.26,
      "step": 16635,
      "train_speed(iter/s)": 1.131338
    },
    {
      "acc": 0.7209795,
      "epoch": 0.42212075088787415,
      "grad_norm": 3.203125,
      "learning_rate": 9.307405837883467e-06,
      "loss": 1.1588027,
      "memory(GiB)": 112.26,
      "step": 16640,
      "train_speed(iter/s)": 1.131365
    },
    {
      "acc": 0.72151508,
      "epoch": 0.42224759005580925,
      "grad_norm": 3.21875,
      "learning_rate": 9.306873263041745e-06,
      "loss": 1.10944386,
      "memory(GiB)": 112.26,
      "step": 16645,
      "train_speed(iter/s)": 1.131359
    },
    {
      "acc": 0.73032589,
      "epoch": 0.4223744292237443,
      "grad_norm": 4.46875,
      "learning_rate": 9.30634049876451e-06,
      "loss": 1.08893127,
      "memory(GiB)": 112.26,
      "step": 16650,
      "train_speed(iter/s)": 1.131419
    },
    {
      "acc": 0.72824078,
      "epoch": 0.42250126839167934,
      "grad_norm": 4.0,
      "learning_rate": 9.305807545075194e-06,
      "loss": 1.09754372,
      "memory(GiB)": 112.26,
      "step": 16655,
      "train_speed(iter/s)": 1.131466
    },
    {
      "acc": 0.73159642,
      "epoch": 0.4226281075596144,
      "grad_norm": 3.203125,
      "learning_rate": 9.305274401997237e-06,
      "loss": 1.11472235,
      "memory(GiB)": 112.26,
      "step": 16660,
      "train_speed(iter/s)": 1.131519
    },
    {
      "acc": 0.72886014,
      "epoch": 0.4227549467275495,
      "grad_norm": 3.5,
      "learning_rate": 9.304741069554088e-06,
      "loss": 1.07090988,
      "memory(GiB)": 112.26,
      "step": 16665,
      "train_speed(iter/s)": 1.131538
    },
    {
      "acc": 0.74129438,
      "epoch": 0.42288178589548453,
      "grad_norm": 3.484375,
      "learning_rate": 9.304207547769211e-06,
      "loss": 1.06018114,
      "memory(GiB)": 112.26,
      "step": 16670,
      "train_speed(iter/s)": 1.131574
    },
    {
      "acc": 0.74277859,
      "epoch": 0.4230086250634196,
      "grad_norm": 4.21875,
      "learning_rate": 9.303673836666067e-06,
      "loss": 1.07870636,
      "memory(GiB)": 112.26,
      "step": 16675,
      "train_speed(iter/s)": 1.131631
    },
    {
      "acc": 0.72518272,
      "epoch": 0.4231354642313546,
      "grad_norm": 3.375,
      "learning_rate": 9.303139936268133e-06,
      "loss": 1.12388744,
      "memory(GiB)": 112.26,
      "step": 16680,
      "train_speed(iter/s)": 1.131705
    },
    {
      "acc": 0.71883373,
      "epoch": 0.4232623033992897,
      "grad_norm": 3.46875,
      "learning_rate": 9.302605846598894e-06,
      "loss": 1.15333595,
      "memory(GiB)": 112.26,
      "step": 16685,
      "train_speed(iter/s)": 1.131761
    },
    {
      "acc": 0.72405205,
      "epoch": 0.42338914256722476,
      "grad_norm": 4.71875,
      "learning_rate": 9.30207156768184e-06,
      "loss": 1.12136364,
      "memory(GiB)": 112.26,
      "step": 16690,
      "train_speed(iter/s)": 1.1318
    },
    {
      "acc": 0.73694229,
      "epoch": 0.4235159817351598,
      "grad_norm": 3.859375,
      "learning_rate": 9.30153709954047e-06,
      "loss": 1.0476593,
      "memory(GiB)": 112.26,
      "step": 16695,
      "train_speed(iter/s)": 1.131833
    },
    {
      "acc": 0.73374,
      "epoch": 0.42364282090309485,
      "grad_norm": 3.390625,
      "learning_rate": 9.301002442198294e-06,
      "loss": 1.06638689,
      "memory(GiB)": 112.26,
      "step": 16700,
      "train_speed(iter/s)": 1.131844
    },
    {
      "acc": 0.7236722,
      "epoch": 0.42376966007102995,
      "grad_norm": 3.796875,
      "learning_rate": 9.300467595678829e-06,
      "loss": 1.10997105,
      "memory(GiB)": 112.26,
      "step": 16705,
      "train_speed(iter/s)": 1.131876
    },
    {
      "acc": 0.72893801,
      "epoch": 0.423896499238965,
      "grad_norm": 4.75,
      "learning_rate": 9.299932560005596e-06,
      "loss": 1.11459389,
      "memory(GiB)": 112.26,
      "step": 16710,
      "train_speed(iter/s)": 1.131941
    },
    {
      "acc": 0.73410263,
      "epoch": 0.42402333840690004,
      "grad_norm": 3.78125,
      "learning_rate": 9.299397335202133e-06,
      "loss": 1.10418568,
      "memory(GiB)": 112.26,
      "step": 16715,
      "train_speed(iter/s)": 1.131976
    },
    {
      "acc": 0.73596473,
      "epoch": 0.4241501775748351,
      "grad_norm": 3.796875,
      "learning_rate": 9.29886192129198e-06,
      "loss": 1.10336618,
      "memory(GiB)": 112.26,
      "step": 16720,
      "train_speed(iter/s)": 1.131962
    },
    {
      "acc": 0.71990862,
      "epoch": 0.4242770167427702,
      "grad_norm": 4.03125,
      "learning_rate": 9.298326318298688e-06,
      "loss": 1.13901062,
      "memory(GiB)": 112.26,
      "step": 16725,
      "train_speed(iter/s)": 1.13197
    },
    {
      "acc": 0.72729959,
      "epoch": 0.42440385591070523,
      "grad_norm": 3.8125,
      "learning_rate": 9.29779052624581e-06,
      "loss": 1.08823729,
      "memory(GiB)": 112.26,
      "step": 16730,
      "train_speed(iter/s)": 1.132013
    },
    {
      "acc": 0.73390989,
      "epoch": 0.4245306950786403,
      "grad_norm": 4.0625,
      "learning_rate": 9.29725454515692e-06,
      "loss": 1.10393658,
      "memory(GiB)": 112.26,
      "step": 16735,
      "train_speed(iter/s)": 1.132069
    },
    {
      "acc": 0.73528094,
      "epoch": 0.4246575342465753,
      "grad_norm": 3.671875,
      "learning_rate": 9.296718375055587e-06,
      "loss": 1.04864979,
      "memory(GiB)": 112.26,
      "step": 16740,
      "train_speed(iter/s)": 1.132114
    },
    {
      "acc": 0.73879671,
      "epoch": 0.4247843734145104,
      "grad_norm": 3.53125,
      "learning_rate": 9.296182015965399e-06,
      "loss": 1.08800869,
      "memory(GiB)": 112.26,
      "step": 16745,
      "train_speed(iter/s)": 1.132175
    },
    {
      "acc": 0.72595286,
      "epoch": 0.42491121258244546,
      "grad_norm": 5.3125,
      "learning_rate": 9.295645467909942e-06,
      "loss": 1.09302454,
      "memory(GiB)": 112.26,
      "step": 16750,
      "train_speed(iter/s)": 1.132211
    },
    {
      "acc": 0.72985196,
      "epoch": 0.4250380517503805,
      "grad_norm": 3.375,
      "learning_rate": 9.29510873091282e-06,
      "loss": 1.05887241,
      "memory(GiB)": 112.26,
      "step": 16755,
      "train_speed(iter/s)": 1.132261
    },
    {
      "acc": 0.73255234,
      "epoch": 0.42516489091831555,
      "grad_norm": 4.09375,
      "learning_rate": 9.29457180499764e-06,
      "loss": 1.14050245,
      "memory(GiB)": 112.26,
      "step": 16760,
      "train_speed(iter/s)": 1.132326
    },
    {
      "acc": 0.72730384,
      "epoch": 0.42529173008625065,
      "grad_norm": 3.828125,
      "learning_rate": 9.294034690188016e-06,
      "loss": 1.13829317,
      "memory(GiB)": 112.26,
      "step": 16765,
      "train_speed(iter/s)": 1.132346
    },
    {
      "acc": 0.72308974,
      "epoch": 0.4254185692541857,
      "grad_norm": 3.40625,
      "learning_rate": 9.293497386507577e-06,
      "loss": 1.13227558,
      "memory(GiB)": 112.26,
      "step": 16770,
      "train_speed(iter/s)": 1.13237
    },
    {
      "acc": 0.73787656,
      "epoch": 0.42554540842212074,
      "grad_norm": 4.125,
      "learning_rate": 9.292959893979953e-06,
      "loss": 1.06626024,
      "memory(GiB)": 112.26,
      "step": 16775,
      "train_speed(iter/s)": 1.132439
    },
    {
      "acc": 0.73211622,
      "epoch": 0.4256722475900558,
      "grad_norm": 3.515625,
      "learning_rate": 9.292422212628786e-06,
      "loss": 1.12065201,
      "memory(GiB)": 112.26,
      "step": 16780,
      "train_speed(iter/s)": 1.132495
    },
    {
      "acc": 0.73508096,
      "epoch": 0.4257990867579909,
      "grad_norm": 3.21875,
      "learning_rate": 9.291884342477728e-06,
      "loss": 1.1038908,
      "memory(GiB)": 112.26,
      "step": 16785,
      "train_speed(iter/s)": 1.132537
    },
    {
      "acc": 0.73245645,
      "epoch": 0.42592592592592593,
      "grad_norm": 3.703125,
      "learning_rate": 9.291346283550433e-06,
      "loss": 1.06504526,
      "memory(GiB)": 112.26,
      "step": 16790,
      "train_speed(iter/s)": 1.132589
    },
    {
      "acc": 0.72934618,
      "epoch": 0.426052765093861,
      "grad_norm": 4.34375,
      "learning_rate": 9.290808035870569e-06,
      "loss": 1.1442606,
      "memory(GiB)": 112.26,
      "step": 16795,
      "train_speed(iter/s)": 1.132617
    },
    {
      "acc": 0.73158216,
      "epoch": 0.426179604261796,
      "grad_norm": 4.46875,
      "learning_rate": 9.29026959946181e-06,
      "loss": 1.14889412,
      "memory(GiB)": 112.26,
      "step": 16800,
      "train_speed(iter/s)": 1.132627
    },
    {
      "acc": 0.7354888,
      "epoch": 0.4263064434297311,
      "grad_norm": 3.15625,
      "learning_rate": 9.289730974347841e-06,
      "loss": 1.09163551,
      "memory(GiB)": 112.26,
      "step": 16805,
      "train_speed(iter/s)": 1.132684
    },
    {
      "acc": 0.74820194,
      "epoch": 0.42643328259766616,
      "grad_norm": 3.65625,
      "learning_rate": 9.28919216055235e-06,
      "loss": 1.06900826,
      "memory(GiB)": 112.26,
      "step": 16810,
      "train_speed(iter/s)": 1.132744
    },
    {
      "acc": 0.74392252,
      "epoch": 0.4265601217656012,
      "grad_norm": 5.375,
      "learning_rate": 9.288653158099038e-06,
      "loss": 1.03972845,
      "memory(GiB)": 112.26,
      "step": 16815,
      "train_speed(iter/s)": 1.132791
    },
    {
      "acc": 0.73145361,
      "epoch": 0.42668696093353625,
      "grad_norm": 3.640625,
      "learning_rate": 9.288113967011612e-06,
      "loss": 1.09661617,
      "memory(GiB)": 112.26,
      "step": 16820,
      "train_speed(iter/s)": 1.132834
    },
    {
      "acc": 0.73967733,
      "epoch": 0.42681380010147135,
      "grad_norm": 4.0,
      "learning_rate": 9.28757458731379e-06,
      "loss": 1.04283524,
      "memory(GiB)": 112.26,
      "step": 16825,
      "train_speed(iter/s)": 1.132872
    },
    {
      "acc": 0.72373352,
      "epoch": 0.4269406392694064,
      "grad_norm": 3.640625,
      "learning_rate": 9.287035019029295e-06,
      "loss": 1.13872833,
      "memory(GiB)": 112.26,
      "step": 16830,
      "train_speed(iter/s)": 1.132918
    },
    {
      "acc": 0.73427753,
      "epoch": 0.42706747843734144,
      "grad_norm": 3.75,
      "learning_rate": 9.286495262181859e-06,
      "loss": 1.04875412,
      "memory(GiB)": 112.26,
      "step": 16835,
      "train_speed(iter/s)": 1.132978
    },
    {
      "acc": 0.72661324,
      "epoch": 0.4271943176052765,
      "grad_norm": 4.9375,
      "learning_rate": 9.285955316795224e-06,
      "loss": 1.14200668,
      "memory(GiB)": 112.26,
      "step": 16840,
      "train_speed(iter/s)": 1.133031
    },
    {
      "acc": 0.72680349,
      "epoch": 0.4273211567732116,
      "grad_norm": 4.65625,
      "learning_rate": 9.285415182893138e-06,
      "loss": 1.11802826,
      "memory(GiB)": 112.26,
      "step": 16845,
      "train_speed(iter/s)": 1.133083
    },
    {
      "acc": 0.72219005,
      "epoch": 0.42744799594114663,
      "grad_norm": 4.03125,
      "learning_rate": 9.28487486049936e-06,
      "loss": 1.13840771,
      "memory(GiB)": 112.26,
      "step": 16850,
      "train_speed(iter/s)": 1.133131
    },
    {
      "acc": 0.73360748,
      "epoch": 0.4275748351090817,
      "grad_norm": 4.9375,
      "learning_rate": 9.284334349637655e-06,
      "loss": 1.14562473,
      "memory(GiB)": 112.26,
      "step": 16855,
      "train_speed(iter/s)": 1.133176
    },
    {
      "acc": 0.74213338,
      "epoch": 0.4277016742770167,
      "grad_norm": 3.5625,
      "learning_rate": 9.283793650331798e-06,
      "loss": 1.03704062,
      "memory(GiB)": 112.26,
      "step": 16860,
      "train_speed(iter/s)": 1.13324
    },
    {
      "acc": 0.73875217,
      "epoch": 0.4278285134449518,
      "grad_norm": 3.84375,
      "learning_rate": 9.283252762605568e-06,
      "loss": 1.09280233,
      "memory(GiB)": 112.26,
      "step": 16865,
      "train_speed(iter/s)": 1.133294
    },
    {
      "acc": 0.72660866,
      "epoch": 0.42795535261288686,
      "grad_norm": 3.625,
      "learning_rate": 9.28271168648276e-06,
      "loss": 1.13886957,
      "memory(GiB)": 112.26,
      "step": 16870,
      "train_speed(iter/s)": 1.133305
    },
    {
      "acc": 0.73584967,
      "epoch": 0.4280821917808219,
      "grad_norm": 4.59375,
      "learning_rate": 9.282170421987171e-06,
      "loss": 1.09590111,
      "memory(GiB)": 112.26,
      "step": 16875,
      "train_speed(iter/s)": 1.133351
    },
    {
      "acc": 0.72444334,
      "epoch": 0.42820903094875695,
      "grad_norm": 4.21875,
      "learning_rate": 9.281628969142609e-06,
      "loss": 1.22809811,
      "memory(GiB)": 112.26,
      "step": 16880,
      "train_speed(iter/s)": 1.133417
    },
    {
      "acc": 0.7141449,
      "epoch": 0.42833587011669205,
      "grad_norm": 4.03125,
      "learning_rate": 9.281087327972886e-06,
      "loss": 1.16900959,
      "memory(GiB)": 112.26,
      "step": 16885,
      "train_speed(iter/s)": 1.13346
    },
    {
      "acc": 0.73534384,
      "epoch": 0.4284627092846271,
      "grad_norm": 3.734375,
      "learning_rate": 9.280545498501832e-06,
      "loss": 1.0486063,
      "memory(GiB)": 112.26,
      "step": 16890,
      "train_speed(iter/s)": 1.133519
    },
    {
      "acc": 0.72254434,
      "epoch": 0.42858954845256214,
      "grad_norm": 3.65625,
      "learning_rate": 9.280003480753274e-06,
      "loss": 1.14071178,
      "memory(GiB)": 112.26,
      "step": 16895,
      "train_speed(iter/s)": 1.133579
    },
    {
      "acc": 0.71084766,
      "epoch": 0.4287163876204972,
      "grad_norm": 3.765625,
      "learning_rate": 9.279461274751054e-06,
      "loss": 1.17768555,
      "memory(GiB)": 112.26,
      "step": 16900,
      "train_speed(iter/s)": 1.133637
    },
    {
      "acc": 0.72201476,
      "epoch": 0.4288432267884323,
      "grad_norm": 3.796875,
      "learning_rate": 9.27891888051902e-06,
      "loss": 1.09483728,
      "memory(GiB)": 112.26,
      "step": 16905,
      "train_speed(iter/s)": 1.133639
    },
    {
      "acc": 0.72917023,
      "epoch": 0.42897006595636733,
      "grad_norm": 4.0625,
      "learning_rate": 9.278376298081032e-06,
      "loss": 1.13976593,
      "memory(GiB)": 112.26,
      "step": 16910,
      "train_speed(iter/s)": 1.133709
    },
    {
      "acc": 0.72896128,
      "epoch": 0.4290969051243024,
      "grad_norm": 3.75,
      "learning_rate": 9.277833527460952e-06,
      "loss": 1.10908127,
      "memory(GiB)": 112.26,
      "step": 16915,
      "train_speed(iter/s)": 1.133794
    },
    {
      "acc": 0.73845468,
      "epoch": 0.4292237442922374,
      "grad_norm": 3.890625,
      "learning_rate": 9.277290568682653e-06,
      "loss": 1.10880718,
      "memory(GiB)": 112.26,
      "step": 16920,
      "train_speed(iter/s)": 1.133857
    },
    {
      "acc": 0.71457958,
      "epoch": 0.4293505834601725,
      "grad_norm": 3.640625,
      "learning_rate": 9.27674742177002e-06,
      "loss": 1.1866188,
      "memory(GiB)": 112.26,
      "step": 16925,
      "train_speed(iter/s)": 1.133916
    },
    {
      "acc": 0.72850361,
      "epoch": 0.42947742262810756,
      "grad_norm": 3.40625,
      "learning_rate": 9.27620408674694e-06,
      "loss": 1.08313293,
      "memory(GiB)": 112.26,
      "step": 16930,
      "train_speed(iter/s)": 1.133946
    },
    {
      "acc": 0.72570457,
      "epoch": 0.4296042617960426,
      "grad_norm": 5.96875,
      "learning_rate": 9.275660563637313e-06,
      "loss": 1.11767406,
      "memory(GiB)": 112.26,
      "step": 16935,
      "train_speed(iter/s)": 1.133964
    },
    {
      "acc": 0.7365613,
      "epoch": 0.42973110096397765,
      "grad_norm": 3.84375,
      "learning_rate": 9.275116852465043e-06,
      "loss": 1.08845501,
      "memory(GiB)": 112.26,
      "step": 16940,
      "train_speed(iter/s)": 1.134022
    },
    {
      "acc": 0.73052349,
      "epoch": 0.42985794013191275,
      "grad_norm": 4.21875,
      "learning_rate": 9.274572953254048e-06,
      "loss": 1.08959332,
      "memory(GiB)": 112.26,
      "step": 16945,
      "train_speed(iter/s)": 1.134069
    },
    {
      "acc": 0.74308863,
      "epoch": 0.4299847792998478,
      "grad_norm": 4.59375,
      "learning_rate": 9.27402886602825e-06,
      "loss": 1.01978941,
      "memory(GiB)": 112.26,
      "step": 16950,
      "train_speed(iter/s)": 1.134104
    },
    {
      "acc": 0.71986895,
      "epoch": 0.43011161846778284,
      "grad_norm": 4.125,
      "learning_rate": 9.27348459081158e-06,
      "loss": 1.12158384,
      "memory(GiB)": 112.26,
      "step": 16955,
      "train_speed(iter/s)": 1.134169
    },
    {
      "acc": 0.73009682,
      "epoch": 0.4302384576357179,
      "grad_norm": 3.5,
      "learning_rate": 9.272940127627979e-06,
      "loss": 1.08260555,
      "memory(GiB)": 112.26,
      "step": 16960,
      "train_speed(iter/s)": 1.134229
    },
    {
      "acc": 0.73377914,
      "epoch": 0.430365296803653,
      "grad_norm": 4.59375,
      "learning_rate": 9.272395476501392e-06,
      "loss": 1.09538145,
      "memory(GiB)": 112.26,
      "step": 16965,
      "train_speed(iter/s)": 1.134303
    },
    {
      "acc": 0.71660109,
      "epoch": 0.43049213597158803,
      "grad_norm": 3.0625,
      "learning_rate": 9.27185063745578e-06,
      "loss": 1.181359,
      "memory(GiB)": 112.26,
      "step": 16970,
      "train_speed(iter/s)": 1.134331
    },
    {
      "acc": 0.73936296,
      "epoch": 0.4306189751395231,
      "grad_norm": 3.640625,
      "learning_rate": 9.271305610515103e-06,
      "loss": 1.06124802,
      "memory(GiB)": 112.26,
      "step": 16975,
      "train_speed(iter/s)": 1.134328
    },
    {
      "acc": 0.73071952,
      "epoch": 0.4307458143074581,
      "grad_norm": 3.453125,
      "learning_rate": 9.270760395703334e-06,
      "loss": 1.13315506,
      "memory(GiB)": 112.26,
      "step": 16980,
      "train_speed(iter/s)": 1.134339
    },
    {
      "acc": 0.73104486,
      "epoch": 0.4308726534753932,
      "grad_norm": 3.625,
      "learning_rate": 9.270214993044456e-06,
      "loss": 1.11331253,
      "memory(GiB)": 112.26,
      "step": 16985,
      "train_speed(iter/s)": 1.134369
    },
    {
      "acc": 0.72915401,
      "epoch": 0.43099949264332826,
      "grad_norm": 3.734375,
      "learning_rate": 9.269669402562458e-06,
      "loss": 1.11120014,
      "memory(GiB)": 112.26,
      "step": 16990,
      "train_speed(iter/s)": 1.134401
    },
    {
      "acc": 0.73521357,
      "epoch": 0.4311263318112633,
      "grad_norm": 3.65625,
      "learning_rate": 9.269123624281336e-06,
      "loss": 1.09299278,
      "memory(GiB)": 112.26,
      "step": 16995,
      "train_speed(iter/s)": 1.134443
    },
    {
      "acc": 0.74903708,
      "epoch": 0.43125317097919835,
      "grad_norm": 3.25,
      "learning_rate": 9.268577658225097e-06,
      "loss": 1.00788918,
      "memory(GiB)": 112.26,
      "step": 17000,
      "train_speed(iter/s)": 1.134481
    },
    {
      "epoch": 0.43125317097919835,
      "eval_acc": 0.7204388784125533,
      "eval_loss": 1.0724539756774902,
      "eval_runtime": 70.9801,
      "eval_samples_per_second": 89.743,
      "eval_steps_per_second": 22.443,
      "step": 17000
    },
    {
      "acc": 0.73806887,
      "epoch": 0.43138001014713345,
      "grad_norm": 3.921875,
      "learning_rate": 9.268031504417756e-06,
      "loss": 1.08123598,
      "memory(GiB)": 112.26,
      "step": 17005,
      "train_speed(iter/s)": 1.125829
    },
    {
      "acc": 0.72401261,
      "epoch": 0.4315068493150685,
      "grad_norm": 4.4375,
      "learning_rate": 9.267485162883334e-06,
      "loss": 1.11283932,
      "memory(GiB)": 112.26,
      "step": 17010,
      "train_speed(iter/s)": 1.125851
    },
    {
      "acc": 0.71807642,
      "epoch": 0.43163368848300354,
      "grad_norm": 4.09375,
      "learning_rate": 9.266938633645861e-06,
      "loss": 1.18724518,
      "memory(GiB)": 112.26,
      "step": 17015,
      "train_speed(iter/s)": 1.125921
    },
    {
      "acc": 0.7441443,
      "epoch": 0.4317605276509386,
      "grad_norm": 5.09375,
      "learning_rate": 9.266391916729376e-06,
      "loss": 1.0255537,
      "memory(GiB)": 112.26,
      "step": 17020,
      "train_speed(iter/s)": 1.12598
    },
    {
      "acc": 0.72476606,
      "epoch": 0.4318873668188737,
      "grad_norm": 3.75,
      "learning_rate": 9.265845012157926e-06,
      "loss": 1.13075409,
      "memory(GiB)": 112.26,
      "step": 17025,
      "train_speed(iter/s)": 1.126031
    },
    {
      "acc": 0.72954178,
      "epoch": 0.43201420598680873,
      "grad_norm": 4.34375,
      "learning_rate": 9.265297919955566e-06,
      "loss": 1.09674368,
      "memory(GiB)": 112.26,
      "step": 17030,
      "train_speed(iter/s)": 1.126093
    },
    {
      "acc": 0.73120008,
      "epoch": 0.4321410451547438,
      "grad_norm": 3.984375,
      "learning_rate": 9.264750640146363e-06,
      "loss": 1.12449198,
      "memory(GiB)": 112.26,
      "step": 17035,
      "train_speed(iter/s)": 1.126146
    },
    {
      "acc": 0.73334675,
      "epoch": 0.4322678843226788,
      "grad_norm": 2.890625,
      "learning_rate": 9.264203172754384e-06,
      "loss": 1.09087811,
      "memory(GiB)": 112.26,
      "step": 17040,
      "train_speed(iter/s)": 1.126184
    },
    {
      "acc": 0.73281012,
      "epoch": 0.4323947234906139,
      "grad_norm": 3.640625,
      "learning_rate": 9.263655517803713e-06,
      "loss": 1.12480545,
      "memory(GiB)": 112.26,
      "step": 17045,
      "train_speed(iter/s)": 1.126236
    },
    {
      "acc": 0.72363696,
      "epoch": 0.43252156265854896,
      "grad_norm": 3.375,
      "learning_rate": 9.263107675318434e-06,
      "loss": 1.1651083,
      "memory(GiB)": 112.26,
      "step": 17050,
      "train_speed(iter/s)": 1.126219
    },
    {
      "acc": 0.73983974,
      "epoch": 0.432648401826484,
      "grad_norm": 3.421875,
      "learning_rate": 9.262559645322648e-06,
      "loss": 1.07357483,
      "memory(GiB)": 112.26,
      "step": 17055,
      "train_speed(iter/s)": 1.126273
    },
    {
      "acc": 0.7352881,
      "epoch": 0.43277524099441905,
      "grad_norm": 4.0,
      "learning_rate": 9.262011427840459e-06,
      "loss": 1.09919844,
      "memory(GiB)": 112.26,
      "step": 17060,
      "train_speed(iter/s)": 1.126288
    },
    {
      "acc": 0.73740253,
      "epoch": 0.43290208016235415,
      "grad_norm": 4.1875,
      "learning_rate": 9.261463022895976e-06,
      "loss": 1.02499924,
      "memory(GiB)": 112.26,
      "step": 17065,
      "train_speed(iter/s)": 1.126361
    },
    {
      "acc": 0.73129759,
      "epoch": 0.4330289193302892,
      "grad_norm": 4.09375,
      "learning_rate": 9.260914430513325e-06,
      "loss": 1.10138493,
      "memory(GiB)": 112.26,
      "step": 17070,
      "train_speed(iter/s)": 1.126396
    },
    {
      "acc": 0.71773391,
      "epoch": 0.43315575849822424,
      "grad_norm": 3.5625,
      "learning_rate": 9.260365650716632e-06,
      "loss": 1.17913666,
      "memory(GiB)": 112.26,
      "step": 17075,
      "train_speed(iter/s)": 1.126448
    },
    {
      "acc": 0.72582479,
      "epoch": 0.4332825976661593,
      "grad_norm": 4.15625,
      "learning_rate": 9.259816683530038e-06,
      "loss": 1.1186161,
      "memory(GiB)": 112.26,
      "step": 17080,
      "train_speed(iter/s)": 1.126506
    },
    {
      "acc": 0.7397326,
      "epoch": 0.4334094368340944,
      "grad_norm": 3.78125,
      "learning_rate": 9.259267528977687e-06,
      "loss": 1.01791286,
      "memory(GiB)": 112.26,
      "step": 17085,
      "train_speed(iter/s)": 1.126546
    },
    {
      "acc": 0.73146644,
      "epoch": 0.43353627600202943,
      "grad_norm": 3.484375,
      "learning_rate": 9.258718187083734e-06,
      "loss": 1.09133682,
      "memory(GiB)": 112.26,
      "step": 17090,
      "train_speed(iter/s)": 1.126573
    },
    {
      "acc": 0.73394384,
      "epoch": 0.4336631151699645,
      "grad_norm": 3.875,
      "learning_rate": 9.258168657872341e-06,
      "loss": 1.07675343,
      "memory(GiB)": 112.26,
      "step": 17095,
      "train_speed(iter/s)": 1.126612
    },
    {
      "acc": 0.73762059,
      "epoch": 0.4337899543378995,
      "grad_norm": 3.921875,
      "learning_rate": 9.25761894136768e-06,
      "loss": 1.13552923,
      "memory(GiB)": 112.26,
      "step": 17100,
      "train_speed(iter/s)": 1.126683
    },
    {
      "acc": 0.72661352,
      "epoch": 0.4339167935058346,
      "grad_norm": 3.1875,
      "learning_rate": 9.25706903759393e-06,
      "loss": 1.11786079,
      "memory(GiB)": 112.26,
      "step": 17105,
      "train_speed(iter/s)": 1.126738
    },
    {
      "acc": 0.7353497,
      "epoch": 0.43404363267376966,
      "grad_norm": 3.875,
      "learning_rate": 9.256518946575274e-06,
      "loss": 1.05680237,
      "memory(GiB)": 112.26,
      "step": 17110,
      "train_speed(iter/s)": 1.126751
    },
    {
      "acc": 0.73755646,
      "epoch": 0.4341704718417047,
      "grad_norm": 4.5625,
      "learning_rate": 9.255968668335912e-06,
      "loss": 1.11526775,
      "memory(GiB)": 112.26,
      "step": 17115,
      "train_speed(iter/s)": 1.126815
    },
    {
      "acc": 0.73466244,
      "epoch": 0.43429731100963975,
      "grad_norm": 4.625,
      "learning_rate": 9.255418202900048e-06,
      "loss": 1.08581533,
      "memory(GiB)": 112.26,
      "step": 17120,
      "train_speed(iter/s)": 1.12683
    },
    {
      "acc": 0.72804804,
      "epoch": 0.43442415017757485,
      "grad_norm": 3.734375,
      "learning_rate": 9.254867550291891e-06,
      "loss": 1.10564899,
      "memory(GiB)": 112.26,
      "step": 17125,
      "train_speed(iter/s)": 1.126882
    },
    {
      "acc": 0.73315201,
      "epoch": 0.4345509893455099,
      "grad_norm": 3.703125,
      "learning_rate": 9.254316710535662e-06,
      "loss": 1.04661369,
      "memory(GiB)": 112.26,
      "step": 17130,
      "train_speed(iter/s)": 1.126937
    },
    {
      "acc": 0.74514842,
      "epoch": 0.43467782851344494,
      "grad_norm": 4.5,
      "learning_rate": 9.253765683655591e-06,
      "loss": 1.07369318,
      "memory(GiB)": 112.26,
      "step": 17135,
      "train_speed(iter/s)": 1.126984
    },
    {
      "acc": 0.74982233,
      "epoch": 0.43480466768138,
      "grad_norm": 4.25,
      "learning_rate": 9.253214469675913e-06,
      "loss": 1.06780148,
      "memory(GiB)": 112.26,
      "step": 17140,
      "train_speed(iter/s)": 1.127044
    },
    {
      "acc": 0.74400702,
      "epoch": 0.4349315068493151,
      "grad_norm": 4.0,
      "learning_rate": 9.252663068620874e-06,
      "loss": 1.09801188,
      "memory(GiB)": 112.26,
      "step": 17145,
      "train_speed(iter/s)": 1.127075
    },
    {
      "acc": 0.71810031,
      "epoch": 0.43505834601725013,
      "grad_norm": 3.125,
      "learning_rate": 9.252111480514726e-06,
      "loss": 1.16473169,
      "memory(GiB)": 112.26,
      "step": 17150,
      "train_speed(iter/s)": 1.127107
    },
    {
      "acc": 0.73679056,
      "epoch": 0.4351851851851852,
      "grad_norm": 3.890625,
      "learning_rate": 9.251559705381731e-06,
      "loss": 1.12678204,
      "memory(GiB)": 112.26,
      "step": 17155,
      "train_speed(iter/s)": 1.127148
    },
    {
      "acc": 0.70980377,
      "epoch": 0.4353120243531202,
      "grad_norm": 4.34375,
      "learning_rate": 9.251007743246159e-06,
      "loss": 1.14620466,
      "memory(GiB)": 112.26,
      "step": 17160,
      "train_speed(iter/s)": 1.127187
    },
    {
      "acc": 0.74336023,
      "epoch": 0.4354388635210553,
      "grad_norm": 4.75,
      "learning_rate": 9.250455594132286e-06,
      "loss": 1.08409634,
      "memory(GiB)": 112.26,
      "step": 17165,
      "train_speed(iter/s)": 1.127251
    },
    {
      "acc": 0.73574095,
      "epoch": 0.43556570268899036,
      "grad_norm": 3.96875,
      "learning_rate": 9.249903258064399e-06,
      "loss": 1.14577866,
      "memory(GiB)": 112.26,
      "step": 17170,
      "train_speed(iter/s)": 1.127315
    },
    {
      "acc": 0.74429517,
      "epoch": 0.4356925418569254,
      "grad_norm": 3.828125,
      "learning_rate": 9.249350735066792e-06,
      "loss": 1.03095589,
      "memory(GiB)": 112.26,
      "step": 17175,
      "train_speed(iter/s)": 1.127365
    },
    {
      "acc": 0.72301092,
      "epoch": 0.43581938102486045,
      "grad_norm": 3.75,
      "learning_rate": 9.248798025163768e-06,
      "loss": 1.09438505,
      "memory(GiB)": 112.26,
      "step": 17180,
      "train_speed(iter/s)": 1.127418
    },
    {
      "acc": 0.7398077,
      "epoch": 0.43594622019279555,
      "grad_norm": 5.0625,
      "learning_rate": 9.248245128379638e-06,
      "loss": 1.05348711,
      "memory(GiB)": 112.26,
      "step": 17185,
      "train_speed(iter/s)": 1.127462
    },
    {
      "acc": 0.73109288,
      "epoch": 0.4360730593607306,
      "grad_norm": 3.609375,
      "learning_rate": 9.24769204473872e-06,
      "loss": 1.09349384,
      "memory(GiB)": 112.26,
      "step": 17190,
      "train_speed(iter/s)": 1.127513
    },
    {
      "acc": 0.72772589,
      "epoch": 0.43619989852866564,
      "grad_norm": 3.5625,
      "learning_rate": 9.24713877426534e-06,
      "loss": 1.10187836,
      "memory(GiB)": 112.26,
      "step": 17195,
      "train_speed(iter/s)": 1.127535
    },
    {
      "acc": 0.73614273,
      "epoch": 0.4363267376966007,
      "grad_norm": 3.5,
      "learning_rate": 9.246585316983837e-06,
      "loss": 1.10854816,
      "memory(GiB)": 112.26,
      "step": 17200,
      "train_speed(iter/s)": 1.12759
    },
    {
      "acc": 0.72327242,
      "epoch": 0.4364535768645358,
      "grad_norm": 3.46875,
      "learning_rate": 9.24603167291855e-06,
      "loss": 1.16228237,
      "memory(GiB)": 112.26,
      "step": 17205,
      "train_speed(iter/s)": 1.127623
    },
    {
      "acc": 0.73014288,
      "epoch": 0.43658041603247083,
      "grad_norm": 3.828125,
      "learning_rate": 9.245477842093832e-06,
      "loss": 1.10571222,
      "memory(GiB)": 112.26,
      "step": 17210,
      "train_speed(iter/s)": 1.127657
    },
    {
      "acc": 0.73315144,
      "epoch": 0.4367072552004059,
      "grad_norm": 3.859375,
      "learning_rate": 9.244923824534046e-06,
      "loss": 1.11195745,
      "memory(GiB)": 112.26,
      "step": 17215,
      "train_speed(iter/s)": 1.127713
    },
    {
      "acc": 0.72679639,
      "epoch": 0.4368340943683409,
      "grad_norm": 3.9375,
      "learning_rate": 9.244369620263558e-06,
      "loss": 1.1071764,
      "memory(GiB)": 112.26,
      "step": 17220,
      "train_speed(iter/s)": 1.127763
    },
    {
      "acc": 0.73444376,
      "epoch": 0.436960933536276,
      "grad_norm": 3.75,
      "learning_rate": 9.243815229306746e-06,
      "loss": 1.05536261,
      "memory(GiB)": 112.26,
      "step": 17225,
      "train_speed(iter/s)": 1.127793
    },
    {
      "acc": 0.72944894,
      "epoch": 0.43708777270421106,
      "grad_norm": 4.34375,
      "learning_rate": 9.243260651687989e-06,
      "loss": 1.12839546,
      "memory(GiB)": 112.26,
      "step": 17230,
      "train_speed(iter/s)": 1.127849
    },
    {
      "acc": 0.71797323,
      "epoch": 0.4372146118721461,
      "grad_norm": 3.546875,
      "learning_rate": 9.242705887431685e-06,
      "loss": 1.12720718,
      "memory(GiB)": 112.26,
      "step": 17235,
      "train_speed(iter/s)": 1.12791
    },
    {
      "acc": 0.72610922,
      "epoch": 0.43734145104008115,
      "grad_norm": 4.375,
      "learning_rate": 9.242150936562235e-06,
      "loss": 1.15871258,
      "memory(GiB)": 112.26,
      "step": 17240,
      "train_speed(iter/s)": 1.127951
    },
    {
      "acc": 0.7336803,
      "epoch": 0.43746829020801625,
      "grad_norm": 3.34375,
      "learning_rate": 9.241595799104046e-06,
      "loss": 1.05385704,
      "memory(GiB)": 112.26,
      "step": 17245,
      "train_speed(iter/s)": 1.128007
    },
    {
      "acc": 0.73223104,
      "epoch": 0.4375951293759513,
      "grad_norm": 3.484375,
      "learning_rate": 9.241040475081537e-06,
      "loss": 1.1066761,
      "memory(GiB)": 112.26,
      "step": 17250,
      "train_speed(iter/s)": 1.12805
    },
    {
      "acc": 0.72708626,
      "epoch": 0.43772196854388634,
      "grad_norm": 3.53125,
      "learning_rate": 9.240484964519131e-06,
      "loss": 1.11972847,
      "memory(GiB)": 112.26,
      "step": 17255,
      "train_speed(iter/s)": 1.128082
    },
    {
      "acc": 0.73824253,
      "epoch": 0.4378488077118214,
      "grad_norm": 4.3125,
      "learning_rate": 9.239929267441267e-06,
      "loss": 1.09490185,
      "memory(GiB)": 112.26,
      "step": 17260,
      "train_speed(iter/s)": 1.128119
    },
    {
      "acc": 0.74548826,
      "epoch": 0.4379756468797565,
      "grad_norm": 4.21875,
      "learning_rate": 9.239373383872382e-06,
      "loss": 1.14950447,
      "memory(GiB)": 112.26,
      "step": 17265,
      "train_speed(iter/s)": 1.128184
    },
    {
      "acc": 0.72383003,
      "epoch": 0.43810248604769153,
      "grad_norm": 3.421875,
      "learning_rate": 9.238817313836927e-06,
      "loss": 1.08886604,
      "memory(GiB)": 112.26,
      "step": 17270,
      "train_speed(iter/s)": 1.128217
    },
    {
      "acc": 0.73601842,
      "epoch": 0.4382293252156266,
      "grad_norm": 4.125,
      "learning_rate": 9.238261057359365e-06,
      "loss": 1.09621086,
      "memory(GiB)": 112.26,
      "step": 17275,
      "train_speed(iter/s)": 1.128254
    },
    {
      "acc": 0.73297167,
      "epoch": 0.4383561643835616,
      "grad_norm": 3.609375,
      "learning_rate": 9.237704614464157e-06,
      "loss": 1.11096659,
      "memory(GiB)": 112.26,
      "step": 17280,
      "train_speed(iter/s)": 1.128328
    },
    {
      "acc": 0.72787132,
      "epoch": 0.4384830035514967,
      "grad_norm": 3.15625,
      "learning_rate": 9.237147985175781e-06,
      "loss": 1.13259401,
      "memory(GiB)": 112.26,
      "step": 17285,
      "train_speed(iter/s)": 1.12834
    },
    {
      "acc": 0.73104935,
      "epoch": 0.43860984271943176,
      "grad_norm": 3.328125,
      "learning_rate": 9.236591169518717e-06,
      "loss": 1.11557503,
      "memory(GiB)": 112.26,
      "step": 17290,
      "train_speed(iter/s)": 1.128366
    },
    {
      "acc": 0.73309889,
      "epoch": 0.4387366818873668,
      "grad_norm": 3.953125,
      "learning_rate": 9.236034167517461e-06,
      "loss": 1.14379845,
      "memory(GiB)": 112.26,
      "step": 17295,
      "train_speed(iter/s)": 1.128418
    },
    {
      "acc": 0.73928728,
      "epoch": 0.43886352105530185,
      "grad_norm": 4.71875,
      "learning_rate": 9.235476979196507e-06,
      "loss": 1.09865856,
      "memory(GiB)": 112.26,
      "step": 17300,
      "train_speed(iter/s)": 1.128468
    },
    {
      "acc": 0.73919268,
      "epoch": 0.43899036022323695,
      "grad_norm": 3.9375,
      "learning_rate": 9.234919604580368e-06,
      "loss": 1.12332191,
      "memory(GiB)": 112.26,
      "step": 17305,
      "train_speed(iter/s)": 1.128528
    },
    {
      "acc": 0.74283166,
      "epoch": 0.439117199391172,
      "grad_norm": 3.703125,
      "learning_rate": 9.234362043693556e-06,
      "loss": 1.05586748,
      "memory(GiB)": 112.26,
      "step": 17310,
      "train_speed(iter/s)": 1.128566
    },
    {
      "acc": 0.71337852,
      "epoch": 0.43924403855910704,
      "grad_norm": 3.453125,
      "learning_rate": 9.233804296560596e-06,
      "loss": 1.12790775,
      "memory(GiB)": 112.26,
      "step": 17315,
      "train_speed(iter/s)": 1.128605
    },
    {
      "acc": 0.72378645,
      "epoch": 0.4393708777270421,
      "grad_norm": 3.859375,
      "learning_rate": 9.233246363206021e-06,
      "loss": 1.14516926,
      "memory(GiB)": 112.26,
      "step": 17320,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.73258181,
      "epoch": 0.4394977168949772,
      "grad_norm": 3.65625,
      "learning_rate": 9.232688243654371e-06,
      "loss": 1.14330797,
      "memory(GiB)": 112.26,
      "step": 17325,
      "train_speed(iter/s)": 1.128707
    },
    {
      "acc": 0.71678791,
      "epoch": 0.43962455606291223,
      "grad_norm": 3.546875,
      "learning_rate": 9.232129937930194e-06,
      "loss": 1.16032524,
      "memory(GiB)": 112.26,
      "step": 17330,
      "train_speed(iter/s)": 1.128754
    },
    {
      "acc": 0.73281002,
      "epoch": 0.4397513952308473,
      "grad_norm": 3.25,
      "learning_rate": 9.231571446058047e-06,
      "loss": 1.126826,
      "memory(GiB)": 112.26,
      "step": 17335,
      "train_speed(iter/s)": 1.128792
    },
    {
      "acc": 0.73099833,
      "epoch": 0.4398782343987823,
      "grad_norm": 3.28125,
      "learning_rate": 9.231012768062497e-06,
      "loss": 1.11082554,
      "memory(GiB)": 112.26,
      "step": 17340,
      "train_speed(iter/s)": 1.128831
    },
    {
      "acc": 0.7216835,
      "epoch": 0.4400050735667174,
      "grad_norm": 3.453125,
      "learning_rate": 9.230453903968112e-06,
      "loss": 1.13748522,
      "memory(GiB)": 112.26,
      "step": 17345,
      "train_speed(iter/s)": 1.128844
    },
    {
      "acc": 0.74223485,
      "epoch": 0.44013191273465246,
      "grad_norm": 4.375,
      "learning_rate": 9.22989485379948e-06,
      "loss": 1.04380407,
      "memory(GiB)": 112.26,
      "step": 17350,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.73575988,
      "epoch": 0.4402587519025875,
      "grad_norm": 3.21875,
      "learning_rate": 9.229335617581187e-06,
      "loss": 1.03356676,
      "memory(GiB)": 112.26,
      "step": 17355,
      "train_speed(iter/s)": 1.128959
    },
    {
      "acc": 0.74895573,
      "epoch": 0.44038559107052255,
      "grad_norm": 3.34375,
      "learning_rate": 9.22877619533783e-06,
      "loss": 1.03428011,
      "memory(GiB)": 112.26,
      "step": 17360,
      "train_speed(iter/s)": 1.128999
    },
    {
      "acc": 0.73615084,
      "epoch": 0.44051243023845765,
      "grad_norm": 3.234375,
      "learning_rate": 9.228216587094014e-06,
      "loss": 1.07381191,
      "memory(GiB)": 112.26,
      "step": 17365,
      "train_speed(iter/s)": 1.129044
    },
    {
      "acc": 0.74644461,
      "epoch": 0.4406392694063927,
      "grad_norm": 5.0,
      "learning_rate": 9.227656792874358e-06,
      "loss": 0.99355564,
      "memory(GiB)": 112.26,
      "step": 17370,
      "train_speed(iter/s)": 1.129074
    },
    {
      "acc": 0.73137617,
      "epoch": 0.44076610857432774,
      "grad_norm": 4.0,
      "learning_rate": 9.227096812703479e-06,
      "loss": 1.15958652,
      "memory(GiB)": 112.26,
      "step": 17375,
      "train_speed(iter/s)": 1.129115
    },
    {
      "acc": 0.73315363,
      "epoch": 0.4408929477422628,
      "grad_norm": 4.0625,
      "learning_rate": 9.22653664660601e-06,
      "loss": 1.09669437,
      "memory(GiB)": 112.26,
      "step": 17380,
      "train_speed(iter/s)": 1.129182
    },
    {
      "acc": 0.73391032,
      "epoch": 0.4410197869101979,
      "grad_norm": 3.34375,
      "learning_rate": 9.225976294606589e-06,
      "loss": 1.12861881,
      "memory(GiB)": 112.26,
      "step": 17385,
      "train_speed(iter/s)": 1.129228
    },
    {
      "acc": 0.73174243,
      "epoch": 0.44114662607813293,
      "grad_norm": 3.953125,
      "learning_rate": 9.225415756729863e-06,
      "loss": 1.09947433,
      "memory(GiB)": 112.26,
      "step": 17390,
      "train_speed(iter/s)": 1.129283
    },
    {
      "acc": 0.72290244,
      "epoch": 0.441273465246068,
      "grad_norm": 4.34375,
      "learning_rate": 9.224855033000489e-06,
      "loss": 1.12043877,
      "memory(GiB)": 112.26,
      "step": 17395,
      "train_speed(iter/s)": 1.129328
    },
    {
      "acc": 0.74002414,
      "epoch": 0.441400304414003,
      "grad_norm": 3.4375,
      "learning_rate": 9.224294123443125e-06,
      "loss": 1.08516121,
      "memory(GiB)": 112.26,
      "step": 17400,
      "train_speed(iter/s)": 1.129309
    },
    {
      "acc": 0.74592357,
      "epoch": 0.4415271435819381,
      "grad_norm": 3.234375,
      "learning_rate": 9.223733028082447e-06,
      "loss": 1.06102104,
      "memory(GiB)": 112.26,
      "step": 17405,
      "train_speed(iter/s)": 1.129351
    },
    {
      "acc": 0.73018637,
      "epoch": 0.44165398274987316,
      "grad_norm": 4.09375,
      "learning_rate": 9.223171746943132e-06,
      "loss": 1.08491611,
      "memory(GiB)": 112.26,
      "step": 17410,
      "train_speed(iter/s)": 1.129419
    },
    {
      "acc": 0.73493156,
      "epoch": 0.4417808219178082,
      "grad_norm": 3.578125,
      "learning_rate": 9.222610280049868e-06,
      "loss": 1.14236374,
      "memory(GiB)": 112.26,
      "step": 17415,
      "train_speed(iter/s)": 1.12945
    },
    {
      "acc": 0.71909142,
      "epoch": 0.44190766108574325,
      "grad_norm": 3.796875,
      "learning_rate": 9.222048627427352e-06,
      "loss": 1.13325939,
      "memory(GiB)": 112.26,
      "step": 17420,
      "train_speed(iter/s)": 1.129507
    },
    {
      "acc": 0.73473988,
      "epoch": 0.44203450025367835,
      "grad_norm": 4.0,
      "learning_rate": 9.221486789100288e-06,
      "loss": 1.09287243,
      "memory(GiB)": 112.26,
      "step": 17425,
      "train_speed(iter/s)": 1.12954
    },
    {
      "acc": 0.7299674,
      "epoch": 0.4421613394216134,
      "grad_norm": 4.5625,
      "learning_rate": 9.220924765093386e-06,
      "loss": 1.08380947,
      "memory(GiB)": 112.26,
      "step": 17430,
      "train_speed(iter/s)": 1.129577
    },
    {
      "acc": 0.72209291,
      "epoch": 0.44228817858954844,
      "grad_norm": 3.21875,
      "learning_rate": 9.220362555431369e-06,
      "loss": 1.11501179,
      "memory(GiB)": 112.26,
      "step": 17435,
      "train_speed(iter/s)": 1.129643
    },
    {
      "acc": 0.72620583,
      "epoch": 0.4424150177574835,
      "grad_norm": 3.375,
      "learning_rate": 9.219800160138964e-06,
      "loss": 1.05098686,
      "memory(GiB)": 112.26,
      "step": 17440,
      "train_speed(iter/s)": 1.12969
    },
    {
      "acc": 0.72105927,
      "epoch": 0.4425418569254186,
      "grad_norm": 3.96875,
      "learning_rate": 9.219237579240907e-06,
      "loss": 1.13446798,
      "memory(GiB)": 112.26,
      "step": 17445,
      "train_speed(iter/s)": 1.129729
    },
    {
      "acc": 0.73658891,
      "epoch": 0.44266869609335363,
      "grad_norm": 3.5625,
      "learning_rate": 9.218674812761946e-06,
      "loss": 1.07951632,
      "memory(GiB)": 112.26,
      "step": 17450,
      "train_speed(iter/s)": 1.129766
    },
    {
      "acc": 0.73533707,
      "epoch": 0.4427955352612887,
      "grad_norm": 3.9375,
      "learning_rate": 9.21811186072683e-06,
      "loss": 1.0691452,
      "memory(GiB)": 112.26,
      "step": 17455,
      "train_speed(iter/s)": 1.129779
    },
    {
      "acc": 0.73506365,
      "epoch": 0.4429223744292237,
      "grad_norm": 4.0625,
      "learning_rate": 9.21754872316032e-06,
      "loss": 1.08207159,
      "memory(GiB)": 112.26,
      "step": 17460,
      "train_speed(iter/s)": 1.129817
    },
    {
      "acc": 0.7431232,
      "epoch": 0.4430492135971588,
      "grad_norm": 4.4375,
      "learning_rate": 9.21698540008719e-06,
      "loss": 1.05910912,
      "memory(GiB)": 112.26,
      "step": 17465,
      "train_speed(iter/s)": 1.129837
    },
    {
      "acc": 0.73146286,
      "epoch": 0.44317605276509386,
      "grad_norm": 3.875,
      "learning_rate": 9.216421891532214e-06,
      "loss": 1.08771267,
      "memory(GiB)": 112.26,
      "step": 17470,
      "train_speed(iter/s)": 1.129842
    },
    {
      "acc": 0.75235333,
      "epoch": 0.4433028919330289,
      "grad_norm": 4.40625,
      "learning_rate": 9.215858197520178e-06,
      "loss": 1.07945137,
      "memory(GiB)": 112.26,
      "step": 17475,
      "train_speed(iter/s)": 1.129873
    },
    {
      "acc": 0.74019952,
      "epoch": 0.44342973110096395,
      "grad_norm": 3.75,
      "learning_rate": 9.215294318075876e-06,
      "loss": 1.10485973,
      "memory(GiB)": 112.26,
      "step": 17480,
      "train_speed(iter/s)": 1.129915
    },
    {
      "acc": 0.73742633,
      "epoch": 0.44355657026889905,
      "grad_norm": 5.03125,
      "learning_rate": 9.21473025322411e-06,
      "loss": 1.06198139,
      "memory(GiB)": 112.26,
      "step": 17485,
      "train_speed(iter/s)": 1.12998
    },
    {
      "acc": 0.72365994,
      "epoch": 0.4436834094368341,
      "grad_norm": 3.421875,
      "learning_rate": 9.21416600298969e-06,
      "loss": 1.12773352,
      "memory(GiB)": 112.26,
      "step": 17490,
      "train_speed(iter/s)": 1.130044
    },
    {
      "acc": 0.73969717,
      "epoch": 0.44381024860476914,
      "grad_norm": 3.40625,
      "learning_rate": 9.213601567397434e-06,
      "loss": 1.02568626,
      "memory(GiB)": 112.26,
      "step": 17495,
      "train_speed(iter/s)": 1.130015
    },
    {
      "acc": 0.72242541,
      "epoch": 0.4439370877727042,
      "grad_norm": 4.625,
      "learning_rate": 9.213036946472169e-06,
      "loss": 1.16275597,
      "memory(GiB)": 112.26,
      "step": 17500,
      "train_speed(iter/s)": 1.130062
    },
    {
      "acc": 0.72268081,
      "epoch": 0.4440639269406393,
      "grad_norm": 3.65625,
      "learning_rate": 9.212472140238729e-06,
      "loss": 1.10689125,
      "memory(GiB)": 112.26,
      "step": 17505,
      "train_speed(iter/s)": 1.130115
    },
    {
      "acc": 0.73388734,
      "epoch": 0.44419076610857433,
      "grad_norm": 3.96875,
      "learning_rate": 9.211907148721958e-06,
      "loss": 1.09254837,
      "memory(GiB)": 112.26,
      "step": 17510,
      "train_speed(iter/s)": 1.130185
    },
    {
      "acc": 0.72948947,
      "epoch": 0.4443176052765094,
      "grad_norm": 3.296875,
      "learning_rate": 9.211341971946705e-06,
      "loss": 1.11591454,
      "memory(GiB)": 112.26,
      "step": 17515,
      "train_speed(iter/s)": 1.130205
    },
    {
      "acc": 0.73944254,
      "epoch": 0.4444444444444444,
      "grad_norm": 3.453125,
      "learning_rate": 9.21077660993783e-06,
      "loss": 1.09797039,
      "memory(GiB)": 112.26,
      "step": 17520,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.72994299,
      "epoch": 0.4445712836123795,
      "grad_norm": 4.0,
      "learning_rate": 9.210211062720198e-06,
      "loss": 1.12327242,
      "memory(GiB)": 112.26,
      "step": 17525,
      "train_speed(iter/s)": 1.130233
    },
    {
      "acc": 0.71376095,
      "epoch": 0.44469812278031456,
      "grad_norm": 3.1875,
      "learning_rate": 9.209645330318689e-06,
      "loss": 1.14084816,
      "memory(GiB)": 112.26,
      "step": 17530,
      "train_speed(iter/s)": 1.130264
    },
    {
      "acc": 0.73436456,
      "epoch": 0.4448249619482496,
      "grad_norm": 4.1875,
      "learning_rate": 9.209079412758183e-06,
      "loss": 1.12651491,
      "memory(GiB)": 112.26,
      "step": 17535,
      "train_speed(iter/s)": 1.130286
    },
    {
      "acc": 0.73055172,
      "epoch": 0.44495180111618465,
      "grad_norm": 4.59375,
      "learning_rate": 9.208513310063572e-06,
      "loss": 1.11046095,
      "memory(GiB)": 112.26,
      "step": 17540,
      "train_speed(iter/s)": 1.130319
    },
    {
      "acc": 0.7452086,
      "epoch": 0.44507864028411975,
      "grad_norm": 4.3125,
      "learning_rate": 9.207947022259755e-06,
      "loss": 1.08875017,
      "memory(GiB)": 112.26,
      "step": 17545,
      "train_speed(iter/s)": 1.130387
    },
    {
      "acc": 0.73825679,
      "epoch": 0.4452054794520548,
      "grad_norm": 4.28125,
      "learning_rate": 9.207380549371642e-06,
      "loss": 1.06486855,
      "memory(GiB)": 112.26,
      "step": 17550,
      "train_speed(iter/s)": 1.130422
    },
    {
      "acc": 0.72086339,
      "epoch": 0.44533231861998984,
      "grad_norm": 4.125,
      "learning_rate": 9.206813891424147e-06,
      "loss": 1.12659664,
      "memory(GiB)": 112.26,
      "step": 17555,
      "train_speed(iter/s)": 1.130424
    },
    {
      "acc": 0.72697754,
      "epoch": 0.4454591577879249,
      "grad_norm": 3.515625,
      "learning_rate": 9.206247048442196e-06,
      "loss": 1.1360878,
      "memory(GiB)": 112.26,
      "step": 17560,
      "train_speed(iter/s)": 1.130469
    },
    {
      "acc": 0.73687229,
      "epoch": 0.44558599695586,
      "grad_norm": 3.4375,
      "learning_rate": 9.20568002045072e-06,
      "loss": 1.09695148,
      "memory(GiB)": 112.26,
      "step": 17565,
      "train_speed(iter/s)": 1.130522
    },
    {
      "acc": 0.72534752,
      "epoch": 0.44571283612379503,
      "grad_norm": 3.109375,
      "learning_rate": 9.20511280747466e-06,
      "loss": 1.09447584,
      "memory(GiB)": 112.26,
      "step": 17570,
      "train_speed(iter/s)": 1.130576
    },
    {
      "acc": 0.73843293,
      "epoch": 0.4458396752917301,
      "grad_norm": 2.984375,
      "learning_rate": 9.204545409538962e-06,
      "loss": 1.01702604,
      "memory(GiB)": 112.26,
      "step": 17575,
      "train_speed(iter/s)": 1.130642
    },
    {
      "acc": 0.71614623,
      "epoch": 0.4459665144596651,
      "grad_norm": 3.375,
      "learning_rate": 9.203977826668587e-06,
      "loss": 1.19022903,
      "memory(GiB)": 112.26,
      "step": 17580,
      "train_speed(iter/s)": 1.130693
    },
    {
      "acc": 0.74984097,
      "epoch": 0.4460933536276002,
      "grad_norm": 3.5,
      "learning_rate": 9.203410058888498e-06,
      "loss": 1.04834642,
      "memory(GiB)": 112.26,
      "step": 17585,
      "train_speed(iter/s)": 1.130712
    },
    {
      "acc": 0.73705435,
      "epoch": 0.44622019279553526,
      "grad_norm": 3.765625,
      "learning_rate": 9.202842106223667e-06,
      "loss": 1.09569712,
      "memory(GiB)": 112.26,
      "step": 17590,
      "train_speed(iter/s)": 1.13075
    },
    {
      "acc": 0.72355413,
      "epoch": 0.4463470319634703,
      "grad_norm": 3.859375,
      "learning_rate": 9.202273968699075e-06,
      "loss": 1.14378748,
      "memory(GiB)": 112.26,
      "step": 17595,
      "train_speed(iter/s)": 1.130819
    },
    {
      "acc": 0.7358079,
      "epoch": 0.44647387113140535,
      "grad_norm": 4.8125,
      "learning_rate": 9.201705646339714e-06,
      "loss": 1.09734268,
      "memory(GiB)": 112.26,
      "step": 17600,
      "train_speed(iter/s)": 1.130873
    },
    {
      "acc": 0.73128357,
      "epoch": 0.44660071029934045,
      "grad_norm": 3.21875,
      "learning_rate": 9.201137139170578e-06,
      "loss": 1.077882,
      "memory(GiB)": 112.26,
      "step": 17605,
      "train_speed(iter/s)": 1.130931
    },
    {
      "acc": 0.74266858,
      "epoch": 0.4467275494672755,
      "grad_norm": 3.34375,
      "learning_rate": 9.200568447216673e-06,
      "loss": 1.06607723,
      "memory(GiB)": 112.26,
      "step": 17610,
      "train_speed(iter/s)": 1.130979
    },
    {
      "acc": 0.73408556,
      "epoch": 0.44685438863521054,
      "grad_norm": 3.421875,
      "learning_rate": 9.199999570503015e-06,
      "loss": 1.03229809,
      "memory(GiB)": 112.26,
      "step": 17615,
      "train_speed(iter/s)": 1.131012
    },
    {
      "acc": 0.70952015,
      "epoch": 0.4469812278031456,
      "grad_norm": 2.921875,
      "learning_rate": 9.199430509054625e-06,
      "loss": 1.18856068,
      "memory(GiB)": 112.26,
      "step": 17620,
      "train_speed(iter/s)": 1.131054
    },
    {
      "acc": 0.73597817,
      "epoch": 0.4471080669710807,
      "grad_norm": 4.0625,
      "learning_rate": 9.19886126289653e-06,
      "loss": 1.11611881,
      "memory(GiB)": 112.26,
      "step": 17625,
      "train_speed(iter/s)": 1.131063
    },
    {
      "acc": 0.72497616,
      "epoch": 0.44723490613901573,
      "grad_norm": 3.734375,
      "learning_rate": 9.198291832053771e-06,
      "loss": 1.12797642,
      "memory(GiB)": 112.26,
      "step": 17630,
      "train_speed(iter/s)": 1.1311
    },
    {
      "acc": 0.734618,
      "epoch": 0.4473617453069508,
      "grad_norm": 4.0,
      "learning_rate": 9.197722216551395e-06,
      "loss": 1.11139946,
      "memory(GiB)": 112.26,
      "step": 17635,
      "train_speed(iter/s)": 1.131139
    },
    {
      "acc": 0.73821058,
      "epoch": 0.4474885844748858,
      "grad_norm": 2.78125,
      "learning_rate": 9.197152416414452e-06,
      "loss": 1.02536535,
      "memory(GiB)": 112.26,
      "step": 17640,
      "train_speed(iter/s)": 1.131167
    },
    {
      "acc": 0.7297143,
      "epoch": 0.4476154236428209,
      "grad_norm": 3.4375,
      "learning_rate": 9.196582431668007e-06,
      "loss": 1.1743124,
      "memory(GiB)": 112.26,
      "step": 17645,
      "train_speed(iter/s)": 1.131183
    },
    {
      "acc": 0.73057604,
      "epoch": 0.44774226281075596,
      "grad_norm": 4.25,
      "learning_rate": 9.196012262337131e-06,
      "loss": 1.06323872,
      "memory(GiB)": 112.26,
      "step": 17650,
      "train_speed(iter/s)": 1.131206
    },
    {
      "acc": 0.72250118,
      "epoch": 0.447869101978691,
      "grad_norm": 3.671875,
      "learning_rate": 9.195441908446902e-06,
      "loss": 1.15444794,
      "memory(GiB)": 112.26,
      "step": 17655,
      "train_speed(iter/s)": 1.131268
    },
    {
      "acc": 0.72614202,
      "epoch": 0.44799594114662605,
      "grad_norm": 3.765625,
      "learning_rate": 9.194871370022407e-06,
      "loss": 1.11716242,
      "memory(GiB)": 112.26,
      "step": 17660,
      "train_speed(iter/s)": 1.13133
    },
    {
      "acc": 0.73676157,
      "epoch": 0.44812278031456115,
      "grad_norm": 3.71875,
      "learning_rate": 9.194300647088739e-06,
      "loss": 1.08641787,
      "memory(GiB)": 112.26,
      "step": 17665,
      "train_speed(iter/s)": 1.131378
    },
    {
      "acc": 0.71906176,
      "epoch": 0.4482496194824962,
      "grad_norm": 3.46875,
      "learning_rate": 9.193729739671002e-06,
      "loss": 1.1183012,
      "memory(GiB)": 112.26,
      "step": 17670,
      "train_speed(iter/s)": 1.131432
    },
    {
      "acc": 0.73009186,
      "epoch": 0.44837645865043124,
      "grad_norm": 3.21875,
      "learning_rate": 9.193158647794308e-06,
      "loss": 1.1045701,
      "memory(GiB)": 112.26,
      "step": 17675,
      "train_speed(iter/s)": 1.131458
    },
    {
      "acc": 0.72639499,
      "epoch": 0.4485032978183663,
      "grad_norm": 4.40625,
      "learning_rate": 9.192587371483777e-06,
      "loss": 1.14859962,
      "memory(GiB)": 112.26,
      "step": 17680,
      "train_speed(iter/s)": 1.131496
    },
    {
      "acc": 0.71701441,
      "epoch": 0.4486301369863014,
      "grad_norm": 4.21875,
      "learning_rate": 9.192015910764535e-06,
      "loss": 1.16134529,
      "memory(GiB)": 112.26,
      "step": 17685,
      "train_speed(iter/s)": 1.131552
    },
    {
      "acc": 0.73171515,
      "epoch": 0.44875697615423643,
      "grad_norm": 3.953125,
      "learning_rate": 9.191444265661715e-06,
      "loss": 1.12987156,
      "memory(GiB)": 112.26,
      "step": 17690,
      "train_speed(iter/s)": 1.131604
    },
    {
      "acc": 0.73180456,
      "epoch": 0.4488838153221715,
      "grad_norm": 3.1875,
      "learning_rate": 9.190872436200464e-06,
      "loss": 1.10825472,
      "memory(GiB)": 112.26,
      "step": 17695,
      "train_speed(iter/s)": 1.13164
    },
    {
      "acc": 0.72609091,
      "epoch": 0.4490106544901065,
      "grad_norm": 4.03125,
      "learning_rate": 9.190300422405933e-06,
      "loss": 1.08482037,
      "memory(GiB)": 112.26,
      "step": 17700,
      "train_speed(iter/s)": 1.13169
    },
    {
      "acc": 0.72792454,
      "epoch": 0.4491374936580416,
      "grad_norm": 3.9375,
      "learning_rate": 9.18972822430328e-06,
      "loss": 1.12004175,
      "memory(GiB)": 112.26,
      "step": 17705,
      "train_speed(iter/s)": 1.131755
    },
    {
      "acc": 0.73467569,
      "epoch": 0.44926433282597666,
      "grad_norm": 3.765625,
      "learning_rate": 9.189155841917675e-06,
      "loss": 1.03947697,
      "memory(GiB)": 112.26,
      "step": 17710,
      "train_speed(iter/s)": 1.131804
    },
    {
      "acc": 0.73587751,
      "epoch": 0.4493911719939117,
      "grad_norm": 3.703125,
      "learning_rate": 9.18858327527429e-06,
      "loss": 1.12210865,
      "memory(GiB)": 112.26,
      "step": 17715,
      "train_speed(iter/s)": 1.131868
    },
    {
      "acc": 0.72053604,
      "epoch": 0.44951801116184675,
      "grad_norm": 3.4375,
      "learning_rate": 9.188010524398314e-06,
      "loss": 1.11049471,
      "memory(GiB)": 112.26,
      "step": 17720,
      "train_speed(iter/s)": 1.131891
    },
    {
      "acc": 0.75132689,
      "epoch": 0.44964485032978185,
      "grad_norm": 4.1875,
      "learning_rate": 9.187437589314939e-06,
      "loss": 1.02609243,
      "memory(GiB)": 112.26,
      "step": 17725,
      "train_speed(iter/s)": 1.131918
    },
    {
      "acc": 0.7262023,
      "epoch": 0.4497716894977169,
      "grad_norm": 3.78125,
      "learning_rate": 9.186864470049358e-06,
      "loss": 1.0985857,
      "memory(GiB)": 112.26,
      "step": 17730,
      "train_speed(iter/s)": 1.131982
    },
    {
      "acc": 0.74492493,
      "epoch": 0.44989852866565194,
      "grad_norm": 3.0,
      "learning_rate": 9.186291166626789e-06,
      "loss": 1.06746693,
      "memory(GiB)": 112.26,
      "step": 17735,
      "train_speed(iter/s)": 1.13203
    },
    {
      "acc": 0.73815117,
      "epoch": 0.450025367833587,
      "grad_norm": 3.640625,
      "learning_rate": 9.185717679072444e-06,
      "loss": 1.09763222,
      "memory(GiB)": 112.26,
      "step": 17740,
      "train_speed(iter/s)": 1.132083
    },
    {
      "acc": 0.72900705,
      "epoch": 0.4501522070015221,
      "grad_norm": 3.640625,
      "learning_rate": 9.185144007411547e-06,
      "loss": 1.09958334,
      "memory(GiB)": 112.26,
      "step": 17745,
      "train_speed(iter/s)": 1.132112
    },
    {
      "acc": 0.71609893,
      "epoch": 0.45027904616945713,
      "grad_norm": 3.375,
      "learning_rate": 9.18457015166933e-06,
      "loss": 1.09976549,
      "memory(GiB)": 112.26,
      "step": 17750,
      "train_speed(iter/s)": 1.13216
    },
    {
      "acc": 0.7370348,
      "epoch": 0.4504058853373922,
      "grad_norm": 4.40625,
      "learning_rate": 9.183996111871034e-06,
      "loss": 1.08241863,
      "memory(GiB)": 112.26,
      "step": 17755,
      "train_speed(iter/s)": 1.132187
    },
    {
      "acc": 0.73256087,
      "epoch": 0.4505327245053272,
      "grad_norm": 3.921875,
      "learning_rate": 9.18342188804191e-06,
      "loss": 1.15152473,
      "memory(GiB)": 112.26,
      "step": 17760,
      "train_speed(iter/s)": 1.132227
    },
    {
      "acc": 0.72864122,
      "epoch": 0.4506595636732623,
      "grad_norm": 6.15625,
      "learning_rate": 9.182847480207215e-06,
      "loss": 1.09143181,
      "memory(GiB)": 112.26,
      "step": 17765,
      "train_speed(iter/s)": 1.132242
    },
    {
      "acc": 0.73937459,
      "epoch": 0.45078640284119736,
      "grad_norm": 3.265625,
      "learning_rate": 9.182272888392211e-06,
      "loss": 1.08130379,
      "memory(GiB)": 112.26,
      "step": 17770,
      "train_speed(iter/s)": 1.13228
    },
    {
      "acc": 0.72198038,
      "epoch": 0.4509132420091324,
      "grad_norm": 4.3125,
      "learning_rate": 9.181698112622175e-06,
      "loss": 1.11578102,
      "memory(GiB)": 112.26,
      "step": 17775,
      "train_speed(iter/s)": 1.132326
    },
    {
      "acc": 0.71015854,
      "epoch": 0.45104008117706745,
      "grad_norm": 3.40625,
      "learning_rate": 9.181123152922384e-06,
      "loss": 1.14247036,
      "memory(GiB)": 112.26,
      "step": 17780,
      "train_speed(iter/s)": 1.132354
    },
    {
      "acc": 0.72467785,
      "epoch": 0.45116692034500255,
      "grad_norm": 3.296875,
      "learning_rate": 9.18054800931813e-06,
      "loss": 1.10991182,
      "memory(GiB)": 112.26,
      "step": 17785,
      "train_speed(iter/s)": 1.132408
    },
    {
      "acc": 0.7325789,
      "epoch": 0.4512937595129376,
      "grad_norm": 3.515625,
      "learning_rate": 9.17997268183471e-06,
      "loss": 1.06213169,
      "memory(GiB)": 112.26,
      "step": 17790,
      "train_speed(iter/s)": 1.132452
    },
    {
      "acc": 0.72380524,
      "epoch": 0.45142059868087264,
      "grad_norm": 3.828125,
      "learning_rate": 9.17939717049743e-06,
      "loss": 1.13232231,
      "memory(GiB)": 112.26,
      "step": 17795,
      "train_speed(iter/s)": 1.132512
    },
    {
      "acc": 0.73203535,
      "epoch": 0.4515474378488077,
      "grad_norm": 4.1875,
      "learning_rate": 9.1788214753316e-06,
      "loss": 1.13637905,
      "memory(GiB)": 112.26,
      "step": 17800,
      "train_speed(iter/s)": 1.132538
    },
    {
      "acc": 0.73840151,
      "epoch": 0.4516742770167428,
      "grad_norm": 3.9375,
      "learning_rate": 9.178245596362546e-06,
      "loss": 1.09407253,
      "memory(GiB)": 112.26,
      "step": 17805,
      "train_speed(iter/s)": 1.132565
    },
    {
      "acc": 0.73346472,
      "epoch": 0.45180111618467783,
      "grad_norm": 3.953125,
      "learning_rate": 9.177669533615599e-06,
      "loss": 1.06902056,
      "memory(GiB)": 112.26,
      "step": 17810,
      "train_speed(iter/s)": 1.132612
    },
    {
      "acc": 0.73087587,
      "epoch": 0.4519279553526129,
      "grad_norm": 3.546875,
      "learning_rate": 9.17709328711609e-06,
      "loss": 1.05591335,
      "memory(GiB)": 112.26,
      "step": 17815,
      "train_speed(iter/s)": 1.132661
    },
    {
      "acc": 0.7313056,
      "epoch": 0.4520547945205479,
      "grad_norm": 3.765625,
      "learning_rate": 9.17651685688937e-06,
      "loss": 1.11923342,
      "memory(GiB)": 112.26,
      "step": 17820,
      "train_speed(iter/s)": 1.132711
    },
    {
      "acc": 0.7394032,
      "epoch": 0.452181633688483,
      "grad_norm": 3.796875,
      "learning_rate": 9.175940242960792e-06,
      "loss": 1.09153509,
      "memory(GiB)": 112.26,
      "step": 17825,
      "train_speed(iter/s)": 1.13278
    },
    {
      "acc": 0.72675076,
      "epoch": 0.45230847285641806,
      "grad_norm": 3.265625,
      "learning_rate": 9.175363445355718e-06,
      "loss": 1.14789648,
      "memory(GiB)": 112.26,
      "step": 17830,
      "train_speed(iter/s)": 1.132833
    },
    {
      "acc": 0.7324604,
      "epoch": 0.4524353120243531,
      "grad_norm": 3.71875,
      "learning_rate": 9.174786464099519e-06,
      "loss": 1.09994068,
      "memory(GiB)": 112.26,
      "step": 17835,
      "train_speed(iter/s)": 1.132881
    },
    {
      "acc": 0.72319698,
      "epoch": 0.45256215119228815,
      "grad_norm": 3.859375,
      "learning_rate": 9.17420929921757e-06,
      "loss": 1.12298574,
      "memory(GiB)": 112.26,
      "step": 17840,
      "train_speed(iter/s)": 1.132936
    },
    {
      "acc": 0.73988209,
      "epoch": 0.45268899036022325,
      "grad_norm": 4.5,
      "learning_rate": 9.173631950735262e-06,
      "loss": 1.06405697,
      "memory(GiB)": 112.26,
      "step": 17845,
      "train_speed(iter/s)": 1.132964
    },
    {
      "acc": 0.7366641,
      "epoch": 0.4528158295281583,
      "grad_norm": 3.828125,
      "learning_rate": 9.173054418677985e-06,
      "loss": 1.13009987,
      "memory(GiB)": 112.26,
      "step": 17850,
      "train_speed(iter/s)": 1.133016
    },
    {
      "acc": 0.73354135,
      "epoch": 0.45294266869609334,
      "grad_norm": 4.375,
      "learning_rate": 9.172476703071145e-06,
      "loss": 1.0812665,
      "memory(GiB)": 112.26,
      "step": 17855,
      "train_speed(iter/s)": 1.133046
    },
    {
      "acc": 0.73371391,
      "epoch": 0.4530695078640284,
      "grad_norm": 3.953125,
      "learning_rate": 9.171898803940148e-06,
      "loss": 1.07625675,
      "memory(GiB)": 112.26,
      "step": 17860,
      "train_speed(iter/s)": 1.133088
    },
    {
      "acc": 0.74575777,
      "epoch": 0.4531963470319635,
      "grad_norm": 3.09375,
      "learning_rate": 9.17132072131042e-06,
      "loss": 1.04137573,
      "memory(GiB)": 112.26,
      "step": 17865,
      "train_speed(iter/s)": 1.133131
    },
    {
      "acc": 0.73989573,
      "epoch": 0.45332318619989853,
      "grad_norm": 3.984375,
      "learning_rate": 9.170742455207378e-06,
      "loss": 1.08804178,
      "memory(GiB)": 112.26,
      "step": 17870,
      "train_speed(iter/s)": 1.133152
    },
    {
      "acc": 0.73684235,
      "epoch": 0.4534500253678336,
      "grad_norm": 4.71875,
      "learning_rate": 9.170164005656465e-06,
      "loss": 1.08220482,
      "memory(GiB)": 112.26,
      "step": 17875,
      "train_speed(iter/s)": 1.13317
    },
    {
      "acc": 0.74375992,
      "epoch": 0.4535768645357686,
      "grad_norm": 4.5,
      "learning_rate": 9.169585372683118e-06,
      "loss": 1.01064949,
      "memory(GiB)": 112.26,
      "step": 17880,
      "train_speed(iter/s)": 1.133172
    },
    {
      "acc": 0.73762059,
      "epoch": 0.4537037037037037,
      "grad_norm": 4.09375,
      "learning_rate": 9.169006556312794e-06,
      "loss": 1.07711391,
      "memory(GiB)": 112.26,
      "step": 17885,
      "train_speed(iter/s)": 1.133206
    },
    {
      "acc": 0.72318974,
      "epoch": 0.45383054287163876,
      "grad_norm": 3.6875,
      "learning_rate": 9.168427556570946e-06,
      "loss": 1.15196362,
      "memory(GiB)": 112.26,
      "step": 17890,
      "train_speed(iter/s)": 1.13324
    },
    {
      "acc": 0.73827715,
      "epoch": 0.4539573820395738,
      "grad_norm": 4.03125,
      "learning_rate": 9.167848373483044e-06,
      "loss": 1.08715382,
      "memory(GiB)": 112.26,
      "step": 17895,
      "train_speed(iter/s)": 1.133298
    },
    {
      "acc": 0.72859564,
      "epoch": 0.45408422120750885,
      "grad_norm": 3.65625,
      "learning_rate": 9.167269007074561e-06,
      "loss": 1.1278923,
      "memory(GiB)": 112.26,
      "step": 17900,
      "train_speed(iter/s)": 1.133304
    },
    {
      "acc": 0.73466711,
      "epoch": 0.45421106037544395,
      "grad_norm": 2.84375,
      "learning_rate": 9.166689457370983e-06,
      "loss": 1.09910316,
      "memory(GiB)": 112.26,
      "step": 17905,
      "train_speed(iter/s)": 1.133363
    },
    {
      "acc": 0.70970917,
      "epoch": 0.454337899543379,
      "grad_norm": 3.59375,
      "learning_rate": 9.166109724397801e-06,
      "loss": 1.13150768,
      "memory(GiB)": 112.26,
      "step": 17910,
      "train_speed(iter/s)": 1.133398
    },
    {
      "acc": 0.74053769,
      "epoch": 0.45446473871131404,
      "grad_norm": 4.65625,
      "learning_rate": 9.165529808180511e-06,
      "loss": 1.07482471,
      "memory(GiB)": 112.26,
      "step": 17915,
      "train_speed(iter/s)": 1.133456
    },
    {
      "acc": 0.73283749,
      "epoch": 0.4545915778792491,
      "grad_norm": 3.15625,
      "learning_rate": 9.164949708744622e-06,
      "loss": 1.10530367,
      "memory(GiB)": 112.26,
      "step": 17920,
      "train_speed(iter/s)": 1.133492
    },
    {
      "acc": 0.73066025,
      "epoch": 0.4547184170471842,
      "grad_norm": 5.21875,
      "learning_rate": 9.164369426115652e-06,
      "loss": 1.06642799,
      "memory(GiB)": 112.26,
      "step": 17925,
      "train_speed(iter/s)": 1.133519
    },
    {
      "acc": 0.73376002,
      "epoch": 0.45484525621511923,
      "grad_norm": 3.59375,
      "learning_rate": 9.16378896031912e-06,
      "loss": 1.13292894,
      "memory(GiB)": 112.26,
      "step": 17930,
      "train_speed(iter/s)": 1.133553
    },
    {
      "acc": 0.73678007,
      "epoch": 0.4549720953830543,
      "grad_norm": 3.78125,
      "learning_rate": 9.163208311380561e-06,
      "loss": 1.08185949,
      "memory(GiB)": 112.26,
      "step": 17935,
      "train_speed(iter/s)": 1.13361
    },
    {
      "acc": 0.73333621,
      "epoch": 0.4550989345509893,
      "grad_norm": 3.328125,
      "learning_rate": 9.162627479325511e-06,
      "loss": 1.08241615,
      "memory(GiB)": 112.26,
      "step": 17940,
      "train_speed(iter/s)": 1.133646
    },
    {
      "acc": 0.74123073,
      "epoch": 0.4552257737189244,
      "grad_norm": 3.78125,
      "learning_rate": 9.16204646417952e-06,
      "loss": 1.09539394,
      "memory(GiB)": 112.26,
      "step": 17945,
      "train_speed(iter/s)": 1.133682
    },
    {
      "acc": 0.73204355,
      "epoch": 0.45535261288685946,
      "grad_norm": 3.65625,
      "learning_rate": 9.161465265968145e-06,
      "loss": 1.05700397,
      "memory(GiB)": 112.26,
      "step": 17950,
      "train_speed(iter/s)": 1.133692
    },
    {
      "acc": 0.74828877,
      "epoch": 0.4554794520547945,
      "grad_norm": 4.5625,
      "learning_rate": 9.160883884716948e-06,
      "loss": 1.04705982,
      "memory(GiB)": 112.26,
      "step": 17955,
      "train_speed(iter/s)": 1.133737
    },
    {
      "acc": 0.72788091,
      "epoch": 0.45560629122272955,
      "grad_norm": 3.234375,
      "learning_rate": 9.1603023204515e-06,
      "loss": 1.12349434,
      "memory(GiB)": 112.26,
      "step": 17960,
      "train_speed(iter/s)": 1.133787
    },
    {
      "acc": 0.71792574,
      "epoch": 0.45573313039066465,
      "grad_norm": 3.15625,
      "learning_rate": 9.15972057319738e-06,
      "loss": 1.07737007,
      "memory(GiB)": 112.26,
      "step": 17965,
      "train_speed(iter/s)": 1.133825
    },
    {
      "acc": 0.73499832,
      "epoch": 0.4558599695585997,
      "grad_norm": 4.9375,
      "learning_rate": 9.159138642980178e-06,
      "loss": 1.12460575,
      "memory(GiB)": 112.26,
      "step": 17970,
      "train_speed(iter/s)": 1.133865
    },
    {
      "acc": 0.73034434,
      "epoch": 0.45598680872653474,
      "grad_norm": 4.3125,
      "learning_rate": 9.15855652982549e-06,
      "loss": 1.14061394,
      "memory(GiB)": 112.26,
      "step": 17975,
      "train_speed(iter/s)": 1.133907
    },
    {
      "acc": 0.73418064,
      "epoch": 0.4561136478944698,
      "grad_norm": 4.90625,
      "learning_rate": 9.15797423375892e-06,
      "loss": 1.10298557,
      "memory(GiB)": 112.26,
      "step": 17980,
      "train_speed(iter/s)": 1.133941
    },
    {
      "acc": 0.73094592,
      "epoch": 0.4562404870624049,
      "grad_norm": 3.96875,
      "learning_rate": 9.157391754806079e-06,
      "loss": 1.10701284,
      "memory(GiB)": 112.26,
      "step": 17985,
      "train_speed(iter/s)": 1.133964
    },
    {
      "acc": 0.72659512,
      "epoch": 0.45636732623033993,
      "grad_norm": 5.34375,
      "learning_rate": 9.156809092992588e-06,
      "loss": 1.09541054,
      "memory(GiB)": 112.26,
      "step": 17990,
      "train_speed(iter/s)": 1.134008
    },
    {
      "acc": 0.72763209,
      "epoch": 0.456494165398275,
      "grad_norm": 4.5,
      "learning_rate": 9.156226248344072e-06,
      "loss": 1.08825045,
      "memory(GiB)": 112.26,
      "step": 17995,
      "train_speed(iter/s)": 1.134025
    },
    {
      "acc": 0.73607736,
      "epoch": 0.45662100456621,
      "grad_norm": 3.40625,
      "learning_rate": 9.15564322088617e-06,
      "loss": 1.10232754,
      "memory(GiB)": 112.26,
      "step": 18000,
      "train_speed(iter/s)": 1.134044
    },
    {
      "epoch": 0.45662100456621,
      "eval_acc": 0.72073124126827,
      "eval_loss": 1.0697895288467407,
      "eval_runtime": 70.8482,
      "eval_samples_per_second": 89.911,
      "eval_steps_per_second": 22.485,
      "step": 18000
    },
    {
      "acc": 0.73298988,
      "epoch": 0.4567478437341451,
      "grad_norm": 3.828125,
      "learning_rate": 9.155060010644525e-06,
      "loss": 1.11065569,
      "memory(GiB)": 112.26,
      "step": 18005,
      "train_speed(iter/s)": 1.125923
    },
    {
      "acc": 0.73645859,
      "epoch": 0.45687468290208016,
      "grad_norm": 4.40625,
      "learning_rate": 9.154476617644792e-06,
      "loss": 1.0729085,
      "memory(GiB)": 112.26,
      "step": 18010,
      "train_speed(iter/s)": 1.125972
    },
    {
      "acc": 0.72837815,
      "epoch": 0.4570015220700152,
      "grad_norm": 5.65625,
      "learning_rate": 9.153893041912627e-06,
      "loss": 1.06448345,
      "memory(GiB)": 112.26,
      "step": 18015,
      "train_speed(iter/s)": 1.126034
    },
    {
      "acc": 0.74647365,
      "epoch": 0.45712836123795025,
      "grad_norm": 4.28125,
      "learning_rate": 9.1533092834737e-06,
      "loss": 1.0574049,
      "memory(GiB)": 112.26,
      "step": 18020,
      "train_speed(iter/s)": 1.126088
    },
    {
      "acc": 0.72903924,
      "epoch": 0.45725520040588535,
      "grad_norm": 3.828125,
      "learning_rate": 9.152725342353688e-06,
      "loss": 1.13777781,
      "memory(GiB)": 112.26,
      "step": 18025,
      "train_speed(iter/s)": 1.126122
    },
    {
      "acc": 0.72278318,
      "epoch": 0.4573820395738204,
      "grad_norm": 4.75,
      "learning_rate": 9.152141218578276e-06,
      "loss": 1.14609623,
      "memory(GiB)": 112.26,
      "step": 18030,
      "train_speed(iter/s)": 1.126127
    },
    {
      "acc": 0.72040424,
      "epoch": 0.45750887874175544,
      "grad_norm": 4.34375,
      "learning_rate": 9.151556912173154e-06,
      "loss": 1.17736473,
      "memory(GiB)": 112.26,
      "step": 18035,
      "train_speed(iter/s)": 1.126126
    },
    {
      "acc": 0.72976971,
      "epoch": 0.4576357179096905,
      "grad_norm": 4.375,
      "learning_rate": 9.150972423164024e-06,
      "loss": 1.11083412,
      "memory(GiB)": 112.26,
      "step": 18040,
      "train_speed(iter/s)": 1.126154
    },
    {
      "acc": 0.72853031,
      "epoch": 0.4577625570776256,
      "grad_norm": 4.59375,
      "learning_rate": 9.150387751576594e-06,
      "loss": 1.1408371,
      "memory(GiB)": 112.26,
      "step": 18045,
      "train_speed(iter/s)": 1.12619
    },
    {
      "acc": 0.72047725,
      "epoch": 0.45788939624556063,
      "grad_norm": 2.90625,
      "learning_rate": 9.14980289743658e-06,
      "loss": 1.12068577,
      "memory(GiB)": 112.26,
      "step": 18050,
      "train_speed(iter/s)": 1.126203
    },
    {
      "acc": 0.72384481,
      "epoch": 0.4580162354134957,
      "grad_norm": 3.859375,
      "learning_rate": 9.149217860769708e-06,
      "loss": 1.13645325,
      "memory(GiB)": 112.26,
      "step": 18055,
      "train_speed(iter/s)": 1.126234
    },
    {
      "acc": 0.7407424,
      "epoch": 0.4581430745814307,
      "grad_norm": 3.96875,
      "learning_rate": 9.14863264160171e-06,
      "loss": 1.07433405,
      "memory(GiB)": 112.26,
      "step": 18060,
      "train_speed(iter/s)": 1.126286
    },
    {
      "acc": 0.72319708,
      "epoch": 0.4582699137493658,
      "grad_norm": 3.78125,
      "learning_rate": 9.148047239958325e-06,
      "loss": 1.16839638,
      "memory(GiB)": 112.26,
      "step": 18065,
      "train_speed(iter/s)": 1.12634
    },
    {
      "acc": 0.72562923,
      "epoch": 0.45839675291730086,
      "grad_norm": 4.0,
      "learning_rate": 9.147461655865302e-06,
      "loss": 1.12327518,
      "memory(GiB)": 112.26,
      "step": 18070,
      "train_speed(iter/s)": 1.12637
    },
    {
      "acc": 0.74078059,
      "epoch": 0.4585235920852359,
      "grad_norm": 3.8125,
      "learning_rate": 9.1468758893484e-06,
      "loss": 1.12816782,
      "memory(GiB)": 112.26,
      "step": 18075,
      "train_speed(iter/s)": 1.126417
    },
    {
      "acc": 0.74240913,
      "epoch": 0.45865043125317095,
      "grad_norm": 3.40625,
      "learning_rate": 9.14628994043338e-06,
      "loss": 1.12687302,
      "memory(GiB)": 112.26,
      "step": 18080,
      "train_speed(iter/s)": 1.126449
    },
    {
      "acc": 0.7361393,
      "epoch": 0.45877727042110605,
      "grad_norm": 3.28125,
      "learning_rate": 9.145703809146018e-06,
      "loss": 1.1120965,
      "memory(GiB)": 112.26,
      "step": 18085,
      "train_speed(iter/s)": 1.126481
    },
    {
      "acc": 0.72226963,
      "epoch": 0.4589041095890411,
      "grad_norm": 3.75,
      "learning_rate": 9.145117495512092e-06,
      "loss": 1.12593775,
      "memory(GiB)": 112.26,
      "step": 18090,
      "train_speed(iter/s)": 1.126547
    },
    {
      "acc": 0.73469133,
      "epoch": 0.45903094875697614,
      "grad_norm": 3.734375,
      "learning_rate": 9.144530999557393e-06,
      "loss": 1.15387917,
      "memory(GiB)": 112.26,
      "step": 18095,
      "train_speed(iter/s)": 1.126595
    },
    {
      "acc": 0.73323689,
      "epoch": 0.4591577879249112,
      "grad_norm": 4.375,
      "learning_rate": 9.143944321307718e-06,
      "loss": 1.11535769,
      "memory(GiB)": 112.26,
      "step": 18100,
      "train_speed(iter/s)": 1.126648
    },
    {
      "acc": 0.72661004,
      "epoch": 0.4592846270928463,
      "grad_norm": 3.171875,
      "learning_rate": 9.143357460788868e-06,
      "loss": 1.13908911,
      "memory(GiB)": 112.26,
      "step": 18105,
      "train_speed(iter/s)": 1.126671
    },
    {
      "acc": 0.72077699,
      "epoch": 0.45941146626078133,
      "grad_norm": 4.09375,
      "learning_rate": 9.14277041802666e-06,
      "loss": 1.18325081,
      "memory(GiB)": 112.26,
      "step": 18110,
      "train_speed(iter/s)": 1.126704
    },
    {
      "acc": 0.73428392,
      "epoch": 0.4595383054287164,
      "grad_norm": 3.828125,
      "learning_rate": 9.142183193046912e-06,
      "loss": 1.09628363,
      "memory(GiB)": 112.26,
      "step": 18115,
      "train_speed(iter/s)": 1.126727
    },
    {
      "acc": 0.73985653,
      "epoch": 0.4596651445966514,
      "grad_norm": 3.5625,
      "learning_rate": 9.141595785875453e-06,
      "loss": 1.02901688,
      "memory(GiB)": 112.26,
      "step": 18120,
      "train_speed(iter/s)": 1.126768
    },
    {
      "acc": 0.73472066,
      "epoch": 0.4597919837645865,
      "grad_norm": 3.109375,
      "learning_rate": 9.141008196538122e-06,
      "loss": 1.08281507,
      "memory(GiB)": 112.26,
      "step": 18125,
      "train_speed(iter/s)": 1.126829
    },
    {
      "acc": 0.73508382,
      "epoch": 0.45991882293252156,
      "grad_norm": 3.828125,
      "learning_rate": 9.14042042506076e-06,
      "loss": 1.10405531,
      "memory(GiB)": 112.26,
      "step": 18130,
      "train_speed(iter/s)": 1.126878
    },
    {
      "acc": 0.74084778,
      "epoch": 0.4600456621004566,
      "grad_norm": 4.1875,
      "learning_rate": 9.139832471469224e-06,
      "loss": 1.09258308,
      "memory(GiB)": 112.26,
      "step": 18135,
      "train_speed(iter/s)": 1.126896
    },
    {
      "acc": 0.73963385,
      "epoch": 0.46017250126839165,
      "grad_norm": 3.03125,
      "learning_rate": 9.13924433578937e-06,
      "loss": 1.10081177,
      "memory(GiB)": 112.26,
      "step": 18140,
      "train_speed(iter/s)": 1.12692
    },
    {
      "acc": 0.7333252,
      "epoch": 0.46029934043632675,
      "grad_norm": 3.53125,
      "learning_rate": 9.138656018047074e-06,
      "loss": 1.10689001,
      "memory(GiB)": 112.26,
      "step": 18145,
      "train_speed(iter/s)": 1.126951
    },
    {
      "acc": 0.74130898,
      "epoch": 0.4604261796042618,
      "grad_norm": 3.390625,
      "learning_rate": 9.138067518268206e-06,
      "loss": 1.09768696,
      "memory(GiB)": 112.26,
      "step": 18150,
      "train_speed(iter/s)": 1.126952
    },
    {
      "acc": 0.7449038,
      "epoch": 0.46055301877219684,
      "grad_norm": 3.640625,
      "learning_rate": 9.137478836478654e-06,
      "loss": 1.06359148,
      "memory(GiB)": 112.26,
      "step": 18155,
      "train_speed(iter/s)": 1.127014
    },
    {
      "acc": 0.73372622,
      "epoch": 0.4606798579401319,
      "grad_norm": 3.703125,
      "learning_rate": 9.13688997270431e-06,
      "loss": 1.08539314,
      "memory(GiB)": 112.26,
      "step": 18160,
      "train_speed(iter/s)": 1.127068
    },
    {
      "acc": 0.76436329,
      "epoch": 0.460806697108067,
      "grad_norm": 3.625,
      "learning_rate": 9.136300926971076e-06,
      "loss": 1.02486916,
      "memory(GiB)": 112.26,
      "step": 18165,
      "train_speed(iter/s)": 1.127099
    },
    {
      "acc": 0.7220861,
      "epoch": 0.46093353627600203,
      "grad_norm": 3.375,
      "learning_rate": 9.135711699304858e-06,
      "loss": 1.17027473,
      "memory(GiB)": 112.26,
      "step": 18170,
      "train_speed(iter/s)": 1.127155
    },
    {
      "acc": 0.73379865,
      "epoch": 0.4610603754439371,
      "grad_norm": 3.59375,
      "learning_rate": 9.135122289731575e-06,
      "loss": 1.09369774,
      "memory(GiB)": 112.26,
      "step": 18175,
      "train_speed(iter/s)": 1.127217
    },
    {
      "acc": 0.73101501,
      "epoch": 0.4611872146118721,
      "grad_norm": 4.0,
      "learning_rate": 9.134532698277154e-06,
      "loss": 1.05398617,
      "memory(GiB)": 112.26,
      "step": 18180,
      "train_speed(iter/s)": 1.127281
    },
    {
      "acc": 0.72844543,
      "epoch": 0.4613140537798072,
      "grad_norm": 4.6875,
      "learning_rate": 9.133942924967524e-06,
      "loss": 1.12642965,
      "memory(GiB)": 112.26,
      "step": 18185,
      "train_speed(iter/s)": 1.127344
    },
    {
      "acc": 0.74858551,
      "epoch": 0.46144089294774226,
      "grad_norm": 5.03125,
      "learning_rate": 9.133352969828628e-06,
      "loss": 1.05943556,
      "memory(GiB)": 112.26,
      "step": 18190,
      "train_speed(iter/s)": 1.12739
    },
    {
      "acc": 0.73469658,
      "epoch": 0.4615677321156773,
      "grad_norm": 3.40625,
      "learning_rate": 9.132762832886416e-06,
      "loss": 1.0542057,
      "memory(GiB)": 112.26,
      "step": 18195,
      "train_speed(iter/s)": 1.127431
    },
    {
      "acc": 0.72801485,
      "epoch": 0.46169457128361235,
      "grad_norm": 4.09375,
      "learning_rate": 9.13217251416684e-06,
      "loss": 1.13873444,
      "memory(GiB)": 112.26,
      "step": 18200,
      "train_speed(iter/s)": 1.12747
    },
    {
      "acc": 0.73336363,
      "epoch": 0.46182141045154745,
      "grad_norm": 4.125,
      "learning_rate": 9.131582013695867e-06,
      "loss": 1.09505768,
      "memory(GiB)": 112.26,
      "step": 18205,
      "train_speed(iter/s)": 1.127513
    },
    {
      "acc": 0.73483057,
      "epoch": 0.4619482496194825,
      "grad_norm": 4.21875,
      "learning_rate": 9.130991331499474e-06,
      "loss": 1.12760458,
      "memory(GiB)": 112.26,
      "step": 18210,
      "train_speed(iter/s)": 1.127558
    },
    {
      "acc": 0.75019398,
      "epoch": 0.46207508878741754,
      "grad_norm": 3.875,
      "learning_rate": 9.130400467603637e-06,
      "loss": 1.0216013,
      "memory(GiB)": 112.26,
      "step": 18215,
      "train_speed(iter/s)": 1.12762
    },
    {
      "acc": 0.71973805,
      "epoch": 0.4622019279553526,
      "grad_norm": 4.59375,
      "learning_rate": 9.129809422034349e-06,
      "loss": 1.12261276,
      "memory(GiB)": 112.26,
      "step": 18220,
      "train_speed(iter/s)": 1.127682
    },
    {
      "acc": 0.7341466,
      "epoch": 0.4623287671232877,
      "grad_norm": 4.03125,
      "learning_rate": 9.129218194817601e-06,
      "loss": 1.13701916,
      "memory(GiB)": 112.26,
      "step": 18225,
      "train_speed(iter/s)": 1.127728
    },
    {
      "acc": 0.72733631,
      "epoch": 0.46245560629122273,
      "grad_norm": 3.671875,
      "learning_rate": 9.128626785979404e-06,
      "loss": 1.14853859,
      "memory(GiB)": 112.26,
      "step": 18230,
      "train_speed(iter/s)": 1.127774
    },
    {
      "acc": 0.72746072,
      "epoch": 0.4625824454591578,
      "grad_norm": 4.09375,
      "learning_rate": 9.128035195545766e-06,
      "loss": 1.11320686,
      "memory(GiB)": 112.26,
      "step": 18235,
      "train_speed(iter/s)": 1.127811
    },
    {
      "acc": 0.71342287,
      "epoch": 0.4627092846270928,
      "grad_norm": 3.8125,
      "learning_rate": 9.12744342354271e-06,
      "loss": 1.21458912,
      "memory(GiB)": 112.26,
      "step": 18240,
      "train_speed(iter/s)": 1.127849
    },
    {
      "acc": 0.73742576,
      "epoch": 0.4628361237950279,
      "grad_norm": 4.03125,
      "learning_rate": 9.126851469996265e-06,
      "loss": 1.08364906,
      "memory(GiB)": 112.26,
      "step": 18245,
      "train_speed(iter/s)": 1.127896
    },
    {
      "acc": 0.730478,
      "epoch": 0.46296296296296297,
      "grad_norm": 4.375,
      "learning_rate": 9.126259334932467e-06,
      "loss": 1.09667177,
      "memory(GiB)": 112.26,
      "step": 18250,
      "train_speed(iter/s)": 1.12796
    },
    {
      "acc": 0.72304821,
      "epoch": 0.463089802130898,
      "grad_norm": 4.59375,
      "learning_rate": 9.125667018377362e-06,
      "loss": 1.13886328,
      "memory(GiB)": 112.26,
      "step": 18255,
      "train_speed(iter/s)": 1.128011
    },
    {
      "acc": 0.7301198,
      "epoch": 0.46321664129883305,
      "grad_norm": 4.71875,
      "learning_rate": 9.125074520357002e-06,
      "loss": 1.10045376,
      "memory(GiB)": 112.26,
      "step": 18260,
      "train_speed(iter/s)": 1.128038
    },
    {
      "acc": 0.73202691,
      "epoch": 0.46334348046676815,
      "grad_norm": 3.484375,
      "learning_rate": 9.124481840897446e-06,
      "loss": 1.0865736,
      "memory(GiB)": 112.26,
      "step": 18265,
      "train_speed(iter/s)": 1.128075
    },
    {
      "acc": 0.72722187,
      "epoch": 0.4634703196347032,
      "grad_norm": 3.5,
      "learning_rate": 9.123888980024765e-06,
      "loss": 1.06905689,
      "memory(GiB)": 112.26,
      "step": 18270,
      "train_speed(iter/s)": 1.12809
    },
    {
      "acc": 0.7453753,
      "epoch": 0.46359715880263824,
      "grad_norm": 3.203125,
      "learning_rate": 9.123295937765034e-06,
      "loss": 1.0508955,
      "memory(GiB)": 112.26,
      "step": 18275,
      "train_speed(iter/s)": 1.128129
    },
    {
      "acc": 0.74577322,
      "epoch": 0.4637239979705733,
      "grad_norm": 4.15625,
      "learning_rate": 9.122702714144339e-06,
      "loss": 1.05134468,
      "memory(GiB)": 112.26,
      "step": 18280,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.73169212,
      "epoch": 0.4638508371385084,
      "grad_norm": 3.5625,
      "learning_rate": 9.122109309188772e-06,
      "loss": 1.10164204,
      "memory(GiB)": 112.26,
      "step": 18285,
      "train_speed(iter/s)": 1.128232
    },
    {
      "acc": 0.74873338,
      "epoch": 0.46397767630644343,
      "grad_norm": 4.96875,
      "learning_rate": 9.121515722924435e-06,
      "loss": 1.05394573,
      "memory(GiB)": 112.26,
      "step": 18290,
      "train_speed(iter/s)": 1.12827
    },
    {
      "acc": 0.73689022,
      "epoch": 0.4641045154743785,
      "grad_norm": 3.765625,
      "learning_rate": 9.120921955377433e-06,
      "loss": 1.06214504,
      "memory(GiB)": 112.26,
      "step": 18295,
      "train_speed(iter/s)": 1.12832
    },
    {
      "acc": 0.72689033,
      "epoch": 0.4642313546423135,
      "grad_norm": 3.390625,
      "learning_rate": 9.120328006573887e-06,
      "loss": 1.10919781,
      "memory(GiB)": 112.26,
      "step": 18300,
      "train_speed(iter/s)": 1.128336
    },
    {
      "acc": 0.73210044,
      "epoch": 0.4643581938102486,
      "grad_norm": 3.703125,
      "learning_rate": 9.119733876539916e-06,
      "loss": 1.06164351,
      "memory(GiB)": 112.26,
      "step": 18305,
      "train_speed(iter/s)": 1.128375
    },
    {
      "acc": 0.73382473,
      "epoch": 0.46448503297818367,
      "grad_norm": 4.03125,
      "learning_rate": 9.119139565301658e-06,
      "loss": 1.05771646,
      "memory(GiB)": 112.26,
      "step": 18310,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.73383083,
      "epoch": 0.4646118721461187,
      "grad_norm": 3.828125,
      "learning_rate": 9.118545072885253e-06,
      "loss": 1.12823391,
      "memory(GiB)": 112.26,
      "step": 18315,
      "train_speed(iter/s)": 1.128509
    },
    {
      "acc": 0.7402585,
      "epoch": 0.46473871131405375,
      "grad_norm": 5.25,
      "learning_rate": 9.117950399316845e-06,
      "loss": 1.05775127,
      "memory(GiB)": 112.26,
      "step": 18320,
      "train_speed(iter/s)": 1.128565
    },
    {
      "acc": 0.74254084,
      "epoch": 0.46486555048198885,
      "grad_norm": 4.125,
      "learning_rate": 9.117355544622595e-06,
      "loss": 1.07423468,
      "memory(GiB)": 112.26,
      "step": 18325,
      "train_speed(iter/s)": 1.128609
    },
    {
      "acc": 0.728269,
      "epoch": 0.4649923896499239,
      "grad_norm": 3.609375,
      "learning_rate": 9.116760508828664e-06,
      "loss": 1.06522312,
      "memory(GiB)": 112.26,
      "step": 18330,
      "train_speed(iter/s)": 1.128658
    },
    {
      "acc": 0.74633608,
      "epoch": 0.46511922881785894,
      "grad_norm": 3.59375,
      "learning_rate": 9.116165291961225e-06,
      "loss": 1.07375326,
      "memory(GiB)": 112.26,
      "step": 18335,
      "train_speed(iter/s)": 1.128692
    },
    {
      "acc": 0.73576727,
      "epoch": 0.465246067985794,
      "grad_norm": 3.328125,
      "learning_rate": 9.11556989404646e-06,
      "loss": 1.06717091,
      "memory(GiB)": 112.26,
      "step": 18340,
      "train_speed(iter/s)": 1.128724
    },
    {
      "acc": 0.72265072,
      "epoch": 0.4653729071537291,
      "grad_norm": 4.03125,
      "learning_rate": 9.114974315110558e-06,
      "loss": 1.15725241,
      "memory(GiB)": 112.26,
      "step": 18345,
      "train_speed(iter/s)": 1.128764
    },
    {
      "acc": 0.73732686,
      "epoch": 0.46549974632166413,
      "grad_norm": 3.9375,
      "learning_rate": 9.114378555179712e-06,
      "loss": 1.10840683,
      "memory(GiB)": 112.26,
      "step": 18350,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.73715968,
      "epoch": 0.4656265854895992,
      "grad_norm": 3.953125,
      "learning_rate": 9.11378261428013e-06,
      "loss": 1.06985168,
      "memory(GiB)": 112.26,
      "step": 18355,
      "train_speed(iter/s)": 1.128822
    },
    {
      "acc": 0.73568788,
      "epoch": 0.4657534246575342,
      "grad_norm": 3.75,
      "learning_rate": 9.11318649243802e-06,
      "loss": 1.08865776,
      "memory(GiB)": 112.26,
      "step": 18360,
      "train_speed(iter/s)": 1.128856
    },
    {
      "acc": 0.74121962,
      "epoch": 0.4658802638254693,
      "grad_norm": 3.875,
      "learning_rate": 9.112590189679604e-06,
      "loss": 1.06864014,
      "memory(GiB)": 112.26,
      "step": 18365,
      "train_speed(iter/s)": 1.128922
    },
    {
      "acc": 0.72745733,
      "epoch": 0.46600710299340437,
      "grad_norm": 3.03125,
      "learning_rate": 9.111993706031109e-06,
      "loss": 1.07671375,
      "memory(GiB)": 112.26,
      "step": 18370,
      "train_speed(iter/s)": 1.128943
    },
    {
      "acc": 0.73817053,
      "epoch": 0.4661339421613394,
      "grad_norm": 3.5625,
      "learning_rate": 9.111397041518774e-06,
      "loss": 1.09500608,
      "memory(GiB)": 112.26,
      "step": 18375,
      "train_speed(iter/s)": 1.128973
    },
    {
      "acc": 0.73335934,
      "epoch": 0.46626078132927445,
      "grad_norm": 3.640625,
      "learning_rate": 9.11080019616884e-06,
      "loss": 1.06049156,
      "memory(GiB)": 112.26,
      "step": 18380,
      "train_speed(iter/s)": 1.129028
    },
    {
      "acc": 0.74480152,
      "epoch": 0.46638762049720955,
      "grad_norm": 4.03125,
      "learning_rate": 9.11020317000756e-06,
      "loss": 1.10564098,
      "memory(GiB)": 112.26,
      "step": 18385,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.71104641,
      "epoch": 0.4665144596651446,
      "grad_norm": 3.921875,
      "learning_rate": 9.109605963061194e-06,
      "loss": 1.19757385,
      "memory(GiB)": 112.26,
      "step": 18390,
      "train_speed(iter/s)": 1.129042
    },
    {
      "acc": 0.73878317,
      "epoch": 0.46664129883307964,
      "grad_norm": 3.9375,
      "learning_rate": 9.10900857535601e-06,
      "loss": 1.0733387,
      "memory(GiB)": 112.26,
      "step": 18395,
      "train_speed(iter/s)": 1.129096
    },
    {
      "acc": 0.71908021,
      "epoch": 0.4667681380010147,
      "grad_norm": 4.0,
      "learning_rate": 9.108411006918283e-06,
      "loss": 1.14545422,
      "memory(GiB)": 112.26,
      "step": 18400,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.74114761,
      "epoch": 0.4668949771689498,
      "grad_norm": 4.46875,
      "learning_rate": 9.107813257774298e-06,
      "loss": 1.10821877,
      "memory(GiB)": 112.26,
      "step": 18405,
      "train_speed(iter/s)": 1.129177
    },
    {
      "acc": 0.72846694,
      "epoch": 0.46702181633688483,
      "grad_norm": 3.96875,
      "learning_rate": 9.107215327950345e-06,
      "loss": 1.10294781,
      "memory(GiB)": 112.26,
      "step": 18410,
      "train_speed(iter/s)": 1.129217
    },
    {
      "acc": 0.73482342,
      "epoch": 0.4671486555048199,
      "grad_norm": 3.828125,
      "learning_rate": 9.106617217472724e-06,
      "loss": 1.10259762,
      "memory(GiB)": 112.26,
      "step": 18415,
      "train_speed(iter/s)": 1.129274
    },
    {
      "acc": 0.72008324,
      "epoch": 0.4672754946727549,
      "grad_norm": 3.59375,
      "learning_rate": 9.106018926367744e-06,
      "loss": 1.14802618,
      "memory(GiB)": 112.26,
      "step": 18420,
      "train_speed(iter/s)": 1.129336
    },
    {
      "acc": 0.73104191,
      "epoch": 0.46740233384069,
      "grad_norm": 3.71875,
      "learning_rate": 9.10542045466172e-06,
      "loss": 1.11763802,
      "memory(GiB)": 112.26,
      "step": 18425,
      "train_speed(iter/s)": 1.129363
    },
    {
      "acc": 0.73546934,
      "epoch": 0.46752917300862507,
      "grad_norm": 3.71875,
      "learning_rate": 9.104821802380974e-06,
      "loss": 1.13979759,
      "memory(GiB)": 112.26,
      "step": 18430,
      "train_speed(iter/s)": 1.12941
    },
    {
      "acc": 0.73734555,
      "epoch": 0.4676560121765601,
      "grad_norm": 3.359375,
      "learning_rate": 9.104222969551838e-06,
      "loss": 1.04083433,
      "memory(GiB)": 112.26,
      "step": 18435,
      "train_speed(iter/s)": 1.129449
    },
    {
      "acc": 0.73223104,
      "epoch": 0.46778285134449515,
      "grad_norm": 4.09375,
      "learning_rate": 9.103623956200654e-06,
      "loss": 1.10860519,
      "memory(GiB)": 112.26,
      "step": 18440,
      "train_speed(iter/s)": 1.129485
    },
    {
      "acc": 0.71621265,
      "epoch": 0.46790969051243025,
      "grad_norm": 4.15625,
      "learning_rate": 9.103024762353766e-06,
      "loss": 1.19013386,
      "memory(GiB)": 112.26,
      "step": 18445,
      "train_speed(iter/s)": 1.129511
    },
    {
      "acc": 0.73812714,
      "epoch": 0.4680365296803653,
      "grad_norm": 3.390625,
      "learning_rate": 9.102425388037527e-06,
      "loss": 1.06745043,
      "memory(GiB)": 112.26,
      "step": 18450,
      "train_speed(iter/s)": 1.129533
    },
    {
      "acc": 0.73354187,
      "epoch": 0.46816336884830034,
      "grad_norm": 3.734375,
      "learning_rate": 9.101825833278308e-06,
      "loss": 1.09222507,
      "memory(GiB)": 112.26,
      "step": 18455,
      "train_speed(iter/s)": 1.12957
    },
    {
      "acc": 0.73494244,
      "epoch": 0.4682902080162354,
      "grad_norm": 3.671875,
      "learning_rate": 9.101226098102473e-06,
      "loss": 1.04903936,
      "memory(GiB)": 112.26,
      "step": 18460,
      "train_speed(iter/s)": 1.129633
    },
    {
      "acc": 0.74478354,
      "epoch": 0.4684170471841705,
      "grad_norm": 5.40625,
      "learning_rate": 9.100626182536405e-06,
      "loss": 1.11881819,
      "memory(GiB)": 112.26,
      "step": 18465,
      "train_speed(iter/s)": 1.129661
    },
    {
      "acc": 0.7322948,
      "epoch": 0.46854388635210553,
      "grad_norm": 3.75,
      "learning_rate": 9.100026086606488e-06,
      "loss": 1.08001461,
      "memory(GiB)": 112.26,
      "step": 18470,
      "train_speed(iter/s)": 1.129723
    },
    {
      "acc": 0.75169001,
      "epoch": 0.4686707255200406,
      "grad_norm": 3.734375,
      "learning_rate": 9.09942581033912e-06,
      "loss": 1.03434525,
      "memory(GiB)": 112.26,
      "step": 18475,
      "train_speed(iter/s)": 1.129767
    },
    {
      "acc": 0.75063076,
      "epoch": 0.4687975646879756,
      "grad_norm": 3.765625,
      "learning_rate": 9.0988253537607e-06,
      "loss": 1.00641251,
      "memory(GiB)": 112.26,
      "step": 18480,
      "train_speed(iter/s)": 1.129797
    },
    {
      "acc": 0.7352591,
      "epoch": 0.4689244038559107,
      "grad_norm": 3.34375,
      "learning_rate": 9.098224716897644e-06,
      "loss": 1.08191214,
      "memory(GiB)": 112.26,
      "step": 18485,
      "train_speed(iter/s)": 1.12981
    },
    {
      "acc": 0.74031639,
      "epoch": 0.46905124302384577,
      "grad_norm": 3.796875,
      "learning_rate": 9.097623899776366e-06,
      "loss": 1.06166525,
      "memory(GiB)": 112.26,
      "step": 18490,
      "train_speed(iter/s)": 1.129859
    },
    {
      "acc": 0.72327271,
      "epoch": 0.4691780821917808,
      "grad_norm": 4.34375,
      "learning_rate": 9.097022902423294e-06,
      "loss": 1.08467741,
      "memory(GiB)": 112.26,
      "step": 18495,
      "train_speed(iter/s)": 1.12992
    },
    {
      "acc": 0.72776132,
      "epoch": 0.46930492135971585,
      "grad_norm": 3.390625,
      "learning_rate": 9.096421724864864e-06,
      "loss": 1.1027319,
      "memory(GiB)": 112.26,
      "step": 18500,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.73520679,
      "epoch": 0.46943176052765095,
      "grad_norm": 3.59375,
      "learning_rate": 9.095820367127517e-06,
      "loss": 1.11699505,
      "memory(GiB)": 112.26,
      "step": 18505,
      "train_speed(iter/s)": 1.129974
    },
    {
      "acc": 0.72533031,
      "epoch": 0.469558599695586,
      "grad_norm": 3.640625,
      "learning_rate": 9.095218829237703e-06,
      "loss": 1.14319048,
      "memory(GiB)": 112.26,
      "step": 18510,
      "train_speed(iter/s)": 1.130028
    },
    {
      "acc": 0.71543913,
      "epoch": 0.46968543886352104,
      "grad_norm": 3.796875,
      "learning_rate": 9.094617111221881e-06,
      "loss": 1.16256657,
      "memory(GiB)": 112.26,
      "step": 18515,
      "train_speed(iter/s)": 1.130068
    },
    {
      "acc": 0.73231125,
      "epoch": 0.4698122780314561,
      "grad_norm": 3.125,
      "learning_rate": 9.09401521310652e-06,
      "loss": 1.05683346,
      "memory(GiB)": 112.26,
      "step": 18520,
      "train_speed(iter/s)": 1.130122
    },
    {
      "acc": 0.7469553,
      "epoch": 0.4699391171993912,
      "grad_norm": 3.359375,
      "learning_rate": 9.093413134918088e-06,
      "loss": 1.04560671,
      "memory(GiB)": 112.26,
      "step": 18525,
      "train_speed(iter/s)": 1.130186
    },
    {
      "acc": 0.73913345,
      "epoch": 0.47006595636732623,
      "grad_norm": 3.421875,
      "learning_rate": 9.09281087668307e-06,
      "loss": 1.10027542,
      "memory(GiB)": 112.26,
      "step": 18530,
      "train_speed(iter/s)": 1.130217
    },
    {
      "acc": 0.74674687,
      "epoch": 0.4701927955352613,
      "grad_norm": 3.71875,
      "learning_rate": 9.09220843842796e-06,
      "loss": 1.04987698,
      "memory(GiB)": 112.26,
      "step": 18535,
      "train_speed(iter/s)": 1.130264
    },
    {
      "acc": 0.73317194,
      "epoch": 0.4703196347031963,
      "grad_norm": 3.28125,
      "learning_rate": 9.09160582017925e-06,
      "loss": 1.08054628,
      "memory(GiB)": 112.26,
      "step": 18540,
      "train_speed(iter/s)": 1.130326
    },
    {
      "acc": 0.71204429,
      "epoch": 0.4704464738711314,
      "grad_norm": 3.296875,
      "learning_rate": 9.091003021963449e-06,
      "loss": 1.16341095,
      "memory(GiB)": 112.26,
      "step": 18545,
      "train_speed(iter/s)": 1.130397
    },
    {
      "acc": 0.72793727,
      "epoch": 0.47057331303906647,
      "grad_norm": 3.5,
      "learning_rate": 9.09040004380707e-06,
      "loss": 1.12828388,
      "memory(GiB)": 112.26,
      "step": 18550,
      "train_speed(iter/s)": 1.130418
    },
    {
      "acc": 0.72605524,
      "epoch": 0.4707001522070015,
      "grad_norm": 3.53125,
      "learning_rate": 9.089796885736637e-06,
      "loss": 1.06512203,
      "memory(GiB)": 112.26,
      "step": 18555,
      "train_speed(iter/s)": 1.130457
    },
    {
      "acc": 0.73489704,
      "epoch": 0.47082699137493655,
      "grad_norm": 3.15625,
      "learning_rate": 9.089193547778674e-06,
      "loss": 1.07922344,
      "memory(GiB)": 112.26,
      "step": 18560,
      "train_speed(iter/s)": 1.130473
    },
    {
      "acc": 0.7335391,
      "epoch": 0.47095383054287165,
      "grad_norm": 3.5625,
      "learning_rate": 9.088590029959724e-06,
      "loss": 1.08306656,
      "memory(GiB)": 112.26,
      "step": 18565,
      "train_speed(iter/s)": 1.130523
    },
    {
      "acc": 0.71098633,
      "epoch": 0.4710806697108067,
      "grad_norm": 3.84375,
      "learning_rate": 9.08798633230633e-06,
      "loss": 1.19281635,
      "memory(GiB)": 112.26,
      "step": 18570,
      "train_speed(iter/s)": 1.130591
    },
    {
      "acc": 0.73676014,
      "epoch": 0.47120750887874174,
      "grad_norm": 3.421875,
      "learning_rate": 9.087382454845044e-06,
      "loss": 1.15704632,
      "memory(GiB)": 112.26,
      "step": 18575,
      "train_speed(iter/s)": 1.13064
    },
    {
      "acc": 0.72208471,
      "epoch": 0.4713343480466768,
      "grad_norm": 3.203125,
      "learning_rate": 9.08677839760243e-06,
      "loss": 1.14131279,
      "memory(GiB)": 112.26,
      "step": 18580,
      "train_speed(iter/s)": 1.130677
    },
    {
      "acc": 0.7185647,
      "epoch": 0.4714611872146119,
      "grad_norm": 3.640625,
      "learning_rate": 9.086174160605055e-06,
      "loss": 1.09918928,
      "memory(GiB)": 112.26,
      "step": 18585,
      "train_speed(iter/s)": 1.130738
    },
    {
      "acc": 0.72867708,
      "epoch": 0.47158802638254693,
      "grad_norm": 3.234375,
      "learning_rate": 9.085569743879498e-06,
      "loss": 1.12638884,
      "memory(GiB)": 112.26,
      "step": 18590,
      "train_speed(iter/s)": 1.130789
    },
    {
      "acc": 0.7349781,
      "epoch": 0.471714865550482,
      "grad_norm": 3.453125,
      "learning_rate": 9.084965147452342e-06,
      "loss": 1.07731543,
      "memory(GiB)": 112.26,
      "step": 18595,
      "train_speed(iter/s)": 1.130834
    },
    {
      "acc": 0.72762775,
      "epoch": 0.471841704718417,
      "grad_norm": 3.5625,
      "learning_rate": 9.084360371350182e-06,
      "loss": 1.13075266,
      "memory(GiB)": 112.26,
      "step": 18600,
      "train_speed(iter/s)": 1.130841
    },
    {
      "acc": 0.72429314,
      "epoch": 0.4719685438863521,
      "grad_norm": 3.4375,
      "learning_rate": 9.083755415599617e-06,
      "loss": 1.1101017,
      "memory(GiB)": 112.26,
      "step": 18605,
      "train_speed(iter/s)": 1.130878
    },
    {
      "acc": 0.73518996,
      "epoch": 0.47209538305428717,
      "grad_norm": 3.5,
      "learning_rate": 9.083150280227255e-06,
      "loss": 1.06775532,
      "memory(GiB)": 112.26,
      "step": 18610,
      "train_speed(iter/s)": 1.130916
    },
    {
      "acc": 0.73357038,
      "epoch": 0.4722222222222222,
      "grad_norm": 3.359375,
      "learning_rate": 9.082544965259716e-06,
      "loss": 1.08116016,
      "memory(GiB)": 112.26,
      "step": 18615,
      "train_speed(iter/s)": 1.130949
    },
    {
      "acc": 0.73924131,
      "epoch": 0.47234906139015725,
      "grad_norm": 3.5625,
      "learning_rate": 9.081939470723619e-06,
      "loss": 1.07991238,
      "memory(GiB)": 112.26,
      "step": 18620,
      "train_speed(iter/s)": 1.130981
    },
    {
      "acc": 0.72550206,
      "epoch": 0.47247590055809235,
      "grad_norm": 4.5625,
      "learning_rate": 9.081333796645603e-06,
      "loss": 1.11426353,
      "memory(GiB)": 112.26,
      "step": 18625,
      "train_speed(iter/s)": 1.131034
    },
    {
      "acc": 0.73906403,
      "epoch": 0.4726027397260274,
      "grad_norm": 4.0,
      "learning_rate": 9.080727943052304e-06,
      "loss": 1.04199181,
      "memory(GiB)": 112.26,
      "step": 18630,
      "train_speed(iter/s)": 1.131092
    },
    {
      "acc": 0.72954073,
      "epoch": 0.47272957889396244,
      "grad_norm": 3.703125,
      "learning_rate": 9.080121909970369e-06,
      "loss": 1.11806831,
      "memory(GiB)": 112.26,
      "step": 18635,
      "train_speed(iter/s)": 1.13112
    },
    {
      "acc": 0.73601966,
      "epoch": 0.4728564180618975,
      "grad_norm": 4.125,
      "learning_rate": 9.079515697426457e-06,
      "loss": 1.0737628,
      "memory(GiB)": 112.26,
      "step": 18640,
      "train_speed(iter/s)": 1.131161
    },
    {
      "acc": 0.72903214,
      "epoch": 0.4729832572298326,
      "grad_norm": 3.84375,
      "learning_rate": 9.078909305447231e-06,
      "loss": 1.10403967,
      "memory(GiB)": 112.26,
      "step": 18645,
      "train_speed(iter/s)": 1.131189
    },
    {
      "acc": 0.74425354,
      "epoch": 0.47311009639776763,
      "grad_norm": 3.390625,
      "learning_rate": 9.078302734059363e-06,
      "loss": 1.01684685,
      "memory(GiB)": 112.26,
      "step": 18650,
      "train_speed(iter/s)": 1.131248
    },
    {
      "acc": 0.74372129,
      "epoch": 0.4732369355657027,
      "grad_norm": 4.0625,
      "learning_rate": 9.077695983289531e-06,
      "loss": 1.05537939,
      "memory(GiB)": 112.26,
      "step": 18655,
      "train_speed(iter/s)": 1.131282
    },
    {
      "acc": 0.72604556,
      "epoch": 0.4733637747336377,
      "grad_norm": 3.21875,
      "learning_rate": 9.077089053164426e-06,
      "loss": 1.09917612,
      "memory(GiB)": 112.26,
      "step": 18660,
      "train_speed(iter/s)": 1.131341
    },
    {
      "acc": 0.73697414,
      "epoch": 0.4734906139015728,
      "grad_norm": 3.421875,
      "learning_rate": 9.076481943710742e-06,
      "loss": 1.04129162,
      "memory(GiB)": 112.26,
      "step": 18665,
      "train_speed(iter/s)": 1.131367
    },
    {
      "acc": 0.72850766,
      "epoch": 0.47361745306950787,
      "grad_norm": 4.3125,
      "learning_rate": 9.075874654955178e-06,
      "loss": 1.09917049,
      "memory(GiB)": 112.26,
      "step": 18670,
      "train_speed(iter/s)": 1.131408
    },
    {
      "acc": 0.73448696,
      "epoch": 0.4737442922374429,
      "grad_norm": 3.1875,
      "learning_rate": 9.075267186924453e-06,
      "loss": 1.10228825,
      "memory(GiB)": 112.26,
      "step": 18675,
      "train_speed(iter/s)": 1.131459
    },
    {
      "acc": 0.72166352,
      "epoch": 0.47387113140537795,
      "grad_norm": 3.6875,
      "learning_rate": 9.074659539645281e-06,
      "loss": 1.07192688,
      "memory(GiB)": 112.26,
      "step": 18680,
      "train_speed(iter/s)": 1.131493
    },
    {
      "acc": 0.7166707,
      "epoch": 0.47399797057331305,
      "grad_norm": 3.796875,
      "learning_rate": 9.074051713144392e-06,
      "loss": 1.17435026,
      "memory(GiB)": 112.26,
      "step": 18685,
      "train_speed(iter/s)": 1.131546
    },
    {
      "acc": 0.73417659,
      "epoch": 0.4741248097412481,
      "grad_norm": 4.09375,
      "learning_rate": 9.073443707448517e-06,
      "loss": 1.11227951,
      "memory(GiB)": 112.26,
      "step": 18690,
      "train_speed(iter/s)": 1.131592
    },
    {
      "acc": 0.72023454,
      "epoch": 0.47425164890918314,
      "grad_norm": 4.28125,
      "learning_rate": 9.072835522584402e-06,
      "loss": 1.12518234,
      "memory(GiB)": 112.26,
      "step": 18695,
      "train_speed(iter/s)": 1.131644
    },
    {
      "acc": 0.73766537,
      "epoch": 0.4743784880771182,
      "grad_norm": 4.15625,
      "learning_rate": 9.072227158578798e-06,
      "loss": 1.05696716,
      "memory(GiB)": 112.26,
      "step": 18700,
      "train_speed(iter/s)": 1.131675
    },
    {
      "acc": 0.72698236,
      "epoch": 0.4745053272450533,
      "grad_norm": 4.25,
      "learning_rate": 9.07161861545846e-06,
      "loss": 1.07357578,
      "memory(GiB)": 112.26,
      "step": 18705,
      "train_speed(iter/s)": 1.131697
    },
    {
      "acc": 0.72271748,
      "epoch": 0.47463216641298833,
      "grad_norm": 4.5625,
      "learning_rate": 9.071009893250158e-06,
      "loss": 1.1659193,
      "memory(GiB)": 112.26,
      "step": 18710,
      "train_speed(iter/s)": 1.131751
    },
    {
      "acc": 0.730828,
      "epoch": 0.4747590055809234,
      "grad_norm": 3.9375,
      "learning_rate": 9.070400991980666e-06,
      "loss": 1.13500271,
      "memory(GiB)": 112.26,
      "step": 18715,
      "train_speed(iter/s)": 1.13178
    },
    {
      "acc": 0.74390821,
      "epoch": 0.4748858447488584,
      "grad_norm": 3.734375,
      "learning_rate": 9.069791911676765e-06,
      "loss": 1.08095083,
      "memory(GiB)": 112.26,
      "step": 18720,
      "train_speed(iter/s)": 1.131828
    },
    {
      "acc": 0.74341497,
      "epoch": 0.4750126839167935,
      "grad_norm": 3.578125,
      "learning_rate": 9.069182652365245e-06,
      "loss": 1.07723913,
      "memory(GiB)": 112.26,
      "step": 18725,
      "train_speed(iter/s)": 1.131879
    },
    {
      "acc": 0.72345676,
      "epoch": 0.47513952308472857,
      "grad_norm": 3.796875,
      "learning_rate": 9.068573214072904e-06,
      "loss": 1.21138763,
      "memory(GiB)": 112.26,
      "step": 18730,
      "train_speed(iter/s)": 1.131942
    },
    {
      "acc": 0.72030149,
      "epoch": 0.4752663622526636,
      "grad_norm": 3.25,
      "learning_rate": 9.067963596826547e-06,
      "loss": 1.13659782,
      "memory(GiB)": 112.26,
      "step": 18735,
      "train_speed(iter/s)": 1.131962
    },
    {
      "acc": 0.73504052,
      "epoch": 0.47539320142059865,
      "grad_norm": 3.53125,
      "learning_rate": 9.067353800652991e-06,
      "loss": 1.09478521,
      "memory(GiB)": 112.26,
      "step": 18740,
      "train_speed(iter/s)": 1.132011
    },
    {
      "acc": 0.7317986,
      "epoch": 0.47552004058853375,
      "grad_norm": 3.796875,
      "learning_rate": 9.066743825579056e-06,
      "loss": 1.0805109,
      "memory(GiB)": 112.26,
      "step": 18745,
      "train_speed(iter/s)": 1.132073
    },
    {
      "acc": 0.73909044,
      "epoch": 0.4756468797564688,
      "grad_norm": 4.09375,
      "learning_rate": 9.06613367163157e-06,
      "loss": 1.03695278,
      "memory(GiB)": 112.26,
      "step": 18750,
      "train_speed(iter/s)": 1.132111
    },
    {
      "acc": 0.72673349,
      "epoch": 0.47577371892440384,
      "grad_norm": 3.640625,
      "learning_rate": 9.06552333883737e-06,
      "loss": 1.08957043,
      "memory(GiB)": 112.26,
      "step": 18755,
      "train_speed(iter/s)": 1.132161
    },
    {
      "acc": 0.7294733,
      "epoch": 0.4759005580923389,
      "grad_norm": 4.15625,
      "learning_rate": 9.064912827223303e-06,
      "loss": 1.11201887,
      "memory(GiB)": 112.26,
      "step": 18760,
      "train_speed(iter/s)": 1.13221
    },
    {
      "acc": 0.73089857,
      "epoch": 0.476027397260274,
      "grad_norm": 3.40625,
      "learning_rate": 9.06430213681622e-06,
      "loss": 1.08943424,
      "memory(GiB)": 112.26,
      "step": 18765,
      "train_speed(iter/s)": 1.132243
    },
    {
      "acc": 0.7170608,
      "epoch": 0.47615423642820903,
      "grad_norm": 3.6875,
      "learning_rate": 9.063691267642987e-06,
      "loss": 1.17981339,
      "memory(GiB)": 112.26,
      "step": 18770,
      "train_speed(iter/s)": 1.132287
    },
    {
      "acc": 0.73054314,
      "epoch": 0.4762810755961441,
      "grad_norm": 3.625,
      "learning_rate": 9.063080219730467e-06,
      "loss": 1.12259064,
      "memory(GiB)": 112.26,
      "step": 18775,
      "train_speed(iter/s)": 1.132338
    },
    {
      "acc": 0.73363237,
      "epoch": 0.4764079147640791,
      "grad_norm": 3.84375,
      "learning_rate": 9.062468993105538e-06,
      "loss": 1.08864822,
      "memory(GiB)": 112.26,
      "step": 18780,
      "train_speed(iter/s)": 1.132383
    },
    {
      "acc": 0.75310764,
      "epoch": 0.4765347539320142,
      "grad_norm": 3.75,
      "learning_rate": 9.061857587795084e-06,
      "loss": 1.00300798,
      "memory(GiB)": 112.26,
      "step": 18785,
      "train_speed(iter/s)": 1.132438
    },
    {
      "acc": 0.73378901,
      "epoch": 0.47666159309994927,
      "grad_norm": 3.953125,
      "learning_rate": 9.061246003826e-06,
      "loss": 1.14569359,
      "memory(GiB)": 112.26,
      "step": 18790,
      "train_speed(iter/s)": 1.132432
    },
    {
      "acc": 0.72613983,
      "epoch": 0.4767884322678843,
      "grad_norm": 4.03125,
      "learning_rate": 9.060634241225184e-06,
      "loss": 1.13968639,
      "memory(GiB)": 112.26,
      "step": 18795,
      "train_speed(iter/s)": 1.132428
    },
    {
      "acc": 0.7296896,
      "epoch": 0.47691527143581935,
      "grad_norm": 3.71875,
      "learning_rate": 9.060022300019546e-06,
      "loss": 1.08866634,
      "memory(GiB)": 112.26,
      "step": 18800,
      "train_speed(iter/s)": 1.132486
    },
    {
      "acc": 0.74273887,
      "epoch": 0.47704211060375445,
      "grad_norm": 4.0,
      "learning_rate": 9.059410180236e-06,
      "loss": 1.06495466,
      "memory(GiB)": 112.26,
      "step": 18805,
      "train_speed(iter/s)": 1.132506
    },
    {
      "acc": 0.74122863,
      "epoch": 0.4771689497716895,
      "grad_norm": 3.25,
      "learning_rate": 9.058797881901469e-06,
      "loss": 1.07098427,
      "memory(GiB)": 112.26,
      "step": 18810,
      "train_speed(iter/s)": 1.132533
    },
    {
      "acc": 0.75176558,
      "epoch": 0.47729578893962454,
      "grad_norm": 4.125,
      "learning_rate": 9.058185405042886e-06,
      "loss": 1.00155468,
      "memory(GiB)": 112.26,
      "step": 18815,
      "train_speed(iter/s)": 1.132589
    },
    {
      "acc": 0.72884278,
      "epoch": 0.4774226281075596,
      "grad_norm": 3.375,
      "learning_rate": 9.05757274968719e-06,
      "loss": 1.15396481,
      "memory(GiB)": 112.26,
      "step": 18820,
      "train_speed(iter/s)": 1.132599
    },
    {
      "acc": 0.73647928,
      "epoch": 0.4775494672754947,
      "grad_norm": 3.84375,
      "learning_rate": 9.056959915861331e-06,
      "loss": 1.06391602,
      "memory(GiB)": 112.26,
      "step": 18825,
      "train_speed(iter/s)": 1.13265
    },
    {
      "acc": 0.73244295,
      "epoch": 0.47767630644342973,
      "grad_norm": 4.0,
      "learning_rate": 9.056346903592262e-06,
      "loss": 1.11179228,
      "memory(GiB)": 112.26,
      "step": 18830,
      "train_speed(iter/s)": 1.132676
    },
    {
      "acc": 0.72057662,
      "epoch": 0.4778031456113648,
      "grad_norm": 3.09375,
      "learning_rate": 9.055733712906943e-06,
      "loss": 1.09616547,
      "memory(GiB)": 112.26,
      "step": 18835,
      "train_speed(iter/s)": 1.132707
    },
    {
      "acc": 0.71862669,
      "epoch": 0.4779299847792998,
      "grad_norm": 3.796875,
      "learning_rate": 9.05512034383235e-06,
      "loss": 1.10693407,
      "memory(GiB)": 112.26,
      "step": 18840,
      "train_speed(iter/s)": 1.132726
    },
    {
      "acc": 0.72848601,
      "epoch": 0.4780568239472349,
      "grad_norm": 3.765625,
      "learning_rate": 9.054506796395458e-06,
      "loss": 1.0799015,
      "memory(GiB)": 112.26,
      "step": 18845,
      "train_speed(iter/s)": 1.132772
    },
    {
      "acc": 0.72553344,
      "epoch": 0.47818366311516997,
      "grad_norm": 3.859375,
      "learning_rate": 9.053893070623256e-06,
      "loss": 1.142768,
      "memory(GiB)": 112.26,
      "step": 18850,
      "train_speed(iter/s)": 1.132804
    },
    {
      "acc": 0.73497996,
      "epoch": 0.478310502283105,
      "grad_norm": 3.921875,
      "learning_rate": 9.053279166542738e-06,
      "loss": 1.12299633,
      "memory(GiB)": 112.26,
      "step": 18855,
      "train_speed(iter/s)": 1.132861
    },
    {
      "acc": 0.7504302,
      "epoch": 0.47843734145104005,
      "grad_norm": 3.96875,
      "learning_rate": 9.052665084180906e-06,
      "loss": 1.07703419,
      "memory(GiB)": 112.26,
      "step": 18860,
      "train_speed(iter/s)": 1.132912
    },
    {
      "acc": 0.73019376,
      "epoch": 0.47856418061897515,
      "grad_norm": 3.609375,
      "learning_rate": 9.052050823564767e-06,
      "loss": 1.09784355,
      "memory(GiB)": 112.26,
      "step": 18865,
      "train_speed(iter/s)": 1.13297
    },
    {
      "acc": 0.74122381,
      "epoch": 0.4786910197869102,
      "grad_norm": 3.296875,
      "learning_rate": 9.051436384721344e-06,
      "loss": 1.10386868,
      "memory(GiB)": 112.26,
      "step": 18870,
      "train_speed(iter/s)": 1.133004
    },
    {
      "acc": 0.7557539,
      "epoch": 0.47881785895484524,
      "grad_norm": 3.59375,
      "learning_rate": 9.05082176767766e-06,
      "loss": 1.01948547,
      "memory(GiB)": 112.26,
      "step": 18875,
      "train_speed(iter/s)": 1.133064
    },
    {
      "acc": 0.73396225,
      "epoch": 0.4789446981227803,
      "grad_norm": 2.921875,
      "learning_rate": 9.050206972460749e-06,
      "loss": 1.09527235,
      "memory(GiB)": 112.26,
      "step": 18880,
      "train_speed(iter/s)": 1.133126
    },
    {
      "acc": 0.73464828,
      "epoch": 0.4790715372907154,
      "grad_norm": 4.0,
      "learning_rate": 9.049591999097651e-06,
      "loss": 1.10778465,
      "memory(GiB)": 112.26,
      "step": 18885,
      "train_speed(iter/s)": 1.133157
    },
    {
      "acc": 0.7239152,
      "epoch": 0.47919837645865043,
      "grad_norm": 4.125,
      "learning_rate": 9.048976847615418e-06,
      "loss": 1.12096672,
      "memory(GiB)": 112.26,
      "step": 18890,
      "train_speed(iter/s)": 1.133199
    },
    {
      "acc": 0.72900662,
      "epoch": 0.4793252156265855,
      "grad_norm": 3.578125,
      "learning_rate": 9.048361518041107e-06,
      "loss": 1.1117281,
      "memory(GiB)": 112.26,
      "step": 18895,
      "train_speed(iter/s)": 1.133228
    },
    {
      "acc": 0.74106112,
      "epoch": 0.4794520547945205,
      "grad_norm": 3.140625,
      "learning_rate": 9.04774601040178e-06,
      "loss": 1.04724655,
      "memory(GiB)": 112.26,
      "step": 18900,
      "train_speed(iter/s)": 1.13329
    },
    {
      "acc": 0.73241148,
      "epoch": 0.4795788939624556,
      "grad_norm": 4.96875,
      "learning_rate": 9.047130324724513e-06,
      "loss": 1.0811986,
      "memory(GiB)": 112.26,
      "step": 18905,
      "train_speed(iter/s)": 1.133319
    },
    {
      "acc": 0.73258705,
      "epoch": 0.47970573313039067,
      "grad_norm": 5.875,
      "learning_rate": 9.046514461036385e-06,
      "loss": 1.09645824,
      "memory(GiB)": 112.26,
      "step": 18910,
      "train_speed(iter/s)": 1.133342
    },
    {
      "acc": 0.72128553,
      "epoch": 0.4798325722983257,
      "grad_norm": 3.328125,
      "learning_rate": 9.045898419364483e-06,
      "loss": 1.12469282,
      "memory(GiB)": 112.26,
      "step": 18915,
      "train_speed(iter/s)": 1.133388
    },
    {
      "acc": 0.74000025,
      "epoch": 0.47995941146626075,
      "grad_norm": 3.015625,
      "learning_rate": 9.045282199735906e-06,
      "loss": 1.04291096,
      "memory(GiB)": 112.26,
      "step": 18920,
      "train_speed(iter/s)": 1.133447
    },
    {
      "acc": 0.7186645,
      "epoch": 0.48008625063419585,
      "grad_norm": 4.03125,
      "learning_rate": 9.044665802177756e-06,
      "loss": 1.20153694,
      "memory(GiB)": 112.26,
      "step": 18925,
      "train_speed(iter/s)": 1.133498
    },
    {
      "acc": 0.73240638,
      "epoch": 0.4802130898021309,
      "grad_norm": 6.21875,
      "learning_rate": 9.044049226717148e-06,
      "loss": 1.09168806,
      "memory(GiB)": 112.26,
      "step": 18930,
      "train_speed(iter/s)": 1.133538
    },
    {
      "acc": 0.74606309,
      "epoch": 0.48033992897006594,
      "grad_norm": 3.625,
      "learning_rate": 9.043432473381198e-06,
      "loss": 1.07822876,
      "memory(GiB)": 112.26,
      "step": 18935,
      "train_speed(iter/s)": 1.133587
    },
    {
      "acc": 0.73683205,
      "epoch": 0.480466768138001,
      "grad_norm": 4.0,
      "learning_rate": 9.042815542197037e-06,
      "loss": 1.12428722,
      "memory(GiB)": 112.26,
      "step": 18940,
      "train_speed(iter/s)": 1.133618
    },
    {
      "acc": 0.72622147,
      "epoch": 0.4805936073059361,
      "grad_norm": 3.75,
      "learning_rate": 9.042198433191796e-06,
      "loss": 1.0773653,
      "memory(GiB)": 112.26,
      "step": 18945,
      "train_speed(iter/s)": 1.133628
    },
    {
      "acc": 0.7283112,
      "epoch": 0.48072044647387113,
      "grad_norm": 4.375,
      "learning_rate": 9.041581146392621e-06,
      "loss": 1.11501646,
      "memory(GiB)": 112.26,
      "step": 18950,
      "train_speed(iter/s)": 1.133625
    },
    {
      "acc": 0.73495317,
      "epoch": 0.4808472856418062,
      "grad_norm": 4.25,
      "learning_rate": 9.040963681826665e-06,
      "loss": 1.06990204,
      "memory(GiB)": 112.26,
      "step": 18955,
      "train_speed(iter/s)": 1.133692
    },
    {
      "acc": 0.73630791,
      "epoch": 0.4809741248097412,
      "grad_norm": 3.734375,
      "learning_rate": 9.040346039521085e-06,
      "loss": 1.08961277,
      "memory(GiB)": 112.26,
      "step": 18960,
      "train_speed(iter/s)": 1.133715
    },
    {
      "acc": 0.73782363,
      "epoch": 0.4811009639776763,
      "grad_norm": 3.5625,
      "learning_rate": 9.039728219503044e-06,
      "loss": 1.08786125,
      "memory(GiB)": 112.26,
      "step": 18965,
      "train_speed(iter/s)": 1.133757
    },
    {
      "acc": 0.74026971,
      "epoch": 0.48122780314561137,
      "grad_norm": 3.421875,
      "learning_rate": 9.039110221799721e-06,
      "loss": 1.05445919,
      "memory(GiB)": 112.26,
      "step": 18970,
      "train_speed(iter/s)": 1.133776
    },
    {
      "acc": 0.73295183,
      "epoch": 0.4813546423135464,
      "grad_norm": 3.625,
      "learning_rate": 9.038492046438298e-06,
      "loss": 1.11287651,
      "memory(GiB)": 112.26,
      "step": 18975,
      "train_speed(iter/s)": 1.133829
    },
    {
      "acc": 0.73311353,
      "epoch": 0.48148148148148145,
      "grad_norm": 4.34375,
      "learning_rate": 9.037873693445965e-06,
      "loss": 1.11147127,
      "memory(GiB)": 112.26,
      "step": 18980,
      "train_speed(iter/s)": 1.133847
    },
    {
      "acc": 0.74101944,
      "epoch": 0.48160832064941655,
      "grad_norm": 3.40625,
      "learning_rate": 9.037255162849918e-06,
      "loss": 1.06583338,
      "memory(GiB)": 112.26,
      "step": 18985,
      "train_speed(iter/s)": 1.133909
    },
    {
      "acc": 0.72942572,
      "epoch": 0.4817351598173516,
      "grad_norm": 3.71875,
      "learning_rate": 9.036636454677363e-06,
      "loss": 1.08264027,
      "memory(GiB)": 112.26,
      "step": 18990,
      "train_speed(iter/s)": 1.133949
    },
    {
      "acc": 0.72982244,
      "epoch": 0.48186199898528664,
      "grad_norm": 3.84375,
      "learning_rate": 9.036017568955516e-06,
      "loss": 1.11731119,
      "memory(GiB)": 112.26,
      "step": 18995,
      "train_speed(iter/s)": 1.133976
    },
    {
      "acc": 0.73020191,
      "epoch": 0.4819888381532217,
      "grad_norm": 3.0625,
      "learning_rate": 9.035398505711597e-06,
      "loss": 1.14166155,
      "memory(GiB)": 112.26,
      "step": 19000,
      "train_speed(iter/s)": 1.134028
    },
    {
      "epoch": 0.4819888381532217,
      "eval_acc": 0.7212558237636706,
      "eval_loss": 1.0676584243774414,
      "eval_runtime": 70.7341,
      "eval_samples_per_second": 90.056,
      "eval_steps_per_second": 22.521,
      "step": 19000
    },
    {
      "acc": 0.7264801,
      "epoch": 0.4821156773211568,
      "grad_norm": 4.15625,
      "learning_rate": 9.034779264972834e-06,
      "loss": 1.0695673,
      "memory(GiB)": 112.26,
      "step": 19005,
      "train_speed(iter/s)": 1.126329
    },
    {
      "acc": 0.72838926,
      "epoch": 0.48224251648909183,
      "grad_norm": 3.34375,
      "learning_rate": 9.034159846766464e-06,
      "loss": 1.09194231,
      "memory(GiB)": 112.26,
      "step": 19010,
      "train_speed(iter/s)": 1.126366
    },
    {
      "acc": 0.73938761,
      "epoch": 0.4823693556570269,
      "grad_norm": 3.78125,
      "learning_rate": 9.033540251119734e-06,
      "loss": 0.99518957,
      "memory(GiB)": 112.26,
      "step": 19015,
      "train_speed(iter/s)": 1.126425
    },
    {
      "acc": 0.74682884,
      "epoch": 0.4824961948249619,
      "grad_norm": 3.3125,
      "learning_rate": 9.032920478059897e-06,
      "loss": 1.06970186,
      "memory(GiB)": 112.26,
      "step": 19020,
      "train_speed(iter/s)": 1.126449
    },
    {
      "acc": 0.73007483,
      "epoch": 0.482623033992897,
      "grad_norm": 3.46875,
      "learning_rate": 9.032300527614209e-06,
      "loss": 1.13223982,
      "memory(GiB)": 112.26,
      "step": 19025,
      "train_speed(iter/s)": 1.126505
    },
    {
      "acc": 0.72748594,
      "epoch": 0.48274987316083207,
      "grad_norm": 3.75,
      "learning_rate": 9.031680399809941e-06,
      "loss": 1.11693153,
      "memory(GiB)": 112.26,
      "step": 19030,
      "train_speed(iter/s)": 1.126547
    },
    {
      "acc": 0.71486444,
      "epoch": 0.4828767123287671,
      "grad_norm": 3.390625,
      "learning_rate": 9.031060094674371e-06,
      "loss": 1.18988228,
      "memory(GiB)": 112.26,
      "step": 19035,
      "train_speed(iter/s)": 1.126594
    },
    {
      "acc": 0.72421389,
      "epoch": 0.48300355149670215,
      "grad_norm": 4.84375,
      "learning_rate": 9.030439612234778e-06,
      "loss": 1.08098545,
      "memory(GiB)": 112.26,
      "step": 19040,
      "train_speed(iter/s)": 1.126649
    },
    {
      "acc": 0.73874254,
      "epoch": 0.48313039066463725,
      "grad_norm": 3.46875,
      "learning_rate": 9.029818952518458e-06,
      "loss": 1.07829437,
      "memory(GiB)": 112.26,
      "step": 19045,
      "train_speed(iter/s)": 1.126702
    },
    {
      "acc": 0.74880667,
      "epoch": 0.4832572298325723,
      "grad_norm": 3.546875,
      "learning_rate": 9.029198115552708e-06,
      "loss": 1.03285465,
      "memory(GiB)": 112.26,
      "step": 19050,
      "train_speed(iter/s)": 1.126739
    },
    {
      "acc": 0.72938614,
      "epoch": 0.48338406900050734,
      "grad_norm": 3.625,
      "learning_rate": 9.028577101364837e-06,
      "loss": 1.06515808,
      "memory(GiB)": 112.26,
      "step": 19055,
      "train_speed(iter/s)": 1.126737
    },
    {
      "acc": 0.73283606,
      "epoch": 0.4835109081684424,
      "grad_norm": 3.921875,
      "learning_rate": 9.027955909982157e-06,
      "loss": 1.08391161,
      "memory(GiB)": 112.26,
      "step": 19060,
      "train_speed(iter/s)": 1.126797
    },
    {
      "acc": 0.75355673,
      "epoch": 0.4836377473363775,
      "grad_norm": 3.265625,
      "learning_rate": 9.027334541431993e-06,
      "loss": 0.99920311,
      "memory(GiB)": 112.26,
      "step": 19065,
      "train_speed(iter/s)": 1.126808
    },
    {
      "acc": 0.73683286,
      "epoch": 0.48376458650431253,
      "grad_norm": 5.03125,
      "learning_rate": 9.026712995741676e-06,
      "loss": 1.05312309,
      "memory(GiB)": 112.26,
      "step": 19070,
      "train_speed(iter/s)": 1.126867
    },
    {
      "acc": 0.7155653,
      "epoch": 0.4838914256722476,
      "grad_norm": 3.625,
      "learning_rate": 9.026091272938543e-06,
      "loss": 1.14329128,
      "memory(GiB)": 112.26,
      "step": 19075,
      "train_speed(iter/s)": 1.126894
    },
    {
      "acc": 0.73463316,
      "epoch": 0.4840182648401826,
      "grad_norm": 3.625,
      "learning_rate": 9.02546937304994e-06,
      "loss": 1.08573112,
      "memory(GiB)": 112.26,
      "step": 19080,
      "train_speed(iter/s)": 1.126952
    },
    {
      "acc": 0.72554736,
      "epoch": 0.4841451040081177,
      "grad_norm": 3.734375,
      "learning_rate": 9.02484729610322e-06,
      "loss": 1.11807652,
      "memory(GiB)": 112.26,
      "step": 19085,
      "train_speed(iter/s)": 1.127013
    },
    {
      "acc": 0.72084703,
      "epoch": 0.48427194317605277,
      "grad_norm": 3.625,
      "learning_rate": 9.02422504212575e-06,
      "loss": 1.13880272,
      "memory(GiB)": 112.26,
      "step": 19090,
      "train_speed(iter/s)": 1.12706
    },
    {
      "acc": 0.73642588,
      "epoch": 0.4843987823439878,
      "grad_norm": 3.203125,
      "learning_rate": 9.023602611144893e-06,
      "loss": 1.0806839,
      "memory(GiB)": 112.26,
      "step": 19095,
      "train_speed(iter/s)": 1.127107
    },
    {
      "acc": 0.7242238,
      "epoch": 0.48452562151192285,
      "grad_norm": 3.421875,
      "learning_rate": 9.02298000318803e-06,
      "loss": 1.08155918,
      "memory(GiB)": 112.26,
      "step": 19100,
      "train_speed(iter/s)": 1.127137
    },
    {
      "acc": 0.72868929,
      "epoch": 0.48465246067985795,
      "grad_norm": 3.90625,
      "learning_rate": 9.022357218282546e-06,
      "loss": 1.08839931,
      "memory(GiB)": 112.26,
      "step": 19105,
      "train_speed(iter/s)": 1.127176
    },
    {
      "acc": 0.72396688,
      "epoch": 0.484779299847793,
      "grad_norm": 3.796875,
      "learning_rate": 9.021734256455832e-06,
      "loss": 1.13725376,
      "memory(GiB)": 112.26,
      "step": 19110,
      "train_speed(iter/s)": 1.127234
    },
    {
      "acc": 0.75518317,
      "epoch": 0.48490613901572804,
      "grad_norm": 3.34375,
      "learning_rate": 9.02111111773529e-06,
      "loss": 1.04993153,
      "memory(GiB)": 112.26,
      "step": 19115,
      "train_speed(iter/s)": 1.127273
    },
    {
      "acc": 0.73058462,
      "epoch": 0.4850329781836631,
      "grad_norm": 3.890625,
      "learning_rate": 9.020487802148328e-06,
      "loss": 1.05110283,
      "memory(GiB)": 112.26,
      "step": 19120,
      "train_speed(iter/s)": 1.127336
    },
    {
      "acc": 0.72354655,
      "epoch": 0.4851598173515982,
      "grad_norm": 3.5625,
      "learning_rate": 9.019864309722362e-06,
      "loss": 1.11735401,
      "memory(GiB)": 112.26,
      "step": 19125,
      "train_speed(iter/s)": 1.127381
    },
    {
      "acc": 0.74125314,
      "epoch": 0.48528665651953323,
      "grad_norm": 3.3125,
      "learning_rate": 9.019240640484816e-06,
      "loss": 1.05565281,
      "memory(GiB)": 112.26,
      "step": 19130,
      "train_speed(iter/s)": 1.127421
    },
    {
      "acc": 0.7339426,
      "epoch": 0.4854134956874683,
      "grad_norm": 3.828125,
      "learning_rate": 9.018616794463124e-06,
      "loss": 1.04358225,
      "memory(GiB)": 112.26,
      "step": 19135,
      "train_speed(iter/s)": 1.127485
    },
    {
      "acc": 0.72568264,
      "epoch": 0.4855403348554033,
      "grad_norm": 3.296875,
      "learning_rate": 9.017992771684722e-06,
      "loss": 1.12257442,
      "memory(GiB)": 112.26,
      "step": 19140,
      "train_speed(iter/s)": 1.12753
    },
    {
      "acc": 0.72489314,
      "epoch": 0.4856671740233384,
      "grad_norm": 5.28125,
      "learning_rate": 9.017368572177058e-06,
      "loss": 1.07899656,
      "memory(GiB)": 112.26,
      "step": 19145,
      "train_speed(iter/s)": 1.127577
    },
    {
      "acc": 0.72948503,
      "epoch": 0.48579401319127347,
      "grad_norm": 4.28125,
      "learning_rate": 9.016744195967588e-06,
      "loss": 1.07727146,
      "memory(GiB)": 112.26,
      "step": 19150,
      "train_speed(iter/s)": 1.127618
    },
    {
      "acc": 0.74321136,
      "epoch": 0.4859208523592085,
      "grad_norm": 3.953125,
      "learning_rate": 9.016119643083777e-06,
      "loss": 1.10838461,
      "memory(GiB)": 112.26,
      "step": 19155,
      "train_speed(iter/s)": 1.127649
    },
    {
      "acc": 0.73312764,
      "epoch": 0.48604769152714355,
      "grad_norm": 4.125,
      "learning_rate": 9.015494913553091e-06,
      "loss": 1.0974987,
      "memory(GiB)": 112.26,
      "step": 19160,
      "train_speed(iter/s)": 1.12772
    },
    {
      "acc": 0.73285818,
      "epoch": 0.48617453069507865,
      "grad_norm": 3.40625,
      "learning_rate": 9.014870007403012e-06,
      "loss": 1.08467646,
      "memory(GiB)": 112.26,
      "step": 19165,
      "train_speed(iter/s)": 1.127793
    },
    {
      "acc": 0.72968178,
      "epoch": 0.4863013698630137,
      "grad_norm": 4.125,
      "learning_rate": 9.014244924661026e-06,
      "loss": 1.07510433,
      "memory(GiB)": 112.26,
      "step": 19170,
      "train_speed(iter/s)": 1.127823
    },
    {
      "acc": 0.72492476,
      "epoch": 0.48642820903094874,
      "grad_norm": 3.578125,
      "learning_rate": 9.013619665354626e-06,
      "loss": 1.10249729,
      "memory(GiB)": 112.26,
      "step": 19175,
      "train_speed(iter/s)": 1.127824
    },
    {
      "acc": 0.72203197,
      "epoch": 0.4865550481988838,
      "grad_norm": 3.953125,
      "learning_rate": 9.01299422951131e-06,
      "loss": 1.15198421,
      "memory(GiB)": 112.26,
      "step": 19180,
      "train_speed(iter/s)": 1.127884
    },
    {
      "acc": 0.729739,
      "epoch": 0.4866818873668189,
      "grad_norm": 3.609375,
      "learning_rate": 9.012368617158593e-06,
      "loss": 1.10008898,
      "memory(GiB)": 112.26,
      "step": 19185,
      "train_speed(iter/s)": 1.127927
    },
    {
      "acc": 0.72150397,
      "epoch": 0.48680872653475393,
      "grad_norm": 3.546875,
      "learning_rate": 9.01174282832399e-06,
      "loss": 1.12562275,
      "memory(GiB)": 112.26,
      "step": 19190,
      "train_speed(iter/s)": 1.127982
    },
    {
      "acc": 0.75008478,
      "epoch": 0.486935565702689,
      "grad_norm": 4.0,
      "learning_rate": 9.011116863035027e-06,
      "loss": 1.03140202,
      "memory(GiB)": 112.26,
      "step": 19195,
      "train_speed(iter/s)": 1.12798
    },
    {
      "acc": 0.7296145,
      "epoch": 0.487062404870624,
      "grad_norm": 3.71875,
      "learning_rate": 9.010490721319237e-06,
      "loss": 1.10394096,
      "memory(GiB)": 112.26,
      "step": 19200,
      "train_speed(iter/s)": 1.128033
    },
    {
      "acc": 0.7347023,
      "epoch": 0.4871892440385591,
      "grad_norm": 4.0625,
      "learning_rate": 9.009864403204157e-06,
      "loss": 1.06596489,
      "memory(GiB)": 112.26,
      "step": 19205,
      "train_speed(iter/s)": 1.12808
    },
    {
      "acc": 0.73019867,
      "epoch": 0.48731608320649417,
      "grad_norm": 3.328125,
      "learning_rate": 9.00923790871734e-06,
      "loss": 1.06878815,
      "memory(GiB)": 112.26,
      "step": 19210,
      "train_speed(iter/s)": 1.128131
    },
    {
      "acc": 0.7282095,
      "epoch": 0.4874429223744292,
      "grad_norm": 4.21875,
      "learning_rate": 9.008611237886339e-06,
      "loss": 1.14697819,
      "memory(GiB)": 112.26,
      "step": 19215,
      "train_speed(iter/s)": 1.128167
    },
    {
      "acc": 0.7318151,
      "epoch": 0.48756976154236426,
      "grad_norm": 4.4375,
      "learning_rate": 9.00798439073872e-06,
      "loss": 1.10775881,
      "memory(GiB)": 112.26,
      "step": 19220,
      "train_speed(iter/s)": 1.128206
    },
    {
      "acc": 0.72701206,
      "epoch": 0.48769660071029935,
      "grad_norm": 5.375,
      "learning_rate": 9.007357367302052e-06,
      "loss": 1.13792171,
      "memory(GiB)": 112.26,
      "step": 19225,
      "train_speed(iter/s)": 1.128265
    },
    {
      "acc": 0.7345386,
      "epoch": 0.4878234398782344,
      "grad_norm": 3.53125,
      "learning_rate": 9.006730167603914e-06,
      "loss": 1.13543005,
      "memory(GiB)": 112.26,
      "step": 19230,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.72756696,
      "epoch": 0.48795027904616944,
      "grad_norm": 3.921875,
      "learning_rate": 9.006102791671896e-06,
      "loss": 1.10762367,
      "memory(GiB)": 112.26,
      "step": 19235,
      "train_speed(iter/s)": 1.128327
    },
    {
      "acc": 0.73682814,
      "epoch": 0.4880771182141045,
      "grad_norm": 4.03125,
      "learning_rate": 9.005475239533591e-06,
      "loss": 1.10789623,
      "memory(GiB)": 112.26,
      "step": 19240,
      "train_speed(iter/s)": 1.128381
    },
    {
      "acc": 0.72210269,
      "epoch": 0.4882039573820396,
      "grad_norm": 4.625,
      "learning_rate": 9.0048475112166e-06,
      "loss": 1.10784969,
      "memory(GiB)": 112.26,
      "step": 19245,
      "train_speed(iter/s)": 1.12839
    },
    {
      "acc": 0.72333207,
      "epoch": 0.48833079654997463,
      "grad_norm": 3.625,
      "learning_rate": 9.00421960674854e-06,
      "loss": 1.10854759,
      "memory(GiB)": 112.26,
      "step": 19250,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.72439232,
      "epoch": 0.4884576357179097,
      "grad_norm": 3.828125,
      "learning_rate": 9.003591526157021e-06,
      "loss": 1.11414824,
      "memory(GiB)": 112.26,
      "step": 19255,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.72627811,
      "epoch": 0.4885844748858447,
      "grad_norm": 4.125,
      "learning_rate": 9.002963269469672e-06,
      "loss": 1.10795555,
      "memory(GiB)": 112.26,
      "step": 19260,
      "train_speed(iter/s)": 1.128523
    },
    {
      "acc": 0.74613614,
      "epoch": 0.4887113140537798,
      "grad_norm": 3.46875,
      "learning_rate": 9.002334836714126e-06,
      "loss": 1.04946175,
      "memory(GiB)": 112.26,
      "step": 19265,
      "train_speed(iter/s)": 1.128565
    },
    {
      "acc": 0.73463373,
      "epoch": 0.48883815322171487,
      "grad_norm": 3.484375,
      "learning_rate": 9.001706227918023e-06,
      "loss": 1.08878899,
      "memory(GiB)": 112.26,
      "step": 19270,
      "train_speed(iter/s)": 1.128591
    },
    {
      "acc": 0.7230206,
      "epoch": 0.4889649923896499,
      "grad_norm": 3.59375,
      "learning_rate": 9.001077443109016e-06,
      "loss": 1.1256237,
      "memory(GiB)": 112.26,
      "step": 19275,
      "train_speed(iter/s)": 1.128633
    },
    {
      "acc": 0.72050195,
      "epoch": 0.48909183155758496,
      "grad_norm": 3.359375,
      "learning_rate": 9.00044848231476e-06,
      "loss": 1.1223135,
      "memory(GiB)": 112.26,
      "step": 19280,
      "train_speed(iter/s)": 1.128667
    },
    {
      "acc": 0.74730883,
      "epoch": 0.48921867072552006,
      "grad_norm": 3.234375,
      "learning_rate": 8.999819345562919e-06,
      "loss": 1.05327702,
      "memory(GiB)": 112.26,
      "step": 19285,
      "train_speed(iter/s)": 1.128696
    },
    {
      "acc": 0.72566075,
      "epoch": 0.4893455098934551,
      "grad_norm": 3.671875,
      "learning_rate": 8.999190032881165e-06,
      "loss": 1.1478569,
      "memory(GiB)": 112.26,
      "step": 19290,
      "train_speed(iter/s)": 1.128742
    },
    {
      "acc": 0.74744101,
      "epoch": 0.48947234906139014,
      "grad_norm": 3.46875,
      "learning_rate": 8.998560544297176e-06,
      "loss": 1.03268404,
      "memory(GiB)": 112.26,
      "step": 19295,
      "train_speed(iter/s)": 1.128756
    },
    {
      "acc": 0.73098907,
      "epoch": 0.4895991882293252,
      "grad_norm": 3.390625,
      "learning_rate": 8.997930879838646e-06,
      "loss": 1.06152029,
      "memory(GiB)": 112.26,
      "step": 19300,
      "train_speed(iter/s)": 1.128766
    },
    {
      "acc": 0.73237867,
      "epoch": 0.4897260273972603,
      "grad_norm": 3.375,
      "learning_rate": 8.997301039533264e-06,
      "loss": 1.11089325,
      "memory(GiB)": 112.26,
      "step": 19305,
      "train_speed(iter/s)": 1.128823
    },
    {
      "acc": 0.72830572,
      "epoch": 0.48985286656519533,
      "grad_norm": 3.6875,
      "learning_rate": 8.996671023408737e-06,
      "loss": 1.10597439,
      "memory(GiB)": 112.26,
      "step": 19310,
      "train_speed(iter/s)": 1.128854
    },
    {
      "acc": 0.73563914,
      "epoch": 0.4899797057331304,
      "grad_norm": 3.453125,
      "learning_rate": 8.996040831492772e-06,
      "loss": 1.10730209,
      "memory(GiB)": 112.26,
      "step": 19315,
      "train_speed(iter/s)": 1.128872
    },
    {
      "acc": 0.71592264,
      "epoch": 0.4901065449010654,
      "grad_norm": 3.328125,
      "learning_rate": 8.995410463813093e-06,
      "loss": 1.09394493,
      "memory(GiB)": 112.26,
      "step": 19320,
      "train_speed(iter/s)": 1.128924
    },
    {
      "acc": 0.73500805,
      "epoch": 0.4902333840690005,
      "grad_norm": 3.171875,
      "learning_rate": 8.99477992039742e-06,
      "loss": 1.06904182,
      "memory(GiB)": 112.26,
      "step": 19325,
      "train_speed(iter/s)": 1.128973
    },
    {
      "acc": 0.73791232,
      "epoch": 0.49036022323693557,
      "grad_norm": 4.5625,
      "learning_rate": 8.994149201273495e-06,
      "loss": 1.07726002,
      "memory(GiB)": 112.26,
      "step": 19330,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.72876081,
      "epoch": 0.4904870624048706,
      "grad_norm": 4.125,
      "learning_rate": 8.993518306469052e-06,
      "loss": 1.06228809,
      "memory(GiB)": 112.26,
      "step": 19335,
      "train_speed(iter/s)": 1.12907
    },
    {
      "acc": 0.70384278,
      "epoch": 0.49061390157280566,
      "grad_norm": 4.375,
      "learning_rate": 8.992887236011847e-06,
      "loss": 1.18286161,
      "memory(GiB)": 112.26,
      "step": 19340,
      "train_speed(iter/s)": 1.129105
    },
    {
      "acc": 0.71853824,
      "epoch": 0.49074074074074076,
      "grad_norm": 3.578125,
      "learning_rate": 8.992255989929632e-06,
      "loss": 1.13220901,
      "memory(GiB)": 112.26,
      "step": 19345,
      "train_speed(iter/s)": 1.129168
    },
    {
      "acc": 0.73944321,
      "epoch": 0.4908675799086758,
      "grad_norm": 3.3125,
      "learning_rate": 8.991624568250175e-06,
      "loss": 1.05998917,
      "memory(GiB)": 112.26,
      "step": 19350,
      "train_speed(iter/s)": 1.129178
    },
    {
      "acc": 0.72493,
      "epoch": 0.49099441907661084,
      "grad_norm": 4.125,
      "learning_rate": 8.99099297100125e-06,
      "loss": 1.16400661,
      "memory(GiB)": 112.26,
      "step": 19355,
      "train_speed(iter/s)": 1.129234
    },
    {
      "acc": 0.74906759,
      "epoch": 0.4911212582445459,
      "grad_norm": 5.25,
      "learning_rate": 8.990361198210634e-06,
      "loss": 1.08466444,
      "memory(GiB)": 112.26,
      "step": 19360,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.72114258,
      "epoch": 0.491248097412481,
      "grad_norm": 3.1875,
      "learning_rate": 8.989729249906116e-06,
      "loss": 1.16794605,
      "memory(GiB)": 112.26,
      "step": 19365,
      "train_speed(iter/s)": 1.129277
    },
    {
      "acc": 0.73389397,
      "epoch": 0.49137493658041603,
      "grad_norm": 3.515625,
      "learning_rate": 8.989097126115493e-06,
      "loss": 1.08710403,
      "memory(GiB)": 112.26,
      "step": 19370,
      "train_speed(iter/s)": 1.129332
    },
    {
      "acc": 0.72577825,
      "epoch": 0.4915017757483511,
      "grad_norm": 3.296875,
      "learning_rate": 8.98846482686657e-06,
      "loss": 1.15007334,
      "memory(GiB)": 112.26,
      "step": 19375,
      "train_speed(iter/s)": 1.129384
    },
    {
      "acc": 0.73431358,
      "epoch": 0.4916286149162861,
      "grad_norm": 3.921875,
      "learning_rate": 8.987832352187156e-06,
      "loss": 1.10836267,
      "memory(GiB)": 112.26,
      "step": 19380,
      "train_speed(iter/s)": 1.129443
    },
    {
      "acc": 0.72989774,
      "epoch": 0.4917554540842212,
      "grad_norm": 3.765625,
      "learning_rate": 8.987199702105071e-06,
      "loss": 1.14634771,
      "memory(GiB)": 112.26,
      "step": 19385,
      "train_speed(iter/s)": 1.129469
    },
    {
      "acc": 0.72632837,
      "epoch": 0.49188229325215627,
      "grad_norm": 3.734375,
      "learning_rate": 8.986566876648141e-06,
      "loss": 1.15066881,
      "memory(GiB)": 112.26,
      "step": 19390,
      "train_speed(iter/s)": 1.129532
    },
    {
      "acc": 0.73084178,
      "epoch": 0.4920091324200913,
      "grad_norm": 4.25,
      "learning_rate": 8.985933875844202e-06,
      "loss": 1.10394058,
      "memory(GiB)": 112.26,
      "step": 19395,
      "train_speed(iter/s)": 1.12958
    },
    {
      "acc": 0.75760317,
      "epoch": 0.49213597158802636,
      "grad_norm": 3.4375,
      "learning_rate": 8.985300699721094e-06,
      "loss": 1.04524765,
      "memory(GiB)": 112.26,
      "step": 19400,
      "train_speed(iter/s)": 1.129621
    },
    {
      "acc": 0.7414278,
      "epoch": 0.49226281075596146,
      "grad_norm": 3.828125,
      "learning_rate": 8.984667348306669e-06,
      "loss": 1.11770506,
      "memory(GiB)": 112.26,
      "step": 19405,
      "train_speed(iter/s)": 1.12966
    },
    {
      "acc": 0.74016647,
      "epoch": 0.4923896499238965,
      "grad_norm": 3.625,
      "learning_rate": 8.984033821628782e-06,
      "loss": 1.06348705,
      "memory(GiB)": 112.26,
      "step": 19410,
      "train_speed(iter/s)": 1.129713
    },
    {
      "acc": 0.75052795,
      "epoch": 0.49251648909183154,
      "grad_norm": 3.640625,
      "learning_rate": 8.983400119715303e-06,
      "loss": 1.02577763,
      "memory(GiB)": 112.26,
      "step": 19415,
      "train_speed(iter/s)": 1.129772
    },
    {
      "acc": 0.73915906,
      "epoch": 0.4926433282597666,
      "grad_norm": 3.796875,
      "learning_rate": 8.982766242594099e-06,
      "loss": 1.06370382,
      "memory(GiB)": 112.26,
      "step": 19420,
      "train_speed(iter/s)": 1.129781
    },
    {
      "acc": 0.74452734,
      "epoch": 0.4927701674277017,
      "grad_norm": 4.59375,
      "learning_rate": 8.982132190293056e-06,
      "loss": 1.10042715,
      "memory(GiB)": 112.26,
      "step": 19425,
      "train_speed(iter/s)": 1.129831
    },
    {
      "acc": 0.73958168,
      "epoch": 0.49289700659563673,
      "grad_norm": 3.9375,
      "learning_rate": 8.98149796284006e-06,
      "loss": 1.05677872,
      "memory(GiB)": 112.26,
      "step": 19430,
      "train_speed(iter/s)": 1.12984
    },
    {
      "acc": 0.74053125,
      "epoch": 0.4930238457635718,
      "grad_norm": 4.34375,
      "learning_rate": 8.980863560263007e-06,
      "loss": 1.08041325,
      "memory(GiB)": 112.26,
      "step": 19435,
      "train_speed(iter/s)": 1.129884
    },
    {
      "acc": 0.72827139,
      "epoch": 0.4931506849315068,
      "grad_norm": 3.671875,
      "learning_rate": 8.980228982589802e-06,
      "loss": 1.10435801,
      "memory(GiB)": 112.26,
      "step": 19440,
      "train_speed(iter/s)": 1.129856
    },
    {
      "acc": 0.74381523,
      "epoch": 0.4932775240994419,
      "grad_norm": 3.46875,
      "learning_rate": 8.979594229848355e-06,
      "loss": 1.09117718,
      "memory(GiB)": 112.26,
      "step": 19445,
      "train_speed(iter/s)": 1.1299
    },
    {
      "acc": 0.72997112,
      "epoch": 0.49340436326737697,
      "grad_norm": 3.515625,
      "learning_rate": 8.978959302066587e-06,
      "loss": 1.11420517,
      "memory(GiB)": 112.26,
      "step": 19450,
      "train_speed(iter/s)": 1.129965
    },
    {
      "acc": 0.73350134,
      "epoch": 0.493531202435312,
      "grad_norm": 3.015625,
      "learning_rate": 8.978324199272423e-06,
      "loss": 1.09431734,
      "memory(GiB)": 112.26,
      "step": 19455,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.74458237,
      "epoch": 0.49365804160324706,
      "grad_norm": 4.375,
      "learning_rate": 8.977688921493799e-06,
      "loss": 1.0535511,
      "memory(GiB)": 112.26,
      "step": 19460,
      "train_speed(iter/s)": 1.13005
    },
    {
      "acc": 0.73751335,
      "epoch": 0.49378488077118216,
      "grad_norm": 3.40625,
      "learning_rate": 8.977053468758659e-06,
      "loss": 1.07620382,
      "memory(GiB)": 112.26,
      "step": 19465,
      "train_speed(iter/s)": 1.13011
    },
    {
      "acc": 0.7361866,
      "epoch": 0.4939117199391172,
      "grad_norm": 3.84375,
      "learning_rate": 8.976417841094949e-06,
      "loss": 1.10669022,
      "memory(GiB)": 112.26,
      "step": 19470,
      "train_speed(iter/s)": 1.13016
    },
    {
      "acc": 0.73711567,
      "epoch": 0.49403855910705224,
      "grad_norm": 3.859375,
      "learning_rate": 8.97578203853063e-06,
      "loss": 1.10714798,
      "memory(GiB)": 112.26,
      "step": 19475,
      "train_speed(iter/s)": 1.130199
    },
    {
      "acc": 0.73147035,
      "epoch": 0.4941653982749873,
      "grad_norm": 3.265625,
      "learning_rate": 8.975146061093667e-06,
      "loss": 1.09044304,
      "memory(GiB)": 112.26,
      "step": 19480,
      "train_speed(iter/s)": 1.130254
    },
    {
      "acc": 0.72137995,
      "epoch": 0.4942922374429224,
      "grad_norm": 3.421875,
      "learning_rate": 8.97450990881203e-06,
      "loss": 1.16463432,
      "memory(GiB)": 112.26,
      "step": 19485,
      "train_speed(iter/s)": 1.13031
    },
    {
      "acc": 0.74101157,
      "epoch": 0.49441907661085743,
      "grad_norm": 5.78125,
      "learning_rate": 8.973873581713705e-06,
      "loss": 1.08979263,
      "memory(GiB)": 112.26,
      "step": 19490,
      "train_speed(iter/s)": 1.130352
    },
    {
      "acc": 0.74156733,
      "epoch": 0.4945459157787925,
      "grad_norm": 3.609375,
      "learning_rate": 8.973237079826676e-06,
      "loss": 1.11767826,
      "memory(GiB)": 112.26,
      "step": 19495,
      "train_speed(iter/s)": 1.130388
    },
    {
      "acc": 0.7305563,
      "epoch": 0.4946727549467275,
      "grad_norm": 4.46875,
      "learning_rate": 8.972600403178941e-06,
      "loss": 1.10536709,
      "memory(GiB)": 112.26,
      "step": 19500,
      "train_speed(iter/s)": 1.130409
    },
    {
      "acc": 0.738726,
      "epoch": 0.4947995941146626,
      "grad_norm": 4.0625,
      "learning_rate": 8.971963551798506e-06,
      "loss": 1.04614563,
      "memory(GiB)": 112.26,
      "step": 19505,
      "train_speed(iter/s)": 1.13045
    },
    {
      "acc": 0.73862953,
      "epoch": 0.49492643328259767,
      "grad_norm": 3.828125,
      "learning_rate": 8.971326525713378e-06,
      "loss": 1.03538589,
      "memory(GiB)": 112.26,
      "step": 19510,
      "train_speed(iter/s)": 1.130504
    },
    {
      "acc": 0.73362551,
      "epoch": 0.4950532724505327,
      "grad_norm": 4.03125,
      "learning_rate": 8.97068932495158e-06,
      "loss": 1.09656096,
      "memory(GiB)": 112.26,
      "step": 19515,
      "train_speed(iter/s)": 1.130541
    },
    {
      "acc": 0.72851238,
      "epoch": 0.49518011161846776,
      "grad_norm": 5.59375,
      "learning_rate": 8.970051949541137e-06,
      "loss": 1.10219345,
      "memory(GiB)": 112.26,
      "step": 19520,
      "train_speed(iter/s)": 1.130586
    },
    {
      "acc": 0.72824306,
      "epoch": 0.49530695078640286,
      "grad_norm": 3.859375,
      "learning_rate": 8.969414399510085e-06,
      "loss": 1.11098738,
      "memory(GiB)": 112.26,
      "step": 19525,
      "train_speed(iter/s)": 1.130632
    },
    {
      "acc": 0.740557,
      "epoch": 0.4954337899543379,
      "grad_norm": 3.59375,
      "learning_rate": 8.968776674886466e-06,
      "loss": 1.12332764,
      "memory(GiB)": 112.26,
      "step": 19530,
      "train_speed(iter/s)": 1.130675
    },
    {
      "acc": 0.72507515,
      "epoch": 0.49556062912227294,
      "grad_norm": 5.34375,
      "learning_rate": 8.968138775698328e-06,
      "loss": 1.15271473,
      "memory(GiB)": 112.26,
      "step": 19535,
      "train_speed(iter/s)": 1.130744
    },
    {
      "acc": 0.743152,
      "epoch": 0.495687468290208,
      "grad_norm": 4.0,
      "learning_rate": 8.96750070197373e-06,
      "loss": 1.07261286,
      "memory(GiB)": 112.26,
      "step": 19540,
      "train_speed(iter/s)": 1.130795
    },
    {
      "acc": 0.72671642,
      "epoch": 0.4958143074581431,
      "grad_norm": 4.0,
      "learning_rate": 8.966862453740738e-06,
      "loss": 1.09319801,
      "memory(GiB)": 112.26,
      "step": 19545,
      "train_speed(iter/s)": 1.130856
    },
    {
      "acc": 0.7328938,
      "epoch": 0.49594114662607813,
      "grad_norm": 3.328125,
      "learning_rate": 8.966224031027426e-06,
      "loss": 1.12906199,
      "memory(GiB)": 112.26,
      "step": 19550,
      "train_speed(iter/s)": 1.130874
    },
    {
      "acc": 0.73311119,
      "epoch": 0.4960679857940132,
      "grad_norm": 3.625,
      "learning_rate": 8.965585433861871e-06,
      "loss": 1.09219484,
      "memory(GiB)": 112.26,
      "step": 19555,
      "train_speed(iter/s)": 1.13093
    },
    {
      "acc": 0.7353303,
      "epoch": 0.4961948249619482,
      "grad_norm": 3.953125,
      "learning_rate": 8.964946662272167e-06,
      "loss": 1.08509445,
      "memory(GiB)": 112.26,
      "step": 19560,
      "train_speed(iter/s)": 1.130976
    },
    {
      "acc": 0.74739618,
      "epoch": 0.4963216641298833,
      "grad_norm": 3.609375,
      "learning_rate": 8.964307716286404e-06,
      "loss": 1.04715672,
      "memory(GiB)": 112.26,
      "step": 19565,
      "train_speed(iter/s)": 1.13101
    },
    {
      "acc": 0.73460112,
      "epoch": 0.49644850329781837,
      "grad_norm": 3.828125,
      "learning_rate": 8.963668595932689e-06,
      "loss": 1.12570982,
      "memory(GiB)": 112.26,
      "step": 19570,
      "train_speed(iter/s)": 1.131041
    },
    {
      "acc": 0.72968202,
      "epoch": 0.4965753424657534,
      "grad_norm": 3.65625,
      "learning_rate": 8.96302930123913e-06,
      "loss": 1.11137962,
      "memory(GiB)": 112.26,
      "step": 19575,
      "train_speed(iter/s)": 1.131088
    },
    {
      "acc": 0.74221649,
      "epoch": 0.49670218163368846,
      "grad_norm": 3.46875,
      "learning_rate": 8.962389832233853e-06,
      "loss": 1.08482189,
      "memory(GiB)": 112.26,
      "step": 19580,
      "train_speed(iter/s)": 1.131134
    },
    {
      "acc": 0.73046331,
      "epoch": 0.49682902080162356,
      "grad_norm": 5.03125,
      "learning_rate": 8.961750188944978e-06,
      "loss": 1.15194702,
      "memory(GiB)": 112.26,
      "step": 19585,
      "train_speed(iter/s)": 1.131188
    },
    {
      "acc": 0.72620239,
      "epoch": 0.4969558599695586,
      "grad_norm": 3.703125,
      "learning_rate": 8.96111037140064e-06,
      "loss": 1.09160633,
      "memory(GiB)": 112.26,
      "step": 19590,
      "train_speed(iter/s)": 1.131186
    },
    {
      "acc": 0.73569326,
      "epoch": 0.49708269913749364,
      "grad_norm": 3.015625,
      "learning_rate": 8.960470379628986e-06,
      "loss": 1.04755039,
      "memory(GiB)": 112.26,
      "step": 19595,
      "train_speed(iter/s)": 1.13123
    },
    {
      "acc": 0.7271318,
      "epoch": 0.4972095383054287,
      "grad_norm": 4.0,
      "learning_rate": 8.959830213658161e-06,
      "loss": 1.09536085,
      "memory(GiB)": 112.26,
      "step": 19600,
      "train_speed(iter/s)": 1.131263
    },
    {
      "acc": 0.73134408,
      "epoch": 0.4973363774733638,
      "grad_norm": 3.59375,
      "learning_rate": 8.959189873516324e-06,
      "loss": 1.14332714,
      "memory(GiB)": 112.26,
      "step": 19605,
      "train_speed(iter/s)": 1.131289
    },
    {
      "acc": 0.71964474,
      "epoch": 0.49746321664129883,
      "grad_norm": 3.4375,
      "learning_rate": 8.95854935923164e-06,
      "loss": 1.15263786,
      "memory(GiB)": 112.26,
      "step": 19610,
      "train_speed(iter/s)": 1.131337
    },
    {
      "acc": 0.73839502,
      "epoch": 0.4975900558092339,
      "grad_norm": 4.34375,
      "learning_rate": 8.95790867083228e-06,
      "loss": 1.15868778,
      "memory(GiB)": 112.26,
      "step": 19615,
      "train_speed(iter/s)": 1.131381
    },
    {
      "acc": 0.7216475,
      "epoch": 0.4977168949771689,
      "grad_norm": 4.21875,
      "learning_rate": 8.957267808346428e-06,
      "loss": 1.12389927,
      "memory(GiB)": 112.26,
      "step": 19620,
      "train_speed(iter/s)": 1.131377
    },
    {
      "acc": 0.73835573,
      "epoch": 0.497843734145104,
      "grad_norm": 3.359375,
      "learning_rate": 8.95662677180227e-06,
      "loss": 1.08518066,
      "memory(GiB)": 112.26,
      "step": 19625,
      "train_speed(iter/s)": 1.131421
    },
    {
      "acc": 0.74450703,
      "epoch": 0.49797057331303907,
      "grad_norm": 3.75,
      "learning_rate": 8.955985561228e-06,
      "loss": 1.06651945,
      "memory(GiB)": 112.26,
      "step": 19630,
      "train_speed(iter/s)": 1.131442
    },
    {
      "acc": 0.73779726,
      "epoch": 0.4980974124809741,
      "grad_norm": 4.25,
      "learning_rate": 8.955344176651824e-06,
      "loss": 1.09813766,
      "memory(GiB)": 112.26,
      "step": 19635,
      "train_speed(iter/s)": 1.131479
    },
    {
      "acc": 0.74384613,
      "epoch": 0.49822425164890916,
      "grad_norm": 4.5,
      "learning_rate": 8.954702618101952e-06,
      "loss": 1.0679738,
      "memory(GiB)": 112.26,
      "step": 19640,
      "train_speed(iter/s)": 1.131506
    },
    {
      "acc": 0.72542725,
      "epoch": 0.49835109081684426,
      "grad_norm": 4.5,
      "learning_rate": 8.9540608856066e-06,
      "loss": 1.09576941,
      "memory(GiB)": 112.26,
      "step": 19645,
      "train_speed(iter/s)": 1.13154
    },
    {
      "acc": 0.72212653,
      "epoch": 0.4984779299847793,
      "grad_norm": 5.125,
      "learning_rate": 8.953418979194e-06,
      "loss": 1.18030243,
      "memory(GiB)": 112.26,
      "step": 19650,
      "train_speed(iter/s)": 1.131559
    },
    {
      "acc": 0.73363271,
      "epoch": 0.49860476915271434,
      "grad_norm": 3.71875,
      "learning_rate": 8.95277689889238e-06,
      "loss": 1.06992044,
      "memory(GiB)": 112.26,
      "step": 19655,
      "train_speed(iter/s)": 1.131609
    },
    {
      "acc": 0.71804276,
      "epoch": 0.4987316083206494,
      "grad_norm": 4.21875,
      "learning_rate": 8.952134644729985e-06,
      "loss": 1.12248859,
      "memory(GiB)": 112.26,
      "step": 19660,
      "train_speed(iter/s)": 1.13161
    },
    {
      "acc": 0.73588767,
      "epoch": 0.4988584474885845,
      "grad_norm": 3.9375,
      "learning_rate": 8.951492216735062e-06,
      "loss": 1.10983791,
      "memory(GiB)": 112.26,
      "step": 19665,
      "train_speed(iter/s)": 1.131657
    },
    {
      "acc": 0.72067871,
      "epoch": 0.49898528665651953,
      "grad_norm": 3.796875,
      "learning_rate": 8.950849614935872e-06,
      "loss": 1.1444315,
      "memory(GiB)": 112.26,
      "step": 19670,
      "train_speed(iter/s)": 1.1317
    },
    {
      "acc": 0.7267621,
      "epoch": 0.4991121258244546,
      "grad_norm": 4.34375,
      "learning_rate": 8.950206839360674e-06,
      "loss": 1.15956125,
      "memory(GiB)": 112.26,
      "step": 19675,
      "train_speed(iter/s)": 1.131739
    },
    {
      "acc": 0.72550659,
      "epoch": 0.4992389649923896,
      "grad_norm": 3.078125,
      "learning_rate": 8.949563890037745e-06,
      "loss": 1.1274827,
      "memory(GiB)": 112.26,
      "step": 19680,
      "train_speed(iter/s)": 1.131782
    },
    {
      "acc": 0.72152414,
      "epoch": 0.4993658041603247,
      "grad_norm": 3.640625,
      "learning_rate": 8.948920766995362e-06,
      "loss": 1.13874731,
      "memory(GiB)": 112.26,
      "step": 19685,
      "train_speed(iter/s)": 1.131839
    },
    {
      "acc": 0.72957277,
      "epoch": 0.49949264332825977,
      "grad_norm": 4.1875,
      "learning_rate": 8.948277470261812e-06,
      "loss": 1.09388685,
      "memory(GiB)": 112.26,
      "step": 19690,
      "train_speed(iter/s)": 1.131865
    },
    {
      "acc": 0.71782708,
      "epoch": 0.4996194824961948,
      "grad_norm": 3.953125,
      "learning_rate": 8.94763399986539e-06,
      "loss": 1.1367835,
      "memory(GiB)": 112.26,
      "step": 19695,
      "train_speed(iter/s)": 1.131893
    },
    {
      "acc": 0.73831735,
      "epoch": 0.49974632166412986,
      "grad_norm": 3.125,
      "learning_rate": 8.946990355834401e-06,
      "loss": 1.06557636,
      "memory(GiB)": 112.26,
      "step": 19700,
      "train_speed(iter/s)": 1.131946
    },
    {
      "acc": 0.74052339,
      "epoch": 0.49987316083206496,
      "grad_norm": 3.609375,
      "learning_rate": 8.946346538197156e-06,
      "loss": 1.05837784,
      "memory(GiB)": 112.26,
      "step": 19705,
      "train_speed(iter/s)": 1.131994
    },
    {
      "acc": 0.72396393,
      "epoch": 0.5,
      "grad_norm": 3.484375,
      "learning_rate": 8.94570254698197e-06,
      "loss": 1.12881432,
      "memory(GiB)": 112.26,
      "step": 19710,
      "train_speed(iter/s)": 1.132014
    },
    {
      "acc": 0.72901607,
      "epoch": 0.5001268391679351,
      "grad_norm": 3.484375,
      "learning_rate": 8.945058382217168e-06,
      "loss": 1.11446323,
      "memory(GiB)": 112.26,
      "step": 19715,
      "train_speed(iter/s)": 1.132063
    },
    {
      "acc": 0.72113004,
      "epoch": 0.5002536783358701,
      "grad_norm": 3.625,
      "learning_rate": 8.944414043931086e-06,
      "loss": 1.13688946,
      "memory(GiB)": 112.26,
      "step": 19720,
      "train_speed(iter/s)": 1.132112
    },
    {
      "acc": 0.73374848,
      "epoch": 0.5003805175038052,
      "grad_norm": 2.921875,
      "learning_rate": 8.943769532152065e-06,
      "loss": 1.06607437,
      "memory(GiB)": 112.26,
      "step": 19725,
      "train_speed(iter/s)": 1.132142
    },
    {
      "acc": 0.73101368,
      "epoch": 0.5005073566717403,
      "grad_norm": 3.71875,
      "learning_rate": 8.94312484690845e-06,
      "loss": 1.10032864,
      "memory(GiB)": 112.26,
      "step": 19730,
      "train_speed(iter/s)": 1.132192
    },
    {
      "acc": 0.72847533,
      "epoch": 0.5006341958396753,
      "grad_norm": 3.703125,
      "learning_rate": 8.9424799882286e-06,
      "loss": 1.1134161,
      "memory(GiB)": 112.26,
      "step": 19735,
      "train_speed(iter/s)": 1.132232
    },
    {
      "acc": 0.74108553,
      "epoch": 0.5007610350076104,
      "grad_norm": 3.015625,
      "learning_rate": 8.94183495614088e-06,
      "loss": 1.08484077,
      "memory(GiB)": 112.26,
      "step": 19740,
      "train_speed(iter/s)": 1.132254
    },
    {
      "acc": 0.74093876,
      "epoch": 0.5008878741755454,
      "grad_norm": 3.546875,
      "learning_rate": 8.941189750673658e-06,
      "loss": 1.05594339,
      "memory(GiB)": 112.26,
      "step": 19745,
      "train_speed(iter/s)": 1.132274
    },
    {
      "acc": 0.73138952,
      "epoch": 0.5010147133434805,
      "grad_norm": 3.4375,
      "learning_rate": 8.940544371855315e-06,
      "loss": 1.09071426,
      "memory(GiB)": 112.26,
      "step": 19750,
      "train_speed(iter/s)": 1.132324
    },
    {
      "acc": 0.73865442,
      "epoch": 0.5011415525114156,
      "grad_norm": 3.765625,
      "learning_rate": 8.939898819714237e-06,
      "loss": 1.01973648,
      "memory(GiB)": 112.26,
      "step": 19755,
      "train_speed(iter/s)": 1.132363
    },
    {
      "acc": 0.72792883,
      "epoch": 0.5012683916793506,
      "grad_norm": 3.234375,
      "learning_rate": 8.93925309427882e-06,
      "loss": 1.06930733,
      "memory(GiB)": 112.26,
      "step": 19760,
      "train_speed(iter/s)": 1.132422
    },
    {
      "acc": 0.72721119,
      "epoch": 0.5013952308472857,
      "grad_norm": 3.71875,
      "learning_rate": 8.938607195577462e-06,
      "loss": 1.13119354,
      "memory(GiB)": 112.26,
      "step": 19765,
      "train_speed(iter/s)": 1.132451
    },
    {
      "acc": 0.72826476,
      "epoch": 0.5015220700152208,
      "grad_norm": 3.5,
      "learning_rate": 8.937961123638577e-06,
      "loss": 1.13994808,
      "memory(GiB)": 112.26,
      "step": 19770,
      "train_speed(iter/s)": 1.132507
    },
    {
      "acc": 0.72735052,
      "epoch": 0.5016489091831557,
      "grad_norm": 3.875,
      "learning_rate": 8.93731487849058e-06,
      "loss": 1.11823444,
      "memory(GiB)": 112.26,
      "step": 19775,
      "train_speed(iter/s)": 1.132546
    },
    {
      "acc": 0.7243721,
      "epoch": 0.5017757483510908,
      "grad_norm": 4.84375,
      "learning_rate": 8.936668460161895e-06,
      "loss": 1.13384819,
      "memory(GiB)": 112.26,
      "step": 19780,
      "train_speed(iter/s)": 1.132592
    },
    {
      "acc": 0.73524256,
      "epoch": 0.5019025875190258,
      "grad_norm": 4.25,
      "learning_rate": 8.936021868680956e-06,
      "loss": 1.15074949,
      "memory(GiB)": 112.26,
      "step": 19785,
      "train_speed(iter/s)": 1.132584
    },
    {
      "acc": 0.72790179,
      "epoch": 0.5020294266869609,
      "grad_norm": 4.125,
      "learning_rate": 8.935375104076201e-06,
      "loss": 1.15489311,
      "memory(GiB)": 112.26,
      "step": 19790,
      "train_speed(iter/s)": 1.132626
    },
    {
      "acc": 0.73459001,
      "epoch": 0.502156265854896,
      "grad_norm": 3.765625,
      "learning_rate": 8.93472816637608e-06,
      "loss": 1.06824865,
      "memory(GiB)": 112.26,
      "step": 19795,
      "train_speed(iter/s)": 1.13268
    },
    {
      "acc": 0.73754048,
      "epoch": 0.502283105022831,
      "grad_norm": 3.8125,
      "learning_rate": 8.934081055609046e-06,
      "loss": 1.10183792,
      "memory(GiB)": 112.26,
      "step": 19800,
      "train_speed(iter/s)": 1.132726
    },
    {
      "acc": 0.74375496,
      "epoch": 0.5024099441907661,
      "grad_norm": 3.65625,
      "learning_rate": 8.933433771803562e-06,
      "loss": 1.05788774,
      "memory(GiB)": 112.26,
      "step": 19805,
      "train_speed(iter/s)": 1.132727
    },
    {
      "acc": 0.7356144,
      "epoch": 0.5025367833587012,
      "grad_norm": 3.609375,
      "learning_rate": 8.932786314988099e-06,
      "loss": 1.0947504,
      "memory(GiB)": 112.26,
      "step": 19810,
      "train_speed(iter/s)": 1.132745
    },
    {
      "acc": 0.73795075,
      "epoch": 0.5026636225266362,
      "grad_norm": 4.59375,
      "learning_rate": 8.932138685191136e-06,
      "loss": 1.09076443,
      "memory(GiB)": 112.26,
      "step": 19815,
      "train_speed(iter/s)": 1.132793
    },
    {
      "acc": 0.74186897,
      "epoch": 0.5027904616945713,
      "grad_norm": 3.953125,
      "learning_rate": 8.931490882441159e-06,
      "loss": 1.06941738,
      "memory(GiB)": 112.26,
      "step": 19820,
      "train_speed(iter/s)": 1.132819
    },
    {
      "acc": 0.72253108,
      "epoch": 0.5029173008625063,
      "grad_norm": 4.78125,
      "learning_rate": 8.930842906766659e-06,
      "loss": 1.13707809,
      "memory(GiB)": 112.26,
      "step": 19825,
      "train_speed(iter/s)": 1.132856
    },
    {
      "acc": 0.73094783,
      "epoch": 0.5030441400304414,
      "grad_norm": 4.125,
      "learning_rate": 8.930194758196138e-06,
      "loss": 1.08735399,
      "memory(GiB)": 112.26,
      "step": 19830,
      "train_speed(iter/s)": 1.132867
    },
    {
      "acc": 0.7212534,
      "epoch": 0.5031709791983765,
      "grad_norm": 3.484375,
      "learning_rate": 8.929546436758105e-06,
      "loss": 1.15032291,
      "memory(GiB)": 112.26,
      "step": 19835,
      "train_speed(iter/s)": 1.1329
    },
    {
      "acc": 0.73513651,
      "epoch": 0.5032978183663115,
      "grad_norm": 3.25,
      "learning_rate": 8.928897942481075e-06,
      "loss": 1.05947895,
      "memory(GiB)": 112.26,
      "step": 19840,
      "train_speed(iter/s)": 1.132923
    },
    {
      "acc": 0.72425056,
      "epoch": 0.5034246575342466,
      "grad_norm": 4.90625,
      "learning_rate": 8.928249275393572e-06,
      "loss": 1.08134212,
      "memory(GiB)": 112.26,
      "step": 19845,
      "train_speed(iter/s)": 1.132965
    },
    {
      "acc": 0.735531,
      "epoch": 0.5035514967021817,
      "grad_norm": 3.6875,
      "learning_rate": 8.927600435524129e-06,
      "loss": 1.05581951,
      "memory(GiB)": 112.26,
      "step": 19850,
      "train_speed(iter/s)": 1.132988
    },
    {
      "acc": 0.73680506,
      "epoch": 0.5036783358701167,
      "grad_norm": 3.953125,
      "learning_rate": 8.926951422901282e-06,
      "loss": 1.10689297,
      "memory(GiB)": 112.26,
      "step": 19855,
      "train_speed(iter/s)": 1.13303
    },
    {
      "acc": 0.74121208,
      "epoch": 0.5038051750380518,
      "grad_norm": 4.9375,
      "learning_rate": 8.926302237553578e-06,
      "loss": 1.06054325,
      "memory(GiB)": 112.26,
      "step": 19860,
      "train_speed(iter/s)": 1.133061
    },
    {
      "acc": 0.73237805,
      "epoch": 0.5039320142059868,
      "grad_norm": 4.25,
      "learning_rate": 8.925652879509575e-06,
      "loss": 1.09546509,
      "memory(GiB)": 112.26,
      "step": 19865,
      "train_speed(iter/s)": 1.133096
    },
    {
      "acc": 0.73979292,
      "epoch": 0.5040588533739219,
      "grad_norm": 4.59375,
      "learning_rate": 8.925003348797829e-06,
      "loss": 1.14725571,
      "memory(GiB)": 112.26,
      "step": 19870,
      "train_speed(iter/s)": 1.133149
    },
    {
      "acc": 0.73070803,
      "epoch": 0.504185692541857,
      "grad_norm": 3.40625,
      "learning_rate": 8.924353645446912e-06,
      "loss": 1.05595741,
      "memory(GiB)": 112.26,
      "step": 19875,
      "train_speed(iter/s)": 1.133188
    },
    {
      "acc": 0.7304069,
      "epoch": 0.504312531709792,
      "grad_norm": 4.0,
      "learning_rate": 8.923703769485403e-06,
      "loss": 1.10584021,
      "memory(GiB)": 112.26,
      "step": 19880,
      "train_speed(iter/s)": 1.133243
    },
    {
      "acc": 0.7282136,
      "epoch": 0.5044393708777271,
      "grad_norm": 4.0625,
      "learning_rate": 8.92305372094188e-06,
      "loss": 1.11905146,
      "memory(GiB)": 112.26,
      "step": 19885,
      "train_speed(iter/s)": 1.133298
    },
    {
      "acc": 0.74223027,
      "epoch": 0.5045662100456622,
      "grad_norm": 4.4375,
      "learning_rate": 8.922403499844943e-06,
      "loss": 1.06375208,
      "memory(GiB)": 112.26,
      "step": 19890,
      "train_speed(iter/s)": 1.133325
    },
    {
      "acc": 0.73238029,
      "epoch": 0.5046930492135971,
      "grad_norm": 3.984375,
      "learning_rate": 8.921753106223186e-06,
      "loss": 1.07520456,
      "memory(GiB)": 112.26,
      "step": 19895,
      "train_speed(iter/s)": 1.133384
    },
    {
      "acc": 0.70754466,
      "epoch": 0.5048198883815322,
      "grad_norm": 3.765625,
      "learning_rate": 8.92110254010522e-06,
      "loss": 1.23588619,
      "memory(GiB)": 112.26,
      "step": 19900,
      "train_speed(iter/s)": 1.133427
    },
    {
      "acc": 0.72306499,
      "epoch": 0.5049467275494672,
      "grad_norm": 3.078125,
      "learning_rate": 8.920451801519656e-06,
      "loss": 1.1528348,
      "memory(GiB)": 112.26,
      "step": 19905,
      "train_speed(iter/s)": 1.133471
    },
    {
      "acc": 0.7321475,
      "epoch": 0.5050735667174023,
      "grad_norm": 4.3125,
      "learning_rate": 8.919800890495118e-06,
      "loss": 1.08149357,
      "memory(GiB)": 112.26,
      "step": 19910,
      "train_speed(iter/s)": 1.133488
    },
    {
      "acc": 0.72032828,
      "epoch": 0.5052004058853374,
      "grad_norm": 3.484375,
      "learning_rate": 8.919149807060237e-06,
      "loss": 1.1682723,
      "memory(GiB)": 112.26,
      "step": 19915,
      "train_speed(iter/s)": 1.133501
    },
    {
      "acc": 0.72822242,
      "epoch": 0.5053272450532724,
      "grad_norm": 3.734375,
      "learning_rate": 8.918498551243649e-06,
      "loss": 1.12683582,
      "memory(GiB)": 112.26,
      "step": 19920,
      "train_speed(iter/s)": 1.133543
    },
    {
      "acc": 0.73200717,
      "epoch": 0.5054540842212075,
      "grad_norm": 3.375,
      "learning_rate": 8.917847123073999e-06,
      "loss": 1.09582062,
      "memory(GiB)": 112.26,
      "step": 19925,
      "train_speed(iter/s)": 1.133579
    },
    {
      "acc": 0.72831273,
      "epoch": 0.5055809233891426,
      "grad_norm": 5.1875,
      "learning_rate": 8.917195522579943e-06,
      "loss": 1.06601086,
      "memory(GiB)": 112.26,
      "step": 19930,
      "train_speed(iter/s)": 1.133612
    },
    {
      "acc": 0.73200774,
      "epoch": 0.5057077625570776,
      "grad_norm": 3.9375,
      "learning_rate": 8.916543749790139e-06,
      "loss": 1.1191061,
      "memory(GiB)": 112.26,
      "step": 19935,
      "train_speed(iter/s)": 1.133649
    },
    {
      "acc": 0.73148875,
      "epoch": 0.5058346017250127,
      "grad_norm": 4.875,
      "learning_rate": 8.915891804733253e-06,
      "loss": 1.14083805,
      "memory(GiB)": 112.26,
      "step": 19940,
      "train_speed(iter/s)": 1.133709
    },
    {
      "acc": 0.73805237,
      "epoch": 0.5059614408929477,
      "grad_norm": 3.578125,
      "learning_rate": 8.915239687437963e-06,
      "loss": 1.07858295,
      "memory(GiB)": 112.26,
      "step": 19945,
      "train_speed(iter/s)": 1.133733
    },
    {
      "acc": 0.73165827,
      "epoch": 0.5060882800608828,
      "grad_norm": 3.34375,
      "learning_rate": 8.91458739793295e-06,
      "loss": 1.0801487,
      "memory(GiB)": 112.26,
      "step": 19950,
      "train_speed(iter/s)": 1.133762
    },
    {
      "acc": 0.72966986,
      "epoch": 0.5062151192288179,
      "grad_norm": 3.75,
      "learning_rate": 8.913934936246907e-06,
      "loss": 1.1345623,
      "memory(GiB)": 112.26,
      "step": 19955,
      "train_speed(iter/s)": 1.13382
    },
    {
      "acc": 0.71743164,
      "epoch": 0.5063419583967529,
      "grad_norm": 3.90625,
      "learning_rate": 8.91328230240853e-06,
      "loss": 1.16239262,
      "memory(GiB)": 112.26,
      "step": 19960,
      "train_speed(iter/s)": 1.133849
    },
    {
      "acc": 0.73705168,
      "epoch": 0.506468797564688,
      "grad_norm": 3.890625,
      "learning_rate": 8.912629496446528e-06,
      "loss": 1.02544079,
      "memory(GiB)": 112.26,
      "step": 19965,
      "train_speed(iter/s)": 1.133898
    },
    {
      "acc": 0.73659673,
      "epoch": 0.5065956367326231,
      "grad_norm": 5.09375,
      "learning_rate": 8.911976518389612e-06,
      "loss": 1.03659716,
      "memory(GiB)": 112.26,
      "step": 19970,
      "train_speed(iter/s)": 1.133915
    },
    {
      "acc": 0.74821739,
      "epoch": 0.5067224759005581,
      "grad_norm": 3.953125,
      "learning_rate": 8.9113233682665e-06,
      "loss": 1.06757021,
      "memory(GiB)": 112.26,
      "step": 19975,
      "train_speed(iter/s)": 1.133969
    },
    {
      "acc": 0.73353748,
      "epoch": 0.5068493150684932,
      "grad_norm": 3.34375,
      "learning_rate": 8.910670046105927e-06,
      "loss": 1.07625046,
      "memory(GiB)": 112.26,
      "step": 19980,
      "train_speed(iter/s)": 1.133995
    },
    {
      "acc": 0.73055391,
      "epoch": 0.5069761542364282,
      "grad_norm": 3.9375,
      "learning_rate": 8.910016551936623e-06,
      "loss": 1.1038538,
      "memory(GiB)": 112.26,
      "step": 19985,
      "train_speed(iter/s)": 1.134009
    },
    {
      "acc": 0.72324576,
      "epoch": 0.5071029934043633,
      "grad_norm": 3.90625,
      "learning_rate": 8.909362885787333e-06,
      "loss": 1.12384987,
      "memory(GiB)": 112.26,
      "step": 19990,
      "train_speed(iter/s)": 1.134033
    },
    {
      "acc": 0.72296238,
      "epoch": 0.5072298325722984,
      "grad_norm": 3.546875,
      "learning_rate": 8.908709047686813e-06,
      "loss": 1.15797052,
      "memory(GiB)": 112.26,
      "step": 19995,
      "train_speed(iter/s)": 1.134058
    },
    {
      "acc": 0.73834662,
      "epoch": 0.5073566717402334,
      "grad_norm": 4.53125,
      "learning_rate": 8.908055037663815e-06,
      "loss": 1.08734875,
      "memory(GiB)": 112.26,
      "step": 20000,
      "train_speed(iter/s)": 1.134109
    },
    {
      "epoch": 0.5073566717402334,
      "eval_acc": 0.7217340458633789,
      "eval_loss": 1.0654373168945312,
      "eval_runtime": 70.9165,
      "eval_samples_per_second": 89.824,
      "eval_steps_per_second": 22.463,
      "step": 20000
    },
    {
      "acc": 0.74105778,
      "epoch": 0.5074835109081685,
      "grad_norm": 4.125,
      "learning_rate": 8.907400855747111e-06,
      "loss": 1.1032855,
      "memory(GiB)": 112.26,
      "step": 20005,
      "train_speed(iter/s)": 1.126806
    },
    {
      "acc": 0.7008112,
      "epoch": 0.5076103500761036,
      "grad_norm": 3.515625,
      "learning_rate": 8.906746501965468e-06,
      "loss": 1.20220795,
      "memory(GiB)": 112.26,
      "step": 20010,
      "train_speed(iter/s)": 1.126833
    },
    {
      "acc": 0.74677329,
      "epoch": 0.5077371892440385,
      "grad_norm": 4.4375,
      "learning_rate": 8.906091976347675e-06,
      "loss": 1.02853203,
      "memory(GiB)": 112.26,
      "step": 20015,
      "train_speed(iter/s)": 1.126868
    },
    {
      "acc": 0.72162929,
      "epoch": 0.5078640284119736,
      "grad_norm": 3.46875,
      "learning_rate": 8.905437278922516e-06,
      "loss": 1.0929287,
      "memory(GiB)": 112.26,
      "step": 20020,
      "train_speed(iter/s)": 1.126892
    },
    {
      "acc": 0.73262815,
      "epoch": 0.5079908675799086,
      "grad_norm": 4.15625,
      "learning_rate": 8.90478240971879e-06,
      "loss": 1.07165051,
      "memory(GiB)": 112.26,
      "step": 20025,
      "train_speed(iter/s)": 1.126951
    },
    {
      "acc": 0.73351974,
      "epoch": 0.5081177067478437,
      "grad_norm": 3.546875,
      "learning_rate": 8.904127368765298e-06,
      "loss": 1.10764418,
      "memory(GiB)": 112.26,
      "step": 20030,
      "train_speed(iter/s)": 1.126964
    },
    {
      "acc": 0.72864408,
      "epoch": 0.5082445459157788,
      "grad_norm": 4.34375,
      "learning_rate": 8.903472156090856e-06,
      "loss": 1.09505844,
      "memory(GiB)": 112.26,
      "step": 20035,
      "train_speed(iter/s)": 1.127029
    },
    {
      "acc": 0.73302612,
      "epoch": 0.5083713850837138,
      "grad_norm": 3.546875,
      "learning_rate": 8.902816771724279e-06,
      "loss": 1.04518099,
      "memory(GiB)": 112.26,
      "step": 20040,
      "train_speed(iter/s)": 1.127081
    },
    {
      "acc": 0.73199611,
      "epoch": 0.5084982242516489,
      "grad_norm": 3.46875,
      "learning_rate": 8.902161215694396e-06,
      "loss": 1.07425203,
      "memory(GiB)": 112.26,
      "step": 20045,
      "train_speed(iter/s)": 1.127131
    },
    {
      "acc": 0.73545413,
      "epoch": 0.508625063419584,
      "grad_norm": 3.75,
      "learning_rate": 8.901505488030042e-06,
      "loss": 1.09596043,
      "memory(GiB)": 112.26,
      "step": 20050,
      "train_speed(iter/s)": 1.127173
    },
    {
      "acc": 0.70875721,
      "epoch": 0.508751902587519,
      "grad_norm": 4.0,
      "learning_rate": 8.900849588760057e-06,
      "loss": 1.0931921,
      "memory(GiB)": 112.26,
      "step": 20055,
      "train_speed(iter/s)": 1.127217
    },
    {
      "acc": 0.70961137,
      "epoch": 0.5088787417554541,
      "grad_norm": 3.765625,
      "learning_rate": 8.90019351791329e-06,
      "loss": 1.14869251,
      "memory(GiB)": 112.26,
      "step": 20060,
      "train_speed(iter/s)": 1.127255
    },
    {
      "acc": 0.73538303,
      "epoch": 0.5090055809233891,
      "grad_norm": 4.75,
      "learning_rate": 8.8995372755186e-06,
      "loss": 1.06322088,
      "memory(GiB)": 112.26,
      "step": 20065,
      "train_speed(iter/s)": 1.127301
    },
    {
      "acc": 0.72868838,
      "epoch": 0.5091324200913242,
      "grad_norm": 5.40625,
      "learning_rate": 8.89888086160485e-06,
      "loss": 1.07363853,
      "memory(GiB)": 112.26,
      "step": 20070,
      "train_speed(iter/s)": 1.127341
    },
    {
      "acc": 0.72639399,
      "epoch": 0.5092592592592593,
      "grad_norm": 3.75,
      "learning_rate": 8.898224276200913e-06,
      "loss": 1.13334064,
      "memory(GiB)": 112.26,
      "step": 20075,
      "train_speed(iter/s)": 1.127396
    },
    {
      "acc": 0.7370575,
      "epoch": 0.5093860984271943,
      "grad_norm": 3.390625,
      "learning_rate": 8.897567519335669e-06,
      "loss": 1.08597708,
      "memory(GiB)": 112.26,
      "step": 20080,
      "train_speed(iter/s)": 1.127427
    },
    {
      "acc": 0.73470793,
      "epoch": 0.5095129375951294,
      "grad_norm": 3.90625,
      "learning_rate": 8.896910591038002e-06,
      "loss": 1.05575705,
      "memory(GiB)": 112.26,
      "step": 20085,
      "train_speed(iter/s)": 1.127467
    },
    {
      "acc": 0.71627927,
      "epoch": 0.5096397767630645,
      "grad_norm": 5.0625,
      "learning_rate": 8.896253491336809e-06,
      "loss": 1.15078459,
      "memory(GiB)": 112.26,
      "step": 20090,
      "train_speed(iter/s)": 1.127532
    },
    {
      "acc": 0.72137513,
      "epoch": 0.5097666159309995,
      "grad_norm": 3.890625,
      "learning_rate": 8.895596220260993e-06,
      "loss": 1.09968061,
      "memory(GiB)": 112.26,
      "step": 20095,
      "train_speed(iter/s)": 1.12755
    },
    {
      "acc": 0.73002825,
      "epoch": 0.5098934550989346,
      "grad_norm": 4.34375,
      "learning_rate": 8.894938777839462e-06,
      "loss": 1.11970406,
      "memory(GiB)": 112.26,
      "step": 20100,
      "train_speed(iter/s)": 1.127568
    },
    {
      "acc": 0.73849359,
      "epoch": 0.5100202942668696,
      "grad_norm": 3.703125,
      "learning_rate": 8.894281164101134e-06,
      "loss": 1.08183727,
      "memory(GiB)": 112.26,
      "step": 20105,
      "train_speed(iter/s)": 1.127594
    },
    {
      "acc": 0.71253452,
      "epoch": 0.5101471334348047,
      "grad_norm": 3.203125,
      "learning_rate": 8.893623379074934e-06,
      "loss": 1.10703354,
      "memory(GiB)": 112.26,
      "step": 20110,
      "train_speed(iter/s)": 1.127612
    },
    {
      "acc": 0.73230567,
      "epoch": 0.5102739726027398,
      "grad_norm": 3.59375,
      "learning_rate": 8.892965422789793e-06,
      "loss": 1.1189785,
      "memory(GiB)": 112.26,
      "step": 20115,
      "train_speed(iter/s)": 1.127662
    },
    {
      "acc": 0.73743382,
      "epoch": 0.5104008117706748,
      "grad_norm": 4.1875,
      "learning_rate": 8.892307295274654e-06,
      "loss": 1.11122246,
      "memory(GiB)": 112.26,
      "step": 20120,
      "train_speed(iter/s)": 1.12771
    },
    {
      "acc": 0.73128896,
      "epoch": 0.5105276509386099,
      "grad_norm": 4.03125,
      "learning_rate": 8.89164899655846e-06,
      "loss": 1.10532017,
      "memory(GiB)": 112.26,
      "step": 20125,
      "train_speed(iter/s)": 1.127759
    },
    {
      "acc": 0.74898262,
      "epoch": 0.510654490106545,
      "grad_norm": 3.78125,
      "learning_rate": 8.89099052667017e-06,
      "loss": 1.02668514,
      "memory(GiB)": 112.26,
      "step": 20130,
      "train_speed(iter/s)": 1.12779
    },
    {
      "acc": 0.73023477,
      "epoch": 0.51078132927448,
      "grad_norm": 3.484375,
      "learning_rate": 8.890331885638744e-06,
      "loss": 1.10684052,
      "memory(GiB)": 112.26,
      "step": 20135,
      "train_speed(iter/s)": 1.12784
    },
    {
      "acc": 0.73410306,
      "epoch": 0.510908168442415,
      "grad_norm": 3.203125,
      "learning_rate": 8.889673073493151e-06,
      "loss": 1.07629623,
      "memory(GiB)": 112.26,
      "step": 20140,
      "train_speed(iter/s)": 1.127887
    },
    {
      "acc": 0.73521471,
      "epoch": 0.51103500761035,
      "grad_norm": 4.09375,
      "learning_rate": 8.889014090262371e-06,
      "loss": 1.16136475,
      "memory(GiB)": 112.26,
      "step": 20145,
      "train_speed(iter/s)": 1.127909
    },
    {
      "acc": 0.7291173,
      "epoch": 0.5111618467782851,
      "grad_norm": 3.609375,
      "learning_rate": 8.888354935975388e-06,
      "loss": 1.06097956,
      "memory(GiB)": 112.26,
      "step": 20150,
      "train_speed(iter/s)": 1.127899
    },
    {
      "acc": 0.73476748,
      "epoch": 0.5112886859462202,
      "grad_norm": 2.953125,
      "learning_rate": 8.887695610661196e-06,
      "loss": 1.07560091,
      "memory(GiB)": 112.26,
      "step": 20155,
      "train_speed(iter/s)": 1.127915
    },
    {
      "acc": 0.73801556,
      "epoch": 0.5114155251141552,
      "grad_norm": 3.515625,
      "learning_rate": 8.887036114348792e-06,
      "loss": 1.11957712,
      "memory(GiB)": 112.26,
      "step": 20160,
      "train_speed(iter/s)": 1.127957
    },
    {
      "acc": 0.74279566,
      "epoch": 0.5115423642820903,
      "grad_norm": 3.53125,
      "learning_rate": 8.886376447067186e-06,
      "loss": 1.10329285,
      "memory(GiB)": 112.26,
      "step": 20165,
      "train_speed(iter/s)": 1.128013
    },
    {
      "acc": 0.73201203,
      "epoch": 0.5116692034500254,
      "grad_norm": 4.28125,
      "learning_rate": 8.885716608845394e-06,
      "loss": 1.10006933,
      "memory(GiB)": 112.26,
      "step": 20170,
      "train_speed(iter/s)": 1.12806
    },
    {
      "acc": 0.74080229,
      "epoch": 0.5117960426179604,
      "grad_norm": 3.09375,
      "learning_rate": 8.885056599712436e-06,
      "loss": 1.05748301,
      "memory(GiB)": 112.26,
      "step": 20175,
      "train_speed(iter/s)": 1.128089
    },
    {
      "acc": 0.72739949,
      "epoch": 0.5119228817858955,
      "grad_norm": 3.953125,
      "learning_rate": 8.884396419697343e-06,
      "loss": 1.10664978,
      "memory(GiB)": 112.26,
      "step": 20180,
      "train_speed(iter/s)": 1.128129
    },
    {
      "acc": 0.72705841,
      "epoch": 0.5120497209538305,
      "grad_norm": 3.8125,
      "learning_rate": 8.883736068829151e-06,
      "loss": 1.08253002,
      "memory(GiB)": 112.26,
      "step": 20185,
      "train_speed(iter/s)": 1.128184
    },
    {
      "acc": 0.73168221,
      "epoch": 0.5121765601217656,
      "grad_norm": 3.65625,
      "learning_rate": 8.88307554713691e-06,
      "loss": 1.08436327,
      "memory(GiB)": 112.26,
      "step": 20190,
      "train_speed(iter/s)": 1.128216
    },
    {
      "acc": 0.74439602,
      "epoch": 0.5123033992897007,
      "grad_norm": 3.578125,
      "learning_rate": 8.882414854649667e-06,
      "loss": 1.08506622,
      "memory(GiB)": 112.26,
      "step": 20195,
      "train_speed(iter/s)": 1.128259
    },
    {
      "acc": 0.73893609,
      "epoch": 0.5124302384576357,
      "grad_norm": 3.5625,
      "learning_rate": 8.881753991396488e-06,
      "loss": 1.11798782,
      "memory(GiB)": 112.26,
      "step": 20200,
      "train_speed(iter/s)": 1.128302
    },
    {
      "acc": 0.73752141,
      "epoch": 0.5125570776255708,
      "grad_norm": 3.828125,
      "learning_rate": 8.881092957406436e-06,
      "loss": 1.06575994,
      "memory(GiB)": 112.26,
      "step": 20205,
      "train_speed(iter/s)": 1.128342
    },
    {
      "acc": 0.739925,
      "epoch": 0.5126839167935059,
      "grad_norm": 3.953125,
      "learning_rate": 8.880431752708588e-06,
      "loss": 1.03045273,
      "memory(GiB)": 112.26,
      "step": 20210,
      "train_speed(iter/s)": 1.128338
    },
    {
      "acc": 0.74641132,
      "epoch": 0.5128107559614409,
      "grad_norm": 3.921875,
      "learning_rate": 8.879770377332026e-06,
      "loss": 1.03596249,
      "memory(GiB)": 112.26,
      "step": 20215,
      "train_speed(iter/s)": 1.128384
    },
    {
      "acc": 0.73453012,
      "epoch": 0.512937595129376,
      "grad_norm": 4.3125,
      "learning_rate": 8.879108831305842e-06,
      "loss": 1.09279642,
      "memory(GiB)": 112.26,
      "step": 20220,
      "train_speed(iter/s)": 1.128111
    },
    {
      "acc": 0.72868748,
      "epoch": 0.513064434297311,
      "grad_norm": 3.84375,
      "learning_rate": 8.878447114659131e-06,
      "loss": 1.1072463,
      "memory(GiB)": 112.26,
      "step": 20225,
      "train_speed(iter/s)": 1.128152
    },
    {
      "acc": 0.74752655,
      "epoch": 0.5131912734652461,
      "grad_norm": 4.8125,
      "learning_rate": 8.877785227421003e-06,
      "loss": 1.00107088,
      "memory(GiB)": 112.26,
      "step": 20230,
      "train_speed(iter/s)": 1.128198
    },
    {
      "acc": 0.75108662,
      "epoch": 0.5133181126331812,
      "grad_norm": 3.8125,
      "learning_rate": 8.877123169620565e-06,
      "loss": 1.07965641,
      "memory(GiB)": 112.26,
      "step": 20235,
      "train_speed(iter/s)": 1.128236
    },
    {
      "acc": 0.72776909,
      "epoch": 0.5134449518011162,
      "grad_norm": 3.34375,
      "learning_rate": 8.876460941286941e-06,
      "loss": 1.1160347,
      "memory(GiB)": 112.26,
      "step": 20240,
      "train_speed(iter/s)": 1.128279
    },
    {
      "acc": 0.71976652,
      "epoch": 0.5135717909690513,
      "grad_norm": 3.953125,
      "learning_rate": 8.875798542449256e-06,
      "loss": 1.14235668,
      "memory(GiB)": 112.26,
      "step": 20245,
      "train_speed(iter/s)": 1.128325
    },
    {
      "acc": 0.72385607,
      "epoch": 0.5136986301369864,
      "grad_norm": 3.5,
      "learning_rate": 8.87513597313665e-06,
      "loss": 1.13255949,
      "memory(GiB)": 112.26,
      "step": 20250,
      "train_speed(iter/s)": 1.128353
    },
    {
      "acc": 0.7247098,
      "epoch": 0.5138254693049213,
      "grad_norm": 4.71875,
      "learning_rate": 8.87447323337826e-06,
      "loss": 1.1341301,
      "memory(GiB)": 112.26,
      "step": 20255,
      "train_speed(iter/s)": 1.1284
    },
    {
      "acc": 0.74701185,
      "epoch": 0.5139523084728564,
      "grad_norm": 3.703125,
      "learning_rate": 8.87381032320324e-06,
      "loss": 1.07173576,
      "memory(GiB)": 112.26,
      "step": 20260,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.73083696,
      "epoch": 0.5140791476407914,
      "grad_norm": 3.578125,
      "learning_rate": 8.873147242640746e-06,
      "loss": 1.07590218,
      "memory(GiB)": 112.26,
      "step": 20265,
      "train_speed(iter/s)": 1.128472
    },
    {
      "acc": 0.72673879,
      "epoch": 0.5142059868087265,
      "grad_norm": 3.09375,
      "learning_rate": 8.872483991719944e-06,
      "loss": 1.12857122,
      "memory(GiB)": 112.26,
      "step": 20270,
      "train_speed(iter/s)": 1.12851
    },
    {
      "acc": 0.72963939,
      "epoch": 0.5143328259766616,
      "grad_norm": 3.34375,
      "learning_rate": 8.871820570470009e-06,
      "loss": 1.12060585,
      "memory(GiB)": 112.26,
      "step": 20275,
      "train_speed(iter/s)": 1.128544
    },
    {
      "acc": 0.73345666,
      "epoch": 0.5144596651445966,
      "grad_norm": 5.40625,
      "learning_rate": 8.871156978920116e-06,
      "loss": 1.09791222,
      "memory(GiB)": 112.26,
      "step": 20280,
      "train_speed(iter/s)": 1.128593
    },
    {
      "acc": 0.74588389,
      "epoch": 0.5145865043125317,
      "grad_norm": 4.03125,
      "learning_rate": 8.870493217099456e-06,
      "loss": 1.00035677,
      "memory(GiB)": 112.26,
      "step": 20285,
      "train_speed(iter/s)": 1.128602
    },
    {
      "acc": 0.73873358,
      "epoch": 0.5147133434804668,
      "grad_norm": 3.296875,
      "learning_rate": 8.869829285037224e-06,
      "loss": 1.02927618,
      "memory(GiB)": 112.26,
      "step": 20290,
      "train_speed(iter/s)": 1.128652
    },
    {
      "acc": 0.73685713,
      "epoch": 0.5148401826484018,
      "grad_norm": 4.15625,
      "learning_rate": 8.869165182762623e-06,
      "loss": 1.08911228,
      "memory(GiB)": 112.26,
      "step": 20295,
      "train_speed(iter/s)": 1.128702
    },
    {
      "acc": 0.7300931,
      "epoch": 0.5149670218163369,
      "grad_norm": 3.828125,
      "learning_rate": 8.868500910304863e-06,
      "loss": 1.12577782,
      "memory(GiB)": 112.26,
      "step": 20300,
      "train_speed(iter/s)": 1.128748
    },
    {
      "acc": 0.73877754,
      "epoch": 0.5150938609842719,
      "grad_norm": 3.296875,
      "learning_rate": 8.86783646769316e-06,
      "loss": 1.06019382,
      "memory(GiB)": 112.26,
      "step": 20305,
      "train_speed(iter/s)": 1.1288
    },
    {
      "acc": 0.73305893,
      "epoch": 0.515220700152207,
      "grad_norm": 3.46875,
      "learning_rate": 8.867171854956742e-06,
      "loss": 1.09880981,
      "memory(GiB)": 112.26,
      "step": 20310,
      "train_speed(iter/s)": 1.128835
    },
    {
      "acc": 0.72969441,
      "epoch": 0.5153475393201421,
      "grad_norm": 4.75,
      "learning_rate": 8.86650707212484e-06,
      "loss": 1.08371754,
      "memory(GiB)": 112.26,
      "step": 20315,
      "train_speed(iter/s)": 1.128871
    },
    {
      "acc": 0.73146229,
      "epoch": 0.5154743784880771,
      "grad_norm": 3.640625,
      "learning_rate": 8.865842119226693e-06,
      "loss": 1.08872671,
      "memory(GiB)": 112.26,
      "step": 20320,
      "train_speed(iter/s)": 1.128925
    },
    {
      "acc": 0.71959105,
      "epoch": 0.5156012176560122,
      "grad_norm": 4.09375,
      "learning_rate": 8.86517699629155e-06,
      "loss": 1.1381628,
      "memory(GiB)": 112.26,
      "step": 20325,
      "train_speed(iter/s)": 1.128969
    },
    {
      "acc": 0.73418489,
      "epoch": 0.5157280568239473,
      "grad_norm": 3.34375,
      "learning_rate": 8.864511703348666e-06,
      "loss": 1.12087011,
      "memory(GiB)": 112.26,
      "step": 20330,
      "train_speed(iter/s)": 1.128983
    },
    {
      "acc": 0.72613411,
      "epoch": 0.5158548959918823,
      "grad_norm": 4.3125,
      "learning_rate": 8.863846240427306e-06,
      "loss": 1.14754524,
      "memory(GiB)": 112.26,
      "step": 20335,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.7383707,
      "epoch": 0.5159817351598174,
      "grad_norm": 4.0625,
      "learning_rate": 8.863180607556733e-06,
      "loss": 1.03004637,
      "memory(GiB)": 112.26,
      "step": 20340,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.73471675,
      "epoch": 0.5161085743277524,
      "grad_norm": 3.953125,
      "learning_rate": 8.862514804766234e-06,
      "loss": 1.05476704,
      "memory(GiB)": 112.26,
      "step": 20345,
      "train_speed(iter/s)": 1.129094
    },
    {
      "acc": 0.729146,
      "epoch": 0.5162354134956875,
      "grad_norm": 3.734375,
      "learning_rate": 8.861848832085084e-06,
      "loss": 1.11846828,
      "memory(GiB)": 112.26,
      "step": 20350,
      "train_speed(iter/s)": 1.12916
    },
    {
      "acc": 0.73180685,
      "epoch": 0.5163622526636226,
      "grad_norm": 3.625,
      "learning_rate": 8.861182689542585e-06,
      "loss": 1.08517189,
      "memory(GiB)": 112.26,
      "step": 20355,
      "train_speed(iter/s)": 1.129171
    },
    {
      "acc": 0.73683324,
      "epoch": 0.5164890918315576,
      "grad_norm": 3.859375,
      "learning_rate": 8.86051637716803e-06,
      "loss": 1.02740173,
      "memory(GiB)": 112.26,
      "step": 20360,
      "train_speed(iter/s)": 1.129221
    },
    {
      "acc": 0.72899799,
      "epoch": 0.5166159309994927,
      "grad_norm": 3.609375,
      "learning_rate": 8.859849894990728e-06,
      "loss": 1.13343649,
      "memory(GiB)": 112.26,
      "step": 20365,
      "train_speed(iter/s)": 1.129272
    },
    {
      "acc": 0.72675691,
      "epoch": 0.5167427701674278,
      "grad_norm": 3.546875,
      "learning_rate": 8.859183243039995e-06,
      "loss": 1.12267437,
      "memory(GiB)": 112.26,
      "step": 20370,
      "train_speed(iter/s)": 1.129294
    },
    {
      "acc": 0.71485205,
      "epoch": 0.5168696093353627,
      "grad_norm": 3.890625,
      "learning_rate": 8.858516421345154e-06,
      "loss": 1.12733898,
      "memory(GiB)": 112.26,
      "step": 20375,
      "train_speed(iter/s)": 1.129342
    },
    {
      "acc": 0.74226742,
      "epoch": 0.5169964485032978,
      "grad_norm": 3.671875,
      "learning_rate": 8.857849429935534e-06,
      "loss": 1.11374168,
      "memory(GiB)": 112.26,
      "step": 20380,
      "train_speed(iter/s)": 1.129377
    },
    {
      "acc": 0.73807983,
      "epoch": 0.5171232876712328,
      "grad_norm": 4.125,
      "learning_rate": 8.857182268840471e-06,
      "loss": 1.10638933,
      "memory(GiB)": 112.26,
      "step": 20385,
      "train_speed(iter/s)": 1.129422
    },
    {
      "acc": 0.73120556,
      "epoch": 0.5172501268391679,
      "grad_norm": 3.375,
      "learning_rate": 8.856514938089312e-06,
      "loss": 1.06354904,
      "memory(GiB)": 112.26,
      "step": 20390,
      "train_speed(iter/s)": 1.129153
    },
    {
      "acc": 0.73173442,
      "epoch": 0.517376966007103,
      "grad_norm": 3.890625,
      "learning_rate": 8.855847437711407e-06,
      "loss": 1.15961609,
      "memory(GiB)": 112.26,
      "step": 20395,
      "train_speed(iter/s)": 1.129204
    },
    {
      "acc": 0.73421907,
      "epoch": 0.517503805175038,
      "grad_norm": 4.25,
      "learning_rate": 8.855179767736117e-06,
      "loss": 1.11580524,
      "memory(GiB)": 112.26,
      "step": 20400,
      "train_speed(iter/s)": 1.129229
    },
    {
      "acc": 0.73327398,
      "epoch": 0.5176306443429731,
      "grad_norm": 3.640625,
      "learning_rate": 8.854511928192808e-06,
      "loss": 1.08697119,
      "memory(GiB)": 112.26,
      "step": 20405,
      "train_speed(iter/s)": 1.12926
    },
    {
      "acc": 0.7307971,
      "epoch": 0.5177574835109082,
      "grad_norm": 3.828125,
      "learning_rate": 8.853843919110856e-06,
      "loss": 1.06828899,
      "memory(GiB)": 112.26,
      "step": 20410,
      "train_speed(iter/s)": 1.129269
    },
    {
      "acc": 0.72078619,
      "epoch": 0.5178843226788432,
      "grad_norm": 4.09375,
      "learning_rate": 8.853175740519642e-06,
      "loss": 1.16575451,
      "memory(GiB)": 112.26,
      "step": 20415,
      "train_speed(iter/s)": 1.129321
    },
    {
      "acc": 0.73835711,
      "epoch": 0.5180111618467783,
      "grad_norm": 4.0,
      "learning_rate": 8.852507392448555e-06,
      "loss": 1.09320793,
      "memory(GiB)": 112.26,
      "step": 20420,
      "train_speed(iter/s)": 1.129346
    },
    {
      "acc": 0.73181295,
      "epoch": 0.5181380010147133,
      "grad_norm": 4.5,
      "learning_rate": 8.851838874926994e-06,
      "loss": 1.099856,
      "memory(GiB)": 112.26,
      "step": 20425,
      "train_speed(iter/s)": 1.129381
    },
    {
      "acc": 0.72768974,
      "epoch": 0.5182648401826484,
      "grad_norm": 4.375,
      "learning_rate": 8.851170187984362e-06,
      "loss": 1.06650095,
      "memory(GiB)": 112.26,
      "step": 20430,
      "train_speed(iter/s)": 1.1294
    },
    {
      "acc": 0.73618417,
      "epoch": 0.5183916793505835,
      "grad_norm": 4.28125,
      "learning_rate": 8.850501331650069e-06,
      "loss": 1.08102589,
      "memory(GiB)": 112.26,
      "step": 20435,
      "train_speed(iter/s)": 1.129418
    },
    {
      "acc": 0.73051085,
      "epoch": 0.5185185185185185,
      "grad_norm": 3.859375,
      "learning_rate": 8.849832305953536e-06,
      "loss": 1.13537464,
      "memory(GiB)": 112.26,
      "step": 20440,
      "train_speed(iter/s)": 1.129469
    },
    {
      "acc": 0.7295619,
      "epoch": 0.5186453576864536,
      "grad_norm": 3.09375,
      "learning_rate": 8.849163110924193e-06,
      "loss": 1.10206385,
      "memory(GiB)": 112.26,
      "step": 20445,
      "train_speed(iter/s)": 1.129511
    },
    {
      "acc": 0.72642074,
      "epoch": 0.5187721968543887,
      "grad_norm": 3.421875,
      "learning_rate": 8.84849374659147e-06,
      "loss": 1.13597412,
      "memory(GiB)": 112.26,
      "step": 20450,
      "train_speed(iter/s)": 1.129506
    },
    {
      "acc": 0.73889427,
      "epoch": 0.5188990360223237,
      "grad_norm": 3.0625,
      "learning_rate": 8.847824212984807e-06,
      "loss": 1.02243195,
      "memory(GiB)": 112.26,
      "step": 20455,
      "train_speed(iter/s)": 1.129567
    },
    {
      "acc": 0.73769908,
      "epoch": 0.5190258751902588,
      "grad_norm": 3.609375,
      "learning_rate": 8.84715451013366e-06,
      "loss": 1.01473484,
      "memory(GiB)": 112.26,
      "step": 20460,
      "train_speed(iter/s)": 1.129581
    },
    {
      "acc": 0.73984275,
      "epoch": 0.5191527143581938,
      "grad_norm": 4.5,
      "learning_rate": 8.846484638067478e-06,
      "loss": 1.06132183,
      "memory(GiB)": 112.26,
      "step": 20465,
      "train_speed(iter/s)": 1.129616
    },
    {
      "acc": 0.72239027,
      "epoch": 0.5192795535261289,
      "grad_norm": 3.359375,
      "learning_rate": 8.84581459681573e-06,
      "loss": 1.11539021,
      "memory(GiB)": 112.26,
      "step": 20470,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.73484001,
      "epoch": 0.519406392694064,
      "grad_norm": 4.25,
      "learning_rate": 8.845144386407884e-06,
      "loss": 1.11214619,
      "memory(GiB)": 112.26,
      "step": 20475,
      "train_speed(iter/s)": 1.129687
    },
    {
      "acc": 0.74162846,
      "epoch": 0.519533231861999,
      "grad_norm": 3.34375,
      "learning_rate": 8.844474006873422e-06,
      "loss": 1.10317917,
      "memory(GiB)": 112.26,
      "step": 20480,
      "train_speed(iter/s)": 1.129724
    },
    {
      "acc": 0.74147596,
      "epoch": 0.5196600710299341,
      "grad_norm": 4.15625,
      "learning_rate": 8.84380345824183e-06,
      "loss": 1.02853031,
      "memory(GiB)": 112.26,
      "step": 20485,
      "train_speed(iter/s)": 1.129754
    },
    {
      "acc": 0.73106532,
      "epoch": 0.5197869101978692,
      "grad_norm": 3.71875,
      "learning_rate": 8.843132740542599e-06,
      "loss": 1.11822243,
      "memory(GiB)": 112.26,
      "step": 20490,
      "train_speed(iter/s)": 1.129808
    },
    {
      "acc": 0.74732852,
      "epoch": 0.5199137493658041,
      "grad_norm": 7.84375,
      "learning_rate": 8.842461853805232e-06,
      "loss": 1.01196117,
      "memory(GiB)": 112.26,
      "step": 20495,
      "train_speed(iter/s)": 1.129859
    },
    {
      "acc": 0.73177633,
      "epoch": 0.5200405885337392,
      "grad_norm": 3.78125,
      "learning_rate": 8.841790798059237e-06,
      "loss": 1.07527151,
      "memory(GiB)": 112.26,
      "step": 20500,
      "train_speed(iter/s)": 1.129902
    },
    {
      "acc": 0.75307417,
      "epoch": 0.5201674277016742,
      "grad_norm": 4.34375,
      "learning_rate": 8.84111957333413e-06,
      "loss": 1.01673803,
      "memory(GiB)": 112.26,
      "step": 20505,
      "train_speed(iter/s)": 1.129635
    },
    {
      "acc": 0.71750565,
      "epoch": 0.5202942668696093,
      "grad_norm": 4.0625,
      "learning_rate": 8.840448179659436e-06,
      "loss": 1.21110516,
      "memory(GiB)": 112.26,
      "step": 20510,
      "train_speed(iter/s)": 1.129667
    },
    {
      "acc": 0.72601223,
      "epoch": 0.5204211060375444,
      "grad_norm": 3.390625,
      "learning_rate": 8.839776617064683e-06,
      "loss": 1.10139217,
      "memory(GiB)": 112.26,
      "step": 20515,
      "train_speed(iter/s)": 1.129686
    },
    {
      "acc": 0.73311081,
      "epoch": 0.5205479452054794,
      "grad_norm": 3.28125,
      "learning_rate": 8.839104885579413e-06,
      "loss": 1.08243008,
      "memory(GiB)": 112.26,
      "step": 20520,
      "train_speed(iter/s)": 1.129749
    },
    {
      "acc": 0.73644166,
      "epoch": 0.5206747843734145,
      "grad_norm": 4.40625,
      "learning_rate": 8.83843298523317e-06,
      "loss": 1.149331,
      "memory(GiB)": 112.26,
      "step": 20525,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.72433691,
      "epoch": 0.5208016235413496,
      "grad_norm": 3.984375,
      "learning_rate": 8.837760916055505e-06,
      "loss": 1.11971788,
      "memory(GiB)": 112.26,
      "step": 20530,
      "train_speed(iter/s)": 1.129834
    },
    {
      "acc": 0.71489067,
      "epoch": 0.5209284627092846,
      "grad_norm": 3.75,
      "learning_rate": 8.837088678075983e-06,
      "loss": 1.1798399,
      "memory(GiB)": 112.26,
      "step": 20535,
      "train_speed(iter/s)": 1.129868
    },
    {
      "acc": 0.72460647,
      "epoch": 0.5210553018772197,
      "grad_norm": 3.265625,
      "learning_rate": 8.836416271324166e-06,
      "loss": 1.11841059,
      "memory(GiB)": 112.26,
      "step": 20540,
      "train_speed(iter/s)": 1.129902
    },
    {
      "acc": 0.74841194,
      "epoch": 0.5211821410451547,
      "grad_norm": 3.03125,
      "learning_rate": 8.835743695829635e-06,
      "loss": 1.03118429,
      "memory(GiB)": 112.26,
      "step": 20545,
      "train_speed(iter/s)": 1.129952
    },
    {
      "acc": 0.72680631,
      "epoch": 0.5213089802130898,
      "grad_norm": 4.5,
      "learning_rate": 8.835070951621971e-06,
      "loss": 1.10743561,
      "memory(GiB)": 112.26,
      "step": 20550,
      "train_speed(iter/s)": 1.130004
    },
    {
      "acc": 0.72873788,
      "epoch": 0.5214358193810249,
      "grad_norm": 3.796875,
      "learning_rate": 8.834398038730765e-06,
      "loss": 1.09021435,
      "memory(GiB)": 112.26,
      "step": 20555,
      "train_speed(iter/s)": 1.130048
    },
    {
      "acc": 0.76105156,
      "epoch": 0.5215626585489599,
      "grad_norm": 4.0625,
      "learning_rate": 8.833724957185612e-06,
      "loss": 0.98123493,
      "memory(GiB)": 112.26,
      "step": 20560,
      "train_speed(iter/s)": 1.130083
    },
    {
      "acc": 0.73109913,
      "epoch": 0.521689497716895,
      "grad_norm": 4.4375,
      "learning_rate": 8.83305170701612e-06,
      "loss": 1.14986172,
      "memory(GiB)": 112.26,
      "step": 20565,
      "train_speed(iter/s)": 1.130143
    },
    {
      "acc": 0.74135547,
      "epoch": 0.5218163368848301,
      "grad_norm": 3.78125,
      "learning_rate": 8.832378288251902e-06,
      "loss": 1.10233812,
      "memory(GiB)": 112.26,
      "step": 20570,
      "train_speed(iter/s)": 1.130209
    },
    {
      "acc": 0.72786565,
      "epoch": 0.5219431760527651,
      "grad_norm": 3.796875,
      "learning_rate": 8.831704700922574e-06,
      "loss": 1.11890421,
      "memory(GiB)": 112.26,
      "step": 20575,
      "train_speed(iter/s)": 1.130238
    },
    {
      "acc": 0.73820257,
      "epoch": 0.5220700152207002,
      "grad_norm": 4.0,
      "learning_rate": 8.831030945057767e-06,
      "loss": 1.09392967,
      "memory(GiB)": 112.26,
      "step": 20580,
      "train_speed(iter/s)": 1.130281
    },
    {
      "acc": 0.7467926,
      "epoch": 0.5221968543886352,
      "grad_norm": 3.1875,
      "learning_rate": 8.830357020687115e-06,
      "loss": 1.00875978,
      "memory(GiB)": 112.26,
      "step": 20585,
      "train_speed(iter/s)": 1.130311
    },
    {
      "acc": 0.7396945,
      "epoch": 0.5223236935565703,
      "grad_norm": 3.96875,
      "learning_rate": 8.82968292784026e-06,
      "loss": 1.08665714,
      "memory(GiB)": 112.26,
      "step": 20590,
      "train_speed(iter/s)": 1.130353
    },
    {
      "acc": 0.74175053,
      "epoch": 0.5224505327245054,
      "grad_norm": 4.34375,
      "learning_rate": 8.82900866654685e-06,
      "loss": 1.10435524,
      "memory(GiB)": 112.26,
      "step": 20595,
      "train_speed(iter/s)": 1.130397
    },
    {
      "acc": 0.73240538,
      "epoch": 0.5225773718924404,
      "grad_norm": 3.375,
      "learning_rate": 8.828334236836546e-06,
      "loss": 1.10435057,
      "memory(GiB)": 112.26,
      "step": 20600,
      "train_speed(iter/s)": 1.130421
    },
    {
      "acc": 0.72675838,
      "epoch": 0.5227042110603755,
      "grad_norm": 3.515625,
      "learning_rate": 8.827659638739007e-06,
      "loss": 1.12257509,
      "memory(GiB)": 112.26,
      "step": 20605,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.74056015,
      "epoch": 0.5228310502283106,
      "grad_norm": 3.390625,
      "learning_rate": 8.82698487228391e-06,
      "loss": 1.05596085,
      "memory(GiB)": 112.26,
      "step": 20610,
      "train_speed(iter/s)": 1.130494
    },
    {
      "acc": 0.73000669,
      "epoch": 0.5229578893962455,
      "grad_norm": 3.515625,
      "learning_rate": 8.826309937500932e-06,
      "loss": 1.07613182,
      "memory(GiB)": 112.26,
      "step": 20615,
      "train_speed(iter/s)": 1.130527
    },
    {
      "acc": 0.72830973,
      "epoch": 0.5230847285641806,
      "grad_norm": 3.53125,
      "learning_rate": 8.825634834419758e-06,
      "loss": 1.1524066,
      "memory(GiB)": 112.26,
      "step": 20620,
      "train_speed(iter/s)": 1.130577
    },
    {
      "acc": 0.73723483,
      "epoch": 0.5232115677321156,
      "grad_norm": 4.5,
      "learning_rate": 8.824959563070085e-06,
      "loss": 1.06261101,
      "memory(GiB)": 112.26,
      "step": 20625,
      "train_speed(iter/s)": 1.130632
    },
    {
      "acc": 0.73774557,
      "epoch": 0.5233384069000507,
      "grad_norm": 3.453125,
      "learning_rate": 8.824284123481614e-06,
      "loss": 1.07292976,
      "memory(GiB)": 112.26,
      "step": 20630,
      "train_speed(iter/s)": 1.130669
    },
    {
      "acc": 0.72932911,
      "epoch": 0.5234652460679858,
      "grad_norm": 3.765625,
      "learning_rate": 8.823608515684053e-06,
      "loss": 1.11958714,
      "memory(GiB)": 112.26,
      "step": 20635,
      "train_speed(iter/s)": 1.130716
    },
    {
      "acc": 0.72389021,
      "epoch": 0.5235920852359208,
      "grad_norm": 3.0625,
      "learning_rate": 8.822932739707118e-06,
      "loss": 1.14980612,
      "memory(GiB)": 112.26,
      "step": 20640,
      "train_speed(iter/s)": 1.130771
    },
    {
      "acc": 0.72669864,
      "epoch": 0.5237189244038559,
      "grad_norm": 3.84375,
      "learning_rate": 8.822256795580532e-06,
      "loss": 1.13062449,
      "memory(GiB)": 112.26,
      "step": 20645,
      "train_speed(iter/s)": 1.130801
    },
    {
      "acc": 0.74092598,
      "epoch": 0.523845763571791,
      "grad_norm": 4.0,
      "learning_rate": 8.821580683334027e-06,
      "loss": 1.07725391,
      "memory(GiB)": 112.26,
      "step": 20650,
      "train_speed(iter/s)": 1.130837
    },
    {
      "acc": 0.72811551,
      "epoch": 0.523972602739726,
      "grad_norm": 4.53125,
      "learning_rate": 8.820904402997343e-06,
      "loss": 1.08621035,
      "memory(GiB)": 112.26,
      "step": 20655,
      "train_speed(iter/s)": 1.130884
    },
    {
      "acc": 0.73303394,
      "epoch": 0.5240994419076611,
      "grad_norm": 3.328125,
      "learning_rate": 8.820227954600222e-06,
      "loss": 1.05399761,
      "memory(GiB)": 112.26,
      "step": 20660,
      "train_speed(iter/s)": 1.130883
    },
    {
      "acc": 0.71851158,
      "epoch": 0.5242262810755961,
      "grad_norm": 3.59375,
      "learning_rate": 8.819551338172421e-06,
      "loss": 1.18670959,
      "memory(GiB)": 112.26,
      "step": 20665,
      "train_speed(iter/s)": 1.130887
    },
    {
      "acc": 0.73671522,
      "epoch": 0.5243531202435312,
      "grad_norm": 3.40625,
      "learning_rate": 8.8188745537437e-06,
      "loss": 1.09361057,
      "memory(GiB)": 112.26,
      "step": 20670,
      "train_speed(iter/s)": 1.130915
    },
    {
      "acc": 0.73811407,
      "epoch": 0.5244799594114663,
      "grad_norm": 3.578125,
      "learning_rate": 8.818197601343822e-06,
      "loss": 1.06181831,
      "memory(GiB)": 112.26,
      "step": 20675,
      "train_speed(iter/s)": 1.130934
    },
    {
      "acc": 0.73061452,
      "epoch": 0.5246067985794013,
      "grad_norm": 4.53125,
      "learning_rate": 8.81752048100257e-06,
      "loss": 1.08969021,
      "memory(GiB)": 112.26,
      "step": 20680,
      "train_speed(iter/s)": 1.130966
    },
    {
      "acc": 0.71455555,
      "epoch": 0.5247336377473364,
      "grad_norm": 4.1875,
      "learning_rate": 8.816843192749724e-06,
      "loss": 1.16545286,
      "memory(GiB)": 112.26,
      "step": 20685,
      "train_speed(iter/s)": 1.130992
    },
    {
      "acc": 0.73019838,
      "epoch": 0.5248604769152715,
      "grad_norm": 4.15625,
      "learning_rate": 8.816165736615072e-06,
      "loss": 1.09241104,
      "memory(GiB)": 112.26,
      "step": 20690,
      "train_speed(iter/s)": 1.131018
    },
    {
      "acc": 0.74303331,
      "epoch": 0.5249873160832065,
      "grad_norm": 4.28125,
      "learning_rate": 8.815488112628412e-06,
      "loss": 1.07999907,
      "memory(GiB)": 112.26,
      "step": 20695,
      "train_speed(iter/s)": 1.131084
    },
    {
      "acc": 0.74636292,
      "epoch": 0.5251141552511416,
      "grad_norm": 3.828125,
      "learning_rate": 8.814810320819551e-06,
      "loss": 1.04762363,
      "memory(GiB)": 112.26,
      "step": 20700,
      "train_speed(iter/s)": 1.131106
    },
    {
      "acc": 0.73751106,
      "epoch": 0.5252409944190766,
      "grad_norm": 3.765625,
      "learning_rate": 8.8141323612183e-06,
      "loss": 1.10440693,
      "memory(GiB)": 112.26,
      "step": 20705,
      "train_speed(iter/s)": 1.131136
    },
    {
      "acc": 0.72802572,
      "epoch": 0.5253678335870117,
      "grad_norm": 4.40625,
      "learning_rate": 8.813454233854479e-06,
      "loss": 1.12464409,
      "memory(GiB)": 112.26,
      "step": 20710,
      "train_speed(iter/s)": 1.131164
    },
    {
      "acc": 0.73895359,
      "epoch": 0.5254946727549468,
      "grad_norm": 3.484375,
      "learning_rate": 8.812775938757914e-06,
      "loss": 1.07753668,
      "memory(GiB)": 112.26,
      "step": 20715,
      "train_speed(iter/s)": 1.131207
    },
    {
      "acc": 0.74404192,
      "epoch": 0.5256215119228818,
      "grad_norm": 4.0625,
      "learning_rate": 8.812097475958442e-06,
      "loss": 1.06312075,
      "memory(GiB)": 112.26,
      "step": 20720,
      "train_speed(iter/s)": 1.131246
    },
    {
      "acc": 0.72428737,
      "epoch": 0.5257483510908169,
      "grad_norm": 3.734375,
      "learning_rate": 8.811418845485902e-06,
      "loss": 1.11905708,
      "memory(GiB)": 112.26,
      "step": 20725,
      "train_speed(iter/s)": 1.1313
    },
    {
      "acc": 0.73994317,
      "epoch": 0.525875190258752,
      "grad_norm": 3.703125,
      "learning_rate": 8.810740047370146e-06,
      "loss": 1.11976795,
      "memory(GiB)": 112.26,
      "step": 20730,
      "train_speed(iter/s)": 1.131297
    },
    {
      "acc": 0.74826331,
      "epoch": 0.526002029426687,
      "grad_norm": 3.609375,
      "learning_rate": 8.810061081641026e-06,
      "loss": 1.08639402,
      "memory(GiB)": 112.26,
      "step": 20735,
      "train_speed(iter/s)": 1.131347
    },
    {
      "acc": 0.7415978,
      "epoch": 0.526128868594622,
      "grad_norm": 2.9375,
      "learning_rate": 8.809381948328412e-06,
      "loss": 1.07695198,
      "memory(GiB)": 112.26,
      "step": 20740,
      "train_speed(iter/s)": 1.131396
    },
    {
      "acc": 0.73456011,
      "epoch": 0.526255707762557,
      "grad_norm": 3.546875,
      "learning_rate": 8.80870264746217e-06,
      "loss": 1.12833509,
      "memory(GiB)": 112.26,
      "step": 20745,
      "train_speed(iter/s)": 1.13145
    },
    {
      "acc": 0.73102674,
      "epoch": 0.5263825469304921,
      "grad_norm": 3.21875,
      "learning_rate": 8.808023179072183e-06,
      "loss": 1.07216721,
      "memory(GiB)": 112.26,
      "step": 20750,
      "train_speed(iter/s)": 1.131481
    },
    {
      "acc": 0.73176565,
      "epoch": 0.5265093860984272,
      "grad_norm": 3.53125,
      "learning_rate": 8.807343543188333e-06,
      "loss": 1.13957052,
      "memory(GiB)": 112.26,
      "step": 20755,
      "train_speed(iter/s)": 1.131528
    },
    {
      "acc": 0.74070706,
      "epoch": 0.5266362252663622,
      "grad_norm": 4.1875,
      "learning_rate": 8.806663739840515e-06,
      "loss": 1.07422333,
      "memory(GiB)": 112.26,
      "step": 20760,
      "train_speed(iter/s)": 1.131573
    },
    {
      "acc": 0.72496805,
      "epoch": 0.5267630644342973,
      "grad_norm": 3.875,
      "learning_rate": 8.805983769058633e-06,
      "loss": 1.11247406,
      "memory(GiB)": 112.26,
      "step": 20765,
      "train_speed(iter/s)": 1.131574
    },
    {
      "acc": 0.74668121,
      "epoch": 0.5268899036022324,
      "grad_norm": 4.3125,
      "learning_rate": 8.80530363087259e-06,
      "loss": 1.08544025,
      "memory(GiB)": 112.26,
      "step": 20770,
      "train_speed(iter/s)": 1.131604
    },
    {
      "acc": 0.7252492,
      "epoch": 0.5270167427701674,
      "grad_norm": 3.53125,
      "learning_rate": 8.804623325312305e-06,
      "loss": 1.15783291,
      "memory(GiB)": 112.26,
      "step": 20775,
      "train_speed(iter/s)": 1.13165
    },
    {
      "acc": 0.72716885,
      "epoch": 0.5271435819381025,
      "grad_norm": 3.375,
      "learning_rate": 8.8039428524077e-06,
      "loss": 1.09022627,
      "memory(GiB)": 112.26,
      "step": 20780,
      "train_speed(iter/s)": 1.131686
    },
    {
      "acc": 0.73404493,
      "epoch": 0.5272704211060375,
      "grad_norm": 4.15625,
      "learning_rate": 8.803262212188703e-06,
      "loss": 1.15873632,
      "memory(GiB)": 112.26,
      "step": 20785,
      "train_speed(iter/s)": 1.131708
    },
    {
      "acc": 0.73332114,
      "epoch": 0.5273972602739726,
      "grad_norm": 4.0,
      "learning_rate": 8.802581404685255e-06,
      "loss": 1.08862324,
      "memory(GiB)": 112.26,
      "step": 20790,
      "train_speed(iter/s)": 1.131752
    },
    {
      "acc": 0.71146803,
      "epoch": 0.5275240994419077,
      "grad_norm": 3.71875,
      "learning_rate": 8.8019004299273e-06,
      "loss": 1.12757072,
      "memory(GiB)": 112.26,
      "step": 20795,
      "train_speed(iter/s)": 1.131797
    },
    {
      "acc": 0.7284081,
      "epoch": 0.5276509386098427,
      "grad_norm": 4.5625,
      "learning_rate": 8.801219287944788e-06,
      "loss": 1.11447182,
      "memory(GiB)": 112.26,
      "step": 20800,
      "train_speed(iter/s)": 1.131834
    },
    {
      "acc": 0.73290257,
      "epoch": 0.5277777777777778,
      "grad_norm": 4.03125,
      "learning_rate": 8.800537978767683e-06,
      "loss": 1.07824612,
      "memory(GiB)": 112.26,
      "step": 20805,
      "train_speed(iter/s)": 1.131895
    },
    {
      "acc": 0.74541726,
      "epoch": 0.5279046169457129,
      "grad_norm": 4.5,
      "learning_rate": 8.79985650242595e-06,
      "loss": 1.0659029,
      "memory(GiB)": 112.26,
      "step": 20810,
      "train_speed(iter/s)": 1.131936
    },
    {
      "acc": 0.7226212,
      "epoch": 0.5280314561136479,
      "grad_norm": 3.234375,
      "learning_rate": 8.79917485894956e-06,
      "loss": 1.12777538,
      "memory(GiB)": 112.26,
      "step": 20815,
      "train_speed(iter/s)": 1.131953
    },
    {
      "acc": 0.73116016,
      "epoch": 0.528158295281583,
      "grad_norm": 3.375,
      "learning_rate": 8.798493048368498e-06,
      "loss": 1.08827305,
      "memory(GiB)": 112.26,
      "step": 20820,
      "train_speed(iter/s)": 1.132001
    },
    {
      "acc": 0.73365607,
      "epoch": 0.528285134449518,
      "grad_norm": 3.125,
      "learning_rate": 8.797811070712754e-06,
      "loss": 1.06906757,
      "memory(GiB)": 112.26,
      "step": 20825,
      "train_speed(iter/s)": 1.132031
    },
    {
      "acc": 0.72550163,
      "epoch": 0.5284119736174531,
      "grad_norm": 3.671875,
      "learning_rate": 8.797128926012323e-06,
      "loss": 1.14905882,
      "memory(GiB)": 112.26,
      "step": 20830,
      "train_speed(iter/s)": 1.132072
    },
    {
      "acc": 0.72861328,
      "epoch": 0.5285388127853882,
      "grad_norm": 4.59375,
      "learning_rate": 8.796446614297208e-06,
      "loss": 1.10766087,
      "memory(GiB)": 112.26,
      "step": 20835,
      "train_speed(iter/s)": 1.132125
    },
    {
      "acc": 0.73320742,
      "epoch": 0.5286656519533232,
      "grad_norm": 3.984375,
      "learning_rate": 8.795764135597421e-06,
      "loss": 1.10301266,
      "memory(GiB)": 112.26,
      "step": 20840,
      "train_speed(iter/s)": 1.132164
    },
    {
      "acc": 0.73715782,
      "epoch": 0.5287924911212583,
      "grad_norm": 3.140625,
      "learning_rate": 8.79508148994298e-06,
      "loss": 1.09355087,
      "memory(GiB)": 112.26,
      "step": 20845,
      "train_speed(iter/s)": 1.132202
    },
    {
      "acc": 0.72661452,
      "epoch": 0.5289193302891934,
      "grad_norm": 3.734375,
      "learning_rate": 8.794398677363913e-06,
      "loss": 1.09913788,
      "memory(GiB)": 112.26,
      "step": 20850,
      "train_speed(iter/s)": 1.13226
    },
    {
      "acc": 0.75372562,
      "epoch": 0.5290461694571283,
      "grad_norm": 3.671875,
      "learning_rate": 8.79371569789025e-06,
      "loss": 1.0431015,
      "memory(GiB)": 112.26,
      "step": 20855,
      "train_speed(iter/s)": 1.132302
    },
    {
      "acc": 0.73378215,
      "epoch": 0.5291730086250634,
      "grad_norm": 4.125,
      "learning_rate": 8.793032551552034e-06,
      "loss": 1.11184387,
      "memory(GiB)": 112.26,
      "step": 20860,
      "train_speed(iter/s)": 1.132325
    },
    {
      "acc": 0.72430182,
      "epoch": 0.5292998477929984,
      "grad_norm": 3.828125,
      "learning_rate": 8.792349238379311e-06,
      "loss": 1.13293037,
      "memory(GiB)": 112.26,
      "step": 20865,
      "train_speed(iter/s)": 1.132348
    },
    {
      "acc": 0.71706462,
      "epoch": 0.5294266869609335,
      "grad_norm": 3.765625,
      "learning_rate": 8.791665758402137e-06,
      "loss": 1.17098894,
      "memory(GiB)": 112.26,
      "step": 20870,
      "train_speed(iter/s)": 1.132387
    },
    {
      "acc": 0.73850694,
      "epoch": 0.5295535261288686,
      "grad_norm": 4.1875,
      "learning_rate": 8.790982111650574e-06,
      "loss": 1.09016676,
      "memory(GiB)": 112.26,
      "step": 20875,
      "train_speed(iter/s)": 1.132406
    },
    {
      "acc": 0.73252087,
      "epoch": 0.5296803652968036,
      "grad_norm": 3.46875,
      "learning_rate": 8.790298298154694e-06,
      "loss": 1.06750622,
      "memory(GiB)": 112.26,
      "step": 20880,
      "train_speed(iter/s)": 1.132435
    },
    {
      "acc": 0.72613649,
      "epoch": 0.5298072044647387,
      "grad_norm": 3.109375,
      "learning_rate": 8.78961431794457e-06,
      "loss": 1.12127285,
      "memory(GiB)": 112.26,
      "step": 20885,
      "train_speed(iter/s)": 1.132477
    },
    {
      "acc": 0.73408422,
      "epoch": 0.5299340436326738,
      "grad_norm": 3.625,
      "learning_rate": 8.78893017105029e-06,
      "loss": 1.09584846,
      "memory(GiB)": 112.26,
      "step": 20890,
      "train_speed(iter/s)": 1.132501
    },
    {
      "acc": 0.73557105,
      "epoch": 0.5300608828006088,
      "grad_norm": 3.625,
      "learning_rate": 8.788245857501944e-06,
      "loss": 1.07888317,
      "memory(GiB)": 112.26,
      "step": 20895,
      "train_speed(iter/s)": 1.132551
    },
    {
      "acc": 0.72618895,
      "epoch": 0.5301877219685439,
      "grad_norm": 3.65625,
      "learning_rate": 8.787561377329633e-06,
      "loss": 1.15406122,
      "memory(GiB)": 112.26,
      "step": 20900,
      "train_speed(iter/s)": 1.13258
    },
    {
      "acc": 0.73639903,
      "epoch": 0.5303145611364789,
      "grad_norm": 3.65625,
      "learning_rate": 8.786876730563462e-06,
      "loss": 1.10552139,
      "memory(GiB)": 112.26,
      "step": 20905,
      "train_speed(iter/s)": 1.132622
    },
    {
      "acc": 0.73017707,
      "epoch": 0.530441400304414,
      "grad_norm": 4.6875,
      "learning_rate": 8.786191917233545e-06,
      "loss": 1.08151217,
      "memory(GiB)": 112.26,
      "step": 20910,
      "train_speed(iter/s)": 1.13265
    },
    {
      "acc": 0.73761868,
      "epoch": 0.5305682394723491,
      "grad_norm": 3.859375,
      "learning_rate": 8.785506937370003e-06,
      "loss": 1.06747894,
      "memory(GiB)": 112.26,
      "step": 20915,
      "train_speed(iter/s)": 1.132675
    },
    {
      "acc": 0.7371707,
      "epoch": 0.5306950786402841,
      "grad_norm": 4.28125,
      "learning_rate": 8.784821791002965e-06,
      "loss": 1.10950241,
      "memory(GiB)": 112.26,
      "step": 20920,
      "train_speed(iter/s)": 1.132705
    },
    {
      "acc": 0.73721609,
      "epoch": 0.5308219178082192,
      "grad_norm": 4.53125,
      "learning_rate": 8.784136478162567e-06,
      "loss": 1.14380245,
      "memory(GiB)": 112.26,
      "step": 20925,
      "train_speed(iter/s)": 1.132764
    },
    {
      "acc": 0.7436583,
      "epoch": 0.5309487569761543,
      "grad_norm": 3.90625,
      "learning_rate": 8.783450998878951e-06,
      "loss": 1.05868149,
      "memory(GiB)": 112.26,
      "step": 20930,
      "train_speed(iter/s)": 1.132812
    },
    {
      "acc": 0.72764182,
      "epoch": 0.5310755961440893,
      "grad_norm": 3.5,
      "learning_rate": 8.78276535318227e-06,
      "loss": 1.08324833,
      "memory(GiB)": 112.26,
      "step": 20935,
      "train_speed(iter/s)": 1.132843
    },
    {
      "acc": 0.71381092,
      "epoch": 0.5312024353120244,
      "grad_norm": 4.0625,
      "learning_rate": 8.782079541102678e-06,
      "loss": 1.15620432,
      "memory(GiB)": 112.26,
      "step": 20940,
      "train_speed(iter/s)": 1.132882
    },
    {
      "acc": 0.73491807,
      "epoch": 0.5313292744799594,
      "grad_norm": 3.34375,
      "learning_rate": 8.781393562670342e-06,
      "loss": 1.08322973,
      "memory(GiB)": 112.26,
      "step": 20945,
      "train_speed(iter/s)": 1.132914
    },
    {
      "acc": 0.71912837,
      "epoch": 0.5314561136478945,
      "grad_norm": 3.546875,
      "learning_rate": 8.780707417915436e-06,
      "loss": 1.13873005,
      "memory(GiB)": 112.26,
      "step": 20950,
      "train_speed(iter/s)": 1.132956
    },
    {
      "acc": 0.74328904,
      "epoch": 0.5315829528158296,
      "grad_norm": 3.203125,
      "learning_rate": 8.780021106868138e-06,
      "loss": 0.99772463,
      "memory(GiB)": 112.26,
      "step": 20955,
      "train_speed(iter/s)": 1.132986
    },
    {
      "acc": 0.72859764,
      "epoch": 0.5317097919837646,
      "grad_norm": 4.09375,
      "learning_rate": 8.779334629558633e-06,
      "loss": 1.14857426,
      "memory(GiB)": 112.26,
      "step": 20960,
      "train_speed(iter/s)": 1.133003
    },
    {
      "acc": 0.73134832,
      "epoch": 0.5318366311516997,
      "grad_norm": 5.125,
      "learning_rate": 8.77864798601712e-06,
      "loss": 1.09686422,
      "memory(GiB)": 112.26,
      "step": 20965,
      "train_speed(iter/s)": 1.13303
    },
    {
      "acc": 0.73088775,
      "epoch": 0.5319634703196348,
      "grad_norm": 3.65625,
      "learning_rate": 8.777961176273795e-06,
      "loss": 1.11466198,
      "memory(GiB)": 112.26,
      "step": 20970,
      "train_speed(iter/s)": 1.133069
    },
    {
      "acc": 0.74121113,
      "epoch": 0.5320903094875697,
      "grad_norm": 4.96875,
      "learning_rate": 8.777274200358873e-06,
      "loss": 1.11075478,
      "memory(GiB)": 112.26,
      "step": 20975,
      "train_speed(iter/s)": 1.133119
    },
    {
      "acc": 0.74194317,
      "epoch": 0.5322171486555048,
      "grad_norm": 3.765625,
      "learning_rate": 8.776587058302566e-06,
      "loss": 1.07339344,
      "memory(GiB)": 112.26,
      "step": 20980,
      "train_speed(iter/s)": 1.133166
    },
    {
      "acc": 0.73455181,
      "epoch": 0.5323439878234398,
      "grad_norm": 3.34375,
      "learning_rate": 8.7758997501351e-06,
      "loss": 1.08499813,
      "memory(GiB)": 112.26,
      "step": 20985,
      "train_speed(iter/s)": 1.133179
    },
    {
      "acc": 0.75554676,
      "epoch": 0.5324708269913749,
      "grad_norm": 3.8125,
      "learning_rate": 8.775212275886705e-06,
      "loss": 1.06878319,
      "memory(GiB)": 112.26,
      "step": 20990,
      "train_speed(iter/s)": 1.133175
    },
    {
      "acc": 0.71784782,
      "epoch": 0.53259766615931,
      "grad_norm": 4.15625,
      "learning_rate": 8.774524635587617e-06,
      "loss": 1.13707952,
      "memory(GiB)": 112.26,
      "step": 20995,
      "train_speed(iter/s)": 1.133207
    },
    {
      "acc": 0.73226833,
      "epoch": 0.532724505327245,
      "grad_norm": 3.4375,
      "learning_rate": 8.773836829268084e-06,
      "loss": 1.09105854,
      "memory(GiB)": 112.26,
      "step": 21000,
      "train_speed(iter/s)": 1.133255
    },
    {
      "epoch": 0.532724505327245,
      "eval_acc": 0.722050633069998,
      "eval_loss": 1.0636956691741943,
      "eval_runtime": 70.8691,
      "eval_samples_per_second": 89.884,
      "eval_steps_per_second": 22.478,
      "step": 21000
    },
    {
      "acc": 0.72741938,
      "epoch": 0.5328513444951801,
      "grad_norm": 3.59375,
      "learning_rate": 8.77314885695836e-06,
      "loss": 1.08988123,
      "memory(GiB)": 112.26,
      "step": 21005,
      "train_speed(iter/s)": 1.12631
    },
    {
      "acc": 0.73510551,
      "epoch": 0.5329781836631152,
      "grad_norm": 3.625,
      "learning_rate": 8.772460718688702e-06,
      "loss": 1.07705736,
      "memory(GiB)": 112.26,
      "step": 21010,
      "train_speed(iter/s)": 1.12631
    },
    {
      "acc": 0.74684939,
      "epoch": 0.5331050228310502,
      "grad_norm": 4.15625,
      "learning_rate": 8.771772414489379e-06,
      "loss": 1.05075645,
      "memory(GiB)": 112.26,
      "step": 21015,
      "train_speed(iter/s)": 1.126361
    },
    {
      "acc": 0.72330294,
      "epoch": 0.5332318619989853,
      "grad_norm": 4.375,
      "learning_rate": 8.771083944390665e-06,
      "loss": 1.13227215,
      "memory(GiB)": 112.26,
      "step": 21020,
      "train_speed(iter/s)": 1.126415
    },
    {
      "acc": 0.71970062,
      "epoch": 0.5333587011669203,
      "grad_norm": 3.265625,
      "learning_rate": 8.770395308422842e-06,
      "loss": 1.1416275,
      "memory(GiB)": 112.26,
      "step": 21025,
      "train_speed(iter/s)": 1.126438
    },
    {
      "acc": 0.74518261,
      "epoch": 0.5334855403348554,
      "grad_norm": 4.09375,
      "learning_rate": 8.769706506616201e-06,
      "loss": 1.11261644,
      "memory(GiB)": 112.26,
      "step": 21030,
      "train_speed(iter/s)": 1.126486
    },
    {
      "acc": 0.74189978,
      "epoch": 0.5336123795027905,
      "grad_norm": 2.75,
      "learning_rate": 8.769017539001037e-06,
      "loss": 1.04455414,
      "memory(GiB)": 112.26,
      "step": 21035,
      "train_speed(iter/s)": 1.126534
    },
    {
      "acc": 0.74058695,
      "epoch": 0.5337392186707255,
      "grad_norm": 4.21875,
      "learning_rate": 8.768328405607655e-06,
      "loss": 1.1195694,
      "memory(GiB)": 112.26,
      "step": 21040,
      "train_speed(iter/s)": 1.126583
    },
    {
      "acc": 0.72287521,
      "epoch": 0.5338660578386606,
      "grad_norm": 3.640625,
      "learning_rate": 8.767639106466364e-06,
      "loss": 1.1708456,
      "memory(GiB)": 112.26,
      "step": 21045,
      "train_speed(iter/s)": 1.126628
    },
    {
      "acc": 0.73456478,
      "epoch": 0.5339928970065957,
      "grad_norm": 3.171875,
      "learning_rate": 8.766949641607484e-06,
      "loss": 1.07570591,
      "memory(GiB)": 112.26,
      "step": 21050,
      "train_speed(iter/s)": 1.126666
    },
    {
      "acc": 0.73955088,
      "epoch": 0.5341197361745307,
      "grad_norm": 4.25,
      "learning_rate": 8.76626001106134e-06,
      "loss": 1.08927307,
      "memory(GiB)": 112.26,
      "step": 21055,
      "train_speed(iter/s)": 1.126681
    },
    {
      "acc": 0.74333,
      "epoch": 0.5342465753424658,
      "grad_norm": 3.71875,
      "learning_rate": 8.765570214858268e-06,
      "loss": 1.00948114,
      "memory(GiB)": 112.26,
      "step": 21060,
      "train_speed(iter/s)": 1.126706
    },
    {
      "acc": 0.73120522,
      "epoch": 0.5343734145104008,
      "grad_norm": 3.515625,
      "learning_rate": 8.764880253028604e-06,
      "loss": 1.09020567,
      "memory(GiB)": 112.26,
      "step": 21065,
      "train_speed(iter/s)": 1.12675
    },
    {
      "acc": 0.73511677,
      "epoch": 0.5345002536783359,
      "grad_norm": 3.015625,
      "learning_rate": 8.764190125602698e-06,
      "loss": 1.04657526,
      "memory(GiB)": 112.26,
      "step": 21070,
      "train_speed(iter/s)": 1.126776
    },
    {
      "acc": 0.73910952,
      "epoch": 0.534627092846271,
      "grad_norm": 4.03125,
      "learning_rate": 8.763499832610904e-06,
      "loss": 1.09519081,
      "memory(GiB)": 112.26,
      "step": 21075,
      "train_speed(iter/s)": 1.126835
    },
    {
      "acc": 0.74430037,
      "epoch": 0.534753932014206,
      "grad_norm": 3.171875,
      "learning_rate": 8.762809374083585e-06,
      "loss": 1.03916368,
      "memory(GiB)": 112.26,
      "step": 21080,
      "train_speed(iter/s)": 1.12683
    },
    {
      "acc": 0.71858606,
      "epoch": 0.5348807711821411,
      "grad_norm": 4.59375,
      "learning_rate": 8.76211875005111e-06,
      "loss": 1.12603407,
      "memory(GiB)": 112.26,
      "step": 21085,
      "train_speed(iter/s)": 1.126873
    },
    {
      "acc": 0.75756917,
      "epoch": 0.5350076103500762,
      "grad_norm": 4.59375,
      "learning_rate": 8.761427960543854e-06,
      "loss": 1.05207186,
      "memory(GiB)": 112.26,
      "step": 21090,
      "train_speed(iter/s)": 1.1269
    },
    {
      "acc": 0.73710055,
      "epoch": 0.5351344495180111,
      "grad_norm": 3.5,
      "learning_rate": 8.760737005592205e-06,
      "loss": 1.09638863,
      "memory(GiB)": 112.26,
      "step": 21095,
      "train_speed(iter/s)": 1.126921
    },
    {
      "acc": 0.76005774,
      "epoch": 0.5352612886859462,
      "grad_norm": 3.21875,
      "learning_rate": 8.760045885226551e-06,
      "loss": 1.05286589,
      "memory(GiB)": 112.26,
      "step": 21100,
      "train_speed(iter/s)": 1.126969
    },
    {
      "acc": 0.74222593,
      "epoch": 0.5353881278538812,
      "grad_norm": 3.953125,
      "learning_rate": 8.759354599477293e-06,
      "loss": 1.12145014,
      "memory(GiB)": 112.26,
      "step": 21105,
      "train_speed(iter/s)": 1.127011
    },
    {
      "acc": 0.74604821,
      "epoch": 0.5355149670218163,
      "grad_norm": 3.78125,
      "learning_rate": 8.758663148374833e-06,
      "loss": 1.03329353,
      "memory(GiB)": 112.26,
      "step": 21110,
      "train_speed(iter/s)": 1.127061
    },
    {
      "acc": 0.7388566,
      "epoch": 0.5356418061897514,
      "grad_norm": 3.578125,
      "learning_rate": 8.757971531949587e-06,
      "loss": 1.12056637,
      "memory(GiB)": 112.26,
      "step": 21115,
      "train_speed(iter/s)": 1.127086
    },
    {
      "acc": 0.74435692,
      "epoch": 0.5357686453576864,
      "grad_norm": 3.265625,
      "learning_rate": 8.757279750231977e-06,
      "loss": 1.04487514,
      "memory(GiB)": 112.26,
      "step": 21120,
      "train_speed(iter/s)": 1.127131
    },
    {
      "acc": 0.74414062,
      "epoch": 0.5358954845256215,
      "grad_norm": 3.421875,
      "learning_rate": 8.756587803252426e-06,
      "loss": 1.04874182,
      "memory(GiB)": 112.26,
      "step": 21125,
      "train_speed(iter/s)": 1.127179
    },
    {
      "acc": 0.73716307,
      "epoch": 0.5360223236935566,
      "grad_norm": 3.609375,
      "learning_rate": 8.755895691041373e-06,
      "loss": 1.09095802,
      "memory(GiB)": 112.26,
      "step": 21130,
      "train_speed(iter/s)": 1.127198
    },
    {
      "acc": 0.73956156,
      "epoch": 0.5361491628614916,
      "grad_norm": 3.3125,
      "learning_rate": 8.755203413629257e-06,
      "loss": 1.09771042,
      "memory(GiB)": 112.26,
      "step": 21135,
      "train_speed(iter/s)": 1.127227
    },
    {
      "acc": 0.73739128,
      "epoch": 0.5362760020294267,
      "grad_norm": 3.453125,
      "learning_rate": 8.75451097104653e-06,
      "loss": 1.01751184,
      "memory(GiB)": 112.26,
      "step": 21140,
      "train_speed(iter/s)": 1.127259
    },
    {
      "acc": 0.73349724,
      "epoch": 0.5364028411973617,
      "grad_norm": 3.46875,
      "learning_rate": 8.75381836332365e-06,
      "loss": 1.12411375,
      "memory(GiB)": 112.26,
      "step": 21145,
      "train_speed(iter/s)": 1.127288
    },
    {
      "acc": 0.71875348,
      "epoch": 0.5365296803652968,
      "grad_norm": 3.453125,
      "learning_rate": 8.753125590491077e-06,
      "loss": 1.10877419,
      "memory(GiB)": 112.26,
      "step": 21150,
      "train_speed(iter/s)": 1.127001
    },
    {
      "acc": 0.73191023,
      "epoch": 0.5366565195332319,
      "grad_norm": 3.328125,
      "learning_rate": 8.752432652579284e-06,
      "loss": 1.07330627,
      "memory(GiB)": 112.26,
      "step": 21155,
      "train_speed(iter/s)": 1.127044
    },
    {
      "acc": 0.73316479,
      "epoch": 0.5367833587011669,
      "grad_norm": 4.46875,
      "learning_rate": 8.751739549618749e-06,
      "loss": 1.11866875,
      "memory(GiB)": 112.26,
      "step": 21160,
      "train_speed(iter/s)": 1.127085
    },
    {
      "acc": 0.73211203,
      "epoch": 0.536910197869102,
      "grad_norm": 4.15625,
      "learning_rate": 8.751046281639958e-06,
      "loss": 1.06426649,
      "memory(GiB)": 112.26,
      "step": 21165,
      "train_speed(iter/s)": 1.127107
    },
    {
      "acc": 0.74177217,
      "epoch": 0.5370370370370371,
      "grad_norm": 3.140625,
      "learning_rate": 8.750352848673405e-06,
      "loss": 1.11101608,
      "memory(GiB)": 112.26,
      "step": 21170,
      "train_speed(iter/s)": 1.12715
    },
    {
      "acc": 0.73216944,
      "epoch": 0.5371638762049721,
      "grad_norm": 3.9375,
      "learning_rate": 8.749659250749589e-06,
      "loss": 1.17324066,
      "memory(GiB)": 112.26,
      "step": 21175,
      "train_speed(iter/s)": 1.127202
    },
    {
      "acc": 0.74589787,
      "epoch": 0.5372907153729072,
      "grad_norm": 4.34375,
      "learning_rate": 8.748965487899019e-06,
      "loss": 1.06916113,
      "memory(GiB)": 112.26,
      "step": 21180,
      "train_speed(iter/s)": 1.127251
    },
    {
      "acc": 0.74246693,
      "epoch": 0.5374175545408422,
      "grad_norm": 3.984375,
      "learning_rate": 8.748271560152208e-06,
      "loss": 1.05902634,
      "memory(GiB)": 112.26,
      "step": 21185,
      "train_speed(iter/s)": 1.1273
    },
    {
      "acc": 0.7346652,
      "epoch": 0.5375443937087773,
      "grad_norm": 3.765625,
      "learning_rate": 8.74757746753968e-06,
      "loss": 1.11202736,
      "memory(GiB)": 112.26,
      "step": 21190,
      "train_speed(iter/s)": 1.127343
    },
    {
      "acc": 0.73876038,
      "epoch": 0.5376712328767124,
      "grad_norm": 4.65625,
      "learning_rate": 8.746883210091963e-06,
      "loss": 1.03935566,
      "memory(GiB)": 112.26,
      "step": 21195,
      "train_speed(iter/s)": 1.127376
    },
    {
      "acc": 0.75318317,
      "epoch": 0.5377980720446474,
      "grad_norm": 3.1875,
      "learning_rate": 8.746188787839593e-06,
      "loss": 1.02042027,
      "memory(GiB)": 112.26,
      "step": 21200,
      "train_speed(iter/s)": 1.127419
    },
    {
      "acc": 0.73249035,
      "epoch": 0.5379249112125825,
      "grad_norm": 3.296875,
      "learning_rate": 8.745494200813116e-06,
      "loss": 1.10929432,
      "memory(GiB)": 112.26,
      "step": 21205,
      "train_speed(iter/s)": 1.127461
    },
    {
      "acc": 0.7287066,
      "epoch": 0.5380517503805176,
      "grad_norm": 4.5625,
      "learning_rate": 8.74479944904308e-06,
      "loss": 1.13178434,
      "memory(GiB)": 112.26,
      "step": 21210,
      "train_speed(iter/s)": 1.127494
    },
    {
      "acc": 0.72665176,
      "epoch": 0.5381785895484525,
      "grad_norm": 3.796875,
      "learning_rate": 8.744104532560047e-06,
      "loss": 1.10127125,
      "memory(GiB)": 112.26,
      "step": 21215,
      "train_speed(iter/s)": 1.127514
    },
    {
      "acc": 0.71931067,
      "epoch": 0.5383054287163876,
      "grad_norm": 3.640625,
      "learning_rate": 8.74340945139458e-06,
      "loss": 1.17174206,
      "memory(GiB)": 112.26,
      "step": 21220,
      "train_speed(iter/s)": 1.12756
    },
    {
      "acc": 0.72984805,
      "epoch": 0.5384322678843226,
      "grad_norm": 5.40625,
      "learning_rate": 8.742714205577251e-06,
      "loss": 1.09515657,
      "memory(GiB)": 112.26,
      "step": 21225,
      "train_speed(iter/s)": 1.127581
    },
    {
      "acc": 0.74256368,
      "epoch": 0.5385591070522577,
      "grad_norm": 3.234375,
      "learning_rate": 8.742018795138642e-06,
      "loss": 1.01469765,
      "memory(GiB)": 112.26,
      "step": 21230,
      "train_speed(iter/s)": 1.127622
    },
    {
      "acc": 0.72711005,
      "epoch": 0.5386859462201928,
      "grad_norm": 3.796875,
      "learning_rate": 8.74132322010934e-06,
      "loss": 1.09016218,
      "memory(GiB)": 112.26,
      "step": 21235,
      "train_speed(iter/s)": 1.127638
    },
    {
      "acc": 0.73451695,
      "epoch": 0.5388127853881278,
      "grad_norm": 3.40625,
      "learning_rate": 8.740627480519937e-06,
      "loss": 1.07371244,
      "memory(GiB)": 112.26,
      "step": 21240,
      "train_speed(iter/s)": 1.127669
    },
    {
      "acc": 0.72239771,
      "epoch": 0.5389396245560629,
      "grad_norm": 3.984375,
      "learning_rate": 8.739931576401037e-06,
      "loss": 1.12171021,
      "memory(GiB)": 112.26,
      "step": 21245,
      "train_speed(iter/s)": 1.127693
    },
    {
      "acc": 0.72892861,
      "epoch": 0.539066463723998,
      "grad_norm": 3.5625,
      "learning_rate": 8.73923550778325e-06,
      "loss": 1.02693357,
      "memory(GiB)": 112.26,
      "step": 21250,
      "train_speed(iter/s)": 1.127736
    },
    {
      "acc": 0.73648539,
      "epoch": 0.539193302891933,
      "grad_norm": 3.75,
      "learning_rate": 8.73853927469719e-06,
      "loss": 1.13714981,
      "memory(GiB)": 112.26,
      "step": 21255,
      "train_speed(iter/s)": 1.127754
    },
    {
      "acc": 0.732442,
      "epoch": 0.5393201420598681,
      "grad_norm": 4.34375,
      "learning_rate": 8.73784287717348e-06,
      "loss": 1.09029427,
      "memory(GiB)": 112.26,
      "step": 21260,
      "train_speed(iter/s)": 1.127807
    },
    {
      "acc": 0.71165676,
      "epoch": 0.5394469812278031,
      "grad_norm": 3.5,
      "learning_rate": 8.737146315242755e-06,
      "loss": 1.199897,
      "memory(GiB)": 112.26,
      "step": 21265,
      "train_speed(iter/s)": 1.127839
    },
    {
      "acc": 0.72893701,
      "epoch": 0.5395738203957382,
      "grad_norm": 3.625,
      "learning_rate": 8.73644958893565e-06,
      "loss": 1.11168652,
      "memory(GiB)": 112.26,
      "step": 21270,
      "train_speed(iter/s)": 1.127888
    },
    {
      "acc": 0.73445587,
      "epoch": 0.5397006595636733,
      "grad_norm": 3.1875,
      "learning_rate": 8.735752698282807e-06,
      "loss": 1.06530132,
      "memory(GiB)": 112.26,
      "step": 21275,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.74501491,
      "epoch": 0.5398274987316083,
      "grad_norm": 3.390625,
      "learning_rate": 8.735055643314883e-06,
      "loss": 1.11637897,
      "memory(GiB)": 112.26,
      "step": 21280,
      "train_speed(iter/s)": 1.127982
    },
    {
      "acc": 0.72542257,
      "epoch": 0.5399543378995434,
      "grad_norm": 3.484375,
      "learning_rate": 8.734358424062536e-06,
      "loss": 1.10990963,
      "memory(GiB)": 112.26,
      "step": 21285,
      "train_speed(iter/s)": 1.128
    },
    {
      "acc": 0.74343548,
      "epoch": 0.5400811770674785,
      "grad_norm": 3.421875,
      "learning_rate": 8.733661040556433e-06,
      "loss": 1.05486221,
      "memory(GiB)": 112.26,
      "step": 21290,
      "train_speed(iter/s)": 1.128035
    },
    {
      "acc": 0.72470675,
      "epoch": 0.5402080162354135,
      "grad_norm": 3.828125,
      "learning_rate": 8.732963492827248e-06,
      "loss": 1.10055552,
      "memory(GiB)": 112.26,
      "step": 21295,
      "train_speed(iter/s)": 1.128078
    },
    {
      "acc": 0.72974405,
      "epoch": 0.5403348554033486,
      "grad_norm": 3.59375,
      "learning_rate": 8.732265780905661e-06,
      "loss": 1.10836258,
      "memory(GiB)": 112.26,
      "step": 21300,
      "train_speed(iter/s)": 1.128099
    },
    {
      "acc": 0.71789722,
      "epoch": 0.5404616945712836,
      "grad_norm": 3.484375,
      "learning_rate": 8.731567904822362e-06,
      "loss": 1.14331551,
      "memory(GiB)": 112.26,
      "step": 21305,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.74293613,
      "epoch": 0.5405885337392187,
      "grad_norm": 3.28125,
      "learning_rate": 8.730869864608047e-06,
      "loss": 0.99622917,
      "memory(GiB)": 112.26,
      "step": 21310,
      "train_speed(iter/s)": 1.128166
    },
    {
      "acc": 0.72731438,
      "epoch": 0.5407153729071538,
      "grad_norm": 4.03125,
      "learning_rate": 8.730171660293418e-06,
      "loss": 1.14387808,
      "memory(GiB)": 112.26,
      "step": 21315,
      "train_speed(iter/s)": 1.128208
    },
    {
      "acc": 0.73685427,
      "epoch": 0.5408422120750888,
      "grad_norm": 3.078125,
      "learning_rate": 8.729473291909185e-06,
      "loss": 1.07128067,
      "memory(GiB)": 112.26,
      "step": 21320,
      "train_speed(iter/s)": 1.128255
    },
    {
      "acc": 0.72271452,
      "epoch": 0.5409690512430239,
      "grad_norm": 3.6875,
      "learning_rate": 8.728774759486065e-06,
      "loss": 1.10085955,
      "memory(GiB)": 112.26,
      "step": 21325,
      "train_speed(iter/s)": 1.128304
    },
    {
      "acc": 0.72912531,
      "epoch": 0.541095890410959,
      "grad_norm": 3.34375,
      "learning_rate": 8.728076063054786e-06,
      "loss": 1.10008717,
      "memory(GiB)": 112.26,
      "step": 21330,
      "train_speed(iter/s)": 1.128343
    },
    {
      "acc": 0.71790619,
      "epoch": 0.541222729578894,
      "grad_norm": 3.8125,
      "learning_rate": 8.727377202646074e-06,
      "loss": 1.16770554,
      "memory(GiB)": 112.26,
      "step": 21335,
      "train_speed(iter/s)": 1.128403
    },
    {
      "acc": 0.73955393,
      "epoch": 0.541349568746829,
      "grad_norm": 4.375,
      "learning_rate": 8.726678178290673e-06,
      "loss": 1.13637981,
      "memory(GiB)": 112.26,
      "step": 21340,
      "train_speed(iter/s)": 1.128426
    },
    {
      "acc": 0.73653655,
      "epoch": 0.541476407914764,
      "grad_norm": 4.125,
      "learning_rate": 8.725978990019326e-06,
      "loss": 1.0799757,
      "memory(GiB)": 112.26,
      "step": 21345,
      "train_speed(iter/s)": 1.128481
    },
    {
      "acc": 0.73963556,
      "epoch": 0.5416032470826991,
      "grad_norm": 3.203125,
      "learning_rate": 8.72527963786279e-06,
      "loss": 1.07612419,
      "memory(GiB)": 112.26,
      "step": 21350,
      "train_speed(iter/s)": 1.128513
    },
    {
      "acc": 0.73010502,
      "epoch": 0.5417300862506342,
      "grad_norm": 3.234375,
      "learning_rate": 8.72458012185182e-06,
      "loss": 1.13491001,
      "memory(GiB)": 112.26,
      "step": 21355,
      "train_speed(iter/s)": 1.128556
    },
    {
      "acc": 0.73641381,
      "epoch": 0.5418569254185692,
      "grad_norm": 3.390625,
      "learning_rate": 8.72388044201719e-06,
      "loss": 1.06745262,
      "memory(GiB)": 112.26,
      "step": 21360,
      "train_speed(iter/s)": 1.128595
    },
    {
      "acc": 0.74667196,
      "epoch": 0.5419837645865043,
      "grad_norm": 4.09375,
      "learning_rate": 8.723180598389671e-06,
      "loss": 1.0018961,
      "memory(GiB)": 112.26,
      "step": 21365,
      "train_speed(iter/s)": 1.128612
    },
    {
      "acc": 0.72506928,
      "epoch": 0.5421106037544394,
      "grad_norm": 2.734375,
      "learning_rate": 8.722480591000046e-06,
      "loss": 1.13841543,
      "memory(GiB)": 112.26,
      "step": 21370,
      "train_speed(iter/s)": 1.128662
    },
    {
      "acc": 0.74887075,
      "epoch": 0.5422374429223744,
      "grad_norm": 4.90625,
      "learning_rate": 8.721780419879106e-06,
      "loss": 1.02455378,
      "memory(GiB)": 112.26,
      "step": 21375,
      "train_speed(iter/s)": 1.128705
    },
    {
      "acc": 0.73006887,
      "epoch": 0.5423642820903095,
      "grad_norm": 3.390625,
      "learning_rate": 8.721080085057646e-06,
      "loss": 1.10375967,
      "memory(GiB)": 112.26,
      "step": 21380,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.73225718,
      "epoch": 0.5424911212582445,
      "grad_norm": 4.90625,
      "learning_rate": 8.72037958656647e-06,
      "loss": 1.16991024,
      "memory(GiB)": 112.26,
      "step": 21385,
      "train_speed(iter/s)": 1.128777
    },
    {
      "acc": 0.72043033,
      "epoch": 0.5426179604261796,
      "grad_norm": 3.4375,
      "learning_rate": 8.71967892443639e-06,
      "loss": 1.11841574,
      "memory(GiB)": 112.26,
      "step": 21390,
      "train_speed(iter/s)": 1.128816
    },
    {
      "acc": 0.74169903,
      "epoch": 0.5427447995941147,
      "grad_norm": 4.25,
      "learning_rate": 8.718978098698226e-06,
      "loss": 1.08399868,
      "memory(GiB)": 112.26,
      "step": 21395,
      "train_speed(iter/s)": 1.12884
    },
    {
      "acc": 0.72715158,
      "epoch": 0.5428716387620497,
      "grad_norm": 4.375,
      "learning_rate": 8.718277109382799e-06,
      "loss": 1.12489586,
      "memory(GiB)": 112.26,
      "step": 21400,
      "train_speed(iter/s)": 1.128887
    },
    {
      "acc": 0.72984529,
      "epoch": 0.5429984779299848,
      "grad_norm": 4.5,
      "learning_rate": 8.717575956520942e-06,
      "loss": 1.14856987,
      "memory(GiB)": 112.26,
      "step": 21405,
      "train_speed(iter/s)": 1.128922
    },
    {
      "acc": 0.74308143,
      "epoch": 0.5431253170979199,
      "grad_norm": 3.25,
      "learning_rate": 8.716874640143498e-06,
      "loss": 1.0649231,
      "memory(GiB)": 112.26,
      "step": 21410,
      "train_speed(iter/s)": 1.128957
    },
    {
      "acc": 0.7341053,
      "epoch": 0.5432521562658549,
      "grad_norm": 4.78125,
      "learning_rate": 8.716173160281315e-06,
      "loss": 1.13214054,
      "memory(GiB)": 112.26,
      "step": 21415,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.70713677,
      "epoch": 0.54337899543379,
      "grad_norm": 4.65625,
      "learning_rate": 8.715471516965242e-06,
      "loss": 1.17313061,
      "memory(GiB)": 112.26,
      "step": 21420,
      "train_speed(iter/s)": 1.128982
    },
    {
      "acc": 0.72777119,
      "epoch": 0.543505834601725,
      "grad_norm": 3.84375,
      "learning_rate": 8.714769710226144e-06,
      "loss": 1.12762613,
      "memory(GiB)": 112.26,
      "step": 21425,
      "train_speed(iter/s)": 1.129025
    },
    {
      "acc": 0.73476176,
      "epoch": 0.5436326737696601,
      "grad_norm": 3.9375,
      "learning_rate": 8.714067740094888e-06,
      "loss": 1.09674473,
      "memory(GiB)": 112.26,
      "step": 21430,
      "train_speed(iter/s)": 1.129058
    },
    {
      "acc": 0.74031057,
      "epoch": 0.5437595129375952,
      "grad_norm": 5.5625,
      "learning_rate": 8.713365606602353e-06,
      "loss": 1.06913242,
      "memory(GiB)": 112.26,
      "step": 21435,
      "train_speed(iter/s)": 1.129095
    },
    {
      "acc": 0.75092144,
      "epoch": 0.5438863521055302,
      "grad_norm": 4.0625,
      "learning_rate": 8.71266330977942e-06,
      "loss": 1.02718964,
      "memory(GiB)": 112.26,
      "step": 21440,
      "train_speed(iter/s)": 1.129099
    },
    {
      "acc": 0.74454222,
      "epoch": 0.5440131912734653,
      "grad_norm": 3.453125,
      "learning_rate": 8.711960849656975e-06,
      "loss": 1.04129562,
      "memory(GiB)": 112.26,
      "step": 21445,
      "train_speed(iter/s)": 1.129123
    },
    {
      "acc": 0.72914505,
      "epoch": 0.5441400304414004,
      "grad_norm": 4.375,
      "learning_rate": 8.711258226265922e-06,
      "loss": 1.10062075,
      "memory(GiB)": 112.26,
      "step": 21450,
      "train_speed(iter/s)": 1.129148
    },
    {
      "acc": 0.72985716,
      "epoch": 0.5442668696093353,
      "grad_norm": 3.8125,
      "learning_rate": 8.710555439637163e-06,
      "loss": 1.12736502,
      "memory(GiB)": 112.26,
      "step": 21455,
      "train_speed(iter/s)": 1.129201
    },
    {
      "acc": 0.73243699,
      "epoch": 0.5443937087772704,
      "grad_norm": 4.375,
      "learning_rate": 8.709852489801608e-06,
      "loss": 1.05940495,
      "memory(GiB)": 112.26,
      "step": 21460,
      "train_speed(iter/s)": 1.129247
    },
    {
      "acc": 0.72591667,
      "epoch": 0.5445205479452054,
      "grad_norm": 4.15625,
      "learning_rate": 8.709149376790177e-06,
      "loss": 1.10769043,
      "memory(GiB)": 112.26,
      "step": 21465,
      "train_speed(iter/s)": 1.1293
    },
    {
      "acc": 0.73170509,
      "epoch": 0.5446473871131405,
      "grad_norm": 3.90625,
      "learning_rate": 8.708446100633796e-06,
      "loss": 1.09567108,
      "memory(GiB)": 112.26,
      "step": 21470,
      "train_speed(iter/s)": 1.129318
    },
    {
      "acc": 0.76125336,
      "epoch": 0.5447742262810756,
      "grad_norm": 4.25,
      "learning_rate": 8.707742661363401e-06,
      "loss": 0.99837866,
      "memory(GiB)": 112.26,
      "step": 21475,
      "train_speed(iter/s)": 1.129375
    },
    {
      "acc": 0.71950226,
      "epoch": 0.5449010654490106,
      "grad_norm": 4.21875,
      "learning_rate": 8.707039059009927e-06,
      "loss": 1.18859024,
      "memory(GiB)": 112.26,
      "step": 21480,
      "train_speed(iter/s)": 1.129391
    },
    {
      "acc": 0.73354216,
      "epoch": 0.5450279046169457,
      "grad_norm": 4.0625,
      "learning_rate": 8.706335293604326e-06,
      "loss": 1.07826614,
      "memory(GiB)": 112.26,
      "step": 21485,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.72965908,
      "epoch": 0.5451547437848808,
      "grad_norm": 3.40625,
      "learning_rate": 8.705631365177552e-06,
      "loss": 1.12434998,
      "memory(GiB)": 112.26,
      "step": 21490,
      "train_speed(iter/s)": 1.129448
    },
    {
      "acc": 0.73208652,
      "epoch": 0.5452815829528158,
      "grad_norm": 3.921875,
      "learning_rate": 8.704927273760563e-06,
      "loss": 1.08023281,
      "memory(GiB)": 112.26,
      "step": 21495,
      "train_speed(iter/s)": 1.129481
    },
    {
      "acc": 0.728091,
      "epoch": 0.5454084221207509,
      "grad_norm": 3.421875,
      "learning_rate": 8.704223019384334e-06,
      "loss": 1.11501751,
      "memory(GiB)": 112.26,
      "step": 21500,
      "train_speed(iter/s)": 1.129519
    },
    {
      "acc": 0.74346757,
      "epoch": 0.5455352612886859,
      "grad_norm": 4.0625,
      "learning_rate": 8.703518602079836e-06,
      "loss": 1.04982815,
      "memory(GiB)": 112.26,
      "step": 21505,
      "train_speed(iter/s)": 1.129561
    },
    {
      "acc": 0.72891169,
      "epoch": 0.545662100456621,
      "grad_norm": 3.46875,
      "learning_rate": 8.702814021878057e-06,
      "loss": 1.10506201,
      "memory(GiB)": 112.26,
      "step": 21510,
      "train_speed(iter/s)": 1.129596
    },
    {
      "acc": 0.72655716,
      "epoch": 0.5457889396245561,
      "grad_norm": 3.578125,
      "learning_rate": 8.702109278809985e-06,
      "loss": 1.13427305,
      "memory(GiB)": 112.26,
      "step": 21515,
      "train_speed(iter/s)": 1.129646
    },
    {
      "acc": 0.73127022,
      "epoch": 0.5459157787924911,
      "grad_norm": 3.0,
      "learning_rate": 8.70140437290662e-06,
      "loss": 1.11225681,
      "memory(GiB)": 112.26,
      "step": 21520,
      "train_speed(iter/s)": 1.129688
    },
    {
      "acc": 0.7268703,
      "epoch": 0.5460426179604262,
      "grad_norm": 3.6875,
      "learning_rate": 8.700699304198963e-06,
      "loss": 1.16549997,
      "memory(GiB)": 112.26,
      "step": 21525,
      "train_speed(iter/s)": 1.129723
    },
    {
      "acc": 0.72641392,
      "epoch": 0.5461694571283613,
      "grad_norm": 3.65625,
      "learning_rate": 8.699994072718026e-06,
      "loss": 1.12666845,
      "memory(GiB)": 112.26,
      "step": 21530,
      "train_speed(iter/s)": 1.129713
    },
    {
      "acc": 0.74233179,
      "epoch": 0.5462962962962963,
      "grad_norm": 3.859375,
      "learning_rate": 8.699288678494833e-06,
      "loss": 1.05124798,
      "memory(GiB)": 112.26,
      "step": 21535,
      "train_speed(iter/s)": 1.129762
    },
    {
      "acc": 0.72528505,
      "epoch": 0.5464231354642314,
      "grad_norm": 3.453125,
      "learning_rate": 8.698583121560407e-06,
      "loss": 1.1278553,
      "memory(GiB)": 112.26,
      "step": 21540,
      "train_speed(iter/s)": 1.129808
    },
    {
      "acc": 0.72383089,
      "epoch": 0.5465499746321664,
      "grad_norm": 3.640625,
      "learning_rate": 8.697877401945784e-06,
      "loss": 1.09637642,
      "memory(GiB)": 112.26,
      "step": 21545,
      "train_speed(iter/s)": 1.129858
    },
    {
      "acc": 0.7507935,
      "epoch": 0.5466768138001015,
      "grad_norm": 3.53125,
      "learning_rate": 8.697171519682002e-06,
      "loss": 1.01898518,
      "memory(GiB)": 112.26,
      "step": 21550,
      "train_speed(iter/s)": 1.129884
    },
    {
      "acc": 0.73234997,
      "epoch": 0.5468036529680366,
      "grad_norm": 3.265625,
      "learning_rate": 8.696465474800109e-06,
      "loss": 1.07425919,
      "memory(GiB)": 112.26,
      "step": 21555,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.7308857,
      "epoch": 0.5469304921359716,
      "grad_norm": 3.4375,
      "learning_rate": 8.695759267331162e-06,
      "loss": 1.10216932,
      "memory(GiB)": 112.26,
      "step": 21560,
      "train_speed(iter/s)": 1.129966
    },
    {
      "acc": 0.73299537,
      "epoch": 0.5470573313039067,
      "grad_norm": 3.28125,
      "learning_rate": 8.69505289730622e-06,
      "loss": 1.09906359,
      "memory(GiB)": 112.26,
      "step": 21565,
      "train_speed(iter/s)": 1.130007
    },
    {
      "acc": 0.73836002,
      "epoch": 0.5471841704718418,
      "grad_norm": 4.3125,
      "learning_rate": 8.694346364756356e-06,
      "loss": 1.08618574,
      "memory(GiB)": 112.26,
      "step": 21570,
      "train_speed(iter/s)": 1.130052
    },
    {
      "acc": 0.73840294,
      "epoch": 0.5473110096397767,
      "grad_norm": 3.21875,
      "learning_rate": 8.693639669712645e-06,
      "loss": 1.08449764,
      "memory(GiB)": 112.26,
      "step": 21575,
      "train_speed(iter/s)": 1.130078
    },
    {
      "acc": 0.73659821,
      "epoch": 0.5474378488077118,
      "grad_norm": 4.21875,
      "learning_rate": 8.692932812206171e-06,
      "loss": 1.05038528,
      "memory(GiB)": 112.26,
      "step": 21580,
      "train_speed(iter/s)": 1.130105
    },
    {
      "acc": 0.72839499,
      "epoch": 0.5475646879756468,
      "grad_norm": 3.484375,
      "learning_rate": 8.692225792268023e-06,
      "loss": 1.09919319,
      "memory(GiB)": 112.26,
      "step": 21585,
      "train_speed(iter/s)": 1.130139
    },
    {
      "acc": 0.73239865,
      "epoch": 0.5476915271435819,
      "grad_norm": 3.953125,
      "learning_rate": 8.691518609929302e-06,
      "loss": 1.12857218,
      "memory(GiB)": 112.26,
      "step": 21590,
      "train_speed(iter/s)": 1.130167
    },
    {
      "acc": 0.73084726,
      "epoch": 0.547818366311517,
      "grad_norm": 3.1875,
      "learning_rate": 8.690811265221108e-06,
      "loss": 1.06000919,
      "memory(GiB)": 112.26,
      "step": 21595,
      "train_speed(iter/s)": 1.1302
    },
    {
      "acc": 0.73723469,
      "epoch": 0.547945205479452,
      "grad_norm": 3.53125,
      "learning_rate": 8.690103758174558e-06,
      "loss": 1.09722214,
      "memory(GiB)": 112.26,
      "step": 21600,
      "train_speed(iter/s)": 1.13024
    },
    {
      "acc": 0.71053391,
      "epoch": 0.5480720446473871,
      "grad_norm": 4.125,
      "learning_rate": 8.68939608882077e-06,
      "loss": 1.11974144,
      "memory(GiB)": 112.26,
      "step": 21605,
      "train_speed(iter/s)": 1.130279
    },
    {
      "acc": 0.7220654,
      "epoch": 0.5481988838153222,
      "grad_norm": 4.21875,
      "learning_rate": 8.688688257190869e-06,
      "loss": 1.12097263,
      "memory(GiB)": 112.26,
      "step": 21610,
      "train_speed(iter/s)": 1.130327
    },
    {
      "acc": 0.75151854,
      "epoch": 0.5483257229832572,
      "grad_norm": 4.625,
      "learning_rate": 8.68798026331599e-06,
      "loss": 1.01784058,
      "memory(GiB)": 112.26,
      "step": 21615,
      "train_speed(iter/s)": 1.130372
    },
    {
      "acc": 0.72576046,
      "epoch": 0.5484525621511923,
      "grad_norm": 3.375,
      "learning_rate": 8.687272107227274e-06,
      "loss": 1.15073471,
      "memory(GiB)": 112.26,
      "step": 21620,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.71283817,
      "epoch": 0.5485794013191273,
      "grad_norm": 3.0625,
      "learning_rate": 8.686563788955867e-06,
      "loss": 1.12939548,
      "memory(GiB)": 112.26,
      "step": 21625,
      "train_speed(iter/s)": 1.13046
    },
    {
      "acc": 0.73369904,
      "epoch": 0.5487062404870624,
      "grad_norm": 3.828125,
      "learning_rate": 8.685855308532926e-06,
      "loss": 1.05506554,
      "memory(GiB)": 112.26,
      "step": 21630,
      "train_speed(iter/s)": 1.130492
    },
    {
      "acc": 0.74365106,
      "epoch": 0.5488330796549975,
      "grad_norm": 4.46875,
      "learning_rate": 8.685146665989613e-06,
      "loss": 1.08528824,
      "memory(GiB)": 112.26,
      "step": 21635,
      "train_speed(iter/s)": 1.130543
    },
    {
      "acc": 0.73096924,
      "epoch": 0.5489599188229325,
      "grad_norm": 3.546875,
      "learning_rate": 8.684437861357095e-06,
      "loss": 1.06516399,
      "memory(GiB)": 112.26,
      "step": 21640,
      "train_speed(iter/s)": 1.130598
    },
    {
      "acc": 0.73480086,
      "epoch": 0.5490867579908676,
      "grad_norm": 3.546875,
      "learning_rate": 8.683728894666551e-06,
      "loss": 1.02542419,
      "memory(GiB)": 112.26,
      "step": 21645,
      "train_speed(iter/s)": 1.130655
    },
    {
      "acc": 0.73115711,
      "epoch": 0.5492135971588027,
      "grad_norm": 3.84375,
      "learning_rate": 8.683019765949163e-06,
      "loss": 1.11484575,
      "memory(GiB)": 112.26,
      "step": 21650,
      "train_speed(iter/s)": 1.130701
    },
    {
      "acc": 0.73668418,
      "epoch": 0.5493404363267377,
      "grad_norm": 3.890625,
      "learning_rate": 8.682310475236123e-06,
      "loss": 1.0833003,
      "memory(GiB)": 112.26,
      "step": 21655,
      "train_speed(iter/s)": 1.130738
    },
    {
      "acc": 0.72307677,
      "epoch": 0.5494672754946728,
      "grad_norm": 3.875,
      "learning_rate": 8.681601022558628e-06,
      "loss": 1.12027216,
      "memory(GiB)": 112.26,
      "step": 21660,
      "train_speed(iter/s)": 1.130779
    },
    {
      "acc": 0.73735466,
      "epoch": 0.5495941146626078,
      "grad_norm": 3.5,
      "learning_rate": 8.680891407947882e-06,
      "loss": 1.08422832,
      "memory(GiB)": 112.26,
      "step": 21665,
      "train_speed(iter/s)": 1.130826
    },
    {
      "acc": 0.73218431,
      "epoch": 0.5497209538305429,
      "grad_norm": 3.671875,
      "learning_rate": 8.680181631435098e-06,
      "loss": 1.18539047,
      "memory(GiB)": 112.26,
      "step": 21670,
      "train_speed(iter/s)": 1.130865
    },
    {
      "acc": 0.73576369,
      "epoch": 0.549847792998478,
      "grad_norm": 4.375,
      "learning_rate": 8.679471693051495e-06,
      "loss": 1.09172306,
      "memory(GiB)": 112.26,
      "step": 21675,
      "train_speed(iter/s)": 1.130908
    },
    {
      "acc": 0.74073567,
      "epoch": 0.549974632166413,
      "grad_norm": 3.796875,
      "learning_rate": 8.678761592828301e-06,
      "loss": 1.0940012,
      "memory(GiB)": 112.26,
      "step": 21680,
      "train_speed(iter/s)": 1.130935
    },
    {
      "acc": 0.73033462,
      "epoch": 0.5501014713343481,
      "grad_norm": 3.65625,
      "learning_rate": 8.678051330796746e-06,
      "loss": 1.06839113,
      "memory(GiB)": 112.26,
      "step": 21685,
      "train_speed(iter/s)": 1.130894
    },
    {
      "acc": 0.71604586,
      "epoch": 0.5502283105022832,
      "grad_norm": 3.953125,
      "learning_rate": 8.677340906988072e-06,
      "loss": 1.11900635,
      "memory(GiB)": 112.26,
      "step": 21690,
      "train_speed(iter/s)": 1.130939
    },
    {
      "acc": 0.73836164,
      "epoch": 0.5503551496702181,
      "grad_norm": 3.5625,
      "learning_rate": 8.676630321433528e-06,
      "loss": 1.0312027,
      "memory(GiB)": 112.26,
      "step": 21695,
      "train_speed(iter/s)": 1.130969
    },
    {
      "acc": 0.73860755,
      "epoch": 0.5504819888381532,
      "grad_norm": 3.484375,
      "learning_rate": 8.675919574164366e-06,
      "loss": 1.11230412,
      "memory(GiB)": 112.26,
      "step": 21700,
      "train_speed(iter/s)": 1.130987
    },
    {
      "acc": 0.73737397,
      "epoch": 0.5506088280060882,
      "grad_norm": 3.125,
      "learning_rate": 8.675208665211851e-06,
      "loss": 1.08614845,
      "memory(GiB)": 112.26,
      "step": 21705,
      "train_speed(iter/s)": 1.13102
    },
    {
      "acc": 0.72988482,
      "epoch": 0.5507356671740233,
      "grad_norm": 5.1875,
      "learning_rate": 8.674497594607249e-06,
      "loss": 1.1075182,
      "memory(GiB)": 112.26,
      "step": 21710,
      "train_speed(iter/s)": 1.13106
    },
    {
      "acc": 0.72343349,
      "epoch": 0.5508625063419584,
      "grad_norm": 4.4375,
      "learning_rate": 8.673786362381837e-06,
      "loss": 1.14247417,
      "memory(GiB)": 112.26,
      "step": 21715,
      "train_speed(iter/s)": 1.131109
    },
    {
      "acc": 0.73453298,
      "epoch": 0.5509893455098934,
      "grad_norm": 3.4375,
      "learning_rate": 8.673074968566899e-06,
      "loss": 1.04700947,
      "memory(GiB)": 112.26,
      "step": 21720,
      "train_speed(iter/s)": 1.131145
    },
    {
      "acc": 0.71739378,
      "epoch": 0.5511161846778285,
      "grad_norm": 4.34375,
      "learning_rate": 8.672363413193724e-06,
      "loss": 1.14859905,
      "memory(GiB)": 112.26,
      "step": 21725,
      "train_speed(iter/s)": 1.131149
    },
    {
      "acc": 0.73115273,
      "epoch": 0.5512430238457636,
      "grad_norm": 2.953125,
      "learning_rate": 8.671651696293613e-06,
      "loss": 1.08664675,
      "memory(GiB)": 112.26,
      "step": 21730,
      "train_speed(iter/s)": 1.13118
    },
    {
      "acc": 0.72659721,
      "epoch": 0.5513698630136986,
      "grad_norm": 4.0625,
      "learning_rate": 8.670939817897865e-06,
      "loss": 1.14001236,
      "memory(GiB)": 112.26,
      "step": 21735,
      "train_speed(iter/s)": 1.131234
    },
    {
      "acc": 0.7293293,
      "epoch": 0.5514967021816337,
      "grad_norm": 3.0,
      "learning_rate": 8.670227778037796e-06,
      "loss": 1.10758553,
      "memory(GiB)": 112.26,
      "step": 21740,
      "train_speed(iter/s)": 1.131261
    },
    {
      "acc": 0.74117236,
      "epoch": 0.5516235413495687,
      "grad_norm": 4.15625,
      "learning_rate": 8.669515576744722e-06,
      "loss": 1.08084564,
      "memory(GiB)": 112.26,
      "step": 21745,
      "train_speed(iter/s)": 1.131294
    },
    {
      "acc": 0.72341661,
      "epoch": 0.5517503805175038,
      "grad_norm": 3.890625,
      "learning_rate": 8.66880321404997e-06,
      "loss": 1.11874905,
      "memory(GiB)": 112.26,
      "step": 21750,
      "train_speed(iter/s)": 1.131335
    },
    {
      "acc": 0.74813824,
      "epoch": 0.5518772196854389,
      "grad_norm": 4.59375,
      "learning_rate": 8.668090689984872e-06,
      "loss": 1.06203775,
      "memory(GiB)": 112.26,
      "step": 21755,
      "train_speed(iter/s)": 1.131362
    },
    {
      "acc": 0.7318512,
      "epoch": 0.5520040588533739,
      "grad_norm": 3.734375,
      "learning_rate": 8.667378004580769e-06,
      "loss": 1.05639172,
      "memory(GiB)": 112.26,
      "step": 21760,
      "train_speed(iter/s)": 1.131411
    },
    {
      "acc": 0.73938041,
      "epoch": 0.552130898021309,
      "grad_norm": 3.640625,
      "learning_rate": 8.666665157869007e-06,
      "loss": 1.0658637,
      "memory(GiB)": 112.26,
      "step": 21765,
      "train_speed(iter/s)": 1.131461
    },
    {
      "acc": 0.73345876,
      "epoch": 0.5522577371892441,
      "grad_norm": 3.609375,
      "learning_rate": 8.665952149880942e-06,
      "loss": 1.11385155,
      "memory(GiB)": 112.26,
      "step": 21770,
      "train_speed(iter/s)": 1.131498
    },
    {
      "acc": 0.74621758,
      "epoch": 0.5523845763571791,
      "grad_norm": 3.96875,
      "learning_rate": 8.665238980647934e-06,
      "loss": 1.00974007,
      "memory(GiB)": 112.26,
      "step": 21775,
      "train_speed(iter/s)": 1.13155
    },
    {
      "acc": 0.72871685,
      "epoch": 0.5525114155251142,
      "grad_norm": 4.0625,
      "learning_rate": 8.66452565020135e-06,
      "loss": 1.110952,
      "memory(GiB)": 112.26,
      "step": 21780,
      "train_speed(iter/s)": 1.131566
    },
    {
      "acc": 0.72759318,
      "epoch": 0.5526382546930492,
      "grad_norm": 3.859375,
      "learning_rate": 8.663812158572568e-06,
      "loss": 1.08599615,
      "memory(GiB)": 112.26,
      "step": 21785,
      "train_speed(iter/s)": 1.13158
    },
    {
      "acc": 0.74507799,
      "epoch": 0.5527650938609843,
      "grad_norm": 4.375,
      "learning_rate": 8.663098505792971e-06,
      "loss": 1.03957806,
      "memory(GiB)": 112.26,
      "step": 21790,
      "train_speed(iter/s)": 1.131624
    },
    {
      "acc": 0.71966553,
      "epoch": 0.5528919330289194,
      "grad_norm": 3.421875,
      "learning_rate": 8.662384691893947e-06,
      "loss": 1.09063158,
      "memory(GiB)": 112.26,
      "step": 21795,
      "train_speed(iter/s)": 1.131661
    },
    {
      "acc": 0.73326807,
      "epoch": 0.5530187721968544,
      "grad_norm": 3.421875,
      "learning_rate": 8.661670716906889e-06,
      "loss": 1.04947281,
      "memory(GiB)": 112.26,
      "step": 21800,
      "train_speed(iter/s)": 1.131696
    },
    {
      "acc": 0.73156939,
      "epoch": 0.5531456113647895,
      "grad_norm": 3.859375,
      "learning_rate": 8.66095658086321e-06,
      "loss": 1.16531639,
      "memory(GiB)": 112.26,
      "step": 21805,
      "train_speed(iter/s)": 1.131745
    },
    {
      "acc": 0.72549367,
      "epoch": 0.5532724505327246,
      "grad_norm": 3.84375,
      "learning_rate": 8.660242283794312e-06,
      "loss": 1.09023972,
      "memory(GiB)": 112.26,
      "step": 21810,
      "train_speed(iter/s)": 1.131774
    },
    {
      "acc": 0.72211981,
      "epoch": 0.5533992897006595,
      "grad_norm": 4.34375,
      "learning_rate": 8.659527825731617e-06,
      "loss": 1.14493103,
      "memory(GiB)": 112.26,
      "step": 21815,
      "train_speed(iter/s)": 1.131821
    },
    {
      "acc": 0.72459741,
      "epoch": 0.5535261288685946,
      "grad_norm": 4.125,
      "learning_rate": 8.65881320670655e-06,
      "loss": 1.08351364,
      "memory(GiB)": 112.26,
      "step": 21820,
      "train_speed(iter/s)": 1.131853
    },
    {
      "acc": 0.73364873,
      "epoch": 0.5536529680365296,
      "grad_norm": 3.578125,
      "learning_rate": 8.658098426750543e-06,
      "loss": 1.12219076,
      "memory(GiB)": 112.26,
      "step": 21825,
      "train_speed(iter/s)": 1.131893
    },
    {
      "acc": 0.71896172,
      "epoch": 0.5537798072044647,
      "grad_norm": 3.40625,
      "learning_rate": 8.657383485895034e-06,
      "loss": 1.1611805,
      "memory(GiB)": 112.26,
      "step": 21830,
      "train_speed(iter/s)": 1.131937
    },
    {
      "acc": 0.74667482,
      "epoch": 0.5539066463723998,
      "grad_norm": 3.78125,
      "learning_rate": 8.656668384171472e-06,
      "loss": 1.1077095,
      "memory(GiB)": 112.26,
      "step": 21835,
      "train_speed(iter/s)": 1.131976
    },
    {
      "acc": 0.74838219,
      "epoch": 0.5540334855403348,
      "grad_norm": 4.9375,
      "learning_rate": 8.655953121611307e-06,
      "loss": 1.07725716,
      "memory(GiB)": 112.26,
      "step": 21840,
      "train_speed(iter/s)": 1.132015
    },
    {
      "acc": 0.73225613,
      "epoch": 0.5541603247082699,
      "grad_norm": 3.4375,
      "learning_rate": 8.655237698246002e-06,
      "loss": 1.11677332,
      "memory(GiB)": 112.26,
      "step": 21845,
      "train_speed(iter/s)": 1.132042
    },
    {
      "acc": 0.73257408,
      "epoch": 0.554287163876205,
      "grad_norm": 3.953125,
      "learning_rate": 8.654522114107024e-06,
      "loss": 1.04033175,
      "memory(GiB)": 112.26,
      "step": 21850,
      "train_speed(iter/s)": 1.132084
    },
    {
      "acc": 0.73533998,
      "epoch": 0.55441400304414,
      "grad_norm": 3.625,
      "learning_rate": 8.653806369225846e-06,
      "loss": 1.06725655,
      "memory(GiB)": 112.26,
      "step": 21855,
      "train_speed(iter/s)": 1.13213
    },
    {
      "acc": 0.72866755,
      "epoch": 0.5545408422120751,
      "grad_norm": 3.78125,
      "learning_rate": 8.65309046363395e-06,
      "loss": 1.06238661,
      "memory(GiB)": 112.26,
      "step": 21860,
      "train_speed(iter/s)": 1.132155
    },
    {
      "acc": 0.72595959,
      "epoch": 0.5546676813800101,
      "grad_norm": 3.6875,
      "learning_rate": 8.652374397362828e-06,
      "loss": 1.07174072,
      "memory(GiB)": 112.26,
      "step": 21865,
      "train_speed(iter/s)": 1.132181
    },
    {
      "acc": 0.73985758,
      "epoch": 0.5547945205479452,
      "grad_norm": 3.140625,
      "learning_rate": 8.651658170443972e-06,
      "loss": 1.0162962,
      "memory(GiB)": 112.26,
      "step": 21870,
      "train_speed(iter/s)": 1.132203
    },
    {
      "acc": 0.74328499,
      "epoch": 0.5549213597158803,
      "grad_norm": 4.15625,
      "learning_rate": 8.650941782908886e-06,
      "loss": 1.05137863,
      "memory(GiB)": 112.26,
      "step": 21875,
      "train_speed(iter/s)": 1.13225
    },
    {
      "acc": 0.75285664,
      "epoch": 0.5550481988838153,
      "grad_norm": 2.734375,
      "learning_rate": 8.65022523478908e-06,
      "loss": 1.02693014,
      "memory(GiB)": 112.26,
      "step": 21880,
      "train_speed(iter/s)": 1.132287
    },
    {
      "acc": 0.73672256,
      "epoch": 0.5551750380517504,
      "grad_norm": 3.4375,
      "learning_rate": 8.649508526116073e-06,
      "loss": 1.08460598,
      "memory(GiB)": 112.26,
      "step": 21885,
      "train_speed(iter/s)": 1.132314
    },
    {
      "acc": 0.72455559,
      "epoch": 0.5553018772196855,
      "grad_norm": 3.984375,
      "learning_rate": 8.648791656921384e-06,
      "loss": 1.08355961,
      "memory(GiB)": 112.26,
      "step": 21890,
      "train_speed(iter/s)": 1.132362
    },
    {
      "acc": 0.74241438,
      "epoch": 0.5554287163876205,
      "grad_norm": 3.578125,
      "learning_rate": 8.648074627236549e-06,
      "loss": 1.05883141,
      "memory(GiB)": 112.26,
      "step": 21895,
      "train_speed(iter/s)": 1.13238
    },
    {
      "acc": 0.74003,
      "epoch": 0.5555555555555556,
      "grad_norm": 4.8125,
      "learning_rate": 8.647357437093104e-06,
      "loss": 1.10298758,
      "memory(GiB)": 112.26,
      "step": 21900,
      "train_speed(iter/s)": 1.132414
    },
    {
      "acc": 0.73658895,
      "epoch": 0.5556823947234906,
      "grad_norm": 3.5,
      "learning_rate": 8.646640086522595e-06,
      "loss": 1.08935471,
      "memory(GiB)": 112.26,
      "step": 21905,
      "train_speed(iter/s)": 1.132461
    },
    {
      "acc": 0.73447003,
      "epoch": 0.5558092338914257,
      "grad_norm": 4.0,
      "learning_rate": 8.645922575556575e-06,
      "loss": 1.12292576,
      "memory(GiB)": 112.26,
      "step": 21910,
      "train_speed(iter/s)": 1.132495
    },
    {
      "acc": 0.73435869,
      "epoch": 0.5559360730593608,
      "grad_norm": 3.328125,
      "learning_rate": 8.645204904226601e-06,
      "loss": 1.10247936,
      "memory(GiB)": 112.26,
      "step": 21915,
      "train_speed(iter/s)": 1.132515
    },
    {
      "acc": 0.74723182,
      "epoch": 0.5560629122272958,
      "grad_norm": 4.125,
      "learning_rate": 8.64448707256424e-06,
      "loss": 1.03154545,
      "memory(GiB)": 112.26,
      "step": 21920,
      "train_speed(iter/s)": 1.132564
    },
    {
      "acc": 0.73679085,
      "epoch": 0.5561897513952309,
      "grad_norm": 3.3125,
      "learning_rate": 8.643769080601067e-06,
      "loss": 1.06249485,
      "memory(GiB)": 112.26,
      "step": 21925,
      "train_speed(iter/s)": 1.132612
    },
    {
      "acc": 0.74574857,
      "epoch": 0.556316590563166,
      "grad_norm": 3.859375,
      "learning_rate": 8.643050928368661e-06,
      "loss": 1.00799179,
      "memory(GiB)": 112.26,
      "step": 21930,
      "train_speed(iter/s)": 1.132667
    },
    {
      "acc": 0.74266577,
      "epoch": 0.556443429731101,
      "grad_norm": 4.03125,
      "learning_rate": 8.642332615898611e-06,
      "loss": 1.06654215,
      "memory(GiB)": 112.26,
      "step": 21935,
      "train_speed(iter/s)": 1.1327
    },
    {
      "acc": 0.73414688,
      "epoch": 0.556570268899036,
      "grad_norm": 4.03125,
      "learning_rate": 8.64161414322251e-06,
      "loss": 1.03065186,
      "memory(GiB)": 112.26,
      "step": 21940,
      "train_speed(iter/s)": 1.132726
    },
    {
      "acc": 0.74846792,
      "epoch": 0.556697108066971,
      "grad_norm": 3.96875,
      "learning_rate": 8.64089551037196e-06,
      "loss": 1.01872234,
      "memory(GiB)": 112.26,
      "step": 21945,
      "train_speed(iter/s)": 1.132744
    },
    {
      "acc": 0.73086576,
      "epoch": 0.5568239472349061,
      "grad_norm": 3.140625,
      "learning_rate": 8.640176717378573e-06,
      "loss": 1.08590107,
      "memory(GiB)": 112.26,
      "step": 21950,
      "train_speed(iter/s)": 1.132765
    },
    {
      "acc": 0.73766146,
      "epoch": 0.5569507864028412,
      "grad_norm": 3.890625,
      "learning_rate": 8.639457764273957e-06,
      "loss": 1.11797514,
      "memory(GiB)": 112.26,
      "step": 21955,
      "train_speed(iter/s)": 1.13279
    },
    {
      "acc": 0.71767344,
      "epoch": 0.5570776255707762,
      "grad_norm": 3.671875,
      "learning_rate": 8.638738651089744e-06,
      "loss": 1.10889492,
      "memory(GiB)": 112.26,
      "step": 21960,
      "train_speed(iter/s)": 1.132823
    },
    {
      "acc": 0.72700868,
      "epoch": 0.5572044647387113,
      "grad_norm": 3.890625,
      "learning_rate": 8.638019377857555e-06,
      "loss": 1.10939302,
      "memory(GiB)": 112.26,
      "step": 21965,
      "train_speed(iter/s)": 1.132834
    },
    {
      "acc": 0.73331699,
      "epoch": 0.5573313039066464,
      "grad_norm": 5.09375,
      "learning_rate": 8.637299944609034e-06,
      "loss": 1.14097261,
      "memory(GiB)": 112.26,
      "step": 21970,
      "train_speed(iter/s)": 1.132852
    },
    {
      "acc": 0.72962041,
      "epoch": 0.5574581430745814,
      "grad_norm": 4.3125,
      "learning_rate": 8.636580351375821e-06,
      "loss": 1.10180149,
      "memory(GiB)": 112.26,
      "step": 21975,
      "train_speed(iter/s)": 1.132887
    },
    {
      "acc": 0.72835979,
      "epoch": 0.5575849822425165,
      "grad_norm": 4.25,
      "learning_rate": 8.635860598189569e-06,
      "loss": 1.15067196,
      "memory(GiB)": 112.26,
      "step": 21980,
      "train_speed(iter/s)": 1.132913
    },
    {
      "acc": 0.73025484,
      "epoch": 0.5577118214104515,
      "grad_norm": 3.1875,
      "learning_rate": 8.635140685081936e-06,
      "loss": 1.12345247,
      "memory(GiB)": 112.26,
      "step": 21985,
      "train_speed(iter/s)": 1.132951
    },
    {
      "acc": 0.7356319,
      "epoch": 0.5578386605783866,
      "grad_norm": 3.890625,
      "learning_rate": 8.634420612084583e-06,
      "loss": 1.07874222,
      "memory(GiB)": 112.26,
      "step": 21990,
      "train_speed(iter/s)": 1.132985
    },
    {
      "acc": 0.72767429,
      "epoch": 0.5579654997463217,
      "grad_norm": 3.5625,
      "learning_rate": 8.633700379229187e-06,
      "loss": 1.12178049,
      "memory(GiB)": 112.26,
      "step": 21995,
      "train_speed(iter/s)": 1.133015
    },
    {
      "acc": 0.72900991,
      "epoch": 0.5580923389142567,
      "grad_norm": 4.25,
      "learning_rate": 8.632979986547423e-06,
      "loss": 1.15581179,
      "memory(GiB)": 112.26,
      "step": 22000,
      "train_speed(iter/s)": 1.133057
    },
    {
      "epoch": 0.5580923389142567,
      "eval_acc": 0.7224052274478602,
      "eval_loss": 1.06206476688385,
      "eval_runtime": 70.9568,
      "eval_samples_per_second": 89.773,
      "eval_steps_per_second": 22.45,
      "step": 22000
    },
    {
      "acc": 0.73337584,
      "epoch": 0.5582191780821918,
      "grad_norm": 3.40625,
      "learning_rate": 8.632259434070982e-06,
      "loss": 1.1110754,
      "memory(GiB)": 112.26,
      "step": 22005,
      "train_speed(iter/s)": 1.126405
    },
    {
      "acc": 0.74665499,
      "epoch": 0.5583460172501269,
      "grad_norm": 3.515625,
      "learning_rate": 8.631538721831551e-06,
      "loss": 1.07970953,
      "memory(GiB)": 112.26,
      "step": 22010,
      "train_speed(iter/s)": 1.126458
    },
    {
      "acc": 0.73094926,
      "epoch": 0.5584728564180619,
      "grad_norm": 3.359375,
      "learning_rate": 8.630817849860835e-06,
      "loss": 1.13607941,
      "memory(GiB)": 112.26,
      "step": 22015,
      "train_speed(iter/s)": 1.126491
    },
    {
      "acc": 0.73814259,
      "epoch": 0.558599695585997,
      "grad_norm": 4.09375,
      "learning_rate": 8.63009681819054e-06,
      "loss": 1.06424809,
      "memory(GiB)": 112.26,
      "step": 22020,
      "train_speed(iter/s)": 1.126518
    },
    {
      "acc": 0.73197165,
      "epoch": 0.558726534753932,
      "grad_norm": 3.5,
      "learning_rate": 8.629375626852378e-06,
      "loss": 1.07492619,
      "memory(GiB)": 112.26,
      "step": 22025,
      "train_speed(iter/s)": 1.126555
    },
    {
      "acc": 0.73173084,
      "epoch": 0.5588533739218671,
      "grad_norm": 3.09375,
      "learning_rate": 8.628654275878074e-06,
      "loss": 1.12014542,
      "memory(GiB)": 112.26,
      "step": 22030,
      "train_speed(iter/s)": 1.126592
    },
    {
      "acc": 0.74003248,
      "epoch": 0.5589802130898022,
      "grad_norm": 3.421875,
      "learning_rate": 8.627932765299353e-06,
      "loss": 1.04991646,
      "memory(GiB)": 112.26,
      "step": 22035,
      "train_speed(iter/s)": 1.126632
    },
    {
      "acc": 0.7440012,
      "epoch": 0.5591070522577372,
      "grad_norm": 3.453125,
      "learning_rate": 8.627211095147952e-06,
      "loss": 1.03307323,
      "memory(GiB)": 112.26,
      "step": 22040,
      "train_speed(iter/s)": 1.126651
    },
    {
      "acc": 0.73565817,
      "epoch": 0.5592338914256723,
      "grad_norm": 4.28125,
      "learning_rate": 8.626489265455614e-06,
      "loss": 1.16410294,
      "memory(GiB)": 112.26,
      "step": 22045,
      "train_speed(iter/s)": 1.126694
    },
    {
      "acc": 0.72417855,
      "epoch": 0.5593607305936074,
      "grad_norm": 3.921875,
      "learning_rate": 8.625767276254084e-06,
      "loss": 1.1337019,
      "memory(GiB)": 112.26,
      "step": 22050,
      "train_speed(iter/s)": 1.126718
    },
    {
      "acc": 0.72326779,
      "epoch": 0.5594875697615423,
      "grad_norm": 3.5625,
      "learning_rate": 8.625045127575123e-06,
      "loss": 1.13600063,
      "memory(GiB)": 112.26,
      "step": 22055,
      "train_speed(iter/s)": 1.126749
    },
    {
      "acc": 0.73745532,
      "epoch": 0.5596144089294774,
      "grad_norm": 5.46875,
      "learning_rate": 8.624322819450493e-06,
      "loss": 1.11858406,
      "memory(GiB)": 112.26,
      "step": 22060,
      "train_speed(iter/s)": 1.126794
    },
    {
      "acc": 0.74668207,
      "epoch": 0.5597412480974124,
      "grad_norm": 5.40625,
      "learning_rate": 8.623600351911962e-06,
      "loss": 1.03129196,
      "memory(GiB)": 112.26,
      "step": 22065,
      "train_speed(iter/s)": 1.126834
    },
    {
      "acc": 0.73966608,
      "epoch": 0.5598680872653475,
      "grad_norm": 3.453125,
      "learning_rate": 8.622877724991312e-06,
      "loss": 1.09400978,
      "memory(GiB)": 112.26,
      "step": 22070,
      "train_speed(iter/s)": 1.126848
    },
    {
      "acc": 0.73457594,
      "epoch": 0.5599949264332826,
      "grad_norm": 3.234375,
      "learning_rate": 8.622154938720323e-06,
      "loss": 1.08419809,
      "memory(GiB)": 112.26,
      "step": 22075,
      "train_speed(iter/s)": 1.126886
    },
    {
      "acc": 0.72066965,
      "epoch": 0.5601217656012176,
      "grad_norm": 3.40625,
      "learning_rate": 8.621431993130787e-06,
      "loss": 1.1317112,
      "memory(GiB)": 112.26,
      "step": 22080,
      "train_speed(iter/s)": 1.126911
    },
    {
      "acc": 0.73535852,
      "epoch": 0.5602486047691527,
      "grad_norm": 3.453125,
      "learning_rate": 8.620708888254506e-06,
      "loss": 1.09854593,
      "memory(GiB)": 112.26,
      "step": 22085,
      "train_speed(iter/s)": 1.126949
    },
    {
      "acc": 0.73472443,
      "epoch": 0.5603754439370878,
      "grad_norm": 3.484375,
      "learning_rate": 8.619985624123282e-06,
      "loss": 1.04478998,
      "memory(GiB)": 112.26,
      "step": 22090,
      "train_speed(iter/s)": 1.126988
    },
    {
      "acc": 0.74850831,
      "epoch": 0.5605022831050228,
      "grad_norm": 3.125,
      "learning_rate": 8.619262200768928e-06,
      "loss": 1.01835461,
      "memory(GiB)": 112.26,
      "step": 22095,
      "train_speed(iter/s)": 1.127019
    },
    {
      "acc": 0.74116092,
      "epoch": 0.5606291222729579,
      "grad_norm": 3.234375,
      "learning_rate": 8.618538618223262e-06,
      "loss": 1.07526159,
      "memory(GiB)": 112.26,
      "step": 22100,
      "train_speed(iter/s)": 1.127032
    },
    {
      "acc": 0.73779407,
      "epoch": 0.5607559614408929,
      "grad_norm": 3.921875,
      "learning_rate": 8.617814876518114e-06,
      "loss": 1.08505287,
      "memory(GiB)": 112.26,
      "step": 22105,
      "train_speed(iter/s)": 1.127071
    },
    {
      "acc": 0.73480906,
      "epoch": 0.560882800608828,
      "grad_norm": 5.46875,
      "learning_rate": 8.617090975685314e-06,
      "loss": 1.11958904,
      "memory(GiB)": 112.26,
      "step": 22110,
      "train_speed(iter/s)": 1.127091
    },
    {
      "acc": 0.73422232,
      "epoch": 0.5610096397767631,
      "grad_norm": 3.59375,
      "learning_rate": 8.616366915756704e-06,
      "loss": 1.10054722,
      "memory(GiB)": 112.26,
      "step": 22115,
      "train_speed(iter/s)": 1.127136
    },
    {
      "acc": 0.73634505,
      "epoch": 0.5611364789446981,
      "grad_norm": 3.171875,
      "learning_rate": 8.615642696764131e-06,
      "loss": 1.0960083,
      "memory(GiB)": 112.26,
      "step": 22120,
      "train_speed(iter/s)": 1.127196
    },
    {
      "acc": 0.73343582,
      "epoch": 0.5612633181126332,
      "grad_norm": 3.34375,
      "learning_rate": 8.614918318739452e-06,
      "loss": 1.11333046,
      "memory(GiB)": 112.26,
      "step": 22125,
      "train_speed(iter/s)": 1.127232
    },
    {
      "acc": 0.74006042,
      "epoch": 0.5613901572805683,
      "grad_norm": 3.84375,
      "learning_rate": 8.614193781714522e-06,
      "loss": 1.08570385,
      "memory(GiB)": 112.26,
      "step": 22130,
      "train_speed(iter/s)": 1.127274
    },
    {
      "acc": 0.73177996,
      "epoch": 0.5615169964485033,
      "grad_norm": 3.546875,
      "learning_rate": 8.613469085721215e-06,
      "loss": 1.08562012,
      "memory(GiB)": 112.26,
      "step": 22135,
      "train_speed(iter/s)": 1.127319
    },
    {
      "acc": 0.73332672,
      "epoch": 0.5616438356164384,
      "grad_norm": 3.84375,
      "learning_rate": 8.612744230791406e-06,
      "loss": 1.13434858,
      "memory(GiB)": 112.26,
      "step": 22140,
      "train_speed(iter/s)": 1.127315
    },
    {
      "acc": 0.74264026,
      "epoch": 0.5617706747843734,
      "grad_norm": 4.1875,
      "learning_rate": 8.612019216956975e-06,
      "loss": 1.0573411,
      "memory(GiB)": 112.26,
      "step": 22145,
      "train_speed(iter/s)": 1.127363
    },
    {
      "acc": 0.72757001,
      "epoch": 0.5618975139523085,
      "grad_norm": 3.34375,
      "learning_rate": 8.611294044249811e-06,
      "loss": 1.08556137,
      "memory(GiB)": 112.26,
      "step": 22150,
      "train_speed(iter/s)": 1.127387
    },
    {
      "acc": 0.72987347,
      "epoch": 0.5620243531202436,
      "grad_norm": 3.671875,
      "learning_rate": 8.610568712701814e-06,
      "loss": 1.08745308,
      "memory(GiB)": 112.26,
      "step": 22155,
      "train_speed(iter/s)": 1.127393
    },
    {
      "acc": 0.73075032,
      "epoch": 0.5621511922881786,
      "grad_norm": 3.421875,
      "learning_rate": 8.609843222344883e-06,
      "loss": 1.08088255,
      "memory(GiB)": 112.26,
      "step": 22160,
      "train_speed(iter/s)": 1.127442
    },
    {
      "acc": 0.74138842,
      "epoch": 0.5622780314561137,
      "grad_norm": 3.46875,
      "learning_rate": 8.609117573210931e-06,
      "loss": 0.9949213,
      "memory(GiB)": 112.26,
      "step": 22165,
      "train_speed(iter/s)": 1.127477
    },
    {
      "acc": 0.7318471,
      "epoch": 0.5624048706240488,
      "grad_norm": 3.5,
      "learning_rate": 8.608391765331875e-06,
      "loss": 1.0816062,
      "memory(GiB)": 112.26,
      "step": 22170,
      "train_speed(iter/s)": 1.127532
    },
    {
      "acc": 0.74303713,
      "epoch": 0.5625317097919837,
      "grad_norm": 3.296875,
      "learning_rate": 8.607665798739638e-06,
      "loss": 1.07295189,
      "memory(GiB)": 112.26,
      "step": 22175,
      "train_speed(iter/s)": 1.127572
    },
    {
      "acc": 0.74182482,
      "epoch": 0.5626585489599188,
      "grad_norm": 3.875,
      "learning_rate": 8.606939673466153e-06,
      "loss": 1.06676731,
      "memory(GiB)": 112.26,
      "step": 22180,
      "train_speed(iter/s)": 1.127603
    },
    {
      "acc": 0.73533287,
      "epoch": 0.5627853881278538,
      "grad_norm": 4.40625,
      "learning_rate": 8.606213389543356e-06,
      "loss": 1.07350368,
      "memory(GiB)": 112.26,
      "step": 22185,
      "train_speed(iter/s)": 1.12762
    },
    {
      "acc": 0.72786422,
      "epoch": 0.5629122272957889,
      "grad_norm": 4.4375,
      "learning_rate": 8.605486947003194e-06,
      "loss": 1.13364325,
      "memory(GiB)": 112.26,
      "step": 22190,
      "train_speed(iter/s)": 1.127653
    },
    {
      "acc": 0.72475309,
      "epoch": 0.563039066463724,
      "grad_norm": 3.25,
      "learning_rate": 8.60476034587762e-06,
      "loss": 1.13544693,
      "memory(GiB)": 112.26,
      "step": 22195,
      "train_speed(iter/s)": 1.127682
    },
    {
      "acc": 0.7408555,
      "epoch": 0.563165905631659,
      "grad_norm": 3.671875,
      "learning_rate": 8.604033586198592e-06,
      "loss": 1.05949306,
      "memory(GiB)": 112.26,
      "step": 22200,
      "train_speed(iter/s)": 1.127728
    },
    {
      "acc": 0.72637091,
      "epoch": 0.5632927447995941,
      "grad_norm": 3.859375,
      "learning_rate": 8.603306667998074e-06,
      "loss": 1.1112546,
      "memory(GiB)": 112.26,
      "step": 22205,
      "train_speed(iter/s)": 1.127762
    },
    {
      "acc": 0.73357792,
      "epoch": 0.5634195839675292,
      "grad_norm": 3.859375,
      "learning_rate": 8.602579591308043e-06,
      "loss": 1.08962021,
      "memory(GiB)": 112.26,
      "step": 22210,
      "train_speed(iter/s)": 1.127787
    },
    {
      "acc": 0.71161652,
      "epoch": 0.5635464231354642,
      "grad_norm": 3.703125,
      "learning_rate": 8.601852356160476e-06,
      "loss": 1.18248968,
      "memory(GiB)": 112.26,
      "step": 22215,
      "train_speed(iter/s)": 1.127812
    },
    {
      "acc": 0.73828578,
      "epoch": 0.5636732623033993,
      "grad_norm": 3.5,
      "learning_rate": 8.60112496258736e-06,
      "loss": 1.09804392,
      "memory(GiB)": 112.26,
      "step": 22220,
      "train_speed(iter/s)": 1.127862
    },
    {
      "acc": 0.72534142,
      "epoch": 0.5638001014713343,
      "grad_norm": 3.25,
      "learning_rate": 8.600397410620693e-06,
      "loss": 1.11387043,
      "memory(GiB)": 112.26,
      "step": 22225,
      "train_speed(iter/s)": 1.127915
    },
    {
      "acc": 0.72509551,
      "epoch": 0.5639269406392694,
      "grad_norm": 3.984375,
      "learning_rate": 8.599669700292472e-06,
      "loss": 1.10769787,
      "memory(GiB)": 112.26,
      "step": 22230,
      "train_speed(iter/s)": 1.12794
    },
    {
      "acc": 0.74014945,
      "epoch": 0.5640537798072045,
      "grad_norm": 3.71875,
      "learning_rate": 8.598941831634707e-06,
      "loss": 1.12324123,
      "memory(GiB)": 112.26,
      "step": 22235,
      "train_speed(iter/s)": 1.127972
    },
    {
      "acc": 0.72533226,
      "epoch": 0.5641806189751395,
      "grad_norm": 3.328125,
      "learning_rate": 8.598213804679412e-06,
      "loss": 1.10253315,
      "memory(GiB)": 112.26,
      "step": 22240,
      "train_speed(iter/s)": 1.12803
    },
    {
      "acc": 0.72640848,
      "epoch": 0.5643074581430746,
      "grad_norm": 3.46875,
      "learning_rate": 8.597485619458609e-06,
      "loss": 1.127528,
      "memory(GiB)": 112.26,
      "step": 22245,
      "train_speed(iter/s)": 1.128066
    },
    {
      "acc": 0.7267437,
      "epoch": 0.5644342973110097,
      "grad_norm": 3.5625,
      "learning_rate": 8.596757276004327e-06,
      "loss": 1.09824228,
      "memory(GiB)": 112.26,
      "step": 22250,
      "train_speed(iter/s)": 1.128091
    },
    {
      "acc": 0.74442053,
      "epoch": 0.5645611364789447,
      "grad_norm": 4.0625,
      "learning_rate": 8.5960287743486e-06,
      "loss": 1.11746674,
      "memory(GiB)": 112.26,
      "step": 22255,
      "train_speed(iter/s)": 1.128133
    },
    {
      "acc": 0.7446835,
      "epoch": 0.5646879756468798,
      "grad_norm": 3.390625,
      "learning_rate": 8.595300114523473e-06,
      "loss": 1.03813496,
      "memory(GiB)": 112.26,
      "step": 22260,
      "train_speed(iter/s)": 1.12818
    },
    {
      "acc": 0.73120146,
      "epoch": 0.5648148148148148,
      "grad_norm": 3.515625,
      "learning_rate": 8.594571296560997e-06,
      "loss": 1.1429697,
      "memory(GiB)": 112.26,
      "step": 22265,
      "train_speed(iter/s)": 1.128227
    },
    {
      "acc": 0.7251967,
      "epoch": 0.5649416539827499,
      "grad_norm": 3.28125,
      "learning_rate": 8.593842320493224e-06,
      "loss": 1.16267662,
      "memory(GiB)": 112.26,
      "step": 22270,
      "train_speed(iter/s)": 1.128264
    },
    {
      "acc": 0.73487034,
      "epoch": 0.565068493150685,
      "grad_norm": 3.65625,
      "learning_rate": 8.593113186352222e-06,
      "loss": 1.12868671,
      "memory(GiB)": 112.26,
      "step": 22275,
      "train_speed(iter/s)": 1.128307
    },
    {
      "acc": 0.72049632,
      "epoch": 0.56519533231862,
      "grad_norm": 3.859375,
      "learning_rate": 8.592383894170059e-06,
      "loss": 1.12994576,
      "memory(GiB)": 112.26,
      "step": 22280,
      "train_speed(iter/s)": 1.128356
    },
    {
      "acc": 0.73876796,
      "epoch": 0.5653221714865551,
      "grad_norm": 3.171875,
      "learning_rate": 8.591654443978815e-06,
      "loss": 1.07190037,
      "memory(GiB)": 112.26,
      "step": 22285,
      "train_speed(iter/s)": 1.128402
    },
    {
      "acc": 0.73418813,
      "epoch": 0.5654490106544902,
      "grad_norm": 3.859375,
      "learning_rate": 8.590924835810572e-06,
      "loss": 1.07972555,
      "memory(GiB)": 112.26,
      "step": 22290,
      "train_speed(iter/s)": 1.128449
    },
    {
      "acc": 0.74304581,
      "epoch": 0.5655758498224251,
      "grad_norm": 4.09375,
      "learning_rate": 8.590195069697423e-06,
      "loss": 1.06348171,
      "memory(GiB)": 112.26,
      "step": 22295,
      "train_speed(iter/s)": 1.128486
    },
    {
      "acc": 0.73231144,
      "epoch": 0.5657026889903602,
      "grad_norm": 3.640625,
      "learning_rate": 8.589465145671465e-06,
      "loss": 1.07148199,
      "memory(GiB)": 112.26,
      "step": 22300,
      "train_speed(iter/s)": 1.128525
    },
    {
      "acc": 0.72554731,
      "epoch": 0.5658295281582952,
      "grad_norm": 3.578125,
      "learning_rate": 8.588735063764803e-06,
      "loss": 1.10330706,
      "memory(GiB)": 112.26,
      "step": 22305,
      "train_speed(iter/s)": 1.12857
    },
    {
      "acc": 0.73949103,
      "epoch": 0.5659563673262303,
      "grad_norm": 3.296875,
      "learning_rate": 8.588004824009552e-06,
      "loss": 1.13531141,
      "memory(GiB)": 112.26,
      "step": 22310,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.72448816,
      "epoch": 0.5660832064941654,
      "grad_norm": 3.96875,
      "learning_rate": 8.58727442643783e-06,
      "loss": 1.16133766,
      "memory(GiB)": 112.26,
      "step": 22315,
      "train_speed(iter/s)": 1.128628
    },
    {
      "acc": 0.72185526,
      "epoch": 0.5662100456621004,
      "grad_norm": 3.984375,
      "learning_rate": 8.586543871081764e-06,
      "loss": 1.10350761,
      "memory(GiB)": 112.26,
      "step": 22320,
      "train_speed(iter/s)": 1.128661
    },
    {
      "acc": 0.74636145,
      "epoch": 0.5663368848300355,
      "grad_norm": 3.59375,
      "learning_rate": 8.585813157973482e-06,
      "loss": 1.02821083,
      "memory(GiB)": 112.26,
      "step": 22325,
      "train_speed(iter/s)": 1.128708
    },
    {
      "acc": 0.72056942,
      "epoch": 0.5664637239979706,
      "grad_norm": 4.09375,
      "learning_rate": 8.58508228714513e-06,
      "loss": 1.07777052,
      "memory(GiB)": 112.26,
      "step": 22330,
      "train_speed(iter/s)": 1.128752
    },
    {
      "acc": 0.74174242,
      "epoch": 0.5665905631659056,
      "grad_norm": 4.03125,
      "learning_rate": 8.584351258628852e-06,
      "loss": 1.07336349,
      "memory(GiB)": 112.26,
      "step": 22335,
      "train_speed(iter/s)": 1.128774
    },
    {
      "acc": 0.74857078,
      "epoch": 0.5667174023338407,
      "grad_norm": 3.40625,
      "learning_rate": 8.583620072456803e-06,
      "loss": 0.98279896,
      "memory(GiB)": 112.26,
      "step": 22340,
      "train_speed(iter/s)": 1.128817
    },
    {
      "acc": 0.73936329,
      "epoch": 0.5668442415017757,
      "grad_norm": 3.546875,
      "learning_rate": 8.582888728661142e-06,
      "loss": 1.06678686,
      "memory(GiB)": 112.26,
      "step": 22345,
      "train_speed(iter/s)": 1.128848
    },
    {
      "acc": 0.72846041,
      "epoch": 0.5669710806697108,
      "grad_norm": 3.953125,
      "learning_rate": 8.582157227274042e-06,
      "loss": 1.11543789,
      "memory(GiB)": 112.26,
      "step": 22350,
      "train_speed(iter/s)": 1.128883
    },
    {
      "acc": 0.73020554,
      "epoch": 0.5670979198376459,
      "grad_norm": 4.09375,
      "learning_rate": 8.581425568327671e-06,
      "loss": 1.09836941,
      "memory(GiB)": 112.26,
      "step": 22355,
      "train_speed(iter/s)": 1.1289
    },
    {
      "acc": 0.72655916,
      "epoch": 0.5672247590055809,
      "grad_norm": 3.8125,
      "learning_rate": 8.580693751854215e-06,
      "loss": 1.11940632,
      "memory(GiB)": 112.26,
      "step": 22360,
      "train_speed(iter/s)": 1.128951
    },
    {
      "acc": 0.73761272,
      "epoch": 0.567351598173516,
      "grad_norm": 3.421875,
      "learning_rate": 8.57996177788586e-06,
      "loss": 1.0670723,
      "memory(GiB)": 112.26,
      "step": 22365,
      "train_speed(iter/s)": 1.128988
    },
    {
      "acc": 0.72985353,
      "epoch": 0.5674784373414511,
      "grad_norm": 4.65625,
      "learning_rate": 8.579229646454803e-06,
      "loss": 1.08880482,
      "memory(GiB)": 112.26,
      "step": 22370,
      "train_speed(iter/s)": 1.129032
    },
    {
      "acc": 0.7500267,
      "epoch": 0.5676052765093861,
      "grad_norm": 5.21875,
      "learning_rate": 8.578497357593246e-06,
      "loss": 1.03644257,
      "memory(GiB)": 112.26,
      "step": 22375,
      "train_speed(iter/s)": 1.129092
    },
    {
      "acc": 0.74551611,
      "epoch": 0.5677321156773212,
      "grad_norm": 3.234375,
      "learning_rate": 8.5777649113334e-06,
      "loss": 1.01538763,
      "memory(GiB)": 112.26,
      "step": 22380,
      "train_speed(iter/s)": 1.129105
    },
    {
      "acc": 0.74132557,
      "epoch": 0.5678589548452562,
      "grad_norm": 3.515625,
      "learning_rate": 8.577032307707476e-06,
      "loss": 1.06445389,
      "memory(GiB)": 112.26,
      "step": 22385,
      "train_speed(iter/s)": 1.129147
    },
    {
      "acc": 0.71768942,
      "epoch": 0.5679857940131913,
      "grad_norm": 3.890625,
      "learning_rate": 8.576299546747704e-06,
      "loss": 1.1704752,
      "memory(GiB)": 112.26,
      "step": 22390,
      "train_speed(iter/s)": 1.129213
    },
    {
      "acc": 0.7312747,
      "epoch": 0.5681126331811264,
      "grad_norm": 3.703125,
      "learning_rate": 8.575566628486309e-06,
      "loss": 1.10090637,
      "memory(GiB)": 112.26,
      "step": 22395,
      "train_speed(iter/s)": 1.12925
    },
    {
      "acc": 0.72176824,
      "epoch": 0.5682394723490614,
      "grad_norm": 3.578125,
      "learning_rate": 8.574833552955532e-06,
      "loss": 1.12100086,
      "memory(GiB)": 112.26,
      "step": 22400,
      "train_speed(iter/s)": 1.129281
    },
    {
      "acc": 0.7281415,
      "epoch": 0.5683663115169965,
      "grad_norm": 3.140625,
      "learning_rate": 8.574100320187612e-06,
      "loss": 1.13141356,
      "memory(GiB)": 112.26,
      "step": 22405,
      "train_speed(iter/s)": 1.129302
    },
    {
      "acc": 0.73233333,
      "epoch": 0.5684931506849316,
      "grad_norm": 3.84375,
      "learning_rate": 8.573366930214807e-06,
      "loss": 1.12271357,
      "memory(GiB)": 112.26,
      "step": 22410,
      "train_speed(iter/s)": 1.129321
    },
    {
      "acc": 0.71299238,
      "epoch": 0.5686199898528665,
      "grad_norm": 4.5625,
      "learning_rate": 8.572633383069366e-06,
      "loss": 1.13056812,
      "memory(GiB)": 112.26,
      "step": 22415,
      "train_speed(iter/s)": 1.129357
    },
    {
      "acc": 0.71912627,
      "epoch": 0.5687468290208016,
      "grad_norm": 6.1875,
      "learning_rate": 8.571899678783561e-06,
      "loss": 1.116609,
      "memory(GiB)": 112.26,
      "step": 22420,
      "train_speed(iter/s)": 1.129398
    },
    {
      "acc": 0.73048124,
      "epoch": 0.5688736681887366,
      "grad_norm": 3.765625,
      "learning_rate": 8.57116581738966e-06,
      "loss": 1.09863338,
      "memory(GiB)": 112.26,
      "step": 22425,
      "train_speed(iter/s)": 1.129445
    },
    {
      "acc": 0.73520846,
      "epoch": 0.5690005073566717,
      "grad_norm": 3.4375,
      "learning_rate": 8.570431798919941e-06,
      "loss": 1.07927704,
      "memory(GiB)": 112.26,
      "step": 22430,
      "train_speed(iter/s)": 1.129492
    },
    {
      "acc": 0.73806834,
      "epoch": 0.5691273465246068,
      "grad_norm": 4.21875,
      "learning_rate": 8.569697623406692e-06,
      "loss": 1.04516134,
      "memory(GiB)": 112.26,
      "step": 22435,
      "train_speed(iter/s)": 1.129509
    },
    {
      "acc": 0.73078337,
      "epoch": 0.5692541856925418,
      "grad_norm": 3.40625,
      "learning_rate": 8.568963290882204e-06,
      "loss": 1.11074371,
      "memory(GiB)": 112.26,
      "step": 22440,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.74311671,
      "epoch": 0.5693810248604769,
      "grad_norm": 3.703125,
      "learning_rate": 8.568228801378775e-06,
      "loss": 1.00178833,
      "memory(GiB)": 112.26,
      "step": 22445,
      "train_speed(iter/s)": 1.129563
    },
    {
      "acc": 0.73850212,
      "epoch": 0.569507864028412,
      "grad_norm": 3.421875,
      "learning_rate": 8.567494154928713e-06,
      "loss": 1.05941868,
      "memory(GiB)": 112.26,
      "step": 22450,
      "train_speed(iter/s)": 1.129603
    },
    {
      "acc": 0.72814736,
      "epoch": 0.569634703196347,
      "grad_norm": 3.5,
      "learning_rate": 8.566759351564332e-06,
      "loss": 1.08327856,
      "memory(GiB)": 112.26,
      "step": 22455,
      "train_speed(iter/s)": 1.129643
    },
    {
      "acc": 0.72399182,
      "epoch": 0.5697615423642821,
      "grad_norm": 3.546875,
      "learning_rate": 8.566024391317947e-06,
      "loss": 1.14127426,
      "memory(GiB)": 112.26,
      "step": 22460,
      "train_speed(iter/s)": 1.12967
    },
    {
      "acc": 0.73686008,
      "epoch": 0.5698883815322171,
      "grad_norm": 4.15625,
      "learning_rate": 8.565289274221891e-06,
      "loss": 1.06814432,
      "memory(GiB)": 112.26,
      "step": 22465,
      "train_speed(iter/s)": 1.129715
    },
    {
      "acc": 0.7454072,
      "epoch": 0.5700152207001522,
      "grad_norm": 3.359375,
      "learning_rate": 8.564554000308493e-06,
      "loss": 1.05267239,
      "memory(GiB)": 112.26,
      "step": 22470,
      "train_speed(iter/s)": 1.129763
    },
    {
      "acc": 0.7335176,
      "epoch": 0.5701420598680873,
      "grad_norm": 4.125,
      "learning_rate": 8.563818569610096e-06,
      "loss": 1.06933069,
      "memory(GiB)": 112.26,
      "step": 22475,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.72614231,
      "epoch": 0.5702688990360223,
      "grad_norm": 3.34375,
      "learning_rate": 8.563082982159048e-06,
      "loss": 1.09653435,
      "memory(GiB)": 112.26,
      "step": 22480,
      "train_speed(iter/s)": 1.129848
    },
    {
      "acc": 0.74297647,
      "epoch": 0.5703957382039574,
      "grad_norm": 3.90625,
      "learning_rate": 8.562347237987701e-06,
      "loss": 1.11171398,
      "memory(GiB)": 112.26,
      "step": 22485,
      "train_speed(iter/s)": 1.129863
    },
    {
      "acc": 0.71832542,
      "epoch": 0.5705225773718925,
      "grad_norm": 4.15625,
      "learning_rate": 8.561611337128418e-06,
      "loss": 1.14013796,
      "memory(GiB)": 112.26,
      "step": 22490,
      "train_speed(iter/s)": 1.129885
    },
    {
      "acc": 0.74369264,
      "epoch": 0.5706494165398275,
      "grad_norm": 3.9375,
      "learning_rate": 8.560875279613568e-06,
      "loss": 1.0575613,
      "memory(GiB)": 112.26,
      "step": 22495,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.7230505,
      "epoch": 0.5707762557077626,
      "grad_norm": 3.328125,
      "learning_rate": 8.560139065475523e-06,
      "loss": 1.13355141,
      "memory(GiB)": 112.26,
      "step": 22500,
      "train_speed(iter/s)": 1.129934
    },
    {
      "acc": 0.74731665,
      "epoch": 0.5709030948756976,
      "grad_norm": 4.21875,
      "learning_rate": 8.559402694746671e-06,
      "loss": 1.06534481,
      "memory(GiB)": 112.26,
      "step": 22505,
      "train_speed(iter/s)": 1.129979
    },
    {
      "acc": 0.74710255,
      "epoch": 0.5710299340436327,
      "grad_norm": 3.484375,
      "learning_rate": 8.558666167459393e-06,
      "loss": 1.00814533,
      "memory(GiB)": 112.26,
      "step": 22510,
      "train_speed(iter/s)": 1.130008
    },
    {
      "acc": 0.72719994,
      "epoch": 0.5711567732115678,
      "grad_norm": 3.359375,
      "learning_rate": 8.55792948364609e-06,
      "loss": 1.20086136,
      "memory(GiB)": 112.26,
      "step": 22515,
      "train_speed(iter/s)": 1.130041
    },
    {
      "acc": 0.73944931,
      "epoch": 0.5712836123795028,
      "grad_norm": 3.890625,
      "learning_rate": 8.557192643339164e-06,
      "loss": 1.1217083,
      "memory(GiB)": 112.26,
      "step": 22520,
      "train_speed(iter/s)": 1.130054
    },
    {
      "acc": 0.74339643,
      "epoch": 0.5714104515474379,
      "grad_norm": 2.921875,
      "learning_rate": 8.556455646571022e-06,
      "loss": 1.08265018,
      "memory(GiB)": 112.26,
      "step": 22525,
      "train_speed(iter/s)": 1.130084
    },
    {
      "acc": 0.74310179,
      "epoch": 0.571537290715373,
      "grad_norm": 3.734375,
      "learning_rate": 8.555718493374084e-06,
      "loss": 1.12027988,
      "memory(GiB)": 112.26,
      "step": 22530,
      "train_speed(iter/s)": 1.13009
    },
    {
      "acc": 0.73257184,
      "epoch": 0.571664129883308,
      "grad_norm": 3.578125,
      "learning_rate": 8.55498118378077e-06,
      "loss": 1.12321053,
      "memory(GiB)": 112.26,
      "step": 22535,
      "train_speed(iter/s)": 1.13013
    },
    {
      "acc": 0.75175142,
      "epoch": 0.571790969051243,
      "grad_norm": 5.125,
      "learning_rate": 8.554243717823512e-06,
      "loss": 1.0108346,
      "memory(GiB)": 112.26,
      "step": 22540,
      "train_speed(iter/s)": 1.130175
    },
    {
      "acc": 0.73475456,
      "epoch": 0.571917808219178,
      "grad_norm": 3.65625,
      "learning_rate": 8.553506095534747e-06,
      "loss": 1.12727575,
      "memory(GiB)": 112.26,
      "step": 22545,
      "train_speed(iter/s)": 1.130213
    },
    {
      "acc": 0.73942966,
      "epoch": 0.5720446473871131,
      "grad_norm": 3.71875,
      "learning_rate": 8.55276831694692e-06,
      "loss": 1.03158035,
      "memory(GiB)": 112.26,
      "step": 22550,
      "train_speed(iter/s)": 1.130235
    },
    {
      "acc": 0.73532495,
      "epoch": 0.5721714865550482,
      "grad_norm": 3.609375,
      "learning_rate": 8.552030382092477e-06,
      "loss": 1.09323206,
      "memory(GiB)": 112.26,
      "step": 22555,
      "train_speed(iter/s)": 1.130267
    },
    {
      "acc": 0.73933487,
      "epoch": 0.5722983257229832,
      "grad_norm": 3.5,
      "learning_rate": 8.551292291003884e-06,
      "loss": 1.10690937,
      "memory(GiB)": 112.26,
      "step": 22560,
      "train_speed(iter/s)": 1.130298
    },
    {
      "acc": 0.73998275,
      "epoch": 0.5724251648909183,
      "grad_norm": 5.15625,
      "learning_rate": 8.550554043713597e-06,
      "loss": 1.08749361,
      "memory(GiB)": 112.26,
      "step": 22565,
      "train_speed(iter/s)": 1.130338
    },
    {
      "acc": 0.73766675,
      "epoch": 0.5725520040588534,
      "grad_norm": 3.734375,
      "learning_rate": 8.549815640254092e-06,
      "loss": 1.05125217,
      "memory(GiB)": 112.26,
      "step": 22570,
      "train_speed(iter/s)": 1.130379
    },
    {
      "acc": 0.73494177,
      "epoch": 0.5726788432267884,
      "grad_norm": 4.1875,
      "learning_rate": 8.549077080657846e-06,
      "loss": 1.08778858,
      "memory(GiB)": 112.26,
      "step": 22575,
      "train_speed(iter/s)": 1.130429
    },
    {
      "acc": 0.71929274,
      "epoch": 0.5728056823947235,
      "grad_norm": 4.25,
      "learning_rate": 8.548338364957345e-06,
      "loss": 1.14589138,
      "memory(GiB)": 112.26,
      "step": 22580,
      "train_speed(iter/s)": 1.130449
    },
    {
      "acc": 0.73018327,
      "epoch": 0.5729325215626585,
      "grad_norm": 3.578125,
      "learning_rate": 8.54759949318508e-06,
      "loss": 1.096492,
      "memory(GiB)": 112.26,
      "step": 22585,
      "train_speed(iter/s)": 1.130481
    },
    {
      "acc": 0.72803326,
      "epoch": 0.5730593607305936,
      "grad_norm": 3.15625,
      "learning_rate": 8.546860465373552e-06,
      "loss": 1.06730385,
      "memory(GiB)": 112.26,
      "step": 22590,
      "train_speed(iter/s)": 1.130502
    },
    {
      "acc": 0.73727932,
      "epoch": 0.5731861998985287,
      "grad_norm": 3.515625,
      "learning_rate": 8.546121281555265e-06,
      "loss": 1.04409885,
      "memory(GiB)": 112.26,
      "step": 22595,
      "train_speed(iter/s)": 1.130529
    },
    {
      "acc": 0.74270601,
      "epoch": 0.5733130390664637,
      "grad_norm": 3.765625,
      "learning_rate": 8.54538194176273e-06,
      "loss": 1.05931263,
      "memory(GiB)": 112.26,
      "step": 22600,
      "train_speed(iter/s)": 1.130531
    },
    {
      "acc": 0.73402896,
      "epoch": 0.5734398782343988,
      "grad_norm": 4.1875,
      "learning_rate": 8.544642446028469e-06,
      "loss": 1.07433109,
      "memory(GiB)": 112.26,
      "step": 22605,
      "train_speed(iter/s)": 1.130577
    },
    {
      "acc": 0.71323552,
      "epoch": 0.5735667174023339,
      "grad_norm": 5.71875,
      "learning_rate": 8.543902794385008e-06,
      "loss": 1.19311218,
      "memory(GiB)": 112.26,
      "step": 22610,
      "train_speed(iter/s)": 1.130601
    },
    {
      "acc": 0.72220683,
      "epoch": 0.5736935565702689,
      "grad_norm": 3.515625,
      "learning_rate": 8.543162986864879e-06,
      "loss": 1.13442621,
      "memory(GiB)": 112.26,
      "step": 22615,
      "train_speed(iter/s)": 1.130633
    },
    {
      "acc": 0.7435636,
      "epoch": 0.573820395738204,
      "grad_norm": 3.8125,
      "learning_rate": 8.542423023500623e-06,
      "loss": 1.04896078,
      "memory(GiB)": 112.26,
      "step": 22620,
      "train_speed(iter/s)": 1.130664
    },
    {
      "acc": 0.7342123,
      "epoch": 0.573947234906139,
      "grad_norm": 4.09375,
      "learning_rate": 8.541682904324786e-06,
      "loss": 1.08598442,
      "memory(GiB)": 112.26,
      "step": 22625,
      "train_speed(iter/s)": 1.130687
    },
    {
      "acc": 0.73364234,
      "epoch": 0.5740740740740741,
      "grad_norm": 3.8125,
      "learning_rate": 8.540942629369923e-06,
      "loss": 1.12513294,
      "memory(GiB)": 112.26,
      "step": 22630,
      "train_speed(iter/s)": 1.130724
    },
    {
      "acc": 0.71666899,
      "epoch": 0.5742009132420092,
      "grad_norm": 3.796875,
      "learning_rate": 8.540202198668595e-06,
      "loss": 1.09992256,
      "memory(GiB)": 112.26,
      "step": 22635,
      "train_speed(iter/s)": 1.130768
    },
    {
      "acc": 0.73534636,
      "epoch": 0.5743277524099442,
      "grad_norm": 3.453125,
      "learning_rate": 8.539461612253368e-06,
      "loss": 1.06031322,
      "memory(GiB)": 112.26,
      "step": 22640,
      "train_speed(iter/s)": 1.130792
    },
    {
      "acc": 0.72818871,
      "epoch": 0.5744545915778793,
      "grad_norm": 3.78125,
      "learning_rate": 8.538720870156816e-06,
      "loss": 1.0884264,
      "memory(GiB)": 112.26,
      "step": 22645,
      "train_speed(iter/s)": 1.130827
    },
    {
      "acc": 0.73257489,
      "epoch": 0.5745814307458144,
      "grad_norm": 3.46875,
      "learning_rate": 8.53797997241152e-06,
      "loss": 1.04526691,
      "memory(GiB)": 112.26,
      "step": 22650,
      "train_speed(iter/s)": 1.130872
    },
    {
      "acc": 0.74126425,
      "epoch": 0.5747082699137493,
      "grad_norm": 4.84375,
      "learning_rate": 8.537238919050071e-06,
      "loss": 1.06573658,
      "memory(GiB)": 112.26,
      "step": 22655,
      "train_speed(iter/s)": 1.130931
    },
    {
      "acc": 0.74180756,
      "epoch": 0.5748351090816844,
      "grad_norm": 3.34375,
      "learning_rate": 8.53649771010506e-06,
      "loss": 1.04030666,
      "memory(GiB)": 112.26,
      "step": 22660,
      "train_speed(iter/s)": 1.130969
    },
    {
      "acc": 0.73261852,
      "epoch": 0.5749619482496194,
      "grad_norm": 3.421875,
      "learning_rate": 8.535756345609092e-06,
      "loss": 1.08474045,
      "memory(GiB)": 112.26,
      "step": 22665,
      "train_speed(iter/s)": 1.131017
    },
    {
      "acc": 0.74323139,
      "epoch": 0.5750887874175545,
      "grad_norm": 4.0,
      "learning_rate": 8.535014825594772e-06,
      "loss": 1.08279667,
      "memory(GiB)": 112.26,
      "step": 22670,
      "train_speed(iter/s)": 1.131014
    },
    {
      "acc": 0.73153152,
      "epoch": 0.5752156265854896,
      "grad_norm": 3.3125,
      "learning_rate": 8.534273150094718e-06,
      "loss": 1.08998566,
      "memory(GiB)": 112.26,
      "step": 22675,
      "train_speed(iter/s)": 1.131016
    },
    {
      "acc": 0.72182789,
      "epoch": 0.5753424657534246,
      "grad_norm": 4.875,
      "learning_rate": 8.533531319141552e-06,
      "loss": 1.0605526,
      "memory(GiB)": 112.26,
      "step": 22680,
      "train_speed(iter/s)": 1.131053
    },
    {
      "acc": 0.71455255,
      "epoch": 0.5754693049213597,
      "grad_norm": 4.09375,
      "learning_rate": 8.532789332767902e-06,
      "loss": 1.17050104,
      "memory(GiB)": 112.26,
      "step": 22685,
      "train_speed(iter/s)": 1.131084
    },
    {
      "acc": 0.72929764,
      "epoch": 0.5755961440892948,
      "grad_norm": 3.703125,
      "learning_rate": 8.532047191006405e-06,
      "loss": 1.08438873,
      "memory(GiB)": 112.26,
      "step": 22690,
      "train_speed(iter/s)": 1.131127
    },
    {
      "acc": 0.72309203,
      "epoch": 0.5757229832572298,
      "grad_norm": 2.9375,
      "learning_rate": 8.531304893889702e-06,
      "loss": 1.10573912,
      "memory(GiB)": 112.26,
      "step": 22695,
      "train_speed(iter/s)": 1.131166
    },
    {
      "acc": 0.74224272,
      "epoch": 0.5758498224251649,
      "grad_norm": 3.46875,
      "learning_rate": 8.530562441450445e-06,
      "loss": 1.08158188,
      "memory(GiB)": 112.26,
      "step": 22700,
      "train_speed(iter/s)": 1.131208
    },
    {
      "acc": 0.73718052,
      "epoch": 0.5759766615930999,
      "grad_norm": 3.734375,
      "learning_rate": 8.529819833721289e-06,
      "loss": 1.07296419,
      "memory(GiB)": 112.26,
      "step": 22705,
      "train_speed(iter/s)": 1.131233
    },
    {
      "acc": 0.72998896,
      "epoch": 0.576103500761035,
      "grad_norm": 3.890625,
      "learning_rate": 8.529077070734896e-06,
      "loss": 1.12249832,
      "memory(GiB)": 112.26,
      "step": 22710,
      "train_speed(iter/s)": 1.13129
    },
    {
      "acc": 0.72985501,
      "epoch": 0.5762303399289701,
      "grad_norm": 4.09375,
      "learning_rate": 8.528334152523938e-06,
      "loss": 1.13453703,
      "memory(GiB)": 112.26,
      "step": 22715,
      "train_speed(iter/s)": 1.131321
    },
    {
      "acc": 0.74309349,
      "epoch": 0.5763571790969051,
      "grad_norm": 3.796875,
      "learning_rate": 8.52759107912109e-06,
      "loss": 1.04567394,
      "memory(GiB)": 112.26,
      "step": 22720,
      "train_speed(iter/s)": 1.131355
    },
    {
      "acc": 0.73894157,
      "epoch": 0.5764840182648402,
      "grad_norm": 3.46875,
      "learning_rate": 8.526847850559037e-06,
      "loss": 1.06137962,
      "memory(GiB)": 112.26,
      "step": 22725,
      "train_speed(iter/s)": 1.131389
    },
    {
      "acc": 0.72559524,
      "epoch": 0.5766108574327753,
      "grad_norm": 3.09375,
      "learning_rate": 8.526104466870472e-06,
      "loss": 1.12935543,
      "memory(GiB)": 112.26,
      "step": 22730,
      "train_speed(iter/s)": 1.13142
    },
    {
      "acc": 0.74256749,
      "epoch": 0.5767376966007103,
      "grad_norm": 3.1875,
      "learning_rate": 8.525360928088087e-06,
      "loss": 1.05500813,
      "memory(GiB)": 112.26,
      "step": 22735,
      "train_speed(iter/s)": 1.131437
    },
    {
      "acc": 0.74199066,
      "epoch": 0.5768645357686454,
      "grad_norm": 3.40625,
      "learning_rate": 8.524617234244588e-06,
      "loss": 1.08238888,
      "memory(GiB)": 112.26,
      "step": 22740,
      "train_speed(iter/s)": 1.131468
    },
    {
      "acc": 0.72802892,
      "epoch": 0.5769913749365804,
      "grad_norm": 3.734375,
      "learning_rate": 8.523873385372687e-06,
      "loss": 1.01843729,
      "memory(GiB)": 112.26,
      "step": 22745,
      "train_speed(iter/s)": 1.13145
    },
    {
      "acc": 0.72637229,
      "epoch": 0.5771182141045155,
      "grad_norm": 4.125,
      "learning_rate": 8.523129381505104e-06,
      "loss": 1.17176228,
      "memory(GiB)": 112.26,
      "step": 22750,
      "train_speed(iter/s)": 1.131498
    },
    {
      "acc": 0.75145068,
      "epoch": 0.5772450532724506,
      "grad_norm": 3.703125,
      "learning_rate": 8.522385222674559e-06,
      "loss": 1.04353886,
      "memory(GiB)": 112.26,
      "step": 22755,
      "train_speed(iter/s)": 1.131543
    },
    {
      "acc": 0.73877144,
      "epoch": 0.5773718924403856,
      "grad_norm": 3.5625,
      "learning_rate": 8.521640908913787e-06,
      "loss": 1.04566593,
      "memory(GiB)": 112.26,
      "step": 22760,
      "train_speed(iter/s)": 1.131586
    },
    {
      "acc": 0.73456397,
      "epoch": 0.5774987316083207,
      "grad_norm": 3.375,
      "learning_rate": 8.520896440255524e-06,
      "loss": 1.10901442,
      "memory(GiB)": 112.26,
      "step": 22765,
      "train_speed(iter/s)": 1.13159
    },
    {
      "acc": 0.74801407,
      "epoch": 0.5776255707762558,
      "grad_norm": 4.09375,
      "learning_rate": 8.520151816732517e-06,
      "loss": 1.0549881,
      "memory(GiB)": 112.26,
      "step": 22770,
      "train_speed(iter/s)": 1.131639
    },
    {
      "acc": 0.72433281,
      "epoch": 0.5777524099441907,
      "grad_norm": 4.25,
      "learning_rate": 8.519407038377515e-06,
      "loss": 1.18028717,
      "memory(GiB)": 112.26,
      "step": 22775,
      "train_speed(iter/s)": 1.131666
    },
    {
      "acc": 0.73470998,
      "epoch": 0.5778792491121258,
      "grad_norm": 3.296875,
      "learning_rate": 8.518662105223279e-06,
      "loss": 1.13090477,
      "memory(GiB)": 112.26,
      "step": 22780,
      "train_speed(iter/s)": 1.13171
    },
    {
      "acc": 0.72818861,
      "epoch": 0.5780060882800608,
      "grad_norm": 3.875,
      "learning_rate": 8.517917017302574e-06,
      "loss": 1.12358484,
      "memory(GiB)": 112.26,
      "step": 22785,
      "train_speed(iter/s)": 1.131739
    },
    {
      "acc": 0.72871408,
      "epoch": 0.5781329274479959,
      "grad_norm": 3.4375,
      "learning_rate": 8.517171774648172e-06,
      "loss": 1.14387407,
      "memory(GiB)": 112.26,
      "step": 22790,
      "train_speed(iter/s)": 1.131721
    },
    {
      "acc": 0.73014622,
      "epoch": 0.578259766615931,
      "grad_norm": 3.46875,
      "learning_rate": 8.516426377292854e-06,
      "loss": 1.0988862,
      "memory(GiB)": 112.26,
      "step": 22795,
      "train_speed(iter/s)": 1.13176
    },
    {
      "acc": 0.73472762,
      "epoch": 0.578386605783866,
      "grad_norm": 3.296875,
      "learning_rate": 8.515680825269404e-06,
      "loss": 1.09466667,
      "memory(GiB)": 112.26,
      "step": 22800,
      "train_speed(iter/s)": 1.131797
    },
    {
      "acc": 0.73192663,
      "epoch": 0.5785134449518011,
      "grad_norm": 3.734375,
      "learning_rate": 8.514935118610613e-06,
      "loss": 1.15325527,
      "memory(GiB)": 112.26,
      "step": 22805,
      "train_speed(iter/s)": 1.131825
    },
    {
      "acc": 0.74087181,
      "epoch": 0.5786402841197362,
      "grad_norm": 3.515625,
      "learning_rate": 8.514189257349283e-06,
      "loss": 1.06578951,
      "memory(GiB)": 112.26,
      "step": 22810,
      "train_speed(iter/s)": 1.131844
    },
    {
      "acc": 0.74132829,
      "epoch": 0.5787671232876712,
      "grad_norm": 3.53125,
      "learning_rate": 8.51344324151822e-06,
      "loss": 1.03886595,
      "memory(GiB)": 112.26,
      "step": 22815,
      "train_speed(iter/s)": 1.131864
    },
    {
      "acc": 0.73650608,
      "epoch": 0.5788939624556063,
      "grad_norm": 4.1875,
      "learning_rate": 8.512697071150235e-06,
      "loss": 1.06632633,
      "memory(GiB)": 112.26,
      "step": 22820,
      "train_speed(iter/s)": 1.13186
    },
    {
      "acc": 0.73271914,
      "epoch": 0.5790208016235413,
      "grad_norm": 3.875,
      "learning_rate": 8.511950746278152e-06,
      "loss": 1.01137276,
      "memory(GiB)": 112.26,
      "step": 22825,
      "train_speed(iter/s)": 1.131892
    },
    {
      "acc": 0.7279376,
      "epoch": 0.5791476407914764,
      "grad_norm": 4.4375,
      "learning_rate": 8.511204266934797e-06,
      "loss": 1.11673679,
      "memory(GiB)": 112.26,
      "step": 22830,
      "train_speed(iter/s)": 1.131914
    },
    {
      "acc": 0.71485672,
      "epoch": 0.5792744799594115,
      "grad_norm": 3.640625,
      "learning_rate": 8.510457633152998e-06,
      "loss": 1.16105843,
      "memory(GiB)": 112.26,
      "step": 22835,
      "train_speed(iter/s)": 1.131933
    },
    {
      "acc": 0.72871709,
      "epoch": 0.5794013191273465,
      "grad_norm": 3.296875,
      "learning_rate": 8.509710844965602e-06,
      "loss": 1.09687281,
      "memory(GiB)": 112.26,
      "step": 22840,
      "train_speed(iter/s)": 1.131958
    },
    {
      "acc": 0.72918673,
      "epoch": 0.5795281582952816,
      "grad_norm": 4.96875,
      "learning_rate": 8.508963902405451e-06,
      "loss": 1.14645767,
      "memory(GiB)": 112.26,
      "step": 22845,
      "train_speed(iter/s)": 1.131984
    },
    {
      "acc": 0.73483214,
      "epoch": 0.5796549974632167,
      "grad_norm": 4.3125,
      "learning_rate": 8.508216805505403e-06,
      "loss": 1.07021055,
      "memory(GiB)": 112.26,
      "step": 22850,
      "train_speed(iter/s)": 1.132006
    },
    {
      "acc": 0.72803097,
      "epoch": 0.5797818366311517,
      "grad_norm": 3.109375,
      "learning_rate": 8.507469554298318e-06,
      "loss": 1.10956459,
      "memory(GiB)": 112.26,
      "step": 22855,
      "train_speed(iter/s)": 1.132022
    },
    {
      "acc": 0.73927412,
      "epoch": 0.5799086757990868,
      "grad_norm": 3.875,
      "learning_rate": 8.506722148817061e-06,
      "loss": 1.07428455,
      "memory(GiB)": 112.26,
      "step": 22860,
      "train_speed(iter/s)": 1.132063
    },
    {
      "acc": 0.74360437,
      "epoch": 0.5800355149670218,
      "grad_norm": 3.5625,
      "learning_rate": 8.505974589094505e-06,
      "loss": 1.04481678,
      "memory(GiB)": 112.26,
      "step": 22865,
      "train_speed(iter/s)": 1.132088
    },
    {
      "acc": 0.74026742,
      "epoch": 0.5801623541349569,
      "grad_norm": 3.078125,
      "learning_rate": 8.505226875163537e-06,
      "loss": 1.10777378,
      "memory(GiB)": 112.26,
      "step": 22870,
      "train_speed(iter/s)": 1.13212
    },
    {
      "acc": 0.74099641,
      "epoch": 0.580289193302892,
      "grad_norm": 4.03125,
      "learning_rate": 8.50447900705704e-06,
      "loss": 1.07747841,
      "memory(GiB)": 112.26,
      "step": 22875,
      "train_speed(iter/s)": 1.132163
    },
    {
      "acc": 0.73707137,
      "epoch": 0.580416032470827,
      "grad_norm": 2.875,
      "learning_rate": 8.503730984807911e-06,
      "loss": 1.07045345,
      "memory(GiB)": 112.26,
      "step": 22880,
      "train_speed(iter/s)": 1.13218
    },
    {
      "acc": 0.748491,
      "epoch": 0.5805428716387621,
      "grad_norm": 3.328125,
      "learning_rate": 8.502982808449049e-06,
      "loss": 1.04005241,
      "memory(GiB)": 112.26,
      "step": 22885,
      "train_speed(iter/s)": 1.13221
    },
    {
      "acc": 0.72367692,
      "epoch": 0.5806697108066972,
      "grad_norm": 3.515625,
      "learning_rate": 8.502234478013363e-06,
      "loss": 1.16045008,
      "memory(GiB)": 112.26,
      "step": 22890,
      "train_speed(iter/s)": 1.13225
    },
    {
      "acc": 0.72424364,
      "epoch": 0.5807965499746321,
      "grad_norm": 4.5,
      "learning_rate": 8.501485993533769e-06,
      "loss": 1.12120285,
      "memory(GiB)": 112.26,
      "step": 22895,
      "train_speed(iter/s)": 1.132286
    },
    {
      "acc": 0.73747797,
      "epoch": 0.5809233891425672,
      "grad_norm": 3.75,
      "learning_rate": 8.500737355043188e-06,
      "loss": 1.10006351,
      "memory(GiB)": 112.26,
      "step": 22900,
      "train_speed(iter/s)": 1.13232
    },
    {
      "acc": 0.7418036,
      "epoch": 0.5810502283105022,
      "grad_norm": 3.40625,
      "learning_rate": 8.499988562574549e-06,
      "loss": 1.07169542,
      "memory(GiB)": 112.26,
      "step": 22905,
      "train_speed(iter/s)": 1.132351
    },
    {
      "acc": 0.74416943,
      "epoch": 0.5811770674784373,
      "grad_norm": 5.21875,
      "learning_rate": 8.499239616160787e-06,
      "loss": 1.12398281,
      "memory(GiB)": 112.26,
      "step": 22910,
      "train_speed(iter/s)": 1.132384
    },
    {
      "acc": 0.73741498,
      "epoch": 0.5813039066463724,
      "grad_norm": 4.21875,
      "learning_rate": 8.498490515834841e-06,
      "loss": 1.08845596,
      "memory(GiB)": 112.26,
      "step": 22915,
      "train_speed(iter/s)": 1.132427
    },
    {
      "acc": 0.723314,
      "epoch": 0.5814307458143074,
      "grad_norm": 3.34375,
      "learning_rate": 8.497741261629664e-06,
      "loss": 1.10349684,
      "memory(GiB)": 112.26,
      "step": 22920,
      "train_speed(iter/s)": 1.132433
    },
    {
      "acc": 0.73271575,
      "epoch": 0.5815575849822425,
      "grad_norm": 3.390625,
      "learning_rate": 8.496991853578212e-06,
      "loss": 1.07617798,
      "memory(GiB)": 112.26,
      "step": 22925,
      "train_speed(iter/s)": 1.132484
    },
    {
      "acc": 0.73552723,
      "epoch": 0.5816844241501776,
      "grad_norm": 3.484375,
      "learning_rate": 8.496242291713444e-06,
      "loss": 1.10115089,
      "memory(GiB)": 112.26,
      "step": 22930,
      "train_speed(iter/s)": 1.132504
    },
    {
      "acc": 0.74327612,
      "epoch": 0.5818112633181126,
      "grad_norm": 4.375,
      "learning_rate": 8.495492576068329e-06,
      "loss": 1.07554398,
      "memory(GiB)": 112.26,
      "step": 22935,
      "train_speed(iter/s)": 1.13253
    },
    {
      "acc": 0.73161163,
      "epoch": 0.5819381024860477,
      "grad_norm": 3.40625,
      "learning_rate": 8.494742706675844e-06,
      "loss": 1.11176729,
      "memory(GiB)": 112.26,
      "step": 22940,
      "train_speed(iter/s)": 1.132562
    },
    {
      "acc": 0.7252142,
      "epoch": 0.5820649416539827,
      "grad_norm": 4.0,
      "learning_rate": 8.493992683568975e-06,
      "loss": 1.15997801,
      "memory(GiB)": 112.26,
      "step": 22945,
      "train_speed(iter/s)": 1.132584
    },
    {
      "acc": 0.73945241,
      "epoch": 0.5821917808219178,
      "grad_norm": 5.0,
      "learning_rate": 8.493242506780705e-06,
      "loss": 1.07391148,
      "memory(GiB)": 112.26,
      "step": 22950,
      "train_speed(iter/s)": 1.132611
    },
    {
      "acc": 0.72940426,
      "epoch": 0.5823186199898529,
      "grad_norm": 4.53125,
      "learning_rate": 8.492492176344035e-06,
      "loss": 1.12655964,
      "memory(GiB)": 112.26,
      "step": 22955,
      "train_speed(iter/s)": 1.132661
    },
    {
      "acc": 0.7382174,
      "epoch": 0.5824454591577879,
      "grad_norm": 3.203125,
      "learning_rate": 8.491741692291967e-06,
      "loss": 1.06166229,
      "memory(GiB)": 112.26,
      "step": 22960,
      "train_speed(iter/s)": 1.132702
    },
    {
      "acc": 0.716257,
      "epoch": 0.582572298325723,
      "grad_norm": 4.46875,
      "learning_rate": 8.490991054657507e-06,
      "loss": 1.15894928,
      "memory(GiB)": 112.26,
      "step": 22965,
      "train_speed(iter/s)": 1.132726
    },
    {
      "acc": 0.7327951,
      "epoch": 0.5826991374936581,
      "grad_norm": 4.125,
      "learning_rate": 8.490240263473677e-06,
      "loss": 1.1360817,
      "memory(GiB)": 112.26,
      "step": 22970,
      "train_speed(iter/s)": 1.132739
    },
    {
      "acc": 0.72896576,
      "epoch": 0.5828259766615931,
      "grad_norm": 4.59375,
      "learning_rate": 8.489489318773496e-06,
      "loss": 1.12358665,
      "memory(GiB)": 112.26,
      "step": 22975,
      "train_speed(iter/s)": 1.132788
    },
    {
      "acc": 0.72495852,
      "epoch": 0.5829528158295282,
      "grad_norm": 3.96875,
      "learning_rate": 8.488738220589996e-06,
      "loss": 1.16418152,
      "memory(GiB)": 112.26,
      "step": 22980,
      "train_speed(iter/s)": 1.132818
    },
    {
      "acc": 0.73903823,
      "epoch": 0.5830796549974632,
      "grad_norm": 3.609375,
      "learning_rate": 8.487986968956212e-06,
      "loss": 1.05344048,
      "memory(GiB)": 112.26,
      "step": 22985,
      "train_speed(iter/s)": 1.132852
    },
    {
      "acc": 0.74250078,
      "epoch": 0.5832064941653983,
      "grad_norm": 3.359375,
      "learning_rate": 8.487235563905191e-06,
      "loss": 1.06318588,
      "memory(GiB)": 112.26,
      "step": 22990,
      "train_speed(iter/s)": 1.132896
    },
    {
      "acc": 0.73516307,
      "epoch": 0.5833333333333334,
      "grad_norm": 3.96875,
      "learning_rate": 8.486484005469977e-06,
      "loss": 1.07390404,
      "memory(GiB)": 112.26,
      "step": 22995,
      "train_speed(iter/s)": 1.132947
    },
    {
      "acc": 0.73892336,
      "epoch": 0.5834601725012684,
      "grad_norm": 3.40625,
      "learning_rate": 8.485732293683633e-06,
      "loss": 1.05865488,
      "memory(GiB)": 112.26,
      "step": 23000,
      "train_speed(iter/s)": 1.132969
    },
    {
      "epoch": 0.5834601725012684,
      "eval_acc": 0.722632852814097,
      "eval_loss": 1.060487985610962,
      "eval_runtime": 70.9089,
      "eval_samples_per_second": 89.834,
      "eval_steps_per_second": 22.465,
      "step": 23000
    },
    {
      "acc": 0.72632422,
      "epoch": 0.5835870116692035,
      "grad_norm": 4.40625,
      "learning_rate": 8.48498042857922e-06,
      "loss": 1.10933895,
      "memory(GiB)": 112.26,
      "step": 23005,
      "train_speed(iter/s)": 1.126613
    },
    {
      "acc": 0.72269645,
      "epoch": 0.5837138508371386,
      "grad_norm": 3.96875,
      "learning_rate": 8.484228410189807e-06,
      "loss": 1.10151558,
      "memory(GiB)": 112.26,
      "step": 23010,
      "train_speed(iter/s)": 1.126635
    },
    {
      "acc": 0.72397885,
      "epoch": 0.5838406900050735,
      "grad_norm": 4.09375,
      "learning_rate": 8.483476238548473e-06,
      "loss": 1.11680183,
      "memory(GiB)": 112.26,
      "step": 23015,
      "train_speed(iter/s)": 1.126662
    },
    {
      "acc": 0.73192177,
      "epoch": 0.5839675291730086,
      "grad_norm": 3.171875,
      "learning_rate": 8.482723913688301e-06,
      "loss": 1.11341343,
      "memory(GiB)": 112.26,
      "step": 23020,
      "train_speed(iter/s)": 1.126701
    },
    {
      "acc": 0.74264688,
      "epoch": 0.5840943683409436,
      "grad_norm": 3.78125,
      "learning_rate": 8.481971435642382e-06,
      "loss": 1.06735134,
      "memory(GiB)": 112.26,
      "step": 23025,
      "train_speed(iter/s)": 1.126728
    },
    {
      "acc": 0.73828449,
      "epoch": 0.5842212075088787,
      "grad_norm": 3.359375,
      "learning_rate": 8.481218804443814e-06,
      "loss": 1.05241394,
      "memory(GiB)": 112.26,
      "step": 23030,
      "train_speed(iter/s)": 1.126749
    },
    {
      "acc": 0.71884375,
      "epoch": 0.5843480466768138,
      "grad_norm": 4.0625,
      "learning_rate": 8.480466020125701e-06,
      "loss": 1.11201601,
      "memory(GiB)": 112.26,
      "step": 23035,
      "train_speed(iter/s)": 1.126779
    },
    {
      "acc": 0.73205824,
      "epoch": 0.5844748858447488,
      "grad_norm": 3.15625,
      "learning_rate": 8.479713082721153e-06,
      "loss": 1.12623482,
      "memory(GiB)": 112.26,
      "step": 23040,
      "train_speed(iter/s)": 1.126812
    },
    {
      "acc": 0.74716029,
      "epoch": 0.5846017250126839,
      "grad_norm": 4.03125,
      "learning_rate": 8.478959992263288e-06,
      "loss": 1.03379993,
      "memory(GiB)": 112.26,
      "step": 23045,
      "train_speed(iter/s)": 1.126844
    },
    {
      "acc": 0.72779446,
      "epoch": 0.584728564180619,
      "grad_norm": 3.515625,
      "learning_rate": 8.478206748785229e-06,
      "loss": 1.13906279,
      "memory(GiB)": 112.26,
      "step": 23050,
      "train_speed(iter/s)": 1.126885
    },
    {
      "acc": 0.73423691,
      "epoch": 0.584855403348554,
      "grad_norm": 3.5625,
      "learning_rate": 8.477453352320108e-06,
      "loss": 1.05859852,
      "memory(GiB)": 112.26,
      "step": 23055,
      "train_speed(iter/s)": 1.126928
    },
    {
      "acc": 0.74178023,
      "epoch": 0.5849822425164891,
      "grad_norm": 3.359375,
      "learning_rate": 8.476699802901066e-06,
      "loss": 1.08006859,
      "memory(GiB)": 112.26,
      "step": 23060,
      "train_speed(iter/s)": 1.126962
    },
    {
      "acc": 0.73637791,
      "epoch": 0.5851090816844241,
      "grad_norm": 3.53125,
      "learning_rate": 8.47594610056124e-06,
      "loss": 1.07124529,
      "memory(GiB)": 112.26,
      "step": 23065,
      "train_speed(iter/s)": 1.127001
    },
    {
      "acc": 0.7300561,
      "epoch": 0.5852359208523592,
      "grad_norm": 3.828125,
      "learning_rate": 8.475192245333787e-06,
      "loss": 1.08353481,
      "memory(GiB)": 112.26,
      "step": 23070,
      "train_speed(iter/s)": 1.127036
    },
    {
      "acc": 0.74056363,
      "epoch": 0.5853627600202943,
      "grad_norm": 4.4375,
      "learning_rate": 8.474438237251864e-06,
      "loss": 1.04678888,
      "memory(GiB)": 112.26,
      "step": 23075,
      "train_speed(iter/s)": 1.127065
    },
    {
      "acc": 0.73580556,
      "epoch": 0.5854895991882293,
      "grad_norm": 3.109375,
      "learning_rate": 8.473684076348635e-06,
      "loss": 1.05625582,
      "memory(GiB)": 112.26,
      "step": 23080,
      "train_speed(iter/s)": 1.127088
    },
    {
      "acc": 0.73626308,
      "epoch": 0.5856164383561644,
      "grad_norm": 3.921875,
      "learning_rate": 8.472929762657272e-06,
      "loss": 1.08048248,
      "memory(GiB)": 112.26,
      "step": 23085,
      "train_speed(iter/s)": 1.127118
    },
    {
      "acc": 0.74372568,
      "epoch": 0.5857432775240995,
      "grad_norm": 3.671875,
      "learning_rate": 8.472175296210952e-06,
      "loss": 1.07342815,
      "memory(GiB)": 112.26,
      "step": 23090,
      "train_speed(iter/s)": 1.127156
    },
    {
      "acc": 0.73770137,
      "epoch": 0.5858701166920345,
      "grad_norm": 3.734375,
      "learning_rate": 8.471420677042858e-06,
      "loss": 1.09704723,
      "memory(GiB)": 112.26,
      "step": 23095,
      "train_speed(iter/s)": 1.127199
    },
    {
      "acc": 0.73907766,
      "epoch": 0.5859969558599696,
      "grad_norm": 3.6875,
      "learning_rate": 8.470665905186188e-06,
      "loss": 1.03338709,
      "memory(GiB)": 112.26,
      "step": 23100,
      "train_speed(iter/s)": 1.127235
    },
    {
      "acc": 0.73247747,
      "epoch": 0.5861237950279046,
      "grad_norm": 3.203125,
      "learning_rate": 8.469910980674134e-06,
      "loss": 1.12043753,
      "memory(GiB)": 112.26,
      "step": 23105,
      "train_speed(iter/s)": 1.127288
    },
    {
      "acc": 0.75264692,
      "epoch": 0.5862506341958397,
      "grad_norm": 3.6875,
      "learning_rate": 8.469155903539903e-06,
      "loss": 0.98121786,
      "memory(GiB)": 112.26,
      "step": 23110,
      "train_speed(iter/s)": 1.12733
    },
    {
      "acc": 0.73410234,
      "epoch": 0.5863774733637748,
      "grad_norm": 4.5625,
      "learning_rate": 8.468400673816705e-06,
      "loss": 1.11062288,
      "memory(GiB)": 112.26,
      "step": 23115,
      "train_speed(iter/s)": 1.127347
    },
    {
      "acc": 0.72810378,
      "epoch": 0.5865043125317098,
      "grad_norm": 4.0625,
      "learning_rate": 8.467645291537763e-06,
      "loss": 1.14969063,
      "memory(GiB)": 112.26,
      "step": 23120,
      "train_speed(iter/s)": 1.127382
    },
    {
      "acc": 0.73720808,
      "epoch": 0.5866311516996449,
      "grad_norm": 3.796875,
      "learning_rate": 8.466889756736298e-06,
      "loss": 1.05441399,
      "memory(GiB)": 112.26,
      "step": 23125,
      "train_speed(iter/s)": 1.127435
    },
    {
      "acc": 0.73533735,
      "epoch": 0.58675799086758,
      "grad_norm": 3.296875,
      "learning_rate": 8.466134069445544e-06,
      "loss": 1.05682106,
      "memory(GiB)": 112.26,
      "step": 23130,
      "train_speed(iter/s)": 1.127446
    },
    {
      "acc": 0.73274946,
      "epoch": 0.586884830035515,
      "grad_norm": 3.359375,
      "learning_rate": 8.465378229698737e-06,
      "loss": 1.10542965,
      "memory(GiB)": 112.26,
      "step": 23135,
      "train_speed(iter/s)": 1.12749
    },
    {
      "acc": 0.72210064,
      "epoch": 0.58701166920345,
      "grad_norm": 3.78125,
      "learning_rate": 8.464622237529123e-06,
      "loss": 1.1570035,
      "memory(GiB)": 112.26,
      "step": 23140,
      "train_speed(iter/s)": 1.127511
    },
    {
      "acc": 0.73906231,
      "epoch": 0.587138508371385,
      "grad_norm": 3.84375,
      "learning_rate": 8.463866092969958e-06,
      "loss": 1.04737701,
      "memory(GiB)": 112.26,
      "step": 23145,
      "train_speed(iter/s)": 1.127543
    },
    {
      "acc": 0.73878098,
      "epoch": 0.5872653475393201,
      "grad_norm": 3.4375,
      "learning_rate": 8.463109796054495e-06,
      "loss": 1.10864878,
      "memory(GiB)": 112.26,
      "step": 23150,
      "train_speed(iter/s)": 1.12755
    },
    {
      "acc": 0.73558917,
      "epoch": 0.5873921867072552,
      "grad_norm": 4.15625,
      "learning_rate": 8.462353346815999e-06,
      "loss": 1.08176069,
      "memory(GiB)": 112.26,
      "step": 23155,
      "train_speed(iter/s)": 1.127599
    },
    {
      "acc": 0.73592529,
      "epoch": 0.5875190258751902,
      "grad_norm": 4.15625,
      "learning_rate": 8.461596745287747e-06,
      "loss": 1.06627007,
      "memory(GiB)": 112.26,
      "step": 23160,
      "train_speed(iter/s)": 1.12763
    },
    {
      "acc": 0.70931778,
      "epoch": 0.5876458650431253,
      "grad_norm": 3.890625,
      "learning_rate": 8.460839991503016e-06,
      "loss": 1.1499279,
      "memory(GiB)": 112.26,
      "step": 23165,
      "train_speed(iter/s)": 1.127678
    },
    {
      "acc": 0.75197783,
      "epoch": 0.5877727042110604,
      "grad_norm": 4.65625,
      "learning_rate": 8.46008308549509e-06,
      "loss": 1.02555609,
      "memory(GiB)": 112.26,
      "step": 23170,
      "train_speed(iter/s)": 1.127727
    },
    {
      "acc": 0.73393393,
      "epoch": 0.5878995433789954,
      "grad_norm": 3.6875,
      "learning_rate": 8.459326027297261e-06,
      "loss": 1.07658415,
      "memory(GiB)": 112.26,
      "step": 23175,
      "train_speed(iter/s)": 1.127753
    },
    {
      "acc": 0.73352571,
      "epoch": 0.5880263825469305,
      "grad_norm": 3.8125,
      "learning_rate": 8.45856881694283e-06,
      "loss": 1.06262274,
      "memory(GiB)": 112.26,
      "step": 23180,
      "train_speed(iter/s)": 1.127796
    },
    {
      "acc": 0.73372445,
      "epoch": 0.5881532217148655,
      "grad_norm": 3.640625,
      "learning_rate": 8.4578114544651e-06,
      "loss": 1.05299082,
      "memory(GiB)": 112.26,
      "step": 23185,
      "train_speed(iter/s)": 1.127812
    },
    {
      "acc": 0.74081779,
      "epoch": 0.5882800608828006,
      "grad_norm": 4.34375,
      "learning_rate": 8.457053939897385e-06,
      "loss": 1.08653173,
      "memory(GiB)": 112.26,
      "step": 23190,
      "train_speed(iter/s)": 1.127853
    },
    {
      "acc": 0.74386587,
      "epoch": 0.5884069000507357,
      "grad_norm": 3.328125,
      "learning_rate": 8.456296273273e-06,
      "loss": 1.05118542,
      "memory(GiB)": 112.26,
      "step": 23195,
      "train_speed(iter/s)": 1.127879
    },
    {
      "acc": 0.74077978,
      "epoch": 0.5885337392186707,
      "grad_norm": 3.90625,
      "learning_rate": 8.455538454625276e-06,
      "loss": 1.06948395,
      "memory(GiB)": 112.26,
      "step": 23200,
      "train_speed(iter/s)": 1.127916
    },
    {
      "acc": 0.72893381,
      "epoch": 0.5886605783866058,
      "grad_norm": 4.0,
      "learning_rate": 8.454780483987544e-06,
      "loss": 1.0930192,
      "memory(GiB)": 112.26,
      "step": 23205,
      "train_speed(iter/s)": 1.127954
    },
    {
      "acc": 0.74088573,
      "epoch": 0.5887874175545409,
      "grad_norm": 5.6875,
      "learning_rate": 8.45402236139314e-06,
      "loss": 1.04387817,
      "memory(GiB)": 112.26,
      "step": 23210,
      "train_speed(iter/s)": 1.128003
    },
    {
      "acc": 0.73666496,
      "epoch": 0.5889142567224759,
      "grad_norm": 3.3125,
      "learning_rate": 8.453264086875411e-06,
      "loss": 1.08935814,
      "memory(GiB)": 112.26,
      "step": 23215,
      "train_speed(iter/s)": 1.128044
    },
    {
      "acc": 0.7329567,
      "epoch": 0.589041095890411,
      "grad_norm": 4.125,
      "learning_rate": 8.452505660467713e-06,
      "loss": 1.0478857,
      "memory(GiB)": 112.26,
      "step": 23220,
      "train_speed(iter/s)": 1.128075
    },
    {
      "acc": 0.7373652,
      "epoch": 0.589167935058346,
      "grad_norm": 4.28125,
      "learning_rate": 8.451747082203398e-06,
      "loss": 1.10018845,
      "memory(GiB)": 112.26,
      "step": 23225,
      "train_speed(iter/s)": 1.128125
    },
    {
      "acc": 0.74549561,
      "epoch": 0.5892947742262811,
      "grad_norm": 4.75,
      "learning_rate": 8.450988352115838e-06,
      "loss": 1.04153709,
      "memory(GiB)": 112.26,
      "step": 23230,
      "train_speed(iter/s)": 1.128179
    },
    {
      "acc": 0.73394723,
      "epoch": 0.5894216133942162,
      "grad_norm": 3.453125,
      "learning_rate": 8.450229470238401e-06,
      "loss": 1.08908939,
      "memory(GiB)": 112.26,
      "step": 23235,
      "train_speed(iter/s)": 1.1282
    },
    {
      "acc": 0.73055725,
      "epoch": 0.5895484525621512,
      "grad_norm": 4.71875,
      "learning_rate": 8.44947043660447e-06,
      "loss": 1.08288574,
      "memory(GiB)": 112.26,
      "step": 23240,
      "train_speed(iter/s)": 1.128224
    },
    {
      "acc": 0.74976144,
      "epoch": 0.5896752917300863,
      "grad_norm": 3.921875,
      "learning_rate": 8.448711251247425e-06,
      "loss": 1.02528439,
      "memory(GiB)": 112.26,
      "step": 23245,
      "train_speed(iter/s)": 1.128276
    },
    {
      "acc": 0.73837867,
      "epoch": 0.5898021308980214,
      "grad_norm": 4.15625,
      "learning_rate": 8.447951914200665e-06,
      "loss": 1.08704062,
      "memory(GiB)": 112.26,
      "step": 23250,
      "train_speed(iter/s)": 1.128315
    },
    {
      "acc": 0.74704342,
      "epoch": 0.5899289700659563,
      "grad_norm": 3.625,
      "learning_rate": 8.447192425497583e-06,
      "loss": 1.05215168,
      "memory(GiB)": 112.26,
      "step": 23255,
      "train_speed(iter/s)": 1.128338
    },
    {
      "acc": 0.75068951,
      "epoch": 0.5900558092338914,
      "grad_norm": 4.125,
      "learning_rate": 8.44643278517159e-06,
      "loss": 1.02988567,
      "memory(GiB)": 112.26,
      "step": 23260,
      "train_speed(iter/s)": 1.12836
    },
    {
      "acc": 0.72175055,
      "epoch": 0.5901826484018264,
      "grad_norm": 3.484375,
      "learning_rate": 8.445672993256095e-06,
      "loss": 1.18228827,
      "memory(GiB)": 112.26,
      "step": 23265,
      "train_speed(iter/s)": 1.128401
    },
    {
      "acc": 0.72579927,
      "epoch": 0.5903094875697615,
      "grad_norm": 3.90625,
      "learning_rate": 8.444913049784517e-06,
      "loss": 1.13363523,
      "memory(GiB)": 112.26,
      "step": 23270,
      "train_speed(iter/s)": 1.128439
    },
    {
      "acc": 0.7395545,
      "epoch": 0.5904363267376966,
      "grad_norm": 3.921875,
      "learning_rate": 8.444152954790285e-06,
      "loss": 1.08612823,
      "memory(GiB)": 112.26,
      "step": 23275,
      "train_speed(iter/s)": 1.128473
    },
    {
      "acc": 0.73204451,
      "epoch": 0.5905631659056316,
      "grad_norm": 3.625,
      "learning_rate": 8.443392708306827e-06,
      "loss": 1.09327087,
      "memory(GiB)": 112.26,
      "step": 23280,
      "train_speed(iter/s)": 1.128493
    },
    {
      "acc": 0.73913364,
      "epoch": 0.5906900050735667,
      "grad_norm": 4.65625,
      "learning_rate": 8.442632310367585e-06,
      "loss": 1.05544701,
      "memory(GiB)": 112.26,
      "step": 23285,
      "train_speed(iter/s)": 1.128537
    },
    {
      "acc": 0.74152312,
      "epoch": 0.5908168442415018,
      "grad_norm": 3.890625,
      "learning_rate": 8.441871761006001e-06,
      "loss": 1.04156208,
      "memory(GiB)": 112.26,
      "step": 23290,
      "train_speed(iter/s)": 1.128561
    },
    {
      "acc": 0.72525954,
      "epoch": 0.5909436834094368,
      "grad_norm": 4.40625,
      "learning_rate": 8.441111060255533e-06,
      "loss": 1.11564312,
      "memory(GiB)": 112.26,
      "step": 23295,
      "train_speed(iter/s)": 1.12859
    },
    {
      "acc": 0.71952744,
      "epoch": 0.5910705225773719,
      "grad_norm": 4.1875,
      "learning_rate": 8.440350208149637e-06,
      "loss": 1.15094223,
      "memory(GiB)": 112.26,
      "step": 23300,
      "train_speed(iter/s)": 1.128624
    },
    {
      "acc": 0.73805838,
      "epoch": 0.5911973617453069,
      "grad_norm": 4.9375,
      "learning_rate": 8.43958920472178e-06,
      "loss": 1.07516985,
      "memory(GiB)": 112.26,
      "step": 23305,
      "train_speed(iter/s)": 1.128639
    },
    {
      "acc": 0.73836942,
      "epoch": 0.591324200913242,
      "grad_norm": 3.203125,
      "learning_rate": 8.43882805000543e-06,
      "loss": 1.06113062,
      "memory(GiB)": 112.26,
      "step": 23310,
      "train_speed(iter/s)": 1.128664
    },
    {
      "acc": 0.728333,
      "epoch": 0.5914510400811771,
      "grad_norm": 3.703125,
      "learning_rate": 8.43806674403407e-06,
      "loss": 1.15456066,
      "memory(GiB)": 112.26,
      "step": 23315,
      "train_speed(iter/s)": 1.128706
    },
    {
      "acc": 0.74782858,
      "epoch": 0.5915778792491121,
      "grad_norm": 4.0625,
      "learning_rate": 8.437305286841187e-06,
      "loss": 1.04294519,
      "memory(GiB)": 112.26,
      "step": 23320,
      "train_speed(iter/s)": 1.128746
    },
    {
      "acc": 0.74369669,
      "epoch": 0.5917047184170472,
      "grad_norm": 3.53125,
      "learning_rate": 8.436543678460269e-06,
      "loss": 1.08614521,
      "memory(GiB)": 112.26,
      "step": 23325,
      "train_speed(iter/s)": 1.12877
    },
    {
      "acc": 0.74890814,
      "epoch": 0.5918315575849823,
      "grad_norm": 4.09375,
      "learning_rate": 8.435781918924817e-06,
      "loss": 1.05726223,
      "memory(GiB)": 112.26,
      "step": 23330,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.75131431,
      "epoch": 0.5919583967529173,
      "grad_norm": 3.625,
      "learning_rate": 8.435020008268335e-06,
      "loss": 1.06263285,
      "memory(GiB)": 112.26,
      "step": 23335,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.73284984,
      "epoch": 0.5920852359208524,
      "grad_norm": 4.28125,
      "learning_rate": 8.43425794652434e-06,
      "loss": 1.05840502,
      "memory(GiB)": 112.26,
      "step": 23340,
      "train_speed(iter/s)": 1.12884
    },
    {
      "acc": 0.72299786,
      "epoch": 0.5922120750887874,
      "grad_norm": 3.375,
      "learning_rate": 8.433495733726345e-06,
      "loss": 1.13082237,
      "memory(GiB)": 112.26,
      "step": 23345,
      "train_speed(iter/s)": 1.128844
    },
    {
      "acc": 0.72665873,
      "epoch": 0.5923389142567225,
      "grad_norm": 3.296875,
      "learning_rate": 8.43273336990788e-06,
      "loss": 1.13316612,
      "memory(GiB)": 112.26,
      "step": 23350,
      "train_speed(iter/s)": 1.128889
    },
    {
      "acc": 0.736619,
      "epoch": 0.5924657534246576,
      "grad_norm": 3.640625,
      "learning_rate": 8.431970855102475e-06,
      "loss": 1.10649796,
      "memory(GiB)": 112.26,
      "step": 23355,
      "train_speed(iter/s)": 1.128922
    },
    {
      "acc": 0.7418499,
      "epoch": 0.5925925925925926,
      "grad_norm": 2.984375,
      "learning_rate": 8.43120818934367e-06,
      "loss": 1.05563755,
      "memory(GiB)": 112.26,
      "step": 23360,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.73216801,
      "epoch": 0.5927194317605277,
      "grad_norm": 3.90625,
      "learning_rate": 8.430445372665008e-06,
      "loss": 1.11053734,
      "memory(GiB)": 112.26,
      "step": 23365,
      "train_speed(iter/s)": 1.129032
    },
    {
      "acc": 0.73985109,
      "epoch": 0.5928462709284628,
      "grad_norm": 3.625,
      "learning_rate": 8.429682405100042e-06,
      "loss": 1.10811367,
      "memory(GiB)": 112.26,
      "step": 23370,
      "train_speed(iter/s)": 1.129071
    },
    {
      "acc": 0.75061598,
      "epoch": 0.5929731100963977,
      "grad_norm": 3.6875,
      "learning_rate": 8.428919286682333e-06,
      "loss": 1.0323616,
      "memory(GiB)": 112.26,
      "step": 23375,
      "train_speed(iter/s)": 1.129097
    },
    {
      "acc": 0.73824897,
      "epoch": 0.5930999492643328,
      "grad_norm": 3.375,
      "learning_rate": 8.428156017445443e-06,
      "loss": 1.05128345,
      "memory(GiB)": 112.26,
      "step": 23380,
      "train_speed(iter/s)": 1.129099
    },
    {
      "acc": 0.73472881,
      "epoch": 0.5932267884322678,
      "grad_norm": 4.09375,
      "learning_rate": 8.427392597422947e-06,
      "loss": 1.10086775,
      "memory(GiB)": 112.26,
      "step": 23385,
      "train_speed(iter/s)": 1.129148
    },
    {
      "acc": 0.73481302,
      "epoch": 0.5933536276002029,
      "grad_norm": 3.46875,
      "learning_rate": 8.426629026648423e-06,
      "loss": 1.11638613,
      "memory(GiB)": 112.26,
      "step": 23390,
      "train_speed(iter/s)": 1.129177
    },
    {
      "acc": 0.72650595,
      "epoch": 0.593480466768138,
      "grad_norm": 4.375,
      "learning_rate": 8.425865305155455e-06,
      "loss": 1.12241888,
      "memory(GiB)": 112.26,
      "step": 23395,
      "train_speed(iter/s)": 1.129217
    },
    {
      "acc": 0.74023066,
      "epoch": 0.593607305936073,
      "grad_norm": 4.71875,
      "learning_rate": 8.425101432977636e-06,
      "loss": 1.09831944,
      "memory(GiB)": 112.26,
      "step": 23400,
      "train_speed(iter/s)": 1.129255
    },
    {
      "acc": 0.7159502,
      "epoch": 0.5937341451040081,
      "grad_norm": 3.5,
      "learning_rate": 8.424337410148562e-06,
      "loss": 1.13817844,
      "memory(GiB)": 112.26,
      "step": 23405,
      "train_speed(iter/s)": 1.129299
    },
    {
      "acc": 0.73246694,
      "epoch": 0.5938609842719432,
      "grad_norm": 3.71875,
      "learning_rate": 8.423573236701842e-06,
      "loss": 1.12218313,
      "memory(GiB)": 112.26,
      "step": 23410,
      "train_speed(iter/s)": 1.12933
    },
    {
      "acc": 0.73370209,
      "epoch": 0.5939878234398782,
      "grad_norm": 3.5,
      "learning_rate": 8.422808912671086e-06,
      "loss": 1.10677795,
      "memory(GiB)": 112.26,
      "step": 23415,
      "train_speed(iter/s)": 1.12938
    },
    {
      "acc": 0.7441443,
      "epoch": 0.5941146626078133,
      "grad_norm": 3.265625,
      "learning_rate": 8.422044438089911e-06,
      "loss": 1.10410776,
      "memory(GiB)": 112.26,
      "step": 23420,
      "train_speed(iter/s)": 1.129384
    },
    {
      "acc": 0.74523745,
      "epoch": 0.5942415017757483,
      "grad_norm": 4.78125,
      "learning_rate": 8.421279812991944e-06,
      "loss": 1.0530201,
      "memory(GiB)": 112.26,
      "step": 23425,
      "train_speed(iter/s)": 1.129432
    },
    {
      "acc": 0.73553276,
      "epoch": 0.5943683409436834,
      "grad_norm": 3.53125,
      "learning_rate": 8.420515037410817e-06,
      "loss": 1.06119556,
      "memory(GiB)": 112.26,
      "step": 23430,
      "train_speed(iter/s)": 1.129462
    },
    {
      "acc": 0.72658691,
      "epoch": 0.5944951801116185,
      "grad_norm": 3.765625,
      "learning_rate": 8.419750111380166e-06,
      "loss": 1.08425446,
      "memory(GiB)": 112.26,
      "step": 23435,
      "train_speed(iter/s)": 1.129508
    },
    {
      "acc": 0.73570995,
      "epoch": 0.5946220192795535,
      "grad_norm": 3.65625,
      "learning_rate": 8.418985034933637e-06,
      "loss": 1.10366173,
      "memory(GiB)": 112.26,
      "step": 23440,
      "train_speed(iter/s)": 1.129547
    },
    {
      "acc": 0.74104962,
      "epoch": 0.5947488584474886,
      "grad_norm": 3.609375,
      "learning_rate": 8.418219808104882e-06,
      "loss": 1.04469795,
      "memory(GiB)": 112.26,
      "step": 23445,
      "train_speed(iter/s)": 1.129582
    },
    {
      "acc": 0.74344406,
      "epoch": 0.5948756976154237,
      "grad_norm": 3.6875,
      "learning_rate": 8.417454430927559e-06,
      "loss": 1.09874249,
      "memory(GiB)": 112.26,
      "step": 23450,
      "train_speed(iter/s)": 1.129618
    },
    {
      "acc": 0.72900963,
      "epoch": 0.5950025367833587,
      "grad_norm": 3.53125,
      "learning_rate": 8.41668890343533e-06,
      "loss": 1.12376556,
      "memory(GiB)": 112.26,
      "step": 23455,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.7160749,
      "epoch": 0.5951293759512938,
      "grad_norm": 3.234375,
      "learning_rate": 8.41592322566187e-06,
      "loss": 1.1576231,
      "memory(GiB)": 112.26,
      "step": 23460,
      "train_speed(iter/s)": 1.129692
    },
    {
      "acc": 0.72899327,
      "epoch": 0.5952562151192288,
      "grad_norm": 3.96875,
      "learning_rate": 8.415157397640857e-06,
      "loss": 1.05322361,
      "memory(GiB)": 112.26,
      "step": 23465,
      "train_speed(iter/s)": 1.129717
    },
    {
      "acc": 0.72997494,
      "epoch": 0.5953830542871639,
      "grad_norm": 3.609375,
      "learning_rate": 8.414391419405972e-06,
      "loss": 1.0694706,
      "memory(GiB)": 112.26,
      "step": 23470,
      "train_speed(iter/s)": 1.129732
    },
    {
      "acc": 0.73259196,
      "epoch": 0.595509893455099,
      "grad_norm": 4.5,
      "learning_rate": 8.413625290990909e-06,
      "loss": 1.12087917,
      "memory(GiB)": 112.26,
      "step": 23475,
      "train_speed(iter/s)": 1.129776
    },
    {
      "acc": 0.75248008,
      "epoch": 0.595636732623034,
      "grad_norm": 3.609375,
      "learning_rate": 8.412859012429365e-06,
      "loss": 1.0172081,
      "memory(GiB)": 112.26,
      "step": 23480,
      "train_speed(iter/s)": 1.129804
    },
    {
      "acc": 0.74148388,
      "epoch": 0.5957635717909691,
      "grad_norm": 3.71875,
      "learning_rate": 8.412092583755043e-06,
      "loss": 1.04921875,
      "memory(GiB)": 112.26,
      "step": 23485,
      "train_speed(iter/s)": 1.129839
    },
    {
      "acc": 0.7279911,
      "epoch": 0.5958904109589042,
      "grad_norm": 3.546875,
      "learning_rate": 8.411326005001658e-06,
      "loss": 1.09205513,
      "memory(GiB)": 112.26,
      "step": 23490,
      "train_speed(iter/s)": 1.129879
    },
    {
      "acc": 0.72164545,
      "epoch": 0.5960172501268391,
      "grad_norm": 3.78125,
      "learning_rate": 8.410559276202922e-06,
      "loss": 1.12468166,
      "memory(GiB)": 112.26,
      "step": 23495,
      "train_speed(iter/s)": 1.129914
    },
    {
      "acc": 0.71915336,
      "epoch": 0.5961440892947742,
      "grad_norm": 3.09375,
      "learning_rate": 8.409792397392565e-06,
      "loss": 1.09370461,
      "memory(GiB)": 112.26,
      "step": 23500,
      "train_speed(iter/s)": 1.129925
    },
    {
      "acc": 0.73148818,
      "epoch": 0.5962709284627092,
      "grad_norm": 4.125,
      "learning_rate": 8.40902536860431e-06,
      "loss": 1.0686264,
      "memory(GiB)": 112.26,
      "step": 23505,
      "train_speed(iter/s)": 1.129959
    },
    {
      "acc": 0.7394145,
      "epoch": 0.5963977676306443,
      "grad_norm": 3.78125,
      "learning_rate": 8.408258189871904e-06,
      "loss": 1.06948004,
      "memory(GiB)": 112.26,
      "step": 23510,
      "train_speed(iter/s)": 1.129984
    },
    {
      "acc": 0.73962841,
      "epoch": 0.5965246067985794,
      "grad_norm": 3.6875,
      "learning_rate": 8.407490861229084e-06,
      "loss": 1.10493126,
      "memory(GiB)": 112.26,
      "step": 23515,
      "train_speed(iter/s)": 1.130007
    },
    {
      "acc": 0.72422276,
      "epoch": 0.5966514459665144,
      "grad_norm": 4.3125,
      "learning_rate": 8.406723382709603e-06,
      "loss": 1.14317636,
      "memory(GiB)": 112.26,
      "step": 23520,
      "train_speed(iter/s)": 1.130047
    },
    {
      "acc": 0.74008398,
      "epoch": 0.5967782851344495,
      "grad_norm": 3.65625,
      "learning_rate": 8.405955754347216e-06,
      "loss": 1.12097416,
      "memory(GiB)": 112.26,
      "step": 23525,
      "train_speed(iter/s)": 1.130075
    },
    {
      "acc": 0.73548245,
      "epoch": 0.5969051243023846,
      "grad_norm": 3.5,
      "learning_rate": 8.40518797617569e-06,
      "loss": 1.10171013,
      "memory(GiB)": 112.26,
      "step": 23530,
      "train_speed(iter/s)": 1.130097
    },
    {
      "acc": 0.75192504,
      "epoch": 0.5970319634703196,
      "grad_norm": 3.546875,
      "learning_rate": 8.404420048228794e-06,
      "loss": 0.98592014,
      "memory(GiB)": 112.26,
      "step": 23535,
      "train_speed(iter/s)": 1.130092
    },
    {
      "acc": 0.72579927,
      "epoch": 0.5971588026382547,
      "grad_norm": 3.671875,
      "learning_rate": 8.403651970540305e-06,
      "loss": 1.12134495,
      "memory(GiB)": 112.26,
      "step": 23540,
      "train_speed(iter/s)": 1.130131
    },
    {
      "acc": 0.72479377,
      "epoch": 0.5972856418061897,
      "grad_norm": 3.859375,
      "learning_rate": 8.402883743144005e-06,
      "loss": 1.07660694,
      "memory(GiB)": 112.26,
      "step": 23545,
      "train_speed(iter/s)": 1.13016
    },
    {
      "acc": 0.73437901,
      "epoch": 0.5974124809741248,
      "grad_norm": 3.625,
      "learning_rate": 8.402115366073686e-06,
      "loss": 1.13360443,
      "memory(GiB)": 112.26,
      "step": 23550,
      "train_speed(iter/s)": 1.130202
    },
    {
      "acc": 0.74220572,
      "epoch": 0.5975393201420599,
      "grad_norm": 3.640625,
      "learning_rate": 8.401346839363143e-06,
      "loss": 1.0759057,
      "memory(GiB)": 112.26,
      "step": 23555,
      "train_speed(iter/s)": 1.130213
    },
    {
      "acc": 0.7336256,
      "epoch": 0.5976661593099949,
      "grad_norm": 4.3125,
      "learning_rate": 8.40057816304618e-06,
      "loss": 1.09660254,
      "memory(GiB)": 112.26,
      "step": 23560,
      "train_speed(iter/s)": 1.130255
    },
    {
      "acc": 0.73005381,
      "epoch": 0.59779299847793,
      "grad_norm": 4.0,
      "learning_rate": 8.399809337156608e-06,
      "loss": 1.15512571,
      "memory(GiB)": 112.26,
      "step": 23565,
      "train_speed(iter/s)": 1.130296
    },
    {
      "acc": 0.72627325,
      "epoch": 0.5979198376458651,
      "grad_norm": 3.4375,
      "learning_rate": 8.39904036172824e-06,
      "loss": 1.10684433,
      "memory(GiB)": 112.26,
      "step": 23570,
      "train_speed(iter/s)": 1.130323
    },
    {
      "acc": 0.74030581,
      "epoch": 0.5980466768138001,
      "grad_norm": 3.5625,
      "learning_rate": 8.398271236794904e-06,
      "loss": 1.05575619,
      "memory(GiB)": 112.26,
      "step": 23575,
      "train_speed(iter/s)": 1.130364
    },
    {
      "acc": 0.72962637,
      "epoch": 0.5981735159817352,
      "grad_norm": 3.890625,
      "learning_rate": 8.397501962390427e-06,
      "loss": 1.10632486,
      "memory(GiB)": 112.26,
      "step": 23580,
      "train_speed(iter/s)": 1.13041
    },
    {
      "acc": 0.72522297,
      "epoch": 0.5983003551496702,
      "grad_norm": 3.78125,
      "learning_rate": 8.396732538548642e-06,
      "loss": 1.12027721,
      "memory(GiB)": 112.26,
      "step": 23585,
      "train_speed(iter/s)": 1.130414
    },
    {
      "acc": 0.73635359,
      "epoch": 0.5984271943176053,
      "grad_norm": 3.34375,
      "learning_rate": 8.395962965303397e-06,
      "loss": 1.13962393,
      "memory(GiB)": 112.26,
      "step": 23590,
      "train_speed(iter/s)": 1.130429
    },
    {
      "acc": 0.7555192,
      "epoch": 0.5985540334855404,
      "grad_norm": 3.390625,
      "learning_rate": 8.395193242688537e-06,
      "loss": 1.06277161,
      "memory(GiB)": 112.26,
      "step": 23595,
      "train_speed(iter/s)": 1.130442
    },
    {
      "acc": 0.73655624,
      "epoch": 0.5986808726534754,
      "grad_norm": 3.90625,
      "learning_rate": 8.394423370737922e-06,
      "loss": 1.00708017,
      "memory(GiB)": 112.26,
      "step": 23600,
      "train_speed(iter/s)": 1.130468
    },
    {
      "acc": 0.73833385,
      "epoch": 0.5988077118214105,
      "grad_norm": 3.4375,
      "learning_rate": 8.393653349485412e-06,
      "loss": 1.04926805,
      "memory(GiB)": 112.26,
      "step": 23605,
      "train_speed(iter/s)": 1.130473
    },
    {
      "acc": 0.72561235,
      "epoch": 0.5989345509893456,
      "grad_norm": 4.625,
      "learning_rate": 8.392883178964874e-06,
      "loss": 1.13738155,
      "memory(GiB)": 112.26,
      "step": 23610,
      "train_speed(iter/s)": 1.130492
    },
    {
      "acc": 0.73537579,
      "epoch": 0.5990613901572805,
      "grad_norm": 4.53125,
      "learning_rate": 8.392112859210186e-06,
      "loss": 1.07007847,
      "memory(GiB)": 112.26,
      "step": 23615,
      "train_speed(iter/s)": 1.130528
    },
    {
      "acc": 0.73553829,
      "epoch": 0.5991882293252156,
      "grad_norm": 3.671875,
      "learning_rate": 8.391342390255232e-06,
      "loss": 1.11309967,
      "memory(GiB)": 112.26,
      "step": 23620,
      "train_speed(iter/s)": 1.130571
    },
    {
      "acc": 0.72831168,
      "epoch": 0.5993150684931506,
      "grad_norm": 3.265625,
      "learning_rate": 8.390571772133896e-06,
      "loss": 1.11890068,
      "memory(GiB)": 112.26,
      "step": 23625,
      "train_speed(iter/s)": 1.130603
    },
    {
      "acc": 0.74190807,
      "epoch": 0.5994419076610857,
      "grad_norm": 3.78125,
      "learning_rate": 8.389801004880077e-06,
      "loss": 1.11585503,
      "memory(GiB)": 112.26,
      "step": 23630,
      "train_speed(iter/s)": 1.130637
    },
    {
      "acc": 0.7279283,
      "epoch": 0.5995687468290208,
      "grad_norm": 3.625,
      "learning_rate": 8.389030088527675e-06,
      "loss": 1.09566135,
      "memory(GiB)": 112.26,
      "step": 23635,
      "train_speed(iter/s)": 1.130679
    },
    {
      "acc": 0.72105908,
      "epoch": 0.5996955859969558,
      "grad_norm": 3.796875,
      "learning_rate": 8.388259023110598e-06,
      "loss": 1.12476673,
      "memory(GiB)": 112.26,
      "step": 23640,
      "train_speed(iter/s)": 1.130696
    },
    {
      "acc": 0.73891602,
      "epoch": 0.5998224251648909,
      "grad_norm": 4.21875,
      "learning_rate": 8.387487808662765e-06,
      "loss": 1.08675156,
      "memory(GiB)": 112.26,
      "step": 23645,
      "train_speed(iter/s)": 1.130728
    },
    {
      "acc": 0.7173315,
      "epoch": 0.599949264332826,
      "grad_norm": 3.59375,
      "learning_rate": 8.38671644521809e-06,
      "loss": 1.15508327,
      "memory(GiB)": 112.26,
      "step": 23650,
      "train_speed(iter/s)": 1.130762
    },
    {
      "acc": 0.73075514,
      "epoch": 0.600076103500761,
      "grad_norm": 3.5625,
      "learning_rate": 8.385944932810508e-06,
      "loss": 1.1028492,
      "memory(GiB)": 112.26,
      "step": 23655,
      "train_speed(iter/s)": 1.1308
    },
    {
      "acc": 0.74561777,
      "epoch": 0.6002029426686961,
      "grad_norm": 3.6875,
      "learning_rate": 8.385173271473948e-06,
      "loss": 1.06052322,
      "memory(GiB)": 112.26,
      "step": 23660,
      "train_speed(iter/s)": 1.130838
    },
    {
      "acc": 0.74100885,
      "epoch": 0.6003297818366311,
      "grad_norm": 3.765625,
      "learning_rate": 8.384401461242355e-06,
      "loss": 1.09103899,
      "memory(GiB)": 112.26,
      "step": 23665,
      "train_speed(iter/s)": 1.13088
    },
    {
      "acc": 0.73165359,
      "epoch": 0.6004566210045662,
      "grad_norm": 4.3125,
      "learning_rate": 8.383629502149678e-06,
      "loss": 1.0872612,
      "memory(GiB)": 112.26,
      "step": 23670,
      "train_speed(iter/s)": 1.130919
    },
    {
      "acc": 0.73741941,
      "epoch": 0.6005834601725013,
      "grad_norm": 4.03125,
      "learning_rate": 8.382857394229865e-06,
      "loss": 1.07948895,
      "memory(GiB)": 112.26,
      "step": 23675,
      "train_speed(iter/s)": 1.130967
    },
    {
      "acc": 0.73111925,
      "epoch": 0.6007102993404363,
      "grad_norm": 3.453125,
      "learning_rate": 8.382085137516883e-06,
      "loss": 1.12053537,
      "memory(GiB)": 112.26,
      "step": 23680,
      "train_speed(iter/s)": 1.130982
    },
    {
      "acc": 0.7411727,
      "epoch": 0.6008371385083714,
      "grad_norm": 3.453125,
      "learning_rate": 8.381312732044696e-06,
      "loss": 1.10963173,
      "memory(GiB)": 112.26,
      "step": 23685,
      "train_speed(iter/s)": 1.131024
    },
    {
      "acc": 0.74402566,
      "epoch": 0.6009639776763065,
      "grad_norm": 3.765625,
      "learning_rate": 8.380540177847278e-06,
      "loss": 1.04876423,
      "memory(GiB)": 112.26,
      "step": 23690,
      "train_speed(iter/s)": 1.131061
    },
    {
      "acc": 0.72186575,
      "epoch": 0.6010908168442415,
      "grad_norm": 3.625,
      "learning_rate": 8.37976747495861e-06,
      "loss": 1.13299065,
      "memory(GiB)": 112.26,
      "step": 23695,
      "train_speed(iter/s)": 1.131082
    },
    {
      "acc": 0.73685513,
      "epoch": 0.6012176560121766,
      "grad_norm": 5.375,
      "learning_rate": 8.378994623412679e-06,
      "loss": 1.0213686,
      "memory(GiB)": 112.26,
      "step": 23700,
      "train_speed(iter/s)": 1.131133
    },
    {
      "acc": 0.72934942,
      "epoch": 0.6013444951801116,
      "grad_norm": 3.734375,
      "learning_rate": 8.378221623243478e-06,
      "loss": 1.07527151,
      "memory(GiB)": 112.26,
      "step": 23705,
      "train_speed(iter/s)": 1.131175
    },
    {
      "acc": 0.73578191,
      "epoch": 0.6014713343480467,
      "grad_norm": 3.203125,
      "learning_rate": 8.377448474485008e-06,
      "loss": 1.03728304,
      "memory(GiB)": 112.26,
      "step": 23710,
      "train_speed(iter/s)": 1.131222
    },
    {
      "acc": 0.74235811,
      "epoch": 0.6015981735159818,
      "grad_norm": 3.25,
      "learning_rate": 8.376675177171273e-06,
      "loss": 1.05394373,
      "memory(GiB)": 112.26,
      "step": 23715,
      "train_speed(iter/s)": 1.131269
    },
    {
      "acc": 0.74686279,
      "epoch": 0.6017250126839168,
      "grad_norm": 3.609375,
      "learning_rate": 8.375901731336292e-06,
      "loss": 1.04885111,
      "memory(GiB)": 112.26,
      "step": 23720,
      "train_speed(iter/s)": 1.131307
    },
    {
      "acc": 0.7420805,
      "epoch": 0.6018518518518519,
      "grad_norm": 4.375,
      "learning_rate": 8.375128137014076e-06,
      "loss": 1.06863518,
      "memory(GiB)": 112.26,
      "step": 23725,
      "train_speed(iter/s)": 1.131326
    },
    {
      "acc": 0.72330484,
      "epoch": 0.601978691019787,
      "grad_norm": 4.875,
      "learning_rate": 8.374354394238658e-06,
      "loss": 1.15080605,
      "memory(GiB)": 112.26,
      "step": 23730,
      "train_speed(iter/s)": 1.131362
    },
    {
      "acc": 0.73499279,
      "epoch": 0.602105530187722,
      "grad_norm": 3.828125,
      "learning_rate": 8.373580503044068e-06,
      "loss": 1.06373215,
      "memory(GiB)": 112.26,
      "step": 23735,
      "train_speed(iter/s)": 1.131384
    },
    {
      "acc": 0.73505974,
      "epoch": 0.602232369355657,
      "grad_norm": 4.84375,
      "learning_rate": 8.372806463464347e-06,
      "loss": 1.10185375,
      "memory(GiB)": 112.26,
      "step": 23740,
      "train_speed(iter/s)": 1.131389
    },
    {
      "acc": 0.75019836,
      "epoch": 0.602359208523592,
      "grad_norm": 3.734375,
      "learning_rate": 8.372032275533538e-06,
      "loss": 1.01663408,
      "memory(GiB)": 112.26,
      "step": 23745,
      "train_speed(iter/s)": 1.131424
    },
    {
      "acc": 0.73577719,
      "epoch": 0.6024860476915271,
      "grad_norm": 3.84375,
      "learning_rate": 8.371257939285692e-06,
      "loss": 1.12170916,
      "memory(GiB)": 112.26,
      "step": 23750,
      "train_speed(iter/s)": 1.131433
    },
    {
      "acc": 0.74775872,
      "epoch": 0.6026128868594622,
      "grad_norm": 4.0625,
      "learning_rate": 8.370483454754873e-06,
      "loss": 1.07753391,
      "memory(GiB)": 112.26,
      "step": 23755,
      "train_speed(iter/s)": 1.131437
    },
    {
      "acc": 0.742381,
      "epoch": 0.6027397260273972,
      "grad_norm": 3.4375,
      "learning_rate": 8.369708821975144e-06,
      "loss": 1.07815762,
      "memory(GiB)": 112.26,
      "step": 23760,
      "train_speed(iter/s)": 1.13146
    },
    {
      "acc": 0.75292063,
      "epoch": 0.6028665651953323,
      "grad_norm": 3.828125,
      "learning_rate": 8.368934040980576e-06,
      "loss": 1.01760349,
      "memory(GiB)": 112.26,
      "step": 23765,
      "train_speed(iter/s)": 1.131469
    },
    {
      "acc": 0.73029122,
      "epoch": 0.6029934043632674,
      "grad_norm": 4.375,
      "learning_rate": 8.368159111805246e-06,
      "loss": 1.15805035,
      "memory(GiB)": 112.26,
      "step": 23770,
      "train_speed(iter/s)": 1.131481
    },
    {
      "acc": 0.74150286,
      "epoch": 0.6031202435312024,
      "grad_norm": 3.34375,
      "learning_rate": 8.367384034483242e-06,
      "loss": 1.07109985,
      "memory(GiB)": 112.26,
      "step": 23775,
      "train_speed(iter/s)": 1.13153
    },
    {
      "acc": 0.72990894,
      "epoch": 0.6032470826991375,
      "grad_norm": 3.90625,
      "learning_rate": 8.366608809048653e-06,
      "loss": 1.12274475,
      "memory(GiB)": 112.26,
      "step": 23780,
      "train_speed(iter/s)": 1.13156
    },
    {
      "acc": 0.7264833,
      "epoch": 0.6033739218670725,
      "grad_norm": 4.34375,
      "learning_rate": 8.365833435535579e-06,
      "loss": 1.10004396,
      "memory(GiB)": 112.26,
      "step": 23785,
      "train_speed(iter/s)": 1.131605
    },
    {
      "acc": 0.7410625,
      "epoch": 0.6035007610350076,
      "grad_norm": 3.640625,
      "learning_rate": 8.365057913978123e-06,
      "loss": 1.1377347,
      "memory(GiB)": 112.26,
      "step": 23790,
      "train_speed(iter/s)": 1.131626
    },
    {
      "acc": 0.72270384,
      "epoch": 0.6036276002029427,
      "grad_norm": 4.03125,
      "learning_rate": 8.364282244410394e-06,
      "loss": 1.13847504,
      "memory(GiB)": 112.26,
      "step": 23795,
      "train_speed(iter/s)": 1.13167
    },
    {
      "acc": 0.73394904,
      "epoch": 0.6037544393708777,
      "grad_norm": 3.1875,
      "learning_rate": 8.363506426866513e-06,
      "loss": 1.07462969,
      "memory(GiB)": 112.26,
      "step": 23800,
      "train_speed(iter/s)": 1.131702
    },
    {
      "acc": 0.73686504,
      "epoch": 0.6038812785388128,
      "grad_norm": 3.234375,
      "learning_rate": 8.362730461380602e-06,
      "loss": 1.07238626,
      "memory(GiB)": 112.26,
      "step": 23805,
      "train_speed(iter/s)": 1.131729
    },
    {
      "acc": 0.73033409,
      "epoch": 0.6040081177067479,
      "grad_norm": 3.75,
      "learning_rate": 8.361954347986793e-06,
      "loss": 1.08821707,
      "memory(GiB)": 112.26,
      "step": 23810,
      "train_speed(iter/s)": 1.131767
    },
    {
      "acc": 0.74873424,
      "epoch": 0.6041349568746829,
      "grad_norm": 3.125,
      "learning_rate": 8.36117808671922e-06,
      "loss": 1.01261978,
      "memory(GiB)": 112.26,
      "step": 23815,
      "train_speed(iter/s)": 1.131781
    },
    {
      "acc": 0.73278313,
      "epoch": 0.604261796042618,
      "grad_norm": 3.578125,
      "learning_rate": 8.36040167761203e-06,
      "loss": 1.07776947,
      "memory(GiB)": 112.26,
      "step": 23820,
      "train_speed(iter/s)": 1.131814
    },
    {
      "acc": 0.74495921,
      "epoch": 0.604388635210553,
      "grad_norm": 4.0625,
      "learning_rate": 8.359625120699368e-06,
      "loss": 1.08628139,
      "memory(GiB)": 112.26,
      "step": 23825,
      "train_speed(iter/s)": 1.131869
    },
    {
      "acc": 0.73624201,
      "epoch": 0.6045154743784881,
      "grad_norm": 4.0,
      "learning_rate": 8.358848416015397e-06,
      "loss": 1.06390848,
      "memory(GiB)": 112.26,
      "step": 23830,
      "train_speed(iter/s)": 1.131903
    },
    {
      "acc": 0.7273119,
      "epoch": 0.6046423135464232,
      "grad_norm": 3.515625,
      "learning_rate": 8.358071563594274e-06,
      "loss": 1.11365299,
      "memory(GiB)": 112.26,
      "step": 23835,
      "train_speed(iter/s)": 1.131945
    },
    {
      "acc": 0.73016448,
      "epoch": 0.6047691527143582,
      "grad_norm": 3.703125,
      "learning_rate": 8.357294563470173e-06,
      "loss": 1.08552084,
      "memory(GiB)": 112.26,
      "step": 23840,
      "train_speed(iter/s)": 1.131996
    },
    {
      "acc": 0.74695854,
      "epoch": 0.6048959918822933,
      "grad_norm": 3.765625,
      "learning_rate": 8.356517415677267e-06,
      "loss": 1.02227345,
      "memory(GiB)": 112.26,
      "step": 23845,
      "train_speed(iter/s)": 1.132011
    },
    {
      "acc": 0.71173935,
      "epoch": 0.6050228310502284,
      "grad_norm": 4.15625,
      "learning_rate": 8.355740120249739e-06,
      "loss": 1.14557505,
      "memory(GiB)": 112.26,
      "step": 23850,
      "train_speed(iter/s)": 1.132026
    },
    {
      "acc": 0.72161598,
      "epoch": 0.6051496702181633,
      "grad_norm": 3.90625,
      "learning_rate": 8.354962677221779e-06,
      "loss": 1.11013069,
      "memory(GiB)": 112.26,
      "step": 23855,
      "train_speed(iter/s)": 1.13207
    },
    {
      "acc": 0.7301208,
      "epoch": 0.6052765093860984,
      "grad_norm": 3.78125,
      "learning_rate": 8.35418508662758e-06,
      "loss": 1.06495209,
      "memory(GiB)": 112.26,
      "step": 23860,
      "train_speed(iter/s)": 1.13211
    },
    {
      "acc": 0.73579955,
      "epoch": 0.6054033485540334,
      "grad_norm": 4.5,
      "learning_rate": 8.353407348501346e-06,
      "loss": 1.0967411,
      "memory(GiB)": 112.26,
      "step": 23865,
      "train_speed(iter/s)": 1.132133
    },
    {
      "acc": 0.7407546,
      "epoch": 0.6055301877219685,
      "grad_norm": 3.59375,
      "learning_rate": 8.352629462877286e-06,
      "loss": 1.07513447,
      "memory(GiB)": 112.26,
      "step": 23870,
      "train_speed(iter/s)": 1.132176
    },
    {
      "acc": 0.72929535,
      "epoch": 0.6056570268899036,
      "grad_norm": 3.96875,
      "learning_rate": 8.351851429789613e-06,
      "loss": 1.13456316,
      "memory(GiB)": 112.26,
      "step": 23875,
      "train_speed(iter/s)": 1.132207
    },
    {
      "acc": 0.72328339,
      "epoch": 0.6057838660578386,
      "grad_norm": 3.5625,
      "learning_rate": 8.35107324927255e-06,
      "loss": 1.10036583,
      "memory(GiB)": 112.26,
      "step": 23880,
      "train_speed(iter/s)": 1.132257
    },
    {
      "acc": 0.72767725,
      "epoch": 0.6059107052257737,
      "grad_norm": 4.25,
      "learning_rate": 8.350294921360323e-06,
      "loss": 1.15911264,
      "memory(GiB)": 112.26,
      "step": 23885,
      "train_speed(iter/s)": 1.132289
    },
    {
      "acc": 0.72231522,
      "epoch": 0.6060375443937088,
      "grad_norm": 3.515625,
      "learning_rate": 8.349516446087168e-06,
      "loss": 1.13826313,
      "memory(GiB)": 112.26,
      "step": 23890,
      "train_speed(iter/s)": 1.132303
    },
    {
      "acc": 0.71298866,
      "epoch": 0.6061643835616438,
      "grad_norm": 3.65625,
      "learning_rate": 8.348737823487325e-06,
      "loss": 1.15061264,
      "memory(GiB)": 112.26,
      "step": 23895,
      "train_speed(iter/s)": 1.132329
    },
    {
      "acc": 0.73032732,
      "epoch": 0.6062912227295789,
      "grad_norm": 3.734375,
      "learning_rate": 8.347959053595042e-06,
      "loss": 1.12422142,
      "memory(GiB)": 112.26,
      "step": 23900,
      "train_speed(iter/s)": 1.132351
    },
    {
      "acc": 0.72761793,
      "epoch": 0.6064180618975139,
      "grad_norm": 4.40625,
      "learning_rate": 8.347180136444572e-06,
      "loss": 1.14205055,
      "memory(GiB)": 112.26,
      "step": 23905,
      "train_speed(iter/s)": 1.132399
    },
    {
      "acc": 0.73825531,
      "epoch": 0.606544901065449,
      "grad_norm": 3.703125,
      "learning_rate": 8.346401072070174e-06,
      "loss": 1.07746735,
      "memory(GiB)": 112.26,
      "step": 23910,
      "train_speed(iter/s)": 1.132426
    },
    {
      "acc": 0.71747422,
      "epoch": 0.6066717402333841,
      "grad_norm": 4.34375,
      "learning_rate": 8.345621860506119e-06,
      "loss": 1.13944206,
      "memory(GiB)": 112.26,
      "step": 23915,
      "train_speed(iter/s)": 1.132461
    },
    {
      "acc": 0.74143381,
      "epoch": 0.6067985794013191,
      "grad_norm": 3.828125,
      "learning_rate": 8.344842501786675e-06,
      "loss": 1.0299963,
      "memory(GiB)": 112.26,
      "step": 23920,
      "train_speed(iter/s)": 1.13249
    },
    {
      "acc": 0.73101511,
      "epoch": 0.6069254185692542,
      "grad_norm": 3.921875,
      "learning_rate": 8.344062995946125e-06,
      "loss": 1.12315292,
      "memory(GiB)": 112.26,
      "step": 23925,
      "train_speed(iter/s)": 1.132531
    },
    {
      "acc": 0.72717123,
      "epoch": 0.6070522577371893,
      "grad_norm": 3.421875,
      "learning_rate": 8.343283343018755e-06,
      "loss": 1.08288383,
      "memory(GiB)": 112.26,
      "step": 23930,
      "train_speed(iter/s)": 1.132529
    },
    {
      "acc": 0.73062124,
      "epoch": 0.6071790969051243,
      "grad_norm": 3.5625,
      "learning_rate": 8.342503543038855e-06,
      "loss": 1.10050211,
      "memory(GiB)": 112.26,
      "step": 23935,
      "train_speed(iter/s)": 1.132541
    },
    {
      "acc": 0.72796803,
      "epoch": 0.6073059360730594,
      "grad_norm": 4.375,
      "learning_rate": 8.341723596040728e-06,
      "loss": 1.16658497,
      "memory(GiB)": 112.26,
      "step": 23940,
      "train_speed(iter/s)": 1.132584
    },
    {
      "acc": 0.71531134,
      "epoch": 0.6074327752409944,
      "grad_norm": 3.390625,
      "learning_rate": 8.340943502058675e-06,
      "loss": 1.1428133,
      "memory(GiB)": 112.26,
      "step": 23945,
      "train_speed(iter/s)": 1.132627
    },
    {
      "acc": 0.73586354,
      "epoch": 0.6075596144089295,
      "grad_norm": 4.0,
      "learning_rate": 8.340163261127014e-06,
      "loss": 1.10648727,
      "memory(GiB)": 112.26,
      "step": 23950,
      "train_speed(iter/s)": 1.132679
    },
    {
      "acc": 0.72487459,
      "epoch": 0.6076864535768646,
      "grad_norm": 3.671875,
      "learning_rate": 8.339382873280058e-06,
      "loss": 1.14076138,
      "memory(GiB)": 112.26,
      "step": 23955,
      "train_speed(iter/s)": 1.13272
    },
    {
      "acc": 0.73206224,
      "epoch": 0.6078132927447996,
      "grad_norm": 3.375,
      "learning_rate": 8.338602338552136e-06,
      "loss": 1.12070265,
      "memory(GiB)": 112.26,
      "step": 23960,
      "train_speed(iter/s)": 1.132706
    },
    {
      "acc": 0.73298206,
      "epoch": 0.6079401319127347,
      "grad_norm": 3.65625,
      "learning_rate": 8.337821656977574e-06,
      "loss": 1.07624435,
      "memory(GiB)": 112.26,
      "step": 23965,
      "train_speed(iter/s)": 1.132729
    },
    {
      "acc": 0.74689484,
      "epoch": 0.6080669710806698,
      "grad_norm": 3.78125,
      "learning_rate": 8.337040828590715e-06,
      "loss": 1.08656912,
      "memory(GiB)": 112.26,
      "step": 23970,
      "train_speed(iter/s)": 1.13277
    },
    {
      "acc": 0.72258482,
      "epoch": 0.6081938102486047,
      "grad_norm": 3.96875,
      "learning_rate": 8.336259853425901e-06,
      "loss": 1.08806553,
      "memory(GiB)": 112.26,
      "step": 23975,
      "train_speed(iter/s)": 1.132806
    },
    {
      "acc": 0.72171726,
      "epoch": 0.6083206494165398,
      "grad_norm": 3.703125,
      "learning_rate": 8.335478731517484e-06,
      "loss": 1.09001732,
      "memory(GiB)": 112.26,
      "step": 23980,
      "train_speed(iter/s)": 1.132821
    },
    {
      "acc": 0.72196007,
      "epoch": 0.6084474885844748,
      "grad_norm": 4.03125,
      "learning_rate": 8.33469746289982e-06,
      "loss": 1.12944927,
      "memory(GiB)": 112.26,
      "step": 23985,
      "train_speed(iter/s)": 1.132824
    },
    {
      "acc": 0.72572317,
      "epoch": 0.6085743277524099,
      "grad_norm": 3.703125,
      "learning_rate": 8.333916047607274e-06,
      "loss": 1.11038866,
      "memory(GiB)": 112.26,
      "step": 23990,
      "train_speed(iter/s)": 1.132864
    },
    {
      "acc": 0.74439268,
      "epoch": 0.608701166920345,
      "grad_norm": 4.28125,
      "learning_rate": 8.333134485674214e-06,
      "loss": 1.08861704,
      "memory(GiB)": 112.26,
      "step": 23995,
      "train_speed(iter/s)": 1.132909
    },
    {
      "acc": 0.72056618,
      "epoch": 0.60882800608828,
      "grad_norm": 3.609375,
      "learning_rate": 8.33235277713502e-06,
      "loss": 1.11437578,
      "memory(GiB)": 112.26,
      "step": 24000,
      "train_speed(iter/s)": 1.132939
    },
    {
      "epoch": 0.60882800608828,
      "eval_acc": 0.7229841059021795,
      "eval_loss": 1.058796763420105,
      "eval_runtime": 70.8186,
      "eval_samples_per_second": 89.948,
      "eval_steps_per_second": 22.494,
      "step": 24000
    },
    {
      "acc": 0.74237418,
      "epoch": 0.6089548452562151,
      "grad_norm": 4.90625,
      "learning_rate": 8.33157092202407e-06,
      "loss": 1.15141621,
      "memory(GiB)": 112.26,
      "step": 24005,
      "train_speed(iter/s)": 1.126828
    },
    {
      "acc": 0.73171806,
      "epoch": 0.6090816844241502,
      "grad_norm": 2.859375,
      "learning_rate": 8.33078892037576e-06,
      "loss": 1.10799332,
      "memory(GiB)": 112.26,
      "step": 24010,
      "train_speed(iter/s)": 1.12684
    },
    {
      "acc": 0.73115354,
      "epoch": 0.6092085235920852,
      "grad_norm": 4.25,
      "learning_rate": 8.33000677222448e-06,
      "loss": 1.09590311,
      "memory(GiB)": 112.26,
      "step": 24015,
      "train_speed(iter/s)": 1.126884
    },
    {
      "acc": 0.73367023,
      "epoch": 0.6093353627600203,
      "grad_norm": 3.34375,
      "learning_rate": 8.329224477604635e-06,
      "loss": 1.10177374,
      "memory(GiB)": 112.26,
      "step": 24020,
      "train_speed(iter/s)": 1.126939
    },
    {
      "acc": 0.72579679,
      "epoch": 0.6094622019279553,
      "grad_norm": 3.75,
      "learning_rate": 8.328442036550633e-06,
      "loss": 1.12144709,
      "memory(GiB)": 112.26,
      "step": 24025,
      "train_speed(iter/s)": 1.126987
    },
    {
      "acc": 0.73702741,
      "epoch": 0.6095890410958904,
      "grad_norm": 3.78125,
      "learning_rate": 8.327659449096892e-06,
      "loss": 1.03804932,
      "memory(GiB)": 112.26,
      "step": 24030,
      "train_speed(iter/s)": 1.127037
    },
    {
      "acc": 0.75608625,
      "epoch": 0.6097158802638255,
      "grad_norm": 3.9375,
      "learning_rate": 8.32687671527783e-06,
      "loss": 0.99036274,
      "memory(GiB)": 112.26,
      "step": 24035,
      "train_speed(iter/s)": 1.127075
    },
    {
      "acc": 0.73083334,
      "epoch": 0.6098427194317605,
      "grad_norm": 3.75,
      "learning_rate": 8.326093835127878e-06,
      "loss": 1.13296013,
      "memory(GiB)": 112.26,
      "step": 24040,
      "train_speed(iter/s)": 1.127121
    },
    {
      "acc": 0.73499479,
      "epoch": 0.6099695585996956,
      "grad_norm": 4.90625,
      "learning_rate": 8.325310808681466e-06,
      "loss": 1.08944798,
      "memory(GiB)": 112.26,
      "step": 24045,
      "train_speed(iter/s)": 1.127146
    },
    {
      "acc": 0.74431343,
      "epoch": 0.6100963977676307,
      "grad_norm": 3.734375,
      "learning_rate": 8.32452763597304e-06,
      "loss": 1.01391525,
      "memory(GiB)": 112.26,
      "step": 24050,
      "train_speed(iter/s)": 1.127173
    },
    {
      "acc": 0.72751322,
      "epoch": 0.6102232369355657,
      "grad_norm": 3.59375,
      "learning_rate": 8.323744317037048e-06,
      "loss": 1.06034126,
      "memory(GiB)": 112.26,
      "step": 24055,
      "train_speed(iter/s)": 1.127208
    },
    {
      "acc": 0.72142572,
      "epoch": 0.6103500761035008,
      "grad_norm": 3.34375,
      "learning_rate": 8.322960851907937e-06,
      "loss": 1.09542904,
      "memory(GiB)": 112.26,
      "step": 24060,
      "train_speed(iter/s)": 1.127214
    },
    {
      "acc": 0.71897368,
      "epoch": 0.6104769152714358,
      "grad_norm": 4.25,
      "learning_rate": 8.322177240620175e-06,
      "loss": 1.10066147,
      "memory(GiB)": 112.26,
      "step": 24065,
      "train_speed(iter/s)": 1.127266
    },
    {
      "acc": 0.74243627,
      "epoch": 0.6106037544393709,
      "grad_norm": 3.84375,
      "learning_rate": 8.321393483208224e-06,
      "loss": 1.06894999,
      "memory(GiB)": 112.26,
      "step": 24070,
      "train_speed(iter/s)": 1.127289
    },
    {
      "acc": 0.74115558,
      "epoch": 0.610730593607306,
      "grad_norm": 3.484375,
      "learning_rate": 8.32060957970656e-06,
      "loss": 1.0813036,
      "memory(GiB)": 112.26,
      "step": 24075,
      "train_speed(iter/s)": 1.12733
    },
    {
      "acc": 0.72520208,
      "epoch": 0.610857432775241,
      "grad_norm": 3.1875,
      "learning_rate": 8.319825530149661e-06,
      "loss": 1.16464291,
      "memory(GiB)": 112.26,
      "step": 24080,
      "train_speed(iter/s)": 1.127363
    },
    {
      "acc": 0.72542734,
      "epoch": 0.6109842719431761,
      "grad_norm": 3.734375,
      "learning_rate": 8.319041334572012e-06,
      "loss": 1.10900574,
      "memory(GiB)": 112.26,
      "step": 24085,
      "train_speed(iter/s)": 1.127394
    },
    {
      "acc": 0.72841268,
      "epoch": 0.6111111111111112,
      "grad_norm": 3.875,
      "learning_rate": 8.318256993008108e-06,
      "loss": 1.12773733,
      "memory(GiB)": 112.26,
      "step": 24090,
      "train_speed(iter/s)": 1.127436
    },
    {
      "acc": 0.71696458,
      "epoch": 0.6112379502790461,
      "grad_norm": 3.515625,
      "learning_rate": 8.317472505492446e-06,
      "loss": 1.18378506,
      "memory(GiB)": 112.26,
      "step": 24095,
      "train_speed(iter/s)": 1.12748
    },
    {
      "acc": 0.75025177,
      "epoch": 0.6113647894469812,
      "grad_norm": 3.34375,
      "learning_rate": 8.31668787205953e-06,
      "loss": 0.99511204,
      "memory(GiB)": 112.26,
      "step": 24100,
      "train_speed(iter/s)": 1.127508
    },
    {
      "acc": 0.74759841,
      "epoch": 0.6114916286149162,
      "grad_norm": 3.046875,
      "learning_rate": 8.315903092743876e-06,
      "loss": 1.09660749,
      "memory(GiB)": 112.26,
      "step": 24105,
      "train_speed(iter/s)": 1.12756
    },
    {
      "acc": 0.7472846,
      "epoch": 0.6116184677828513,
      "grad_norm": 3.65625,
      "learning_rate": 8.315118167579999e-06,
      "loss": 1.06009321,
      "memory(GiB)": 112.26,
      "step": 24110,
      "train_speed(iter/s)": 1.127608
    },
    {
      "acc": 0.73902168,
      "epoch": 0.6117453069507864,
      "grad_norm": 3.90625,
      "learning_rate": 8.314333096602423e-06,
      "loss": 1.04571743,
      "memory(GiB)": 112.26,
      "step": 24115,
      "train_speed(iter/s)": 1.127639
    },
    {
      "acc": 0.74512806,
      "epoch": 0.6118721461187214,
      "grad_norm": 4.0,
      "learning_rate": 8.313547879845682e-06,
      "loss": 1.10261936,
      "memory(GiB)": 112.26,
      "step": 24120,
      "train_speed(iter/s)": 1.127689
    },
    {
      "acc": 0.7288362,
      "epoch": 0.6119989852866565,
      "grad_norm": 4.84375,
      "learning_rate": 8.312762517344308e-06,
      "loss": 1.10264654,
      "memory(GiB)": 112.26,
      "step": 24125,
      "train_speed(iter/s)": 1.127724
    },
    {
      "acc": 0.72470107,
      "epoch": 0.6121258244545916,
      "grad_norm": 4.84375,
      "learning_rate": 8.311977009132851e-06,
      "loss": 1.10167408,
      "memory(GiB)": 112.26,
      "step": 24130,
      "train_speed(iter/s)": 1.127777
    },
    {
      "acc": 0.73647223,
      "epoch": 0.6122526636225266,
      "grad_norm": 3.578125,
      "learning_rate": 8.311191355245858e-06,
      "loss": 1.10705118,
      "memory(GiB)": 112.26,
      "step": 24135,
      "train_speed(iter/s)": 1.127815
    },
    {
      "acc": 0.74073229,
      "epoch": 0.6123795027904617,
      "grad_norm": 3.03125,
      "learning_rate": 8.310405555717884e-06,
      "loss": 1.10702,
      "memory(GiB)": 112.26,
      "step": 24140,
      "train_speed(iter/s)": 1.127863
    },
    {
      "acc": 0.72828546,
      "epoch": 0.6125063419583967,
      "grad_norm": 3.296875,
      "learning_rate": 8.309619610583495e-06,
      "loss": 1.12928028,
      "memory(GiB)": 112.26,
      "step": 24145,
      "train_speed(iter/s)": 1.127876
    },
    {
      "acc": 0.75310898,
      "epoch": 0.6126331811263318,
      "grad_norm": 3.578125,
      "learning_rate": 8.30883351987726e-06,
      "loss": 1.08404226,
      "memory(GiB)": 112.26,
      "step": 24150,
      "train_speed(iter/s)": 1.127918
    },
    {
      "acc": 0.72790575,
      "epoch": 0.6127600202942669,
      "grad_norm": 5.6875,
      "learning_rate": 8.30804728363375e-06,
      "loss": 1.11272106,
      "memory(GiB)": 112.26,
      "step": 24155,
      "train_speed(iter/s)": 1.127947
    },
    {
      "acc": 0.74355845,
      "epoch": 0.6128868594622019,
      "grad_norm": 4.5625,
      "learning_rate": 8.307260901887556e-06,
      "loss": 1.07771578,
      "memory(GiB)": 112.26,
      "step": 24160,
      "train_speed(iter/s)": 1.127982
    },
    {
      "acc": 0.74291453,
      "epoch": 0.613013698630137,
      "grad_norm": 3.296875,
      "learning_rate": 8.306474374673259e-06,
      "loss": 1.0204155,
      "memory(GiB)": 112.26,
      "step": 24165,
      "train_speed(iter/s)": 1.12802
    },
    {
      "acc": 0.742944,
      "epoch": 0.6131405377980721,
      "grad_norm": 4.1875,
      "learning_rate": 8.305687702025457e-06,
      "loss": 1.05714779,
      "memory(GiB)": 112.26,
      "step": 24170,
      "train_speed(iter/s)": 1.128061
    },
    {
      "acc": 0.73690815,
      "epoch": 0.6132673769660071,
      "grad_norm": 3.640625,
      "learning_rate": 8.304900883978753e-06,
      "loss": 1.071982,
      "memory(GiB)": 112.26,
      "step": 24175,
      "train_speed(iter/s)": 1.128099
    },
    {
      "acc": 0.72785535,
      "epoch": 0.6133942161339422,
      "grad_norm": 3.421875,
      "learning_rate": 8.304113920567751e-06,
      "loss": 1.12072268,
      "memory(GiB)": 112.26,
      "step": 24180,
      "train_speed(iter/s)": 1.128135
    },
    {
      "acc": 0.73355713,
      "epoch": 0.6135210553018772,
      "grad_norm": 3.6875,
      "learning_rate": 8.303326811827066e-06,
      "loss": 1.08495493,
      "memory(GiB)": 112.26,
      "step": 24185,
      "train_speed(iter/s)": 1.128183
    },
    {
      "acc": 0.73711143,
      "epoch": 0.6136478944698123,
      "grad_norm": 3.5625,
      "learning_rate": 8.302539557791322e-06,
      "loss": 1.10581837,
      "memory(GiB)": 112.26,
      "step": 24190,
      "train_speed(iter/s)": 1.128221
    },
    {
      "acc": 0.71504459,
      "epoch": 0.6137747336377474,
      "grad_norm": 3.3125,
      "learning_rate": 8.301752158495141e-06,
      "loss": 1.11768093,
      "memory(GiB)": 112.26,
      "step": 24195,
      "train_speed(iter/s)": 1.128234
    },
    {
      "acc": 0.73401279,
      "epoch": 0.6139015728056824,
      "grad_norm": 3.9375,
      "learning_rate": 8.300964613973159e-06,
      "loss": 1.13783331,
      "memory(GiB)": 112.26,
      "step": 24200,
      "train_speed(iter/s)": 1.128283
    },
    {
      "acc": 0.72328157,
      "epoch": 0.6140284119736175,
      "grad_norm": 3.640625,
      "learning_rate": 8.300176924260017e-06,
      "loss": 1.08699465,
      "memory(GiB)": 112.26,
      "step": 24205,
      "train_speed(iter/s)": 1.128286
    },
    {
      "acc": 0.72910433,
      "epoch": 0.6141552511415526,
      "grad_norm": 4.15625,
      "learning_rate": 8.299389089390359e-06,
      "loss": 1.0815505,
      "memory(GiB)": 112.26,
      "step": 24210,
      "train_speed(iter/s)": 1.128329
    },
    {
      "acc": 0.74292874,
      "epoch": 0.6142820903094875,
      "grad_norm": 3.203125,
      "learning_rate": 8.298601109398838e-06,
      "loss": 1.06843472,
      "memory(GiB)": 112.26,
      "step": 24215,
      "train_speed(iter/s)": 1.128363
    },
    {
      "acc": 0.72730732,
      "epoch": 0.6144089294774226,
      "grad_norm": 2.953125,
      "learning_rate": 8.297812984320113e-06,
      "loss": 1.110009,
      "memory(GiB)": 112.26,
      "step": 24220,
      "train_speed(iter/s)": 1.128398
    },
    {
      "acc": 0.72868772,
      "epoch": 0.6145357686453576,
      "grad_norm": 3.390625,
      "learning_rate": 8.297024714188851e-06,
      "loss": 1.07955236,
      "memory(GiB)": 112.26,
      "step": 24225,
      "train_speed(iter/s)": 1.128429
    },
    {
      "acc": 0.73437462,
      "epoch": 0.6146626078132927,
      "grad_norm": 4.46875,
      "learning_rate": 8.296236299039719e-06,
      "loss": 1.12963276,
      "memory(GiB)": 112.26,
      "step": 24230,
      "train_speed(iter/s)": 1.128445
    },
    {
      "acc": 0.73152542,
      "epoch": 0.6147894469812278,
      "grad_norm": 3.453125,
      "learning_rate": 8.295447738907401e-06,
      "loss": 1.04587135,
      "memory(GiB)": 112.26,
      "step": 24235,
      "train_speed(iter/s)": 1.128492
    },
    {
      "acc": 0.72564411,
      "epoch": 0.6149162861491628,
      "grad_norm": 3.46875,
      "learning_rate": 8.294659033826576e-06,
      "loss": 1.1272871,
      "memory(GiB)": 112.26,
      "step": 24240,
      "train_speed(iter/s)": 1.128535
    },
    {
      "acc": 0.71721053,
      "epoch": 0.6150431253170979,
      "grad_norm": 4.46875,
      "learning_rate": 8.293870183831937e-06,
      "loss": 1.12301722,
      "memory(GiB)": 112.26,
      "step": 24245,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.73816872,
      "epoch": 0.615169964485033,
      "grad_norm": 4.125,
      "learning_rate": 8.293081188958183e-06,
      "loss": 1.06530228,
      "memory(GiB)": 112.26,
      "step": 24250,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.74562135,
      "epoch": 0.615296803652968,
      "grad_norm": 3.703125,
      "learning_rate": 8.292292049240014e-06,
      "loss": 1.06171932,
      "memory(GiB)": 112.26,
      "step": 24255,
      "train_speed(iter/s)": 1.128614
    },
    {
      "acc": 0.7206696,
      "epoch": 0.6154236428209031,
      "grad_norm": 3.75,
      "learning_rate": 8.291502764712143e-06,
      "loss": 1.14433851,
      "memory(GiB)": 112.26,
      "step": 24260,
      "train_speed(iter/s)": 1.12865
    },
    {
      "acc": 0.7335988,
      "epoch": 0.6155504819888381,
      "grad_norm": 3.53125,
      "learning_rate": 8.290713335409284e-06,
      "loss": 1.09625006,
      "memory(GiB)": 112.26,
      "step": 24265,
      "train_speed(iter/s)": 1.128687
    },
    {
      "acc": 0.72989578,
      "epoch": 0.6156773211567732,
      "grad_norm": 3.21875,
      "learning_rate": 8.28992376136616e-06,
      "loss": 1.07409773,
      "memory(GiB)": 112.26,
      "step": 24270,
      "train_speed(iter/s)": 1.128697
    },
    {
      "acc": 0.72435713,
      "epoch": 0.6158041603247083,
      "grad_norm": 3.65625,
      "learning_rate": 8.289134042617502e-06,
      "loss": 1.16354342,
      "memory(GiB)": 112.26,
      "step": 24275,
      "train_speed(iter/s)": 1.128715
    },
    {
      "acc": 0.73659191,
      "epoch": 0.6159309994926433,
      "grad_norm": 3.5,
      "learning_rate": 8.288344179198043e-06,
      "loss": 1.05136738,
      "memory(GiB)": 112.26,
      "step": 24280,
      "train_speed(iter/s)": 1.128735
    },
    {
      "acc": 0.73624372,
      "epoch": 0.6160578386605784,
      "grad_norm": 3.53125,
      "learning_rate": 8.287554171142525e-06,
      "loss": 1.11599779,
      "memory(GiB)": 112.26,
      "step": 24285,
      "train_speed(iter/s)": 1.128757
    },
    {
      "acc": 0.725841,
      "epoch": 0.6161846778285135,
      "grad_norm": 3.421875,
      "learning_rate": 8.2867640184857e-06,
      "loss": 1.13403759,
      "memory(GiB)": 112.26,
      "step": 24290,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.71074324,
      "epoch": 0.6163115169964485,
      "grad_norm": 4.0,
      "learning_rate": 8.285973721262315e-06,
      "loss": 1.12954226,
      "memory(GiB)": 112.26,
      "step": 24295,
      "train_speed(iter/s)": 1.128827
    },
    {
      "acc": 0.7271996,
      "epoch": 0.6164383561643836,
      "grad_norm": 3.59375,
      "learning_rate": 8.285183279507135e-06,
      "loss": 1.09801388,
      "memory(GiB)": 112.26,
      "step": 24300,
      "train_speed(iter/s)": 1.12884
    },
    {
      "acc": 0.72852535,
      "epoch": 0.6165651953323186,
      "grad_norm": 5.75,
      "learning_rate": 8.28439269325493e-06,
      "loss": 1.08291416,
      "memory(GiB)": 112.26,
      "step": 24305,
      "train_speed(iter/s)": 1.128843
    },
    {
      "acc": 0.7226984,
      "epoch": 0.6166920345002537,
      "grad_norm": 4.34375,
      "learning_rate": 8.28360196254047e-06,
      "loss": 1.15148478,
      "memory(GiB)": 112.26,
      "step": 24310,
      "train_speed(iter/s)": 1.128862
    },
    {
      "acc": 0.73067894,
      "epoch": 0.6168188736681888,
      "grad_norm": 4.125,
      "learning_rate": 8.282811087398535e-06,
      "loss": 1.08835945,
      "memory(GiB)": 112.26,
      "step": 24315,
      "train_speed(iter/s)": 1.128907
    },
    {
      "acc": 0.72732878,
      "epoch": 0.6169457128361238,
      "grad_norm": 4.03125,
      "learning_rate": 8.282020067863911e-06,
      "loss": 1.1223135,
      "memory(GiB)": 112.26,
      "step": 24320,
      "train_speed(iter/s)": 1.128949
    },
    {
      "acc": 0.74648972,
      "epoch": 0.6170725520040589,
      "grad_norm": 3.609375,
      "learning_rate": 8.281228903971391e-06,
      "loss": 1.05602903,
      "memory(GiB)": 112.26,
      "step": 24325,
      "train_speed(iter/s)": 1.12899
    },
    {
      "acc": 0.73928337,
      "epoch": 0.617199391171994,
      "grad_norm": 4.59375,
      "learning_rate": 8.280437595755774e-06,
      "loss": 1.02867908,
      "memory(GiB)": 112.26,
      "step": 24330,
      "train_speed(iter/s)": 1.129015
    },
    {
      "acc": 0.73619108,
      "epoch": 0.617326230339929,
      "grad_norm": 3.53125,
      "learning_rate": 8.279646143251867e-06,
      "loss": 1.02306385,
      "memory(GiB)": 112.26,
      "step": 24335,
      "train_speed(iter/s)": 1.129052
    },
    {
      "acc": 0.74823141,
      "epoch": 0.617453069507864,
      "grad_norm": 3.8125,
      "learning_rate": 8.278854546494479e-06,
      "loss": 1.04608717,
      "memory(GiB)": 112.26,
      "step": 24340,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.73707643,
      "epoch": 0.617579908675799,
      "grad_norm": 3.75,
      "learning_rate": 8.27806280551843e-06,
      "loss": 1.0335187,
      "memory(GiB)": 112.26,
      "step": 24345,
      "train_speed(iter/s)": 1.129125
    },
    {
      "acc": 0.72252388,
      "epoch": 0.6177067478437341,
      "grad_norm": 3.90625,
      "learning_rate": 8.277270920358542e-06,
      "loss": 1.11510887,
      "memory(GiB)": 112.26,
      "step": 24350,
      "train_speed(iter/s)": 1.129148
    },
    {
      "acc": 0.75292559,
      "epoch": 0.6178335870116692,
      "grad_norm": 3.84375,
      "learning_rate": 8.276478891049649e-06,
      "loss": 1.06919641,
      "memory(GiB)": 112.26,
      "step": 24355,
      "train_speed(iter/s)": 1.129185
    },
    {
      "acc": 0.73851151,
      "epoch": 0.6179604261796042,
      "grad_norm": 3.984375,
      "learning_rate": 8.275686717626584e-06,
      "loss": 1.07085218,
      "memory(GiB)": 112.26,
      "step": 24360,
      "train_speed(iter/s)": 1.129192
    },
    {
      "acc": 0.7368113,
      "epoch": 0.6180872653475393,
      "grad_norm": 3.0,
      "learning_rate": 8.274894400124191e-06,
      "loss": 1.06156197,
      "memory(GiB)": 112.26,
      "step": 24365,
      "train_speed(iter/s)": 1.129229
    },
    {
      "acc": 0.73430614,
      "epoch": 0.6182141045154744,
      "grad_norm": 3.578125,
      "learning_rate": 8.274101938577324e-06,
      "loss": 1.1193656,
      "memory(GiB)": 112.26,
      "step": 24370,
      "train_speed(iter/s)": 1.129266
    },
    {
      "acc": 0.74302125,
      "epoch": 0.6183409436834094,
      "grad_norm": 4.1875,
      "learning_rate": 8.273309333020834e-06,
      "loss": 1.03190126,
      "memory(GiB)": 112.26,
      "step": 24375,
      "train_speed(iter/s)": 1.129289
    },
    {
      "acc": 0.73523283,
      "epoch": 0.6184677828513445,
      "grad_norm": 3.15625,
      "learning_rate": 8.272516583489587e-06,
      "loss": 1.12084446,
      "memory(GiB)": 112.26,
      "step": 24380,
      "train_speed(iter/s)": 1.129328
    },
    {
      "acc": 0.74212923,
      "epoch": 0.6185946220192795,
      "grad_norm": 3.96875,
      "learning_rate": 8.271723690018448e-06,
      "loss": 1.05502586,
      "memory(GiB)": 112.26,
      "step": 24385,
      "train_speed(iter/s)": 1.129374
    },
    {
      "acc": 0.71948166,
      "epoch": 0.6187214611872146,
      "grad_norm": 3.625,
      "learning_rate": 8.270930652642295e-06,
      "loss": 1.1184412,
      "memory(GiB)": 112.26,
      "step": 24390,
      "train_speed(iter/s)": 1.129414
    },
    {
      "acc": 0.72422476,
      "epoch": 0.6188483003551497,
      "grad_norm": 3.671875,
      "learning_rate": 8.270137471396007e-06,
      "loss": 1.11059399,
      "memory(GiB)": 112.26,
      "step": 24395,
      "train_speed(iter/s)": 1.129449
    },
    {
      "acc": 0.7375052,
      "epoch": 0.6189751395230847,
      "grad_norm": 3.25,
      "learning_rate": 8.269344146314475e-06,
      "loss": 1.08397617,
      "memory(GiB)": 112.26,
      "step": 24400,
      "train_speed(iter/s)": 1.129475
    },
    {
      "acc": 0.73308468,
      "epoch": 0.6191019786910198,
      "grad_norm": 3.765625,
      "learning_rate": 8.26855067743259e-06,
      "loss": 1.15118084,
      "memory(GiB)": 112.26,
      "step": 24405,
      "train_speed(iter/s)": 1.129501
    },
    {
      "acc": 0.73537669,
      "epoch": 0.6192288178589549,
      "grad_norm": 3.5625,
      "learning_rate": 8.267757064785254e-06,
      "loss": 1.07288942,
      "memory(GiB)": 112.26,
      "step": 24410,
      "train_speed(iter/s)": 1.129542
    },
    {
      "acc": 0.73116741,
      "epoch": 0.6193556570268899,
      "grad_norm": 4.21875,
      "learning_rate": 8.26696330840737e-06,
      "loss": 1.11014061,
      "memory(GiB)": 112.26,
      "step": 24415,
      "train_speed(iter/s)": 1.129581
    },
    {
      "acc": 0.74983053,
      "epoch": 0.619482496194825,
      "grad_norm": 3.703125,
      "learning_rate": 8.266169408333856e-06,
      "loss": 1.06640091,
      "memory(GiB)": 112.26,
      "step": 24420,
      "train_speed(iter/s)": 1.129608
    },
    {
      "acc": 0.73820839,
      "epoch": 0.61960933536276,
      "grad_norm": 3.765625,
      "learning_rate": 8.265375364599629e-06,
      "loss": 1.08692808,
      "memory(GiB)": 112.26,
      "step": 24425,
      "train_speed(iter/s)": 1.129653
    },
    {
      "acc": 0.74148073,
      "epoch": 0.6197361745306951,
      "grad_norm": 3.921875,
      "learning_rate": 8.264581177239615e-06,
      "loss": 1.0880187,
      "memory(GiB)": 112.26,
      "step": 24430,
      "train_speed(iter/s)": 1.129681
    },
    {
      "acc": 0.7506588,
      "epoch": 0.6198630136986302,
      "grad_norm": 3.734375,
      "learning_rate": 8.263786846288745e-06,
      "loss": 1.02942238,
      "memory(GiB)": 112.26,
      "step": 24435,
      "train_speed(iter/s)": 1.129731
    },
    {
      "acc": 0.73874054,
      "epoch": 0.6199898528665652,
      "grad_norm": 4.3125,
      "learning_rate": 8.262992371781956e-06,
      "loss": 1.06294193,
      "memory(GiB)": 112.26,
      "step": 24440,
      "train_speed(iter/s)": 1.12975
    },
    {
      "acc": 0.71832972,
      "epoch": 0.6201166920345003,
      "grad_norm": 3.859375,
      "learning_rate": 8.262197753754195e-06,
      "loss": 1.15861845,
      "memory(GiB)": 112.26,
      "step": 24445,
      "train_speed(iter/s)": 1.129798
    },
    {
      "acc": 0.73200245,
      "epoch": 0.6202435312024354,
      "grad_norm": 4.09375,
      "learning_rate": 8.261402992240414e-06,
      "loss": 1.12084904,
      "memory(GiB)": 112.26,
      "step": 24450,
      "train_speed(iter/s)": 1.129833
    },
    {
      "acc": 0.72969289,
      "epoch": 0.6203703703703703,
      "grad_norm": 4.15625,
      "learning_rate": 8.260608087275566e-06,
      "loss": 1.1291028,
      "memory(GiB)": 112.26,
      "step": 24455,
      "train_speed(iter/s)": 1.129869
    },
    {
      "acc": 0.73825998,
      "epoch": 0.6204972095383054,
      "grad_norm": 3.34375,
      "learning_rate": 8.259813038894617e-06,
      "loss": 1.09905357,
      "memory(GiB)": 112.26,
      "step": 24460,
      "train_speed(iter/s)": 1.129891
    },
    {
      "acc": 0.73516173,
      "epoch": 0.6206240487062404,
      "grad_norm": 3.546875,
      "learning_rate": 8.259017847132538e-06,
      "loss": 1.05897541,
      "memory(GiB)": 112.26,
      "step": 24465,
      "train_speed(iter/s)": 1.129901
    },
    {
      "acc": 0.72733459,
      "epoch": 0.6207508878741755,
      "grad_norm": 4.03125,
      "learning_rate": 8.258222512024303e-06,
      "loss": 1.12915087,
      "memory(GiB)": 112.26,
      "step": 24470,
      "train_speed(iter/s)": 1.129941
    },
    {
      "acc": 0.7429368,
      "epoch": 0.6208777270421106,
      "grad_norm": 3.21875,
      "learning_rate": 8.257427033604894e-06,
      "loss": 1.03774509,
      "memory(GiB)": 112.26,
      "step": 24475,
      "train_speed(iter/s)": 1.129979
    },
    {
      "acc": 0.72538729,
      "epoch": 0.6210045662100456,
      "grad_norm": 3.796875,
      "learning_rate": 8.256631411909305e-06,
      "loss": 1.11346712,
      "memory(GiB)": 112.26,
      "step": 24480,
      "train_speed(iter/s)": 1.129999
    },
    {
      "acc": 0.7364954,
      "epoch": 0.6211314053779807,
      "grad_norm": 3.859375,
      "learning_rate": 8.25583564697252e-06,
      "loss": 1.03433046,
      "memory(GiB)": 112.26,
      "step": 24485,
      "train_speed(iter/s)": 1.130022
    },
    {
      "acc": 0.73872423,
      "epoch": 0.6212582445459158,
      "grad_norm": 3.640625,
      "learning_rate": 8.255039738829552e-06,
      "loss": 1.0901782,
      "memory(GiB)": 112.26,
      "step": 24490,
      "train_speed(iter/s)": 1.130059
    },
    {
      "acc": 0.73799257,
      "epoch": 0.6213850837138508,
      "grad_norm": 3.71875,
      "learning_rate": 8.254243687515402e-06,
      "loss": 1.09078541,
      "memory(GiB)": 112.26,
      "step": 24495,
      "train_speed(iter/s)": 1.13008
    },
    {
      "acc": 0.73242178,
      "epoch": 0.6215119228817859,
      "grad_norm": 3.5,
      "learning_rate": 8.253447493065085e-06,
      "loss": 1.09192924,
      "memory(GiB)": 112.26,
      "step": 24500,
      "train_speed(iter/s)": 1.13011
    },
    {
      "acc": 0.72971931,
      "epoch": 0.6216387620497209,
      "grad_norm": 3.65625,
      "learning_rate": 8.252651155513622e-06,
      "loss": 1.10040112,
      "memory(GiB)": 112.26,
      "step": 24505,
      "train_speed(iter/s)": 1.13014
    },
    {
      "acc": 0.71644297,
      "epoch": 0.621765601217656,
      "grad_norm": 3.671875,
      "learning_rate": 8.251854674896039e-06,
      "loss": 1.1637639,
      "memory(GiB)": 112.26,
      "step": 24510,
      "train_speed(iter/s)": 1.130167
    },
    {
      "acc": 0.72836423,
      "epoch": 0.6218924403855911,
      "grad_norm": 3.609375,
      "learning_rate": 8.251058051247368e-06,
      "loss": 1.09594402,
      "memory(GiB)": 112.26,
      "step": 24515,
      "train_speed(iter/s)": 1.130199
    },
    {
      "acc": 0.74091949,
      "epoch": 0.6220192795535261,
      "grad_norm": 3.546875,
      "learning_rate": 8.250261284602651e-06,
      "loss": 1.07657719,
      "memory(GiB)": 112.26,
      "step": 24520,
      "train_speed(iter/s)": 1.130233
    },
    {
      "acc": 0.73460045,
      "epoch": 0.6221461187214612,
      "grad_norm": 3.875,
      "learning_rate": 8.249464374996932e-06,
      "loss": 1.10019855,
      "memory(GiB)": 112.26,
      "step": 24525,
      "train_speed(iter/s)": 1.130265
    },
    {
      "acc": 0.73245344,
      "epoch": 0.6222729578893963,
      "grad_norm": 3.640625,
      "learning_rate": 8.24866732246526e-06,
      "loss": 1.13111153,
      "memory(GiB)": 112.26,
      "step": 24530,
      "train_speed(iter/s)": 1.130305
    },
    {
      "acc": 0.73184323,
      "epoch": 0.6223997970573313,
      "grad_norm": 4.28125,
      "learning_rate": 8.247870127042695e-06,
      "loss": 1.08787251,
      "memory(GiB)": 112.26,
      "step": 24535,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.72806201,
      "epoch": 0.6225266362252664,
      "grad_norm": 4.28125,
      "learning_rate": 8.247072788764302e-06,
      "loss": 1.08789158,
      "memory(GiB)": 112.26,
      "step": 24540,
      "train_speed(iter/s)": 1.130364
    },
    {
      "acc": 0.71876559,
      "epoch": 0.6226534753932014,
      "grad_norm": 3.625,
      "learning_rate": 8.246275307665147e-06,
      "loss": 1.13267078,
      "memory(GiB)": 112.26,
      "step": 24545,
      "train_speed(iter/s)": 1.130406
    },
    {
      "acc": 0.74481182,
      "epoch": 0.6227803145611365,
      "grad_norm": 4.34375,
      "learning_rate": 8.245477683780316e-06,
      "loss": 1.01521311,
      "memory(GiB)": 112.26,
      "step": 24550,
      "train_speed(iter/s)": 1.130444
    },
    {
      "acc": 0.7410996,
      "epoch": 0.6229071537290716,
      "grad_norm": 3.921875,
      "learning_rate": 8.244679917144883e-06,
      "loss": 1.08936119,
      "memory(GiB)": 112.26,
      "step": 24555,
      "train_speed(iter/s)": 1.130472
    },
    {
      "acc": 0.72269974,
      "epoch": 0.6230339928970066,
      "grad_norm": 3.953125,
      "learning_rate": 8.243882007793941e-06,
      "loss": 1.16476994,
      "memory(GiB)": 112.26,
      "step": 24560,
      "train_speed(iter/s)": 1.130512
    },
    {
      "acc": 0.73980427,
      "epoch": 0.6231608320649417,
      "grad_norm": 4.125,
      "learning_rate": 8.243083955762588e-06,
      "loss": 1.08988686,
      "memory(GiB)": 112.26,
      "step": 24565,
      "train_speed(iter/s)": 1.130543
    },
    {
      "acc": 0.73846922,
      "epoch": 0.6232876712328768,
      "grad_norm": 3.984375,
      "learning_rate": 8.24228576108592e-06,
      "loss": 1.09512186,
      "memory(GiB)": 112.26,
      "step": 24570,
      "train_speed(iter/s)": 1.130593
    },
    {
      "acc": 0.73251443,
      "epoch": 0.6234145104008117,
      "grad_norm": 4.40625,
      "learning_rate": 8.24148742379905e-06,
      "loss": 1.05496845,
      "memory(GiB)": 112.26,
      "step": 24575,
      "train_speed(iter/s)": 1.130614
    },
    {
      "acc": 0.74694242,
      "epoch": 0.6235413495687468,
      "grad_norm": 3.703125,
      "learning_rate": 8.240688943937092e-06,
      "loss": 1.0790451,
      "memory(GiB)": 112.26,
      "step": 24580,
      "train_speed(iter/s)": 1.130658
    },
    {
      "acc": 0.73140278,
      "epoch": 0.6236681887366818,
      "grad_norm": 4.09375,
      "learning_rate": 8.239890321535163e-06,
      "loss": 1.09638348,
      "memory(GiB)": 112.26,
      "step": 24585,
      "train_speed(iter/s)": 1.130681
    },
    {
      "acc": 0.72526188,
      "epoch": 0.6237950279046169,
      "grad_norm": 3.6875,
      "learning_rate": 8.239091556628395e-06,
      "loss": 1.13419952,
      "memory(GiB)": 112.26,
      "step": 24590,
      "train_speed(iter/s)": 1.130725
    },
    {
      "acc": 0.73092422,
      "epoch": 0.623921867072552,
      "grad_norm": 3.640625,
      "learning_rate": 8.238292649251918e-06,
      "loss": 1.11190567,
      "memory(GiB)": 112.26,
      "step": 24595,
      "train_speed(iter/s)": 1.130768
    },
    {
      "acc": 0.74943337,
      "epoch": 0.624048706240487,
      "grad_norm": 3.65625,
      "learning_rate": 8.237493599440871e-06,
      "loss": 1.08383226,
      "memory(GiB)": 112.26,
      "step": 24600,
      "train_speed(iter/s)": 1.130799
    },
    {
      "acc": 0.71246114,
      "epoch": 0.6241755454084221,
      "grad_norm": 3.75,
      "learning_rate": 8.236694407230402e-06,
      "loss": 1.20901566,
      "memory(GiB)": 112.26,
      "step": 24605,
      "train_speed(iter/s)": 1.130833
    },
    {
      "acc": 0.7468904,
      "epoch": 0.6243023845763572,
      "grad_norm": 3.734375,
      "learning_rate": 8.235895072655664e-06,
      "loss": 1.00736132,
      "memory(GiB)": 112.26,
      "step": 24610,
      "train_speed(iter/s)": 1.130832
    },
    {
      "acc": 0.73626685,
      "epoch": 0.6244292237442922,
      "grad_norm": 3.828125,
      "learning_rate": 8.235095595751809e-06,
      "loss": 1.08974667,
      "memory(GiB)": 112.26,
      "step": 24615,
      "train_speed(iter/s)": 1.130845
    },
    {
      "acc": 0.74142256,
      "epoch": 0.6245560629122273,
      "grad_norm": 3.75,
      "learning_rate": 8.23429597655401e-06,
      "loss": 1.08807096,
      "memory(GiB)": 112.26,
      "step": 24620,
      "train_speed(iter/s)": 1.130881
    },
    {
      "acc": 0.71235132,
      "epoch": 0.6246829020801623,
      "grad_norm": 4.0625,
      "learning_rate": 8.233496215097433e-06,
      "loss": 1.16068468,
      "memory(GiB)": 112.26,
      "step": 24625,
      "train_speed(iter/s)": 1.130925
    },
    {
      "acc": 0.73826399,
      "epoch": 0.6248097412480974,
      "grad_norm": 3.59375,
      "learning_rate": 8.232696311417256e-06,
      "loss": 1.05058203,
      "memory(GiB)": 112.26,
      "step": 24630,
      "train_speed(iter/s)": 1.130971
    },
    {
      "acc": 0.7282939,
      "epoch": 0.6249365804160325,
      "grad_norm": 4.5625,
      "learning_rate": 8.231896265548662e-06,
      "loss": 1.13080549,
      "memory(GiB)": 112.26,
      "step": 24635,
      "train_speed(iter/s)": 1.130982
    },
    {
      "acc": 0.73260431,
      "epoch": 0.6250634195839675,
      "grad_norm": 3.53125,
      "learning_rate": 8.231096077526841e-06,
      "loss": 1.11284494,
      "memory(GiB)": 112.26,
      "step": 24640,
      "train_speed(iter/s)": 1.131024
    },
    {
      "acc": 0.74828901,
      "epoch": 0.6251902587519026,
      "grad_norm": 3.765625,
      "learning_rate": 8.230295747386988e-06,
      "loss": 1.03778715,
      "memory(GiB)": 112.26,
      "step": 24645,
      "train_speed(iter/s)": 1.131074
    },
    {
      "acc": 0.74083724,
      "epoch": 0.6253170979198377,
      "grad_norm": 4.21875,
      "learning_rate": 8.229495275164307e-06,
      "loss": 1.02705402,
      "memory(GiB)": 112.26,
      "step": 24650,
      "train_speed(iter/s)": 1.131116
    },
    {
      "acc": 0.73115916,
      "epoch": 0.6254439370877727,
      "grad_norm": 3.984375,
      "learning_rate": 8.228694660894003e-06,
      "loss": 1.12959623,
      "memory(GiB)": 112.26,
      "step": 24655,
      "train_speed(iter/s)": 1.131156
    },
    {
      "acc": 0.74897227,
      "epoch": 0.6255707762557078,
      "grad_norm": 4.4375,
      "learning_rate": 8.227893904611295e-06,
      "loss": 1.06725454,
      "memory(GiB)": 112.26,
      "step": 24660,
      "train_speed(iter/s)": 1.131187
    },
    {
      "acc": 0.73738604,
      "epoch": 0.6256976154236428,
      "grad_norm": 3.140625,
      "learning_rate": 8.2270930063514e-06,
      "loss": 1.07329922,
      "memory(GiB)": 112.26,
      "step": 24665,
      "train_speed(iter/s)": 1.131234
    },
    {
      "acc": 0.73116713,
      "epoch": 0.6258244545915779,
      "grad_norm": 3.78125,
      "learning_rate": 8.226291966149549e-06,
      "loss": 1.12466393,
      "memory(GiB)": 112.26,
      "step": 24670,
      "train_speed(iter/s)": 1.131267
    },
    {
      "acc": 0.75192671,
      "epoch": 0.625951293759513,
      "grad_norm": 3.65625,
      "learning_rate": 8.225490784040971e-06,
      "loss": 1.04814777,
      "memory(GiB)": 112.26,
      "step": 24675,
      "train_speed(iter/s)": 1.131292
    },
    {
      "acc": 0.73261957,
      "epoch": 0.626078132927448,
      "grad_norm": 3.90625,
      "learning_rate": 8.224689460060908e-06,
      "loss": 1.10458889,
      "memory(GiB)": 112.26,
      "step": 24680,
      "train_speed(iter/s)": 1.131333
    },
    {
      "acc": 0.74633045,
      "epoch": 0.6262049720953831,
      "grad_norm": 3.53125,
      "learning_rate": 8.223887994244604e-06,
      "loss": 1.03697872,
      "memory(GiB)": 112.26,
      "step": 24685,
      "train_speed(iter/s)": 1.131371
    },
    {
      "acc": 0.74539595,
      "epoch": 0.6263318112633182,
      "grad_norm": 3.546875,
      "learning_rate": 8.223086386627314e-06,
      "loss": 1.04555931,
      "memory(GiB)": 112.26,
      "step": 24690,
      "train_speed(iter/s)": 1.131409
    },
    {
      "acc": 0.75402985,
      "epoch": 0.6264586504312532,
      "grad_norm": 3.65625,
      "learning_rate": 8.222284637244296e-06,
      "loss": 1.0136322,
      "memory(GiB)": 112.26,
      "step": 24695,
      "train_speed(iter/s)": 1.131447
    },
    {
      "acc": 0.73790021,
      "epoch": 0.6265854895991883,
      "grad_norm": 3.140625,
      "learning_rate": 8.221482746130811e-06,
      "loss": 1.04766254,
      "memory(GiB)": 112.26,
      "step": 24700,
      "train_speed(iter/s)": 1.131494
    },
    {
      "acc": 0.73388939,
      "epoch": 0.6267123287671232,
      "grad_norm": 3.640625,
      "learning_rate": 8.220680713322131e-06,
      "loss": 1.09412165,
      "memory(GiB)": 112.26,
      "step": 24705,
      "train_speed(iter/s)": 1.131516
    },
    {
      "acc": 0.73343701,
      "epoch": 0.6268391679350583,
      "grad_norm": 3.515625,
      "learning_rate": 8.219878538853537e-06,
      "loss": 1.05466356,
      "memory(GiB)": 112.26,
      "step": 24710,
      "train_speed(iter/s)": 1.131526
    },
    {
      "acc": 0.7203351,
      "epoch": 0.6269660071029934,
      "grad_norm": 3.34375,
      "learning_rate": 8.219076222760307e-06,
      "loss": 1.14093685,
      "memory(GiB)": 112.26,
      "step": 24715,
      "train_speed(iter/s)": 1.131556
    },
    {
      "acc": 0.71203833,
      "epoch": 0.6270928462709284,
      "grad_norm": 3.328125,
      "learning_rate": 8.218273765077734e-06,
      "loss": 1.10040054,
      "memory(GiB)": 112.26,
      "step": 24720,
      "train_speed(iter/s)": 1.13158
    },
    {
      "acc": 0.74072466,
      "epoch": 0.6272196854388635,
      "grad_norm": 3.515625,
      "learning_rate": 8.21747116584111e-06,
      "loss": 1.06773739,
      "memory(GiB)": 112.26,
      "step": 24725,
      "train_speed(iter/s)": 1.131625
    },
    {
      "acc": 0.73373628,
      "epoch": 0.6273465246067986,
      "grad_norm": 3.203125,
      "learning_rate": 8.21666842508574e-06,
      "loss": 1.03559799,
      "memory(GiB)": 112.26,
      "step": 24730,
      "train_speed(iter/s)": 1.131657
    },
    {
      "acc": 0.73753099,
      "epoch": 0.6274733637747336,
      "grad_norm": 4.21875,
      "learning_rate": 8.215865542846932e-06,
      "loss": 1.15805883,
      "memory(GiB)": 112.26,
      "step": 24735,
      "train_speed(iter/s)": 1.131681
    },
    {
      "acc": 0.7234766,
      "epoch": 0.6276002029426687,
      "grad_norm": 4.4375,
      "learning_rate": 8.215062519160002e-06,
      "loss": 1.10925188,
      "memory(GiB)": 112.26,
      "step": 24740,
      "train_speed(iter/s)": 1.13171
    },
    {
      "acc": 0.73511,
      "epoch": 0.6277270421106037,
      "grad_norm": 3.765625,
      "learning_rate": 8.214259354060263e-06,
      "loss": 1.1054101,
      "memory(GiB)": 112.26,
      "step": 24745,
      "train_speed(iter/s)": 1.131747
    },
    {
      "acc": 0.72828426,
      "epoch": 0.6278538812785388,
      "grad_norm": 4.15625,
      "learning_rate": 8.21345604758305e-06,
      "loss": 1.077771,
      "memory(GiB)": 112.26,
      "step": 24750,
      "train_speed(iter/s)": 1.13178
    },
    {
      "acc": 0.74232621,
      "epoch": 0.6279807204464739,
      "grad_norm": 3.328125,
      "learning_rate": 8.212652599763693e-06,
      "loss": 1.05895882,
      "memory(GiB)": 112.26,
      "step": 24755,
      "train_speed(iter/s)": 1.131807
    },
    {
      "acc": 0.73062744,
      "epoch": 0.6281075596144089,
      "grad_norm": 4.875,
      "learning_rate": 8.211849010637532e-06,
      "loss": 1.07560577,
      "memory(GiB)": 112.26,
      "step": 24760,
      "train_speed(iter/s)": 1.131851
    },
    {
      "acc": 0.73174677,
      "epoch": 0.628234398782344,
      "grad_norm": 4.0625,
      "learning_rate": 8.211045280239908e-06,
      "loss": 1.05694408,
      "memory(GiB)": 112.26,
      "step": 24765,
      "train_speed(iter/s)": 1.131879
    },
    {
      "acc": 0.72790518,
      "epoch": 0.6283612379502791,
      "grad_norm": 3.984375,
      "learning_rate": 8.210241408606182e-06,
      "loss": 1.06064453,
      "memory(GiB)": 112.26,
      "step": 24770,
      "train_speed(iter/s)": 1.131901
    },
    {
      "acc": 0.74090567,
      "epoch": 0.6284880771182141,
      "grad_norm": 4.25,
      "learning_rate": 8.2094373957717e-06,
      "loss": 1.11313,
      "memory(GiB)": 112.26,
      "step": 24775,
      "train_speed(iter/s)": 1.131937
    },
    {
      "acc": 0.73761845,
      "epoch": 0.6286149162861492,
      "grad_norm": 3.640625,
      "learning_rate": 8.208633241771836e-06,
      "loss": 1.05710697,
      "memory(GiB)": 112.26,
      "step": 24780,
      "train_speed(iter/s)": 1.131973
    },
    {
      "acc": 0.73429136,
      "epoch": 0.6287417554540842,
      "grad_norm": 3.71875,
      "learning_rate": 8.207828946641956e-06,
      "loss": 1.11414881,
      "memory(GiB)": 112.26,
      "step": 24785,
      "train_speed(iter/s)": 1.132007
    },
    {
      "acc": 0.74426265,
      "epoch": 0.6288685946220193,
      "grad_norm": 3.046875,
      "learning_rate": 8.207024510417436e-06,
      "loss": 1.06364117,
      "memory(GiB)": 112.26,
      "step": 24790,
      "train_speed(iter/s)": 1.132049
    },
    {
      "acc": 0.73588386,
      "epoch": 0.6289954337899544,
      "grad_norm": 4.78125,
      "learning_rate": 8.20621993313366e-06,
      "loss": 1.11274996,
      "memory(GiB)": 112.26,
      "step": 24795,
      "train_speed(iter/s)": 1.132075
    },
    {
      "acc": 0.73483992,
      "epoch": 0.6291222729578894,
      "grad_norm": 3.546875,
      "learning_rate": 8.205415214826018e-06,
      "loss": 1.24125528,
      "memory(GiB)": 112.26,
      "step": 24800,
      "train_speed(iter/s)": 1.132095
    },
    {
      "acc": 0.72927241,
      "epoch": 0.6292491121258245,
      "grad_norm": 3.453125,
      "learning_rate": 8.204610355529901e-06,
      "loss": 1.10101299,
      "memory(GiB)": 112.26,
      "step": 24805,
      "train_speed(iter/s)": 1.132123
    },
    {
      "acc": 0.72700186,
      "epoch": 0.6293759512937596,
      "grad_norm": 3.546875,
      "learning_rate": 8.203805355280715e-06,
      "loss": 1.09957867,
      "memory(GiB)": 112.26,
      "step": 24810,
      "train_speed(iter/s)": 1.132152
    },
    {
      "acc": 0.73265791,
      "epoch": 0.6295027904616946,
      "grad_norm": 3.453125,
      "learning_rate": 8.203000214113865e-06,
      "loss": 1.11349258,
      "memory(GiB)": 112.26,
      "step": 24815,
      "train_speed(iter/s)": 1.132193
    },
    {
      "acc": 0.73699942,
      "epoch": 0.6296296296296297,
      "grad_norm": 3.53125,
      "learning_rate": 8.202194932064767e-06,
      "loss": 1.07997265,
      "memory(GiB)": 112.26,
      "step": 24820,
      "train_speed(iter/s)": 1.13222
    },
    {
      "acc": 0.7286624,
      "epoch": 0.6297564687975646,
      "grad_norm": 4.5,
      "learning_rate": 8.201389509168836e-06,
      "loss": 1.10187788,
      "memory(GiB)": 112.26,
      "step": 24825,
      "train_speed(iter/s)": 1.132241
    },
    {
      "acc": 0.71839604,
      "epoch": 0.6298833079654997,
      "grad_norm": 4.03125,
      "learning_rate": 8.200583945461502e-06,
      "loss": 1.12406616,
      "memory(GiB)": 112.26,
      "step": 24830,
      "train_speed(iter/s)": 1.132266
    },
    {
      "acc": 0.72576337,
      "epoch": 0.6300101471334348,
      "grad_norm": 3.59375,
      "learning_rate": 8.199778240978197e-06,
      "loss": 1.07312546,
      "memory(GiB)": 112.26,
      "step": 24835,
      "train_speed(iter/s)": 1.132296
    },
    {
      "acc": 0.71345038,
      "epoch": 0.6301369863013698,
      "grad_norm": 4.15625,
      "learning_rate": 8.19897239575436e-06,
      "loss": 1.14126406,
      "memory(GiB)": 112.26,
      "step": 24840,
      "train_speed(iter/s)": 1.132337
    },
    {
      "acc": 0.72022338,
      "epoch": 0.6302638254693049,
      "grad_norm": 3.359375,
      "learning_rate": 8.198166409825434e-06,
      "loss": 1.14697552,
      "memory(GiB)": 112.26,
      "step": 24845,
      "train_speed(iter/s)": 1.132372
    },
    {
      "acc": 0.73816695,
      "epoch": 0.63039066463724,
      "grad_norm": 4.40625,
      "learning_rate": 8.19736028322687e-06,
      "loss": 1.09821138,
      "memory(GiB)": 112.26,
      "step": 24850,
      "train_speed(iter/s)": 1.132422
    },
    {
      "acc": 0.73129411,
      "epoch": 0.630517503805175,
      "grad_norm": 3.265625,
      "learning_rate": 8.196554015994126e-06,
      "loss": 1.10193062,
      "memory(GiB)": 112.26,
      "step": 24855,
      "train_speed(iter/s)": 1.132449
    },
    {
      "acc": 0.7325985,
      "epoch": 0.6306443429731101,
      "grad_norm": 4.0,
      "learning_rate": 8.195747608162665e-06,
      "loss": 1.09240837,
      "memory(GiB)": 112.26,
      "step": 24860,
      "train_speed(iter/s)": 1.132496
    },
    {
      "acc": 0.73556099,
      "epoch": 0.6307711821410451,
      "grad_norm": 3.40625,
      "learning_rate": 8.194941059767957e-06,
      "loss": 1.08909531,
      "memory(GiB)": 112.26,
      "step": 24865,
      "train_speed(iter/s)": 1.132528
    },
    {
      "acc": 0.72755561,
      "epoch": 0.6308980213089802,
      "grad_norm": 3.859375,
      "learning_rate": 8.194134370845474e-06,
      "loss": 1.09003563,
      "memory(GiB)": 112.26,
      "step": 24870,
      "train_speed(iter/s)": 1.132571
    },
    {
      "acc": 0.74179907,
      "epoch": 0.6310248604769153,
      "grad_norm": 4.25,
      "learning_rate": 8.193327541430703e-06,
      "loss": 1.09831543,
      "memory(GiB)": 112.26,
      "step": 24875,
      "train_speed(iter/s)": 1.132601
    },
    {
      "acc": 0.73195806,
      "epoch": 0.6311516996448503,
      "grad_norm": 3.9375,
      "learning_rate": 8.192520571559128e-06,
      "loss": 1.14566116,
      "memory(GiB)": 112.26,
      "step": 24880,
      "train_speed(iter/s)": 1.132644
    },
    {
      "acc": 0.73901739,
      "epoch": 0.6312785388127854,
      "grad_norm": 4.03125,
      "learning_rate": 8.191713461266246e-06,
      "loss": 1.06645432,
      "memory(GiB)": 112.26,
      "step": 24885,
      "train_speed(iter/s)": 1.13269
    },
    {
      "acc": 0.7332716,
      "epoch": 0.6314053779807205,
      "grad_norm": 3.703125,
      "learning_rate": 8.190906210587555e-06,
      "loss": 1.09534225,
      "memory(GiB)": 112.26,
      "step": 24890,
      "train_speed(iter/s)": 1.132709
    },
    {
      "acc": 0.73950272,
      "epoch": 0.6315322171486555,
      "grad_norm": 3.578125,
      "learning_rate": 8.190098819558562e-06,
      "loss": 1.04179306,
      "memory(GiB)": 112.26,
      "step": 24895,
      "train_speed(iter/s)": 1.132742
    },
    {
      "acc": 0.73195,
      "epoch": 0.6316590563165906,
      "grad_norm": 3.078125,
      "learning_rate": 8.189291288214782e-06,
      "loss": 1.07349482,
      "memory(GiB)": 112.26,
      "step": 24900,
      "train_speed(iter/s)": 1.132779
    },
    {
      "acc": 0.72435226,
      "epoch": 0.6317858954845256,
      "grad_norm": 2.953125,
      "learning_rate": 8.18848361659173e-06,
      "loss": 1.11089172,
      "memory(GiB)": 112.26,
      "step": 24905,
      "train_speed(iter/s)": 1.132805
    },
    {
      "acc": 0.74462929,
      "epoch": 0.6319127346524607,
      "grad_norm": 3.375,
      "learning_rate": 8.187675804724935e-06,
      "loss": 1.07095699,
      "memory(GiB)": 112.26,
      "step": 24910,
      "train_speed(iter/s)": 1.132843
    },
    {
      "acc": 0.73075075,
      "epoch": 0.6320395738203958,
      "grad_norm": 3.359375,
      "learning_rate": 8.186867852649925e-06,
      "loss": 1.0899538,
      "memory(GiB)": 112.26,
      "step": 24915,
      "train_speed(iter/s)": 1.13287
    },
    {
      "acc": 0.73706198,
      "epoch": 0.6321664129883308,
      "grad_norm": 3.71875,
      "learning_rate": 8.186059760402238e-06,
      "loss": 1.06820717,
      "memory(GiB)": 112.26,
      "step": 24920,
      "train_speed(iter/s)": 1.132902
    },
    {
      "acc": 0.74440184,
      "epoch": 0.6322932521562659,
      "grad_norm": 3.5625,
      "learning_rate": 8.185251528017419e-06,
      "loss": 1.0933239,
      "memory(GiB)": 112.26,
      "step": 24925,
      "train_speed(iter/s)": 1.132935
    },
    {
      "acc": 0.72918777,
      "epoch": 0.632420091324201,
      "grad_norm": 3.859375,
      "learning_rate": 8.184443155531016e-06,
      "loss": 1.08404627,
      "memory(GiB)": 112.26,
      "step": 24930,
      "train_speed(iter/s)": 1.132963
    },
    {
      "acc": 0.7420752,
      "epoch": 0.632546930492136,
      "grad_norm": 3.34375,
      "learning_rate": 8.183634642978586e-06,
      "loss": 1.05285807,
      "memory(GiB)": 112.26,
      "step": 24935,
      "train_speed(iter/s)": 1.132985
    },
    {
      "acc": 0.72556496,
      "epoch": 0.632673769660071,
      "grad_norm": 5.03125,
      "learning_rate": 8.18282599039569e-06,
      "loss": 1.08709545,
      "memory(GiB)": 112.26,
      "step": 24940,
      "train_speed(iter/s)": 1.133017
    },
    {
      "acc": 0.72782712,
      "epoch": 0.632800608828006,
      "grad_norm": 4.15625,
      "learning_rate": 8.182017197817898e-06,
      "loss": 1.11249123,
      "memory(GiB)": 112.26,
      "step": 24945,
      "train_speed(iter/s)": 1.133056
    },
    {
      "acc": 0.73609457,
      "epoch": 0.6329274479959411,
      "grad_norm": 3.484375,
      "learning_rate": 8.181208265280782e-06,
      "loss": 1.08736439,
      "memory(GiB)": 112.26,
      "step": 24950,
      "train_speed(iter/s)": 1.133064
    },
    {
      "acc": 0.72671709,
      "epoch": 0.6330542871638762,
      "grad_norm": 3.921875,
      "learning_rate": 8.180399192819923e-06,
      "loss": 1.13986244,
      "memory(GiB)": 112.26,
      "step": 24955,
      "train_speed(iter/s)": 1.133096
    },
    {
      "acc": 0.73084078,
      "epoch": 0.6331811263318112,
      "grad_norm": 4.15625,
      "learning_rate": 8.17958998047091e-06,
      "loss": 1.10075932,
      "memory(GiB)": 112.26,
      "step": 24960,
      "train_speed(iter/s)": 1.133133
    },
    {
      "acc": 0.74588823,
      "epoch": 0.6333079654997463,
      "grad_norm": 4.34375,
      "learning_rate": 8.178780628269332e-06,
      "loss": 1.04136238,
      "memory(GiB)": 112.26,
      "step": 24965,
      "train_speed(iter/s)": 1.133167
    },
    {
      "acc": 0.73433065,
      "epoch": 0.6334348046676814,
      "grad_norm": 3.46875,
      "learning_rate": 8.177971136250788e-06,
      "loss": 1.13863611,
      "memory(GiB)": 112.26,
      "step": 24970,
      "train_speed(iter/s)": 1.133155
    },
    {
      "acc": 0.73543344,
      "epoch": 0.6335616438356164,
      "grad_norm": 3.390625,
      "learning_rate": 8.177161504450887e-06,
      "loss": 1.05965652,
      "memory(GiB)": 112.26,
      "step": 24975,
      "train_speed(iter/s)": 1.133198
    },
    {
      "acc": 0.72637753,
      "epoch": 0.6336884830035515,
      "grad_norm": 3.609375,
      "learning_rate": 8.176351732905239e-06,
      "loss": 1.13946276,
      "memory(GiB)": 112.26,
      "step": 24980,
      "train_speed(iter/s)": 1.13323
    },
    {
      "acc": 0.73677669,
      "epoch": 0.6338153221714865,
      "grad_norm": 4.28125,
      "learning_rate": 8.175541821649459e-06,
      "loss": 1.09255447,
      "memory(GiB)": 112.26,
      "step": 24985,
      "train_speed(iter/s)": 1.133262
    },
    {
      "acc": 0.74993038,
      "epoch": 0.6339421613394216,
      "grad_norm": 3.84375,
      "learning_rate": 8.174731770719173e-06,
      "loss": 1.02881088,
      "memory(GiB)": 112.26,
      "step": 24990,
      "train_speed(iter/s)": 1.133275
    },
    {
      "acc": 0.73460507,
      "epoch": 0.6340690005073567,
      "grad_norm": 3.296875,
      "learning_rate": 8.173921580150008e-06,
      "loss": 1.09829025,
      "memory(GiB)": 112.26,
      "step": 24995,
      "train_speed(iter/s)": 1.133309
    },
    {
      "acc": 0.7258296,
      "epoch": 0.6341958396752917,
      "grad_norm": 3.96875,
      "learning_rate": 8.173111249977602e-06,
      "loss": 1.16634102,
      "memory(GiB)": 112.26,
      "step": 25000,
      "train_speed(iter/s)": 1.133348
    },
    {
      "epoch": 0.6341958396752917,
      "eval_acc": 0.7232175785255306,
      "eval_loss": 1.0572795867919922,
      "eval_runtime": 70.786,
      "eval_samples_per_second": 89.99,
      "eval_steps_per_second": 22.504,
      "step": 25000
    },
    {
      "acc": 0.74610596,
      "epoch": 0.6343226788432268,
      "grad_norm": 3.734375,
      "learning_rate": 8.172300780237596e-06,
      "loss": 1.01962872,
      "memory(GiB)": 112.26,
      "step": 25005,
      "train_speed(iter/s)": 1.127474
    },
    {
      "acc": 0.73193445,
      "epoch": 0.6344495180111619,
      "grad_norm": 3.953125,
      "learning_rate": 8.171490170965639e-06,
      "loss": 1.07103806,
      "memory(GiB)": 112.26,
      "step": 25010,
      "train_speed(iter/s)": 1.127513
    },
    {
      "acc": 0.7443471,
      "epoch": 0.6345763571790969,
      "grad_norm": 4.125,
      "learning_rate": 8.170679422197385e-06,
      "loss": 1.02878428,
      "memory(GiB)": 112.26,
      "step": 25015,
      "train_speed(iter/s)": 1.127532
    },
    {
      "acc": 0.73770523,
      "epoch": 0.634703196347032,
      "grad_norm": 3.8125,
      "learning_rate": 8.169868533968493e-06,
      "loss": 1.06623001,
      "memory(GiB)": 112.26,
      "step": 25020,
      "train_speed(iter/s)": 1.127567
    },
    {
      "acc": 0.72849379,
      "epoch": 0.634830035514967,
      "grad_norm": 3.234375,
      "learning_rate": 8.16905750631463e-06,
      "loss": 1.10828352,
      "memory(GiB)": 112.26,
      "step": 25025,
      "train_speed(iter/s)": 1.127609
    },
    {
      "acc": 0.73964887,
      "epoch": 0.6349568746829021,
      "grad_norm": 4.71875,
      "learning_rate": 8.168246339271471e-06,
      "loss": 1.08583984,
      "memory(GiB)": 112.26,
      "step": 25030,
      "train_speed(iter/s)": 1.127636
    },
    {
      "acc": 0.72047195,
      "epoch": 0.6350837138508372,
      "grad_norm": 3.71875,
      "learning_rate": 8.16743503287469e-06,
      "loss": 1.09709158,
      "memory(GiB)": 112.26,
      "step": 25035,
      "train_speed(iter/s)": 1.127677
    },
    {
      "acc": 0.73397059,
      "epoch": 0.6352105530187722,
      "grad_norm": 3.90625,
      "learning_rate": 8.166623587159978e-06,
      "loss": 1.05515537,
      "memory(GiB)": 112.26,
      "step": 25040,
      "train_speed(iter/s)": 1.127685
    },
    {
      "acc": 0.74491978,
      "epoch": 0.6353373921867073,
      "grad_norm": 3.875,
      "learning_rate": 8.16581200216302e-06,
      "loss": 1.05339413,
      "memory(GiB)": 112.26,
      "step": 25045,
      "train_speed(iter/s)": 1.127734
    },
    {
      "acc": 0.72980766,
      "epoch": 0.6354642313546424,
      "grad_norm": 3.15625,
      "learning_rate": 8.165000277919517e-06,
      "loss": 1.10105753,
      "memory(GiB)": 112.26,
      "step": 25050,
      "train_speed(iter/s)": 1.127762
    },
    {
      "acc": 0.7359498,
      "epoch": 0.6355910705225774,
      "grad_norm": 4.25,
      "learning_rate": 8.16418841446517e-06,
      "loss": 1.09351597,
      "memory(GiB)": 112.26,
      "step": 25055,
      "train_speed(iter/s)": 1.127787
    },
    {
      "acc": 0.7375886,
      "epoch": 0.6357179096905125,
      "grad_norm": 3.359375,
      "learning_rate": 8.163376411835691e-06,
      "loss": 1.0784297,
      "memory(GiB)": 112.26,
      "step": 25060,
      "train_speed(iter/s)": 1.127831
    },
    {
      "acc": 0.7454917,
      "epoch": 0.6358447488584474,
      "grad_norm": 3.25,
      "learning_rate": 8.162564270066793e-06,
      "loss": 1.0261549,
      "memory(GiB)": 112.26,
      "step": 25065,
      "train_speed(iter/s)": 1.127835
    },
    {
      "acc": 0.73471107,
      "epoch": 0.6359715880263825,
      "grad_norm": 3.96875,
      "learning_rate": 8.1617519891942e-06,
      "loss": 1.1026597,
      "memory(GiB)": 112.26,
      "step": 25070,
      "train_speed(iter/s)": 1.127859
    },
    {
      "acc": 0.7368022,
      "epoch": 0.6360984271943176,
      "grad_norm": 3.28125,
      "learning_rate": 8.160939569253637e-06,
      "loss": 1.04520302,
      "memory(GiB)": 112.26,
      "step": 25075,
      "train_speed(iter/s)": 1.127889
    },
    {
      "acc": 0.73214598,
      "epoch": 0.6362252663622526,
      "grad_norm": 3.34375,
      "learning_rate": 8.160127010280838e-06,
      "loss": 1.08172836,
      "memory(GiB)": 112.26,
      "step": 25080,
      "train_speed(iter/s)": 1.127917
    },
    {
      "acc": 0.72876878,
      "epoch": 0.6363521055301877,
      "grad_norm": 4.46875,
      "learning_rate": 8.159314312311546e-06,
      "loss": 1.13167067,
      "memory(GiB)": 112.26,
      "step": 25085,
      "train_speed(iter/s)": 1.127942
    },
    {
      "acc": 0.73112259,
      "epoch": 0.6364789446981228,
      "grad_norm": 3.546875,
      "learning_rate": 8.158501475381505e-06,
      "loss": 1.14084997,
      "memory(GiB)": 112.26,
      "step": 25090,
      "train_speed(iter/s)": 1.127948
    },
    {
      "acc": 0.73610439,
      "epoch": 0.6366057838660578,
      "grad_norm": 3.484375,
      "learning_rate": 8.157688499526466e-06,
      "loss": 1.00820904,
      "memory(GiB)": 112.26,
      "step": 25095,
      "train_speed(iter/s)": 1.127953
    },
    {
      "acc": 0.74049649,
      "epoch": 0.6367326230339929,
      "grad_norm": 3.6875,
      "learning_rate": 8.15687538478219e-06,
      "loss": 1.08113108,
      "memory(GiB)": 112.26,
      "step": 25100,
      "train_speed(iter/s)": 1.127986
    },
    {
      "acc": 0.72399197,
      "epoch": 0.6368594622019279,
      "grad_norm": 3.8125,
      "learning_rate": 8.156062131184439e-06,
      "loss": 1.12152805,
      "memory(GiB)": 112.26,
      "step": 25105,
      "train_speed(iter/s)": 1.128022
    },
    {
      "acc": 0.7341239,
      "epoch": 0.636986301369863,
      "grad_norm": 4.34375,
      "learning_rate": 8.155248738768986e-06,
      "loss": 1.09256687,
      "memory(GiB)": 112.26,
      "step": 25110,
      "train_speed(iter/s)": 1.128054
    },
    {
      "acc": 0.74445381,
      "epoch": 0.6371131405377981,
      "grad_norm": 3.65625,
      "learning_rate": 8.154435207571606e-06,
      "loss": 1.00783434,
      "memory(GiB)": 112.26,
      "step": 25115,
      "train_speed(iter/s)": 1.128088
    },
    {
      "acc": 0.7412858,
      "epoch": 0.6372399797057331,
      "grad_norm": 5.0,
      "learning_rate": 8.153621537628083e-06,
      "loss": 1.05485744,
      "memory(GiB)": 112.26,
      "step": 25120,
      "train_speed(iter/s)": 1.128128
    },
    {
      "acc": 0.72770123,
      "epoch": 0.6373668188736682,
      "grad_norm": 3.765625,
      "learning_rate": 8.152807728974203e-06,
      "loss": 1.08434334,
      "memory(GiB)": 112.26,
      "step": 25125,
      "train_speed(iter/s)": 1.128144
    },
    {
      "acc": 0.75023174,
      "epoch": 0.6374936580416033,
      "grad_norm": 4.375,
      "learning_rate": 8.151993781645765e-06,
      "loss": 1.04236031,
      "memory(GiB)": 112.26,
      "step": 25130,
      "train_speed(iter/s)": 1.128176
    },
    {
      "acc": 0.71272593,
      "epoch": 0.6376204972095383,
      "grad_norm": 5.375,
      "learning_rate": 8.151179695678565e-06,
      "loss": 1.11786709,
      "memory(GiB)": 112.26,
      "step": 25135,
      "train_speed(iter/s)": 1.128224
    },
    {
      "acc": 0.7418848,
      "epoch": 0.6377473363774734,
      "grad_norm": 3.796875,
      "learning_rate": 8.150365471108414e-06,
      "loss": 1.05329018,
      "memory(GiB)": 112.26,
      "step": 25140,
      "train_speed(iter/s)": 1.128246
    },
    {
      "acc": 0.72851553,
      "epoch": 0.6378741755454084,
      "grad_norm": 3.421875,
      "learning_rate": 8.149551107971125e-06,
      "loss": 1.13433781,
      "memory(GiB)": 112.26,
      "step": 25145,
      "train_speed(iter/s)": 1.128286
    },
    {
      "acc": 0.72307162,
      "epoch": 0.6380010147133435,
      "grad_norm": 3.765625,
      "learning_rate": 8.148736606302517e-06,
      "loss": 1.11673546,
      "memory(GiB)": 112.26,
      "step": 25150,
      "train_speed(iter/s)": 1.128305
    },
    {
      "acc": 0.7246459,
      "epoch": 0.6381278538812786,
      "grad_norm": 3.90625,
      "learning_rate": 8.147921966138412e-06,
      "loss": 1.12339535,
      "memory(GiB)": 112.26,
      "step": 25155,
      "train_speed(iter/s)": 1.128332
    },
    {
      "acc": 0.74842978,
      "epoch": 0.6382546930492136,
      "grad_norm": 2.875,
      "learning_rate": 8.147107187514647e-06,
      "loss": 1.05924416,
      "memory(GiB)": 112.26,
      "step": 25160,
      "train_speed(iter/s)": 1.12835
    },
    {
      "acc": 0.74453993,
      "epoch": 0.6383815322171487,
      "grad_norm": 2.984375,
      "learning_rate": 8.146292270467056e-06,
      "loss": 0.97559338,
      "memory(GiB)": 112.26,
      "step": 25165,
      "train_speed(iter/s)": 1.128345
    },
    {
      "acc": 0.74312744,
      "epoch": 0.6385083713850838,
      "grad_norm": 3.90625,
      "learning_rate": 8.145477215031486e-06,
      "loss": 1.05787029,
      "memory(GiB)": 112.26,
      "step": 25170,
      "train_speed(iter/s)": 1.12837
    },
    {
      "acc": 0.73665457,
      "epoch": 0.6386352105530188,
      "grad_norm": 4.09375,
      "learning_rate": 8.144662021243782e-06,
      "loss": 1.03463144,
      "memory(GiB)": 112.26,
      "step": 25175,
      "train_speed(iter/s)": 1.128419
    },
    {
      "acc": 0.73495898,
      "epoch": 0.6387620497209539,
      "grad_norm": 3.453125,
      "learning_rate": 8.143846689139805e-06,
      "loss": 1.13982658,
      "memory(GiB)": 112.26,
      "step": 25180,
      "train_speed(iter/s)": 1.128471
    },
    {
      "acc": 0.72798586,
      "epoch": 0.6388888888888888,
      "grad_norm": 3.25,
      "learning_rate": 8.143031218755411e-06,
      "loss": 1.11194363,
      "memory(GiB)": 112.26,
      "step": 25185,
      "train_speed(iter/s)": 1.128501
    },
    {
      "acc": 0.71558027,
      "epoch": 0.6390157280568239,
      "grad_norm": 4.03125,
      "learning_rate": 8.142215610126474e-06,
      "loss": 1.15281715,
      "memory(GiB)": 112.26,
      "step": 25190,
      "train_speed(iter/s)": 1.128532
    },
    {
      "acc": 0.75292244,
      "epoch": 0.639142567224759,
      "grad_norm": 3.609375,
      "learning_rate": 8.141399863288863e-06,
      "loss": 1.04735794,
      "memory(GiB)": 112.26,
      "step": 25195,
      "train_speed(iter/s)": 1.128531
    },
    {
      "acc": 0.72629108,
      "epoch": 0.639269406392694,
      "grad_norm": 3.515625,
      "learning_rate": 8.140583978278463e-06,
      "loss": 1.06989069,
      "memory(GiB)": 112.26,
      "step": 25200,
      "train_speed(iter/s)": 1.128547
    },
    {
      "acc": 0.75437818,
      "epoch": 0.6393962455606291,
      "grad_norm": 3.125,
      "learning_rate": 8.139767955131157e-06,
      "loss": 0.94357605,
      "memory(GiB)": 112.26,
      "step": 25205,
      "train_speed(iter/s)": 1.128578
    },
    {
      "acc": 0.74789934,
      "epoch": 0.6395230847285642,
      "grad_norm": 3.34375,
      "learning_rate": 8.138951793882838e-06,
      "loss": 1.04572725,
      "memory(GiB)": 112.26,
      "step": 25210,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.73802557,
      "epoch": 0.6396499238964992,
      "grad_norm": 3.578125,
      "learning_rate": 8.138135494569405e-06,
      "loss": 1.04631824,
      "memory(GiB)": 112.26,
      "step": 25215,
      "train_speed(iter/s)": 1.128659
    },
    {
      "acc": 0.7419776,
      "epoch": 0.6397767630644343,
      "grad_norm": 3.90625,
      "learning_rate": 8.137319057226763e-06,
      "loss": 1.02803383,
      "memory(GiB)": 112.26,
      "step": 25220,
      "train_speed(iter/s)": 1.128689
    },
    {
      "acc": 0.74205155,
      "epoch": 0.6399036022323693,
      "grad_norm": 3.375,
      "learning_rate": 8.136502481890821e-06,
      "loss": 1.07886715,
      "memory(GiB)": 112.26,
      "step": 25225,
      "train_speed(iter/s)": 1.128724
    },
    {
      "acc": 0.73719616,
      "epoch": 0.6400304414003044,
      "grad_norm": 4.8125,
      "learning_rate": 8.135685768597496e-06,
      "loss": 1.06505337,
      "memory(GiB)": 112.26,
      "step": 25230,
      "train_speed(iter/s)": 1.128734
    },
    {
      "acc": 0.72793541,
      "epoch": 0.6401572805682395,
      "grad_norm": 3.34375,
      "learning_rate": 8.134868917382713e-06,
      "loss": 1.08079052,
      "memory(GiB)": 112.26,
      "step": 25235,
      "train_speed(iter/s)": 1.128748
    },
    {
      "acc": 0.72426147,
      "epoch": 0.6402841197361745,
      "grad_norm": 3.578125,
      "learning_rate": 8.134051928282396e-06,
      "loss": 1.09760838,
      "memory(GiB)": 112.26,
      "step": 25240,
      "train_speed(iter/s)": 1.128741
    },
    {
      "acc": 0.7323163,
      "epoch": 0.6404109589041096,
      "grad_norm": 3.515625,
      "learning_rate": 8.133234801332484e-06,
      "loss": 1.13011093,
      "memory(GiB)": 112.26,
      "step": 25245,
      "train_speed(iter/s)": 1.128781
    },
    {
      "acc": 0.73706965,
      "epoch": 0.6405377980720447,
      "grad_norm": 3.765625,
      "learning_rate": 8.132417536568918e-06,
      "loss": 1.06008177,
      "memory(GiB)": 112.26,
      "step": 25250,
      "train_speed(iter/s)": 1.128813
    },
    {
      "acc": 0.71902146,
      "epoch": 0.6406646372399797,
      "grad_norm": 3.703125,
      "learning_rate": 8.131600134027641e-06,
      "loss": 1.11563892,
      "memory(GiB)": 112.26,
      "step": 25255,
      "train_speed(iter/s)": 1.128841
    },
    {
      "acc": 0.73277922,
      "epoch": 0.6407914764079148,
      "grad_norm": 3.890625,
      "learning_rate": 8.13078259374461e-06,
      "loss": 1.0820097,
      "memory(GiB)": 112.26,
      "step": 25260,
      "train_speed(iter/s)": 1.12885
    },
    {
      "acc": 0.73199759,
      "epoch": 0.6409183155758498,
      "grad_norm": 4.15625,
      "learning_rate": 8.129964915755781e-06,
      "loss": 1.07629604,
      "memory(GiB)": 112.26,
      "step": 25265,
      "train_speed(iter/s)": 1.128872
    },
    {
      "acc": 0.74412575,
      "epoch": 0.6410451547437849,
      "grad_norm": 3.0625,
      "learning_rate": 8.129147100097122e-06,
      "loss": 1.01997652,
      "memory(GiB)": 112.26,
      "step": 25270,
      "train_speed(iter/s)": 1.128892
    },
    {
      "acc": 0.73639693,
      "epoch": 0.64117199391172,
      "grad_norm": 4.0625,
      "learning_rate": 8.128329146804604e-06,
      "loss": 1.09246645,
      "memory(GiB)": 112.26,
      "step": 25275,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.73870502,
      "epoch": 0.641298833079655,
      "grad_norm": 4.0,
      "learning_rate": 8.127511055914201e-06,
      "loss": 1.08464546,
      "memory(GiB)": 112.26,
      "step": 25280,
      "train_speed(iter/s)": 1.128929
    },
    {
      "acc": 0.75953894,
      "epoch": 0.6414256722475901,
      "grad_norm": 4.34375,
      "learning_rate": 8.1266928274619e-06,
      "loss": 1.05070915,
      "memory(GiB)": 112.26,
      "step": 25285,
      "train_speed(iter/s)": 1.128952
    },
    {
      "acc": 0.73781157,
      "epoch": 0.6415525114155252,
      "grad_norm": 3.328125,
      "learning_rate": 8.125874461483687e-06,
      "loss": 1.0732336,
      "memory(GiB)": 112.26,
      "step": 25290,
      "train_speed(iter/s)": 1.128988
    },
    {
      "acc": 0.71489153,
      "epoch": 0.6416793505834602,
      "grad_norm": 3.84375,
      "learning_rate": 8.12505595801556e-06,
      "loss": 1.14303856,
      "memory(GiB)": 112.26,
      "step": 25295,
      "train_speed(iter/s)": 1.129016
    },
    {
      "acc": 0.72613697,
      "epoch": 0.6418061897513953,
      "grad_norm": 5.375,
      "learning_rate": 8.12423731709352e-06,
      "loss": 1.15702276,
      "memory(GiB)": 112.26,
      "step": 25300,
      "train_speed(iter/s)": 1.129047
    },
    {
      "acc": 0.72753849,
      "epoch": 0.6419330289193302,
      "grad_norm": 3.421875,
      "learning_rate": 8.123418538753573e-06,
      "loss": 1.06390934,
      "memory(GiB)": 112.26,
      "step": 25305,
      "train_speed(iter/s)": 1.129102
    },
    {
      "acc": 0.74309134,
      "epoch": 0.6420598680872653,
      "grad_norm": 4.0625,
      "learning_rate": 8.122599623031735e-06,
      "loss": 1.04288769,
      "memory(GiB)": 112.26,
      "step": 25310,
      "train_speed(iter/s)": 1.129126
    },
    {
      "acc": 0.72789192,
      "epoch": 0.6421867072552004,
      "grad_norm": 3.21875,
      "learning_rate": 8.121780569964024e-06,
      "loss": 1.07801037,
      "memory(GiB)": 112.26,
      "step": 25315,
      "train_speed(iter/s)": 1.129136
    },
    {
      "acc": 0.74192934,
      "epoch": 0.6423135464231354,
      "grad_norm": 3.609375,
      "learning_rate": 8.120961379586466e-06,
      "loss": 1.06609163,
      "memory(GiB)": 112.26,
      "step": 25320,
      "train_speed(iter/s)": 1.12917
    },
    {
      "acc": 0.72890759,
      "epoch": 0.6424403855910705,
      "grad_norm": 3.71875,
      "learning_rate": 8.120142051935092e-06,
      "loss": 1.12795544,
      "memory(GiB)": 112.26,
      "step": 25325,
      "train_speed(iter/s)": 1.129207
    },
    {
      "acc": 0.71411915,
      "epoch": 0.6425672247590056,
      "grad_norm": 3.90625,
      "learning_rate": 8.11932258704594e-06,
      "loss": 1.15579681,
      "memory(GiB)": 112.26,
      "step": 25330,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.70789533,
      "epoch": 0.6426940639269406,
      "grad_norm": 5.59375,
      "learning_rate": 8.118502984955053e-06,
      "loss": 1.20303392,
      "memory(GiB)": 112.26,
      "step": 25335,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.73404751,
      "epoch": 0.6428209030948757,
      "grad_norm": 3.71875,
      "learning_rate": 8.117683245698483e-06,
      "loss": 1.07630558,
      "memory(GiB)": 112.26,
      "step": 25340,
      "train_speed(iter/s)": 1.129282
    },
    {
      "acc": 0.73118553,
      "epoch": 0.6429477422628107,
      "grad_norm": 3.765625,
      "learning_rate": 8.116863369312283e-06,
      "loss": 1.13757305,
      "memory(GiB)": 112.26,
      "step": 25345,
      "train_speed(iter/s)": 1.129314
    },
    {
      "acc": 0.73502197,
      "epoch": 0.6430745814307458,
      "grad_norm": 3.734375,
      "learning_rate": 8.116043355832518e-06,
      "loss": 1.12257957,
      "memory(GiB)": 112.26,
      "step": 25350,
      "train_speed(iter/s)": 1.129361
    },
    {
      "acc": 0.73113823,
      "epoch": 0.6432014205986809,
      "grad_norm": 3.015625,
      "learning_rate": 8.115223205295253e-06,
      "loss": 1.12208261,
      "memory(GiB)": 112.26,
      "step": 25355,
      "train_speed(iter/s)": 1.129394
    },
    {
      "acc": 0.73550377,
      "epoch": 0.6433282597666159,
      "grad_norm": 4.03125,
      "learning_rate": 8.114402917736563e-06,
      "loss": 1.08389788,
      "memory(GiB)": 112.26,
      "step": 25360,
      "train_speed(iter/s)": 1.129424
    },
    {
      "acc": 0.73368068,
      "epoch": 0.643455098934551,
      "grad_norm": 4.0,
      "learning_rate": 8.113582493192529e-06,
      "loss": 1.03667812,
      "memory(GiB)": 112.26,
      "step": 25365,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.75190883,
      "epoch": 0.6435819381024861,
      "grad_norm": 3.890625,
      "learning_rate": 8.112761931699235e-06,
      "loss": 1.09370937,
      "memory(GiB)": 112.26,
      "step": 25370,
      "train_speed(iter/s)": 1.129473
    },
    {
      "acc": 0.72794638,
      "epoch": 0.6437087772704211,
      "grad_norm": 3.625,
      "learning_rate": 8.111941233292772e-06,
      "loss": 1.11984901,
      "memory(GiB)": 112.26,
      "step": 25375,
      "train_speed(iter/s)": 1.129509
    },
    {
      "acc": 0.74835367,
      "epoch": 0.6438356164383562,
      "grad_norm": 3.984375,
      "learning_rate": 8.111120398009243e-06,
      "loss": 1.05081863,
      "memory(GiB)": 112.26,
      "step": 25380,
      "train_speed(iter/s)": 1.129545
    },
    {
      "acc": 0.72829785,
      "epoch": 0.6439624556062912,
      "grad_norm": 3.359375,
      "learning_rate": 8.110299425884745e-06,
      "loss": 1.09806795,
      "memory(GiB)": 112.26,
      "step": 25385,
      "train_speed(iter/s)": 1.129582
    },
    {
      "acc": 0.72130213,
      "epoch": 0.6440892947742263,
      "grad_norm": 3.5,
      "learning_rate": 8.109478316955394e-06,
      "loss": 1.13965702,
      "memory(GiB)": 112.26,
      "step": 25390,
      "train_speed(iter/s)": 1.129607
    },
    {
      "acc": 0.73161421,
      "epoch": 0.6442161339421614,
      "grad_norm": 3.703125,
      "learning_rate": 8.108657071257304e-06,
      "loss": 1.0957366,
      "memory(GiB)": 112.26,
      "step": 25395,
      "train_speed(iter/s)": 1.129632
    },
    {
      "acc": 0.73215761,
      "epoch": 0.6443429731100964,
      "grad_norm": 3.984375,
      "learning_rate": 8.107835688826598e-06,
      "loss": 1.10263605,
      "memory(GiB)": 112.26,
      "step": 25400,
      "train_speed(iter/s)": 1.129658
    },
    {
      "acc": 0.74469266,
      "epoch": 0.6444698122780315,
      "grad_norm": 3.234375,
      "learning_rate": 8.1070141696994e-06,
      "loss": 1.05578899,
      "memory(GiB)": 112.26,
      "step": 25405,
      "train_speed(iter/s)": 1.129698
    },
    {
      "acc": 0.73800259,
      "epoch": 0.6445966514459666,
      "grad_norm": 3.984375,
      "learning_rate": 8.106192513911849e-06,
      "loss": 1.07615643,
      "memory(GiB)": 112.26,
      "step": 25410,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.72986097,
      "epoch": 0.6447234906139016,
      "grad_norm": 3.453125,
      "learning_rate": 8.105370721500083e-06,
      "loss": 1.16108952,
      "memory(GiB)": 112.26,
      "step": 25415,
      "train_speed(iter/s)": 1.129751
    },
    {
      "acc": 0.73258743,
      "epoch": 0.6448503297818367,
      "grad_norm": 3.46875,
      "learning_rate": 8.104548792500246e-06,
      "loss": 1.05954418,
      "memory(GiB)": 112.26,
      "step": 25420,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.73840318,
      "epoch": 0.6449771689497716,
      "grad_norm": 3.796875,
      "learning_rate": 8.103726726948495e-06,
      "loss": 1.08511753,
      "memory(GiB)": 112.26,
      "step": 25425,
      "train_speed(iter/s)": 1.129803
    },
    {
      "acc": 0.72784624,
      "epoch": 0.6451040081177067,
      "grad_norm": 3.25,
      "learning_rate": 8.102904524880985e-06,
      "loss": 1.09188442,
      "memory(GiB)": 112.26,
      "step": 25430,
      "train_speed(iter/s)": 1.129845
    },
    {
      "acc": 0.72428803,
      "epoch": 0.6452308472856418,
      "grad_norm": 3.265625,
      "learning_rate": 8.10208218633388e-06,
      "loss": 1.09430094,
      "memory(GiB)": 112.26,
      "step": 25435,
      "train_speed(iter/s)": 1.129883
    },
    {
      "acc": 0.7359848,
      "epoch": 0.6453576864535768,
      "grad_norm": 6.15625,
      "learning_rate": 8.10125971134335e-06,
      "loss": 1.08124313,
      "memory(GiB)": 112.26,
      "step": 25440,
      "train_speed(iter/s)": 1.129922
    },
    {
      "acc": 0.74198513,
      "epoch": 0.6454845256215119,
      "grad_norm": 3.59375,
      "learning_rate": 8.100437099945572e-06,
      "loss": 1.0585103,
      "memory(GiB)": 112.26,
      "step": 25445,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.73695059,
      "epoch": 0.645611364789447,
      "grad_norm": 3.359375,
      "learning_rate": 8.099614352176727e-06,
      "loss": 1.05349665,
      "memory(GiB)": 112.26,
      "step": 25450,
      "train_speed(iter/s)": 1.130004
    },
    {
      "acc": 0.73670139,
      "epoch": 0.645738203957382,
      "grad_norm": 3.828125,
      "learning_rate": 8.098791468073007e-06,
      "loss": 1.07607279,
      "memory(GiB)": 112.26,
      "step": 25455,
      "train_speed(iter/s)": 1.130034
    },
    {
      "acc": 0.73631449,
      "epoch": 0.6458650431253171,
      "grad_norm": 4.3125,
      "learning_rate": 8.097968447670601e-06,
      "loss": 1.09388361,
      "memory(GiB)": 112.26,
      "step": 25460,
      "train_speed(iter/s)": 1.130083
    },
    {
      "acc": 0.74496355,
      "epoch": 0.6459918822932521,
      "grad_norm": 4.0625,
      "learning_rate": 8.09714529100571e-06,
      "loss": 1.07810154,
      "memory(GiB)": 112.26,
      "step": 25465,
      "train_speed(iter/s)": 1.130107
    },
    {
      "acc": 0.73476958,
      "epoch": 0.6461187214611872,
      "grad_norm": 3.75,
      "learning_rate": 8.096321998114545e-06,
      "loss": 1.09341297,
      "memory(GiB)": 112.26,
      "step": 25470,
      "train_speed(iter/s)": 1.130127
    },
    {
      "acc": 0.74509125,
      "epoch": 0.6462455606291223,
      "grad_norm": 4.375,
      "learning_rate": 8.09549856903331e-06,
      "loss": 1.02413025,
      "memory(GiB)": 112.26,
      "step": 25475,
      "train_speed(iter/s)": 1.130155
    },
    {
      "acc": 0.72706428,
      "epoch": 0.6463723997970573,
      "grad_norm": 3.40625,
      "learning_rate": 8.094675003798232e-06,
      "loss": 1.11266117,
      "memory(GiB)": 112.26,
      "step": 25480,
      "train_speed(iter/s)": 1.130189
    },
    {
      "acc": 0.74737601,
      "epoch": 0.6464992389649924,
      "grad_norm": 4.21875,
      "learning_rate": 8.093851302445528e-06,
      "loss": 1.0493783,
      "memory(GiB)": 112.26,
      "step": 25485,
      "train_speed(iter/s)": 1.130193
    },
    {
      "acc": 0.73773074,
      "epoch": 0.6466260781329275,
      "grad_norm": 3.5625,
      "learning_rate": 8.093027465011431e-06,
      "loss": 1.07948761,
      "memory(GiB)": 112.26,
      "step": 25490,
      "train_speed(iter/s)": 1.130234
    },
    {
      "acc": 0.73448277,
      "epoch": 0.6467529173008625,
      "grad_norm": 3.453125,
      "learning_rate": 8.092203491532178e-06,
      "loss": 1.03894196,
      "memory(GiB)": 112.26,
      "step": 25495,
      "train_speed(iter/s)": 1.130264
    },
    {
      "acc": 0.7307251,
      "epoch": 0.6468797564687976,
      "grad_norm": 3.546875,
      "learning_rate": 8.091379382044009e-06,
      "loss": 1.11242132,
      "memory(GiB)": 112.26,
      "step": 25500,
      "train_speed(iter/s)": 1.130295
    },
    {
      "acc": 0.73649077,
      "epoch": 0.6470065956367326,
      "grad_norm": 4.0,
      "learning_rate": 8.090555136583172e-06,
      "loss": 1.08184576,
      "memory(GiB)": 112.26,
      "step": 25505,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.73332891,
      "epoch": 0.6471334348046677,
      "grad_norm": 3.578125,
      "learning_rate": 8.089730755185921e-06,
      "loss": 1.07509842,
      "memory(GiB)": 112.26,
      "step": 25510,
      "train_speed(iter/s)": 1.130351
    },
    {
      "acc": 0.72575731,
      "epoch": 0.6472602739726028,
      "grad_norm": 3.96875,
      "learning_rate": 8.088906237888517e-06,
      "loss": 1.1159647,
      "memory(GiB)": 112.26,
      "step": 25515,
      "train_speed(iter/s)": 1.130355
    },
    {
      "acc": 0.72689056,
      "epoch": 0.6473871131405378,
      "grad_norm": 3.171875,
      "learning_rate": 8.088081584727228e-06,
      "loss": 1.09550505,
      "memory(GiB)": 112.26,
      "step": 25520,
      "train_speed(iter/s)": 1.130386
    },
    {
      "acc": 0.73522625,
      "epoch": 0.6475139523084729,
      "grad_norm": 4.3125,
      "learning_rate": 8.08725679573832e-06,
      "loss": 1.06047888,
      "memory(GiB)": 112.26,
      "step": 25525,
      "train_speed(iter/s)": 1.13043
    },
    {
      "acc": 0.7367424,
      "epoch": 0.647640791476408,
      "grad_norm": 3.484375,
      "learning_rate": 8.086431870958078e-06,
      "loss": 1.08600264,
      "memory(GiB)": 112.26,
      "step": 25530,
      "train_speed(iter/s)": 1.130437
    },
    {
      "acc": 0.72909298,
      "epoch": 0.647767630644343,
      "grad_norm": 2.921875,
      "learning_rate": 8.085606810422781e-06,
      "loss": 1.10131187,
      "memory(GiB)": 112.26,
      "step": 25535,
      "train_speed(iter/s)": 1.130481
    },
    {
      "acc": 0.72792234,
      "epoch": 0.647894469812278,
      "grad_norm": 3.828125,
      "learning_rate": 8.08478161416872e-06,
      "loss": 1.14539862,
      "memory(GiB)": 112.26,
      "step": 25540,
      "train_speed(iter/s)": 1.130526
    },
    {
      "acc": 0.73739738,
      "epoch": 0.648021308980213,
      "grad_norm": 3.390625,
      "learning_rate": 8.083956282232192e-06,
      "loss": 1.11966972,
      "memory(GiB)": 112.26,
      "step": 25545,
      "train_speed(iter/s)": 1.130565
    },
    {
      "acc": 0.73007526,
      "epoch": 0.6481481481481481,
      "grad_norm": 3.78125,
      "learning_rate": 8.083130814649498e-06,
      "loss": 1.06192398,
      "memory(GiB)": 112.26,
      "step": 25550,
      "train_speed(iter/s)": 1.130595
    },
    {
      "acc": 0.75286856,
      "epoch": 0.6482749873160832,
      "grad_norm": 3.828125,
      "learning_rate": 8.082305211456943e-06,
      "loss": 1.02279453,
      "memory(GiB)": 112.26,
      "step": 25555,
      "train_speed(iter/s)": 1.130633
    },
    {
      "acc": 0.72490873,
      "epoch": 0.6484018264840182,
      "grad_norm": 3.53125,
      "learning_rate": 8.081479472690846e-06,
      "loss": 1.15523405,
      "memory(GiB)": 112.26,
      "step": 25560,
      "train_speed(iter/s)": 1.130646
    },
    {
      "acc": 0.73848886,
      "epoch": 0.6485286656519533,
      "grad_norm": 2.9375,
      "learning_rate": 8.080653598387522e-06,
      "loss": 1.05485668,
      "memory(GiB)": 112.26,
      "step": 25565,
      "train_speed(iter/s)": 1.130668
    },
    {
      "acc": 0.75262289,
      "epoch": 0.6486555048198884,
      "grad_norm": 4.5,
      "learning_rate": 8.0798275885833e-06,
      "loss": 1.05814323,
      "memory(GiB)": 112.26,
      "step": 25570,
      "train_speed(iter/s)": 1.130694
    },
    {
      "acc": 0.74205952,
      "epoch": 0.6487823439878234,
      "grad_norm": 3.5625,
      "learning_rate": 8.07900144331451e-06,
      "loss": 1.03772879,
      "memory(GiB)": 112.26,
      "step": 25575,
      "train_speed(iter/s)": 1.130735
    },
    {
      "acc": 0.73223004,
      "epoch": 0.6489091831557585,
      "grad_norm": 4.1875,
      "learning_rate": 8.07817516261749e-06,
      "loss": 1.09175215,
      "memory(GiB)": 112.26,
      "step": 25580,
      "train_speed(iter/s)": 1.130766
    },
    {
      "acc": 0.72910948,
      "epoch": 0.6490360223236935,
      "grad_norm": 3.125,
      "learning_rate": 8.077348746528583e-06,
      "loss": 1.06291332,
      "memory(GiB)": 112.26,
      "step": 25585,
      "train_speed(iter/s)": 1.130806
    },
    {
      "acc": 0.74092932,
      "epoch": 0.6491628614916286,
      "grad_norm": 3.21875,
      "learning_rate": 8.076522195084139e-06,
      "loss": 1.03555021,
      "memory(GiB)": 112.26,
      "step": 25590,
      "train_speed(iter/s)": 1.13083
    },
    {
      "acc": 0.74194775,
      "epoch": 0.6492897006595637,
      "grad_norm": 3.21875,
      "learning_rate": 8.075695508320512e-06,
      "loss": 1.08281288,
      "memory(GiB)": 112.26,
      "step": 25595,
      "train_speed(iter/s)": 1.130843
    },
    {
      "acc": 0.73253646,
      "epoch": 0.6494165398274987,
      "grad_norm": 4.34375,
      "learning_rate": 8.074868686274065e-06,
      "loss": 1.16985645,
      "memory(GiB)": 112.26,
      "step": 25600,
      "train_speed(iter/s)": 1.13087
    },
    {
      "acc": 0.7490756,
      "epoch": 0.6495433789954338,
      "grad_norm": 4.65625,
      "learning_rate": 8.074041728981166e-06,
      "loss": 1.03105145,
      "memory(GiB)": 112.26,
      "step": 25605,
      "train_speed(iter/s)": 1.130894
    },
    {
      "acc": 0.73104682,
      "epoch": 0.6496702181633689,
      "grad_norm": 3.34375,
      "learning_rate": 8.073214636478186e-06,
      "loss": 1.07575588,
      "memory(GiB)": 112.26,
      "step": 25610,
      "train_speed(iter/s)": 1.130921
    },
    {
      "acc": 0.73412657,
      "epoch": 0.6497970573313039,
      "grad_norm": 5.125,
      "learning_rate": 8.072387408801506e-06,
      "loss": 1.13372746,
      "memory(GiB)": 112.26,
      "step": 25615,
      "train_speed(iter/s)": 1.130947
    },
    {
      "acc": 0.72490015,
      "epoch": 0.649923896499239,
      "grad_norm": 3.046875,
      "learning_rate": 8.07156004598751e-06,
      "loss": 1.07634277,
      "memory(GiB)": 112.26,
      "step": 25620,
      "train_speed(iter/s)": 1.130974
    },
    {
      "acc": 0.73484707,
      "epoch": 0.650050735667174,
      "grad_norm": 3.53125,
      "learning_rate": 8.07073254807259e-06,
      "loss": 1.10490475,
      "memory(GiB)": 112.26,
      "step": 25625,
      "train_speed(iter/s)": 1.131012
    },
    {
      "acc": 0.73494763,
      "epoch": 0.6501775748351091,
      "grad_norm": 3.375,
      "learning_rate": 8.069904915093144e-06,
      "loss": 1.09361954,
      "memory(GiB)": 112.26,
      "step": 25630,
      "train_speed(iter/s)": 1.13105
    },
    {
      "acc": 0.73095965,
      "epoch": 0.6503044140030442,
      "grad_norm": 3.0,
      "learning_rate": 8.069077147085571e-06,
      "loss": 1.07322569,
      "memory(GiB)": 112.26,
      "step": 25635,
      "train_speed(iter/s)": 1.131076
    },
    {
      "acc": 0.74599829,
      "epoch": 0.6504312531709792,
      "grad_norm": 3.515625,
      "learning_rate": 8.068249244086283e-06,
      "loss": 1.06288176,
      "memory(GiB)": 112.26,
      "step": 25640,
      "train_speed(iter/s)": 1.131111
    },
    {
      "acc": 0.72284327,
      "epoch": 0.6505580923389143,
      "grad_norm": 3.84375,
      "learning_rate": 8.067421206131696e-06,
      "loss": 1.14998837,
      "memory(GiB)": 112.26,
      "step": 25645,
      "train_speed(iter/s)": 1.131145
    },
    {
      "acc": 0.7290895,
      "epoch": 0.6506849315068494,
      "grad_norm": 3.984375,
      "learning_rate": 8.06659303325823e-06,
      "loss": 1.07627268,
      "memory(GiB)": 112.26,
      "step": 25650,
      "train_speed(iter/s)": 1.131165
    },
    {
      "acc": 0.73268709,
      "epoch": 0.6508117706747844,
      "grad_norm": 3.671875,
      "learning_rate": 8.06576472550231e-06,
      "loss": 1.11620808,
      "memory(GiB)": 112.26,
      "step": 25655,
      "train_speed(iter/s)": 1.131201
    },
    {
      "acc": 0.73123322,
      "epoch": 0.6509386098427195,
      "grad_norm": 3.828125,
      "learning_rate": 8.064936282900368e-06,
      "loss": 1.11530542,
      "memory(GiB)": 112.26,
      "step": 25660,
      "train_speed(iter/s)": 1.131226
    },
    {
      "acc": 0.72745914,
      "epoch": 0.6510654490106544,
      "grad_norm": 3.84375,
      "learning_rate": 8.064107705488846e-06,
      "loss": 1.07488251,
      "memory(GiB)": 112.26,
      "step": 25665,
      "train_speed(iter/s)": 1.131259
    },
    {
      "acc": 0.73811932,
      "epoch": 0.6511922881785895,
      "grad_norm": 3.9375,
      "learning_rate": 8.063278993304188e-06,
      "loss": 1.05055418,
      "memory(GiB)": 112.26,
      "step": 25670,
      "train_speed(iter/s)": 1.131295
    },
    {
      "acc": 0.7323493,
      "epoch": 0.6513191273465246,
      "grad_norm": 4.5,
      "learning_rate": 8.06245014638284e-06,
      "loss": 1.0877039,
      "memory(GiB)": 112.26,
      "step": 25675,
      "train_speed(iter/s)": 1.131297
    },
    {
      "acc": 0.74191494,
      "epoch": 0.6514459665144596,
      "grad_norm": 4.125,
      "learning_rate": 8.061621164761266e-06,
      "loss": 1.03440685,
      "memory(GiB)": 112.26,
      "step": 25680,
      "train_speed(iter/s)": 1.13131
    },
    {
      "acc": 0.72534699,
      "epoch": 0.6515728056823947,
      "grad_norm": 3.515625,
      "learning_rate": 8.06079204847592e-06,
      "loss": 1.05914555,
      "memory(GiB)": 112.26,
      "step": 25685,
      "train_speed(iter/s)": 1.131308
    },
    {
      "acc": 0.74225411,
      "epoch": 0.6516996448503298,
      "grad_norm": 3.453125,
      "learning_rate": 8.059962797563277e-06,
      "loss": 1.05927849,
      "memory(GiB)": 112.26,
      "step": 25690,
      "train_speed(iter/s)": 1.131353
    },
    {
      "acc": 0.7434504,
      "epoch": 0.6518264840182648,
      "grad_norm": 3.234375,
      "learning_rate": 8.059133412059808e-06,
      "loss": 1.0528347,
      "memory(GiB)": 112.26,
      "step": 25695,
      "train_speed(iter/s)": 1.131387
    },
    {
      "acc": 0.73856258,
      "epoch": 0.6519533231861999,
      "grad_norm": 3.90625,
      "learning_rate": 8.058303892001993e-06,
      "loss": 1.07227974,
      "memory(GiB)": 112.26,
      "step": 25700,
      "train_speed(iter/s)": 1.131376
    },
    {
      "acc": 0.72714353,
      "epoch": 0.6520801623541349,
      "grad_norm": 4.6875,
      "learning_rate": 8.057474237426318e-06,
      "loss": 1.06966438,
      "memory(GiB)": 112.26,
      "step": 25705,
      "train_speed(iter/s)": 1.131426
    },
    {
      "acc": 0.72473526,
      "epoch": 0.65220700152207,
      "grad_norm": 3.734375,
      "learning_rate": 8.056644448369275e-06,
      "loss": 1.14696569,
      "memory(GiB)": 112.26,
      "step": 25710,
      "train_speed(iter/s)": 1.131453
    },
    {
      "acc": 0.73304625,
      "epoch": 0.6523338406900051,
      "grad_norm": 3.171875,
      "learning_rate": 8.055814524867364e-06,
      "loss": 1.10545435,
      "memory(GiB)": 112.26,
      "step": 25715,
      "train_speed(iter/s)": 1.13149
    },
    {
      "acc": 0.72422853,
      "epoch": 0.6524606798579401,
      "grad_norm": 3.953125,
      "learning_rate": 8.054984466957085e-06,
      "loss": 1.15575752,
      "memory(GiB)": 112.26,
      "step": 25720,
      "train_speed(iter/s)": 1.131524
    },
    {
      "acc": 0.75132523,
      "epoch": 0.6525875190258752,
      "grad_norm": 3.515625,
      "learning_rate": 8.05415427467495e-06,
      "loss": 0.96449957,
      "memory(GiB)": 112.26,
      "step": 25725,
      "train_speed(iter/s)": 1.131559
    },
    {
      "acc": 0.74243236,
      "epoch": 0.6527143581938103,
      "grad_norm": 3.359375,
      "learning_rate": 8.053323948057477e-06,
      "loss": 1.07031193,
      "memory(GiB)": 112.26,
      "step": 25730,
      "train_speed(iter/s)": 1.131608
    },
    {
      "acc": 0.73255792,
      "epoch": 0.6528411973617453,
      "grad_norm": 3.859375,
      "learning_rate": 8.052493487141183e-06,
      "loss": 1.07842579,
      "memory(GiB)": 112.26,
      "step": 25735,
      "train_speed(iter/s)": 1.131636
    },
    {
      "acc": 0.71694584,
      "epoch": 0.6529680365296804,
      "grad_norm": 3.328125,
      "learning_rate": 8.051662891962594e-06,
      "loss": 1.12053785,
      "memory(GiB)": 112.26,
      "step": 25740,
      "train_speed(iter/s)": 1.131662
    },
    {
      "acc": 0.73434486,
      "epoch": 0.6530948756976154,
      "grad_norm": 3.28125,
      "learning_rate": 8.05083216255825e-06,
      "loss": 1.11149416,
      "memory(GiB)": 112.26,
      "step": 25745,
      "train_speed(iter/s)": 1.131672
    },
    {
      "acc": 0.73905525,
      "epoch": 0.6532217148655505,
      "grad_norm": 3.3125,
      "learning_rate": 8.050001298964685e-06,
      "loss": 1.12951088,
      "memory(GiB)": 112.26,
      "step": 25750,
      "train_speed(iter/s)": 1.131677
    },
    {
      "acc": 0.73896599,
      "epoch": 0.6533485540334856,
      "grad_norm": 4.0,
      "learning_rate": 8.049170301218445e-06,
      "loss": 1.08249044,
      "memory(GiB)": 112.26,
      "step": 25755,
      "train_speed(iter/s)": 1.131703
    },
    {
      "acc": 0.73652973,
      "epoch": 0.6534753932014206,
      "grad_norm": 4.40625,
      "learning_rate": 8.048339169356085e-06,
      "loss": 1.08550701,
      "memory(GiB)": 112.26,
      "step": 25760,
      "train_speed(iter/s)": 1.131742
    },
    {
      "acc": 0.74528961,
      "epoch": 0.6536022323693557,
      "grad_norm": 3.609375,
      "learning_rate": 8.047507903414155e-06,
      "loss": 1.02197723,
      "memory(GiB)": 112.26,
      "step": 25765,
      "train_speed(iter/s)": 1.131772
    },
    {
      "acc": 0.74847856,
      "epoch": 0.6537290715372908,
      "grad_norm": 3.515625,
      "learning_rate": 8.046676503429222e-06,
      "loss": 1.05563602,
      "memory(GiB)": 112.26,
      "step": 25770,
      "train_speed(iter/s)": 1.131805
    },
    {
      "acc": 0.73609285,
      "epoch": 0.6538559107052258,
      "grad_norm": 3.984375,
      "learning_rate": 8.045844969437855e-06,
      "loss": 1.06453638,
      "memory(GiB)": 112.26,
      "step": 25775,
      "train_speed(iter/s)": 1.131828
    },
    {
      "acc": 0.72018771,
      "epoch": 0.6539827498731609,
      "grad_norm": 4.03125,
      "learning_rate": 8.045013301476625e-06,
      "loss": 1.11328449,
      "memory(GiB)": 112.26,
      "step": 25780,
      "train_speed(iter/s)": 1.131855
    },
    {
      "acc": 0.73808732,
      "epoch": 0.6541095890410958,
      "grad_norm": 3.0625,
      "learning_rate": 8.044181499582117e-06,
      "loss": 1.09313564,
      "memory(GiB)": 112.26,
      "step": 25785,
      "train_speed(iter/s)": 1.131905
    },
    {
      "acc": 0.7427597,
      "epoch": 0.6542364282090309,
      "grad_norm": 3.90625,
      "learning_rate": 8.043349563790917e-06,
      "loss": 1.09209385,
      "memory(GiB)": 112.26,
      "step": 25790,
      "train_speed(iter/s)": 1.131931
    },
    {
      "acc": 0.73644114,
      "epoch": 0.654363267376966,
      "grad_norm": 3.65625,
      "learning_rate": 8.042517494139612e-06,
      "loss": 1.13549633,
      "memory(GiB)": 112.26,
      "step": 25795,
      "train_speed(iter/s)": 1.131972
    },
    {
      "acc": 0.73510532,
      "epoch": 0.654490106544901,
      "grad_norm": 3.109375,
      "learning_rate": 8.041685290664806e-06,
      "loss": 1.01213531,
      "memory(GiB)": 112.26,
      "step": 25800,
      "train_speed(iter/s)": 1.131995
    },
    {
      "acc": 0.73342838,
      "epoch": 0.6546169457128361,
      "grad_norm": 3.890625,
      "learning_rate": 8.0408529534031e-06,
      "loss": 1.08571072,
      "memory(GiB)": 112.26,
      "step": 25805,
      "train_speed(iter/s)": 1.132034
    },
    {
      "acc": 0.73254652,
      "epoch": 0.6547437848807712,
      "grad_norm": 2.96875,
      "learning_rate": 8.040020482391105e-06,
      "loss": 1.07527046,
      "memory(GiB)": 112.26,
      "step": 25810,
      "train_speed(iter/s)": 1.132075
    },
    {
      "acc": 0.76591353,
      "epoch": 0.6548706240487062,
      "grad_norm": 3.5,
      "learning_rate": 8.039187877665435e-06,
      "loss": 1.00053988,
      "memory(GiB)": 112.26,
      "step": 25815,
      "train_speed(iter/s)": 1.132112
    },
    {
      "acc": 0.74392309,
      "epoch": 0.6549974632166413,
      "grad_norm": 5.53125,
      "learning_rate": 8.038355139262716e-06,
      "loss": 1.02999725,
      "memory(GiB)": 112.26,
      "step": 25820,
      "train_speed(iter/s)": 1.132133
    },
    {
      "acc": 0.74490213,
      "epoch": 0.6551243023845763,
      "grad_norm": 3.984375,
      "learning_rate": 8.037522267219571e-06,
      "loss": 1.06397324,
      "memory(GiB)": 112.26,
      "step": 25825,
      "train_speed(iter/s)": 1.132152
    },
    {
      "acc": 0.72069402,
      "epoch": 0.6552511415525114,
      "grad_norm": 4.53125,
      "learning_rate": 8.036689261572636e-06,
      "loss": 1.07964163,
      "memory(GiB)": 112.26,
      "step": 25830,
      "train_speed(iter/s)": 1.132194
    },
    {
      "acc": 0.73383522,
      "epoch": 0.6553779807204465,
      "grad_norm": 4.25,
      "learning_rate": 8.035856122358548e-06,
      "loss": 1.10973549,
      "memory(GiB)": 112.26,
      "step": 25835,
      "train_speed(iter/s)": 1.132243
    },
    {
      "acc": 0.73646626,
      "epoch": 0.6555048198883815,
      "grad_norm": 3.40625,
      "learning_rate": 8.035022849613954e-06,
      "loss": 1.10137291,
      "memory(GiB)": 112.26,
      "step": 25840,
      "train_speed(iter/s)": 1.132262
    },
    {
      "acc": 0.7350276,
      "epoch": 0.6556316590563166,
      "grad_norm": 4.375,
      "learning_rate": 8.034189443375505e-06,
      "loss": 1.10693722,
      "memory(GiB)": 112.26,
      "step": 25845,
      "train_speed(iter/s)": 1.132291
    },
    {
      "acc": 0.73217645,
      "epoch": 0.6557584982242517,
      "grad_norm": 3.46875,
      "learning_rate": 8.033355903679858e-06,
      "loss": 1.03164539,
      "memory(GiB)": 112.26,
      "step": 25850,
      "train_speed(iter/s)": 1.132336
    },
    {
      "acc": 0.74040728,
      "epoch": 0.6558853373921867,
      "grad_norm": 3.828125,
      "learning_rate": 8.032522230563676e-06,
      "loss": 1.08462763,
      "memory(GiB)": 112.26,
      "step": 25855,
      "train_speed(iter/s)": 1.132373
    },
    {
      "acc": 0.72088327,
      "epoch": 0.6560121765601218,
      "grad_norm": 4.09375,
      "learning_rate": 8.031688424063625e-06,
      "loss": 1.08364143,
      "memory(GiB)": 112.26,
      "step": 25860,
      "train_speed(iter/s)": 1.13238
    },
    {
      "acc": 0.73480592,
      "epoch": 0.6561390157280568,
      "grad_norm": 3.75,
      "learning_rate": 8.030854484216381e-06,
      "loss": 1.09551115,
      "memory(GiB)": 112.26,
      "step": 25865,
      "train_speed(iter/s)": 1.132414
    },
    {
      "acc": 0.72889996,
      "epoch": 0.6562658548959919,
      "grad_norm": 3.109375,
      "learning_rate": 8.030020411058627e-06,
      "loss": 1.10089617,
      "memory(GiB)": 112.26,
      "step": 25870,
      "train_speed(iter/s)": 1.132449
    },
    {
      "acc": 0.73964243,
      "epoch": 0.656392694063927,
      "grad_norm": 4.09375,
      "learning_rate": 8.029186204627049e-06,
      "loss": 1.05330715,
      "memory(GiB)": 112.26,
      "step": 25875,
      "train_speed(iter/s)": 1.132471
    },
    {
      "acc": 0.73432026,
      "epoch": 0.656519533231862,
      "grad_norm": 4.65625,
      "learning_rate": 8.028351864958335e-06,
      "loss": 1.07609644,
      "memory(GiB)": 112.26,
      "step": 25880,
      "train_speed(iter/s)": 1.132489
    },
    {
      "acc": 0.74871302,
      "epoch": 0.6566463723997971,
      "grad_norm": 3.78125,
      "learning_rate": 8.027517392089185e-06,
      "loss": 1.05499611,
      "memory(GiB)": 112.26,
      "step": 25885,
      "train_speed(iter/s)": 1.132531
    },
    {
      "acc": 0.73710861,
      "epoch": 0.6567732115677322,
      "grad_norm": 3.96875,
      "learning_rate": 8.026682786056304e-06,
      "loss": 1.12231503,
      "memory(GiB)": 112.26,
      "step": 25890,
      "train_speed(iter/s)": 1.132564
    },
    {
      "acc": 0.71925955,
      "epoch": 0.6569000507356672,
      "grad_norm": 3.0,
      "learning_rate": 8.025848046896401e-06,
      "loss": 1.13897209,
      "memory(GiB)": 112.26,
      "step": 25895,
      "train_speed(iter/s)": 1.132591
    },
    {
      "acc": 0.73698826,
      "epoch": 0.6570268899036023,
      "grad_norm": 3.84375,
      "learning_rate": 8.02501317464619e-06,
      "loss": 1.08181229,
      "memory(GiB)": 112.26,
      "step": 25900,
      "train_speed(iter/s)": 1.132635
    },
    {
      "acc": 0.73564024,
      "epoch": 0.6571537290715372,
      "grad_norm": 4.90625,
      "learning_rate": 8.024178169342396e-06,
      "loss": 1.1104063,
      "memory(GiB)": 112.26,
      "step": 25905,
      "train_speed(iter/s)": 1.132672
    },
    {
      "acc": 0.73563786,
      "epoch": 0.6572805682394723,
      "grad_norm": 3.75,
      "learning_rate": 8.023343031021744e-06,
      "loss": 1.08688126,
      "memory(GiB)": 112.26,
      "step": 25910,
      "train_speed(iter/s)": 1.132667
    },
    {
      "acc": 0.72926044,
      "epoch": 0.6574074074074074,
      "grad_norm": 3.34375,
      "learning_rate": 8.022507759720966e-06,
      "loss": 1.08269825,
      "memory(GiB)": 112.26,
      "step": 25915,
      "train_speed(iter/s)": 1.132718
    },
    {
      "acc": 0.73066916,
      "epoch": 0.6575342465753424,
      "grad_norm": 3.546875,
      "learning_rate": 8.021672355476802e-06,
      "loss": 1.13726635,
      "memory(GiB)": 112.26,
      "step": 25920,
      "train_speed(iter/s)": 1.132741
    },
    {
      "acc": 0.73077521,
      "epoch": 0.6576610857432775,
      "grad_norm": 3.46875,
      "learning_rate": 8.020836818325997e-06,
      "loss": 1.0768795,
      "memory(GiB)": 112.26,
      "step": 25925,
      "train_speed(iter/s)": 1.132781
    },
    {
      "acc": 0.7353713,
      "epoch": 0.6577879249112126,
      "grad_norm": 5.0625,
      "learning_rate": 8.020001148305304e-06,
      "loss": 1.06482096,
      "memory(GiB)": 112.26,
      "step": 25930,
      "train_speed(iter/s)": 1.132815
    },
    {
      "acc": 0.75037656,
      "epoch": 0.6579147640791476,
      "grad_norm": 3.8125,
      "learning_rate": 8.019165345451475e-06,
      "loss": 1.03322964,
      "memory(GiB)": 112.26,
      "step": 25935,
      "train_speed(iter/s)": 1.13284
    },
    {
      "acc": 0.73879986,
      "epoch": 0.6580416032470827,
      "grad_norm": 4.75,
      "learning_rate": 8.018329409801276e-06,
      "loss": 1.0695652,
      "memory(GiB)": 112.26,
      "step": 25940,
      "train_speed(iter/s)": 1.132884
    },
    {
      "acc": 0.73560953,
      "epoch": 0.6581684424150177,
      "grad_norm": 4.9375,
      "learning_rate": 8.017493341391471e-06,
      "loss": 1.0383522,
      "memory(GiB)": 112.26,
      "step": 25945,
      "train_speed(iter/s)": 1.132908
    },
    {
      "acc": 0.72453203,
      "epoch": 0.6582952815829528,
      "grad_norm": 3.5,
      "learning_rate": 8.016657140258839e-06,
      "loss": 1.07548351,
      "memory(GiB)": 112.26,
      "step": 25950,
      "train_speed(iter/s)": 1.132935
    },
    {
      "acc": 0.74243774,
      "epoch": 0.6584221207508879,
      "grad_norm": 3.859375,
      "learning_rate": 8.015820806440157e-06,
      "loss": 1.09924984,
      "memory(GiB)": 112.26,
      "step": 25955,
      "train_speed(iter/s)": 1.132978
    },
    {
      "acc": 0.7171165,
      "epoch": 0.6585489599188229,
      "grad_norm": 3.890625,
      "learning_rate": 8.014984339972211e-06,
      "loss": 1.09834394,
      "memory(GiB)": 112.26,
      "step": 25960,
      "train_speed(iter/s)": 1.132993
    },
    {
      "acc": 0.73500485,
      "epoch": 0.658675799086758,
      "grad_norm": 3.59375,
      "learning_rate": 8.014147740891793e-06,
      "loss": 1.08942013,
      "memory(GiB)": 112.26,
      "step": 25965,
      "train_speed(iter/s)": 1.133014
    },
    {
      "acc": 0.74161277,
      "epoch": 0.6588026382546931,
      "grad_norm": 4.15625,
      "learning_rate": 8.0133110092357e-06,
      "loss": 1.04595175,
      "memory(GiB)": 112.26,
      "step": 25970,
      "train_speed(iter/s)": 1.133056
    },
    {
      "acc": 0.73392096,
      "epoch": 0.6589294774226281,
      "grad_norm": 3.828125,
      "learning_rate": 8.012474145040737e-06,
      "loss": 1.14171953,
      "memory(GiB)": 112.26,
      "step": 25975,
      "train_speed(iter/s)": 1.133089
    },
    {
      "acc": 0.73647327,
      "epoch": 0.6590563165905632,
      "grad_norm": 3.671875,
      "learning_rate": 8.01163714834371e-06,
      "loss": 1.11973248,
      "memory(GiB)": 112.26,
      "step": 25980,
      "train_speed(iter/s)": 1.133106
    },
    {
      "acc": 0.73447547,
      "epoch": 0.6591831557584982,
      "grad_norm": 4.46875,
      "learning_rate": 8.010800019181433e-06,
      "loss": 1.14204311,
      "memory(GiB)": 112.26,
      "step": 25985,
      "train_speed(iter/s)": 1.133141
    },
    {
      "acc": 0.72278085,
      "epoch": 0.6593099949264333,
      "grad_norm": 3.96875,
      "learning_rate": 8.009962757590732e-06,
      "loss": 1.11750669,
      "memory(GiB)": 112.26,
      "step": 25990,
      "train_speed(iter/s)": 1.133148
    },
    {
      "acc": 0.74027214,
      "epoch": 0.6594368340943684,
      "grad_norm": 3.390625,
      "learning_rate": 8.00912536360843e-06,
      "loss": 1.06210537,
      "memory(GiB)": 112.26,
      "step": 25995,
      "train_speed(iter/s)": 1.133178
    },
    {
      "acc": 0.73462014,
      "epoch": 0.6595636732623034,
      "grad_norm": 4.0,
      "learning_rate": 8.008287837271359e-06,
      "loss": 1.06713142,
      "memory(GiB)": 112.26,
      "step": 26000,
      "train_speed(iter/s)": 1.133182
    },
    {
      "epoch": 0.6595636732623034,
      "eval_acc": 0.7234878053364574,
      "eval_loss": 1.0559194087982178,
      "eval_runtime": 70.8362,
      "eval_samples_per_second": 89.926,
      "eval_steps_per_second": 22.489,
      "step": 26000
    },
    {
      "acc": 0.74471998,
      "epoch": 0.6596905124302385,
      "grad_norm": 3.9375,
      "learning_rate": 8.007450178616356e-06,
      "loss": 1.04997654,
      "memory(GiB)": 112.26,
      "step": 26005,
      "train_speed(iter/s)": 1.127565
    },
    {
      "acc": 0.73212404,
      "epoch": 0.6598173515981736,
      "grad_norm": 3.734375,
      "learning_rate": 8.00661238768027e-06,
      "loss": 1.05953693,
      "memory(GiB)": 112.26,
      "step": 26010,
      "train_speed(iter/s)": 1.127601
    },
    {
      "acc": 0.73597631,
      "epoch": 0.6599441907661086,
      "grad_norm": 4.0625,
      "learning_rate": 8.005774464499947e-06,
      "loss": 1.0793952,
      "memory(GiB)": 112.26,
      "step": 26015,
      "train_speed(iter/s)": 1.127642
    },
    {
      "acc": 0.72354851,
      "epoch": 0.6600710299340437,
      "grad_norm": 3.390625,
      "learning_rate": 8.004936409112243e-06,
      "loss": 1.11311245,
      "memory(GiB)": 112.26,
      "step": 26020,
      "train_speed(iter/s)": 1.127671
    },
    {
      "acc": 0.73260317,
      "epoch": 0.6601978691019786,
      "grad_norm": 3.546875,
      "learning_rate": 8.004098221554018e-06,
      "loss": 1.09054241,
      "memory(GiB)": 112.26,
      "step": 26025,
      "train_speed(iter/s)": 1.127701
    },
    {
      "acc": 0.73694944,
      "epoch": 0.6603247082699137,
      "grad_norm": 3.265625,
      "learning_rate": 8.003259901862143e-06,
      "loss": 1.06681032,
      "memory(GiB)": 112.26,
      "step": 26030,
      "train_speed(iter/s)": 1.127731
    },
    {
      "acc": 0.72883387,
      "epoch": 0.6604515474378488,
      "grad_norm": 3.65625,
      "learning_rate": 8.002421450073488e-06,
      "loss": 1.04702091,
      "memory(GiB)": 112.26,
      "step": 26035,
      "train_speed(iter/s)": 1.127753
    },
    {
      "acc": 0.73912382,
      "epoch": 0.6605783866057838,
      "grad_norm": 4.0625,
      "learning_rate": 8.001582866224932e-06,
      "loss": 1.02616997,
      "memory(GiB)": 112.26,
      "step": 26040,
      "train_speed(iter/s)": 1.127787
    },
    {
      "acc": 0.74064341,
      "epoch": 0.6607052257737189,
      "grad_norm": 3.84375,
      "learning_rate": 8.000744150353362e-06,
      "loss": 1.08623476,
      "memory(GiB)": 112.26,
      "step": 26045,
      "train_speed(iter/s)": 1.127819
    },
    {
      "acc": 0.73515882,
      "epoch": 0.660832064941654,
      "grad_norm": 3.71875,
      "learning_rate": 7.999905302495667e-06,
      "loss": 1.09011269,
      "memory(GiB)": 112.26,
      "step": 26050,
      "train_speed(iter/s)": 1.127839
    },
    {
      "acc": 0.73786564,
      "epoch": 0.660958904109589,
      "grad_norm": 4.1875,
      "learning_rate": 7.999066322688743e-06,
      "loss": 1.08063126,
      "memory(GiB)": 112.26,
      "step": 26055,
      "train_speed(iter/s)": 1.127887
    },
    {
      "acc": 0.72976141,
      "epoch": 0.6610857432775241,
      "grad_norm": 4.5625,
      "learning_rate": 7.998227210969491e-06,
      "loss": 1.14218102,
      "memory(GiB)": 112.26,
      "step": 26060,
      "train_speed(iter/s)": 1.127901
    },
    {
      "acc": 0.74678607,
      "epoch": 0.6612125824454591,
      "grad_norm": 3.5625,
      "learning_rate": 7.997387967374821e-06,
      "loss": 1.04379444,
      "memory(GiB)": 112.26,
      "step": 26065,
      "train_speed(iter/s)": 1.127933
    },
    {
      "acc": 0.73206921,
      "epoch": 0.6613394216133942,
      "grad_norm": 4.3125,
      "learning_rate": 7.996548591941647e-06,
      "loss": 1.13640909,
      "memory(GiB)": 112.26,
      "step": 26070,
      "train_speed(iter/s)": 1.127958
    },
    {
      "acc": 0.73417568,
      "epoch": 0.6614662607813293,
      "grad_norm": 4.28125,
      "learning_rate": 7.995709084706884e-06,
      "loss": 1.03494701,
      "memory(GiB)": 112.26,
      "step": 26075,
      "train_speed(iter/s)": 1.12799
    },
    {
      "acc": 0.72472157,
      "epoch": 0.6615930999492643,
      "grad_norm": 3.640625,
      "learning_rate": 7.994869445707463e-06,
      "loss": 1.09270372,
      "memory(GiB)": 112.26,
      "step": 26080,
      "train_speed(iter/s)": 1.128009
    },
    {
      "acc": 0.7342463,
      "epoch": 0.6617199391171994,
      "grad_norm": 3.578125,
      "learning_rate": 7.994029674980313e-06,
      "loss": 1.05888042,
      "memory(GiB)": 112.26,
      "step": 26085,
      "train_speed(iter/s)": 1.128019
    },
    {
      "acc": 0.73876171,
      "epoch": 0.6618467782851345,
      "grad_norm": 3.390625,
      "learning_rate": 7.99318977256237e-06,
      "loss": 1.05545187,
      "memory(GiB)": 112.26,
      "step": 26090,
      "train_speed(iter/s)": 1.128051
    },
    {
      "acc": 0.72942715,
      "epoch": 0.6619736174530695,
      "grad_norm": 2.9375,
      "learning_rate": 7.992349738490576e-06,
      "loss": 1.09657354,
      "memory(GiB)": 112.26,
      "step": 26095,
      "train_speed(iter/s)": 1.128085
    },
    {
      "acc": 0.74821124,
      "epoch": 0.6621004566210046,
      "grad_norm": 4.1875,
      "learning_rate": 7.991509572801883e-06,
      "loss": 1.0576108,
      "memory(GiB)": 112.26,
      "step": 26100,
      "train_speed(iter/s)": 1.12809
    },
    {
      "acc": 0.73501015,
      "epoch": 0.6622272957889396,
      "grad_norm": 3.546875,
      "learning_rate": 7.990669275533241e-06,
      "loss": 1.09968204,
      "memory(GiB)": 112.26,
      "step": 26105,
      "train_speed(iter/s)": 1.128116
    },
    {
      "acc": 0.72316198,
      "epoch": 0.6623541349568747,
      "grad_norm": 3.6875,
      "learning_rate": 7.989828846721613e-06,
      "loss": 1.11831379,
      "memory(GiB)": 112.26,
      "step": 26110,
      "train_speed(iter/s)": 1.12815
    },
    {
      "acc": 0.73024917,
      "epoch": 0.6624809741248098,
      "grad_norm": 3.375,
      "learning_rate": 7.98898828640396e-06,
      "loss": 1.06907387,
      "memory(GiB)": 112.26,
      "step": 26115,
      "train_speed(iter/s)": 1.128193
    },
    {
      "acc": 0.74466057,
      "epoch": 0.6626078132927448,
      "grad_norm": 3.96875,
      "learning_rate": 7.988147594617262e-06,
      "loss": 1.05615673,
      "memory(GiB)": 112.26,
      "step": 26120,
      "train_speed(iter/s)": 1.128225
    },
    {
      "acc": 0.73972893,
      "epoch": 0.6627346524606799,
      "grad_norm": 3.359375,
      "learning_rate": 7.987306771398489e-06,
      "loss": 1.04733562,
      "memory(GiB)": 112.26,
      "step": 26125,
      "train_speed(iter/s)": 1.128259
    },
    {
      "acc": 0.73971052,
      "epoch": 0.662861491628615,
      "grad_norm": 3.796875,
      "learning_rate": 7.986465816784628e-06,
      "loss": 1.09664707,
      "memory(GiB)": 112.26,
      "step": 26130,
      "train_speed(iter/s)": 1.128276
    },
    {
      "acc": 0.73519349,
      "epoch": 0.66298833079655,
      "grad_norm": 3.8125,
      "learning_rate": 7.985624730812667e-06,
      "loss": 1.08437653,
      "memory(GiB)": 112.26,
      "step": 26135,
      "train_speed(iter/s)": 1.128309
    },
    {
      "acc": 0.72304235,
      "epoch": 0.663115169964485,
      "grad_norm": 4.09375,
      "learning_rate": 7.984783513519601e-06,
      "loss": 1.10981865,
      "memory(GiB)": 112.26,
      "step": 26140,
      "train_speed(iter/s)": 1.128332
    },
    {
      "acc": 0.72373533,
      "epoch": 0.66324200913242,
      "grad_norm": 4.25,
      "learning_rate": 7.98394216494243e-06,
      "loss": 1.16447706,
      "memory(GiB)": 112.26,
      "step": 26145,
      "train_speed(iter/s)": 1.128354
    },
    {
      "acc": 0.73252201,
      "epoch": 0.6633688483003551,
      "grad_norm": 3.921875,
      "learning_rate": 7.983100685118157e-06,
      "loss": 1.10875492,
      "memory(GiB)": 112.26,
      "step": 26150,
      "train_speed(iter/s)": 1.128359
    },
    {
      "acc": 0.74637451,
      "epoch": 0.6634956874682902,
      "grad_norm": 3.21875,
      "learning_rate": 7.9822590740838e-06,
      "loss": 1.0021759,
      "memory(GiB)": 112.26,
      "step": 26155,
      "train_speed(iter/s)": 1.128402
    },
    {
      "acc": 0.73533082,
      "epoch": 0.6636225266362252,
      "grad_norm": 3.40625,
      "learning_rate": 7.981417331876373e-06,
      "loss": 1.0353013,
      "memory(GiB)": 112.26,
      "step": 26160,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.73755093,
      "epoch": 0.6637493658041603,
      "grad_norm": 3.203125,
      "learning_rate": 7.980575458532901e-06,
      "loss": 1.12205887,
      "memory(GiB)": 112.26,
      "step": 26165,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.73472767,
      "epoch": 0.6638762049720954,
      "grad_norm": 3.578125,
      "learning_rate": 7.979733454090415e-06,
      "loss": 1.05441704,
      "memory(GiB)": 112.26,
      "step": 26170,
      "train_speed(iter/s)": 1.128483
    },
    {
      "acc": 0.72493606,
      "epoch": 0.6640030441400304,
      "grad_norm": 3.796875,
      "learning_rate": 7.978891318585947e-06,
      "loss": 1.08148499,
      "memory(GiB)": 112.26,
      "step": 26175,
      "train_speed(iter/s)": 1.128477
    },
    {
      "acc": 0.73381176,
      "epoch": 0.6641298833079655,
      "grad_norm": 4.3125,
      "learning_rate": 7.978049052056537e-06,
      "loss": 1.10417271,
      "memory(GiB)": 112.26,
      "step": 26180,
      "train_speed(iter/s)": 1.128524
    },
    {
      "acc": 0.73614383,
      "epoch": 0.6642567224759005,
      "grad_norm": 3.71875,
      "learning_rate": 7.977206654539235e-06,
      "loss": 1.06202593,
      "memory(GiB)": 112.26,
      "step": 26185,
      "train_speed(iter/s)": 1.128573
    },
    {
      "acc": 0.72323742,
      "epoch": 0.6643835616438356,
      "grad_norm": 3.625,
      "learning_rate": 7.976364126071092e-06,
      "loss": 1.12976351,
      "memory(GiB)": 112.26,
      "step": 26190,
      "train_speed(iter/s)": 1.12862
    },
    {
      "acc": 0.71248646,
      "epoch": 0.6645104008117707,
      "grad_norm": 4.09375,
      "learning_rate": 7.975521466689166e-06,
      "loss": 1.15949774,
      "memory(GiB)": 112.26,
      "step": 26195,
      "train_speed(iter/s)": 1.12866
    },
    {
      "acc": 0.72787952,
      "epoch": 0.6646372399797057,
      "grad_norm": 4.78125,
      "learning_rate": 7.974678676430523e-06,
      "loss": 1.06954784,
      "memory(GiB)": 112.26,
      "step": 26200,
      "train_speed(iter/s)": 1.128678
    },
    {
      "acc": 0.74533119,
      "epoch": 0.6647640791476408,
      "grad_norm": 3.375,
      "learning_rate": 7.97383575533223e-06,
      "loss": 1.04163084,
      "memory(GiB)": 112.26,
      "step": 26205,
      "train_speed(iter/s)": 1.128715
    },
    {
      "acc": 0.7163743,
      "epoch": 0.6648909183155759,
      "grad_norm": 3.75,
      "learning_rate": 7.972992703431362e-06,
      "loss": 1.11818895,
      "memory(GiB)": 112.26,
      "step": 26210,
      "train_speed(iter/s)": 1.12872
    },
    {
      "acc": 0.72974882,
      "epoch": 0.6650177574835109,
      "grad_norm": 3.890625,
      "learning_rate": 7.972149520765e-06,
      "loss": 1.09972048,
      "memory(GiB)": 112.26,
      "step": 26215,
      "train_speed(iter/s)": 1.128742
    },
    {
      "acc": 0.7264997,
      "epoch": 0.665144596651446,
      "grad_norm": 3.921875,
      "learning_rate": 7.971306207370236e-06,
      "loss": 1.0803874,
      "memory(GiB)": 112.26,
      "step": 26220,
      "train_speed(iter/s)": 1.128786
    },
    {
      "acc": 0.73455653,
      "epoch": 0.665271435819381,
      "grad_norm": 3.59375,
      "learning_rate": 7.970462763284157e-06,
      "loss": 1.07401333,
      "memory(GiB)": 112.26,
      "step": 26225,
      "train_speed(iter/s)": 1.128825
    },
    {
      "acc": 0.73128557,
      "epoch": 0.6653982749873161,
      "grad_norm": 3.703125,
      "learning_rate": 7.969619188543865e-06,
      "loss": 1.12448387,
      "memory(GiB)": 112.26,
      "step": 26230,
      "train_speed(iter/s)": 1.128857
    },
    {
      "acc": 0.73453174,
      "epoch": 0.6655251141552512,
      "grad_norm": 4.28125,
      "learning_rate": 7.968775483186462e-06,
      "loss": 1.06795559,
      "memory(GiB)": 112.26,
      "step": 26235,
      "train_speed(iter/s)": 1.128894
    },
    {
      "acc": 0.74805117,
      "epoch": 0.6656519533231862,
      "grad_norm": 3.640625,
      "learning_rate": 7.967931647249058e-06,
      "loss": 1.03775988,
      "memory(GiB)": 112.26,
      "step": 26240,
      "train_speed(iter/s)": 1.128921
    },
    {
      "acc": 0.71849203,
      "epoch": 0.6657787924911213,
      "grad_norm": 4.1875,
      "learning_rate": 7.967087680768768e-06,
      "loss": 1.09742107,
      "memory(GiB)": 112.26,
      "step": 26245,
      "train_speed(iter/s)": 1.128939
    },
    {
      "acc": 0.74075246,
      "epoch": 0.6659056316590564,
      "grad_norm": 3.953125,
      "learning_rate": 7.966243583782718e-06,
      "loss": 1.08987589,
      "memory(GiB)": 112.26,
      "step": 26250,
      "train_speed(iter/s)": 1.128974
    },
    {
      "acc": 0.7254323,
      "epoch": 0.6660324708269914,
      "grad_norm": 3.265625,
      "learning_rate": 7.96539935632803e-06,
      "loss": 1.1299202,
      "memory(GiB)": 112.26,
      "step": 26255,
      "train_speed(iter/s)": 1.129011
    },
    {
      "acc": 0.73263741,
      "epoch": 0.6661593099949265,
      "grad_norm": 3.8125,
      "learning_rate": 7.964554998441839e-06,
      "loss": 1.08774538,
      "memory(GiB)": 112.26,
      "step": 26260,
      "train_speed(iter/s)": 1.129039
    },
    {
      "acc": 0.75021954,
      "epoch": 0.6662861491628614,
      "grad_norm": 3.578125,
      "learning_rate": 7.963710510161282e-06,
      "loss": 1.0277317,
      "memory(GiB)": 112.26,
      "step": 26265,
      "train_speed(iter/s)": 1.129073
    },
    {
      "acc": 0.74492741,
      "epoch": 0.6664129883307965,
      "grad_norm": 3.515625,
      "learning_rate": 7.962865891523508e-06,
      "loss": 1.0351532,
      "memory(GiB)": 112.26,
      "step": 26270,
      "train_speed(iter/s)": 1.129058
    },
    {
      "acc": 0.72128782,
      "epoch": 0.6665398274987316,
      "grad_norm": 4.0,
      "learning_rate": 7.96202114256566e-06,
      "loss": 1.18061237,
      "memory(GiB)": 112.26,
      "step": 26275,
      "train_speed(iter/s)": 1.129088
    },
    {
      "acc": 0.7398674,
      "epoch": 0.6666666666666666,
      "grad_norm": 3.453125,
      "learning_rate": 7.961176263324902e-06,
      "loss": 1.05628309,
      "memory(GiB)": 112.26,
      "step": 26280,
      "train_speed(iter/s)": 1.129105
    },
    {
      "acc": 0.73209867,
      "epoch": 0.6667935058346017,
      "grad_norm": 3.421875,
      "learning_rate": 7.960331253838387e-06,
      "loss": 1.07349405,
      "memory(GiB)": 112.26,
      "step": 26285,
      "train_speed(iter/s)": 1.129093
    },
    {
      "acc": 0.73061676,
      "epoch": 0.6669203450025368,
      "grad_norm": 3.390625,
      "learning_rate": 7.95948611414329e-06,
      "loss": 1.05888863,
      "memory(GiB)": 112.26,
      "step": 26290,
      "train_speed(iter/s)": 1.129125
    },
    {
      "acc": 0.73223062,
      "epoch": 0.6670471841704718,
      "grad_norm": 4.03125,
      "learning_rate": 7.958640844276776e-06,
      "loss": 1.10040302,
      "memory(GiB)": 112.26,
      "step": 26295,
      "train_speed(iter/s)": 1.12916
    },
    {
      "acc": 0.72307138,
      "epoch": 0.6671740233384069,
      "grad_norm": 3.40625,
      "learning_rate": 7.957795444276033e-06,
      "loss": 1.12006569,
      "memory(GiB)": 112.26,
      "step": 26300,
      "train_speed(iter/s)": 1.129182
    },
    {
      "acc": 0.74173441,
      "epoch": 0.6673008625063419,
      "grad_norm": 3.96875,
      "learning_rate": 7.956949914178239e-06,
      "loss": 1.00982704,
      "memory(GiB)": 112.26,
      "step": 26305,
      "train_speed(iter/s)": 1.129219
    },
    {
      "acc": 0.73468103,
      "epoch": 0.667427701674277,
      "grad_norm": 3.71875,
      "learning_rate": 7.956104254020587e-06,
      "loss": 1.04272099,
      "memory(GiB)": 112.26,
      "step": 26310,
      "train_speed(iter/s)": 1.12925
    },
    {
      "acc": 0.74109373,
      "epoch": 0.6675545408422121,
      "grad_norm": 3.34375,
      "learning_rate": 7.95525846384027e-06,
      "loss": 1.06560717,
      "memory(GiB)": 112.26,
      "step": 26315,
      "train_speed(iter/s)": 1.12928
    },
    {
      "acc": 0.73895655,
      "epoch": 0.6676813800101471,
      "grad_norm": 3.046875,
      "learning_rate": 7.954412543674493e-06,
      "loss": 1.05397997,
      "memory(GiB)": 112.26,
      "step": 26320,
      "train_speed(iter/s)": 1.12932
    },
    {
      "acc": 0.73536005,
      "epoch": 0.6678082191780822,
      "grad_norm": 4.21875,
      "learning_rate": 7.95356649356046e-06,
      "loss": 1.1192256,
      "memory(GiB)": 112.26,
      "step": 26325,
      "train_speed(iter/s)": 1.129369
    },
    {
      "acc": 0.72412548,
      "epoch": 0.6679350583460173,
      "grad_norm": 4.125,
      "learning_rate": 7.952720313535387e-06,
      "loss": 1.13982143,
      "memory(GiB)": 112.26,
      "step": 26330,
      "train_speed(iter/s)": 1.129415
    },
    {
      "acc": 0.72901697,
      "epoch": 0.6680618975139523,
      "grad_norm": 3.84375,
      "learning_rate": 7.951874003636492e-06,
      "loss": 1.10692024,
      "memory(GiB)": 112.26,
      "step": 26335,
      "train_speed(iter/s)": 1.129442
    },
    {
      "acc": 0.74237866,
      "epoch": 0.6681887366818874,
      "grad_norm": 3.1875,
      "learning_rate": 7.951027563901e-06,
      "loss": 1.00807667,
      "memory(GiB)": 112.26,
      "step": 26340,
      "train_speed(iter/s)": 1.129472
    },
    {
      "acc": 0.72669201,
      "epoch": 0.6683155758498224,
      "grad_norm": 4.46875,
      "learning_rate": 7.950180994366138e-06,
      "loss": 1.12432232,
      "memory(GiB)": 112.26,
      "step": 26345,
      "train_speed(iter/s)": 1.129521
    },
    {
      "acc": 0.73943777,
      "epoch": 0.6684424150177575,
      "grad_norm": 3.640625,
      "learning_rate": 7.949334295069147e-06,
      "loss": 1.03222342,
      "memory(GiB)": 112.26,
      "step": 26350,
      "train_speed(iter/s)": 1.12956
    },
    {
      "acc": 0.72496901,
      "epoch": 0.6685692541856926,
      "grad_norm": 4.5625,
      "learning_rate": 7.948487466047263e-06,
      "loss": 1.13098707,
      "memory(GiB)": 112.26,
      "step": 26355,
      "train_speed(iter/s)": 1.129605
    },
    {
      "acc": 0.72509766,
      "epoch": 0.6686960933536276,
      "grad_norm": 4.375,
      "learning_rate": 7.947640507337737e-06,
      "loss": 1.08354282,
      "memory(GiB)": 112.26,
      "step": 26360,
      "train_speed(iter/s)": 1.12964
    },
    {
      "acc": 0.7215704,
      "epoch": 0.6688229325215627,
      "grad_norm": 3.875,
      "learning_rate": 7.946793418977821e-06,
      "loss": 1.10055094,
      "memory(GiB)": 112.26,
      "step": 26365,
      "train_speed(iter/s)": 1.129664
    },
    {
      "acc": 0.71562948,
      "epoch": 0.6689497716894978,
      "grad_norm": 3.578125,
      "learning_rate": 7.945946201004775e-06,
      "loss": 1.14144993,
      "memory(GiB)": 112.26,
      "step": 26370,
      "train_speed(iter/s)": 1.129678
    },
    {
      "acc": 0.72941661,
      "epoch": 0.6690766108574328,
      "grad_norm": 3.5,
      "learning_rate": 7.945098853455862e-06,
      "loss": 1.09712715,
      "memory(GiB)": 112.26,
      "step": 26375,
      "train_speed(iter/s)": 1.129713
    },
    {
      "acc": 0.74537621,
      "epoch": 0.6692034500253679,
      "grad_norm": 3.03125,
      "learning_rate": 7.944251376368352e-06,
      "loss": 1.03378935,
      "memory(GiB)": 112.26,
      "step": 26380,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.72760921,
      "epoch": 0.6693302891933028,
      "grad_norm": 3.75,
      "learning_rate": 7.943403769779523e-06,
      "loss": 1.13407631,
      "memory(GiB)": 112.26,
      "step": 26385,
      "train_speed(iter/s)": 1.129768
    },
    {
      "acc": 0.73245177,
      "epoch": 0.6694571283612379,
      "grad_norm": 4.3125,
      "learning_rate": 7.942556033726654e-06,
      "loss": 1.13473597,
      "memory(GiB)": 112.26,
      "step": 26390,
      "train_speed(iter/s)": 1.129802
    },
    {
      "acc": 0.74156461,
      "epoch": 0.669583967529173,
      "grad_norm": 3.5625,
      "learning_rate": 7.941708168247033e-06,
      "loss": 1.07993326,
      "memory(GiB)": 112.26,
      "step": 26395,
      "train_speed(iter/s)": 1.12982
    },
    {
      "acc": 0.74332685,
      "epoch": 0.669710806697108,
      "grad_norm": 3.625,
      "learning_rate": 7.940860173377952e-06,
      "loss": 1.08546028,
      "memory(GiB)": 112.26,
      "step": 26400,
      "train_speed(iter/s)": 1.129839
    },
    {
      "acc": 0.73192325,
      "epoch": 0.6698376458650431,
      "grad_norm": 3.921875,
      "learning_rate": 7.940012049156711e-06,
      "loss": 1.09393024,
      "memory(GiB)": 112.26,
      "step": 26405,
      "train_speed(iter/s)": 1.129879
    },
    {
      "acc": 0.74115791,
      "epoch": 0.6699644850329782,
      "grad_norm": 3.234375,
      "learning_rate": 7.939163795620614e-06,
      "loss": 1.0703023,
      "memory(GiB)": 112.26,
      "step": 26410,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.72665653,
      "epoch": 0.6700913242009132,
      "grad_norm": 3.90625,
      "learning_rate": 7.938315412806971e-06,
      "loss": 1.13270645,
      "memory(GiB)": 112.26,
      "step": 26415,
      "train_speed(iter/s)": 1.129929
    },
    {
      "acc": 0.74041977,
      "epoch": 0.6702181633688483,
      "grad_norm": 4.1875,
      "learning_rate": 7.937466900753098e-06,
      "loss": 1.0306078,
      "memory(GiB)": 112.26,
      "step": 26420,
      "train_speed(iter/s)": 1.129957
    },
    {
      "acc": 0.72291393,
      "epoch": 0.6703450025367833,
      "grad_norm": 4.90625,
      "learning_rate": 7.936618259496316e-06,
      "loss": 1.12330856,
      "memory(GiB)": 112.26,
      "step": 26425,
      "train_speed(iter/s)": 1.130002
    },
    {
      "acc": 0.74174819,
      "epoch": 0.6704718417047184,
      "grad_norm": 3.765625,
      "learning_rate": 7.935769489073952e-06,
      "loss": 1.05228128,
      "memory(GiB)": 112.26,
      "step": 26430,
      "train_speed(iter/s)": 1.130048
    },
    {
      "acc": 0.7433445,
      "epoch": 0.6705986808726535,
      "grad_norm": 3.578125,
      "learning_rate": 7.934920589523336e-06,
      "loss": 1.0131629,
      "memory(GiB)": 112.26,
      "step": 26435,
      "train_speed(iter/s)": 1.130054
    },
    {
      "acc": 0.72974977,
      "epoch": 0.6707255200405885,
      "grad_norm": 4.53125,
      "learning_rate": 7.934071560881812e-06,
      "loss": 1.11367311,
      "memory(GiB)": 112.26,
      "step": 26440,
      "train_speed(iter/s)": 1.130085
    },
    {
      "acc": 0.74294934,
      "epoch": 0.6708523592085236,
      "grad_norm": 3.484375,
      "learning_rate": 7.93322240318672e-06,
      "loss": 1.05268908,
      "memory(GiB)": 112.26,
      "step": 26445,
      "train_speed(iter/s)": 1.1301
    },
    {
      "acc": 0.72637329,
      "epoch": 0.6709791983764587,
      "grad_norm": 3.5,
      "learning_rate": 7.93237311647541e-06,
      "loss": 1.13575811,
      "memory(GiB)": 112.26,
      "step": 26450,
      "train_speed(iter/s)": 1.130132
    },
    {
      "acc": 0.74347377,
      "epoch": 0.6711060375443937,
      "grad_norm": 3.96875,
      "learning_rate": 7.93152370078524e-06,
      "loss": 1.02376804,
      "memory(GiB)": 112.26,
      "step": 26455,
      "train_speed(iter/s)": 1.130165
    },
    {
      "acc": 0.73790984,
      "epoch": 0.6712328767123288,
      "grad_norm": 3.34375,
      "learning_rate": 7.930674156153569e-06,
      "loss": 1.05031681,
      "memory(GiB)": 112.26,
      "step": 26460,
      "train_speed(iter/s)": 1.130178
    },
    {
      "acc": 0.73181639,
      "epoch": 0.6713597158802638,
      "grad_norm": 3.46875,
      "learning_rate": 7.929824482617763e-06,
      "loss": 1.09991217,
      "memory(GiB)": 112.26,
      "step": 26465,
      "train_speed(iter/s)": 1.130178
    },
    {
      "acc": 0.72740617,
      "epoch": 0.6714865550481989,
      "grad_norm": 4.375,
      "learning_rate": 7.928974680215196e-06,
      "loss": 1.15272179,
      "memory(GiB)": 112.26,
      "step": 26470,
      "train_speed(iter/s)": 1.13019
    },
    {
      "acc": 0.72199297,
      "epoch": 0.671613394216134,
      "grad_norm": 3.484375,
      "learning_rate": 7.928124748983244e-06,
      "loss": 1.11657314,
      "memory(GiB)": 112.26,
      "step": 26475,
      "train_speed(iter/s)": 1.130216
    },
    {
      "acc": 0.73657813,
      "epoch": 0.671740233384069,
      "grad_norm": 4.21875,
      "learning_rate": 7.927274688959294e-06,
      "loss": 1.12184448,
      "memory(GiB)": 112.26,
      "step": 26480,
      "train_speed(iter/s)": 1.13023
    },
    {
      "acc": 0.73146858,
      "epoch": 0.6718670725520041,
      "grad_norm": 4.1875,
      "learning_rate": 7.926424500180734e-06,
      "loss": 1.10703697,
      "memory(GiB)": 112.26,
      "step": 26485,
      "train_speed(iter/s)": 1.130245
    },
    {
      "acc": 0.74933167,
      "epoch": 0.6719939117199392,
      "grad_norm": 3.859375,
      "learning_rate": 7.92557418268496e-06,
      "loss": 1.04114437,
      "memory(GiB)": 112.26,
      "step": 26490,
      "train_speed(iter/s)": 1.130254
    },
    {
      "acc": 0.73960385,
      "epoch": 0.6721207508878742,
      "grad_norm": 3.453125,
      "learning_rate": 7.92472373650937e-06,
      "loss": 1.07644024,
      "memory(GiB)": 112.26,
      "step": 26495,
      "train_speed(iter/s)": 1.130292
    },
    {
      "acc": 0.71619806,
      "epoch": 0.6722475900558093,
      "grad_norm": 3.46875,
      "learning_rate": 7.923873161691373e-06,
      "loss": 1.17955198,
      "memory(GiB)": 112.26,
      "step": 26500,
      "train_speed(iter/s)": 1.130311
    },
    {
      "acc": 0.74610033,
      "epoch": 0.6723744292237442,
      "grad_norm": 4.96875,
      "learning_rate": 7.923022458268379e-06,
      "loss": 1.08606071,
      "memory(GiB)": 112.26,
      "step": 26505,
      "train_speed(iter/s)": 1.130316
    },
    {
      "acc": 0.73873291,
      "epoch": 0.6725012683916793,
      "grad_norm": 3.90625,
      "learning_rate": 7.922171626277809e-06,
      "loss": 1.10563297,
      "memory(GiB)": 112.26,
      "step": 26510,
      "train_speed(iter/s)": 1.130358
    },
    {
      "acc": 0.73117399,
      "epoch": 0.6726281075596144,
      "grad_norm": 3.15625,
      "learning_rate": 7.921320665757081e-06,
      "loss": 1.11197662,
      "memory(GiB)": 112.26,
      "step": 26515,
      "train_speed(iter/s)": 1.130384
    },
    {
      "acc": 0.73494143,
      "epoch": 0.6727549467275494,
      "grad_norm": 3.90625,
      "learning_rate": 7.920469576743631e-06,
      "loss": 1.0484623,
      "memory(GiB)": 112.26,
      "step": 26520,
      "train_speed(iter/s)": 1.130424
    },
    {
      "acc": 0.74496264,
      "epoch": 0.6728817858954845,
      "grad_norm": 3.828125,
      "learning_rate": 7.919618359274888e-06,
      "loss": 1.08553867,
      "memory(GiB)": 112.26,
      "step": 26525,
      "train_speed(iter/s)": 1.130467
    },
    {
      "acc": 0.73648381,
      "epoch": 0.6730086250634196,
      "grad_norm": 4.3125,
      "learning_rate": 7.918767013388295e-06,
      "loss": 1.11500244,
      "memory(GiB)": 112.26,
      "step": 26530,
      "train_speed(iter/s)": 1.130496
    },
    {
      "acc": 0.73022537,
      "epoch": 0.6731354642313546,
      "grad_norm": 3.796875,
      "learning_rate": 7.917915539121297e-06,
      "loss": 1.11582508,
      "memory(GiB)": 112.26,
      "step": 26535,
      "train_speed(iter/s)": 1.130536
    },
    {
      "acc": 0.71368265,
      "epoch": 0.6732623033992897,
      "grad_norm": 3.453125,
      "learning_rate": 7.917063936511347e-06,
      "loss": 1.17035885,
      "memory(GiB)": 112.26,
      "step": 26540,
      "train_speed(iter/s)": 1.130533
    },
    {
      "acc": 0.73295169,
      "epoch": 0.6733891425672247,
      "grad_norm": 4.21875,
      "learning_rate": 7.9162122055959e-06,
      "loss": 1.1009304,
      "memory(GiB)": 112.26,
      "step": 26545,
      "train_speed(iter/s)": 1.130567
    },
    {
      "acc": 0.73645401,
      "epoch": 0.6735159817351598,
      "grad_norm": 4.03125,
      "learning_rate": 7.91536034641242e-06,
      "loss": 1.0803009,
      "memory(GiB)": 112.26,
      "step": 26550,
      "train_speed(iter/s)": 1.130601
    },
    {
      "acc": 0.7333415,
      "epoch": 0.6736428209030949,
      "grad_norm": 6.28125,
      "learning_rate": 7.914508358998376e-06,
      "loss": 1.13872528,
      "memory(GiB)": 112.26,
      "step": 26555,
      "train_speed(iter/s)": 1.130639
    },
    {
      "acc": 0.75245619,
      "epoch": 0.6737696600710299,
      "grad_norm": 3.609375,
      "learning_rate": 7.913656243391243e-06,
      "loss": 1.0286974,
      "memory(GiB)": 112.26,
      "step": 26560,
      "train_speed(iter/s)": 1.130684
    },
    {
      "acc": 0.73136172,
      "epoch": 0.673896499238965,
      "grad_norm": 4.28125,
      "learning_rate": 7.9128039996285e-06,
      "loss": 1.09059963,
      "memory(GiB)": 112.26,
      "step": 26565,
      "train_speed(iter/s)": 1.130726
    },
    {
      "acc": 0.72346916,
      "epoch": 0.6740233384069001,
      "grad_norm": 3.609375,
      "learning_rate": 7.911951627747633e-06,
      "loss": 1.09972343,
      "memory(GiB)": 112.26,
      "step": 26570,
      "train_speed(iter/s)": 1.130741
    },
    {
      "acc": 0.72320652,
      "epoch": 0.6741501775748351,
      "grad_norm": 3.734375,
      "learning_rate": 7.91109912778613e-06,
      "loss": 1.10327234,
      "memory(GiB)": 112.26,
      "step": 26575,
      "train_speed(iter/s)": 1.13078
    },
    {
      "acc": 0.72693577,
      "epoch": 0.6742770167427702,
      "grad_norm": 3.375,
      "learning_rate": 7.910246499781492e-06,
      "loss": 1.09281712,
      "memory(GiB)": 112.26,
      "step": 26580,
      "train_speed(iter/s)": 1.130788
    },
    {
      "acc": 0.72829399,
      "epoch": 0.6744038559107052,
      "grad_norm": 3.671875,
      "learning_rate": 7.90939374377122e-06,
      "loss": 1.1112402,
      "memory(GiB)": 112.26,
      "step": 26585,
      "train_speed(iter/s)": 1.130805
    },
    {
      "acc": 0.73558855,
      "epoch": 0.6745306950786403,
      "grad_norm": 3.328125,
      "learning_rate": 7.908540859792821e-06,
      "loss": 1.05259008,
      "memory(GiB)": 112.26,
      "step": 26590,
      "train_speed(iter/s)": 1.13084
    },
    {
      "acc": 0.73605304,
      "epoch": 0.6746575342465754,
      "grad_norm": 3.59375,
      "learning_rate": 7.907687847883809e-06,
      "loss": 1.05621691,
      "memory(GiB)": 112.26,
      "step": 26595,
      "train_speed(iter/s)": 1.130866
    },
    {
      "acc": 0.73669147,
      "epoch": 0.6747843734145104,
      "grad_norm": 4.28125,
      "learning_rate": 7.906834708081703e-06,
      "loss": 1.08481236,
      "memory(GiB)": 112.26,
      "step": 26600,
      "train_speed(iter/s)": 1.13091
    },
    {
      "acc": 0.74376721,
      "epoch": 0.6749112125824455,
      "grad_norm": 3.609375,
      "learning_rate": 7.90598144042403e-06,
      "loss": 1.06099281,
      "memory(GiB)": 112.26,
      "step": 26605,
      "train_speed(iter/s)": 1.130908
    },
    {
      "acc": 0.73455744,
      "epoch": 0.6750380517503806,
      "grad_norm": 4.15625,
      "learning_rate": 7.905128044948318e-06,
      "loss": 1.10719528,
      "memory(GiB)": 112.26,
      "step": 26610,
      "train_speed(iter/s)": 1.130925
    },
    {
      "acc": 0.73134985,
      "epoch": 0.6751648909183156,
      "grad_norm": 3.5625,
      "learning_rate": 7.904274521692104e-06,
      "loss": 1.13438129,
      "memory(GiB)": 112.26,
      "step": 26615,
      "train_speed(iter/s)": 1.130952
    },
    {
      "acc": 0.73375907,
      "epoch": 0.6752917300862507,
      "grad_norm": 3.421875,
      "learning_rate": 7.90342087069293e-06,
      "loss": 1.08749971,
      "memory(GiB)": 112.26,
      "step": 26620,
      "train_speed(iter/s)": 1.130996
    },
    {
      "acc": 0.73931432,
      "epoch": 0.6754185692541856,
      "grad_norm": 3.65625,
      "learning_rate": 7.902567091988343e-06,
      "loss": 1.06464567,
      "memory(GiB)": 112.26,
      "step": 26625,
      "train_speed(iter/s)": 1.131018
    },
    {
      "acc": 0.73972092,
      "epoch": 0.6755454084221207,
      "grad_norm": 4.21875,
      "learning_rate": 7.901713185615898e-06,
      "loss": 1.05150375,
      "memory(GiB)": 112.26,
      "step": 26630,
      "train_speed(iter/s)": 1.131037
    },
    {
      "acc": 0.73090582,
      "epoch": 0.6756722475900558,
      "grad_norm": 4.09375,
      "learning_rate": 7.90085915161315e-06,
      "loss": 1.08372784,
      "memory(GiB)": 112.26,
      "step": 26635,
      "train_speed(iter/s)": 1.131059
    },
    {
      "acc": 0.73021417,
      "epoch": 0.6757990867579908,
      "grad_norm": 3.40625,
      "learning_rate": 7.900004990017667e-06,
      "loss": 1.1306057,
      "memory(GiB)": 112.26,
      "step": 26640,
      "train_speed(iter/s)": 1.131107
    },
    {
      "acc": 0.72253218,
      "epoch": 0.6759259259259259,
      "grad_norm": 4.15625,
      "learning_rate": 7.899150700867014e-06,
      "loss": 1.1385046,
      "memory(GiB)": 112.26,
      "step": 26645,
      "train_speed(iter/s)": 1.131144
    },
    {
      "acc": 0.73029671,
      "epoch": 0.676052765093861,
      "grad_norm": 3.828125,
      "learning_rate": 7.898296284198772e-06,
      "loss": 1.05527182,
      "memory(GiB)": 112.26,
      "step": 26650,
      "train_speed(iter/s)": 1.13116
    },
    {
      "acc": 0.73347011,
      "epoch": 0.676179604261796,
      "grad_norm": 4.4375,
      "learning_rate": 7.897441740050518e-06,
      "loss": 1.13699226,
      "memory(GiB)": 112.26,
      "step": 26655,
      "train_speed(iter/s)": 1.131184
    },
    {
      "acc": 0.71468463,
      "epoch": 0.6763064434297311,
      "grad_norm": 3.46875,
      "learning_rate": 7.89658706845984e-06,
      "loss": 1.10127735,
      "memory(GiB)": 112.26,
      "step": 26660,
      "train_speed(iter/s)": 1.131214
    },
    {
      "acc": 0.72825565,
      "epoch": 0.6764332825976661,
      "grad_norm": 3.796875,
      "learning_rate": 7.89573226946433e-06,
      "loss": 1.10179482,
      "memory(GiB)": 112.26,
      "step": 26665,
      "train_speed(iter/s)": 1.131248
    },
    {
      "acc": 0.73722777,
      "epoch": 0.6765601217656012,
      "grad_norm": 4.59375,
      "learning_rate": 7.89487734310159e-06,
      "loss": 1.10026522,
      "memory(GiB)": 112.26,
      "step": 26670,
      "train_speed(iter/s)": 1.131277
    },
    {
      "acc": 0.74566932,
      "epoch": 0.6766869609335363,
      "grad_norm": 3.296875,
      "learning_rate": 7.894022289409216e-06,
      "loss": 1.0815815,
      "memory(GiB)": 112.26,
      "step": 26675,
      "train_speed(iter/s)": 1.13129
    },
    {
      "acc": 0.72390032,
      "epoch": 0.6768138001014713,
      "grad_norm": 3.28125,
      "learning_rate": 7.893167108424822e-06,
      "loss": 1.13188009,
      "memory(GiB)": 112.26,
      "step": 26680,
      "train_speed(iter/s)": 1.131327
    },
    {
      "acc": 0.74201913,
      "epoch": 0.6769406392694064,
      "grad_norm": 3.625,
      "learning_rate": 7.89231180018602e-06,
      "loss": 1.01594439,
      "memory(GiB)": 112.26,
      "step": 26685,
      "train_speed(iter/s)": 1.131371
    },
    {
      "acc": 0.7305336,
      "epoch": 0.6770674784373415,
      "grad_norm": 3.765625,
      "learning_rate": 7.891456364730434e-06,
      "loss": 1.10007267,
      "memory(GiB)": 112.26,
      "step": 26690,
      "train_speed(iter/s)": 1.131398
    },
    {
      "acc": 0.74011445,
      "epoch": 0.6771943176052765,
      "grad_norm": 3.21875,
      "learning_rate": 7.890600802095686e-06,
      "loss": 1.12144356,
      "memory(GiB)": 112.26,
      "step": 26695,
      "train_speed(iter/s)": 1.131435
    },
    {
      "acc": 0.73394709,
      "epoch": 0.6773211567732116,
      "grad_norm": 4.34375,
      "learning_rate": 7.889745112319411e-06,
      "loss": 1.09932613,
      "memory(GiB)": 112.26,
      "step": 26700,
      "train_speed(iter/s)": 1.131474
    },
    {
      "acc": 0.73535585,
      "epoch": 0.6774479959411466,
      "grad_norm": 5.1875,
      "learning_rate": 7.888889295439244e-06,
      "loss": 1.08901424,
      "memory(GiB)": 112.26,
      "step": 26705,
      "train_speed(iter/s)": 1.131499
    },
    {
      "acc": 0.73016467,
      "epoch": 0.6775748351090817,
      "grad_norm": 4.40625,
      "learning_rate": 7.888033351492827e-06,
      "loss": 1.11399708,
      "memory(GiB)": 112.26,
      "step": 26710,
      "train_speed(iter/s)": 1.131528
    },
    {
      "acc": 0.72119637,
      "epoch": 0.6777016742770168,
      "grad_norm": 3.40625,
      "learning_rate": 7.887177280517808e-06,
      "loss": 1.1728384,
      "memory(GiB)": 112.26,
      "step": 26715,
      "train_speed(iter/s)": 1.131558
    },
    {
      "acc": 0.74182711,
      "epoch": 0.6778285134449518,
      "grad_norm": 3.765625,
      "learning_rate": 7.886321082551845e-06,
      "loss": 1.01517735,
      "memory(GiB)": 112.26,
      "step": 26720,
      "train_speed(iter/s)": 1.131598
    },
    {
      "acc": 0.74474773,
      "epoch": 0.6779553526128869,
      "grad_norm": 3.65625,
      "learning_rate": 7.88546475763259e-06,
      "loss": 1.02936392,
      "memory(GiB)": 112.26,
      "step": 26725,
      "train_speed(iter/s)": 1.13161
    },
    {
      "acc": 0.74526463,
      "epoch": 0.678082191780822,
      "grad_norm": 3.328125,
      "learning_rate": 7.884608305797716e-06,
      "loss": 1.02631683,
      "memory(GiB)": 112.26,
      "step": 26730,
      "train_speed(iter/s)": 1.131634
    },
    {
      "acc": 0.72591491,
      "epoch": 0.678209030948757,
      "grad_norm": 3.28125,
      "learning_rate": 7.883751727084888e-06,
      "loss": 1.14078083,
      "memory(GiB)": 112.26,
      "step": 26735,
      "train_speed(iter/s)": 1.13166
    },
    {
      "acc": 0.73440709,
      "epoch": 0.678335870116692,
      "grad_norm": 3.390625,
      "learning_rate": 7.882895021531784e-06,
      "loss": 1.11390038,
      "memory(GiB)": 112.26,
      "step": 26740,
      "train_speed(iter/s)": 1.131698
    },
    {
      "acc": 0.73986993,
      "epoch": 0.678462709284627,
      "grad_norm": 4.125,
      "learning_rate": 7.882038189176085e-06,
      "loss": 1.05263176,
      "memory(GiB)": 112.26,
      "step": 26745,
      "train_speed(iter/s)": 1.131718
    },
    {
      "acc": 0.74103789,
      "epoch": 0.6785895484525621,
      "grad_norm": 3.515625,
      "learning_rate": 7.881181230055481e-06,
      "loss": 1.07343016,
      "memory(GiB)": 112.26,
      "step": 26750,
      "train_speed(iter/s)": 1.131735
    },
    {
      "acc": 0.73025017,
      "epoch": 0.6787163876204972,
      "grad_norm": 6.75,
      "learning_rate": 7.880324144207663e-06,
      "loss": 1.11181889,
      "memory(GiB)": 112.26,
      "step": 26755,
      "train_speed(iter/s)": 1.131756
    },
    {
      "acc": 0.75170813,
      "epoch": 0.6788432267884322,
      "grad_norm": 4.59375,
      "learning_rate": 7.879466931670328e-06,
      "loss": 1.04961443,
      "memory(GiB)": 112.26,
      "step": 26760,
      "train_speed(iter/s)": 1.131791
    },
    {
      "acc": 0.72036405,
      "epoch": 0.6789700659563673,
      "grad_norm": 4.3125,
      "learning_rate": 7.878609592481182e-06,
      "loss": 1.17421799,
      "memory(GiB)": 112.26,
      "step": 26765,
      "train_speed(iter/s)": 1.131826
    },
    {
      "acc": 0.7363255,
      "epoch": 0.6790969051243024,
      "grad_norm": 3.640625,
      "learning_rate": 7.877752126677933e-06,
      "loss": 1.09146652,
      "memory(GiB)": 112.26,
      "step": 26770,
      "train_speed(iter/s)": 1.131855
    },
    {
      "acc": 0.74986663,
      "epoch": 0.6792237442922374,
      "grad_norm": 3.375,
      "learning_rate": 7.876894534298298e-06,
      "loss": 1.01007214,
      "memory(GiB)": 112.26,
      "step": 26775,
      "train_speed(iter/s)": 1.131865
    },
    {
      "acc": 0.73927112,
      "epoch": 0.6793505834601725,
      "grad_norm": 3.859375,
      "learning_rate": 7.87603681538e-06,
      "loss": 1.03074932,
      "memory(GiB)": 112.26,
      "step": 26780,
      "train_speed(iter/s)": 1.131893
    },
    {
      "acc": 0.72304296,
      "epoch": 0.6794774226281075,
      "grad_norm": 3.859375,
      "learning_rate": 7.875178969960757e-06,
      "loss": 1.17660446,
      "memory(GiB)": 112.26,
      "step": 26785,
      "train_speed(iter/s)": 1.131917
    },
    {
      "acc": 0.7272285,
      "epoch": 0.6796042617960426,
      "grad_norm": 3.171875,
      "learning_rate": 7.87432099807831e-06,
      "loss": 1.12022829,
      "memory(GiB)": 112.26,
      "step": 26790,
      "train_speed(iter/s)": 1.131952
    },
    {
      "acc": 0.73724799,
      "epoch": 0.6797311009639777,
      "grad_norm": 3.953125,
      "learning_rate": 7.87346289977039e-06,
      "loss": 1.09413033,
      "memory(GiB)": 112.26,
      "step": 26795,
      "train_speed(iter/s)": 1.131958
    },
    {
      "acc": 0.74244981,
      "epoch": 0.6798579401319127,
      "grad_norm": 3.765625,
      "learning_rate": 7.872604675074745e-06,
      "loss": 1.05047474,
      "memory(GiB)": 112.26,
      "step": 26800,
      "train_speed(iter/s)": 1.131985
    },
    {
      "acc": 0.74098597,
      "epoch": 0.6799847792998478,
      "grad_norm": 4.59375,
      "learning_rate": 7.871746324029119e-06,
      "loss": 1.04617643,
      "memory(GiB)": 112.26,
      "step": 26805,
      "train_speed(iter/s)": 1.132026
    },
    {
      "acc": 0.73985949,
      "epoch": 0.6801116184677829,
      "grad_norm": 4.0,
      "learning_rate": 7.87088784667127e-06,
      "loss": 1.05189524,
      "memory(GiB)": 112.26,
      "step": 26810,
      "train_speed(iter/s)": 1.132057
    },
    {
      "acc": 0.71900997,
      "epoch": 0.6802384576357179,
      "grad_norm": 3.546875,
      "learning_rate": 7.870029243038955e-06,
      "loss": 1.16190691,
      "memory(GiB)": 112.26,
      "step": 26815,
      "train_speed(iter/s)": 1.132089
    },
    {
      "acc": 0.7269073,
      "epoch": 0.680365296803653,
      "grad_norm": 3.8125,
      "learning_rate": 7.869170513169941e-06,
      "loss": 1.11261549,
      "memory(GiB)": 112.26,
      "step": 26820,
      "train_speed(iter/s)": 1.132115
    },
    {
      "acc": 0.71192293,
      "epoch": 0.680492135971588,
      "grad_norm": 3.625,
      "learning_rate": 7.868311657101996e-06,
      "loss": 1.10377007,
      "memory(GiB)": 112.26,
      "step": 26825,
      "train_speed(iter/s)": 1.132155
    },
    {
      "acc": 0.73162045,
      "epoch": 0.6806189751395231,
      "grad_norm": 4.6875,
      "learning_rate": 7.8674526748729e-06,
      "loss": 1.10223513,
      "memory(GiB)": 112.26,
      "step": 26830,
      "train_speed(iter/s)": 1.132198
    },
    {
      "acc": 0.76099482,
      "epoch": 0.6807458143074582,
      "grad_norm": 4.09375,
      "learning_rate": 7.866593566520432e-06,
      "loss": 0.99655561,
      "memory(GiB)": 112.26,
      "step": 26835,
      "train_speed(iter/s)": 1.13224
    },
    {
      "acc": 0.72619643,
      "epoch": 0.6808726534753932,
      "grad_norm": 3.5,
      "learning_rate": 7.865734332082382e-06,
      "loss": 1.15783901,
      "memory(GiB)": 112.26,
      "step": 26840,
      "train_speed(iter/s)": 1.132266
    },
    {
      "acc": 0.74489236,
      "epoch": 0.6809994926433283,
      "grad_norm": 4.40625,
      "learning_rate": 7.86487497159654e-06,
      "loss": 1.02362309,
      "memory(GiB)": 112.26,
      "step": 26845,
      "train_speed(iter/s)": 1.132287
    },
    {
      "acc": 0.73265443,
      "epoch": 0.6811263318112634,
      "grad_norm": 3.46875,
      "learning_rate": 7.864015485100706e-06,
      "loss": 1.07570057,
      "memory(GiB)": 112.26,
      "step": 26850,
      "train_speed(iter/s)": 1.132305
    },
    {
      "acc": 0.73473673,
      "epoch": 0.6812531709791984,
      "grad_norm": 3.5625,
      "learning_rate": 7.863155872632685e-06,
      "loss": 1.02769423,
      "memory(GiB)": 112.26,
      "step": 26855,
      "train_speed(iter/s)": 1.13233
    },
    {
      "acc": 0.73713741,
      "epoch": 0.6813800101471335,
      "grad_norm": 3.90625,
      "learning_rate": 7.862296134230287e-06,
      "loss": 1.04151134,
      "memory(GiB)": 112.26,
      "step": 26860,
      "train_speed(iter/s)": 1.132363
    },
    {
      "acc": 0.73575702,
      "epoch": 0.6815068493150684,
      "grad_norm": 3.8125,
      "learning_rate": 7.861436269931322e-06,
      "loss": 1.05790119,
      "memory(GiB)": 112.26,
      "step": 26865,
      "train_speed(iter/s)": 1.13239
    },
    {
      "acc": 0.73350244,
      "epoch": 0.6816336884830035,
      "grad_norm": 3.40625,
      "learning_rate": 7.860576279773617e-06,
      "loss": 1.03824205,
      "memory(GiB)": 112.26,
      "step": 26870,
      "train_speed(iter/s)": 1.132425
    },
    {
      "acc": 0.73641491,
      "epoch": 0.6817605276509386,
      "grad_norm": 3.78125,
      "learning_rate": 7.859716163794995e-06,
      "loss": 1.06378021,
      "memory(GiB)": 112.26,
      "step": 26875,
      "train_speed(iter/s)": 1.13244
    },
    {
      "acc": 0.73298512,
      "epoch": 0.6818873668188736,
      "grad_norm": 2.96875,
      "learning_rate": 7.858855922033289e-06,
      "loss": 1.09125843,
      "memory(GiB)": 112.26,
      "step": 26880,
      "train_speed(iter/s)": 1.132463
    },
    {
      "acc": 0.72916079,
      "epoch": 0.6820142059868087,
      "grad_norm": 4.28125,
      "learning_rate": 7.857995554526334e-06,
      "loss": 1.14655972,
      "memory(GiB)": 112.26,
      "step": 26885,
      "train_speed(iter/s)": 1.132472
    },
    {
      "acc": 0.72537231,
      "epoch": 0.6821410451547438,
      "grad_norm": 3.421875,
      "learning_rate": 7.857135061311977e-06,
      "loss": 1.10631981,
      "memory(GiB)": 112.26,
      "step": 26890,
      "train_speed(iter/s)": 1.132498
    },
    {
      "acc": 0.73214626,
      "epoch": 0.6822678843226788,
      "grad_norm": 3.46875,
      "learning_rate": 7.856274442428062e-06,
      "loss": 1.11296902,
      "memory(GiB)": 112.26,
      "step": 26895,
      "train_speed(iter/s)": 1.132523
    },
    {
      "acc": 0.73335934,
      "epoch": 0.6823947234906139,
      "grad_norm": 4.09375,
      "learning_rate": 7.855413697912446e-06,
      "loss": 1.07044315,
      "memory(GiB)": 112.26,
      "step": 26900,
      "train_speed(iter/s)": 1.132568
    },
    {
      "acc": 0.72813435,
      "epoch": 0.6825215626585489,
      "grad_norm": 3.578125,
      "learning_rate": 7.854552827802987e-06,
      "loss": 1.10740013,
      "memory(GiB)": 112.26,
      "step": 26905,
      "train_speed(iter/s)": 1.132592
    },
    {
      "acc": 0.74117985,
      "epoch": 0.682648401826484,
      "grad_norm": 6.8125,
      "learning_rate": 7.853691832137547e-06,
      "loss": 1.1246479,
      "memory(GiB)": 112.26,
      "step": 26910,
      "train_speed(iter/s)": 1.132617
    },
    {
      "acc": 0.74169798,
      "epoch": 0.6827752409944191,
      "grad_norm": 3.203125,
      "learning_rate": 7.852830710954003e-06,
      "loss": 1.02642536,
      "memory(GiB)": 112.26,
      "step": 26915,
      "train_speed(iter/s)": 1.132647
    },
    {
      "acc": 0.73449473,
      "epoch": 0.6829020801623541,
      "grad_norm": 4.03125,
      "learning_rate": 7.851969464290226e-06,
      "loss": 1.10247898,
      "memory(GiB)": 112.26,
      "step": 26920,
      "train_speed(iter/s)": 1.13267
    },
    {
      "acc": 0.74124513,
      "epoch": 0.6830289193302892,
      "grad_norm": 4.0625,
      "learning_rate": 7.851108092184099e-06,
      "loss": 1.07974195,
      "memory(GiB)": 112.26,
      "step": 26925,
      "train_speed(iter/s)": 1.13268
    },
    {
      "acc": 0.73854671,
      "epoch": 0.6831557584982243,
      "grad_norm": 3.46875,
      "learning_rate": 7.850246594673508e-06,
      "loss": 1.07001143,
      "memory(GiB)": 112.26,
      "step": 26930,
      "train_speed(iter/s)": 1.132718
    },
    {
      "acc": 0.72705221,
      "epoch": 0.6832825976661593,
      "grad_norm": 4.28125,
      "learning_rate": 7.849384971796346e-06,
      "loss": 1.15450077,
      "memory(GiB)": 112.26,
      "step": 26935,
      "train_speed(iter/s)": 1.132743
    },
    {
      "acc": 0.74248056,
      "epoch": 0.6834094368340944,
      "grad_norm": 3.734375,
      "learning_rate": 7.848523223590514e-06,
      "loss": 1.07168045,
      "memory(GiB)": 112.26,
      "step": 26940,
      "train_speed(iter/s)": 1.13277
    },
    {
      "acc": 0.72276754,
      "epoch": 0.6835362760020294,
      "grad_norm": 4.25,
      "learning_rate": 7.84766135009391e-06,
      "loss": 1.16564808,
      "memory(GiB)": 112.26,
      "step": 26945,
      "train_speed(iter/s)": 1.132806
    },
    {
      "acc": 0.72659526,
      "epoch": 0.6836631151699645,
      "grad_norm": 3.203125,
      "learning_rate": 7.846799351344447e-06,
      "loss": 1.11622992,
      "memory(GiB)": 112.26,
      "step": 26950,
      "train_speed(iter/s)": 1.132813
    },
    {
      "acc": 0.73770447,
      "epoch": 0.6837899543378996,
      "grad_norm": 4.125,
      "learning_rate": 7.845937227380038e-06,
      "loss": 1.07686892,
      "memory(GiB)": 112.26,
      "step": 26955,
      "train_speed(iter/s)": 1.132842
    },
    {
      "acc": 0.72574692,
      "epoch": 0.6839167935058346,
      "grad_norm": 3.546875,
      "learning_rate": 7.845074978238604e-06,
      "loss": 1.1375227,
      "memory(GiB)": 112.26,
      "step": 26960,
      "train_speed(iter/s)": 1.132875
    },
    {
      "acc": 0.7333354,
      "epoch": 0.6840436326737697,
      "grad_norm": 3.5,
      "learning_rate": 7.84421260395807e-06,
      "loss": 1.09508657,
      "memory(GiB)": 112.26,
      "step": 26965,
      "train_speed(iter/s)": 1.13291
    },
    {
      "acc": 0.73187261,
      "epoch": 0.6841704718417048,
      "grad_norm": 3.953125,
      "learning_rate": 7.84335010457637e-06,
      "loss": 1.08262892,
      "memory(GiB)": 112.26,
      "step": 26970,
      "train_speed(iter/s)": 1.132946
    },
    {
      "acc": 0.74602795,
      "epoch": 0.6842973110096398,
      "grad_norm": 4.09375,
      "learning_rate": 7.842487480131435e-06,
      "loss": 0.9913394,
      "memory(GiB)": 112.26,
      "step": 26975,
      "train_speed(iter/s)": 1.132986
    },
    {
      "acc": 0.72639723,
      "epoch": 0.6844241501775749,
      "grad_norm": 3.984375,
      "learning_rate": 7.84162473066121e-06,
      "loss": 1.15934134,
      "memory(GiB)": 112.26,
      "step": 26980,
      "train_speed(iter/s)": 1.133004
    },
    {
      "acc": 0.7382185,
      "epoch": 0.6845509893455098,
      "grad_norm": 3.546875,
      "learning_rate": 7.840761856203642e-06,
      "loss": 0.9941781,
      "memory(GiB)": 112.26,
      "step": 26985,
      "train_speed(iter/s)": 1.133032
    },
    {
      "acc": 0.7240366,
      "epoch": 0.6846778285134449,
      "grad_norm": 3.640625,
      "learning_rate": 7.839898856796685e-06,
      "loss": 1.16890364,
      "memory(GiB)": 112.26,
      "step": 26990,
      "train_speed(iter/s)": 1.133064
    },
    {
      "acc": 0.72703171,
      "epoch": 0.68480466768138,
      "grad_norm": 3.78125,
      "learning_rate": 7.839035732478297e-06,
      "loss": 1.08611126,
      "memory(GiB)": 112.26,
      "step": 26995,
      "train_speed(iter/s)": 1.133098
    },
    {
      "acc": 0.73678379,
      "epoch": 0.684931506849315,
      "grad_norm": 3.859375,
      "learning_rate": 7.838172483286441e-06,
      "loss": 1.14815397,
      "memory(GiB)": 112.26,
      "step": 27000,
      "train_speed(iter/s)": 1.133137
    },
    {
      "epoch": 0.684931506849315,
      "eval_acc": 0.7237029008660205,
      "eval_loss": 1.0549595355987549,
      "eval_runtime": 70.9828,
      "eval_samples_per_second": 89.74,
      "eval_steps_per_second": 22.442,
      "step": 27000
    },
    {
      "acc": 0.74749055,
      "epoch": 0.6850583460172501,
      "grad_norm": 3.359375,
      "learning_rate": 7.83730910925909e-06,
      "loss": 1.04496422,
      "memory(GiB)": 112.26,
      "step": 27005,
      "train_speed(iter/s)": 1.127697
    },
    {
      "acc": 0.73054681,
      "epoch": 0.6851851851851852,
      "grad_norm": 3.609375,
      "learning_rate": 7.836445610434215e-06,
      "loss": 1.07147236,
      "memory(GiB)": 112.26,
      "step": 27010,
      "train_speed(iter/s)": 1.127485
    },
    {
      "acc": 0.73133378,
      "epoch": 0.6853120243531202,
      "grad_norm": 3.84375,
      "learning_rate": 7.835581986849799e-06,
      "loss": 1.09333038,
      "memory(GiB)": 112.26,
      "step": 27015,
      "train_speed(iter/s)": 1.127526
    },
    {
      "acc": 0.7353302,
      "epoch": 0.6854388635210553,
      "grad_norm": 3.40625,
      "learning_rate": 7.834718238543827e-06,
      "loss": 1.05712662,
      "memory(GiB)": 112.26,
      "step": 27020,
      "train_speed(iter/s)": 1.127556
    },
    {
      "acc": 0.72043715,
      "epoch": 0.6855657026889903,
      "grad_norm": 3.234375,
      "learning_rate": 7.833854365554289e-06,
      "loss": 1.11885595,
      "memory(GiB)": 112.26,
      "step": 27025,
      "train_speed(iter/s)": 1.127601
    },
    {
      "acc": 0.71474957,
      "epoch": 0.6856925418569254,
      "grad_norm": 3.140625,
      "learning_rate": 7.832990367919186e-06,
      "loss": 1.13240662,
      "memory(GiB)": 112.26,
      "step": 27030,
      "train_speed(iter/s)": 1.127631
    },
    {
      "acc": 0.7373374,
      "epoch": 0.6858193810248605,
      "grad_norm": 4.28125,
      "learning_rate": 7.832126245676518e-06,
      "loss": 1.06812801,
      "memory(GiB)": 112.26,
      "step": 27035,
      "train_speed(iter/s)": 1.127626
    },
    {
      "acc": 0.73926091,
      "epoch": 0.6859462201927955,
      "grad_norm": 4.15625,
      "learning_rate": 7.831261998864293e-06,
      "loss": 1.06989031,
      "memory(GiB)": 112.26,
      "step": 27040,
      "train_speed(iter/s)": 1.127661
    },
    {
      "acc": 0.73650174,
      "epoch": 0.6860730593607306,
      "grad_norm": 3.6875,
      "learning_rate": 7.830397627520526e-06,
      "loss": 1.12841721,
      "memory(GiB)": 112.26,
      "step": 27045,
      "train_speed(iter/s)": 1.127696
    },
    {
      "acc": 0.7316144,
      "epoch": 0.6861998985286657,
      "grad_norm": 3.5,
      "learning_rate": 7.82953313168323e-06,
      "loss": 1.0892765,
      "memory(GiB)": 112.26,
      "step": 27050,
      "train_speed(iter/s)": 1.127727
    },
    {
      "acc": 0.73182287,
      "epoch": 0.6863267376966007,
      "grad_norm": 3.859375,
      "learning_rate": 7.828668511390439e-06,
      "loss": 1.05063934,
      "memory(GiB)": 112.26,
      "step": 27055,
      "train_speed(iter/s)": 1.127735
    },
    {
      "acc": 0.72188063,
      "epoch": 0.6864535768645358,
      "grad_norm": 3.671875,
      "learning_rate": 7.827803766680176e-06,
      "loss": 1.13416996,
      "memory(GiB)": 112.26,
      "step": 27060,
      "train_speed(iter/s)": 1.127753
    },
    {
      "acc": 0.72470465,
      "epoch": 0.6865804160324708,
      "grad_norm": 4.1875,
      "learning_rate": 7.826938897590477e-06,
      "loss": 1.13444042,
      "memory(GiB)": 112.26,
      "step": 27065,
      "train_speed(iter/s)": 1.127758
    },
    {
      "acc": 0.73964958,
      "epoch": 0.6867072552004059,
      "grad_norm": 3.359375,
      "learning_rate": 7.826073904159384e-06,
      "loss": 1.02143211,
      "memory(GiB)": 112.26,
      "step": 27070,
      "train_speed(iter/s)": 1.12754
    },
    {
      "acc": 0.73907952,
      "epoch": 0.686834094368341,
      "grad_norm": 3.5625,
      "learning_rate": 7.825208786424944e-06,
      "loss": 1.10731859,
      "memory(GiB)": 112.26,
      "step": 27075,
      "train_speed(iter/s)": 1.127562
    },
    {
      "acc": 0.72563944,
      "epoch": 0.686960933536276,
      "grad_norm": 5.8125,
      "learning_rate": 7.824343544425207e-06,
      "loss": 1.14651413,
      "memory(GiB)": 112.26,
      "step": 27080,
      "train_speed(iter/s)": 1.127609
    },
    {
      "acc": 0.72899303,
      "epoch": 0.6870877727042111,
      "grad_norm": 3.109375,
      "learning_rate": 7.823478178198234e-06,
      "loss": 1.09450502,
      "memory(GiB)": 112.26,
      "step": 27085,
      "train_speed(iter/s)": 1.127636
    },
    {
      "acc": 0.74181137,
      "epoch": 0.6872146118721462,
      "grad_norm": 3.40625,
      "learning_rate": 7.822612687782083e-06,
      "loss": 1.02012873,
      "memory(GiB)": 112.26,
      "step": 27090,
      "train_speed(iter/s)": 1.127675
    },
    {
      "acc": 0.74287834,
      "epoch": 0.6873414510400812,
      "grad_norm": 4.0625,
      "learning_rate": 7.821747073214823e-06,
      "loss": 1.03775311,
      "memory(GiB)": 112.26,
      "step": 27095,
      "train_speed(iter/s)": 1.127701
    },
    {
      "acc": 0.73474002,
      "epoch": 0.6874682902080163,
      "grad_norm": 3.28125,
      "learning_rate": 7.820881334534529e-06,
      "loss": 1.0461647,
      "memory(GiB)": 112.26,
      "step": 27100,
      "train_speed(iter/s)": 1.127728
    },
    {
      "acc": 0.74860935,
      "epoch": 0.6875951293759512,
      "grad_norm": 3.25,
      "learning_rate": 7.820015471779278e-06,
      "loss": 0.99887695,
      "memory(GiB)": 112.26,
      "step": 27105,
      "train_speed(iter/s)": 1.127757
    },
    {
      "acc": 0.74999619,
      "epoch": 0.6877219685438863,
      "grad_norm": 3.9375,
      "learning_rate": 7.819149484987159e-06,
      "loss": 1.04701157,
      "memory(GiB)": 112.26,
      "step": 27110,
      "train_speed(iter/s)": 1.127795
    },
    {
      "acc": 0.74867353,
      "epoch": 0.6878488077118214,
      "grad_norm": 3.390625,
      "learning_rate": 7.818283374196259e-06,
      "loss": 1.0427949,
      "memory(GiB)": 112.26,
      "step": 27115,
      "train_speed(iter/s)": 1.127805
    },
    {
      "acc": 0.7324564,
      "epoch": 0.6879756468797564,
      "grad_norm": 4.21875,
      "learning_rate": 7.817417139444671e-06,
      "loss": 1.14114885,
      "memory(GiB)": 112.26,
      "step": 27120,
      "train_speed(iter/s)": 1.127834
    },
    {
      "acc": 0.71770244,
      "epoch": 0.6881024860476915,
      "grad_norm": 4.65625,
      "learning_rate": 7.8165507807705e-06,
      "loss": 1.19542141,
      "memory(GiB)": 112.26,
      "step": 27125,
      "train_speed(iter/s)": 1.12788
    },
    {
      "acc": 0.72531281,
      "epoch": 0.6882293252156266,
      "grad_norm": 3.640625,
      "learning_rate": 7.81568429821185e-06,
      "loss": 1.13510704,
      "memory(GiB)": 112.26,
      "step": 27130,
      "train_speed(iter/s)": 1.127916
    },
    {
      "acc": 0.73304763,
      "epoch": 0.6883561643835616,
      "grad_norm": 3.796875,
      "learning_rate": 7.814817691806834e-06,
      "loss": 1.1056592,
      "memory(GiB)": 112.26,
      "step": 27135,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.73862438,
      "epoch": 0.6884830035514967,
      "grad_norm": 3.5,
      "learning_rate": 7.813950961593569e-06,
      "loss": 1.06584272,
      "memory(GiB)": 112.26,
      "step": 27140,
      "train_speed(iter/s)": 1.127948
    },
    {
      "acc": 0.72594109,
      "epoch": 0.6886098427194317,
      "grad_norm": 2.921875,
      "learning_rate": 7.813084107610175e-06,
      "loss": 1.0923357,
      "memory(GiB)": 112.26,
      "step": 27145,
      "train_speed(iter/s)": 1.12795
    },
    {
      "acc": 0.74077673,
      "epoch": 0.6887366818873668,
      "grad_norm": 3.234375,
      "learning_rate": 7.812217129894785e-06,
      "loss": 0.98202362,
      "memory(GiB)": 112.26,
      "step": 27150,
      "train_speed(iter/s)": 1.127963
    },
    {
      "acc": 0.74895868,
      "epoch": 0.6888635210553019,
      "grad_norm": 3.25,
      "learning_rate": 7.811350028485531e-06,
      "loss": 1.04657154,
      "memory(GiB)": 112.26,
      "step": 27155,
      "train_speed(iter/s)": 1.127985
    },
    {
      "acc": 0.73619499,
      "epoch": 0.6889903602232369,
      "grad_norm": 3.828125,
      "learning_rate": 7.810482803420549e-06,
      "loss": 1.03706894,
      "memory(GiB)": 112.26,
      "step": 27160,
      "train_speed(iter/s)": 1.128001
    },
    {
      "acc": 0.72794266,
      "epoch": 0.689117199391172,
      "grad_norm": 3.984375,
      "learning_rate": 7.809615454737984e-06,
      "loss": 1.12939739,
      "memory(GiB)": 112.26,
      "step": 27165,
      "train_speed(iter/s)": 1.128022
    },
    {
      "acc": 0.72908411,
      "epoch": 0.6892440385591071,
      "grad_norm": 3.75,
      "learning_rate": 7.808747982475991e-06,
      "loss": 1.11576557,
      "memory(GiB)": 112.26,
      "step": 27170,
      "train_speed(iter/s)": 1.128065
    },
    {
      "acc": 0.73293056,
      "epoch": 0.6893708777270421,
      "grad_norm": 4.65625,
      "learning_rate": 7.807880386672718e-06,
      "loss": 1.0859808,
      "memory(GiB)": 112.26,
      "step": 27175,
      "train_speed(iter/s)": 1.128112
    },
    {
      "acc": 0.71841316,
      "epoch": 0.6894977168949772,
      "grad_norm": 4.25,
      "learning_rate": 7.807012667366332e-06,
      "loss": 1.14253893,
      "memory(GiB)": 112.26,
      "step": 27180,
      "train_speed(iter/s)": 1.128128
    },
    {
      "acc": 0.73279848,
      "epoch": 0.6896245560629122,
      "grad_norm": 4.625,
      "learning_rate": 7.806144824594994e-06,
      "loss": 1.12347937,
      "memory(GiB)": 112.26,
      "step": 27185,
      "train_speed(iter/s)": 1.128154
    },
    {
      "acc": 0.7356554,
      "epoch": 0.6897513952308473,
      "grad_norm": 3.65625,
      "learning_rate": 7.805276858396879e-06,
      "loss": 1.09733629,
      "memory(GiB)": 112.26,
      "step": 27190,
      "train_speed(iter/s)": 1.128191
    },
    {
      "acc": 0.74104228,
      "epoch": 0.6898782343987824,
      "grad_norm": 3.453125,
      "learning_rate": 7.804408768810164e-06,
      "loss": 1.07105942,
      "memory(GiB)": 112.26,
      "step": 27195,
      "train_speed(iter/s)": 1.128224
    },
    {
      "acc": 0.72869072,
      "epoch": 0.6900050735667174,
      "grad_norm": 3.828125,
      "learning_rate": 7.80354055587303e-06,
      "loss": 1.14772596,
      "memory(GiB)": 112.26,
      "step": 27200,
      "train_speed(iter/s)": 1.128223
    },
    {
      "acc": 0.73016076,
      "epoch": 0.6901319127346525,
      "grad_norm": 3.671875,
      "learning_rate": 7.802672219623665e-06,
      "loss": 1.07020721,
      "memory(GiB)": 112.26,
      "step": 27205,
      "train_speed(iter/s)": 1.128237
    },
    {
      "acc": 0.74581699,
      "epoch": 0.6902587519025876,
      "grad_norm": 4.09375,
      "learning_rate": 7.801803760100264e-06,
      "loss": 1.07447681,
      "memory(GiB)": 112.26,
      "step": 27210,
      "train_speed(iter/s)": 1.128274
    },
    {
      "acc": 0.73356843,
      "epoch": 0.6903855910705226,
      "grad_norm": 4.625,
      "learning_rate": 7.800935177341022e-06,
      "loss": 1.05234184,
      "memory(GiB)": 112.26,
      "step": 27215,
      "train_speed(iter/s)": 1.128309
    },
    {
      "acc": 0.74222245,
      "epoch": 0.6905124302384577,
      "grad_norm": 3.359375,
      "learning_rate": 7.800066471384149e-06,
      "loss": 1.08845863,
      "memory(GiB)": 112.26,
      "step": 27220,
      "train_speed(iter/s)": 1.128333
    },
    {
      "acc": 0.74415207,
      "epoch": 0.6906392694063926,
      "grad_norm": 4.125,
      "learning_rate": 7.799197642267848e-06,
      "loss": 1.08733959,
      "memory(GiB)": 112.26,
      "step": 27225,
      "train_speed(iter/s)": 1.128372
    },
    {
      "acc": 0.72770109,
      "epoch": 0.6907661085743277,
      "grad_norm": 3.203125,
      "learning_rate": 7.79832869003034e-06,
      "loss": 1.08280544,
      "memory(GiB)": 112.26,
      "step": 27230,
      "train_speed(iter/s)": 1.128405
    },
    {
      "acc": 0.73909254,
      "epoch": 0.6908929477422628,
      "grad_norm": 3.953125,
      "learning_rate": 7.797459614709842e-06,
      "loss": 1.07603874,
      "memory(GiB)": 112.26,
      "step": 27235,
      "train_speed(iter/s)": 1.128443
    },
    {
      "acc": 0.73444734,
      "epoch": 0.6910197869101978,
      "grad_norm": 4.0,
      "learning_rate": 7.796590416344578e-06,
      "loss": 1.09229927,
      "memory(GiB)": 112.26,
      "step": 27240,
      "train_speed(iter/s)": 1.128472
    },
    {
      "acc": 0.72758293,
      "epoch": 0.6911466260781329,
      "grad_norm": 4.125,
      "learning_rate": 7.795721094972783e-06,
      "loss": 1.16266785,
      "memory(GiB)": 112.26,
      "step": 27245,
      "train_speed(iter/s)": 1.128492
    },
    {
      "acc": 0.72575769,
      "epoch": 0.691273465246068,
      "grad_norm": 4.21875,
      "learning_rate": 7.794851650632693e-06,
      "loss": 1.14651432,
      "memory(GiB)": 112.26,
      "step": 27250,
      "train_speed(iter/s)": 1.128539
    },
    {
      "acc": 0.73914971,
      "epoch": 0.691400304414003,
      "grad_norm": 3.1875,
      "learning_rate": 7.793982083362548e-06,
      "loss": 1.00183086,
      "memory(GiB)": 112.26,
      "step": 27255,
      "train_speed(iter/s)": 1.128574
    },
    {
      "acc": 0.74479017,
      "epoch": 0.6915271435819381,
      "grad_norm": 4.125,
      "learning_rate": 7.7931123932006e-06,
      "loss": 1.05077047,
      "memory(GiB)": 112.26,
      "step": 27260,
      "train_speed(iter/s)": 1.128603
    },
    {
      "acc": 0.72907228,
      "epoch": 0.6916539827498731,
      "grad_norm": 3.453125,
      "learning_rate": 7.792242580185095e-06,
      "loss": 1.07195463,
      "memory(GiB)": 112.26,
      "step": 27265,
      "train_speed(iter/s)": 1.128639
    },
    {
      "acc": 0.73935366,
      "epoch": 0.6917808219178082,
      "grad_norm": 4.75,
      "learning_rate": 7.791372644354295e-06,
      "loss": 1.03716755,
      "memory(GiB)": 112.26,
      "step": 27270,
      "train_speed(iter/s)": 1.128678
    },
    {
      "acc": 0.73397355,
      "epoch": 0.6919076610857433,
      "grad_norm": 3.953125,
      "learning_rate": 7.790502585746464e-06,
      "loss": 1.09351473,
      "memory(GiB)": 112.26,
      "step": 27275,
      "train_speed(iter/s)": 1.128716
    },
    {
      "acc": 0.7525095,
      "epoch": 0.6920345002536783,
      "grad_norm": 3.796875,
      "learning_rate": 7.789632404399872e-06,
      "loss": 1.0197525,
      "memory(GiB)": 112.26,
      "step": 27280,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.73549566,
      "epoch": 0.6921613394216134,
      "grad_norm": 4.84375,
      "learning_rate": 7.788762100352791e-06,
      "loss": 1.09566631,
      "memory(GiB)": 112.26,
      "step": 27285,
      "train_speed(iter/s)": 1.128776
    },
    {
      "acc": 0.74624405,
      "epoch": 0.6922881785895485,
      "grad_norm": 3.921875,
      "learning_rate": 7.787891673643501e-06,
      "loss": 1.08818626,
      "memory(GiB)": 112.26,
      "step": 27290,
      "train_speed(iter/s)": 1.128804
    },
    {
      "acc": 0.73291225,
      "epoch": 0.6924150177574835,
      "grad_norm": 4.21875,
      "learning_rate": 7.78702112431029e-06,
      "loss": 1.09568062,
      "memory(GiB)": 112.26,
      "step": 27295,
      "train_speed(iter/s)": 1.128814
    },
    {
      "acc": 0.74101491,
      "epoch": 0.6925418569254186,
      "grad_norm": 3.390625,
      "learning_rate": 7.786150452391446e-06,
      "loss": 1.06609697,
      "memory(GiB)": 112.26,
      "step": 27300,
      "train_speed(iter/s)": 1.128828
    },
    {
      "acc": 0.74596443,
      "epoch": 0.6926686960933536,
      "grad_norm": 3.734375,
      "learning_rate": 7.785279657925265e-06,
      "loss": 1.03657417,
      "memory(GiB)": 112.26,
      "step": 27305,
      "train_speed(iter/s)": 1.128873
    },
    {
      "acc": 0.73248882,
      "epoch": 0.6927955352612887,
      "grad_norm": 3.640625,
      "learning_rate": 7.784408740950051e-06,
      "loss": 1.09336119,
      "memory(GiB)": 112.26,
      "step": 27310,
      "train_speed(iter/s)": 1.128886
    },
    {
      "acc": 0.74655628,
      "epoch": 0.6929223744292238,
      "grad_norm": 3.65625,
      "learning_rate": 7.783537701504109e-06,
      "loss": 1.08149204,
      "memory(GiB)": 112.26,
      "step": 27315,
      "train_speed(iter/s)": 1.128921
    },
    {
      "acc": 0.73690581,
      "epoch": 0.6930492135971588,
      "grad_norm": 3.609375,
      "learning_rate": 7.782666539625749e-06,
      "loss": 1.13077068,
      "memory(GiB)": 112.26,
      "step": 27320,
      "train_speed(iter/s)": 1.128965
    },
    {
      "acc": 0.74121981,
      "epoch": 0.6931760527650939,
      "grad_norm": 4.25,
      "learning_rate": 7.781795255353293e-06,
      "loss": 1.03357601,
      "memory(GiB)": 112.26,
      "step": 27325,
      "train_speed(iter/s)": 1.129001
    },
    {
      "acc": 0.74162521,
      "epoch": 0.693302891933029,
      "grad_norm": 3.828125,
      "learning_rate": 7.780923848725061e-06,
      "loss": 1.04313183,
      "memory(GiB)": 112.26,
      "step": 27330,
      "train_speed(iter/s)": 1.129039
    },
    {
      "acc": 0.71933212,
      "epoch": 0.693429731100964,
      "grad_norm": 3.484375,
      "learning_rate": 7.780052319779382e-06,
      "loss": 1.09669676,
      "memory(GiB)": 112.26,
      "step": 27335,
      "train_speed(iter/s)": 1.129072
    },
    {
      "acc": 0.72604885,
      "epoch": 0.693556570268899,
      "grad_norm": 3.578125,
      "learning_rate": 7.779180668554591e-06,
      "loss": 1.1427618,
      "memory(GiB)": 112.26,
      "step": 27340,
      "train_speed(iter/s)": 1.129093
    },
    {
      "acc": 0.74374232,
      "epoch": 0.693683409436834,
      "grad_norm": 3.734375,
      "learning_rate": 7.778308895089024e-06,
      "loss": 1.06124296,
      "memory(GiB)": 112.26,
      "step": 27345,
      "train_speed(iter/s)": 1.129123
    },
    {
      "acc": 0.74425163,
      "epoch": 0.6938102486047691,
      "grad_norm": 3.5625,
      "learning_rate": 7.77743699942103e-06,
      "loss": 1.03502064,
      "memory(GiB)": 112.26,
      "step": 27350,
      "train_speed(iter/s)": 1.129166
    },
    {
      "acc": 0.73954954,
      "epoch": 0.6939370877727042,
      "grad_norm": 4.0625,
      "learning_rate": 7.776564981588955e-06,
      "loss": 1.06895323,
      "memory(GiB)": 112.26,
      "step": 27355,
      "train_speed(iter/s)": 1.129191
    },
    {
      "acc": 0.73337679,
      "epoch": 0.6940639269406392,
      "grad_norm": 4.25,
      "learning_rate": 7.775692841631154e-06,
      "loss": 1.15720406,
      "memory(GiB)": 112.26,
      "step": 27360,
      "train_speed(iter/s)": 1.129234
    },
    {
      "acc": 0.73106399,
      "epoch": 0.6941907661085743,
      "grad_norm": 2.765625,
      "learning_rate": 7.774820579585993e-06,
      "loss": 1.10787773,
      "memory(GiB)": 112.26,
      "step": 27365,
      "train_speed(iter/s)": 1.129273
    },
    {
      "acc": 0.75104771,
      "epoch": 0.6943176052765094,
      "grad_norm": 4.15625,
      "learning_rate": 7.773948195491831e-06,
      "loss": 1.07223387,
      "memory(GiB)": 112.26,
      "step": 27370,
      "train_speed(iter/s)": 1.129305
    },
    {
      "acc": 0.7279345,
      "epoch": 0.6944444444444444,
      "grad_norm": 3.828125,
      "learning_rate": 7.773075689387044e-06,
      "loss": 1.12651176,
      "memory(GiB)": 112.26,
      "step": 27375,
      "train_speed(iter/s)": 1.129342
    },
    {
      "acc": 0.74602952,
      "epoch": 0.6945712836123795,
      "grad_norm": 5.03125,
      "learning_rate": 7.772203061310008e-06,
      "loss": 1.05035706,
      "memory(GiB)": 112.26,
      "step": 27380,
      "train_speed(iter/s)": 1.129366
    },
    {
      "acc": 0.72865434,
      "epoch": 0.6946981227803145,
      "grad_norm": 3.890625,
      "learning_rate": 7.771330311299104e-06,
      "loss": 1.16376638,
      "memory(GiB)": 112.26,
      "step": 27385,
      "train_speed(iter/s)": 1.129397
    },
    {
      "acc": 0.72811437,
      "epoch": 0.6948249619482496,
      "grad_norm": 3.171875,
      "learning_rate": 7.770457439392719e-06,
      "loss": 1.08642673,
      "memory(GiB)": 112.26,
      "step": 27390,
      "train_speed(iter/s)": 1.129429
    },
    {
      "acc": 0.71540833,
      "epoch": 0.6949518011161847,
      "grad_norm": 3.03125,
      "learning_rate": 7.769584445629247e-06,
      "loss": 1.15166864,
      "memory(GiB)": 112.26,
      "step": 27395,
      "train_speed(iter/s)": 1.129462
    },
    {
      "acc": 0.73132124,
      "epoch": 0.6950786402841197,
      "grad_norm": 4.6875,
      "learning_rate": 7.768711330047087e-06,
      "loss": 1.06373978,
      "memory(GiB)": 112.26,
      "step": 27400,
      "train_speed(iter/s)": 1.129498
    },
    {
      "acc": 0.73264155,
      "epoch": 0.6952054794520548,
      "grad_norm": 3.75,
      "learning_rate": 7.767838092684638e-06,
      "loss": 1.13683586,
      "memory(GiB)": 112.26,
      "step": 27405,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.74623814,
      "epoch": 0.6953323186199899,
      "grad_norm": 2.734375,
      "learning_rate": 7.766964733580316e-06,
      "loss": 1.03403721,
      "memory(GiB)": 112.26,
      "step": 27410,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.73559709,
      "epoch": 0.6954591577879249,
      "grad_norm": 3.203125,
      "learning_rate": 7.76609125277253e-06,
      "loss": 1.09388151,
      "memory(GiB)": 112.26,
      "step": 27415,
      "train_speed(iter/s)": 1.129531
    },
    {
      "acc": 0.74006553,
      "epoch": 0.69558599695586,
      "grad_norm": 5.09375,
      "learning_rate": 7.7652176502997e-06,
      "loss": 1.0519412,
      "memory(GiB)": 112.26,
      "step": 27420,
      "train_speed(iter/s)": 1.129552
    },
    {
      "acc": 0.73281536,
      "epoch": 0.695712836123795,
      "grad_norm": 3.453125,
      "learning_rate": 7.764343926200254e-06,
      "loss": 1.0468153,
      "memory(GiB)": 112.26,
      "step": 27425,
      "train_speed(iter/s)": 1.129589
    },
    {
      "acc": 0.73359146,
      "epoch": 0.6958396752917301,
      "grad_norm": 3.671875,
      "learning_rate": 7.763470080512617e-06,
      "loss": 1.11313267,
      "memory(GiB)": 112.26,
      "step": 27430,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.73587384,
      "epoch": 0.6959665144596652,
      "grad_norm": 4.40625,
      "learning_rate": 7.762596113275229e-06,
      "loss": 1.06974907,
      "memory(GiB)": 112.26,
      "step": 27435,
      "train_speed(iter/s)": 1.129664
    },
    {
      "acc": 0.73250418,
      "epoch": 0.6960933536276002,
      "grad_norm": 4.8125,
      "learning_rate": 7.761722024526533e-06,
      "loss": 1.13242016,
      "memory(GiB)": 112.26,
      "step": 27440,
      "train_speed(iter/s)": 1.129487
    },
    {
      "acc": 0.74058685,
      "epoch": 0.6962201927955353,
      "grad_norm": 3.359375,
      "learning_rate": 7.760847814304969e-06,
      "loss": 1.0921936,
      "memory(GiB)": 112.26,
      "step": 27445,
      "train_speed(iter/s)": 1.129514
    },
    {
      "acc": 0.72933784,
      "epoch": 0.6963470319634704,
      "grad_norm": 4.59375,
      "learning_rate": 7.759973482648992e-06,
      "loss": 1.09352131,
      "memory(GiB)": 112.26,
      "step": 27450,
      "train_speed(iter/s)": 1.129543
    },
    {
      "acc": 0.7289403,
      "epoch": 0.6964738711314054,
      "grad_norm": 2.984375,
      "learning_rate": 7.75909902959706e-06,
      "loss": 1.13886662,
      "memory(GiB)": 112.26,
      "step": 27455,
      "train_speed(iter/s)": 1.129592
    },
    {
      "acc": 0.72513084,
      "epoch": 0.6966007102993405,
      "grad_norm": 3.421875,
      "learning_rate": 7.758224455187632e-06,
      "loss": 1.11565018,
      "memory(GiB)": 112.26,
      "step": 27460,
      "train_speed(iter/s)": 1.129612
    },
    {
      "acc": 0.72700953,
      "epoch": 0.6967275494672754,
      "grad_norm": 4.0625,
      "learning_rate": 7.75734975945918e-06,
      "loss": 1.15341015,
      "memory(GiB)": 112.26,
      "step": 27465,
      "train_speed(iter/s)": 1.129591
    },
    {
      "acc": 0.73229761,
      "epoch": 0.6968543886352105,
      "grad_norm": 4.78125,
      "learning_rate": 7.756474942450174e-06,
      "loss": 1.1182724,
      "memory(GiB)": 112.26,
      "step": 27470,
      "train_speed(iter/s)": 1.129626
    },
    {
      "acc": 0.7498033,
      "epoch": 0.6969812278031456,
      "grad_norm": 4.3125,
      "learning_rate": 7.755600004199094e-06,
      "loss": 1.03093452,
      "memory(GiB)": 112.26,
      "step": 27475,
      "train_speed(iter/s)": 1.129646
    },
    {
      "acc": 0.7378356,
      "epoch": 0.6971080669710806,
      "grad_norm": 3.78125,
      "learning_rate": 7.754724944744423e-06,
      "loss": 1.06547947,
      "memory(GiB)": 112.26,
      "step": 27480,
      "train_speed(iter/s)": 1.129661
    },
    {
      "acc": 0.74347954,
      "epoch": 0.6972349061390157,
      "grad_norm": 4.09375,
      "learning_rate": 7.753849764124648e-06,
      "loss": 1.10535851,
      "memory(GiB)": 112.26,
      "step": 27485,
      "train_speed(iter/s)": 1.129695
    },
    {
      "acc": 0.73011899,
      "epoch": 0.6973617453069508,
      "grad_norm": 3.921875,
      "learning_rate": 7.752974462378268e-06,
      "loss": 1.0886343,
      "memory(GiB)": 112.26,
      "step": 27490,
      "train_speed(iter/s)": 1.129722
    },
    {
      "acc": 0.7334733,
      "epoch": 0.6974885844748858,
      "grad_norm": 3.40625,
      "learning_rate": 7.752099039543778e-06,
      "loss": 1.10529718,
      "memory(GiB)": 112.26,
      "step": 27495,
      "train_speed(iter/s)": 1.129753
    },
    {
      "acc": 0.73768682,
      "epoch": 0.6976154236428209,
      "grad_norm": 4.0,
      "learning_rate": 7.751223495659685e-06,
      "loss": 1.05998478,
      "memory(GiB)": 112.26,
      "step": 27500,
      "train_speed(iter/s)": 1.129807
    },
    {
      "acc": 0.7332149,
      "epoch": 0.6977422628107559,
      "grad_norm": 3.53125,
      "learning_rate": 7.7503478307645e-06,
      "loss": 1.07227831,
      "memory(GiB)": 112.26,
      "step": 27505,
      "train_speed(iter/s)": 1.12984
    },
    {
      "acc": 0.74100423,
      "epoch": 0.697869101978691,
      "grad_norm": 3.40625,
      "learning_rate": 7.74947204489674e-06,
      "loss": 1.04555569,
      "memory(GiB)": 112.26,
      "step": 27510,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.72657962,
      "epoch": 0.6979959411466261,
      "grad_norm": 4.34375,
      "learning_rate": 7.748596138094922e-06,
      "loss": 1.16684608,
      "memory(GiB)": 112.26,
      "step": 27515,
      "train_speed(iter/s)": 1.129896
    },
    {
      "acc": 0.70911551,
      "epoch": 0.6981227803145611,
      "grad_norm": 4.0,
      "learning_rate": 7.747720110397573e-06,
      "loss": 1.16770086,
      "memory(GiB)": 112.26,
      "step": 27520,
      "train_speed(iter/s)": 1.129914
    },
    {
      "acc": 0.73035645,
      "epoch": 0.6982496194824962,
      "grad_norm": 3.484375,
      "learning_rate": 7.746843961843226e-06,
      "loss": 1.11053305,
      "memory(GiB)": 112.26,
      "step": 27525,
      "train_speed(iter/s)": 1.129945
    },
    {
      "acc": 0.75159187,
      "epoch": 0.6983764586504313,
      "grad_norm": 4.4375,
      "learning_rate": 7.74596769247042e-06,
      "loss": 1.04171705,
      "memory(GiB)": 112.26,
      "step": 27530,
      "train_speed(iter/s)": 1.129974
    },
    {
      "acc": 0.73032503,
      "epoch": 0.6985032978183663,
      "grad_norm": 3.953125,
      "learning_rate": 7.745091302317694e-06,
      "loss": 1.0832674,
      "memory(GiB)": 112.26,
      "step": 27535,
      "train_speed(iter/s)": 1.130014
    },
    {
      "acc": 0.74994173,
      "epoch": 0.6986301369863014,
      "grad_norm": 3.890625,
      "learning_rate": 7.744214791423597e-06,
      "loss": 1.07870245,
      "memory(GiB)": 112.26,
      "step": 27540,
      "train_speed(iter/s)": 1.130057
    },
    {
      "acc": 0.70940242,
      "epoch": 0.6987569761542364,
      "grad_norm": 3.734375,
      "learning_rate": 7.74333815982668e-06,
      "loss": 1.13711033,
      "memory(GiB)": 112.26,
      "step": 27545,
      "train_speed(iter/s)": 1.130091
    },
    {
      "acc": 0.73194857,
      "epoch": 0.6988838153221715,
      "grad_norm": 3.421875,
      "learning_rate": 7.742461407565504e-06,
      "loss": 1.06099291,
      "memory(GiB)": 112.26,
      "step": 27550,
      "train_speed(iter/s)": 1.13013
    },
    {
      "acc": 0.73954887,
      "epoch": 0.6990106544901066,
      "grad_norm": 3.140625,
      "learning_rate": 7.741584534678632e-06,
      "loss": 1.11165085,
      "memory(GiB)": 112.26,
      "step": 27555,
      "train_speed(iter/s)": 1.130165
    },
    {
      "acc": 0.74638934,
      "epoch": 0.6991374936580416,
      "grad_norm": 3.40625,
      "learning_rate": 7.74070754120463e-06,
      "loss": 1.07710876,
      "memory(GiB)": 112.26,
      "step": 27560,
      "train_speed(iter/s)": 1.130199
    },
    {
      "acc": 0.73465805,
      "epoch": 0.6992643328259767,
      "grad_norm": 3.984375,
      "learning_rate": 7.739830427182073e-06,
      "loss": 1.11774511,
      "memory(GiB)": 112.26,
      "step": 27565,
      "train_speed(iter/s)": 1.130229
    },
    {
      "acc": 0.73783979,
      "epoch": 0.6993911719939118,
      "grad_norm": 4.1875,
      "learning_rate": 7.738953192649544e-06,
      "loss": 1.099753,
      "memory(GiB)": 112.26,
      "step": 27570,
      "train_speed(iter/s)": 1.130259
    },
    {
      "acc": 0.72331042,
      "epoch": 0.6995180111618468,
      "grad_norm": 3.375,
      "learning_rate": 7.738075837645625e-06,
      "loss": 1.10768032,
      "memory(GiB)": 112.26,
      "step": 27575,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.73911042,
      "epoch": 0.6996448503297819,
      "grad_norm": 3.8125,
      "learning_rate": 7.737198362208904e-06,
      "loss": 1.05725937,
      "memory(GiB)": 112.26,
      "step": 27580,
      "train_speed(iter/s)": 1.130318
    },
    {
      "acc": 0.73579397,
      "epoch": 0.6997716894977168,
      "grad_norm": 4.6875,
      "learning_rate": 7.736320766377978e-06,
      "loss": 1.14123859,
      "memory(GiB)": 112.26,
      "step": 27585,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.72275434,
      "epoch": 0.6998985286656519,
      "grad_norm": 3.71875,
      "learning_rate": 7.735443050191452e-06,
      "loss": 1.06907406,
      "memory(GiB)": 112.26,
      "step": 27590,
      "train_speed(iter/s)": 1.13035
    },
    {
      "acc": 0.737146,
      "epoch": 0.700025367833587,
      "grad_norm": 3.609375,
      "learning_rate": 7.734565213687923e-06,
      "loss": 1.05917587,
      "memory(GiB)": 112.26,
      "step": 27595,
      "train_speed(iter/s)": 1.13038
    },
    {
      "acc": 0.73450546,
      "epoch": 0.700152207001522,
      "grad_norm": 3.265625,
      "learning_rate": 7.733687256906009e-06,
      "loss": 1.09478168,
      "memory(GiB)": 112.26,
      "step": 27600,
      "train_speed(iter/s)": 1.130418
    },
    {
      "acc": 0.73926797,
      "epoch": 0.7002790461694571,
      "grad_norm": 3.25,
      "learning_rate": 7.732809179884324e-06,
      "loss": 1.08292694,
      "memory(GiB)": 112.26,
      "step": 27605,
      "train_speed(iter/s)": 1.130429
    },
    {
      "acc": 0.74407539,
      "epoch": 0.7004058853373922,
      "grad_norm": 3.734375,
      "learning_rate": 7.73193098266149e-06,
      "loss": 1.05823383,
      "memory(GiB)": 112.26,
      "step": 27610,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.72746873,
      "epoch": 0.7005327245053272,
      "grad_norm": 4.5,
      "learning_rate": 7.731052665276135e-06,
      "loss": 1.12921133,
      "memory(GiB)": 112.26,
      "step": 27615,
      "train_speed(iter/s)": 1.130486
    },
    {
      "acc": 0.74797049,
      "epoch": 0.7006595636732623,
      "grad_norm": 4.09375,
      "learning_rate": 7.730174227766892e-06,
      "loss": 1.03923931,
      "memory(GiB)": 112.26,
      "step": 27620,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.74142365,
      "epoch": 0.7007864028411973,
      "grad_norm": 4.28125,
      "learning_rate": 7.729295670172394e-06,
      "loss": 1.08929176,
      "memory(GiB)": 112.26,
      "step": 27625,
      "train_speed(iter/s)": 1.130525
    },
    {
      "acc": 0.73628793,
      "epoch": 0.7009132420091324,
      "grad_norm": 4.15625,
      "learning_rate": 7.728416992531287e-06,
      "loss": 1.09268131,
      "memory(GiB)": 112.26,
      "step": 27630,
      "train_speed(iter/s)": 1.130565
    },
    {
      "acc": 0.74437852,
      "epoch": 0.7010400811770675,
      "grad_norm": 4.21875,
      "learning_rate": 7.72753819488222e-06,
      "loss": 1.11119051,
      "memory(GiB)": 112.26,
      "step": 27635,
      "train_speed(iter/s)": 1.130603
    },
    {
      "acc": 0.73480306,
      "epoch": 0.7011669203450025,
      "grad_norm": 3.578125,
      "learning_rate": 7.726659277263848e-06,
      "loss": 1.05755196,
      "memory(GiB)": 112.26,
      "step": 27640,
      "train_speed(iter/s)": 1.130628
    },
    {
      "acc": 0.73362808,
      "epoch": 0.7012937595129376,
      "grad_norm": 6.28125,
      "learning_rate": 7.725780239714824e-06,
      "loss": 1.12166233,
      "memory(GiB)": 112.26,
      "step": 27645,
      "train_speed(iter/s)": 1.130645
    },
    {
      "acc": 0.73684778,
      "epoch": 0.7014205986808727,
      "grad_norm": 4.0625,
      "learning_rate": 7.724901082273817e-06,
      "loss": 1.05045624,
      "memory(GiB)": 112.26,
      "step": 27650,
      "train_speed(iter/s)": 1.130681
    },
    {
      "acc": 0.7369967,
      "epoch": 0.7015474378488077,
      "grad_norm": 4.125,
      "learning_rate": 7.724021804979493e-06,
      "loss": 1.05377846,
      "memory(GiB)": 112.26,
      "step": 27655,
      "train_speed(iter/s)": 1.130701
    },
    {
      "acc": 0.73914442,
      "epoch": 0.7016742770167428,
      "grad_norm": 3.90625,
      "learning_rate": 7.723142407870532e-06,
      "loss": 1.08777666,
      "memory(GiB)": 112.26,
      "step": 27660,
      "train_speed(iter/s)": 1.130717
    },
    {
      "acc": 0.74973011,
      "epoch": 0.7018011161846778,
      "grad_norm": 3.75,
      "learning_rate": 7.722262890985605e-06,
      "loss": 1.09448061,
      "memory(GiB)": 112.26,
      "step": 27665,
      "train_speed(iter/s)": 1.130756
    },
    {
      "acc": 0.73228865,
      "epoch": 0.7019279553526129,
      "grad_norm": 3.796875,
      "learning_rate": 7.721383254363407e-06,
      "loss": 1.10621357,
      "memory(GiB)": 112.26,
      "step": 27670,
      "train_speed(iter/s)": 1.130784
    },
    {
      "acc": 0.75352573,
      "epoch": 0.702054794520548,
      "grad_norm": 4.1875,
      "learning_rate": 7.72050349804262e-06,
      "loss": 1.01250372,
      "memory(GiB)": 112.26,
      "step": 27675,
      "train_speed(iter/s)": 1.130803
    },
    {
      "acc": 0.74585266,
      "epoch": 0.702181633688483,
      "grad_norm": 3.296875,
      "learning_rate": 7.719623622061943e-06,
      "loss": 1.03608837,
      "memory(GiB)": 112.26,
      "step": 27680,
      "train_speed(iter/s)": 1.130826
    },
    {
      "acc": 0.72989435,
      "epoch": 0.7023084728564181,
      "grad_norm": 3.890625,
      "learning_rate": 7.718743626460076e-06,
      "loss": 1.09272118,
      "memory(GiB)": 112.26,
      "step": 27685,
      "train_speed(iter/s)": 1.130858
    },
    {
      "acc": 0.74840946,
      "epoch": 0.7024353120243532,
      "grad_norm": 3.328125,
      "learning_rate": 7.71786351127573e-06,
      "loss": 1.01790485,
      "memory(GiB)": 112.26,
      "step": 27690,
      "train_speed(iter/s)": 1.130873
    },
    {
      "acc": 0.73666534,
      "epoch": 0.7025621511922882,
      "grad_norm": 3.53125,
      "learning_rate": 7.71698327654761e-06,
      "loss": 1.04296026,
      "memory(GiB)": 112.26,
      "step": 27695,
      "train_speed(iter/s)": 1.130895
    },
    {
      "acc": 0.72944169,
      "epoch": 0.7026889903602233,
      "grad_norm": 3.90625,
      "learning_rate": 7.716102922314435e-06,
      "loss": 1.08813372,
      "memory(GiB)": 112.26,
      "step": 27700,
      "train_speed(iter/s)": 1.130913
    },
    {
      "acc": 0.71917486,
      "epoch": 0.7028158295281582,
      "grad_norm": 3.578125,
      "learning_rate": 7.715222448614926e-06,
      "loss": 1.16203594,
      "memory(GiB)": 112.26,
      "step": 27705,
      "train_speed(iter/s)": 1.130943
    },
    {
      "acc": 0.73437624,
      "epoch": 0.7029426686960933,
      "grad_norm": 4.625,
      "learning_rate": 7.714341855487812e-06,
      "loss": 1.09760857,
      "memory(GiB)": 112.26,
      "step": 27710,
      "train_speed(iter/s)": 1.13097
    },
    {
      "acc": 0.72928138,
      "epoch": 0.7030695078640284,
      "grad_norm": 3.21875,
      "learning_rate": 7.713461142971824e-06,
      "loss": 1.07729626,
      "memory(GiB)": 112.26,
      "step": 27715,
      "train_speed(iter/s)": 1.131006
    },
    {
      "acc": 0.73757057,
      "epoch": 0.7031963470319634,
      "grad_norm": 3.828125,
      "learning_rate": 7.712580311105701e-06,
      "loss": 1.09065208,
      "memory(GiB)": 112.26,
      "step": 27720,
      "train_speed(iter/s)": 1.131028
    },
    {
      "acc": 0.72735958,
      "epoch": 0.7033231861998985,
      "grad_norm": 3.53125,
      "learning_rate": 7.711699359928184e-06,
      "loss": 1.06284781,
      "memory(GiB)": 112.26,
      "step": 27725,
      "train_speed(iter/s)": 1.131054
    },
    {
      "acc": 0.7462513,
      "epoch": 0.7034500253678336,
      "grad_norm": 4.34375,
      "learning_rate": 7.710818289478024e-06,
      "loss": 1.05020084,
      "memory(GiB)": 112.26,
      "step": 27730,
      "train_speed(iter/s)": 1.131098
    },
    {
      "acc": 0.74750628,
      "epoch": 0.7035768645357686,
      "grad_norm": 3.765625,
      "learning_rate": 7.709937099793971e-06,
      "loss": 1.06999607,
      "memory(GiB)": 112.26,
      "step": 27735,
      "train_speed(iter/s)": 1.131136
    },
    {
      "acc": 0.728901,
      "epoch": 0.7037037037037037,
      "grad_norm": 4.15625,
      "learning_rate": 7.709055790914787e-06,
      "loss": 1.11770935,
      "memory(GiB)": 112.26,
      "step": 27740,
      "train_speed(iter/s)": 1.131175
    },
    {
      "acc": 0.73433595,
      "epoch": 0.7038305428716387,
      "grad_norm": 3.8125,
      "learning_rate": 7.708174362879234e-06,
      "loss": 1.06525688,
      "memory(GiB)": 112.26,
      "step": 27745,
      "train_speed(iter/s)": 1.13118
    },
    {
      "acc": 0.72054873,
      "epoch": 0.7039573820395738,
      "grad_norm": 3.515625,
      "learning_rate": 7.70729281572608e-06,
      "loss": 1.14862175,
      "memory(GiB)": 112.26,
      "step": 27750,
      "train_speed(iter/s)": 1.131216
    },
    {
      "acc": 0.71709833,
      "epoch": 0.7040842212075089,
      "grad_norm": 3.484375,
      "learning_rate": 7.706411149494102e-06,
      "loss": 1.13587112,
      "memory(GiB)": 112.26,
      "step": 27755,
      "train_speed(iter/s)": 1.13125
    },
    {
      "acc": 0.73775744,
      "epoch": 0.7042110603754439,
      "grad_norm": 4.03125,
      "learning_rate": 7.705529364222079e-06,
      "loss": 1.10320749,
      "memory(GiB)": 112.26,
      "step": 27760,
      "train_speed(iter/s)": 1.131279
    },
    {
      "acc": 0.72987723,
      "epoch": 0.704337899543379,
      "grad_norm": 4.34375,
      "learning_rate": 7.704647459948793e-06,
      "loss": 1.07394199,
      "memory(GiB)": 112.26,
      "step": 27765,
      "train_speed(iter/s)": 1.131324
    },
    {
      "acc": 0.74150233,
      "epoch": 0.7044647387113141,
      "grad_norm": 3.546875,
      "learning_rate": 7.703765436713038e-06,
      "loss": 1.07201004,
      "memory(GiB)": 112.26,
      "step": 27770,
      "train_speed(iter/s)": 1.131367
    },
    {
      "acc": 0.75043626,
      "epoch": 0.7045915778792491,
      "grad_norm": 4.0625,
      "learning_rate": 7.702883294553607e-06,
      "loss": 1.01595917,
      "memory(GiB)": 112.26,
      "step": 27775,
      "train_speed(iter/s)": 1.131382
    },
    {
      "acc": 0.74205141,
      "epoch": 0.7047184170471842,
      "grad_norm": 3.484375,
      "learning_rate": 7.702001033509302e-06,
      "loss": 1.03090172,
      "memory(GiB)": 112.26,
      "step": 27780,
      "train_speed(iter/s)": 1.13141
    },
    {
      "acc": 0.72642889,
      "epoch": 0.7048452562151192,
      "grad_norm": 3.359375,
      "learning_rate": 7.701118653618927e-06,
      "loss": 1.09988632,
      "memory(GiB)": 112.26,
      "step": 27785,
      "train_speed(iter/s)": 1.131447
    },
    {
      "acc": 0.72554207,
      "epoch": 0.7049720953830543,
      "grad_norm": 3.796875,
      "learning_rate": 7.700236154921294e-06,
      "loss": 1.09167891,
      "memory(GiB)": 112.26,
      "step": 27790,
      "train_speed(iter/s)": 1.131485
    },
    {
      "acc": 0.7242281,
      "epoch": 0.7050989345509894,
      "grad_norm": 3.265625,
      "learning_rate": 7.699353537455222e-06,
      "loss": 1.09461699,
      "memory(GiB)": 112.26,
      "step": 27795,
      "train_speed(iter/s)": 1.131511
    },
    {
      "acc": 0.72862425,
      "epoch": 0.7052257737189244,
      "grad_norm": 3.453125,
      "learning_rate": 7.698470801259526e-06,
      "loss": 1.09954758,
      "memory(GiB)": 112.26,
      "step": 27800,
      "train_speed(iter/s)": 1.131538
    },
    {
      "acc": 0.73778553,
      "epoch": 0.7053526128868595,
      "grad_norm": 4.0625,
      "learning_rate": 7.697587946373037e-06,
      "loss": 1.10882025,
      "memory(GiB)": 112.26,
      "step": 27805,
      "train_speed(iter/s)": 1.13157
    },
    {
      "acc": 0.72851539,
      "epoch": 0.7054794520547946,
      "grad_norm": 3.375,
      "learning_rate": 7.696704972834589e-06,
      "loss": 1.05688515,
      "memory(GiB)": 112.26,
      "step": 27810,
      "train_speed(iter/s)": 1.1316
    },
    {
      "acc": 0.73587542,
      "epoch": 0.7056062912227296,
      "grad_norm": 3.3125,
      "learning_rate": 7.695821880683012e-06,
      "loss": 1.10512829,
      "memory(GiB)": 112.26,
      "step": 27815,
      "train_speed(iter/s)": 1.131635
    },
    {
      "acc": 0.73802228,
      "epoch": 0.7057331303906647,
      "grad_norm": 4.28125,
      "learning_rate": 7.694938669957156e-06,
      "loss": 1.06335373,
      "memory(GiB)": 112.26,
      "step": 27820,
      "train_speed(iter/s)": 1.131657
    },
    {
      "acc": 0.7365541,
      "epoch": 0.7058599695585996,
      "grad_norm": 3.828125,
      "learning_rate": 7.694055340695862e-06,
      "loss": 1.06941957,
      "memory(GiB)": 112.26,
      "step": 27825,
      "train_speed(iter/s)": 1.131676
    },
    {
      "acc": 0.73635054,
      "epoch": 0.7059868087265347,
      "grad_norm": 4.8125,
      "learning_rate": 7.693171892937991e-06,
      "loss": 1.09844036,
      "memory(GiB)": 112.26,
      "step": 27830,
      "train_speed(iter/s)": 1.131711
    },
    {
      "acc": 0.73342123,
      "epoch": 0.7061136478944698,
      "grad_norm": 3.484375,
      "learning_rate": 7.692288326722393e-06,
      "loss": 1.13207579,
      "memory(GiB)": 112.26,
      "step": 27835,
      "train_speed(iter/s)": 1.131717
    },
    {
      "acc": 0.73134069,
      "epoch": 0.7062404870624048,
      "grad_norm": 4.4375,
      "learning_rate": 7.691404642087933e-06,
      "loss": 1.07524052,
      "memory(GiB)": 112.26,
      "step": 27840,
      "train_speed(iter/s)": 1.131727
    },
    {
      "acc": 0.74619818,
      "epoch": 0.7063673262303399,
      "grad_norm": 4.03125,
      "learning_rate": 7.690520839073484e-06,
      "loss": 1.04103537,
      "memory(GiB)": 112.26,
      "step": 27845,
      "train_speed(iter/s)": 1.131751
    },
    {
      "acc": 0.73672695,
      "epoch": 0.706494165398275,
      "grad_norm": 3.71875,
      "learning_rate": 7.689636917717913e-06,
      "loss": 1.06840496,
      "memory(GiB)": 112.26,
      "step": 27850,
      "train_speed(iter/s)": 1.131785
    },
    {
      "acc": 0.73905115,
      "epoch": 0.70662100456621,
      "grad_norm": 3.453125,
      "learning_rate": 7.688752878060103e-06,
      "loss": 1.07635899,
      "memory(GiB)": 112.26,
      "step": 27855,
      "train_speed(iter/s)": 1.131811
    },
    {
      "acc": 0.73346729,
      "epoch": 0.7067478437341451,
      "grad_norm": 3.3125,
      "learning_rate": 7.687868720138939e-06,
      "loss": 1.05064678,
      "memory(GiB)": 112.26,
      "step": 27860,
      "train_speed(iter/s)": 1.131853
    },
    {
      "acc": 0.72489214,
      "epoch": 0.7068746829020801,
      "grad_norm": 4.34375,
      "learning_rate": 7.686984443993304e-06,
      "loss": 1.13534565,
      "memory(GiB)": 112.26,
      "step": 27865,
      "train_speed(iter/s)": 1.131888
    },
    {
      "acc": 0.72726922,
      "epoch": 0.7070015220700152,
      "grad_norm": 3.734375,
      "learning_rate": 7.6861000496621e-06,
      "loss": 1.09801893,
      "memory(GiB)": 112.26,
      "step": 27870,
      "train_speed(iter/s)": 1.131912
    },
    {
      "acc": 0.73797855,
      "epoch": 0.7071283612379503,
      "grad_norm": 4.21875,
      "learning_rate": 7.685215537184223e-06,
      "loss": 1.12994251,
      "memory(GiB)": 112.26,
      "step": 27875,
      "train_speed(iter/s)": 1.131928
    },
    {
      "acc": 0.73317728,
      "epoch": 0.7072552004058853,
      "grad_norm": 3.828125,
      "learning_rate": 7.684330906598577e-06,
      "loss": 1.13468342,
      "memory(GiB)": 112.26,
      "step": 27880,
      "train_speed(iter/s)": 1.131959
    },
    {
      "acc": 0.7400723,
      "epoch": 0.7073820395738204,
      "grad_norm": 3.453125,
      "learning_rate": 7.683446157944075e-06,
      "loss": 1.0591567,
      "memory(GiB)": 112.26,
      "step": 27885,
      "train_speed(iter/s)": 1.131956
    },
    {
      "acc": 0.72839127,
      "epoch": 0.7075088787417555,
      "grad_norm": 3.90625,
      "learning_rate": 7.682561291259628e-06,
      "loss": 1.1476429,
      "memory(GiB)": 112.26,
      "step": 27890,
      "train_speed(iter/s)": 1.131965
    },
    {
      "acc": 0.73664484,
      "epoch": 0.7076357179096905,
      "grad_norm": 3.421875,
      "learning_rate": 7.681676306584159e-06,
      "loss": 1.07482777,
      "memory(GiB)": 112.26,
      "step": 27895,
      "train_speed(iter/s)": 1.131991
    },
    {
      "acc": 0.72646947,
      "epoch": 0.7077625570776256,
      "grad_norm": 4.09375,
      "learning_rate": 7.680791203956594e-06,
      "loss": 1.03995333,
      "memory(GiB)": 112.26,
      "step": 27900,
      "train_speed(iter/s)": 1.13179
    },
    {
      "acc": 0.72418041,
      "epoch": 0.7078893962455606,
      "grad_norm": 4.0,
      "learning_rate": 7.679905983415861e-06,
      "loss": 1.11260395,
      "memory(GiB)": 112.26,
      "step": 27905,
      "train_speed(iter/s)": 1.131825
    },
    {
      "acc": 0.74491043,
      "epoch": 0.7080162354134957,
      "grad_norm": 3.828125,
      "learning_rate": 7.6790206450009e-06,
      "loss": 1.06161098,
      "memory(GiB)": 112.26,
      "step": 27910,
      "train_speed(iter/s)": 1.131859
    },
    {
      "acc": 0.72231874,
      "epoch": 0.7081430745814308,
      "grad_norm": 3.578125,
      "learning_rate": 7.678135188750648e-06,
      "loss": 1.09425497,
      "memory(GiB)": 112.26,
      "step": 27915,
      "train_speed(iter/s)": 1.131863
    },
    {
      "acc": 0.73930321,
      "epoch": 0.7082699137493658,
      "grad_norm": 3.421875,
      "learning_rate": 7.677249614704057e-06,
      "loss": 1.0524662,
      "memory(GiB)": 112.26,
      "step": 27920,
      "train_speed(iter/s)": 1.13189
    },
    {
      "acc": 0.74748397,
      "epoch": 0.7083967529173009,
      "grad_norm": 3.578125,
      "learning_rate": 7.676363922900073e-06,
      "loss": 1.05264034,
      "memory(GiB)": 112.26,
      "step": 27925,
      "train_speed(iter/s)": 1.131911
    },
    {
      "acc": 0.72484341,
      "epoch": 0.708523592085236,
      "grad_norm": 3.875,
      "learning_rate": 7.675478113377653e-06,
      "loss": 1.13522663,
      "memory(GiB)": 112.26,
      "step": 27930,
      "train_speed(iter/s)": 1.131915
    },
    {
      "acc": 0.73461285,
      "epoch": 0.708650431253171,
      "grad_norm": 3.875,
      "learning_rate": 7.674592186175762e-06,
      "loss": 1.06061592,
      "memory(GiB)": 112.26,
      "step": 27935,
      "train_speed(iter/s)": 1.13194
    },
    {
      "acc": 0.7371419,
      "epoch": 0.708777270421106,
      "grad_norm": 2.984375,
      "learning_rate": 7.673706141333365e-06,
      "loss": 1.00344391,
      "memory(GiB)": 112.26,
      "step": 27940,
      "train_speed(iter/s)": 1.131946
    },
    {
      "acc": 0.73485146,
      "epoch": 0.708904109589041,
      "grad_norm": 3.34375,
      "learning_rate": 7.672819978889435e-06,
      "loss": 1.12314625,
      "memory(GiB)": 112.26,
      "step": 27945,
      "train_speed(iter/s)": 1.131986
    },
    {
      "acc": 0.73604994,
      "epoch": 0.7090309487569761,
      "grad_norm": 4.0625,
      "learning_rate": 7.67193369888295e-06,
      "loss": 1.10584812,
      "memory(GiB)": 112.26,
      "step": 27950,
      "train_speed(iter/s)": 1.132004
    },
    {
      "acc": 0.74402146,
      "epoch": 0.7091577879249112,
      "grad_norm": 4.125,
      "learning_rate": 7.67104730135289e-06,
      "loss": 1.03230782,
      "memory(GiB)": 112.26,
      "step": 27955,
      "train_speed(iter/s)": 1.132025
    },
    {
      "acc": 0.73731298,
      "epoch": 0.7092846270928462,
      "grad_norm": 3.578125,
      "learning_rate": 7.670160786338246e-06,
      "loss": 1.10459661,
      "memory(GiB)": 112.26,
      "step": 27960,
      "train_speed(iter/s)": 1.132055
    },
    {
      "acc": 0.73587127,
      "epoch": 0.7094114662607813,
      "grad_norm": 3.734375,
      "learning_rate": 7.669274153878006e-06,
      "loss": 1.07235603,
      "memory(GiB)": 112.26,
      "step": 27965,
      "train_speed(iter/s)": 1.132097
    },
    {
      "acc": 0.72829933,
      "epoch": 0.7095383054287164,
      "grad_norm": 3.609375,
      "learning_rate": 7.668387404011176e-06,
      "loss": 1.13689823,
      "memory(GiB)": 112.26,
      "step": 27970,
      "train_speed(iter/s)": 1.132131
    },
    {
      "acc": 0.72302322,
      "epoch": 0.7096651445966514,
      "grad_norm": 3.84375,
      "learning_rate": 7.667500536776748e-06,
      "loss": 1.13704319,
      "memory(GiB)": 112.26,
      "step": 27975,
      "train_speed(iter/s)": 1.132173
    },
    {
      "acc": 0.72742796,
      "epoch": 0.7097919837645865,
      "grad_norm": 3.359375,
      "learning_rate": 7.666613552213742e-06,
      "loss": 1.09768963,
      "memory(GiB)": 112.26,
      "step": 27980,
      "train_speed(iter/s)": 1.1322
    },
    {
      "acc": 0.73971801,
      "epoch": 0.7099188229325215,
      "grad_norm": 3.84375,
      "learning_rate": 7.665726450361165e-06,
      "loss": 1.06577377,
      "memory(GiB)": 112.26,
      "step": 27985,
      "train_speed(iter/s)": 1.132219
    },
    {
      "acc": 0.73873377,
      "epoch": 0.7100456621004566,
      "grad_norm": 2.921875,
      "learning_rate": 7.664839231258036e-06,
      "loss": 1.07020512,
      "memory(GiB)": 112.26,
      "step": 27990,
      "train_speed(iter/s)": 1.132228
    },
    {
      "acc": 0.7408299,
      "epoch": 0.7101725012683917,
      "grad_norm": 4.03125,
      "learning_rate": 7.663951894943383e-06,
      "loss": 1.10988436,
      "memory(GiB)": 112.26,
      "step": 27995,
      "train_speed(iter/s)": 1.132265
    },
    {
      "acc": 0.72340789,
      "epoch": 0.7102993404363267,
      "grad_norm": 4.0625,
      "learning_rate": 7.66306444145623e-06,
      "loss": 1.10390844,
      "memory(GiB)": 112.26,
      "step": 28000,
      "train_speed(iter/s)": 1.132294
    },
    {
      "epoch": 0.7102993404363267,
      "eval_acc": 0.7239610155014963,
      "eval_loss": 1.0540552139282227,
      "eval_runtime": 70.7731,
      "eval_samples_per_second": 90.006,
      "eval_steps_per_second": 22.509,
      "step": 28000
    },
    {
      "acc": 0.7224431,
      "epoch": 0.7104261796042618,
      "grad_norm": 4.03125,
      "learning_rate": 7.662176870835614e-06,
      "loss": 1.10585098,
      "memory(GiB)": 112.26,
      "step": 28005,
      "train_speed(iter/s)": 1.127018
    },
    {
      "acc": 0.74524488,
      "epoch": 0.7105530187721969,
      "grad_norm": 3.546875,
      "learning_rate": 7.661289183120572e-06,
      "loss": 1.04381123,
      "memory(GiB)": 112.26,
      "step": 28010,
      "train_speed(iter/s)": 1.127029
    },
    {
      "acc": 0.72945142,
      "epoch": 0.7106798579401319,
      "grad_norm": 4.125,
      "learning_rate": 7.66040137835015e-06,
      "loss": 1.12269268,
      "memory(GiB)": 112.26,
      "step": 28015,
      "train_speed(iter/s)": 1.127034
    },
    {
      "acc": 0.71259661,
      "epoch": 0.710806697108067,
      "grad_norm": 3.171875,
      "learning_rate": 7.659513456563399e-06,
      "loss": 1.14544144,
      "memory(GiB)": 112.26,
      "step": 28020,
      "train_speed(iter/s)": 1.12705
    },
    {
      "acc": 0.7449019,
      "epoch": 0.710933536276002,
      "grad_norm": 3.828125,
      "learning_rate": 7.658625417799372e-06,
      "loss": 1.05827255,
      "memory(GiB)": 112.26,
      "step": 28025,
      "train_speed(iter/s)": 1.127085
    },
    {
      "acc": 0.73931265,
      "epoch": 0.7110603754439371,
      "grad_norm": 3.703125,
      "learning_rate": 7.657737262097128e-06,
      "loss": 1.06771631,
      "memory(GiB)": 112.26,
      "step": 28030,
      "train_speed(iter/s)": 1.127106
    },
    {
      "acc": 0.74030495,
      "epoch": 0.7111872146118722,
      "grad_norm": 3.40625,
      "learning_rate": 7.656848989495733e-06,
      "loss": 1.08296404,
      "memory(GiB)": 112.26,
      "step": 28035,
      "train_speed(iter/s)": 1.127133
    },
    {
      "acc": 0.74512062,
      "epoch": 0.7113140537798072,
      "grad_norm": 3.71875,
      "learning_rate": 7.65596060003426e-06,
      "loss": 1.11840477,
      "memory(GiB)": 112.26,
      "step": 28040,
      "train_speed(iter/s)": 1.127133
    },
    {
      "acc": 0.72394028,
      "epoch": 0.7114408929477423,
      "grad_norm": 5.4375,
      "learning_rate": 7.655072093751779e-06,
      "loss": 1.16120234,
      "memory(GiB)": 112.26,
      "step": 28045,
      "train_speed(iter/s)": 1.127162
    },
    {
      "acc": 0.73360815,
      "epoch": 0.7115677321156774,
      "grad_norm": 4.5,
      "learning_rate": 7.654183470687375e-06,
      "loss": 1.08964462,
      "memory(GiB)": 112.26,
      "step": 28050,
      "train_speed(iter/s)": 1.127166
    },
    {
      "acc": 0.74548683,
      "epoch": 0.7116945712836124,
      "grad_norm": 4.1875,
      "learning_rate": 7.653294730880131e-06,
      "loss": 1.03966198,
      "memory(GiB)": 112.26,
      "step": 28055,
      "train_speed(iter/s)": 1.12721
    },
    {
      "acc": 0.7460012,
      "epoch": 0.7118214104515475,
      "grad_norm": 4.15625,
      "learning_rate": 7.65240587436914e-06,
      "loss": 0.99289742,
      "memory(GiB)": 112.26,
      "step": 28060,
      "train_speed(iter/s)": 1.127244
    },
    {
      "acc": 0.73499036,
      "epoch": 0.7119482496194824,
      "grad_norm": 3.96875,
      "learning_rate": 7.651516901193494e-06,
      "loss": 1.13221045,
      "memory(GiB)": 112.26,
      "step": 28065,
      "train_speed(iter/s)": 1.127279
    },
    {
      "acc": 0.74154291,
      "epoch": 0.7120750887874175,
      "grad_norm": 3.8125,
      "learning_rate": 7.650627811392298e-06,
      "loss": 1.04620266,
      "memory(GiB)": 112.26,
      "step": 28070,
      "train_speed(iter/s)": 1.127313
    },
    {
      "acc": 0.71699805,
      "epoch": 0.7122019279553526,
      "grad_norm": 3.6875,
      "learning_rate": 7.649738605004658e-06,
      "loss": 1.11349621,
      "memory(GiB)": 112.26,
      "step": 28075,
      "train_speed(iter/s)": 1.127357
    },
    {
      "acc": 0.73842888,
      "epoch": 0.7123287671232876,
      "grad_norm": 3.4375,
      "learning_rate": 7.648849282069682e-06,
      "loss": 1.01580734,
      "memory(GiB)": 112.26,
      "step": 28080,
      "train_speed(iter/s)": 1.127361
    },
    {
      "acc": 0.7361764,
      "epoch": 0.7124556062912227,
      "grad_norm": 3.4375,
      "learning_rate": 7.647959842626489e-06,
      "loss": 1.12111206,
      "memory(GiB)": 112.26,
      "step": 28085,
      "train_speed(iter/s)": 1.127386
    },
    {
      "acc": 0.72588253,
      "epoch": 0.7125824454591578,
      "grad_norm": 3.546875,
      "learning_rate": 7.6470702867142e-06,
      "loss": 1.1120615,
      "memory(GiB)": 112.26,
      "step": 28090,
      "train_speed(iter/s)": 1.127404
    },
    {
      "acc": 0.7261343,
      "epoch": 0.7127092846270928,
      "grad_norm": 3.65625,
      "learning_rate": 7.646180614371941e-06,
      "loss": 1.09918213,
      "memory(GiB)": 112.26,
      "step": 28095,
      "train_speed(iter/s)": 1.127434
    },
    {
      "acc": 0.73800011,
      "epoch": 0.7128361237950279,
      "grad_norm": 4.65625,
      "learning_rate": 7.645290825638845e-06,
      "loss": 1.11612949,
      "memory(GiB)": 112.26,
      "step": 28100,
      "train_speed(iter/s)": 1.127464
    },
    {
      "acc": 0.73270741,
      "epoch": 0.7129629629629629,
      "grad_norm": 4.46875,
      "learning_rate": 7.644400920554048e-06,
      "loss": 1.08387632,
      "memory(GiB)": 112.26,
      "step": 28105,
      "train_speed(iter/s)": 1.127493
    },
    {
      "acc": 0.73319545,
      "epoch": 0.713089802130898,
      "grad_norm": 3.25,
      "learning_rate": 7.64351089915669e-06,
      "loss": 1.13001738,
      "memory(GiB)": 112.26,
      "step": 28110,
      "train_speed(iter/s)": 1.127501
    },
    {
      "acc": 0.7515625,
      "epoch": 0.7132166412988331,
      "grad_norm": 3.6875,
      "learning_rate": 7.642620761485921e-06,
      "loss": 0.99761438,
      "memory(GiB)": 112.26,
      "step": 28115,
      "train_speed(iter/s)": 1.127532
    },
    {
      "acc": 0.73793793,
      "epoch": 0.7133434804667681,
      "grad_norm": 3.453125,
      "learning_rate": 7.641730507580896e-06,
      "loss": 1.08987007,
      "memory(GiB)": 112.26,
      "step": 28120,
      "train_speed(iter/s)": 1.127552
    },
    {
      "acc": 0.72052307,
      "epoch": 0.7134703196347032,
      "grad_norm": 3.484375,
      "learning_rate": 7.640840137480763e-06,
      "loss": 1.13054924,
      "memory(GiB)": 112.26,
      "step": 28125,
      "train_speed(iter/s)": 1.127575
    },
    {
      "acc": 0.73538518,
      "epoch": 0.7135971588026383,
      "grad_norm": 3.578125,
      "learning_rate": 7.639949651224697e-06,
      "loss": 1.04414101,
      "memory(GiB)": 112.26,
      "step": 28130,
      "train_speed(iter/s)": 1.12761
    },
    {
      "acc": 0.7250896,
      "epoch": 0.7137239979705733,
      "grad_norm": 3.578125,
      "learning_rate": 7.639059048851853e-06,
      "loss": 1.13234186,
      "memory(GiB)": 112.26,
      "step": 28135,
      "train_speed(iter/s)": 1.127635
    },
    {
      "acc": 0.74382043,
      "epoch": 0.7138508371385084,
      "grad_norm": 3.578125,
      "learning_rate": 7.638168330401412e-06,
      "loss": 1.03701448,
      "memory(GiB)": 112.26,
      "step": 28140,
      "train_speed(iter/s)": 1.12767
    },
    {
      "acc": 0.73915215,
      "epoch": 0.7139776763064434,
      "grad_norm": 4.375,
      "learning_rate": 7.637277495912548e-06,
      "loss": 1.02721214,
      "memory(GiB)": 112.26,
      "step": 28145,
      "train_speed(iter/s)": 1.127699
    },
    {
      "acc": 0.73914104,
      "epoch": 0.7141045154743785,
      "grad_norm": 3.296875,
      "learning_rate": 7.636386545424447e-06,
      "loss": 1.02616358,
      "memory(GiB)": 112.26,
      "step": 28150,
      "train_speed(iter/s)": 1.12772
    },
    {
      "acc": 0.7205183,
      "epoch": 0.7142313546423136,
      "grad_norm": 3.953125,
      "learning_rate": 7.635495478976294e-06,
      "loss": 1.10540457,
      "memory(GiB)": 112.26,
      "step": 28155,
      "train_speed(iter/s)": 1.127741
    },
    {
      "acc": 0.72945528,
      "epoch": 0.7143581938102486,
      "grad_norm": 4.3125,
      "learning_rate": 7.634604296607285e-06,
      "loss": 1.14745159,
      "memory(GiB)": 112.26,
      "step": 28160,
      "train_speed(iter/s)": 1.127777
    },
    {
      "acc": 0.74348736,
      "epoch": 0.7144850329781837,
      "grad_norm": 3.671875,
      "learning_rate": 7.633712998356612e-06,
      "loss": 1.01088982,
      "memory(GiB)": 112.26,
      "step": 28165,
      "train_speed(iter/s)": 1.127808
    },
    {
      "acc": 0.731741,
      "epoch": 0.7146118721461188,
      "grad_norm": 4.4375,
      "learning_rate": 7.632821584263486e-06,
      "loss": 1.1002636,
      "memory(GiB)": 112.26,
      "step": 28170,
      "train_speed(iter/s)": 1.127834
    },
    {
      "acc": 0.74540038,
      "epoch": 0.7147387113140538,
      "grad_norm": 3.34375,
      "learning_rate": 7.631930054367112e-06,
      "loss": 1.06104317,
      "memory(GiB)": 112.26,
      "step": 28175,
      "train_speed(iter/s)": 1.127871
    },
    {
      "acc": 0.7388567,
      "epoch": 0.7148655504819889,
      "grad_norm": 3.4375,
      "learning_rate": 7.631038408706703e-06,
      "loss": 1.07912807,
      "memory(GiB)": 112.26,
      "step": 28180,
      "train_speed(iter/s)": 1.127911
    },
    {
      "acc": 0.73048735,
      "epoch": 0.7149923896499238,
      "grad_norm": 4.0,
      "learning_rate": 7.630146647321476e-06,
      "loss": 1.07674236,
      "memory(GiB)": 112.26,
      "step": 28185,
      "train_speed(iter/s)": 1.127916
    },
    {
      "acc": 0.73614583,
      "epoch": 0.7151192288178589,
      "grad_norm": 3.21875,
      "learning_rate": 7.62925477025066e-06,
      "loss": 1.13171272,
      "memory(GiB)": 112.26,
      "step": 28190,
      "train_speed(iter/s)": 1.127949
    },
    {
      "acc": 0.72621899,
      "epoch": 0.715246067985794,
      "grad_norm": 3.578125,
      "learning_rate": 7.628362777533479e-06,
      "loss": 1.12656536,
      "memory(GiB)": 112.26,
      "step": 28195,
      "train_speed(iter/s)": 1.127987
    },
    {
      "acc": 0.73551283,
      "epoch": 0.715372907153729,
      "grad_norm": 3.953125,
      "learning_rate": 7.627470669209169e-06,
      "loss": 1.07668991,
      "memory(GiB)": 112.26,
      "step": 28200,
      "train_speed(iter/s)": 1.128023
    },
    {
      "acc": 0.73951502,
      "epoch": 0.7154997463216641,
      "grad_norm": 3.546875,
      "learning_rate": 7.626578445316968e-06,
      "loss": 1.05547047,
      "memory(GiB)": 112.26,
      "step": 28205,
      "train_speed(iter/s)": 1.12806
    },
    {
      "acc": 0.73715334,
      "epoch": 0.7156265854895992,
      "grad_norm": 4.4375,
      "learning_rate": 7.62568610589612e-06,
      "loss": 1.10306721,
      "memory(GiB)": 112.26,
      "step": 28210,
      "train_speed(iter/s)": 1.1281
    },
    {
      "acc": 0.73695078,
      "epoch": 0.7157534246575342,
      "grad_norm": 4.625,
      "learning_rate": 7.624793650985873e-06,
      "loss": 1.08635035,
      "memory(GiB)": 112.26,
      "step": 28215,
      "train_speed(iter/s)": 1.128124
    },
    {
      "acc": 0.72550488,
      "epoch": 0.7158802638254693,
      "grad_norm": 3.703125,
      "learning_rate": 7.6239010806254835e-06,
      "loss": 1.10382185,
      "memory(GiB)": 112.26,
      "step": 28220,
      "train_speed(iter/s)": 1.128152
    },
    {
      "acc": 0.72744722,
      "epoch": 0.7160071029934043,
      "grad_norm": 3.828125,
      "learning_rate": 7.6230083948542084e-06,
      "loss": 1.10408535,
      "memory(GiB)": 112.26,
      "step": 28225,
      "train_speed(iter/s)": 1.128175
    },
    {
      "acc": 0.74622831,
      "epoch": 0.7161339421613394,
      "grad_norm": 3.828125,
      "learning_rate": 7.622115593711314e-06,
      "loss": 1.02232819,
      "memory(GiB)": 112.26,
      "step": 28230,
      "train_speed(iter/s)": 1.128204
    },
    {
      "acc": 0.73558784,
      "epoch": 0.7162607813292745,
      "grad_norm": 3.140625,
      "learning_rate": 7.62122267723607e-06,
      "loss": 1.06344271,
      "memory(GiB)": 112.26,
      "step": 28235,
      "train_speed(iter/s)": 1.128233
    },
    {
      "acc": 0.74173326,
      "epoch": 0.7163876204972095,
      "grad_norm": 3.09375,
      "learning_rate": 7.620329645467748e-06,
      "loss": 1.01625223,
      "memory(GiB)": 112.26,
      "step": 28240,
      "train_speed(iter/s)": 1.128245
    },
    {
      "acc": 0.71473808,
      "epoch": 0.7165144596651446,
      "grad_norm": 3.90625,
      "learning_rate": 7.61943649844563e-06,
      "loss": 1.19671431,
      "memory(GiB)": 112.26,
      "step": 28245,
      "train_speed(iter/s)": 1.128285
    },
    {
      "acc": 0.72665205,
      "epoch": 0.7166412988330797,
      "grad_norm": 3.5625,
      "learning_rate": 7.618543236209001e-06,
      "loss": 1.15163345,
      "memory(GiB)": 112.26,
      "step": 28250,
      "train_speed(iter/s)": 1.128311
    },
    {
      "acc": 0.73178396,
      "epoch": 0.7167681380010147,
      "grad_norm": 3.59375,
      "learning_rate": 7.617649858797147e-06,
      "loss": 1.11732368,
      "memory(GiB)": 112.26,
      "step": 28255,
      "train_speed(iter/s)": 1.128355
    },
    {
      "acc": 0.74127545,
      "epoch": 0.7168949771689498,
      "grad_norm": 3.5,
      "learning_rate": 7.616756366249367e-06,
      "loss": 1.09161453,
      "memory(GiB)": 112.26,
      "step": 28260,
      "train_speed(iter/s)": 1.128371
    },
    {
      "acc": 0.72551503,
      "epoch": 0.7170218163368848,
      "grad_norm": 3.4375,
      "learning_rate": 7.6158627586049586e-06,
      "loss": 1.14371796,
      "memory(GiB)": 112.26,
      "step": 28265,
      "train_speed(iter/s)": 1.128388
    },
    {
      "acc": 0.74668045,
      "epoch": 0.7171486555048199,
      "grad_norm": 3.359375,
      "learning_rate": 7.614969035903228e-06,
      "loss": 1.02404766,
      "memory(GiB)": 112.26,
      "step": 28270,
      "train_speed(iter/s)": 1.128404
    },
    {
      "acc": 0.73986979,
      "epoch": 0.717275494672755,
      "grad_norm": 3.5625,
      "learning_rate": 7.614075198183482e-06,
      "loss": 1.02886076,
      "memory(GiB)": 112.26,
      "step": 28275,
      "train_speed(iter/s)": 1.128424
    },
    {
      "acc": 0.73336825,
      "epoch": 0.71740233384069,
      "grad_norm": 5.0625,
      "learning_rate": 7.6131812454850406e-06,
      "loss": 1.07115612,
      "memory(GiB)": 112.26,
      "step": 28280,
      "train_speed(iter/s)": 1.128452
    },
    {
      "acc": 0.7372756,
      "epoch": 0.7175291730086251,
      "grad_norm": 3.71875,
      "learning_rate": 7.612287177847219e-06,
      "loss": 1.09440689,
      "memory(GiB)": 112.26,
      "step": 28285,
      "train_speed(iter/s)": 1.128467
    },
    {
      "acc": 0.74404311,
      "epoch": 0.7176560121765602,
      "grad_norm": 3.328125,
      "learning_rate": 7.611392995309345e-06,
      "loss": 1.07476654,
      "memory(GiB)": 112.26,
      "step": 28290,
      "train_speed(iter/s)": 1.128504
    },
    {
      "acc": 0.73594527,
      "epoch": 0.7177828513444952,
      "grad_norm": 4.5625,
      "learning_rate": 7.610498697910748e-06,
      "loss": 1.05922108,
      "memory(GiB)": 112.26,
      "step": 28295,
      "train_speed(iter/s)": 1.128497
    },
    {
      "acc": 0.73927526,
      "epoch": 0.7179096905124303,
      "grad_norm": 3.34375,
      "learning_rate": 7.609604285690762e-06,
      "loss": 1.08604288,
      "memory(GiB)": 112.26,
      "step": 28300,
      "train_speed(iter/s)": 1.128526
    },
    {
      "acc": 0.75018167,
      "epoch": 0.7180365296803652,
      "grad_norm": 3.875,
      "learning_rate": 7.608709758688731e-06,
      "loss": 1.04252663,
      "memory(GiB)": 112.26,
      "step": 28305,
      "train_speed(iter/s)": 1.12855
    },
    {
      "acc": 0.72765403,
      "epoch": 0.7181633688483003,
      "grad_norm": 3.734375,
      "learning_rate": 7.607815116943995e-06,
      "loss": 1.04199886,
      "memory(GiB)": 112.26,
      "step": 28310,
      "train_speed(iter/s)": 1.128586
    },
    {
      "acc": 0.73573189,
      "epoch": 0.7182902080162354,
      "grad_norm": 3.34375,
      "learning_rate": 7.606920360495908e-06,
      "loss": 1.04332647,
      "memory(GiB)": 112.26,
      "step": 28315,
      "train_speed(iter/s)": 1.128612
    },
    {
      "acc": 0.71894131,
      "epoch": 0.7184170471841704,
      "grad_norm": 3.25,
      "learning_rate": 7.6060254893838255e-06,
      "loss": 1.12158833,
      "memory(GiB)": 112.26,
      "step": 28320,
      "train_speed(iter/s)": 1.128633
    },
    {
      "acc": 0.72506347,
      "epoch": 0.7185438863521055,
      "grad_norm": 3.484375,
      "learning_rate": 7.6051305036471065e-06,
      "loss": 1.09730625,
      "memory(GiB)": 112.26,
      "step": 28325,
      "train_speed(iter/s)": 1.12867
    },
    {
      "acc": 0.75373659,
      "epoch": 0.7186707255200406,
      "grad_norm": 3.859375,
      "learning_rate": 7.604235403325117e-06,
      "loss": 1.01258583,
      "memory(GiB)": 112.26,
      "step": 28330,
      "train_speed(iter/s)": 1.12868
    },
    {
      "acc": 0.73245087,
      "epoch": 0.7187975646879756,
      "grad_norm": 3.46875,
      "learning_rate": 7.603340188457227e-06,
      "loss": 1.11426735,
      "memory(GiB)": 112.26,
      "step": 28335,
      "train_speed(iter/s)": 1.128718
    },
    {
      "acc": 0.73132114,
      "epoch": 0.7189244038559107,
      "grad_norm": 3.65625,
      "learning_rate": 7.602444859082814e-06,
      "loss": 1.11462145,
      "memory(GiB)": 112.26,
      "step": 28340,
      "train_speed(iter/s)": 1.128741
    },
    {
      "acc": 0.74067936,
      "epoch": 0.7190512430238457,
      "grad_norm": 3.8125,
      "learning_rate": 7.601549415241254e-06,
      "loss": 1.05719872,
      "memory(GiB)": 112.26,
      "step": 28345,
      "train_speed(iter/s)": 1.128756
    },
    {
      "acc": 0.73722391,
      "epoch": 0.7191780821917808,
      "grad_norm": 4.40625,
      "learning_rate": 7.6006538569719375e-06,
      "loss": 1.0682909,
      "memory(GiB)": 112.26,
      "step": 28350,
      "train_speed(iter/s)": 1.128745
    },
    {
      "acc": 0.72602797,
      "epoch": 0.7193049213597159,
      "grad_norm": 3.65625,
      "learning_rate": 7.599758184314252e-06,
      "loss": 1.08320026,
      "memory(GiB)": 112.26,
      "step": 28355,
      "train_speed(iter/s)": 1.128766
    },
    {
      "acc": 0.72955246,
      "epoch": 0.7194317605276509,
      "grad_norm": 3.984375,
      "learning_rate": 7.598862397307596e-06,
      "loss": 1.08119507,
      "memory(GiB)": 112.26,
      "step": 28360,
      "train_speed(iter/s)": 1.128798
    },
    {
      "acc": 0.76365061,
      "epoch": 0.719558599695586,
      "grad_norm": 3.53125,
      "learning_rate": 7.597966495991368e-06,
      "loss": 0.984303,
      "memory(GiB)": 112.26,
      "step": 28365,
      "train_speed(iter/s)": 1.128838
    },
    {
      "acc": 0.74570403,
      "epoch": 0.7196854388635211,
      "grad_norm": 3.421875,
      "learning_rate": 7.597070480404974e-06,
      "loss": 0.99342146,
      "memory(GiB)": 112.26,
      "step": 28370,
      "train_speed(iter/s)": 1.128862
    },
    {
      "acc": 0.73563633,
      "epoch": 0.7198122780314561,
      "grad_norm": 3.125,
      "learning_rate": 7.596174350587826e-06,
      "loss": 1.04255133,
      "memory(GiB)": 112.26,
      "step": 28375,
      "train_speed(iter/s)": 1.128891
    },
    {
      "acc": 0.72614427,
      "epoch": 0.7199391171993912,
      "grad_norm": 3.5,
      "learning_rate": 7.595278106579339e-06,
      "loss": 1.07859135,
      "memory(GiB)": 112.26,
      "step": 28380,
      "train_speed(iter/s)": 1.128919
    },
    {
      "acc": 0.74514742,
      "epoch": 0.7200659563673262,
      "grad_norm": 4.65625,
      "learning_rate": 7.594381748418933e-06,
      "loss": 1.04781761,
      "memory(GiB)": 112.26,
      "step": 28385,
      "train_speed(iter/s)": 1.128939
    },
    {
      "acc": 0.73449345,
      "epoch": 0.7201927955352613,
      "grad_norm": 3.34375,
      "learning_rate": 7.593485276146035e-06,
      "loss": 1.05241756,
      "memory(GiB)": 112.26,
      "step": 28390,
      "train_speed(iter/s)": 1.128983
    },
    {
      "acc": 0.74615374,
      "epoch": 0.7203196347031964,
      "grad_norm": 5.25,
      "learning_rate": 7.592588689800077e-06,
      "loss": 1.05680866,
      "memory(GiB)": 112.26,
      "step": 28395,
      "train_speed(iter/s)": 1.129018
    },
    {
      "acc": 0.72368889,
      "epoch": 0.7204464738711314,
      "grad_norm": 3.796875,
      "learning_rate": 7.591691989420491e-06,
      "loss": 1.13263264,
      "memory(GiB)": 112.26,
      "step": 28400,
      "train_speed(iter/s)": 1.129065
    },
    {
      "acc": 0.74235477,
      "epoch": 0.7205733130390665,
      "grad_norm": 3.828125,
      "learning_rate": 7.590795175046721e-06,
      "loss": 1.05766926,
      "memory(GiB)": 112.26,
      "step": 28405,
      "train_speed(iter/s)": 1.129082
    },
    {
      "acc": 0.73509884,
      "epoch": 0.7207001522070016,
      "grad_norm": 4.0625,
      "learning_rate": 7.5898982467182125e-06,
      "loss": 1.04695578,
      "memory(GiB)": 112.26,
      "step": 28410,
      "train_speed(iter/s)": 1.129109
    },
    {
      "acc": 0.72427096,
      "epoch": 0.7208269913749366,
      "grad_norm": 5.28125,
      "learning_rate": 7.589001204474416e-06,
      "loss": 1.09163113,
      "memory(GiB)": 112.26,
      "step": 28415,
      "train_speed(iter/s)": 1.129119
    },
    {
      "acc": 0.7126677,
      "epoch": 0.7209538305428717,
      "grad_norm": 3.578125,
      "learning_rate": 7.588104048354787e-06,
      "loss": 1.11264601,
      "memory(GiB)": 112.26,
      "step": 28420,
      "train_speed(iter/s)": 1.129149
    },
    {
      "acc": 0.74015951,
      "epoch": 0.7210806697108066,
      "grad_norm": 3.8125,
      "learning_rate": 7.587206778398788e-06,
      "loss": 1.05392628,
      "memory(GiB)": 112.26,
      "step": 28425,
      "train_speed(iter/s)": 1.129184
    },
    {
      "acc": 0.74995141,
      "epoch": 0.7212075088787417,
      "grad_norm": 4.65625,
      "learning_rate": 7.586309394645882e-06,
      "loss": 1.03961315,
      "memory(GiB)": 112.26,
      "step": 28430,
      "train_speed(iter/s)": 1.129227
    },
    {
      "acc": 0.74604292,
      "epoch": 0.7213343480466768,
      "grad_norm": 3.828125,
      "learning_rate": 7.585411897135544e-06,
      "loss": 1.01146736,
      "memory(GiB)": 112.26,
      "step": 28435,
      "train_speed(iter/s)": 1.129248
    },
    {
      "acc": 0.73926954,
      "epoch": 0.7214611872146118,
      "grad_norm": 4.28125,
      "learning_rate": 7.584514285907245e-06,
      "loss": 1.01352997,
      "memory(GiB)": 112.26,
      "step": 28440,
      "train_speed(iter/s)": 1.129276
    },
    {
      "acc": 0.74264359,
      "epoch": 0.7215880263825469,
      "grad_norm": 3.765625,
      "learning_rate": 7.583616561000471e-06,
      "loss": 1.07128448,
      "memory(GiB)": 112.26,
      "step": 28445,
      "train_speed(iter/s)": 1.129304
    },
    {
      "acc": 0.72642612,
      "epoch": 0.721714865550482,
      "grad_norm": 3.265625,
      "learning_rate": 7.582718722454705e-06,
      "loss": 1.1132122,
      "memory(GiB)": 112.26,
      "step": 28450,
      "train_speed(iter/s)": 1.129319
    },
    {
      "acc": 0.72616768,
      "epoch": 0.721841704718417,
      "grad_norm": 3.421875,
      "learning_rate": 7.581820770309438e-06,
      "loss": 1.10982075,
      "memory(GiB)": 112.26,
      "step": 28455,
      "train_speed(iter/s)": 1.129349
    },
    {
      "acc": 0.74853663,
      "epoch": 0.7219685438863521,
      "grad_norm": 3.953125,
      "learning_rate": 7.580922704604168e-06,
      "loss": 1.03011417,
      "memory(GiB)": 112.26,
      "step": 28460,
      "train_speed(iter/s)": 1.129359
    },
    {
      "acc": 0.72022619,
      "epoch": 0.7220953830542871,
      "grad_norm": 3.703125,
      "learning_rate": 7.5800245253783935e-06,
      "loss": 1.10686388,
      "memory(GiB)": 112.26,
      "step": 28465,
      "train_speed(iter/s)": 1.129393
    },
    {
      "acc": 0.71254902,
      "epoch": 0.7222222222222222,
      "grad_norm": 3.828125,
      "learning_rate": 7.579126232671621e-06,
      "loss": 1.10985794,
      "memory(GiB)": 112.26,
      "step": 28470,
      "train_speed(iter/s)": 1.129417
    },
    {
      "acc": 0.74779668,
      "epoch": 0.7223490613901573,
      "grad_norm": 4.53125,
      "learning_rate": 7.578227826523361e-06,
      "loss": 1.11893787,
      "memory(GiB)": 112.26,
      "step": 28475,
      "train_speed(iter/s)": 1.129456
    },
    {
      "acc": 0.74857531,
      "epoch": 0.7224759005580923,
      "grad_norm": 3.390625,
      "learning_rate": 7.577329306973132e-06,
      "loss": 1.05720539,
      "memory(GiB)": 112.26,
      "step": 28480,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.7444767,
      "epoch": 0.7226027397260274,
      "grad_norm": 3.78125,
      "learning_rate": 7.576430674060452e-06,
      "loss": 1.03973017,
      "memory(GiB)": 112.26,
      "step": 28485,
      "train_speed(iter/s)": 1.129504
    },
    {
      "acc": 0.72934489,
      "epoch": 0.7227295788939625,
      "grad_norm": 3.953125,
      "learning_rate": 7.575531927824849e-06,
      "loss": 1.12669277,
      "memory(GiB)": 112.26,
      "step": 28490,
      "train_speed(iter/s)": 1.129529
    },
    {
      "acc": 0.73815289,
      "epoch": 0.7228564180618975,
      "grad_norm": 3.9375,
      "learning_rate": 7.574633068305852e-06,
      "loss": 1.11813545,
      "memory(GiB)": 112.26,
      "step": 28495,
      "train_speed(iter/s)": 1.12955
    },
    {
      "acc": 0.73565097,
      "epoch": 0.7229832572298326,
      "grad_norm": 4.4375,
      "learning_rate": 7.5737340955429995e-06,
      "loss": 1.07511625,
      "memory(GiB)": 112.26,
      "step": 28500,
      "train_speed(iter/s)": 1.129572
    },
    {
      "acc": 0.74839015,
      "epoch": 0.7231100963977676,
      "grad_norm": 3.546875,
      "learning_rate": 7.572835009575828e-06,
      "loss": 1.00399418,
      "memory(GiB)": 112.26,
      "step": 28505,
      "train_speed(iter/s)": 1.129592
    },
    {
      "acc": 0.7365756,
      "epoch": 0.7232369355657027,
      "grad_norm": 4.3125,
      "learning_rate": 7.571935810443886e-06,
      "loss": 1.08560352,
      "memory(GiB)": 112.26,
      "step": 28510,
      "train_speed(iter/s)": 1.129632
    },
    {
      "acc": 0.74218683,
      "epoch": 0.7233637747336378,
      "grad_norm": 3.0625,
      "learning_rate": 7.571036498186727e-06,
      "loss": 1.05871716,
      "memory(GiB)": 112.26,
      "step": 28515,
      "train_speed(iter/s)": 1.129659
    },
    {
      "acc": 0.73212566,
      "epoch": 0.7234906139015728,
      "grad_norm": 4.1875,
      "learning_rate": 7.570137072843902e-06,
      "loss": 1.10532532,
      "memory(GiB)": 112.26,
      "step": 28520,
      "train_speed(iter/s)": 1.129701
    },
    {
      "acc": 0.72234402,
      "epoch": 0.7236174530695079,
      "grad_norm": 3.890625,
      "learning_rate": 7.569237534454974e-06,
      "loss": 1.09816513,
      "memory(GiB)": 112.26,
      "step": 28525,
      "train_speed(iter/s)": 1.129731
    },
    {
      "acc": 0.71452665,
      "epoch": 0.723744292237443,
      "grad_norm": 3.65625,
      "learning_rate": 7.568337883059509e-06,
      "loss": 1.15229797,
      "memory(GiB)": 112.26,
      "step": 28530,
      "train_speed(iter/s)": 1.129749
    },
    {
      "acc": 0.73265829,
      "epoch": 0.723871131405378,
      "grad_norm": 3.890625,
      "learning_rate": 7.567438118697077e-06,
      "loss": 1.11109428,
      "memory(GiB)": 112.26,
      "step": 28535,
      "train_speed(iter/s)": 1.129759
    },
    {
      "acc": 0.73877578,
      "epoch": 0.723997970573313,
      "grad_norm": 4.125,
      "learning_rate": 7.566538241407253e-06,
      "loss": 1.04207735,
      "memory(GiB)": 112.26,
      "step": 28540,
      "train_speed(iter/s)": 1.129791
    },
    {
      "acc": 0.73232508,
      "epoch": 0.724124809741248,
      "grad_norm": 3.46875,
      "learning_rate": 7.565638251229617e-06,
      "loss": 1.08155985,
      "memory(GiB)": 112.26,
      "step": 28545,
      "train_speed(iter/s)": 1.129818
    },
    {
      "acc": 0.74576874,
      "epoch": 0.7242516489091831,
      "grad_norm": 3.5,
      "learning_rate": 7.5647381482037585e-06,
      "loss": 1.02990294,
      "memory(GiB)": 112.26,
      "step": 28550,
      "train_speed(iter/s)": 1.129851
    },
    {
      "acc": 0.74086356,
      "epoch": 0.7243784880771182,
      "grad_norm": 3.390625,
      "learning_rate": 7.563837932369264e-06,
      "loss": 1.09001474,
      "memory(GiB)": 112.26,
      "step": 28555,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.74085484,
      "epoch": 0.7245053272450532,
      "grad_norm": 3.90625,
      "learning_rate": 7.562937603765732e-06,
      "loss": 1.07065182,
      "memory(GiB)": 112.26,
      "step": 28560,
      "train_speed(iter/s)": 1.129881
    },
    {
      "acc": 0.73793268,
      "epoch": 0.7246321664129883,
      "grad_norm": 3.578125,
      "learning_rate": 7.562037162432761e-06,
      "loss": 1.0714057,
      "memory(GiB)": 112.26,
      "step": 28565,
      "train_speed(iter/s)": 1.129897
    },
    {
      "acc": 0.72563272,
      "epoch": 0.7247590055809234,
      "grad_norm": 3.875,
      "learning_rate": 7.561136608409956e-06,
      "loss": 1.085425,
      "memory(GiB)": 112.26,
      "step": 28570,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.71127319,
      "epoch": 0.7248858447488584,
      "grad_norm": 3.5625,
      "learning_rate": 7.560235941736929e-06,
      "loss": 1.18853741,
      "memory(GiB)": 112.26,
      "step": 28575,
      "train_speed(iter/s)": 1.129926
    },
    {
      "acc": 0.72328143,
      "epoch": 0.7250126839167935,
      "grad_norm": 3.65625,
      "learning_rate": 7.559335162453294e-06,
      "loss": 1.1234869,
      "memory(GiB)": 112.26,
      "step": 28580,
      "train_speed(iter/s)": 1.129969
    },
    {
      "acc": 0.7457016,
      "epoch": 0.7251395230847285,
      "grad_norm": 5.15625,
      "learning_rate": 7.558434270598672e-06,
      "loss": 1.06968842,
      "memory(GiB)": 112.26,
      "step": 28585,
      "train_speed(iter/s)": 1.129984
    },
    {
      "acc": 0.73657136,
      "epoch": 0.7252663622526636,
      "grad_norm": 3.8125,
      "learning_rate": 7.5575332662126885e-06,
      "loss": 1.05265856,
      "memory(GiB)": 112.26,
      "step": 28590,
      "train_speed(iter/s)": 1.130009
    },
    {
      "acc": 0.73886371,
      "epoch": 0.7253932014205987,
      "grad_norm": 3.8125,
      "learning_rate": 7.556632149334975e-06,
      "loss": 1.05404129,
      "memory(GiB)": 112.26,
      "step": 28595,
      "train_speed(iter/s)": 1.130039
    },
    {
      "acc": 0.74346709,
      "epoch": 0.7255200405885337,
      "grad_norm": 3.390625,
      "learning_rate": 7.555730920005163e-06,
      "loss": 1.01898842,
      "memory(GiB)": 112.26,
      "step": 28600,
      "train_speed(iter/s)": 1.130065
    },
    {
      "acc": 0.7107543,
      "epoch": 0.7256468797564688,
      "grad_norm": 4.25,
      "learning_rate": 7.554829578262894e-06,
      "loss": 1.1696661,
      "memory(GiB)": 112.26,
      "step": 28605,
      "train_speed(iter/s)": 1.130095
    },
    {
      "acc": 0.73969402,
      "epoch": 0.7257737189244039,
      "grad_norm": 4.78125,
      "learning_rate": 7.5539281241478155e-06,
      "loss": 1.11528959,
      "memory(GiB)": 112.26,
      "step": 28610,
      "train_speed(iter/s)": 1.130131
    },
    {
      "acc": 0.748248,
      "epoch": 0.7259005580923389,
      "grad_norm": 3.375,
      "learning_rate": 7.5530265576995756e-06,
      "loss": 1.02562752,
      "memory(GiB)": 112.26,
      "step": 28615,
      "train_speed(iter/s)": 1.130159
    },
    {
      "acc": 0.72315149,
      "epoch": 0.726027397260274,
      "grad_norm": 3.34375,
      "learning_rate": 7.552124878957829e-06,
      "loss": 1.13414555,
      "memory(GiB)": 112.26,
      "step": 28620,
      "train_speed(iter/s)": 1.13018
    },
    {
      "acc": 0.73336916,
      "epoch": 0.726154236428209,
      "grad_norm": 4.0,
      "learning_rate": 7.551223087962234e-06,
      "loss": 1.08357677,
      "memory(GiB)": 112.26,
      "step": 28625,
      "train_speed(iter/s)": 1.130188
    },
    {
      "acc": 0.74775581,
      "epoch": 0.7262810755961441,
      "grad_norm": 3.328125,
      "learning_rate": 7.55032118475246e-06,
      "loss": 1.02245502,
      "memory(GiB)": 112.26,
      "step": 28630,
      "train_speed(iter/s)": 1.130212
    },
    {
      "acc": 0.72999878,
      "epoch": 0.7264079147640792,
      "grad_norm": 3.0,
      "learning_rate": 7.549419169368171e-06,
      "loss": 1.11298008,
      "memory(GiB)": 112.26,
      "step": 28635,
      "train_speed(iter/s)": 1.130235
    },
    {
      "acc": 0.72490778,
      "epoch": 0.7265347539320142,
      "grad_norm": 4.09375,
      "learning_rate": 7.548517041849048e-06,
      "loss": 1.12370281,
      "memory(GiB)": 112.26,
      "step": 28640,
      "train_speed(iter/s)": 1.130278
    },
    {
      "acc": 0.74019399,
      "epoch": 0.7266615930999493,
      "grad_norm": 3.28125,
      "learning_rate": 7.547614802234764e-06,
      "loss": 1.05989485,
      "memory(GiB)": 112.26,
      "step": 28645,
      "train_speed(iter/s)": 1.130315
    },
    {
      "acc": 0.74869823,
      "epoch": 0.7267884322678844,
      "grad_norm": 3.40625,
      "learning_rate": 7.546712450565008e-06,
      "loss": 1.07940454,
      "memory(GiB)": 112.26,
      "step": 28650,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.74218817,
      "epoch": 0.7269152714358194,
      "grad_norm": 2.96875,
      "learning_rate": 7.545809986879469e-06,
      "loss": 1.01452465,
      "memory(GiB)": 112.26,
      "step": 28655,
      "train_speed(iter/s)": 1.130344
    },
    {
      "acc": 0.73848796,
      "epoch": 0.7270421106037545,
      "grad_norm": 4.4375,
      "learning_rate": 7.5449074112178385e-06,
      "loss": 1.08426228,
      "memory(GiB)": 112.26,
      "step": 28660,
      "train_speed(iter/s)": 1.130372
    },
    {
      "acc": 0.73133283,
      "epoch": 0.7271689497716894,
      "grad_norm": 4.6875,
      "learning_rate": 7.54400472361982e-06,
      "loss": 1.16464424,
      "memory(GiB)": 112.26,
      "step": 28665,
      "train_speed(iter/s)": 1.130414
    },
    {
      "acc": 0.72406988,
      "epoch": 0.7272957889396245,
      "grad_norm": 3.453125,
      "learning_rate": 7.543101924125115e-06,
      "loss": 1.08730202,
      "memory(GiB)": 112.26,
      "step": 28670,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.72540436,
      "epoch": 0.7274226281075596,
      "grad_norm": 4.0625,
      "learning_rate": 7.542199012773432e-06,
      "loss": 1.14776363,
      "memory(GiB)": 112.26,
      "step": 28675,
      "train_speed(iter/s)": 1.130467
    },
    {
      "acc": 0.73423109,
      "epoch": 0.7275494672754946,
      "grad_norm": 3.78125,
      "learning_rate": 7.541295989604488e-06,
      "loss": 1.09428644,
      "memory(GiB)": 112.26,
      "step": 28680,
      "train_speed(iter/s)": 1.130506
    },
    {
      "acc": 0.74133487,
      "epoch": 0.7276763064434297,
      "grad_norm": 4.15625,
      "learning_rate": 7.540392854657999e-06,
      "loss": 1.03933926,
      "memory(GiB)": 112.26,
      "step": 28685,
      "train_speed(iter/s)": 1.130531
    },
    {
      "acc": 0.74624109,
      "epoch": 0.7278031456113648,
      "grad_norm": 4.53125,
      "learning_rate": 7.539489607973691e-06,
      "loss": 1.07004967,
      "memory(GiB)": 112.26,
      "step": 28690,
      "train_speed(iter/s)": 1.130556
    },
    {
      "acc": 0.7308547,
      "epoch": 0.7279299847792998,
      "grad_norm": 4.46875,
      "learning_rate": 7.5385862495912905e-06,
      "loss": 1.1524044,
      "memory(GiB)": 112.26,
      "step": 28695,
      "train_speed(iter/s)": 1.130577
    },
    {
      "acc": 0.73375177,
      "epoch": 0.7280568239472349,
      "grad_norm": 4.28125,
      "learning_rate": 7.537682779550537e-06,
      "loss": 1.10107412,
      "memory(GiB)": 112.26,
      "step": 28700,
      "train_speed(iter/s)": 1.130596
    },
    {
      "acc": 0.72000337,
      "epoch": 0.7281836631151699,
      "grad_norm": 4.0,
      "learning_rate": 7.536779197891159e-06,
      "loss": 1.11841478,
      "memory(GiB)": 112.26,
      "step": 28705,
      "train_speed(iter/s)": 1.130627
    },
    {
      "acc": 0.74130278,
      "epoch": 0.728310502283105,
      "grad_norm": 3.609375,
      "learning_rate": 7.535875504652912e-06,
      "loss": 1.05699539,
      "memory(GiB)": 112.26,
      "step": 28710,
      "train_speed(iter/s)": 1.130664
    },
    {
      "acc": 0.73448505,
      "epoch": 0.7284373414510401,
      "grad_norm": 3.703125,
      "learning_rate": 7.534971699875534e-06,
      "loss": 1.10772181,
      "memory(GiB)": 112.26,
      "step": 28715,
      "train_speed(iter/s)": 1.130686
    },
    {
      "acc": 0.73422899,
      "epoch": 0.7285641806189751,
      "grad_norm": 3.609375,
      "learning_rate": 7.534067783598784e-06,
      "loss": 1.08408394,
      "memory(GiB)": 112.26,
      "step": 28720,
      "train_speed(iter/s)": 1.130718
    },
    {
      "acc": 0.71432476,
      "epoch": 0.7286910197869102,
      "grad_norm": 3.609375,
      "learning_rate": 7.533163755862419e-06,
      "loss": 1.12071114,
      "memory(GiB)": 112.26,
      "step": 28725,
      "train_speed(iter/s)": 1.130724
    },
    {
      "acc": 0.72441092,
      "epoch": 0.7288178589548453,
      "grad_norm": 3.453125,
      "learning_rate": 7.5322596167062035e-06,
      "loss": 1.09771137,
      "memory(GiB)": 112.26,
      "step": 28730,
      "train_speed(iter/s)": 1.130754
    },
    {
      "acc": 0.74200239,
      "epoch": 0.7289446981227803,
      "grad_norm": 3.40625,
      "learning_rate": 7.5313553661699035e-06,
      "loss": 1.04458618,
      "memory(GiB)": 112.26,
      "step": 28735,
      "train_speed(iter/s)": 1.130759
    },
    {
      "acc": 0.75672221,
      "epoch": 0.7290715372907154,
      "grad_norm": 9.0625,
      "learning_rate": 7.530451004293292e-06,
      "loss": 1.0052187,
      "memory(GiB)": 112.26,
      "step": 28740,
      "train_speed(iter/s)": 1.130793
    },
    {
      "acc": 0.73478184,
      "epoch": 0.7291983764586504,
      "grad_norm": 3.578125,
      "learning_rate": 7.5295465311161485e-06,
      "loss": 1.05241375,
      "memory(GiB)": 112.26,
      "step": 28745,
      "train_speed(iter/s)": 1.130817
    },
    {
      "acc": 0.74603448,
      "epoch": 0.7293252156265855,
      "grad_norm": 3.5,
      "learning_rate": 7.5286419466782546e-06,
      "loss": 1.0073513,
      "memory(GiB)": 112.26,
      "step": 28750,
      "train_speed(iter/s)": 1.130858
    },
    {
      "acc": 0.7375062,
      "epoch": 0.7294520547945206,
      "grad_norm": 6.96875,
      "learning_rate": 7.527737251019399e-06,
      "loss": 1.10308533,
      "memory(GiB)": 112.26,
      "step": 28755,
      "train_speed(iter/s)": 1.130898
    },
    {
      "acc": 0.71886883,
      "epoch": 0.7295788939624556,
      "grad_norm": 4.5,
      "learning_rate": 7.526832444179373e-06,
      "loss": 1.1286869,
      "memory(GiB)": 112.26,
      "step": 28760,
      "train_speed(iter/s)": 1.130924
    },
    {
      "acc": 0.74851151,
      "epoch": 0.7297057331303907,
      "grad_norm": 4.3125,
      "learning_rate": 7.525927526197974e-06,
      "loss": 1.0984477,
      "memory(GiB)": 112.26,
      "step": 28765,
      "train_speed(iter/s)": 1.13095
    },
    {
      "acc": 0.72587595,
      "epoch": 0.7298325722983258,
      "grad_norm": 3.15625,
      "learning_rate": 7.5250224971150065e-06,
      "loss": 1.11239119,
      "memory(GiB)": 112.26,
      "step": 28770,
      "train_speed(iter/s)": 1.130968
    },
    {
      "acc": 0.74149075,
      "epoch": 0.7299594114662608,
      "grad_norm": 3.234375,
      "learning_rate": 7.524117356970275e-06,
      "loss": 1.04214163,
      "memory(GiB)": 112.26,
      "step": 28775,
      "train_speed(iter/s)": 1.130995
    },
    {
      "acc": 0.72905154,
      "epoch": 0.7300862506341959,
      "grad_norm": 3.796875,
      "learning_rate": 7.523212105803594e-06,
      "loss": 1.13968763,
      "memory(GiB)": 112.26,
      "step": 28780,
      "train_speed(iter/s)": 1.13102
    },
    {
      "acc": 0.7368413,
      "epoch": 0.7302130898021308,
      "grad_norm": 4.625,
      "learning_rate": 7.522306743654777e-06,
      "loss": 1.06827135,
      "memory(GiB)": 112.26,
      "step": 28785,
      "train_speed(iter/s)": 1.13106
    },
    {
      "acc": 0.73797054,
      "epoch": 0.7303399289700659,
      "grad_norm": 3.46875,
      "learning_rate": 7.521401270563651e-06,
      "loss": 1.10830641,
      "memory(GiB)": 112.26,
      "step": 28790,
      "train_speed(iter/s)": 1.13108
    },
    {
      "acc": 0.72318783,
      "epoch": 0.730466768138001,
      "grad_norm": 3.625,
      "learning_rate": 7.520495686570037e-06,
      "loss": 1.08916607,
      "memory(GiB)": 112.26,
      "step": 28795,
      "train_speed(iter/s)": 1.131108
    },
    {
      "acc": 0.75005102,
      "epoch": 0.730593607305936,
      "grad_norm": 3.828125,
      "learning_rate": 7.5195899917137716e-06,
      "loss": 1.04015532,
      "memory(GiB)": 112.26,
      "step": 28800,
      "train_speed(iter/s)": 1.131145
    },
    {
      "acc": 0.72849083,
      "epoch": 0.7307204464738711,
      "grad_norm": 4.34375,
      "learning_rate": 7.518684186034688e-06,
      "loss": 1.0473814,
      "memory(GiB)": 112.26,
      "step": 28805,
      "train_speed(iter/s)": 1.131156
    },
    {
      "acc": 0.7448534,
      "epoch": 0.7308472856418062,
      "grad_norm": 2.9375,
      "learning_rate": 7.51777826957263e-06,
      "loss": 1.05058298,
      "memory(GiB)": 112.26,
      "step": 28810,
      "train_speed(iter/s)": 1.13119
    },
    {
      "acc": 0.7334446,
      "epoch": 0.7309741248097412,
      "grad_norm": 3.65625,
      "learning_rate": 7.516872242367441e-06,
      "loss": 1.02342911,
      "memory(GiB)": 112.26,
      "step": 28815,
      "train_speed(iter/s)": 1.131202
    },
    {
      "acc": 0.7387794,
      "epoch": 0.7311009639776763,
      "grad_norm": 3.65625,
      "learning_rate": 7.5159661044589745e-06,
      "loss": 1.10961504,
      "memory(GiB)": 112.26,
      "step": 28820,
      "train_speed(iter/s)": 1.13122
    },
    {
      "acc": 0.73956809,
      "epoch": 0.7312278031456113,
      "grad_norm": 4.59375,
      "learning_rate": 7.515059855887087e-06,
      "loss": 1.0899272,
      "memory(GiB)": 112.26,
      "step": 28825,
      "train_speed(iter/s)": 1.131234
    },
    {
      "acc": 0.73294697,
      "epoch": 0.7313546423135464,
      "grad_norm": 4.09375,
      "learning_rate": 7.514153496691636e-06,
      "loss": 1.03039618,
      "memory(GiB)": 112.26,
      "step": 28830,
      "train_speed(iter/s)": 1.131244
    },
    {
      "acc": 0.74469013,
      "epoch": 0.7314814814814815,
      "grad_norm": 3.578125,
      "learning_rate": 7.513247026912491e-06,
      "loss": 1.00190525,
      "memory(GiB)": 112.26,
      "step": 28835,
      "train_speed(iter/s)": 1.131254
    },
    {
      "acc": 0.73952579,
      "epoch": 0.7316083206494165,
      "grad_norm": 4.34375,
      "learning_rate": 7.512340446589521e-06,
      "loss": 1.07043858,
      "memory(GiB)": 112.26,
      "step": 28840,
      "train_speed(iter/s)": 1.131285
    },
    {
      "acc": 0.73956571,
      "epoch": 0.7317351598173516,
      "grad_norm": 3.078125,
      "learning_rate": 7.5114337557625985e-06,
      "loss": 1.05832996,
      "memory(GiB)": 112.26,
      "step": 28845,
      "train_speed(iter/s)": 1.13131
    },
    {
      "acc": 0.75963383,
      "epoch": 0.7318619989852867,
      "grad_norm": 4.15625,
      "learning_rate": 7.510526954471611e-06,
      "loss": 0.96069984,
      "memory(GiB)": 112.26,
      "step": 28850,
      "train_speed(iter/s)": 1.131328
    },
    {
      "acc": 0.73096495,
      "epoch": 0.7319888381532217,
      "grad_norm": 6.34375,
      "learning_rate": 7.509620042756436e-06,
      "loss": 1.11900177,
      "memory(GiB)": 112.26,
      "step": 28855,
      "train_speed(iter/s)": 1.131326
    },
    {
      "acc": 0.72632918,
      "epoch": 0.7321156773211568,
      "grad_norm": 3.796875,
      "learning_rate": 7.508713020656968e-06,
      "loss": 1.12071581,
      "memory(GiB)": 112.26,
      "step": 28860,
      "train_speed(iter/s)": 1.131335
    },
    {
      "acc": 0.73018627,
      "epoch": 0.7322425164890918,
      "grad_norm": 3.65625,
      "learning_rate": 7.5078058882131e-06,
      "loss": 1.10539618,
      "memory(GiB)": 112.26,
      "step": 28865,
      "train_speed(iter/s)": 1.13135
    },
    {
      "acc": 0.72756987,
      "epoch": 0.7323693556570269,
      "grad_norm": 3.515625,
      "learning_rate": 7.506898645464733e-06,
      "loss": 1.10290766,
      "memory(GiB)": 112.26,
      "step": 28870,
      "train_speed(iter/s)": 1.13138
    },
    {
      "acc": 0.74679222,
      "epoch": 0.732496194824962,
      "grad_norm": 3.796875,
      "learning_rate": 7.505991292451772e-06,
      "loss": 0.99668102,
      "memory(GiB)": 112.26,
      "step": 28875,
      "train_speed(iter/s)": 1.131408
    },
    {
      "acc": 0.72703247,
      "epoch": 0.732623033992897,
      "grad_norm": 2.890625,
      "learning_rate": 7.505083829214125e-06,
      "loss": 1.123878,
      "memory(GiB)": 112.26,
      "step": 28880,
      "train_speed(iter/s)": 1.131442
    },
    {
      "acc": 0.72673464,
      "epoch": 0.7327498731608321,
      "grad_norm": 3.140625,
      "learning_rate": 7.5041762557917065e-06,
      "loss": 1.13846931,
      "memory(GiB)": 112.26,
      "step": 28885,
      "train_speed(iter/s)": 1.131465
    },
    {
      "acc": 0.73119712,
      "epoch": 0.7328767123287672,
      "grad_norm": 3.296875,
      "learning_rate": 7.5032685722244355e-06,
      "loss": 1.12992954,
      "memory(GiB)": 112.26,
      "step": 28890,
      "train_speed(iter/s)": 1.131493
    },
    {
      "acc": 0.73049688,
      "epoch": 0.7330035514967022,
      "grad_norm": 3.890625,
      "learning_rate": 7.502360778552238e-06,
      "loss": 1.06722107,
      "memory(GiB)": 112.26,
      "step": 28895,
      "train_speed(iter/s)": 1.131525
    },
    {
      "acc": 0.73132544,
      "epoch": 0.7331303906646373,
      "grad_norm": 3.921875,
      "learning_rate": 7.5014528748150405e-06,
      "loss": 1.10774021,
      "memory(GiB)": 112.26,
      "step": 28900,
      "train_speed(iter/s)": 1.131543
    },
    {
      "acc": 0.73064666,
      "epoch": 0.7332572298325722,
      "grad_norm": 4.21875,
      "learning_rate": 7.5005448610527765e-06,
      "loss": 1.05729866,
      "memory(GiB)": 112.26,
      "step": 28905,
      "train_speed(iter/s)": 1.131571
    },
    {
      "acc": 0.74911933,
      "epoch": 0.7333840690005073,
      "grad_norm": 3.09375,
      "learning_rate": 7.499636737305386e-06,
      "loss": 1.03559532,
      "memory(GiB)": 112.26,
      "step": 28910,
      "train_speed(iter/s)": 1.131603
    },
    {
      "acc": 0.75148659,
      "epoch": 0.7335109081684424,
      "grad_norm": 4.125,
      "learning_rate": 7.498728503612811e-06,
      "loss": 1.03957443,
      "memory(GiB)": 112.26,
      "step": 28915,
      "train_speed(iter/s)": 1.131628
    },
    {
      "acc": 0.73940463,
      "epoch": 0.7336377473363774,
      "grad_norm": 4.15625,
      "learning_rate": 7.497820160015002e-06,
      "loss": 1.08398581,
      "memory(GiB)": 112.26,
      "step": 28920,
      "train_speed(iter/s)": 1.131653
    },
    {
      "acc": 0.72597799,
      "epoch": 0.7337645865043125,
      "grad_norm": 3.234375,
      "learning_rate": 7.496911706551908e-06,
      "loss": 1.09344339,
      "memory(GiB)": 112.26,
      "step": 28925,
      "train_speed(iter/s)": 1.131681
    },
    {
      "acc": 0.74782543,
      "epoch": 0.7338914256722476,
      "grad_norm": 3.90625,
      "learning_rate": 7.496003143263492e-06,
      "loss": 1.04163485,
      "memory(GiB)": 112.26,
      "step": 28930,
      "train_speed(iter/s)": 1.131713
    },
    {
      "acc": 0.725741,
      "epoch": 0.7340182648401826,
      "grad_norm": 3.609375,
      "learning_rate": 7.495094470189712e-06,
      "loss": 1.14946461,
      "memory(GiB)": 112.26,
      "step": 28935,
      "train_speed(iter/s)": 1.131732
    },
    {
      "acc": 0.71090107,
      "epoch": 0.7341451040081177,
      "grad_norm": 4.46875,
      "learning_rate": 7.4941856873705376e-06,
      "loss": 1.19766264,
      "memory(GiB)": 112.26,
      "step": 28940,
      "train_speed(iter/s)": 1.131757
    },
    {
      "acc": 0.73046412,
      "epoch": 0.7342719431760527,
      "grad_norm": 3.328125,
      "learning_rate": 7.493276794845941e-06,
      "loss": 1.10725079,
      "memory(GiB)": 112.26,
      "step": 28945,
      "train_speed(iter/s)": 1.131792
    },
    {
      "acc": 0.7412838,
      "epoch": 0.7343987823439878,
      "grad_norm": 3.625,
      "learning_rate": 7.4923677926559005e-06,
      "loss": 1.02707958,
      "memory(GiB)": 112.26,
      "step": 28950,
      "train_speed(iter/s)": 1.131824
    },
    {
      "acc": 0.74058061,
      "epoch": 0.7345256215119229,
      "grad_norm": 3.75,
      "learning_rate": 7.491458680840396e-06,
      "loss": 1.07460356,
      "memory(GiB)": 112.26,
      "step": 28955,
      "train_speed(iter/s)": 1.131858
    },
    {
      "acc": 0.72848835,
      "epoch": 0.7346524606798579,
      "grad_norm": 3.65625,
      "learning_rate": 7.490549459439415e-06,
      "loss": 1.08178406,
      "memory(GiB)": 112.26,
      "step": 28960,
      "train_speed(iter/s)": 1.131874
    },
    {
      "acc": 0.73400402,
      "epoch": 0.734779299847793,
      "grad_norm": 3.015625,
      "learning_rate": 7.48964012849295e-06,
      "loss": 1.08463478,
      "memory(GiB)": 112.26,
      "step": 28965,
      "train_speed(iter/s)": 1.131913
    },
    {
      "acc": 0.73511372,
      "epoch": 0.7349061390157281,
      "grad_norm": 3.640625,
      "learning_rate": 7.488730688040995e-06,
      "loss": 1.05053749,
      "memory(GiB)": 112.26,
      "step": 28970,
      "train_speed(iter/s)": 1.131927
    },
    {
      "acc": 0.72930999,
      "epoch": 0.7350329781836631,
      "grad_norm": 5.5,
      "learning_rate": 7.487821138123554e-06,
      "loss": 1.14066505,
      "memory(GiB)": 112.26,
      "step": 28975,
      "train_speed(iter/s)": 1.13195
    },
    {
      "acc": 0.75576496,
      "epoch": 0.7351598173515982,
      "grad_norm": 3.609375,
      "learning_rate": 7.486911478780633e-06,
      "loss": 1.0142004,
      "memory(GiB)": 112.26,
      "step": 28980,
      "train_speed(iter/s)": 1.131971
    },
    {
      "acc": 0.74133635,
      "epoch": 0.7352866565195332,
      "grad_norm": 3.734375,
      "learning_rate": 7.4860017100522395e-06,
      "loss": 1.06686859,
      "memory(GiB)": 112.26,
      "step": 28985,
      "train_speed(iter/s)": 1.132009
    },
    {
      "acc": 0.73512487,
      "epoch": 0.7354134956874683,
      "grad_norm": 4.46875,
      "learning_rate": 7.485091831978394e-06,
      "loss": 1.09521255,
      "memory(GiB)": 112.26,
      "step": 28990,
      "train_speed(iter/s)": 1.132035
    },
    {
      "acc": 0.73000627,
      "epoch": 0.7355403348554034,
      "grad_norm": 3.546875,
      "learning_rate": 7.484181844599113e-06,
      "loss": 1.11127167,
      "memory(GiB)": 112.26,
      "step": 28995,
      "train_speed(iter/s)": 1.132078
    },
    {
      "acc": 0.73975649,
      "epoch": 0.7356671740233384,
      "grad_norm": 3.6875,
      "learning_rate": 7.483271747954425e-06,
      "loss": 1.02016773,
      "memory(GiB)": 112.26,
      "step": 29000,
      "train_speed(iter/s)": 1.13211
    },
    {
      "epoch": 0.7356671740233384,
      "eval_acc": 0.7241009320110179,
      "eval_loss": 1.0520192384719849,
      "eval_runtime": 70.719,
      "eval_samples_per_second": 90.075,
      "eval_steps_per_second": 22.526,
      "step": 29000
    },
    {
      "acc": 0.73722315,
      "epoch": 0.7357940131912735,
      "grad_norm": 4.21875,
      "learning_rate": 7.482361542084356e-06,
      "loss": 1.07077446,
      "memory(GiB)": 112.26,
      "step": 29005,
      "train_speed(iter/s)": 1.127075
    },
    {
      "acc": 0.74143229,
      "epoch": 0.7359208523592086,
      "grad_norm": 3.125,
      "learning_rate": 7.481451227028946e-06,
      "loss": 1.02889347,
      "memory(GiB)": 112.26,
      "step": 29010,
      "train_speed(iter/s)": 1.127089
    },
    {
      "acc": 0.74728799,
      "epoch": 0.7360476915271436,
      "grad_norm": 3.875,
      "learning_rate": 7.4805408028282316e-06,
      "loss": 1.03257008,
      "memory(GiB)": 112.26,
      "step": 29015,
      "train_speed(iter/s)": 1.127124
    },
    {
      "acc": 0.74043751,
      "epoch": 0.7361745306950787,
      "grad_norm": 3.234375,
      "learning_rate": 7.479630269522257e-06,
      "loss": 1.050457,
      "memory(GiB)": 112.26,
      "step": 29020,
      "train_speed(iter/s)": 1.127158
    },
    {
      "acc": 0.7276546,
      "epoch": 0.7363013698630136,
      "grad_norm": 3.703125,
      "learning_rate": 7.478719627151073e-06,
      "loss": 1.15961771,
      "memory(GiB)": 112.26,
      "step": 29025,
      "train_speed(iter/s)": 1.127181
    },
    {
      "acc": 0.724929,
      "epoch": 0.7364282090309487,
      "grad_norm": 4.3125,
      "learning_rate": 7.4778088757547325e-06,
      "loss": 1.09892225,
      "memory(GiB)": 112.26,
      "step": 29030,
      "train_speed(iter/s)": 1.127199
    },
    {
      "acc": 0.7384481,
      "epoch": 0.7365550481988838,
      "grad_norm": 4.25,
      "learning_rate": 7.476898015373296e-06,
      "loss": 1.10900774,
      "memory(GiB)": 112.26,
      "step": 29035,
      "train_speed(iter/s)": 1.127214
    },
    {
      "acc": 0.73815522,
      "epoch": 0.7366818873668188,
      "grad_norm": 3.375,
      "learning_rate": 7.4759870460468256e-06,
      "loss": 1.04542723,
      "memory(GiB)": 112.26,
      "step": 29040,
      "train_speed(iter/s)": 1.127253
    },
    {
      "acc": 0.73293772,
      "epoch": 0.7368087265347539,
      "grad_norm": 4.34375,
      "learning_rate": 7.475075967815391e-06,
      "loss": 1.05823984,
      "memory(GiB)": 112.26,
      "step": 29045,
      "train_speed(iter/s)": 1.127272
    },
    {
      "acc": 0.72929273,
      "epoch": 0.736935565702689,
      "grad_norm": 3.421875,
      "learning_rate": 7.474164780719064e-06,
      "loss": 1.06769962,
      "memory(GiB)": 112.26,
      "step": 29050,
      "train_speed(iter/s)": 1.127301
    },
    {
      "acc": 0.72526646,
      "epoch": 0.737062404870624,
      "grad_norm": 3.765625,
      "learning_rate": 7.473253484797924e-06,
      "loss": 1.10545654,
      "memory(GiB)": 112.26,
      "step": 29055,
      "train_speed(iter/s)": 1.12733
    },
    {
      "acc": 0.74804382,
      "epoch": 0.7371892440385591,
      "grad_norm": 4.28125,
      "learning_rate": 7.4723420800920545e-06,
      "loss": 1.02399769,
      "memory(GiB)": 112.26,
      "step": 29060,
      "train_speed(iter/s)": 1.127372
    },
    {
      "acc": 0.7413743,
      "epoch": 0.7373160832064941,
      "grad_norm": 3.578125,
      "learning_rate": 7.47143056664154e-06,
      "loss": 1.05076275,
      "memory(GiB)": 112.26,
      "step": 29065,
      "train_speed(iter/s)": 1.127401
    },
    {
      "acc": 0.74541159,
      "epoch": 0.7374429223744292,
      "grad_norm": 3.828125,
      "learning_rate": 7.470518944486476e-06,
      "loss": 1.05272503,
      "memory(GiB)": 112.26,
      "step": 29070,
      "train_speed(iter/s)": 1.127433
    },
    {
      "acc": 0.72710428,
      "epoch": 0.7375697615423643,
      "grad_norm": 4.21875,
      "learning_rate": 7.469607213666958e-06,
      "loss": 1.12916698,
      "memory(GiB)": 112.26,
      "step": 29075,
      "train_speed(iter/s)": 1.127462
    },
    {
      "acc": 0.73270187,
      "epoch": 0.7376966007102993,
      "grad_norm": 4.03125,
      "learning_rate": 7.468695374223092e-06,
      "loss": 1.04897232,
      "memory(GiB)": 112.26,
      "step": 29080,
      "train_speed(iter/s)": 1.127486
    },
    {
      "acc": 0.73905449,
      "epoch": 0.7378234398782344,
      "grad_norm": 3.203125,
      "learning_rate": 7.4677834261949765e-06,
      "loss": 1.09041452,
      "memory(GiB)": 112.26,
      "step": 29085,
      "train_speed(iter/s)": 1.127518
    },
    {
      "acc": 0.75388627,
      "epoch": 0.7379502790461695,
      "grad_norm": 3.609375,
      "learning_rate": 7.466871369622731e-06,
      "loss": 1.00068207,
      "memory(GiB)": 112.26,
      "step": 29090,
      "train_speed(iter/s)": 1.127549
    },
    {
      "acc": 0.72781253,
      "epoch": 0.7380771182141045,
      "grad_norm": 3.9375,
      "learning_rate": 7.465959204546469e-06,
      "loss": 1.1296587,
      "memory(GiB)": 112.26,
      "step": 29095,
      "train_speed(iter/s)": 1.127562
    },
    {
      "acc": 0.73158941,
      "epoch": 0.7382039573820396,
      "grad_norm": 3.921875,
      "learning_rate": 7.465046931006311e-06,
      "loss": 1.09490376,
      "memory(GiB)": 112.26,
      "step": 29100,
      "train_speed(iter/s)": 1.127598
    },
    {
      "acc": 0.73522439,
      "epoch": 0.7383307965499746,
      "grad_norm": 3.578125,
      "learning_rate": 7.464134549042383e-06,
      "loss": 1.06700687,
      "memory(GiB)": 112.26,
      "step": 29105,
      "train_speed(iter/s)": 1.127625
    },
    {
      "acc": 0.73661475,
      "epoch": 0.7384576357179097,
      "grad_norm": 3.28125,
      "learning_rate": 7.463222058694817e-06,
      "loss": 1.10323725,
      "memory(GiB)": 112.26,
      "step": 29110,
      "train_speed(iter/s)": 1.127656
    },
    {
      "acc": 0.73191323,
      "epoch": 0.7385844748858448,
      "grad_norm": 3.09375,
      "learning_rate": 7.462309460003747e-06,
      "loss": 1.09770355,
      "memory(GiB)": 112.26,
      "step": 29115,
      "train_speed(iter/s)": 1.127689
    },
    {
      "acc": 0.73766885,
      "epoch": 0.7387113140537798,
      "grad_norm": 4.375,
      "learning_rate": 7.461396753009314e-06,
      "loss": 1.09536848,
      "memory(GiB)": 112.26,
      "step": 29120,
      "train_speed(iter/s)": 1.127726
    },
    {
      "acc": 0.73754168,
      "epoch": 0.7388381532217149,
      "grad_norm": 3.234375,
      "learning_rate": 7.460483937751662e-06,
      "loss": 1.06660843,
      "memory(GiB)": 112.26,
      "step": 29125,
      "train_speed(iter/s)": 1.127757
    },
    {
      "acc": 0.72598495,
      "epoch": 0.73896499238965,
      "grad_norm": 3.203125,
      "learning_rate": 7.45957101427094e-06,
      "loss": 1.05601463,
      "memory(GiB)": 112.26,
      "step": 29130,
      "train_speed(iter/s)": 1.127786
    },
    {
      "acc": 0.73005552,
      "epoch": 0.739091831557585,
      "grad_norm": 3.34375,
      "learning_rate": 7.458657982607303e-06,
      "loss": 1.0880703,
      "memory(GiB)": 112.26,
      "step": 29135,
      "train_speed(iter/s)": 1.127822
    },
    {
      "acc": 0.73185291,
      "epoch": 0.73921867072552,
      "grad_norm": 5.15625,
      "learning_rate": 7.457744842800913e-06,
      "loss": 1.10267506,
      "memory(GiB)": 112.26,
      "step": 29140,
      "train_speed(iter/s)": 1.127828
    },
    {
      "acc": 0.72040458,
      "epoch": 0.739345509893455,
      "grad_norm": 3.71875,
      "learning_rate": 7.45683159489193e-06,
      "loss": 1.16527786,
      "memory(GiB)": 112.26,
      "step": 29145,
      "train_speed(iter/s)": 1.127844
    },
    {
      "acc": 0.73113604,
      "epoch": 0.7394723490613901,
      "grad_norm": 4.0625,
      "learning_rate": 7.455918238920526e-06,
      "loss": 1.06479321,
      "memory(GiB)": 112.26,
      "step": 29150,
      "train_speed(iter/s)": 1.12787
    },
    {
      "acc": 0.73322144,
      "epoch": 0.7395991882293252,
      "grad_norm": 3.703125,
      "learning_rate": 7.455004774926873e-06,
      "loss": 1.12111607,
      "memory(GiB)": 112.26,
      "step": 29155,
      "train_speed(iter/s)": 1.127887
    },
    {
      "acc": 0.73213601,
      "epoch": 0.7397260273972602,
      "grad_norm": 4.65625,
      "learning_rate": 7.454091202951148e-06,
      "loss": 1.08416119,
      "memory(GiB)": 112.26,
      "step": 29160,
      "train_speed(iter/s)": 1.127893
    },
    {
      "acc": 0.72874713,
      "epoch": 0.7398528665651953,
      "grad_norm": 4.0625,
      "learning_rate": 7.453177523033536e-06,
      "loss": 1.09827137,
      "memory(GiB)": 112.26,
      "step": 29165,
      "train_speed(iter/s)": 1.12792
    },
    {
      "acc": 0.71955628,
      "epoch": 0.7399797057331304,
      "grad_norm": 4.28125,
      "learning_rate": 7.452263735214223e-06,
      "loss": 1.09580879,
      "memory(GiB)": 112.26,
      "step": 29170,
      "train_speed(iter/s)": 1.127943
    },
    {
      "acc": 0.73716302,
      "epoch": 0.7401065449010654,
      "grad_norm": 3.59375,
      "learning_rate": 7.451349839533404e-06,
      "loss": 1.09654999,
      "memory(GiB)": 112.26,
      "step": 29175,
      "train_speed(iter/s)": 1.127973
    },
    {
      "acc": 0.72576132,
      "epoch": 0.7402333840690005,
      "grad_norm": 3.859375,
      "learning_rate": 7.450435836031273e-06,
      "loss": 1.06677055,
      "memory(GiB)": 112.26,
      "step": 29180,
      "train_speed(iter/s)": 1.128001
    },
    {
      "acc": 0.74148059,
      "epoch": 0.7403602232369355,
      "grad_norm": 3.828125,
      "learning_rate": 7.449521724748034e-06,
      "loss": 1.04945784,
      "memory(GiB)": 112.26,
      "step": 29185,
      "train_speed(iter/s)": 1.128021
    },
    {
      "acc": 0.74465094,
      "epoch": 0.7404870624048706,
      "grad_norm": 4.0625,
      "learning_rate": 7.4486075057238936e-06,
      "loss": 1.03962345,
      "memory(GiB)": 112.26,
      "step": 29190,
      "train_speed(iter/s)": 1.128043
    },
    {
      "acc": 0.74081087,
      "epoch": 0.7406139015728057,
      "grad_norm": 4.09375,
      "learning_rate": 7.447693178999062e-06,
      "loss": 1.08584986,
      "memory(GiB)": 112.26,
      "step": 29195,
      "train_speed(iter/s)": 1.128056
    },
    {
      "acc": 0.73242388,
      "epoch": 0.7407407407407407,
      "grad_norm": 4.21875,
      "learning_rate": 7.446778744613759e-06,
      "loss": 1.10446911,
      "memory(GiB)": 112.26,
      "step": 29200,
      "train_speed(iter/s)": 1.128079
    },
    {
      "acc": 0.74652395,
      "epoch": 0.7408675799086758,
      "grad_norm": 3.53125,
      "learning_rate": 7.445864202608198e-06,
      "loss": 1.03721199,
      "memory(GiB)": 112.26,
      "step": 29205,
      "train_speed(iter/s)": 1.12812
    },
    {
      "acc": 0.72829084,
      "epoch": 0.7409944190766109,
      "grad_norm": 4.21875,
      "learning_rate": 7.444949553022613e-06,
      "loss": 1.09869137,
      "memory(GiB)": 112.26,
      "step": 29210,
      "train_speed(iter/s)": 1.128131
    },
    {
      "acc": 0.74097524,
      "epoch": 0.7411212582445459,
      "grad_norm": 3.921875,
      "learning_rate": 7.444034795897229e-06,
      "loss": 1.04336224,
      "memory(GiB)": 112.26,
      "step": 29215,
      "train_speed(iter/s)": 1.128154
    },
    {
      "acc": 0.74990129,
      "epoch": 0.741248097412481,
      "grad_norm": 3.46875,
      "learning_rate": 7.443119931272285e-06,
      "loss": 1.03436193,
      "memory(GiB)": 112.26,
      "step": 29220,
      "train_speed(iter/s)": 1.128159
    },
    {
      "acc": 0.74091506,
      "epoch": 0.741374936580416,
      "grad_norm": 3.859375,
      "learning_rate": 7.442204959188016e-06,
      "loss": 1.07958584,
      "memory(GiB)": 112.26,
      "step": 29225,
      "train_speed(iter/s)": 1.128187
    },
    {
      "acc": 0.72675228,
      "epoch": 0.7415017757483511,
      "grad_norm": 3.65625,
      "learning_rate": 7.4412898796846724e-06,
      "loss": 1.09712315,
      "memory(GiB)": 112.26,
      "step": 29230,
      "train_speed(iter/s)": 1.128206
    },
    {
      "acc": 0.7494288,
      "epoch": 0.7416286149162862,
      "grad_norm": 3.546875,
      "learning_rate": 7.440374692802497e-06,
      "loss": 1.03574753,
      "memory(GiB)": 112.26,
      "step": 29235,
      "train_speed(iter/s)": 1.128246
    },
    {
      "acc": 0.73660483,
      "epoch": 0.7417554540842212,
      "grad_norm": 4.15625,
      "learning_rate": 7.439459398581747e-06,
      "loss": 1.05696106,
      "memory(GiB)": 112.26,
      "step": 29240,
      "train_speed(iter/s)": 1.12828
    },
    {
      "acc": 0.74085002,
      "epoch": 0.7418822932521563,
      "grad_norm": 4.5,
      "learning_rate": 7.438543997062684e-06,
      "loss": 1.00770884,
      "memory(GiB)": 112.26,
      "step": 29245,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.72025728,
      "epoch": 0.7420091324200914,
      "grad_norm": 3.515625,
      "learning_rate": 7.437628488285568e-06,
      "loss": 1.06701269,
      "memory(GiB)": 112.26,
      "step": 29250,
      "train_speed(iter/s)": 1.12833
    },
    {
      "acc": 0.72546039,
      "epoch": 0.7421359715880264,
      "grad_norm": 3.265625,
      "learning_rate": 7.4367128722906665e-06,
      "loss": 1.03780479,
      "memory(GiB)": 112.26,
      "step": 29255,
      "train_speed(iter/s)": 1.128355
    },
    {
      "acc": 0.73750257,
      "epoch": 0.7422628107559615,
      "grad_norm": 3.921875,
      "learning_rate": 7.435797149118255e-06,
      "loss": 1.11063766,
      "memory(GiB)": 112.26,
      "step": 29260,
      "train_speed(iter/s)": 1.128393
    },
    {
      "acc": 0.72859406,
      "epoch": 0.7423896499238964,
      "grad_norm": 4.1875,
      "learning_rate": 7.434881318808609e-06,
      "loss": 1.10883121,
      "memory(GiB)": 112.26,
      "step": 29265,
      "train_speed(iter/s)": 1.128422
    },
    {
      "acc": 0.73349791,
      "epoch": 0.7425164890918315,
      "grad_norm": 3.453125,
      "learning_rate": 7.433965381402013e-06,
      "loss": 1.07853289,
      "memory(GiB)": 112.26,
      "step": 29270,
      "train_speed(iter/s)": 1.128459
    },
    {
      "acc": 0.73380361,
      "epoch": 0.7426433282597666,
      "grad_norm": 3.859375,
      "learning_rate": 7.4330493369387514e-06,
      "loss": 1.06455784,
      "memory(GiB)": 112.26,
      "step": 29275,
      "train_speed(iter/s)": 1.128495
    },
    {
      "acc": 0.71462498,
      "epoch": 0.7427701674277016,
      "grad_norm": 3.65625,
      "learning_rate": 7.432133185459117e-06,
      "loss": 1.08395128,
      "memory(GiB)": 112.26,
      "step": 29280,
      "train_speed(iter/s)": 1.128519
    },
    {
      "acc": 0.73803868,
      "epoch": 0.7428970065956367,
      "grad_norm": 3.734375,
      "learning_rate": 7.431216927003406e-06,
      "loss": 1.04365244,
      "memory(GiB)": 112.26,
      "step": 29285,
      "train_speed(iter/s)": 1.128548
    },
    {
      "acc": 0.74046574,
      "epoch": 0.7430238457635718,
      "grad_norm": 4.15625,
      "learning_rate": 7.430300561611922e-06,
      "loss": 1.05324497,
      "memory(GiB)": 112.26,
      "step": 29290,
      "train_speed(iter/s)": 1.128567
    },
    {
      "acc": 0.74271173,
      "epoch": 0.7431506849315068,
      "grad_norm": 3.171875,
      "learning_rate": 7.429384089324967e-06,
      "loss": 1.05742722,
      "memory(GiB)": 112.26,
      "step": 29295,
      "train_speed(iter/s)": 1.128594
    },
    {
      "acc": 0.73565383,
      "epoch": 0.7432775240994419,
      "grad_norm": 3.90625,
      "learning_rate": 7.428467510182854e-06,
      "loss": 1.06592503,
      "memory(GiB)": 112.26,
      "step": 29300,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.74895296,
      "epoch": 0.7434043632673769,
      "grad_norm": 3.8125,
      "learning_rate": 7.427550824225896e-06,
      "loss": 1.04091053,
      "memory(GiB)": 112.26,
      "step": 29305,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.73671026,
      "epoch": 0.743531202435312,
      "grad_norm": 4.375,
      "learning_rate": 7.426634031494417e-06,
      "loss": 1.07975311,
      "memory(GiB)": 112.26,
      "step": 29310,
      "train_speed(iter/s)": 1.128667
    },
    {
      "acc": 0.74558563,
      "epoch": 0.7436580416032471,
      "grad_norm": 3.328125,
      "learning_rate": 7.425717132028738e-06,
      "loss": 1.02965975,
      "memory(GiB)": 112.26,
      "step": 29315,
      "train_speed(iter/s)": 1.128687
    },
    {
      "acc": 0.71763792,
      "epoch": 0.7437848807711821,
      "grad_norm": 3.625,
      "learning_rate": 7.42480012586919e-06,
      "loss": 1.13953581,
      "memory(GiB)": 112.26,
      "step": 29320,
      "train_speed(iter/s)": 1.128726
    },
    {
      "acc": 0.7389904,
      "epoch": 0.7439117199391172,
      "grad_norm": 4.09375,
      "learning_rate": 7.423883013056106e-06,
      "loss": 0.99513607,
      "memory(GiB)": 112.26,
      "step": 29325,
      "train_speed(iter/s)": 1.128743
    },
    {
      "acc": 0.74104557,
      "epoch": 0.7440385591070523,
      "grad_norm": 3.71875,
      "learning_rate": 7.422965793629825e-06,
      "loss": 1.0595192,
      "memory(GiB)": 112.26,
      "step": 29330,
      "train_speed(iter/s)": 1.128774
    },
    {
      "acc": 0.74035292,
      "epoch": 0.7441653982749873,
      "grad_norm": 4.0,
      "learning_rate": 7.422048467630691e-06,
      "loss": 1.08253651,
      "memory(GiB)": 112.26,
      "step": 29335,
      "train_speed(iter/s)": 1.128801
    },
    {
      "acc": 0.7398489,
      "epoch": 0.7442922374429224,
      "grad_norm": 3.5625,
      "learning_rate": 7.421131035099052e-06,
      "loss": 1.03080883,
      "memory(GiB)": 112.26,
      "step": 29340,
      "train_speed(iter/s)": 1.128832
    },
    {
      "acc": 0.74086843,
      "epoch": 0.7444190766108574,
      "grad_norm": 3.59375,
      "learning_rate": 7.42021349607526e-06,
      "loss": 1.06278152,
      "memory(GiB)": 112.26,
      "step": 29345,
      "train_speed(iter/s)": 1.128862
    },
    {
      "acc": 0.7547421,
      "epoch": 0.7445459157787925,
      "grad_norm": 3.078125,
      "learning_rate": 7.419295850599673e-06,
      "loss": 0.97767467,
      "memory(GiB)": 112.26,
      "step": 29350,
      "train_speed(iter/s)": 1.128887
    },
    {
      "acc": 0.73800535,
      "epoch": 0.7446727549467276,
      "grad_norm": 4.03125,
      "learning_rate": 7.418378098712653e-06,
      "loss": 1.07786903,
      "memory(GiB)": 112.26,
      "step": 29355,
      "train_speed(iter/s)": 1.128919
    },
    {
      "acc": 0.72477455,
      "epoch": 0.7447995941146626,
      "grad_norm": 3.40625,
      "learning_rate": 7.417460240454568e-06,
      "loss": 1.20499144,
      "memory(GiB)": 112.26,
      "step": 29360,
      "train_speed(iter/s)": 1.128937
    },
    {
      "acc": 0.73823948,
      "epoch": 0.7449264332825977,
      "grad_norm": 3.75,
      "learning_rate": 7.4165422758657865e-06,
      "loss": 1.0546524,
      "memory(GiB)": 112.26,
      "step": 29365,
      "train_speed(iter/s)": 1.128958
    },
    {
      "acc": 0.74955616,
      "epoch": 0.7450532724505328,
      "grad_norm": 3.828125,
      "learning_rate": 7.415624204986689e-06,
      "loss": 1.03821335,
      "memory(GiB)": 112.26,
      "step": 29370,
      "train_speed(iter/s)": 1.128975
    },
    {
      "acc": 0.73053188,
      "epoch": 0.7451801116184678,
      "grad_norm": 3.34375,
      "learning_rate": 7.4147060278576525e-06,
      "loss": 1.10623503,
      "memory(GiB)": 112.26,
      "step": 29375,
      "train_speed(iter/s)": 1.12899
    },
    {
      "acc": 0.73732395,
      "epoch": 0.7453069507864029,
      "grad_norm": 4.0625,
      "learning_rate": 7.413787744519064e-06,
      "loss": 1.05805779,
      "memory(GiB)": 112.26,
      "step": 29380,
      "train_speed(iter/s)": 1.129028
    },
    {
      "acc": 0.73528633,
      "epoch": 0.7454337899543378,
      "grad_norm": 3.515625,
      "learning_rate": 7.412869355011314e-06,
      "loss": 1.0439991,
      "memory(GiB)": 112.26,
      "step": 29385,
      "train_speed(iter/s)": 1.129053
    },
    {
      "acc": 0.733459,
      "epoch": 0.7455606291222729,
      "grad_norm": 3.734375,
      "learning_rate": 7.411950859374797e-06,
      "loss": 1.091535,
      "memory(GiB)": 112.26,
      "step": 29390,
      "train_speed(iter/s)": 1.129062
    },
    {
      "acc": 0.74490705,
      "epoch": 0.745687468290208,
      "grad_norm": 4.09375,
      "learning_rate": 7.411032257649913e-06,
      "loss": 1.08066158,
      "memory(GiB)": 112.26,
      "step": 29395,
      "train_speed(iter/s)": 1.129083
    },
    {
      "acc": 0.73879595,
      "epoch": 0.745814307458143,
      "grad_norm": 3.609375,
      "learning_rate": 7.410113549877065e-06,
      "loss": 1.08020267,
      "memory(GiB)": 112.26,
      "step": 29400,
      "train_speed(iter/s)": 1.129103
    },
    {
      "acc": 0.73203402,
      "epoch": 0.7459411466260781,
      "grad_norm": 3.109375,
      "learning_rate": 7.409194736096663e-06,
      "loss": 1.09636459,
      "memory(GiB)": 112.26,
      "step": 29405,
      "train_speed(iter/s)": 1.129141
    },
    {
      "acc": 0.74361682,
      "epoch": 0.7460679857940132,
      "grad_norm": 3.59375,
      "learning_rate": 7.408275816349121e-06,
      "loss": 1.06447716,
      "memory(GiB)": 112.26,
      "step": 29410,
      "train_speed(iter/s)": 1.129173
    },
    {
      "acc": 0.74149303,
      "epoch": 0.7461948249619482,
      "grad_norm": 3.46875,
      "learning_rate": 7.4073567906748555e-06,
      "loss": 1.07517328,
      "memory(GiB)": 112.26,
      "step": 29415,
      "train_speed(iter/s)": 1.129205
    },
    {
      "acc": 0.73269544,
      "epoch": 0.7463216641298833,
      "grad_norm": 3.421875,
      "learning_rate": 7.406437659114291e-06,
      "loss": 1.08107023,
      "memory(GiB)": 112.26,
      "step": 29420,
      "train_speed(iter/s)": 1.129222
    },
    {
      "acc": 0.73671484,
      "epoch": 0.7464485032978183,
      "grad_norm": 3.5625,
      "learning_rate": 7.405518421707854e-06,
      "loss": 1.11753902,
      "memory(GiB)": 112.26,
      "step": 29425,
      "train_speed(iter/s)": 1.129237
    },
    {
      "acc": 0.73909397,
      "epoch": 0.7465753424657534,
      "grad_norm": 3.8125,
      "learning_rate": 7.404599078495977e-06,
      "loss": 1.05738907,
      "memory(GiB)": 112.26,
      "step": 29430,
      "train_speed(iter/s)": 1.129277
    },
    {
      "acc": 0.72589064,
      "epoch": 0.7467021816336885,
      "grad_norm": 3.09375,
      "learning_rate": 7.403679629519096e-06,
      "loss": 1.10297947,
      "memory(GiB)": 112.26,
      "step": 29435,
      "train_speed(iter/s)": 1.1293
    },
    {
      "acc": 0.72612743,
      "epoch": 0.7468290208016235,
      "grad_norm": 3.515625,
      "learning_rate": 7.402760074817654e-06,
      "loss": 1.16047783,
      "memory(GiB)": 112.26,
      "step": 29440,
      "train_speed(iter/s)": 1.129323
    },
    {
      "acc": 0.75674329,
      "epoch": 0.7469558599695586,
      "grad_norm": 3.65625,
      "learning_rate": 7.4018404144320955e-06,
      "loss": 1.0652914,
      "memory(GiB)": 112.26,
      "step": 29445,
      "train_speed(iter/s)": 1.129356
    },
    {
      "acc": 0.74388976,
      "epoch": 0.7470826991374937,
      "grad_norm": 3.953125,
      "learning_rate": 7.4009206484028735e-06,
      "loss": 1.10856552,
      "memory(GiB)": 112.26,
      "step": 29450,
      "train_speed(iter/s)": 1.129389
    },
    {
      "acc": 0.73762388,
      "epoch": 0.7472095383054287,
      "grad_norm": 3.546875,
      "learning_rate": 7.400000776770441e-06,
      "loss": 1.04001703,
      "memory(GiB)": 112.26,
      "step": 29455,
      "train_speed(iter/s)": 1.129419
    },
    {
      "acc": 0.71970558,
      "epoch": 0.7473363774733638,
      "grad_norm": 4.4375,
      "learning_rate": 7.39908079957526e-06,
      "loss": 1.08979626,
      "memory(GiB)": 112.26,
      "step": 29460,
      "train_speed(iter/s)": 1.129437
    },
    {
      "acc": 0.72893782,
      "epoch": 0.7474632166412988,
      "grad_norm": 5.4375,
      "learning_rate": 7.398160716857794e-06,
      "loss": 1.11081724,
      "memory(GiB)": 112.26,
      "step": 29465,
      "train_speed(iter/s)": 1.129453
    },
    {
      "acc": 0.74412236,
      "epoch": 0.7475900558092339,
      "grad_norm": 3.546875,
      "learning_rate": 7.397240528658513e-06,
      "loss": 1.04560604,
      "memory(GiB)": 112.26,
      "step": 29470,
      "train_speed(iter/s)": 1.129466
    },
    {
      "acc": 0.73862619,
      "epoch": 0.747716894977169,
      "grad_norm": 3.5625,
      "learning_rate": 7.39632023501789e-06,
      "loss": 1.07138166,
      "memory(GiB)": 112.26,
      "step": 29475,
      "train_speed(iter/s)": 1.129492
    },
    {
      "acc": 0.72607121,
      "epoch": 0.747843734145104,
      "grad_norm": 3.515625,
      "learning_rate": 7.3953998359764036e-06,
      "loss": 1.10496931,
      "memory(GiB)": 112.26,
      "step": 29480,
      "train_speed(iter/s)": 1.129499
    },
    {
      "acc": 0.73791022,
      "epoch": 0.7479705733130391,
      "grad_norm": 4.0,
      "learning_rate": 7.394479331574539e-06,
      "loss": 1.0842268,
      "memory(GiB)": 112.26,
      "step": 29485,
      "train_speed(iter/s)": 1.129521
    },
    {
      "acc": 0.72279844,
      "epoch": 0.7480974124809742,
      "grad_norm": 3.3125,
      "learning_rate": 7.393558721852783e-06,
      "loss": 1.12965126,
      "memory(GiB)": 112.26,
      "step": 29490,
      "train_speed(iter/s)": 1.129545
    },
    {
      "acc": 0.72959328,
      "epoch": 0.7482242516489092,
      "grad_norm": 3.921875,
      "learning_rate": 7.392638006851627e-06,
      "loss": 1.09247732,
      "memory(GiB)": 112.26,
      "step": 29495,
      "train_speed(iter/s)": 1.12957
    },
    {
      "acc": 0.74857569,
      "epoch": 0.7483510908168443,
      "grad_norm": 4.25,
      "learning_rate": 7.391717186611569e-06,
      "loss": 1.05059566,
      "memory(GiB)": 112.26,
      "step": 29500,
      "train_speed(iter/s)": 1.129605
    },
    {
      "acc": 0.74209137,
      "epoch": 0.7484779299847792,
      "grad_norm": 4.125,
      "learning_rate": 7.39079626117311e-06,
      "loss": 1.04970932,
      "memory(GiB)": 112.26,
      "step": 29505,
      "train_speed(iter/s)": 1.129634
    },
    {
      "acc": 0.732342,
      "epoch": 0.7486047691527143,
      "grad_norm": 4.15625,
      "learning_rate": 7.3898752305767595e-06,
      "loss": 1.11485081,
      "memory(GiB)": 112.26,
      "step": 29510,
      "train_speed(iter/s)": 1.129656
    },
    {
      "acc": 0.72640848,
      "epoch": 0.7487316083206494,
      "grad_norm": 3.765625,
      "learning_rate": 7.3889540948630245e-06,
      "loss": 1.09929857,
      "memory(GiB)": 112.26,
      "step": 29515,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.74001818,
      "epoch": 0.7488584474885844,
      "grad_norm": 4.25,
      "learning_rate": 7.388032854072424e-06,
      "loss": 1.05357742,
      "memory(GiB)": 112.26,
      "step": 29520,
      "train_speed(iter/s)": 1.129717
    },
    {
      "acc": 0.71735339,
      "epoch": 0.7489852866565195,
      "grad_norm": 3.984375,
      "learning_rate": 7.387111508245476e-06,
      "loss": 1.14234838,
      "memory(GiB)": 112.26,
      "step": 29525,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.74875989,
      "epoch": 0.7491121258244546,
      "grad_norm": 3.890625,
      "learning_rate": 7.386190057422706e-06,
      "loss": 0.99923277,
      "memory(GiB)": 112.26,
      "step": 29530,
      "train_speed(iter/s)": 1.129779
    },
    {
      "acc": 0.72985277,
      "epoch": 0.7492389649923896,
      "grad_norm": 3.296875,
      "learning_rate": 7.385268501644645e-06,
      "loss": 1.04143658,
      "memory(GiB)": 112.26,
      "step": 29535,
      "train_speed(iter/s)": 1.129783
    },
    {
      "acc": 0.74094367,
      "epoch": 0.7493658041603247,
      "grad_norm": 3.53125,
      "learning_rate": 7.384346840951824e-06,
      "loss": 1.05797997,
      "memory(GiB)": 112.26,
      "step": 29540,
      "train_speed(iter/s)": 1.129799
    },
    {
      "acc": 0.73979425,
      "epoch": 0.7494926433282597,
      "grad_norm": 4.0625,
      "learning_rate": 7.383425075384785e-06,
      "loss": 1.04502449,
      "memory(GiB)": 112.26,
      "step": 29545,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.74380569,
      "epoch": 0.7496194824961948,
      "grad_norm": 3.5625,
      "learning_rate": 7.382503204984069e-06,
      "loss": 1.03418837,
      "memory(GiB)": 112.26,
      "step": 29550,
      "train_speed(iter/s)": 1.129843
    },
    {
      "acc": 0.73582869,
      "epoch": 0.7497463216641299,
      "grad_norm": 3.625,
      "learning_rate": 7.381581229790226e-06,
      "loss": 1.05573225,
      "memory(GiB)": 112.26,
      "step": 29555,
      "train_speed(iter/s)": 1.129885
    },
    {
      "acc": 0.73979244,
      "epoch": 0.7498731608320649,
      "grad_norm": 4.03125,
      "learning_rate": 7.380659149843806e-06,
      "loss": 1.05871038,
      "memory(GiB)": 112.26,
      "step": 29560,
      "train_speed(iter/s)": 1.129899
    },
    {
      "acc": 0.73136492,
      "epoch": 0.75,
      "grad_norm": 3.40625,
      "learning_rate": 7.379736965185369e-06,
      "loss": 1.08645267,
      "memory(GiB)": 112.26,
      "step": 29565,
      "train_speed(iter/s)": 1.129926
    },
    {
      "acc": 0.71861281,
      "epoch": 0.7501268391679351,
      "grad_norm": 2.875,
      "learning_rate": 7.378814675855475e-06,
      "loss": 1.11236877,
      "memory(GiB)": 112.26,
      "step": 29570,
      "train_speed(iter/s)": 1.129948
    },
    {
      "acc": 0.74233274,
      "epoch": 0.7502536783358701,
      "grad_norm": 4.5,
      "learning_rate": 7.37789228189469e-06,
      "loss": 1.08974104,
      "memory(GiB)": 112.26,
      "step": 29575,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.73905673,
      "epoch": 0.7503805175038052,
      "grad_norm": 3.1875,
      "learning_rate": 7.376969783343588e-06,
      "loss": 1.06405411,
      "memory(GiB)": 112.26,
      "step": 29580,
      "train_speed(iter/s)": 1.129993
    },
    {
      "acc": 0.7406827,
      "epoch": 0.7505073566717403,
      "grad_norm": 3.75,
      "learning_rate": 7.37604718024274e-06,
      "loss": 1.0435216,
      "memory(GiB)": 112.26,
      "step": 29585,
      "train_speed(iter/s)": 1.130026
    },
    {
      "acc": 0.74329228,
      "epoch": 0.7506341958396753,
      "grad_norm": 3.984375,
      "learning_rate": 7.375124472632732e-06,
      "loss": 1.07581768,
      "memory(GiB)": 112.26,
      "step": 29590,
      "train_speed(iter/s)": 1.130063
    },
    {
      "acc": 0.72879472,
      "epoch": 0.7507610350076104,
      "grad_norm": 3.40625,
      "learning_rate": 7.374201660554142e-06,
      "loss": 1.1007616,
      "memory(GiB)": 112.26,
      "step": 29595,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.72978029,
      "epoch": 0.7508878741755454,
      "grad_norm": 4.25,
      "learning_rate": 7.373278744047565e-06,
      "loss": 1.10244217,
      "memory(GiB)": 112.26,
      "step": 29600,
      "train_speed(iter/s)": 1.130132
    },
    {
      "acc": 0.73024302,
      "epoch": 0.7510147133434805,
      "grad_norm": 4.65625,
      "learning_rate": 7.372355723153593e-06,
      "loss": 1.12244415,
      "memory(GiB)": 112.26,
      "step": 29605,
      "train_speed(iter/s)": 1.130149
    },
    {
      "acc": 0.73139763,
      "epoch": 0.7511415525114156,
      "grad_norm": 3.984375,
      "learning_rate": 7.371432597912824e-06,
      "loss": 1.07974119,
      "memory(GiB)": 112.26,
      "step": 29610,
      "train_speed(iter/s)": 1.13017
    },
    {
      "acc": 0.74141989,
      "epoch": 0.7512683916793506,
      "grad_norm": 3.734375,
      "learning_rate": 7.3705093683658616e-06,
      "loss": 1.07209301,
      "memory(GiB)": 112.26,
      "step": 29615,
      "train_speed(iter/s)": 1.130204
    },
    {
      "acc": 0.73211722,
      "epoch": 0.7513952308472857,
      "grad_norm": 3.890625,
      "learning_rate": 7.369586034553313e-06,
      "loss": 1.09904318,
      "memory(GiB)": 112.26,
      "step": 29620,
      "train_speed(iter/s)": 1.130244
    },
    {
      "acc": 0.72761159,
      "epoch": 0.7515220700152208,
      "grad_norm": 4.375,
      "learning_rate": 7.368662596515792e-06,
      "loss": 1.14387512,
      "memory(GiB)": 112.26,
      "step": 29625,
      "train_speed(iter/s)": 1.130273
    },
    {
      "acc": 0.72626266,
      "epoch": 0.7516489091831557,
      "grad_norm": 4.34375,
      "learning_rate": 7.367739054293914e-06,
      "loss": 1.10805912,
      "memory(GiB)": 112.26,
      "step": 29630,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.72931905,
      "epoch": 0.7517757483510908,
      "grad_norm": 3.078125,
      "learning_rate": 7.366815407928302e-06,
      "loss": 1.07264776,
      "memory(GiB)": 112.26,
      "step": 29635,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.73779836,
      "epoch": 0.7519025875190258,
      "grad_norm": 3.421875,
      "learning_rate": 7.365891657459582e-06,
      "loss": 1.06078949,
      "memory(GiB)": 112.26,
      "step": 29640,
      "train_speed(iter/s)": 1.130366
    },
    {
      "acc": 0.72311382,
      "epoch": 0.7520294266869609,
      "grad_norm": 3.828125,
      "learning_rate": 7.3649678029283825e-06,
      "loss": 1.12965393,
      "memory(GiB)": 112.26,
      "step": 29645,
      "train_speed(iter/s)": 1.130386
    },
    {
      "acc": 0.72688608,
      "epoch": 0.752156265854896,
      "grad_norm": 3.609375,
      "learning_rate": 7.364043844375342e-06,
      "loss": 1.11537113,
      "memory(GiB)": 112.26,
      "step": 29650,
      "train_speed(iter/s)": 1.130414
    },
    {
      "acc": 0.72789927,
      "epoch": 0.752283105022831,
      "grad_norm": 3.546875,
      "learning_rate": 7.363119781841095e-06,
      "loss": 1.11379547,
      "memory(GiB)": 112.26,
      "step": 29655,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.72744274,
      "epoch": 0.7524099441907661,
      "grad_norm": 3.671875,
      "learning_rate": 7.362195615366293e-06,
      "loss": 1.10742664,
      "memory(GiB)": 112.26,
      "step": 29660,
      "train_speed(iter/s)": 1.130459
    },
    {
      "acc": 0.75228281,
      "epoch": 0.7525367833587012,
      "grad_norm": 4.5,
      "learning_rate": 7.361271344991579e-06,
      "loss": 1.02604723,
      "memory(GiB)": 112.26,
      "step": 29665,
      "train_speed(iter/s)": 1.1305
    },
    {
      "acc": 0.7286746,
      "epoch": 0.7526636225266362,
      "grad_norm": 3.109375,
      "learning_rate": 7.36034697075761e-06,
      "loss": 1.11285858,
      "memory(GiB)": 112.26,
      "step": 29670,
      "train_speed(iter/s)": 1.130512
    },
    {
      "acc": 0.73658934,
      "epoch": 0.7527904616945713,
      "grad_norm": 4.4375,
      "learning_rate": 7.359422492705043e-06,
      "loss": 1.08496199,
      "memory(GiB)": 112.26,
      "step": 29675,
      "train_speed(iter/s)": 1.130532
    },
    {
      "acc": 0.73895469,
      "epoch": 0.7529173008625063,
      "grad_norm": 4.71875,
      "learning_rate": 7.3584979108745405e-06,
      "loss": 1.04348803,
      "memory(GiB)": 112.26,
      "step": 29680,
      "train_speed(iter/s)": 1.130567
    },
    {
      "acc": 0.73960505,
      "epoch": 0.7530441400304414,
      "grad_norm": 3.703125,
      "learning_rate": 7.357573225306771e-06,
      "loss": 1.0777173,
      "memory(GiB)": 112.26,
      "step": 29685,
      "train_speed(iter/s)": 1.130593
    },
    {
      "acc": 0.73576341,
      "epoch": 0.7531709791983765,
      "grad_norm": 4.21875,
      "learning_rate": 7.356648436042404e-06,
      "loss": 1.0960494,
      "memory(GiB)": 112.26,
      "step": 29690,
      "train_speed(iter/s)": 1.130622
    },
    {
      "acc": 0.72440186,
      "epoch": 0.7532978183663115,
      "grad_norm": 4.09375,
      "learning_rate": 7.355723543122118e-06,
      "loss": 1.12803984,
      "memory(GiB)": 112.26,
      "step": 29695,
      "train_speed(iter/s)": 1.130642
    },
    {
      "acc": 0.75791063,
      "epoch": 0.7534246575342466,
      "grad_norm": 3.265625,
      "learning_rate": 7.354798546586592e-06,
      "loss": 1.03636284,
      "memory(GiB)": 112.26,
      "step": 29700,
      "train_speed(iter/s)": 1.130672
    },
    {
      "acc": 0.74229813,
      "epoch": 0.7535514967021817,
      "grad_norm": 4.15625,
      "learning_rate": 7.353873446476512e-06,
      "loss": 1.05949202,
      "memory(GiB)": 112.26,
      "step": 29705,
      "train_speed(iter/s)": 1.130696
    },
    {
      "acc": 0.73428817,
      "epoch": 0.7536783358701167,
      "grad_norm": 3.84375,
      "learning_rate": 7.3529482428325705e-06,
      "loss": 1.14717236,
      "memory(GiB)": 112.26,
      "step": 29710,
      "train_speed(iter/s)": 1.130683
    },
    {
      "acc": 0.73190203,
      "epoch": 0.7538051750380518,
      "grad_norm": 3.875,
      "learning_rate": 7.35202293569546e-06,
      "loss": 1.09012432,
      "memory(GiB)": 112.26,
      "step": 29715,
      "train_speed(iter/s)": 1.130717
    },
    {
      "acc": 0.74718022,
      "epoch": 0.7539320142059868,
      "grad_norm": 3.46875,
      "learning_rate": 7.351097525105878e-06,
      "loss": 1.02508507,
      "memory(GiB)": 112.26,
      "step": 29720,
      "train_speed(iter/s)": 1.130731
    },
    {
      "acc": 0.7382679,
      "epoch": 0.7540588533739219,
      "grad_norm": 3.234375,
      "learning_rate": 7.35017201110453e-06,
      "loss": 1.0315711,
      "memory(GiB)": 112.26,
      "step": 29725,
      "train_speed(iter/s)": 1.13075
    },
    {
      "acc": 0.72786503,
      "epoch": 0.754185692541857,
      "grad_norm": 4.4375,
      "learning_rate": 7.349246393732126e-06,
      "loss": 1.10642891,
      "memory(GiB)": 112.26,
      "step": 29730,
      "train_speed(iter/s)": 1.130778
    },
    {
      "acc": 0.73896399,
      "epoch": 0.754312531709792,
      "grad_norm": 4.96875,
      "learning_rate": 7.3483206730293755e-06,
      "loss": 1.07780895,
      "memory(GiB)": 112.26,
      "step": 29735,
      "train_speed(iter/s)": 1.130787
    },
    {
      "acc": 0.74298811,
      "epoch": 0.7544393708777271,
      "grad_norm": 3.546875,
      "learning_rate": 7.347394849036998e-06,
      "loss": 1.0713542,
      "memory(GiB)": 112.26,
      "step": 29740,
      "train_speed(iter/s)": 1.130812
    },
    {
      "acc": 0.74284778,
      "epoch": 0.7545662100456622,
      "grad_norm": 3.625,
      "learning_rate": 7.346468921795714e-06,
      "loss": 1.02951469,
      "memory(GiB)": 112.26,
      "step": 29745,
      "train_speed(iter/s)": 1.13085
    },
    {
      "acc": 0.72183647,
      "epoch": 0.7546930492135971,
      "grad_norm": 3.359375,
      "learning_rate": 7.345542891346251e-06,
      "loss": 1.09786091,
      "memory(GiB)": 112.26,
      "step": 29750,
      "train_speed(iter/s)": 1.130867
    },
    {
      "acc": 0.73187637,
      "epoch": 0.7548198883815322,
      "grad_norm": 3.53125,
      "learning_rate": 7.344616757729341e-06,
      "loss": 1.07952957,
      "memory(GiB)": 112.26,
      "step": 29755,
      "train_speed(iter/s)": 1.130895
    },
    {
      "acc": 0.74352198,
      "epoch": 0.7549467275494672,
      "grad_norm": 3.53125,
      "learning_rate": 7.343690520985716e-06,
      "loss": 1.0624754,
      "memory(GiB)": 112.26,
      "step": 29760,
      "train_speed(iter/s)": 1.130924
    },
    {
      "acc": 0.73181658,
      "epoch": 0.7550735667174023,
      "grad_norm": 3.5625,
      "learning_rate": 7.342764181156119e-06,
      "loss": 1.05462399,
      "memory(GiB)": 112.26,
      "step": 29765,
      "train_speed(iter/s)": 1.130959
    },
    {
      "acc": 0.74219794,
      "epoch": 0.7552004058853374,
      "grad_norm": 3.265625,
      "learning_rate": 7.341837738281293e-06,
      "loss": 1.07469997,
      "memory(GiB)": 112.26,
      "step": 29770,
      "train_speed(iter/s)": 1.130983
    },
    {
      "acc": 0.73766894,
      "epoch": 0.7553272450532724,
      "grad_norm": 5.5,
      "learning_rate": 7.3409111924019885e-06,
      "loss": 1.1042202,
      "memory(GiB)": 112.26,
      "step": 29775,
      "train_speed(iter/s)": 1.131007
    },
    {
      "acc": 0.73724747,
      "epoch": 0.7554540842212075,
      "grad_norm": 4.09375,
      "learning_rate": 7.3399845435589574e-06,
      "loss": 1.0858552,
      "memory(GiB)": 112.26,
      "step": 29780,
      "train_speed(iter/s)": 1.131044
    },
    {
      "acc": 0.74837351,
      "epoch": 0.7555809233891426,
      "grad_norm": 3.71875,
      "learning_rate": 7.33905779179296e-06,
      "loss": 1.0295681,
      "memory(GiB)": 112.26,
      "step": 29785,
      "train_speed(iter/s)": 1.13107
    },
    {
      "acc": 0.73684201,
      "epoch": 0.7557077625570776,
      "grad_norm": 3.375,
      "learning_rate": 7.338130937144756e-06,
      "loss": 1.0708148,
      "memory(GiB)": 112.26,
      "step": 29790,
      "train_speed(iter/s)": 1.13108
    },
    {
      "acc": 0.75009284,
      "epoch": 0.7558346017250127,
      "grad_norm": 3.609375,
      "learning_rate": 7.3372039796551156e-06,
      "loss": 1.02405624,
      "memory(GiB)": 112.26,
      "step": 29795,
      "train_speed(iter/s)": 1.13111
    },
    {
      "acc": 0.73754878,
      "epoch": 0.7559614408929477,
      "grad_norm": 3.515625,
      "learning_rate": 7.33627691936481e-06,
      "loss": 1.0770009,
      "memory(GiB)": 112.26,
      "step": 29800,
      "train_speed(iter/s)": 1.131144
    },
    {
      "acc": 0.75884199,
      "epoch": 0.7560882800608828,
      "grad_norm": 2.828125,
      "learning_rate": 7.335349756314614e-06,
      "loss": 0.98821888,
      "memory(GiB)": 112.26,
      "step": 29805,
      "train_speed(iter/s)": 1.131155
    },
    {
      "acc": 0.73171406,
      "epoch": 0.7562151192288179,
      "grad_norm": 3.171875,
      "learning_rate": 7.33442249054531e-06,
      "loss": 1.13856783,
      "memory(GiB)": 112.26,
      "step": 29810,
      "train_speed(iter/s)": 1.131193
    },
    {
      "acc": 0.72808781,
      "epoch": 0.7563419583967529,
      "grad_norm": 3.453125,
      "learning_rate": 7.33349512209768e-06,
      "loss": 1.10118923,
      "memory(GiB)": 112.26,
      "step": 29815,
      "train_speed(iter/s)": 1.131226
    },
    {
      "acc": 0.72544136,
      "epoch": 0.756468797564688,
      "grad_norm": 3.640625,
      "learning_rate": 7.332567651012518e-06,
      "loss": 1.11509514,
      "memory(GiB)": 112.26,
      "step": 29820,
      "train_speed(iter/s)": 1.131254
    },
    {
      "acc": 0.7402832,
      "epoch": 0.7565956367326231,
      "grad_norm": 3.5625,
      "learning_rate": 7.331640077330616e-06,
      "loss": 1.04365845,
      "memory(GiB)": 112.26,
      "step": 29825,
      "train_speed(iter/s)": 1.131283
    },
    {
      "acc": 0.74572668,
      "epoch": 0.7567224759005581,
      "grad_norm": 4.3125,
      "learning_rate": 7.330712401092773e-06,
      "loss": 1.11369457,
      "memory(GiB)": 112.26,
      "step": 29830,
      "train_speed(iter/s)": 1.131315
    },
    {
      "acc": 0.7343317,
      "epoch": 0.7568493150684932,
      "grad_norm": 3.828125,
      "learning_rate": 7.329784622339794e-06,
      "loss": 1.06531,
      "memory(GiB)": 112.26,
      "step": 29835,
      "train_speed(iter/s)": 1.131343
    },
    {
      "acc": 0.728055,
      "epoch": 0.7569761542364282,
      "grad_norm": 3.984375,
      "learning_rate": 7.328856741112484e-06,
      "loss": 1.0873683,
      "memory(GiB)": 112.26,
      "step": 29840,
      "train_speed(iter/s)": 1.131356
    },
    {
      "acc": 0.73501196,
      "epoch": 0.7571029934043633,
      "grad_norm": 4.03125,
      "learning_rate": 7.327928757451659e-06,
      "loss": 1.06363907,
      "memory(GiB)": 112.26,
      "step": 29845,
      "train_speed(iter/s)": 1.131369
    },
    {
      "acc": 0.75087337,
      "epoch": 0.7572298325722984,
      "grad_norm": 3.296875,
      "learning_rate": 7.3270006713981325e-06,
      "loss": 1.0206666,
      "memory(GiB)": 112.26,
      "step": 29850,
      "train_speed(iter/s)": 1.131392
    },
    {
      "acc": 0.7299221,
      "epoch": 0.7573566717402334,
      "grad_norm": 3.5,
      "learning_rate": 7.326072482992728e-06,
      "loss": 1.09660511,
      "memory(GiB)": 112.26,
      "step": 29855,
      "train_speed(iter/s)": 1.131419
    },
    {
      "acc": 0.72928653,
      "epoch": 0.7574835109081685,
      "grad_norm": 4.125,
      "learning_rate": 7.325144192276269e-06,
      "loss": 1.11473808,
      "memory(GiB)": 112.26,
      "step": 29860,
      "train_speed(iter/s)": 1.131445
    },
    {
      "acc": 0.72789745,
      "epoch": 0.7576103500761036,
      "grad_norm": 4.15625,
      "learning_rate": 7.324215799289588e-06,
      "loss": 1.12104282,
      "memory(GiB)": 112.26,
      "step": 29865,
      "train_speed(iter/s)": 1.131464
    },
    {
      "acc": 0.74324083,
      "epoch": 0.7577371892440385,
      "grad_norm": 4.90625,
      "learning_rate": 7.3232873040735194e-06,
      "loss": 1.02370605,
      "memory(GiB)": 112.26,
      "step": 29870,
      "train_speed(iter/s)": 1.131483
    },
    {
      "acc": 0.73229766,
      "epoch": 0.7578640284119736,
      "grad_norm": 3.46875,
      "learning_rate": 7.322358706668901e-06,
      "loss": 1.11692476,
      "memory(GiB)": 112.26,
      "step": 29875,
      "train_speed(iter/s)": 1.131506
    },
    {
      "acc": 0.74293747,
      "epoch": 0.7579908675799086,
      "grad_norm": 3.25,
      "learning_rate": 7.321430007116582e-06,
      "loss": 1.06679983,
      "memory(GiB)": 112.26,
      "step": 29880,
      "train_speed(iter/s)": 1.131521
    },
    {
      "acc": 0.71991348,
      "epoch": 0.7581177067478437,
      "grad_norm": 4.25,
      "learning_rate": 7.320501205457403e-06,
      "loss": 1.1236536,
      "memory(GiB)": 112.26,
      "step": 29885,
      "train_speed(iter/s)": 1.131536
    },
    {
      "acc": 0.72402358,
      "epoch": 0.7582445459157788,
      "grad_norm": 4.4375,
      "learning_rate": 7.319572301732224e-06,
      "loss": 1.09380417,
      "memory(GiB)": 112.26,
      "step": 29890,
      "train_speed(iter/s)": 1.13156
    },
    {
      "acc": 0.72624898,
      "epoch": 0.7583713850837138,
      "grad_norm": 3.125,
      "learning_rate": 7.3186432959818956e-06,
      "loss": 1.09237728,
      "memory(GiB)": 112.26,
      "step": 29895,
      "train_speed(iter/s)": 1.131583
    },
    {
      "acc": 0.73673162,
      "epoch": 0.7584982242516489,
      "grad_norm": 3.640625,
      "learning_rate": 7.317714188247285e-06,
      "loss": 1.03694735,
      "memory(GiB)": 112.26,
      "step": 29900,
      "train_speed(iter/s)": 1.131605
    },
    {
      "acc": 0.72823658,
      "epoch": 0.758625063419584,
      "grad_norm": 3.53125,
      "learning_rate": 7.316784978569256e-06,
      "loss": 1.07986832,
      "memory(GiB)": 112.26,
      "step": 29905,
      "train_speed(iter/s)": 1.13164
    },
    {
      "acc": 0.74610796,
      "epoch": 0.758751902587519,
      "grad_norm": 3.65625,
      "learning_rate": 7.31585566698868e-06,
      "loss": 0.9859705,
      "memory(GiB)": 112.26,
      "step": 29910,
      "train_speed(iter/s)": 1.131641
    },
    {
      "acc": 0.74135752,
      "epoch": 0.7588787417554541,
      "grad_norm": 3.921875,
      "learning_rate": 7.314926253546433e-06,
      "loss": 1.00504322,
      "memory(GiB)": 112.26,
      "step": 29915,
      "train_speed(iter/s)": 1.131675
    },
    {
      "acc": 0.74088902,
      "epoch": 0.7590055809233891,
      "grad_norm": 3.578125,
      "learning_rate": 7.313996738283393e-06,
      "loss": 1.06501741,
      "memory(GiB)": 112.26,
      "step": 29920,
      "train_speed(iter/s)": 1.131699
    },
    {
      "acc": 0.73684444,
      "epoch": 0.7591324200913242,
      "grad_norm": 4.21875,
      "learning_rate": 7.3130671212404455e-06,
      "loss": 1.10466318,
      "memory(GiB)": 112.26,
      "step": 29925,
      "train_speed(iter/s)": 1.13174
    },
    {
      "acc": 0.7455018,
      "epoch": 0.7592592592592593,
      "grad_norm": 3.390625,
      "learning_rate": 7.312137402458479e-06,
      "loss": 1.0581316,
      "memory(GiB)": 112.26,
      "step": 29930,
      "train_speed(iter/s)": 1.131778
    },
    {
      "acc": 0.74062195,
      "epoch": 0.7593860984271943,
      "grad_norm": 3.28125,
      "learning_rate": 7.3112075819783864e-06,
      "loss": 1.08506441,
      "memory(GiB)": 112.26,
      "step": 29935,
      "train_speed(iter/s)": 1.131811
    },
    {
      "acc": 0.72131615,
      "epoch": 0.7595129375951294,
      "grad_norm": 5.21875,
      "learning_rate": 7.310277659841066e-06,
      "loss": 1.14909105,
      "memory(GiB)": 112.26,
      "step": 29940,
      "train_speed(iter/s)": 1.131845
    },
    {
      "acc": 0.72483611,
      "epoch": 0.7596397767630645,
      "grad_norm": 3.78125,
      "learning_rate": 7.309347636087418e-06,
      "loss": 1.09764957,
      "memory(GiB)": 112.26,
      "step": 29945,
      "train_speed(iter/s)": 1.13187
    },
    {
      "acc": 0.71566343,
      "epoch": 0.7597666159309995,
      "grad_norm": 2.96875,
      "learning_rate": 7.308417510758353e-06,
      "loss": 1.1405941,
      "memory(GiB)": 112.26,
      "step": 29950,
      "train_speed(iter/s)": 1.131901
    },
    {
      "acc": 0.72650938,
      "epoch": 0.7598934550989346,
      "grad_norm": 3.28125,
      "learning_rate": 7.307487283894777e-06,
      "loss": 1.13076258,
      "memory(GiB)": 112.26,
      "step": 29955,
      "train_speed(iter/s)": 1.131932
    },
    {
      "acc": 0.75200491,
      "epoch": 0.7600202942668696,
      "grad_norm": 3.75,
      "learning_rate": 7.30655695553761e-06,
      "loss": 1.00279598,
      "memory(GiB)": 112.26,
      "step": 29960,
      "train_speed(iter/s)": 1.131963
    },
    {
      "acc": 0.74250345,
      "epoch": 0.7601471334348047,
      "grad_norm": 3.984375,
      "learning_rate": 7.305626525727769e-06,
      "loss": 1.06127291,
      "memory(GiB)": 112.26,
      "step": 29965,
      "train_speed(iter/s)": 1.131998
    },
    {
      "acc": 0.73831139,
      "epoch": 0.7602739726027398,
      "grad_norm": 3.28125,
      "learning_rate": 7.30469599450618e-06,
      "loss": 1.14002218,
      "memory(GiB)": 112.26,
      "step": 29970,
      "train_speed(iter/s)": 1.13203
    },
    {
      "acc": 0.73355155,
      "epoch": 0.7604008117706748,
      "grad_norm": 2.9375,
      "learning_rate": 7.30376536191377e-06,
      "loss": 1.07097244,
      "memory(GiB)": 112.26,
      "step": 29975,
      "train_speed(iter/s)": 1.13204
    },
    {
      "acc": 0.73010178,
      "epoch": 0.7605276509386099,
      "grad_norm": 3.0625,
      "learning_rate": 7.302834627991477e-06,
      "loss": 1.10609608,
      "memory(GiB)": 112.26,
      "step": 29980,
      "train_speed(iter/s)": 1.132042
    },
    {
      "acc": 0.74001551,
      "epoch": 0.760654490106545,
      "grad_norm": 3.09375,
      "learning_rate": 7.301903792780233e-06,
      "loss": 1.09157991,
      "memory(GiB)": 112.26,
      "step": 29985,
      "train_speed(iter/s)": 1.132075
    },
    {
      "acc": 0.74998407,
      "epoch": 0.76078132927448,
      "grad_norm": 3.265625,
      "learning_rate": 7.300972856320984e-06,
      "loss": 1.006847,
      "memory(GiB)": 112.26,
      "step": 29990,
      "train_speed(iter/s)": 1.132106
    },
    {
      "acc": 0.7375567,
      "epoch": 0.760908168442415,
      "grad_norm": 4.125,
      "learning_rate": 7.3000418186546754e-06,
      "loss": 1.07498989,
      "memory(GiB)": 112.26,
      "step": 29995,
      "train_speed(iter/s)": 1.132149
    },
    {
      "acc": 0.75438652,
      "epoch": 0.76103500761035,
      "grad_norm": 3.1875,
      "learning_rate": 7.299110679822258e-06,
      "loss": 0.9994997,
      "memory(GiB)": 112.26,
      "step": 30000,
      "train_speed(iter/s)": 1.132164
    },
    {
      "epoch": 0.76103500761035,
      "eval_acc": 0.7244074953482982,
      "eval_loss": 1.0510601997375488,
      "eval_runtime": 70.8143,
      "eval_samples_per_second": 89.954,
      "eval_steps_per_second": 22.495,
      "step": 30000
    },
    {
      "acc": 0.72736049,
      "epoch": 0.7611618467782851,
      "grad_norm": 3.671875,
      "learning_rate": 7.298179439864689e-06,
      "loss": 1.1315609,
      "memory(GiB)": 112.26,
      "step": 30005,
      "train_speed(iter/s)": 1.127269
    },
    {
      "acc": 0.7449141,
      "epoch": 0.7612886859462202,
      "grad_norm": 3.109375,
      "learning_rate": 7.297248098822926e-06,
      "loss": 1.04270859,
      "memory(GiB)": 112.26,
      "step": 30010,
      "train_speed(iter/s)": 1.127284
    },
    {
      "acc": 0.7301733,
      "epoch": 0.7614155251141552,
      "grad_norm": 3.09375,
      "learning_rate": 7.296316656737936e-06,
      "loss": 1.0867383,
      "memory(GiB)": 112.26,
      "step": 30015,
      "train_speed(iter/s)": 1.127303
    },
    {
      "acc": 0.75014505,
      "epoch": 0.7615423642820903,
      "grad_norm": 3.3125,
      "learning_rate": 7.295385113650689e-06,
      "loss": 1.05890446,
      "memory(GiB)": 112.26,
      "step": 30020,
      "train_speed(iter/s)": 1.12733
    },
    {
      "acc": 0.73178229,
      "epoch": 0.7616692034500254,
      "grad_norm": 3.765625,
      "learning_rate": 7.294453469602154e-06,
      "loss": 1.05653515,
      "memory(GiB)": 112.26,
      "step": 30025,
      "train_speed(iter/s)": 1.127342
    },
    {
      "acc": 0.7505383,
      "epoch": 0.7617960426179604,
      "grad_norm": 3.359375,
      "learning_rate": 7.293521724633313e-06,
      "loss": 1.03592911,
      "memory(GiB)": 112.26,
      "step": 30030,
      "train_speed(iter/s)": 1.127384
    },
    {
      "acc": 0.72853546,
      "epoch": 0.7619228817858955,
      "grad_norm": 3.3125,
      "learning_rate": 7.2925898787851455e-06,
      "loss": 1.07772551,
      "memory(GiB)": 112.26,
      "step": 30035,
      "train_speed(iter/s)": 1.127385
    },
    {
      "acc": 0.74229832,
      "epoch": 0.7620497209538305,
      "grad_norm": 3.53125,
      "learning_rate": 7.2916579320986415e-06,
      "loss": 1.04450893,
      "memory(GiB)": 112.26,
      "step": 30040,
      "train_speed(iter/s)": 1.127418
    },
    {
      "acc": 0.74101,
      "epoch": 0.7621765601217656,
      "grad_norm": 3.78125,
      "learning_rate": 7.290725884614787e-06,
      "loss": 1.10566616,
      "memory(GiB)": 112.26,
      "step": 30045,
      "train_speed(iter/s)": 1.127439
    },
    {
      "acc": 0.72952104,
      "epoch": 0.7623033992897007,
      "grad_norm": 3.453125,
      "learning_rate": 7.2897937363745844e-06,
      "loss": 1.07410669,
      "memory(GiB)": 112.26,
      "step": 30050,
      "train_speed(iter/s)": 1.127446
    },
    {
      "acc": 0.73469691,
      "epoch": 0.7624302384576357,
      "grad_norm": 4.1875,
      "learning_rate": 7.2888614874190276e-06,
      "loss": 1.08477459,
      "memory(GiB)": 112.26,
      "step": 30055,
      "train_speed(iter/s)": 1.127477
    },
    {
      "acc": 0.73739114,
      "epoch": 0.7625570776255708,
      "grad_norm": 4.1875,
      "learning_rate": 7.287929137789124e-06,
      "loss": 1.10517998,
      "memory(GiB)": 112.26,
      "step": 30060,
      "train_speed(iter/s)": 1.127485
    },
    {
      "acc": 0.74101501,
      "epoch": 0.7626839167935059,
      "grad_norm": 4.21875,
      "learning_rate": 7.286996687525882e-06,
      "loss": 1.08349972,
      "memory(GiB)": 112.26,
      "step": 30065,
      "train_speed(iter/s)": 1.127501
    },
    {
      "acc": 0.72793722,
      "epoch": 0.7628107559614409,
      "grad_norm": 3.34375,
      "learning_rate": 7.2860641366703155e-06,
      "loss": 1.08689976,
      "memory(GiB)": 112.26,
      "step": 30070,
      "train_speed(iter/s)": 1.127519
    },
    {
      "acc": 0.7261766,
      "epoch": 0.762937595129376,
      "grad_norm": 3.453125,
      "learning_rate": 7.285131485263441e-06,
      "loss": 1.11354647,
      "memory(GiB)": 112.26,
      "step": 30075,
      "train_speed(iter/s)": 1.127551
    },
    {
      "acc": 0.73017359,
      "epoch": 0.763064434297311,
      "grad_norm": 3.578125,
      "learning_rate": 7.2841987333462815e-06,
      "loss": 1.13357229,
      "memory(GiB)": 112.26,
      "step": 30080,
      "train_speed(iter/s)": 1.127578
    },
    {
      "acc": 0.73768206,
      "epoch": 0.7631912734652461,
      "grad_norm": 4.15625,
      "learning_rate": 7.283265880959863e-06,
      "loss": 1.079356,
      "memory(GiB)": 112.26,
      "step": 30085,
      "train_speed(iter/s)": 1.127588
    },
    {
      "acc": 0.73213277,
      "epoch": 0.7633181126331812,
      "grad_norm": 3.359375,
      "learning_rate": 7.282332928145219e-06,
      "loss": 1.06985102,
      "memory(GiB)": 112.26,
      "step": 30090,
      "train_speed(iter/s)": 1.127618
    },
    {
      "acc": 0.73412132,
      "epoch": 0.7634449518011162,
      "grad_norm": 3.8125,
      "learning_rate": 7.281399874943381e-06,
      "loss": 1.04716797,
      "memory(GiB)": 112.26,
      "step": 30095,
      "train_speed(iter/s)": 1.127629
    },
    {
      "acc": 0.72959733,
      "epoch": 0.7635717909690513,
      "grad_norm": 3.859375,
      "learning_rate": 7.280466721395393e-06,
      "loss": 1.14964476,
      "memory(GiB)": 112.26,
      "step": 30100,
      "train_speed(iter/s)": 1.127658
    },
    {
      "acc": 0.72545147,
      "epoch": 0.7636986301369864,
      "grad_norm": 3.359375,
      "learning_rate": 7.279533467542295e-06,
      "loss": 1.09085741,
      "memory(GiB)": 112.26,
      "step": 30105,
      "train_speed(iter/s)": 1.127686
    },
    {
      "acc": 0.73258924,
      "epoch": 0.7638254693049213,
      "grad_norm": 3.890625,
      "learning_rate": 7.2786001134251385e-06,
      "loss": 1.11589613,
      "memory(GiB)": 112.26,
      "step": 30110,
      "train_speed(iter/s)": 1.127723
    },
    {
      "acc": 0.74357233,
      "epoch": 0.7639523084728564,
      "grad_norm": 3.859375,
      "learning_rate": 7.2776666590849744e-06,
      "loss": 1.0527729,
      "memory(GiB)": 112.26,
      "step": 30115,
      "train_speed(iter/s)": 1.127746
    },
    {
      "acc": 0.74711432,
      "epoch": 0.7640791476407914,
      "grad_norm": 3.234375,
      "learning_rate": 7.276733104562863e-06,
      "loss": 1.04485617,
      "memory(GiB)": 112.26,
      "step": 30120,
      "train_speed(iter/s)": 1.127751
    },
    {
      "acc": 0.73863726,
      "epoch": 0.7642059868087265,
      "grad_norm": 3.390625,
      "learning_rate": 7.275799449899865e-06,
      "loss": 1.09485855,
      "memory(GiB)": 112.26,
      "step": 30125,
      "train_speed(iter/s)": 1.127757
    },
    {
      "acc": 0.7399415,
      "epoch": 0.7643328259766616,
      "grad_norm": 3.71875,
      "learning_rate": 7.274865695137046e-06,
      "loss": 1.08866043,
      "memory(GiB)": 112.26,
      "step": 30130,
      "train_speed(iter/s)": 1.127783
    },
    {
      "acc": 0.73572245,
      "epoch": 0.7644596651445966,
      "grad_norm": 3.6875,
      "learning_rate": 7.273931840315477e-06,
      "loss": 1.0524992,
      "memory(GiB)": 112.26,
      "step": 30135,
      "train_speed(iter/s)": 1.127818
    },
    {
      "acc": 0.74856014,
      "epoch": 0.7645865043125317,
      "grad_norm": 3.203125,
      "learning_rate": 7.272997885476234e-06,
      "loss": 1.07889681,
      "memory(GiB)": 112.26,
      "step": 30140,
      "train_speed(iter/s)": 1.127853
    },
    {
      "acc": 0.72194891,
      "epoch": 0.7647133434804668,
      "grad_norm": 3.15625,
      "learning_rate": 7.272063830660395e-06,
      "loss": 1.15428267,
      "memory(GiB)": 112.26,
      "step": 30145,
      "train_speed(iter/s)": 1.127866
    },
    {
      "acc": 0.74260378,
      "epoch": 0.7648401826484018,
      "grad_norm": 3.46875,
      "learning_rate": 7.271129675909046e-06,
      "loss": 1.03298025,
      "memory(GiB)": 112.26,
      "step": 30150,
      "train_speed(iter/s)": 1.127908
    },
    {
      "acc": 0.75267425,
      "epoch": 0.7649670218163369,
      "grad_norm": 3.828125,
      "learning_rate": 7.270195421263271e-06,
      "loss": 1.00644493,
      "memory(GiB)": 112.26,
      "step": 30155,
      "train_speed(iter/s)": 1.127937
    },
    {
      "acc": 0.74147415,
      "epoch": 0.7650938609842719,
      "grad_norm": 4.03125,
      "learning_rate": 7.269261066764169e-06,
      "loss": 1.08347445,
      "memory(GiB)": 112.26,
      "step": 30160,
      "train_speed(iter/s)": 1.127966
    },
    {
      "acc": 0.72256536,
      "epoch": 0.765220700152207,
      "grad_norm": 4.28125,
      "learning_rate": 7.268326612452832e-06,
      "loss": 1.08225975,
      "memory(GiB)": 112.26,
      "step": 30165,
      "train_speed(iter/s)": 1.128009
    },
    {
      "acc": 0.73561163,
      "epoch": 0.7653475393201421,
      "grad_norm": 4.0625,
      "learning_rate": 7.267392058370364e-06,
      "loss": 1.05129433,
      "memory(GiB)": 112.26,
      "step": 30170,
      "train_speed(iter/s)": 1.128048
    },
    {
      "acc": 0.74325681,
      "epoch": 0.7654743784880771,
      "grad_norm": 3.671875,
      "learning_rate": 7.2664574045578685e-06,
      "loss": 1.06283379,
      "memory(GiB)": 112.26,
      "step": 30175,
      "train_speed(iter/s)": 1.12807
    },
    {
      "acc": 0.73647833,
      "epoch": 0.7656012176560122,
      "grad_norm": 3.421875,
      "learning_rate": 7.26552265105646e-06,
      "loss": 1.09357748,
      "memory(GiB)": 112.26,
      "step": 30180,
      "train_speed(iter/s)": 1.128104
    },
    {
      "acc": 0.72920027,
      "epoch": 0.7657280568239473,
      "grad_norm": 3.578125,
      "learning_rate": 7.264587797907248e-06,
      "loss": 1.0919796,
      "memory(GiB)": 112.26,
      "step": 30185,
      "train_speed(iter/s)": 1.128139
    },
    {
      "acc": 0.7325469,
      "epoch": 0.7658548959918823,
      "grad_norm": 3.484375,
      "learning_rate": 7.263652845151354e-06,
      "loss": 1.0621006,
      "memory(GiB)": 112.26,
      "step": 30190,
      "train_speed(iter/s)": 1.128169
    },
    {
      "acc": 0.73418107,
      "epoch": 0.7659817351598174,
      "grad_norm": 3.796875,
      "learning_rate": 7.262717792829903e-06,
      "loss": 1.07591429,
      "memory(GiB)": 112.26,
      "step": 30195,
      "train_speed(iter/s)": 1.128207
    },
    {
      "acc": 0.73636074,
      "epoch": 0.7661085743277524,
      "grad_norm": 4.34375,
      "learning_rate": 7.261782640984021e-06,
      "loss": 1.06467009,
      "memory(GiB)": 112.26,
      "step": 30200,
      "train_speed(iter/s)": 1.128236
    },
    {
      "acc": 0.72273369,
      "epoch": 0.7662354134956875,
      "grad_norm": 3.8125,
      "learning_rate": 7.26084738965484e-06,
      "loss": 1.12418861,
      "memory(GiB)": 112.26,
      "step": 30205,
      "train_speed(iter/s)": 1.128246
    },
    {
      "acc": 0.739818,
      "epoch": 0.7663622526636226,
      "grad_norm": 4.0,
      "learning_rate": 7.2599120388834964e-06,
      "loss": 1.0992734,
      "memory(GiB)": 112.26,
      "step": 30210,
      "train_speed(iter/s)": 1.128268
    },
    {
      "acc": 0.75023394,
      "epoch": 0.7664890918315576,
      "grad_norm": 3.875,
      "learning_rate": 7.258976588711133e-06,
      "loss": 1.05426092,
      "memory(GiB)": 112.26,
      "step": 30215,
      "train_speed(iter/s)": 1.128303
    },
    {
      "acc": 0.74364586,
      "epoch": 0.7666159309994927,
      "grad_norm": 4.09375,
      "learning_rate": 7.258041039178891e-06,
      "loss": 1.04268875,
      "memory(GiB)": 112.26,
      "step": 30220,
      "train_speed(iter/s)": 1.128323
    },
    {
      "acc": 0.71341105,
      "epoch": 0.7667427701674278,
      "grad_norm": 4.40625,
      "learning_rate": 7.257105390327925e-06,
      "loss": 1.13368473,
      "memory(GiB)": 112.26,
      "step": 30225,
      "train_speed(iter/s)": 1.128333
    },
    {
      "acc": 0.73371983,
      "epoch": 0.7668696093353627,
      "grad_norm": 3.359375,
      "learning_rate": 7.256169642199386e-06,
      "loss": 1.04712849,
      "memory(GiB)": 112.26,
      "step": 30230,
      "train_speed(iter/s)": 1.128358
    },
    {
      "acc": 0.7290452,
      "epoch": 0.7669964485032978,
      "grad_norm": 3.84375,
      "learning_rate": 7.255233794834432e-06,
      "loss": 1.0773941,
      "memory(GiB)": 112.26,
      "step": 30235,
      "train_speed(iter/s)": 1.128395
    },
    {
      "acc": 0.7591084,
      "epoch": 0.7671232876712328,
      "grad_norm": 3.890625,
      "learning_rate": 7.254297848274229e-06,
      "loss": 1.00931931,
      "memory(GiB)": 112.26,
      "step": 30240,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.73197565,
      "epoch": 0.7672501268391679,
      "grad_norm": 4.53125,
      "learning_rate": 7.25336180255994e-06,
      "loss": 1.08409519,
      "memory(GiB)": 112.26,
      "step": 30245,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.740485,
      "epoch": 0.767376966007103,
      "grad_norm": 3.140625,
      "learning_rate": 7.25242565773274e-06,
      "loss": 1.13404713,
      "memory(GiB)": 112.26,
      "step": 30250,
      "train_speed(iter/s)": 1.128442
    },
    {
      "acc": 0.7301446,
      "epoch": 0.767503805175038,
      "grad_norm": 3.5,
      "learning_rate": 7.251489413833801e-06,
      "loss": 1.08863602,
      "memory(GiB)": 112.26,
      "step": 30255,
      "train_speed(iter/s)": 1.12847
    },
    {
      "acc": 0.73355346,
      "epoch": 0.7676306443429731,
      "grad_norm": 3.8125,
      "learning_rate": 7.250553070904307e-06,
      "loss": 1.08884697,
      "memory(GiB)": 112.26,
      "step": 30260,
      "train_speed(iter/s)": 1.128504
    },
    {
      "acc": 0.74043808,
      "epoch": 0.7677574835109082,
      "grad_norm": 3.78125,
      "learning_rate": 7.2496166289854404e-06,
      "loss": 1.04646177,
      "memory(GiB)": 112.26,
      "step": 30265,
      "train_speed(iter/s)": 1.128539
    },
    {
      "acc": 0.73768854,
      "epoch": 0.7678843226788432,
      "grad_norm": 4.59375,
      "learning_rate": 7.24868008811839e-06,
      "loss": 1.09422789,
      "memory(GiB)": 112.26,
      "step": 30270,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.73725567,
      "epoch": 0.7680111618467783,
      "grad_norm": 3.90625,
      "learning_rate": 7.247743448344351e-06,
      "loss": 1.07758961,
      "memory(GiB)": 112.26,
      "step": 30275,
      "train_speed(iter/s)": 1.128605
    },
    {
      "acc": 0.72423344,
      "epoch": 0.7681380010147133,
      "grad_norm": 3.25,
      "learning_rate": 7.246806709704519e-06,
      "loss": 1.1403801,
      "memory(GiB)": 112.26,
      "step": 30280,
      "train_speed(iter/s)": 1.12863
    },
    {
      "acc": 0.72834377,
      "epoch": 0.7682648401826484,
      "grad_norm": 3.375,
      "learning_rate": 7.245869872240098e-06,
      "loss": 1.13986626,
      "memory(GiB)": 112.26,
      "step": 30285,
      "train_speed(iter/s)": 1.128632
    },
    {
      "acc": 0.73524618,
      "epoch": 0.7683916793505835,
      "grad_norm": 3.734375,
      "learning_rate": 7.244932935992292e-06,
      "loss": 1.11077337,
      "memory(GiB)": 112.26,
      "step": 30290,
      "train_speed(iter/s)": 1.128646
    },
    {
      "acc": 0.73320603,
      "epoch": 0.7685185185185185,
      "grad_norm": 4.5625,
      "learning_rate": 7.243995901002312e-06,
      "loss": 1.11564941,
      "memory(GiB)": 112.26,
      "step": 30295,
      "train_speed(iter/s)": 1.128672
    },
    {
      "acc": 0.7333446,
      "epoch": 0.7686453576864536,
      "grad_norm": 3.8125,
      "learning_rate": 7.243058767311374e-06,
      "loss": 1.07543631,
      "memory(GiB)": 112.26,
      "step": 30300,
      "train_speed(iter/s)": 1.128712
    },
    {
      "acc": 0.74560242,
      "epoch": 0.7687721968543887,
      "grad_norm": 4.46875,
      "learning_rate": 7.2421215349606955e-06,
      "loss": 1.03355465,
      "memory(GiB)": 112.26,
      "step": 30305,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.7468502,
      "epoch": 0.7688990360223237,
      "grad_norm": 3.921875,
      "learning_rate": 7.241184203991505e-06,
      "loss": 0.99063835,
      "memory(GiB)": 112.26,
      "step": 30310,
      "train_speed(iter/s)": 1.128767
    },
    {
      "acc": 0.72657671,
      "epoch": 0.7690258751902588,
      "grad_norm": 3.921875,
      "learning_rate": 7.240246774445024e-06,
      "loss": 1.07469225,
      "memory(GiB)": 112.26,
      "step": 30315,
      "train_speed(iter/s)": 1.128809
    },
    {
      "acc": 0.73636646,
      "epoch": 0.7691527143581938,
      "grad_norm": 4.03125,
      "learning_rate": 7.23930924636249e-06,
      "loss": 1.1050108,
      "memory(GiB)": 112.26,
      "step": 30320,
      "train_speed(iter/s)": 1.128826
    },
    {
      "acc": 0.7212677,
      "epoch": 0.7692795535261289,
      "grad_norm": 3.640625,
      "learning_rate": 7.238371619785134e-06,
      "loss": 1.07825089,
      "memory(GiB)": 112.26,
      "step": 30325,
      "train_speed(iter/s)": 1.128844
    },
    {
      "acc": 0.72847819,
      "epoch": 0.769406392694064,
      "grad_norm": 3.53125,
      "learning_rate": 7.237433894754205e-06,
      "loss": 1.11140947,
      "memory(GiB)": 112.26,
      "step": 30330,
      "train_speed(iter/s)": 1.128858
    },
    {
      "acc": 0.73809242,
      "epoch": 0.769533231861999,
      "grad_norm": 3.8125,
      "learning_rate": 7.23649607131094e-06,
      "loss": 1.10822678,
      "memory(GiB)": 112.26,
      "step": 30335,
      "train_speed(iter/s)": 1.128904
    },
    {
      "acc": 0.73200893,
      "epoch": 0.7696600710299341,
      "grad_norm": 3.734375,
      "learning_rate": 7.235558149496595e-06,
      "loss": 1.08364782,
      "memory(GiB)": 112.26,
      "step": 30340,
      "train_speed(iter/s)": 1.128944
    },
    {
      "acc": 0.7453856,
      "epoch": 0.7697869101978692,
      "grad_norm": 3.90625,
      "learning_rate": 7.23462012935242e-06,
      "loss": 1.06667099,
      "memory(GiB)": 112.26,
      "step": 30345,
      "train_speed(iter/s)": 1.128973
    },
    {
      "acc": 0.72450838,
      "epoch": 0.7699137493658041,
      "grad_norm": 3.734375,
      "learning_rate": 7.233682010919676e-06,
      "loss": 1.10418291,
      "memory(GiB)": 112.26,
      "step": 30350,
      "train_speed(iter/s)": 1.129009
    },
    {
      "acc": 0.74063129,
      "epoch": 0.7700405885337392,
      "grad_norm": 3.140625,
      "learning_rate": 7.2327437942396236e-06,
      "loss": 1.07855415,
      "memory(GiB)": 112.26,
      "step": 30355,
      "train_speed(iter/s)": 1.129037
    },
    {
      "acc": 0.7462935,
      "epoch": 0.7701674277016742,
      "grad_norm": 3.96875,
      "learning_rate": 7.231805479353532e-06,
      "loss": 1.02059708,
      "memory(GiB)": 112.26,
      "step": 30360,
      "train_speed(iter/s)": 1.129057
    },
    {
      "acc": 0.7451508,
      "epoch": 0.7702942668696093,
      "grad_norm": 3.296875,
      "learning_rate": 7.2308670663026705e-06,
      "loss": 1.08099232,
      "memory(GiB)": 112.26,
      "step": 30365,
      "train_speed(iter/s)": 1.129077
    },
    {
      "acc": 0.72547607,
      "epoch": 0.7704211060375444,
      "grad_norm": 3.1875,
      "learning_rate": 7.229928555128315e-06,
      "loss": 1.10647144,
      "memory(GiB)": 112.26,
      "step": 30370,
      "train_speed(iter/s)": 1.129099
    },
    {
      "acc": 0.73535252,
      "epoch": 0.7705479452054794,
      "grad_norm": 4.6875,
      "learning_rate": 7.228989945871745e-06,
      "loss": 1.09903431,
      "memory(GiB)": 112.26,
      "step": 30375,
      "train_speed(iter/s)": 1.129112
    },
    {
      "acc": 0.73751426,
      "epoch": 0.7706747843734145,
      "grad_norm": 3.171875,
      "learning_rate": 7.2280512385742475e-06,
      "loss": 1.04269867,
      "memory(GiB)": 112.26,
      "step": 30380,
      "train_speed(iter/s)": 1.129141
    },
    {
      "acc": 0.73548307,
      "epoch": 0.7708016235413496,
      "grad_norm": 3.65625,
      "learning_rate": 7.227112433277107e-06,
      "loss": 1.06518221,
      "memory(GiB)": 112.26,
      "step": 30385,
      "train_speed(iter/s)": 1.129159
    },
    {
      "acc": 0.73345289,
      "epoch": 0.7709284627092846,
      "grad_norm": 4.78125,
      "learning_rate": 7.2261735300216195e-06,
      "loss": 1.11539125,
      "memory(GiB)": 112.26,
      "step": 30390,
      "train_speed(iter/s)": 1.129167
    },
    {
      "acc": 0.73388948,
      "epoch": 0.7710553018772197,
      "grad_norm": 4.25,
      "learning_rate": 7.22523452884908e-06,
      "loss": 1.09615498,
      "memory(GiB)": 112.26,
      "step": 30395,
      "train_speed(iter/s)": 1.1292
    },
    {
      "acc": 0.71843801,
      "epoch": 0.7711821410451547,
      "grad_norm": 3.96875,
      "learning_rate": 7.224295429800792e-06,
      "loss": 1.11982737,
      "memory(GiB)": 112.26,
      "step": 30400,
      "train_speed(iter/s)": 1.129233
    },
    {
      "acc": 0.73680601,
      "epoch": 0.7713089802130898,
      "grad_norm": 3.546875,
      "learning_rate": 7.22335623291806e-06,
      "loss": 1.09113464,
      "memory(GiB)": 112.26,
      "step": 30405,
      "train_speed(iter/s)": 1.12926
    },
    {
      "acc": 0.73200464,
      "epoch": 0.7714358193810249,
      "grad_norm": 3.359375,
      "learning_rate": 7.222416938242194e-06,
      "loss": 1.12000504,
      "memory(GiB)": 112.26,
      "step": 30410,
      "train_speed(iter/s)": 1.12928
    },
    {
      "acc": 0.75280509,
      "epoch": 0.7715626585489599,
      "grad_norm": 4.09375,
      "learning_rate": 7.221477545814509e-06,
      "loss": 0.96470509,
      "memory(GiB)": 112.26,
      "step": 30415,
      "train_speed(iter/s)": 1.129305
    },
    {
      "acc": 0.73975201,
      "epoch": 0.771689497716895,
      "grad_norm": 3.375,
      "learning_rate": 7.220538055676323e-06,
      "loss": 1.08528442,
      "memory(GiB)": 112.26,
      "step": 30420,
      "train_speed(iter/s)": 1.129313
    },
    {
      "acc": 0.7331913,
      "epoch": 0.7718163368848301,
      "grad_norm": 5.375,
      "learning_rate": 7.21959846786896e-06,
      "loss": 1.08963299,
      "memory(GiB)": 112.26,
      "step": 30425,
      "train_speed(iter/s)": 1.129333
    },
    {
      "acc": 0.74299974,
      "epoch": 0.7719431760527651,
      "grad_norm": 4.25,
      "learning_rate": 7.218658782433746e-06,
      "loss": 1.04519329,
      "memory(GiB)": 112.26,
      "step": 30430,
      "train_speed(iter/s)": 1.129361
    },
    {
      "acc": 0.75293703,
      "epoch": 0.7720700152207002,
      "grad_norm": 5.03125,
      "learning_rate": 7.217718999412013e-06,
      "loss": 0.99850178,
      "memory(GiB)": 112.26,
      "step": 30435,
      "train_speed(iter/s)": 1.129384
    },
    {
      "acc": 0.73850808,
      "epoch": 0.7721968543886352,
      "grad_norm": 5.65625,
      "learning_rate": 7.216779118845097e-06,
      "loss": 1.08211355,
      "memory(GiB)": 112.26,
      "step": 30440,
      "train_speed(iter/s)": 1.129402
    },
    {
      "acc": 0.72819843,
      "epoch": 0.7723236935565703,
      "grad_norm": 4.125,
      "learning_rate": 7.215839140774339e-06,
      "loss": 1.06424255,
      "memory(GiB)": 112.26,
      "step": 30445,
      "train_speed(iter/s)": 1.129434
    },
    {
      "acc": 0.739712,
      "epoch": 0.7724505327245054,
      "grad_norm": 3.53125,
      "learning_rate": 7.214899065241082e-06,
      "loss": 1.12136765,
      "memory(GiB)": 112.26,
      "step": 30450,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.74986091,
      "epoch": 0.7725773718924404,
      "grad_norm": 4.3125,
      "learning_rate": 7.213958892286674e-06,
      "loss": 1.08355999,
      "memory(GiB)": 112.26,
      "step": 30455,
      "train_speed(iter/s)": 1.129475
    },
    {
      "acc": 0.73098588,
      "epoch": 0.7727042110603755,
      "grad_norm": 3.34375,
      "learning_rate": 7.213018621952472e-06,
      "loss": 1.03395395,
      "memory(GiB)": 112.26,
      "step": 30460,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.74033794,
      "epoch": 0.7728310502283106,
      "grad_norm": 3.984375,
      "learning_rate": 7.212078254279828e-06,
      "loss": 1.0316287,
      "memory(GiB)": 112.26,
      "step": 30465,
      "train_speed(iter/s)": 1.129535
    },
    {
      "acc": 0.72593884,
      "epoch": 0.7729578893962455,
      "grad_norm": 3.484375,
      "learning_rate": 7.211137789310109e-06,
      "loss": 1.1254261,
      "memory(GiB)": 112.26,
      "step": 30470,
      "train_speed(iter/s)": 1.129558
    },
    {
      "acc": 0.75421605,
      "epoch": 0.7730847285641806,
      "grad_norm": 3.515625,
      "learning_rate": 7.2101972270846756e-06,
      "loss": 0.98714828,
      "memory(GiB)": 112.26,
      "step": 30475,
      "train_speed(iter/s)": 1.129575
    },
    {
      "acc": 0.75111675,
      "epoch": 0.7732115677321156,
      "grad_norm": 3.234375,
      "learning_rate": 7.2092565676449e-06,
      "loss": 1.00506783,
      "memory(GiB)": 112.26,
      "step": 30480,
      "train_speed(iter/s)": 1.129598
    },
    {
      "acc": 0.74757996,
      "epoch": 0.7733384069000507,
      "grad_norm": 4.0625,
      "learning_rate": 7.208315811032158e-06,
      "loss": 0.99884224,
      "memory(GiB)": 112.26,
      "step": 30485,
      "train_speed(iter/s)": 1.129626
    },
    {
      "acc": 0.73419542,
      "epoch": 0.7734652460679858,
      "grad_norm": 3.8125,
      "learning_rate": 7.207374957287828e-06,
      "loss": 1.06768398,
      "memory(GiB)": 112.26,
      "step": 30490,
      "train_speed(iter/s)": 1.129664
    },
    {
      "acc": 0.73307905,
      "epoch": 0.7735920852359208,
      "grad_norm": 3.828125,
      "learning_rate": 7.2064340064532914e-06,
      "loss": 1.06584568,
      "memory(GiB)": 112.26,
      "step": 30495,
      "train_speed(iter/s)": 1.129677
    },
    {
      "acc": 0.71465788,
      "epoch": 0.7737189244038559,
      "grad_norm": 3.890625,
      "learning_rate": 7.205492958569936e-06,
      "loss": 1.11381626,
      "memory(GiB)": 112.26,
      "step": 30500,
      "train_speed(iter/s)": 1.129721
    },
    {
      "acc": 0.7360692,
      "epoch": 0.773845763571791,
      "grad_norm": 3.453125,
      "learning_rate": 7.204551813679154e-06,
      "loss": 1.14393711,
      "memory(GiB)": 112.26,
      "step": 30505,
      "train_speed(iter/s)": 1.129748
    },
    {
      "acc": 0.72948074,
      "epoch": 0.773972602739726,
      "grad_norm": 3.765625,
      "learning_rate": 7.2036105718223405e-06,
      "loss": 1.10405607,
      "memory(GiB)": 112.26,
      "step": 30510,
      "train_speed(iter/s)": 1.129762
    },
    {
      "acc": 0.74036074,
      "epoch": 0.7740994419076611,
      "grad_norm": 4.15625,
      "learning_rate": 7.202669233040896e-06,
      "loss": 1.09246836,
      "memory(GiB)": 112.26,
      "step": 30515,
      "train_speed(iter/s)": 1.129797
    },
    {
      "acc": 0.73197198,
      "epoch": 0.7742262810755961,
      "grad_norm": 4.25,
      "learning_rate": 7.201727797376223e-06,
      "loss": 1.11021042,
      "memory(GiB)": 112.26,
      "step": 30520,
      "train_speed(iter/s)": 1.129798
    },
    {
      "acc": 0.73647947,
      "epoch": 0.7743531202435312,
      "grad_norm": 3.59375,
      "learning_rate": 7.200786264869732e-06,
      "loss": 1.11601067,
      "memory(GiB)": 112.26,
      "step": 30525,
      "train_speed(iter/s)": 1.129831
    },
    {
      "acc": 0.72758265,
      "epoch": 0.7744799594114663,
      "grad_norm": 4.21875,
      "learning_rate": 7.199844635562836e-06,
      "loss": 1.08548088,
      "memory(GiB)": 112.26,
      "step": 30530,
      "train_speed(iter/s)": 1.129856
    },
    {
      "acc": 0.7289813,
      "epoch": 0.7746067985794013,
      "grad_norm": 3.046875,
      "learning_rate": 7.19890290949695e-06,
      "loss": 1.11710701,
      "memory(GiB)": 112.26,
      "step": 30535,
      "train_speed(iter/s)": 1.129881
    },
    {
      "acc": 0.72008219,
      "epoch": 0.7747336377473364,
      "grad_norm": 3.796875,
      "learning_rate": 7.197961086713498e-06,
      "loss": 1.11250114,
      "memory(GiB)": 112.26,
      "step": 30540,
      "train_speed(iter/s)": 1.129902
    },
    {
      "acc": 0.73247194,
      "epoch": 0.7748604769152715,
      "grad_norm": 4.1875,
      "learning_rate": 7.197019167253904e-06,
      "loss": 1.08793354,
      "memory(GiB)": 112.26,
      "step": 30545,
      "train_speed(iter/s)": 1.12994
    },
    {
      "acc": 0.7418118,
      "epoch": 0.7749873160832065,
      "grad_norm": 2.859375,
      "learning_rate": 7.196077151159597e-06,
      "loss": 1.10658512,
      "memory(GiB)": 112.26,
      "step": 30550,
      "train_speed(iter/s)": 1.129949
    },
    {
      "acc": 0.74511795,
      "epoch": 0.7751141552511416,
      "grad_norm": 3.890625,
      "learning_rate": 7.195135038472013e-06,
      "loss": 1.07511864,
      "memory(GiB)": 112.26,
      "step": 30555,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.749054,
      "epoch": 0.7752409944190766,
      "grad_norm": 3.515625,
      "learning_rate": 7.194192829232589e-06,
      "loss": 1.06766825,
      "memory(GiB)": 112.26,
      "step": 30560,
      "train_speed(iter/s)": 1.129976
    },
    {
      "acc": 0.73942461,
      "epoch": 0.7753678335870117,
      "grad_norm": 4.5,
      "learning_rate": 7.1932505234827686e-06,
      "loss": 1.05650806,
      "memory(GiB)": 112.26,
      "step": 30565,
      "train_speed(iter/s)": 1.13001
    },
    {
      "acc": 0.73740993,
      "epoch": 0.7754946727549468,
      "grad_norm": 3.90625,
      "learning_rate": 7.192308121263998e-06,
      "loss": 1.10671663,
      "memory(GiB)": 112.26,
      "step": 30570,
      "train_speed(iter/s)": 1.130039
    },
    {
      "acc": 0.74349399,
      "epoch": 0.7756215119228818,
      "grad_norm": 3.625,
      "learning_rate": 7.191365622617728e-06,
      "loss": 1.06749859,
      "memory(GiB)": 112.26,
      "step": 30575,
      "train_speed(iter/s)": 1.130055
    },
    {
      "acc": 0.72940226,
      "epoch": 0.7757483510908169,
      "grad_norm": 3.21875,
      "learning_rate": 7.190423027585414e-06,
      "loss": 1.12338219,
      "memory(GiB)": 112.26,
      "step": 30580,
      "train_speed(iter/s)": 1.13007
    },
    {
      "acc": 0.73350577,
      "epoch": 0.775875190258752,
      "grad_norm": 5.46875,
      "learning_rate": 7.189480336208516e-06,
      "loss": 1.10023956,
      "memory(GiB)": 112.26,
      "step": 30585,
      "train_speed(iter/s)": 1.130108
    },
    {
      "acc": 0.73431697,
      "epoch": 0.776002029426687,
      "grad_norm": 4.34375,
      "learning_rate": 7.188537548528498e-06,
      "loss": 1.09251671,
      "memory(GiB)": 112.26,
      "step": 30590,
      "train_speed(iter/s)": 1.130124
    },
    {
      "acc": 0.7264945,
      "epoch": 0.776128868594622,
      "grad_norm": 3.59375,
      "learning_rate": 7.187594664586826e-06,
      "loss": 1.09163837,
      "memory(GiB)": 112.26,
      "step": 30595,
      "train_speed(iter/s)": 1.130134
    },
    {
      "acc": 0.73599448,
      "epoch": 0.776255707762557,
      "grad_norm": 3.5,
      "learning_rate": 7.186651684424975e-06,
      "loss": 1.13353596,
      "memory(GiB)": 112.26,
      "step": 30600,
      "train_speed(iter/s)": 1.130154
    },
    {
      "acc": 0.73178277,
      "epoch": 0.7763825469304921,
      "grad_norm": 5.09375,
      "learning_rate": 7.185708608084418e-06,
      "loss": 1.06627312,
      "memory(GiB)": 112.26,
      "step": 30605,
      "train_speed(iter/s)": 1.130188
    },
    {
      "acc": 0.7363452,
      "epoch": 0.7765093860984272,
      "grad_norm": 3.359375,
      "learning_rate": 7.184765435606642e-06,
      "loss": 1.06016369,
      "memory(GiB)": 112.26,
      "step": 30610,
      "train_speed(iter/s)": 1.130214
    },
    {
      "acc": 0.74770803,
      "epoch": 0.7766362252663622,
      "grad_norm": 3.828125,
      "learning_rate": 7.183822167033124e-06,
      "loss": 1.09407539,
      "memory(GiB)": 112.26,
      "step": 30615,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.73500013,
      "epoch": 0.7767630644342973,
      "grad_norm": 3.96875,
      "learning_rate": 7.18287880240536e-06,
      "loss": 1.08900127,
      "memory(GiB)": 112.26,
      "step": 30620,
      "train_speed(iter/s)": 1.13026
    },
    {
      "acc": 0.75677023,
      "epoch": 0.7768899036022324,
      "grad_norm": 4.4375,
      "learning_rate": 7.1819353417648386e-06,
      "loss": 1.01252842,
      "memory(GiB)": 112.26,
      "step": 30625,
      "train_speed(iter/s)": 1.130291
    },
    {
      "acc": 0.73873358,
      "epoch": 0.7770167427701674,
      "grad_norm": 3.65625,
      "learning_rate": 7.180991785153059e-06,
      "loss": 1.079638,
      "memory(GiB)": 112.26,
      "step": 30630,
      "train_speed(iter/s)": 1.130321
    },
    {
      "acc": 0.74031458,
      "epoch": 0.7771435819381025,
      "grad_norm": 3.796875,
      "learning_rate": 7.180048132611524e-06,
      "loss": 1.06157093,
      "memory(GiB)": 112.26,
      "step": 30635,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.73178644,
      "epoch": 0.7772704211060375,
      "grad_norm": 6.53125,
      "learning_rate": 7.17910438418174e-06,
      "loss": 1.05093212,
      "memory(GiB)": 112.26,
      "step": 30640,
      "train_speed(iter/s)": 1.130363
    },
    {
      "acc": 0.73481593,
      "epoch": 0.7773972602739726,
      "grad_norm": 4.0,
      "learning_rate": 7.178160539905214e-06,
      "loss": 1.11118832,
      "memory(GiB)": 112.26,
      "step": 30645,
      "train_speed(iter/s)": 1.130405
    },
    {
      "acc": 0.74566746,
      "epoch": 0.7775240994419077,
      "grad_norm": 4.09375,
      "learning_rate": 7.1772165998234645e-06,
      "loss": 1.05132008,
      "memory(GiB)": 112.26,
      "step": 30650,
      "train_speed(iter/s)": 1.130391
    },
    {
      "acc": 0.73434,
      "epoch": 0.7776509386098427,
      "grad_norm": 3.1875,
      "learning_rate": 7.176272563978007e-06,
      "loss": 1.09287424,
      "memory(GiB)": 112.26,
      "step": 30655,
      "train_speed(iter/s)": 1.130412
    },
    {
      "acc": 0.72979493,
      "epoch": 0.7777777777777778,
      "grad_norm": 4.15625,
      "learning_rate": 7.175328432410367e-06,
      "loss": 1.08354044,
      "memory(GiB)": 112.26,
      "step": 30660,
      "train_speed(iter/s)": 1.130441
    },
    {
      "acc": 0.72700653,
      "epoch": 0.7779046169457129,
      "grad_norm": 4.03125,
      "learning_rate": 7.17438420516207e-06,
      "loss": 1.12117901,
      "memory(GiB)": 112.26,
      "step": 30665,
      "train_speed(iter/s)": 1.13044
    },
    {
      "acc": 0.74169021,
      "epoch": 0.7780314561136479,
      "grad_norm": 3.78125,
      "learning_rate": 7.173439882274647e-06,
      "loss": 1.03094835,
      "memory(GiB)": 112.26,
      "step": 30670,
      "train_speed(iter/s)": 1.130461
    },
    {
      "acc": 0.73157353,
      "epoch": 0.778158295281583,
      "grad_norm": 4.0,
      "learning_rate": 7.172495463789635e-06,
      "loss": 1.09315729,
      "memory(GiB)": 112.26,
      "step": 30675,
      "train_speed(iter/s)": 1.130499
    },
    {
      "acc": 0.72898531,
      "epoch": 0.778285134449518,
      "grad_norm": 3.515625,
      "learning_rate": 7.171550949748574e-06,
      "loss": 1.09715519,
      "memory(GiB)": 112.26,
      "step": 30680,
      "train_speed(iter/s)": 1.130527
    },
    {
      "acc": 0.73824482,
      "epoch": 0.7784119736174531,
      "grad_norm": 3.359375,
      "learning_rate": 7.170606340193003e-06,
      "loss": 1.07272243,
      "memory(GiB)": 112.26,
      "step": 30685,
      "train_speed(iter/s)": 1.130561
    },
    {
      "acc": 0.7314023,
      "epoch": 0.7785388127853882,
      "grad_norm": 3.6875,
      "learning_rate": 7.1696616351644786e-06,
      "loss": 1.13331079,
      "memory(GiB)": 112.26,
      "step": 30690,
      "train_speed(iter/s)": 1.130576
    },
    {
      "acc": 0.74745164,
      "epoch": 0.7786656519533232,
      "grad_norm": 3.671875,
      "learning_rate": 7.168716834704546e-06,
      "loss": 1.08397064,
      "memory(GiB)": 112.26,
      "step": 30695,
      "train_speed(iter/s)": 1.130618
    },
    {
      "acc": 0.7379776,
      "epoch": 0.7787924911212583,
      "grad_norm": 3.5,
      "learning_rate": 7.167771938854766e-06,
      "loss": 1.10254841,
      "memory(GiB)": 112.26,
      "step": 30700,
      "train_speed(iter/s)": 1.130657
    },
    {
      "acc": 0.73650599,
      "epoch": 0.7789193302891934,
      "grad_norm": 5.1875,
      "learning_rate": 7.166826947656696e-06,
      "loss": 1.15809031,
      "memory(GiB)": 112.26,
      "step": 30705,
      "train_speed(iter/s)": 1.130684
    },
    {
      "acc": 0.73302755,
      "epoch": 0.7790461694571283,
      "grad_norm": 3.109375,
      "learning_rate": 7.165881861151904e-06,
      "loss": 1.09521542,
      "memory(GiB)": 112.26,
      "step": 30710,
      "train_speed(iter/s)": 1.13071
    },
    {
      "acc": 0.73946042,
      "epoch": 0.7791730086250634,
      "grad_norm": 4.0,
      "learning_rate": 7.164936679381957e-06,
      "loss": 1.04431477,
      "memory(GiB)": 112.26,
      "step": 30715,
      "train_speed(iter/s)": 1.130732
    },
    {
      "acc": 0.73396358,
      "epoch": 0.7792998477929984,
      "grad_norm": 3.828125,
      "learning_rate": 7.16399140238843e-06,
      "loss": 1.12910681,
      "memory(GiB)": 112.26,
      "step": 30720,
      "train_speed(iter/s)": 1.130763
    },
    {
      "acc": 0.73207898,
      "epoch": 0.7794266869609335,
      "grad_norm": 3.140625,
      "learning_rate": 7.163046030212899e-06,
      "loss": 1.10102577,
      "memory(GiB)": 112.26,
      "step": 30725,
      "train_speed(iter/s)": 1.130799
    },
    {
      "acc": 0.74380484,
      "epoch": 0.7795535261288686,
      "grad_norm": 3.46875,
      "learning_rate": 7.1621005628969475e-06,
      "loss": 1.02182331,
      "memory(GiB)": 112.26,
      "step": 30730,
      "train_speed(iter/s)": 1.13082
    },
    {
      "acc": 0.71850252,
      "epoch": 0.7796803652968036,
      "grad_norm": 4.03125,
      "learning_rate": 7.161155000482159e-06,
      "loss": 1.15560522,
      "memory(GiB)": 112.26,
      "step": 30735,
      "train_speed(iter/s)": 1.130856
    },
    {
      "acc": 0.71496849,
      "epoch": 0.7798072044647387,
      "grad_norm": 3.625,
      "learning_rate": 7.160209343010125e-06,
      "loss": 1.14187136,
      "memory(GiB)": 112.26,
      "step": 30740,
      "train_speed(iter/s)": 1.130868
    },
    {
      "acc": 0.72442741,
      "epoch": 0.7799340436326738,
      "grad_norm": 3.71875,
      "learning_rate": 7.1592635905224386e-06,
      "loss": 1.1536993,
      "memory(GiB)": 112.26,
      "step": 30745,
      "train_speed(iter/s)": 1.130897
    },
    {
      "acc": 0.72752519,
      "epoch": 0.7800608828006088,
      "grad_norm": 4.125,
      "learning_rate": 7.1583177430606995e-06,
      "loss": 1.14394398,
      "memory(GiB)": 112.26,
      "step": 30750,
      "train_speed(iter/s)": 1.130912
    },
    {
      "acc": 0.7268774,
      "epoch": 0.7801877219685439,
      "grad_norm": 4.0,
      "learning_rate": 7.1573718006665095e-06,
      "loss": 1.14729576,
      "memory(GiB)": 112.26,
      "step": 30755,
      "train_speed(iter/s)": 1.130933
    },
    {
      "acc": 0.72175937,
      "epoch": 0.7803145611364789,
      "grad_norm": 4.53125,
      "learning_rate": 7.156425763381477e-06,
      "loss": 1.13092384,
      "memory(GiB)": 112.26,
      "step": 30760,
      "train_speed(iter/s)": 1.130966
    },
    {
      "acc": 0.74321756,
      "epoch": 0.780441400304414,
      "grad_norm": 3.828125,
      "learning_rate": 7.155479631247211e-06,
      "loss": 1.0629384,
      "memory(GiB)": 112.26,
      "step": 30765,
      "train_speed(iter/s)": 1.130993
    },
    {
      "acc": 0.71931973,
      "epoch": 0.7805682394723491,
      "grad_norm": 3.390625,
      "learning_rate": 7.154533404305327e-06,
      "loss": 1.12303085,
      "memory(GiB)": 112.26,
      "step": 30770,
      "train_speed(iter/s)": 1.131004
    },
    {
      "acc": 0.74332352,
      "epoch": 0.7806950786402841,
      "grad_norm": 3.703125,
      "learning_rate": 7.153587082597445e-06,
      "loss": 0.98321018,
      "memory(GiB)": 112.26,
      "step": 30775,
      "train_speed(iter/s)": 1.131024
    },
    {
      "acc": 0.74776573,
      "epoch": 0.7808219178082192,
      "grad_norm": 3.59375,
      "learning_rate": 7.152640666165187e-06,
      "loss": 1.03004417,
      "memory(GiB)": 112.26,
      "step": 30780,
      "train_speed(iter/s)": 1.131065
    },
    {
      "acc": 0.74296846,
      "epoch": 0.7809487569761543,
      "grad_norm": 3.5625,
      "learning_rate": 7.151694155050184e-06,
      "loss": 1.05410948,
      "memory(GiB)": 112.26,
      "step": 30785,
      "train_speed(iter/s)": 1.131082
    },
    {
      "acc": 0.73323016,
      "epoch": 0.7810755961440893,
      "grad_norm": 3.28125,
      "learning_rate": 7.150747549294064e-06,
      "loss": 1.1147501,
      "memory(GiB)": 112.26,
      "step": 30790,
      "train_speed(iter/s)": 1.131101
    },
    {
      "acc": 0.73872061,
      "epoch": 0.7812024353120244,
      "grad_norm": 4.625,
      "learning_rate": 7.149800848938464e-06,
      "loss": 1.05946617,
      "memory(GiB)": 112.26,
      "step": 30795,
      "train_speed(iter/s)": 1.131136
    },
    {
      "acc": 0.73057866,
      "epoch": 0.7813292744799594,
      "grad_norm": 3.984375,
      "learning_rate": 7.1488540540250254e-06,
      "loss": 1.11698675,
      "memory(GiB)": 112.26,
      "step": 30800,
      "train_speed(iter/s)": 1.131159
    },
    {
      "acc": 0.73405905,
      "epoch": 0.7814561136478945,
      "grad_norm": 3.421875,
      "learning_rate": 7.14790716459539e-06,
      "loss": 1.09346352,
      "memory(GiB)": 112.26,
      "step": 30805,
      "train_speed(iter/s)": 1.131161
    },
    {
      "acc": 0.74140224,
      "epoch": 0.7815829528158296,
      "grad_norm": 3.3125,
      "learning_rate": 7.146960180691209e-06,
      "loss": 1.04380741,
      "memory(GiB)": 112.26,
      "step": 30810,
      "train_speed(iter/s)": 1.131182
    },
    {
      "acc": 0.73075314,
      "epoch": 0.7817097919837646,
      "grad_norm": 3.78125,
      "learning_rate": 7.146013102354133e-06,
      "loss": 1.05558815,
      "memory(GiB)": 112.26,
      "step": 30815,
      "train_speed(iter/s)": 1.131221
    },
    {
      "acc": 0.74322586,
      "epoch": 0.7818366311516997,
      "grad_norm": 3.734375,
      "learning_rate": 7.145065929625821e-06,
      "loss": 1.0383316,
      "memory(GiB)": 112.26,
      "step": 30820,
      "train_speed(iter/s)": 1.131252
    },
    {
      "acc": 0.73998704,
      "epoch": 0.7819634703196348,
      "grad_norm": 3.578125,
      "learning_rate": 7.1441186625479304e-06,
      "loss": 1.09208555,
      "memory(GiB)": 112.26,
      "step": 30825,
      "train_speed(iter/s)": 1.131273
    },
    {
      "acc": 0.73452115,
      "epoch": 0.7820903094875697,
      "grad_norm": 4.0,
      "learning_rate": 7.143171301162131e-06,
      "loss": 1.0861515,
      "memory(GiB)": 112.26,
      "step": 30830,
      "train_speed(iter/s)": 1.131307
    },
    {
      "acc": 0.72195282,
      "epoch": 0.7822171486555048,
      "grad_norm": 4.25,
      "learning_rate": 7.142223845510086e-06,
      "loss": 1.1616622,
      "memory(GiB)": 112.26,
      "step": 30835,
      "train_speed(iter/s)": 1.131344
    },
    {
      "acc": 0.72465906,
      "epoch": 0.7823439878234398,
      "grad_norm": 4.15625,
      "learning_rate": 7.1412762956334746e-06,
      "loss": 1.11616812,
      "memory(GiB)": 112.26,
      "step": 30840,
      "train_speed(iter/s)": 1.131382
    },
    {
      "acc": 0.73215985,
      "epoch": 0.7824708269913749,
      "grad_norm": 3.140625,
      "learning_rate": 7.140328651573969e-06,
      "loss": 1.07649107,
      "memory(GiB)": 112.26,
      "step": 30845,
      "train_speed(iter/s)": 1.131406
    },
    {
      "acc": 0.7332273,
      "epoch": 0.78259766615931,
      "grad_norm": 3.75,
      "learning_rate": 7.139380913373255e-06,
      "loss": 1.0916132,
      "memory(GiB)": 112.26,
      "step": 30850,
      "train_speed(iter/s)": 1.131432
    },
    {
      "acc": 0.73070278,
      "epoch": 0.782724505327245,
      "grad_norm": 3.375,
      "learning_rate": 7.138433081073017e-06,
      "loss": 1.10967579,
      "memory(GiB)": 112.26,
      "step": 30855,
      "train_speed(iter/s)": 1.131456
    },
    {
      "acc": 0.74700336,
      "epoch": 0.7828513444951801,
      "grad_norm": 3.5,
      "learning_rate": 7.137485154714945e-06,
      "loss": 1.06461363,
      "memory(GiB)": 112.26,
      "step": 30860,
      "train_speed(iter/s)": 1.131489
    },
    {
      "acc": 0.74202089,
      "epoch": 0.7829781836631152,
      "grad_norm": 3.4375,
      "learning_rate": 7.1365371343407304e-06,
      "loss": 1.07265701,
      "memory(GiB)": 112.26,
      "step": 30865,
      "train_speed(iter/s)": 1.131514
    },
    {
      "acc": 0.75181522,
      "epoch": 0.7831050228310502,
      "grad_norm": 4.15625,
      "learning_rate": 7.135589019992076e-06,
      "loss": 1.0692028,
      "memory(GiB)": 112.26,
      "step": 30870,
      "train_speed(iter/s)": 1.131531
    },
    {
      "acc": 0.74499311,
      "epoch": 0.7832318619989853,
      "grad_norm": 4.03125,
      "learning_rate": 7.134640811710681e-06,
      "loss": 1.06133375,
      "memory(GiB)": 112.26,
      "step": 30875,
      "train_speed(iter/s)": 1.13157
    },
    {
      "acc": 0.72393026,
      "epoch": 0.7833587011669203,
      "grad_norm": 4.03125,
      "learning_rate": 7.133692509538253e-06,
      "loss": 1.07450695,
      "memory(GiB)": 112.26,
      "step": 30880,
      "train_speed(iter/s)": 1.131571
    },
    {
      "acc": 0.73406353,
      "epoch": 0.7834855403348554,
      "grad_norm": 3.8125,
      "learning_rate": 7.132744113516502e-06,
      "loss": 1.14285355,
      "memory(GiB)": 112.26,
      "step": 30885,
      "train_speed(iter/s)": 1.131594
    },
    {
      "acc": 0.75265803,
      "epoch": 0.7836123795027905,
      "grad_norm": 3.453125,
      "learning_rate": 7.1317956236871436e-06,
      "loss": 1.03597355,
      "memory(GiB)": 112.26,
      "step": 30890,
      "train_speed(iter/s)": 1.13162
    },
    {
      "acc": 0.74643946,
      "epoch": 0.7837392186707255,
      "grad_norm": 3.78125,
      "learning_rate": 7.130847040091893e-06,
      "loss": 1.06875525,
      "memory(GiB)": 112.26,
      "step": 30895,
      "train_speed(iter/s)": 1.131634
    },
    {
      "acc": 0.7405057,
      "epoch": 0.7838660578386606,
      "grad_norm": 3.6875,
      "learning_rate": 7.1298983627724795e-06,
      "loss": 1.04146843,
      "memory(GiB)": 112.26,
      "step": 30900,
      "train_speed(iter/s)": 1.131658
    },
    {
      "acc": 0.71735721,
      "epoch": 0.7839928970065957,
      "grad_norm": 4.3125,
      "learning_rate": 7.128949591770624e-06,
      "loss": 1.14022312,
      "memory(GiB)": 112.26,
      "step": 30905,
      "train_speed(iter/s)": 1.131699
    },
    {
      "acc": 0.74259796,
      "epoch": 0.7841197361745307,
      "grad_norm": 4.46875,
      "learning_rate": 7.128000727128063e-06,
      "loss": 1.11343765,
      "memory(GiB)": 112.26,
      "step": 30910,
      "train_speed(iter/s)": 1.131719
    },
    {
      "acc": 0.72663207,
      "epoch": 0.7842465753424658,
      "grad_norm": 4.03125,
      "learning_rate": 7.127051768886527e-06,
      "loss": 1.09820604,
      "memory(GiB)": 112.26,
      "step": 30915,
      "train_speed(iter/s)": 1.131739
    },
    {
      "acc": 0.75763187,
      "epoch": 0.7843734145104008,
      "grad_norm": 4.21875,
      "learning_rate": 7.126102717087758e-06,
      "loss": 1.03230009,
      "memory(GiB)": 112.26,
      "step": 30920,
      "train_speed(iter/s)": 1.131767
    },
    {
      "acc": 0.72806964,
      "epoch": 0.7845002536783359,
      "grad_norm": 3.375,
      "learning_rate": 7.1251535717735e-06,
      "loss": 1.10497599,
      "memory(GiB)": 112.26,
      "step": 30925,
      "train_speed(iter/s)": 1.131793
    },
    {
      "acc": 0.72571478,
      "epoch": 0.784627092846271,
      "grad_norm": 4.65625,
      "learning_rate": 7.1242043329854995e-06,
      "loss": 1.15566273,
      "memory(GiB)": 112.26,
      "step": 30930,
      "train_speed(iter/s)": 1.131805
    },
    {
      "acc": 0.73578501,
      "epoch": 0.784753932014206,
      "grad_norm": 3.625,
      "learning_rate": 7.123255000765508e-06,
      "loss": 1.06022091,
      "memory(GiB)": 112.26,
      "step": 30935,
      "train_speed(iter/s)": 1.131834
    },
    {
      "acc": 0.74310818,
      "epoch": 0.7848807711821411,
      "grad_norm": 4.03125,
      "learning_rate": 7.122305575155283e-06,
      "loss": 1.06234894,
      "memory(GiB)": 112.26,
      "step": 30940,
      "train_speed(iter/s)": 1.131862
    },
    {
      "acc": 0.73000064,
      "epoch": 0.7850076103500762,
      "grad_norm": 3.734375,
      "learning_rate": 7.121356056196582e-06,
      "loss": 1.11666861,
      "memory(GiB)": 112.26,
      "step": 30945,
      "train_speed(iter/s)": 1.131883
    },
    {
      "acc": 0.74913211,
      "epoch": 0.7851344495180111,
      "grad_norm": 3.40625,
      "learning_rate": 7.1204064439311715e-06,
      "loss": 1.06454601,
      "memory(GiB)": 112.26,
      "step": 30950,
      "train_speed(iter/s)": 1.131905
    },
    {
      "acc": 0.74917769,
      "epoch": 0.7852612886859462,
      "grad_norm": 4.0625,
      "learning_rate": 7.119456738400818e-06,
      "loss": 1.04718962,
      "memory(GiB)": 112.26,
      "step": 30955,
      "train_speed(iter/s)": 1.131944
    },
    {
      "acc": 0.73192511,
      "epoch": 0.7853881278538812,
      "grad_norm": 3.484375,
      "learning_rate": 7.118506939647295e-06,
      "loss": 1.01071138,
      "memory(GiB)": 112.26,
      "step": 30960,
      "train_speed(iter/s)": 1.131964
    },
    {
      "acc": 0.73566103,
      "epoch": 0.7855149670218163,
      "grad_norm": 3.859375,
      "learning_rate": 7.1175570477123776e-06,
      "loss": 1.08998375,
      "memory(GiB)": 112.26,
      "step": 30965,
      "train_speed(iter/s)": 1.131995
    },
    {
      "acc": 0.73576231,
      "epoch": 0.7856418061897514,
      "grad_norm": 3.796875,
      "learning_rate": 7.116607062637848e-06,
      "loss": 1.08235416,
      "memory(GiB)": 112.26,
      "step": 30970,
      "train_speed(iter/s)": 1.132009
    },
    {
      "acc": 0.73651667,
      "epoch": 0.7857686453576864,
      "grad_norm": 4.125,
      "learning_rate": 7.115656984465489e-06,
      "loss": 1.04960155,
      "memory(GiB)": 112.26,
      "step": 30975,
      "train_speed(iter/s)": 1.132021
    },
    {
      "acc": 0.72857828,
      "epoch": 0.7858954845256215,
      "grad_norm": 3.9375,
      "learning_rate": 7.114706813237091e-06,
      "loss": 1.13676682,
      "memory(GiB)": 112.26,
      "step": 30980,
      "train_speed(iter/s)": 1.132044
    },
    {
      "acc": 0.73613157,
      "epoch": 0.7860223236935566,
      "grad_norm": 3.3125,
      "learning_rate": 7.1137565489944445e-06,
      "loss": 1.08871574,
      "memory(GiB)": 112.26,
      "step": 30985,
      "train_speed(iter/s)": 1.132086
    },
    {
      "acc": 0.7438756,
      "epoch": 0.7861491628614916,
      "grad_norm": 3.515625,
      "learning_rate": 7.112806191779349e-06,
      "loss": 1.04759207,
      "memory(GiB)": 112.26,
      "step": 30990,
      "train_speed(iter/s)": 1.132097
    },
    {
      "acc": 0.72857413,
      "epoch": 0.7862760020294267,
      "grad_norm": 3.328125,
      "learning_rate": 7.111855741633603e-06,
      "loss": 1.11738529,
      "memory(GiB)": 112.26,
      "step": 30995,
      "train_speed(iter/s)": 1.132119
    },
    {
      "acc": 0.73771811,
      "epoch": 0.7864028411973617,
      "grad_norm": 4.8125,
      "learning_rate": 7.1109051985990145e-06,
      "loss": 1.10063686,
      "memory(GiB)": 112.26,
      "step": 31000,
      "train_speed(iter/s)": 1.132154
    },
    {
      "epoch": 0.7864028411973617,
      "eval_acc": 0.724493115898901,
      "eval_loss": 1.0504919290542603,
      "eval_runtime": 70.8346,
      "eval_samples_per_second": 89.928,
      "eval_steps_per_second": 22.489,
      "step": 31000
    },
    {
      "acc": 0.72720928,
      "epoch": 0.7865296803652968,
      "grad_norm": 3.28125,
      "learning_rate": 7.109954562717389e-06,
      "loss": 1.12139111,
      "memory(GiB)": 112.26,
      "step": 31005,
      "train_speed(iter/s)": 1.127418
    },
    {
      "acc": 0.74747562,
      "epoch": 0.7866565195332319,
      "grad_norm": 6.0625,
      "learning_rate": 7.109003834030543e-06,
      "loss": 1.044944,
      "memory(GiB)": 112.26,
      "step": 31010,
      "train_speed(iter/s)": 1.127437
    },
    {
      "acc": 0.74555645,
      "epoch": 0.7867833587011669,
      "grad_norm": 4.34375,
      "learning_rate": 7.108053012580291e-06,
      "loss": 1.07225513,
      "memory(GiB)": 112.26,
      "step": 31015,
      "train_speed(iter/s)": 1.127454
    },
    {
      "acc": 0.73429031,
      "epoch": 0.786910197869102,
      "grad_norm": 3.328125,
      "learning_rate": 7.107102098408457e-06,
      "loss": 1.06327791,
      "memory(GiB)": 112.26,
      "step": 31020,
      "train_speed(iter/s)": 1.127448
    },
    {
      "acc": 0.73688846,
      "epoch": 0.7870370370370371,
      "grad_norm": 3.390625,
      "learning_rate": 7.106151091556865e-06,
      "loss": 1.07982502,
      "memory(GiB)": 112.26,
      "step": 31025,
      "train_speed(iter/s)": 1.127469
    },
    {
      "acc": 0.73939323,
      "epoch": 0.7871638762049721,
      "grad_norm": 3.40625,
      "learning_rate": 7.105199992067344e-06,
      "loss": 1.08380184,
      "memory(GiB)": 112.26,
      "step": 31030,
      "train_speed(iter/s)": 1.127497
    },
    {
      "acc": 0.73286152,
      "epoch": 0.7872907153729072,
      "grad_norm": 3.546875,
      "learning_rate": 7.1042487999817275e-06,
      "loss": 1.08482494,
      "memory(GiB)": 112.26,
      "step": 31035,
      "train_speed(iter/s)": 1.127519
    },
    {
      "acc": 0.73941817,
      "epoch": 0.7874175545408422,
      "grad_norm": 4.375,
      "learning_rate": 7.103297515341857e-06,
      "loss": 1.05473404,
      "memory(GiB)": 112.26,
      "step": 31040,
      "train_speed(iter/s)": 1.127553
    },
    {
      "acc": 0.72776785,
      "epoch": 0.7875443937087773,
      "grad_norm": 4.78125,
      "learning_rate": 7.1023461381895685e-06,
      "loss": 1.10070915,
      "memory(GiB)": 112.26,
      "step": 31045,
      "train_speed(iter/s)": 1.127573
    },
    {
      "acc": 0.73688574,
      "epoch": 0.7876712328767124,
      "grad_norm": 3.609375,
      "learning_rate": 7.1013946685667125e-06,
      "loss": 1.09618835,
      "memory(GiB)": 112.26,
      "step": 31050,
      "train_speed(iter/s)": 1.127604
    },
    {
      "acc": 0.74461312,
      "epoch": 0.7877980720446474,
      "grad_norm": 3.796875,
      "learning_rate": 7.100443106515135e-06,
      "loss": 1.02537136,
      "memory(GiB)": 112.26,
      "step": 31055,
      "train_speed(iter/s)": 1.127624
    },
    {
      "acc": 0.75166655,
      "epoch": 0.7879249112125825,
      "grad_norm": 4.28125,
      "learning_rate": 7.099491452076693e-06,
      "loss": 1.05408115,
      "memory(GiB)": 112.26,
      "step": 31060,
      "train_speed(iter/s)": 1.127657
    },
    {
      "acc": 0.73718538,
      "epoch": 0.7880517503805176,
      "grad_norm": 5.40625,
      "learning_rate": 7.098539705293242e-06,
      "loss": 1.07343626,
      "memory(GiB)": 112.26,
      "step": 31065,
      "train_speed(iter/s)": 1.127691
    },
    {
      "acc": 0.72927079,
      "epoch": 0.7881785895484525,
      "grad_norm": 4.3125,
      "learning_rate": 7.097587866206647e-06,
      "loss": 1.08553219,
      "memory(GiB)": 112.26,
      "step": 31070,
      "train_speed(iter/s)": 1.127728
    },
    {
      "acc": 0.74381757,
      "epoch": 0.7883054287163876,
      "grad_norm": 4.34375,
      "learning_rate": 7.096635934858772e-06,
      "loss": 1.02171803,
      "memory(GiB)": 112.26,
      "step": 31075,
      "train_speed(iter/s)": 1.127755
    },
    {
      "acc": 0.73700523,
      "epoch": 0.7884322678843226,
      "grad_norm": 3.78125,
      "learning_rate": 7.095683911291488e-06,
      "loss": 1.0831213,
      "memory(GiB)": 112.26,
      "step": 31080,
      "train_speed(iter/s)": 1.127792
    },
    {
      "acc": 0.7322258,
      "epoch": 0.7885591070522577,
      "grad_norm": 4.25,
      "learning_rate": 7.0947317955466686e-06,
      "loss": 1.1422472,
      "memory(GiB)": 112.26,
      "step": 31085,
      "train_speed(iter/s)": 1.127832
    },
    {
      "acc": 0.73493853,
      "epoch": 0.7886859462201928,
      "grad_norm": 3.484375,
      "learning_rate": 7.093779587666193e-06,
      "loss": 1.06787443,
      "memory(GiB)": 112.26,
      "step": 31090,
      "train_speed(iter/s)": 1.127868
    },
    {
      "acc": 0.74277458,
      "epoch": 0.7888127853881278,
      "grad_norm": 3.34375,
      "learning_rate": 7.092827287691943e-06,
      "loss": 1.02559891,
      "memory(GiB)": 112.26,
      "step": 31095,
      "train_speed(iter/s)": 1.127893
    },
    {
      "acc": 0.73794203,
      "epoch": 0.7889396245560629,
      "grad_norm": 3.765625,
      "learning_rate": 7.091874895665806e-06,
      "loss": 1.06041451,
      "memory(GiB)": 112.26,
      "step": 31100,
      "train_speed(iter/s)": 1.127926
    },
    {
      "acc": 0.73686886,
      "epoch": 0.789066463723998,
      "grad_norm": 4.34375,
      "learning_rate": 7.09092241162967e-06,
      "loss": 1.07440071,
      "memory(GiB)": 112.26,
      "step": 31105,
      "train_speed(iter/s)": 1.127944
    },
    {
      "acc": 0.74004402,
      "epoch": 0.789193302891933,
      "grad_norm": 3.546875,
      "learning_rate": 7.089969835625432e-06,
      "loss": 1.06651363,
      "memory(GiB)": 112.26,
      "step": 31110,
      "train_speed(iter/s)": 1.127975
    },
    {
      "acc": 0.72305937,
      "epoch": 0.7893201420598681,
      "grad_norm": 3.875,
      "learning_rate": 7.089017167694988e-06,
      "loss": 1.10945053,
      "memory(GiB)": 112.26,
      "step": 31115,
      "train_speed(iter/s)": 1.128007
    },
    {
      "acc": 0.72416735,
      "epoch": 0.7894469812278031,
      "grad_norm": 3.6875,
      "learning_rate": 7.088064407880244e-06,
      "loss": 1.13233833,
      "memory(GiB)": 112.26,
      "step": 31120,
      "train_speed(iter/s)": 1.128037
    },
    {
      "acc": 0.73461189,
      "epoch": 0.7895738203957382,
      "grad_norm": 3.734375,
      "learning_rate": 7.087111556223103e-06,
      "loss": 1.05853271,
      "memory(GiB)": 112.26,
      "step": 31125,
      "train_speed(iter/s)": 1.128063
    },
    {
      "acc": 0.73348565,
      "epoch": 0.7897006595636733,
      "grad_norm": 4.03125,
      "learning_rate": 7.08615861276548e-06,
      "loss": 1.10581608,
      "memory(GiB)": 112.26,
      "step": 31130,
      "train_speed(iter/s)": 1.12809
    },
    {
      "acc": 0.72665854,
      "epoch": 0.7898274987316083,
      "grad_norm": 3.9375,
      "learning_rate": 7.085205577549285e-06,
      "loss": 1.09658785,
      "memory(GiB)": 112.26,
      "step": 31135,
      "train_speed(iter/s)": 1.128116
    },
    {
      "acc": 0.73642182,
      "epoch": 0.7899543378995434,
      "grad_norm": 3.375,
      "learning_rate": 7.08425245061644e-06,
      "loss": 1.0603775,
      "memory(GiB)": 112.26,
      "step": 31140,
      "train_speed(iter/s)": 1.128119
    },
    {
      "acc": 0.73208337,
      "epoch": 0.7900811770674785,
      "grad_norm": 3.46875,
      "learning_rate": 7.083299232008867e-06,
      "loss": 1.1165699,
      "memory(GiB)": 112.26,
      "step": 31145,
      "train_speed(iter/s)": 1.128138
    },
    {
      "acc": 0.73119702,
      "epoch": 0.7902080162354135,
      "grad_norm": 3.75,
      "learning_rate": 7.082345921768492e-06,
      "loss": 1.05151281,
      "memory(GiB)": 112.26,
      "step": 31150,
      "train_speed(iter/s)": 1.128157
    },
    {
      "acc": 0.73824911,
      "epoch": 0.7903348554033486,
      "grad_norm": 3.859375,
      "learning_rate": 7.0813925199372455e-06,
      "loss": 1.09489136,
      "memory(GiB)": 112.26,
      "step": 31155,
      "train_speed(iter/s)": 1.128174
    },
    {
      "acc": 0.71842895,
      "epoch": 0.7904616945712836,
      "grad_norm": 3.265625,
      "learning_rate": 7.080439026557065e-06,
      "loss": 1.10427551,
      "memory(GiB)": 112.26,
      "step": 31160,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.75505743,
      "epoch": 0.7905885337392187,
      "grad_norm": 3.640625,
      "learning_rate": 7.079485441669887e-06,
      "loss": 0.99057102,
      "memory(GiB)": 112.26,
      "step": 31165,
      "train_speed(iter/s)": 1.128212
    },
    {
      "acc": 0.71986961,
      "epoch": 0.7907153729071538,
      "grad_norm": 3.796875,
      "learning_rate": 7.0785317653176534e-06,
      "loss": 1.09459496,
      "memory(GiB)": 112.26,
      "step": 31170,
      "train_speed(iter/s)": 1.128241
    },
    {
      "acc": 0.72168169,
      "epoch": 0.7908422120750888,
      "grad_norm": 3.859375,
      "learning_rate": 7.077577997542316e-06,
      "loss": 1.12124634,
      "memory(GiB)": 112.26,
      "step": 31175,
      "train_speed(iter/s)": 1.128261
    },
    {
      "acc": 0.71410952,
      "epoch": 0.7909690512430239,
      "grad_norm": 3.859375,
      "learning_rate": 7.0766241383858195e-06,
      "loss": 1.20130329,
      "memory(GiB)": 112.26,
      "step": 31180,
      "train_speed(iter/s)": 1.12828
    },
    {
      "acc": 0.73834467,
      "epoch": 0.791095890410959,
      "grad_norm": 3.640625,
      "learning_rate": 7.075670187890123e-06,
      "loss": 1.07436457,
      "memory(GiB)": 112.26,
      "step": 31185,
      "train_speed(iter/s)": 1.128319
    },
    {
      "acc": 0.73020325,
      "epoch": 0.791222729578894,
      "grad_norm": 3.5,
      "learning_rate": 7.0747161460971845e-06,
      "loss": 1.0935606,
      "memory(GiB)": 112.26,
      "step": 31190,
      "train_speed(iter/s)": 1.128345
    },
    {
      "acc": 0.72531147,
      "epoch": 0.791349568746829,
      "grad_norm": 4.1875,
      "learning_rate": 7.073762013048966e-06,
      "loss": 1.15637054,
      "memory(GiB)": 112.26,
      "step": 31195,
      "train_speed(iter/s)": 1.128378
    },
    {
      "acc": 0.72948298,
      "epoch": 0.791476407914764,
      "grad_norm": 3.53125,
      "learning_rate": 7.072807788787437e-06,
      "loss": 1.08029213,
      "memory(GiB)": 112.26,
      "step": 31200,
      "train_speed(iter/s)": 1.128411
    },
    {
      "acc": 0.73722234,
      "epoch": 0.7916032470826991,
      "grad_norm": 4.125,
      "learning_rate": 7.071853473354566e-06,
      "loss": 1.0709137,
      "memory(GiB)": 112.26,
      "step": 31205,
      "train_speed(iter/s)": 1.128425
    },
    {
      "acc": 0.74304762,
      "epoch": 0.7917300862506342,
      "grad_norm": 3.21875,
      "learning_rate": 7.070899066792329e-06,
      "loss": 1.05706253,
      "memory(GiB)": 112.26,
      "step": 31210,
      "train_speed(iter/s)": 1.12845
    },
    {
      "acc": 0.74239283,
      "epoch": 0.7918569254185692,
      "grad_norm": 3.703125,
      "learning_rate": 7.069944569142706e-06,
      "loss": 1.01927433,
      "memory(GiB)": 112.26,
      "step": 31215,
      "train_speed(iter/s)": 1.128478
    },
    {
      "acc": 0.72886038,
      "epoch": 0.7919837645865043,
      "grad_norm": 4.96875,
      "learning_rate": 7.068989980447679e-06,
      "loss": 1.12784042,
      "memory(GiB)": 112.26,
      "step": 31220,
      "train_speed(iter/s)": 1.128497
    },
    {
      "acc": 0.73933287,
      "epoch": 0.7921106037544394,
      "grad_norm": 3.953125,
      "learning_rate": 7.068035300749237e-06,
      "loss": 1.0710516,
      "memory(GiB)": 112.26,
      "step": 31225,
      "train_speed(iter/s)": 1.128539
    },
    {
      "acc": 0.72873507,
      "epoch": 0.7922374429223744,
      "grad_norm": 3.203125,
      "learning_rate": 7.067080530089366e-06,
      "loss": 1.13853207,
      "memory(GiB)": 112.26,
      "step": 31230,
      "train_speed(iter/s)": 1.128548
    },
    {
      "acc": 0.72118082,
      "epoch": 0.7923642820903095,
      "grad_norm": 3.8125,
      "learning_rate": 7.066125668510067e-06,
      "loss": 1.11742887,
      "memory(GiB)": 112.26,
      "step": 31235,
      "train_speed(iter/s)": 1.128573
    },
    {
      "acc": 0.73623457,
      "epoch": 0.7924911212582445,
      "grad_norm": 3.6875,
      "learning_rate": 7.065170716053336e-06,
      "loss": 1.10303364,
      "memory(GiB)": 112.26,
      "step": 31240,
      "train_speed(iter/s)": 1.128607
    },
    {
      "acc": 0.7269805,
      "epoch": 0.7926179604261796,
      "grad_norm": 4.28125,
      "learning_rate": 7.064215672761175e-06,
      "loss": 1.12622547,
      "memory(GiB)": 112.26,
      "step": 31245,
      "train_speed(iter/s)": 1.128614
    },
    {
      "acc": 0.74519329,
      "epoch": 0.7927447995941147,
      "grad_norm": 3.5,
      "learning_rate": 7.063260538675594e-06,
      "loss": 1.04119816,
      "memory(GiB)": 112.26,
      "step": 31250,
      "train_speed(iter/s)": 1.128638
    },
    {
      "acc": 0.73993187,
      "epoch": 0.7928716387620497,
      "grad_norm": 4.6875,
      "learning_rate": 7.062305313838601e-06,
      "loss": 1.06970577,
      "memory(GiB)": 112.26,
      "step": 31255,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.73090224,
      "epoch": 0.7929984779299848,
      "grad_norm": 3.921875,
      "learning_rate": 7.061349998292215e-06,
      "loss": 1.13865967,
      "memory(GiB)": 112.26,
      "step": 31260,
      "train_speed(iter/s)": 1.128687
    },
    {
      "acc": 0.72876277,
      "epoch": 0.7931253170979199,
      "grad_norm": 3.46875,
      "learning_rate": 7.060394592078452e-06,
      "loss": 1.10079193,
      "memory(GiB)": 112.26,
      "step": 31265,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.7399209,
      "epoch": 0.7932521562658549,
      "grad_norm": 3.625,
      "learning_rate": 7.0594390952393365e-06,
      "loss": 1.09807177,
      "memory(GiB)": 112.26,
      "step": 31270,
      "train_speed(iter/s)": 1.128741
    },
    {
      "acc": 0.7339016,
      "epoch": 0.79337899543379,
      "grad_norm": 3.515625,
      "learning_rate": 7.058483507816894e-06,
      "loss": 1.09582195,
      "memory(GiB)": 112.26,
      "step": 31275,
      "train_speed(iter/s)": 1.128755
    },
    {
      "acc": 0.74612722,
      "epoch": 0.793505834601725,
      "grad_norm": 3.125,
      "learning_rate": 7.057527829853157e-06,
      "loss": 1.03289042,
      "memory(GiB)": 112.26,
      "step": 31280,
      "train_speed(iter/s)": 1.128789
    },
    {
      "acc": 0.73397703,
      "epoch": 0.7936326737696601,
      "grad_norm": 4.78125,
      "learning_rate": 7.056572061390159e-06,
      "loss": 1.11713238,
      "memory(GiB)": 112.26,
      "step": 31285,
      "train_speed(iter/s)": 1.128816
    },
    {
      "acc": 0.7227704,
      "epoch": 0.7937595129375952,
      "grad_norm": 3.171875,
      "learning_rate": 7.055616202469939e-06,
      "loss": 1.12280388,
      "memory(GiB)": 112.26,
      "step": 31290,
      "train_speed(iter/s)": 1.128841
    },
    {
      "acc": 0.73185377,
      "epoch": 0.7938863521055302,
      "grad_norm": 4.40625,
      "learning_rate": 7.054660253134543e-06,
      "loss": 1.09567642,
      "memory(GiB)": 112.26,
      "step": 31295,
      "train_speed(iter/s)": 1.128871
    },
    {
      "acc": 0.73101163,
      "epoch": 0.7940131912734653,
      "grad_norm": 3.640625,
      "learning_rate": 7.053704213426015e-06,
      "loss": 1.14635944,
      "memory(GiB)": 112.26,
      "step": 31300,
      "train_speed(iter/s)": 1.128901
    },
    {
      "acc": 0.72370386,
      "epoch": 0.7941400304414004,
      "grad_norm": 3.546875,
      "learning_rate": 7.052748083386406e-06,
      "loss": 1.11772575,
      "memory(GiB)": 112.26,
      "step": 31305,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.74059629,
      "epoch": 0.7942668696093353,
      "grad_norm": 4.625,
      "learning_rate": 7.051791863057772e-06,
      "loss": 1.08479862,
      "memory(GiB)": 112.26,
      "step": 31310,
      "train_speed(iter/s)": 1.128921
    },
    {
      "acc": 0.73266621,
      "epoch": 0.7943937087772704,
      "grad_norm": 4.21875,
      "learning_rate": 7.050835552482171e-06,
      "loss": 1.08796024,
      "memory(GiB)": 112.26,
      "step": 31315,
      "train_speed(iter/s)": 1.128928
    },
    {
      "acc": 0.74163404,
      "epoch": 0.7945205479452054,
      "grad_norm": 4.65625,
      "learning_rate": 7.049879151701666e-06,
      "loss": 1.07443838,
      "memory(GiB)": 112.26,
      "step": 31320,
      "train_speed(iter/s)": 1.128965
    },
    {
      "acc": 0.73748846,
      "epoch": 0.7946473871131405,
      "grad_norm": 3.796875,
      "learning_rate": 7.048922660758324e-06,
      "loss": 1.03458395,
      "memory(GiB)": 112.26,
      "step": 31325,
      "train_speed(iter/s)": 1.129001
    },
    {
      "acc": 0.74091239,
      "epoch": 0.7947742262810756,
      "grad_norm": 3.65625,
      "learning_rate": 7.047966079694215e-06,
      "loss": 1.04410353,
      "memory(GiB)": 112.26,
      "step": 31330,
      "train_speed(iter/s)": 1.129024
    },
    {
      "acc": 0.74631681,
      "epoch": 0.7949010654490106,
      "grad_norm": 4.78125,
      "learning_rate": 7.047009408551414e-06,
      "loss": 1.02923098,
      "memory(GiB)": 112.26,
      "step": 31335,
      "train_speed(iter/s)": 1.129052
    },
    {
      "acc": 0.72630711,
      "epoch": 0.7950279046169457,
      "grad_norm": 3.515625,
      "learning_rate": 7.046052647372002e-06,
      "loss": 1.09750366,
      "memory(GiB)": 112.26,
      "step": 31340,
      "train_speed(iter/s)": 1.12908
    },
    {
      "acc": 0.73101535,
      "epoch": 0.7951547437848808,
      "grad_norm": 4.3125,
      "learning_rate": 7.045095796198057e-06,
      "loss": 1.11438742,
      "memory(GiB)": 112.26,
      "step": 31345,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.72467523,
      "epoch": 0.7952815829528158,
      "grad_norm": 3.71875,
      "learning_rate": 7.044138855071671e-06,
      "loss": 1.21688232,
      "memory(GiB)": 112.26,
      "step": 31350,
      "train_speed(iter/s)": 1.129115
    },
    {
      "acc": 0.73476734,
      "epoch": 0.7954084221207509,
      "grad_norm": 3.890625,
      "learning_rate": 7.043181824034929e-06,
      "loss": 1.05978994,
      "memory(GiB)": 112.26,
      "step": 31355,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.74774694,
      "epoch": 0.7955352612886859,
      "grad_norm": 4.625,
      "learning_rate": 7.042224703129929e-06,
      "loss": 1.06087742,
      "memory(GiB)": 112.26,
      "step": 31360,
      "train_speed(iter/s)": 1.129165
    },
    {
      "acc": 0.73733845,
      "epoch": 0.795662100456621,
      "grad_norm": 3.953125,
      "learning_rate": 7.0412674923987705e-06,
      "loss": 1.12830076,
      "memory(GiB)": 112.26,
      "step": 31365,
      "train_speed(iter/s)": 1.129199
    },
    {
      "acc": 0.75847602,
      "epoch": 0.7957889396245561,
      "grad_norm": 4.53125,
      "learning_rate": 7.040310191883552e-06,
      "loss": 1.00582876,
      "memory(GiB)": 112.26,
      "step": 31370,
      "train_speed(iter/s)": 1.129223
    },
    {
      "acc": 0.74053879,
      "epoch": 0.7959157787924911,
      "grad_norm": 3.53125,
      "learning_rate": 7.039352801626383e-06,
      "loss": 1.07746544,
      "memory(GiB)": 112.26,
      "step": 31375,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.75494986,
      "epoch": 0.7960426179604262,
      "grad_norm": 4.09375,
      "learning_rate": 7.0383953216693725e-06,
      "loss": 0.97415237,
      "memory(GiB)": 112.26,
      "step": 31380,
      "train_speed(iter/s)": 1.1293
    },
    {
      "acc": 0.74329882,
      "epoch": 0.7961694571283613,
      "grad_norm": 4.03125,
      "learning_rate": 7.037437752054635e-06,
      "loss": 1.08839111,
      "memory(GiB)": 112.26,
      "step": 31385,
      "train_speed(iter/s)": 1.129313
    },
    {
      "acc": 0.75433578,
      "epoch": 0.7962962962962963,
      "grad_norm": 3.765625,
      "learning_rate": 7.036480092824288e-06,
      "loss": 1.03330231,
      "memory(GiB)": 112.26,
      "step": 31390,
      "train_speed(iter/s)": 1.129352
    },
    {
      "acc": 0.73392649,
      "epoch": 0.7964231354642314,
      "grad_norm": 3.78125,
      "learning_rate": 7.035522344020455e-06,
      "loss": 1.09442987,
      "memory(GiB)": 112.26,
      "step": 31395,
      "train_speed(iter/s)": 1.129373
    },
    {
      "acc": 0.73158779,
      "epoch": 0.7965499746321664,
      "grad_norm": 3.84375,
      "learning_rate": 7.034564505685262e-06,
      "loss": 1.05536594,
      "memory(GiB)": 112.26,
      "step": 31400,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.73178101,
      "epoch": 0.7966768138001015,
      "grad_norm": 4.09375,
      "learning_rate": 7.0336065778608365e-06,
      "loss": 1.09592104,
      "memory(GiB)": 112.26,
      "step": 31405,
      "train_speed(iter/s)": 1.129425
    },
    {
      "acc": 0.74419775,
      "epoch": 0.7968036529680366,
      "grad_norm": 3.078125,
      "learning_rate": 7.032648560589316e-06,
      "loss": 1.02892933,
      "memory(GiB)": 112.26,
      "step": 31410,
      "train_speed(iter/s)": 1.129455
    },
    {
      "acc": 0.73976221,
      "epoch": 0.7969304921359716,
      "grad_norm": 3.84375,
      "learning_rate": 7.031690453912835e-06,
      "loss": 1.02924042,
      "memory(GiB)": 112.26,
      "step": 31415,
      "train_speed(iter/s)": 1.12949
    },
    {
      "acc": 0.74118948,
      "epoch": 0.7970573313039067,
      "grad_norm": 4.4375,
      "learning_rate": 7.030732257873539e-06,
      "loss": 1.06392975,
      "memory(GiB)": 112.26,
      "step": 31420,
      "train_speed(iter/s)": 1.129513
    },
    {
      "acc": 0.73615484,
      "epoch": 0.7971841704718418,
      "grad_norm": 3.375,
      "learning_rate": 7.02977397251357e-06,
      "loss": 1.08236208,
      "memory(GiB)": 112.26,
      "step": 31425,
      "train_speed(iter/s)": 1.129545
    },
    {
      "acc": 0.74598484,
      "epoch": 0.7973110096397767,
      "grad_norm": 3.046875,
      "learning_rate": 7.028815597875081e-06,
      "loss": 1.01855564,
      "memory(GiB)": 112.26,
      "step": 31430,
      "train_speed(iter/s)": 1.129555
    },
    {
      "acc": 0.72095575,
      "epoch": 0.7974378488077118,
      "grad_norm": 3.46875,
      "learning_rate": 7.027857134000223e-06,
      "loss": 1.15320778,
      "memory(GiB)": 112.26,
      "step": 31435,
      "train_speed(iter/s)": 1.12959
    },
    {
      "acc": 0.75185194,
      "epoch": 0.7975646879756468,
      "grad_norm": 4.15625,
      "learning_rate": 7.026898580931154e-06,
      "loss": 1.07510166,
      "memory(GiB)": 112.26,
      "step": 31440,
      "train_speed(iter/s)": 1.129623
    },
    {
      "acc": 0.75340796,
      "epoch": 0.7976915271435819,
      "grad_norm": 3.71875,
      "learning_rate": 7.025939938710037e-06,
      "loss": 1.03139677,
      "memory(GiB)": 112.26,
      "step": 31445,
      "train_speed(iter/s)": 1.129654
    },
    {
      "acc": 0.7164166,
      "epoch": 0.797818366311517,
      "grad_norm": 3.84375,
      "learning_rate": 7.024981207379036e-06,
      "loss": 1.12076445,
      "memory(GiB)": 112.26,
      "step": 31450,
      "train_speed(iter/s)": 1.129677
    },
    {
      "acc": 0.72329226,
      "epoch": 0.797945205479452,
      "grad_norm": 4.09375,
      "learning_rate": 7.02402238698032e-06,
      "loss": 1.12920017,
      "memory(GiB)": 112.26,
      "step": 31455,
      "train_speed(iter/s)": 1.1297
    },
    {
      "acc": 0.72674985,
      "epoch": 0.7980720446473871,
      "grad_norm": 4.375,
      "learning_rate": 7.023063477556064e-06,
      "loss": 1.12930202,
      "memory(GiB)": 112.26,
      "step": 31460,
      "train_speed(iter/s)": 1.129728
    },
    {
      "acc": 0.73923512,
      "epoch": 0.7981988838153222,
      "grad_norm": 3.375,
      "learning_rate": 7.0221044791484424e-06,
      "loss": 1.03491507,
      "memory(GiB)": 112.26,
      "step": 31465,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.73359046,
      "epoch": 0.7983257229832572,
      "grad_norm": 3.53125,
      "learning_rate": 7.021145391799639e-06,
      "loss": 1.05215921,
      "memory(GiB)": 112.26,
      "step": 31470,
      "train_speed(iter/s)": 1.129796
    },
    {
      "acc": 0.73529701,
      "epoch": 0.7984525621511923,
      "grad_norm": 3.359375,
      "learning_rate": 7.020186215551837e-06,
      "loss": 1.0797718,
      "memory(GiB)": 112.26,
      "step": 31475,
      "train_speed(iter/s)": 1.129827
    },
    {
      "acc": 0.74198585,
      "epoch": 0.7985794013191273,
      "grad_norm": 3.78125,
      "learning_rate": 7.019226950447227e-06,
      "loss": 1.08116913,
      "memory(GiB)": 112.26,
      "step": 31480,
      "train_speed(iter/s)": 1.129865
    },
    {
      "acc": 0.72392564,
      "epoch": 0.7987062404870624,
      "grad_norm": 3.9375,
      "learning_rate": 7.018267596527998e-06,
      "loss": 1.13058109,
      "memory(GiB)": 112.26,
      "step": 31485,
      "train_speed(iter/s)": 1.129903
    },
    {
      "acc": 0.75557346,
      "epoch": 0.7988330796549975,
      "grad_norm": 3.90625,
      "learning_rate": 7.017308153836352e-06,
      "loss": 1.04167957,
      "memory(GiB)": 112.26,
      "step": 31490,
      "train_speed(iter/s)": 1.129935
    },
    {
      "acc": 0.72981229,
      "epoch": 0.7989599188229325,
      "grad_norm": 3.25,
      "learning_rate": 7.016348622414484e-06,
      "loss": 1.10216522,
      "memory(GiB)": 112.26,
      "step": 31495,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.73182502,
      "epoch": 0.7990867579908676,
      "grad_norm": 3.53125,
      "learning_rate": 7.015389002304604e-06,
      "loss": 1.11799393,
      "memory(GiB)": 112.26,
      "step": 31500,
      "train_speed(iter/s)": 1.129967
    },
    {
      "acc": 0.7492147,
      "epoch": 0.7992135971588027,
      "grad_norm": 3.671875,
      "learning_rate": 7.014429293548916e-06,
      "loss": 1.01662731,
      "memory(GiB)": 112.26,
      "step": 31505,
      "train_speed(iter/s)": 1.129995
    },
    {
      "acc": 0.74289942,
      "epoch": 0.7993404363267377,
      "grad_norm": 3.84375,
      "learning_rate": 7.013469496189633e-06,
      "loss": 1.09523458,
      "memory(GiB)": 112.26,
      "step": 31510,
      "train_speed(iter/s)": 1.129999
    },
    {
      "acc": 0.7472641,
      "epoch": 0.7994672754946728,
      "grad_norm": 3.859375,
      "learning_rate": 7.012509610268974e-06,
      "loss": 1.00518646,
      "memory(GiB)": 112.26,
      "step": 31515,
      "train_speed(iter/s)": 1.130023
    },
    {
      "acc": 0.73253498,
      "epoch": 0.7995941146626078,
      "grad_norm": 3.859375,
      "learning_rate": 7.011549635829156e-06,
      "loss": 1.09892511,
      "memory(GiB)": 112.26,
      "step": 31520,
      "train_speed(iter/s)": 1.130041
    },
    {
      "acc": 0.72962017,
      "epoch": 0.7997209538305429,
      "grad_norm": 3.828125,
      "learning_rate": 7.010589572912404e-06,
      "loss": 1.07131586,
      "memory(GiB)": 112.26,
      "step": 31525,
      "train_speed(iter/s)": 1.130065
    },
    {
      "acc": 0.73295507,
      "epoch": 0.799847792998478,
      "grad_norm": 3.578125,
      "learning_rate": 7.009629421560946e-06,
      "loss": 1.08855333,
      "memory(GiB)": 112.26,
      "step": 31530,
      "train_speed(iter/s)": 1.130095
    },
    {
      "acc": 0.73678646,
      "epoch": 0.799974632166413,
      "grad_norm": 3.796875,
      "learning_rate": 7.008669181817015e-06,
      "loss": 1.09174004,
      "memory(GiB)": 112.26,
      "step": 31535,
      "train_speed(iter/s)": 1.130123
    },
    {
      "acc": 0.72883115,
      "epoch": 0.8001014713343481,
      "grad_norm": 3.515625,
      "learning_rate": 7.007708853722844e-06,
      "loss": 1.07963676,
      "memory(GiB)": 112.26,
      "step": 31540,
      "train_speed(iter/s)": 1.130133
    },
    {
      "acc": 0.71972885,
      "epoch": 0.8002283105022832,
      "grad_norm": 3.625,
      "learning_rate": 7.006748437320674e-06,
      "loss": 1.18621359,
      "memory(GiB)": 112.26,
      "step": 31545,
      "train_speed(iter/s)": 1.130163
    },
    {
      "acc": 0.73167796,
      "epoch": 0.8003551496702181,
      "grad_norm": 3.359375,
      "learning_rate": 7.005787932652749e-06,
      "loss": 1.07335463,
      "memory(GiB)": 112.26,
      "step": 31550,
      "train_speed(iter/s)": 1.130178
    },
    {
      "acc": 0.72485356,
      "epoch": 0.8004819888381532,
      "grad_norm": 3.78125,
      "learning_rate": 7.0048273397613145e-06,
      "loss": 1.1520731,
      "memory(GiB)": 112.26,
      "step": 31555,
      "train_speed(iter/s)": 1.130195
    },
    {
      "acc": 0.73225574,
      "epoch": 0.8006088280060882,
      "grad_norm": 3.8125,
      "learning_rate": 7.003866658688624e-06,
      "loss": 1.08087597,
      "memory(GiB)": 112.26,
      "step": 31560,
      "train_speed(iter/s)": 1.130208
    },
    {
      "acc": 0.73741941,
      "epoch": 0.8007356671740233,
      "grad_norm": 3.890625,
      "learning_rate": 7.0029058894769295e-06,
      "loss": 1.11556139,
      "memory(GiB)": 112.26,
      "step": 31565,
      "train_speed(iter/s)": 1.130245
    },
    {
      "acc": 0.73250508,
      "epoch": 0.8008625063419584,
      "grad_norm": 3.625,
      "learning_rate": 7.001945032168493e-06,
      "loss": 1.09402885,
      "memory(GiB)": 112.26,
      "step": 31570,
      "train_speed(iter/s)": 1.13028
    },
    {
      "acc": 0.73215046,
      "epoch": 0.8009893455098934,
      "grad_norm": 3.84375,
      "learning_rate": 7.000984086805575e-06,
      "loss": 1.07231236,
      "memory(GiB)": 112.26,
      "step": 31575,
      "train_speed(iter/s)": 1.130303
    },
    {
      "acc": 0.72900825,
      "epoch": 0.8011161846778285,
      "grad_norm": 3.6875,
      "learning_rate": 7.000023053430444e-06,
      "loss": 1.09725533,
      "memory(GiB)": 112.26,
      "step": 31580,
      "train_speed(iter/s)": 1.130304
    },
    {
      "acc": 0.72812605,
      "epoch": 0.8012430238457636,
      "grad_norm": 4.4375,
      "learning_rate": 6.999061932085369e-06,
      "loss": 1.12797279,
      "memory(GiB)": 112.26,
      "step": 31585,
      "train_speed(iter/s)": 1.130304
    },
    {
      "acc": 0.7364079,
      "epoch": 0.8013698630136986,
      "grad_norm": 3.671875,
      "learning_rate": 6.9981007228126255e-06,
      "loss": 1.04065371,
      "memory(GiB)": 112.26,
      "step": 31590,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.72024393,
      "epoch": 0.8014967021816337,
      "grad_norm": 3.515625,
      "learning_rate": 6.997139425654491e-06,
      "loss": 1.12799625,
      "memory(GiB)": 112.26,
      "step": 31595,
      "train_speed(iter/s)": 1.130344
    },
    {
      "acc": 0.75565629,
      "epoch": 0.8016235413495687,
      "grad_norm": 3.984375,
      "learning_rate": 6.996178040653248e-06,
      "loss": 1.02463913,
      "memory(GiB)": 112.26,
      "step": 31600,
      "train_speed(iter/s)": 1.130367
    },
    {
      "acc": 0.74636631,
      "epoch": 0.8017503805175038,
      "grad_norm": 3.890625,
      "learning_rate": 6.995216567851183e-06,
      "loss": 1.05053692,
      "memory(GiB)": 112.26,
      "step": 31605,
      "train_speed(iter/s)": 1.130369
    },
    {
      "acc": 0.7228694,
      "epoch": 0.8018772196854389,
      "grad_norm": 4.3125,
      "learning_rate": 6.994255007290585e-06,
      "loss": 1.09777107,
      "memory(GiB)": 112.26,
      "step": 31610,
      "train_speed(iter/s)": 1.130396
    },
    {
      "acc": 0.74300594,
      "epoch": 0.8020040588533739,
      "grad_norm": 3.0625,
      "learning_rate": 6.993293359013747e-06,
      "loss": 1.07218561,
      "memory(GiB)": 112.26,
      "step": 31615,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.7166955,
      "epoch": 0.802130898021309,
      "grad_norm": 3.515625,
      "learning_rate": 6.992331623062969e-06,
      "loss": 1.12704897,
      "memory(GiB)": 112.26,
      "step": 31620,
      "train_speed(iter/s)": 1.130438
    },
    {
      "acc": 0.7352953,
      "epoch": 0.8022577371892441,
      "grad_norm": 3.5,
      "learning_rate": 6.9913697994805505e-06,
      "loss": 1.06815205,
      "memory(GiB)": 112.26,
      "step": 31625,
      "train_speed(iter/s)": 1.13046
    },
    {
      "acc": 0.73103743,
      "epoch": 0.8023845763571791,
      "grad_norm": 4.09375,
      "learning_rate": 6.990407888308799e-06,
      "loss": 1.08862228,
      "memory(GiB)": 112.26,
      "step": 31630,
      "train_speed(iter/s)": 1.130474
    },
    {
      "acc": 0.73407831,
      "epoch": 0.8025114155251142,
      "grad_norm": 3.0,
      "learning_rate": 6.98944588959002e-06,
      "loss": 1.09013405,
      "memory(GiB)": 112.26,
      "step": 31635,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.73227167,
      "epoch": 0.8026382546930492,
      "grad_norm": 4.15625,
      "learning_rate": 6.9884838033665305e-06,
      "loss": 1.05716038,
      "memory(GiB)": 112.26,
      "step": 31640,
      "train_speed(iter/s)": 1.130526
    },
    {
      "acc": 0.7243556,
      "epoch": 0.8027650938609843,
      "grad_norm": 3.265625,
      "learning_rate": 6.987521629680643e-06,
      "loss": 1.11655655,
      "memory(GiB)": 112.26,
      "step": 31645,
      "train_speed(iter/s)": 1.130561
    },
    {
      "acc": 0.72594991,
      "epoch": 0.8028919330289194,
      "grad_norm": 3.5625,
      "learning_rate": 6.9865593685746815e-06,
      "loss": 1.12494316,
      "memory(GiB)": 112.26,
      "step": 31650,
      "train_speed(iter/s)": 1.130572
    },
    {
      "acc": 0.7333951,
      "epoch": 0.8030187721968544,
      "grad_norm": 3.828125,
      "learning_rate": 6.98559702009097e-06,
      "loss": 1.16288776,
      "memory(GiB)": 112.26,
      "step": 31655,
      "train_speed(iter/s)": 1.130606
    },
    {
      "acc": 0.74163933,
      "epoch": 0.8031456113647895,
      "grad_norm": 5.0625,
      "learning_rate": 6.984634584271836e-06,
      "loss": 1.09545565,
      "memory(GiB)": 112.26,
      "step": 31660,
      "train_speed(iter/s)": 1.130638
    },
    {
      "acc": 0.73564491,
      "epoch": 0.8032724505327246,
      "grad_norm": 3.421875,
      "learning_rate": 6.983672061159612e-06,
      "loss": 1.06447868,
      "memory(GiB)": 112.26,
      "step": 31665,
      "train_speed(iter/s)": 1.130667
    },
    {
      "acc": 0.74054289,
      "epoch": 0.8033992897006595,
      "grad_norm": 4.1875,
      "learning_rate": 6.982709450796636e-06,
      "loss": 1.07080135,
      "memory(GiB)": 112.26,
      "step": 31670,
      "train_speed(iter/s)": 1.130688
    },
    {
      "acc": 0.72368565,
      "epoch": 0.8035261288685946,
      "grad_norm": 3.71875,
      "learning_rate": 6.981746753225245e-06,
      "loss": 1.16426983,
      "memory(GiB)": 112.26,
      "step": 31675,
      "train_speed(iter/s)": 1.130715
    },
    {
      "acc": 0.74088278,
      "epoch": 0.8036529680365296,
      "grad_norm": 4.1875,
      "learning_rate": 6.980783968487783e-06,
      "loss": 1.02445965,
      "memory(GiB)": 112.26,
      "step": 31680,
      "train_speed(iter/s)": 1.130739
    },
    {
      "acc": 0.71912012,
      "epoch": 0.8037798072044647,
      "grad_norm": 4.84375,
      "learning_rate": 6.9798210966266e-06,
      "loss": 1.14552908,
      "memory(GiB)": 112.26,
      "step": 31685,
      "train_speed(iter/s)": 1.130744
    },
    {
      "acc": 0.72811069,
      "epoch": 0.8039066463723998,
      "grad_norm": 3.15625,
      "learning_rate": 6.9788581376840455e-06,
      "loss": 1.0560051,
      "memory(GiB)": 112.26,
      "step": 31690,
      "train_speed(iter/s)": 1.130766
    },
    {
      "acc": 0.74055271,
      "epoch": 0.8040334855403348,
      "grad_norm": 4.125,
      "learning_rate": 6.977895091702474e-06,
      "loss": 1.0754137,
      "memory(GiB)": 112.26,
      "step": 31695,
      "train_speed(iter/s)": 1.130806
    },
    {
      "acc": 0.74815779,
      "epoch": 0.8041603247082699,
      "grad_norm": 3.71875,
      "learning_rate": 6.976931958724248e-06,
      "loss": 1.02441158,
      "memory(GiB)": 112.26,
      "step": 31700,
      "train_speed(iter/s)": 1.130828
    },
    {
      "acc": 0.73039122,
      "epoch": 0.804287163876205,
      "grad_norm": 3.515625,
      "learning_rate": 6.975968738791726e-06,
      "loss": 1.10932274,
      "memory(GiB)": 112.26,
      "step": 31705,
      "train_speed(iter/s)": 1.130862
    },
    {
      "acc": 0.72686028,
      "epoch": 0.80441400304414,
      "grad_norm": 3.78125,
      "learning_rate": 6.9750054319472785e-06,
      "loss": 1.16988287,
      "memory(GiB)": 112.26,
      "step": 31710,
      "train_speed(iter/s)": 1.130888
    },
    {
      "acc": 0.74344559,
      "epoch": 0.8045408422120751,
      "grad_norm": 3.5625,
      "learning_rate": 6.974042038233272e-06,
      "loss": 1.08123856,
      "memory(GiB)": 112.26,
      "step": 31715,
      "train_speed(iter/s)": 1.130918
    },
    {
      "acc": 0.71262264,
      "epoch": 0.8046676813800101,
      "grad_norm": 3.59375,
      "learning_rate": 6.9730785576920855e-06,
      "loss": 1.20701694,
      "memory(GiB)": 112.26,
      "step": 31720,
      "train_speed(iter/s)": 1.130951
    },
    {
      "acc": 0.7495368,
      "epoch": 0.8047945205479452,
      "grad_norm": 4.4375,
      "learning_rate": 6.972114990366094e-06,
      "loss": 1.03408356,
      "memory(GiB)": 112.26,
      "step": 31725,
      "train_speed(iter/s)": 1.130959
    },
    {
      "acc": 0.7240592,
      "epoch": 0.8049213597158803,
      "grad_norm": 4.375,
      "learning_rate": 6.97115133629768e-06,
      "loss": 1.05592499,
      "memory(GiB)": 112.26,
      "step": 31730,
      "train_speed(iter/s)": 1.13099
    },
    {
      "acc": 0.74532104,
      "epoch": 0.8050481988838153,
      "grad_norm": 3.3125,
      "learning_rate": 6.970187595529229e-06,
      "loss": 1.04681673,
      "memory(GiB)": 112.26,
      "step": 31735,
      "train_speed(iter/s)": 1.131014
    },
    {
      "acc": 0.73283768,
      "epoch": 0.8051750380517504,
      "grad_norm": 3.5625,
      "learning_rate": 6.969223768103133e-06,
      "loss": 1.13702307,
      "memory(GiB)": 112.26,
      "step": 31740,
      "train_speed(iter/s)": 1.131037
    },
    {
      "acc": 0.73332014,
      "epoch": 0.8053018772196855,
      "grad_norm": 3.5625,
      "learning_rate": 6.968259854061783e-06,
      "loss": 1.07340984,
      "memory(GiB)": 112.26,
      "step": 31745,
      "train_speed(iter/s)": 1.131057
    },
    {
      "acc": 0.73992891,
      "epoch": 0.8054287163876205,
      "grad_norm": 3.34375,
      "learning_rate": 6.967295853447578e-06,
      "loss": 1.06169224,
      "memory(GiB)": 112.26,
      "step": 31750,
      "train_speed(iter/s)": 1.131082
    },
    {
      "acc": 0.73778658,
      "epoch": 0.8055555555555556,
      "grad_norm": 3.90625,
      "learning_rate": 6.966331766302916e-06,
      "loss": 1.10310097,
      "memory(GiB)": 112.26,
      "step": 31755,
      "train_speed(iter/s)": 1.131122
    },
    {
      "acc": 0.73356004,
      "epoch": 0.8056823947234906,
      "grad_norm": 3.34375,
      "learning_rate": 6.965367592670206e-06,
      "loss": 1.05384121,
      "memory(GiB)": 112.26,
      "step": 31760,
      "train_speed(iter/s)": 1.13115
    },
    {
      "acc": 0.73840027,
      "epoch": 0.8058092338914257,
      "grad_norm": 3.8125,
      "learning_rate": 6.964403332591854e-06,
      "loss": 1.15728502,
      "memory(GiB)": 112.26,
      "step": 31765,
      "train_speed(iter/s)": 1.131184
    },
    {
      "acc": 0.74267168,
      "epoch": 0.8059360730593608,
      "grad_norm": 3.890625,
      "learning_rate": 6.963438986110272e-06,
      "loss": 1.0484004,
      "memory(GiB)": 112.26,
      "step": 31770,
      "train_speed(iter/s)": 1.131212
    },
    {
      "acc": 0.7469624,
      "epoch": 0.8060629122272958,
      "grad_norm": 4.21875,
      "learning_rate": 6.962474553267877e-06,
      "loss": 1.06560431,
      "memory(GiB)": 112.26,
      "step": 31775,
      "train_speed(iter/s)": 1.131219
    },
    {
      "acc": 0.72054081,
      "epoch": 0.8061897513952309,
      "grad_norm": 3.59375,
      "learning_rate": 6.96151003410709e-06,
      "loss": 1.12666569,
      "memory(GiB)": 112.26,
      "step": 31780,
      "train_speed(iter/s)": 1.131257
    },
    {
      "acc": 0.72997026,
      "epoch": 0.806316590563166,
      "grad_norm": 3.28125,
      "learning_rate": 6.960545428670333e-06,
      "loss": 1.1366766,
      "memory(GiB)": 112.26,
      "step": 31785,
      "train_speed(iter/s)": 1.131285
    },
    {
      "acc": 0.74421287,
      "epoch": 0.806443429731101,
      "grad_norm": 4.875,
      "learning_rate": 6.959580737000038e-06,
      "loss": 1.08237572,
      "memory(GiB)": 112.26,
      "step": 31790,
      "train_speed(iter/s)": 1.131308
    },
    {
      "acc": 0.7462606,
      "epoch": 0.806570268899036,
      "grad_norm": 3.421875,
      "learning_rate": 6.95861595913863e-06,
      "loss": 1.02342758,
      "memory(GiB)": 112.26,
      "step": 31795,
      "train_speed(iter/s)": 1.131336
    },
    {
      "acc": 0.75545282,
      "epoch": 0.806697108066971,
      "grad_norm": 3.046875,
      "learning_rate": 6.95765109512855e-06,
      "loss": 0.99192896,
      "memory(GiB)": 112.26,
      "step": 31800,
      "train_speed(iter/s)": 1.131355
    },
    {
      "acc": 0.74160185,
      "epoch": 0.8068239472349061,
      "grad_norm": 3.78125,
      "learning_rate": 6.956686145012233e-06,
      "loss": 1.06337843,
      "memory(GiB)": 112.26,
      "step": 31805,
      "train_speed(iter/s)": 1.131384
    },
    {
      "acc": 0.73167744,
      "epoch": 0.8069507864028412,
      "grad_norm": 4.25,
      "learning_rate": 6.955721108832124e-06,
      "loss": 1.06964235,
      "memory(GiB)": 112.26,
      "step": 31810,
      "train_speed(iter/s)": 1.131412
    },
    {
      "acc": 0.7508626,
      "epoch": 0.8070776255707762,
      "grad_norm": 3.796875,
      "learning_rate": 6.9547559866306695e-06,
      "loss": 1.02175732,
      "memory(GiB)": 112.26,
      "step": 31815,
      "train_speed(iter/s)": 1.131417
    },
    {
      "acc": 0.73367701,
      "epoch": 0.8072044647387113,
      "grad_norm": 4.09375,
      "learning_rate": 6.953790778450318e-06,
      "loss": 1.10325222,
      "memory(GiB)": 112.26,
      "step": 31820,
      "train_speed(iter/s)": 1.131442
    },
    {
      "acc": 0.73335238,
      "epoch": 0.8073313039066464,
      "grad_norm": 4.1875,
      "learning_rate": 6.9528254843335254e-06,
      "loss": 1.09038506,
      "memory(GiB)": 112.26,
      "step": 31825,
      "train_speed(iter/s)": 1.131455
    },
    {
      "acc": 0.74664726,
      "epoch": 0.8074581430745814,
      "grad_norm": 3.546875,
      "learning_rate": 6.95186010432275e-06,
      "loss": 1.00967674,
      "memory(GiB)": 112.26,
      "step": 31830,
      "train_speed(iter/s)": 1.13148
    },
    {
      "acc": 0.72916908,
      "epoch": 0.8075849822425165,
      "grad_norm": 3.59375,
      "learning_rate": 6.950894638460452e-06,
      "loss": 1.1174139,
      "memory(GiB)": 112.26,
      "step": 31835,
      "train_speed(iter/s)": 1.131506
    },
    {
      "acc": 0.73364701,
      "epoch": 0.8077118214104515,
      "grad_norm": 3.453125,
      "learning_rate": 6.949929086789098e-06,
      "loss": 1.09800434,
      "memory(GiB)": 112.26,
      "step": 31840,
      "train_speed(iter/s)": 1.131533
    },
    {
      "acc": 0.72721505,
      "epoch": 0.8078386605783866,
      "grad_norm": 3.484375,
      "learning_rate": 6.948963449351156e-06,
      "loss": 1.12225294,
      "memory(GiB)": 112.26,
      "step": 31845,
      "train_speed(iter/s)": 1.131554
    },
    {
      "acc": 0.72762284,
      "epoch": 0.8079654997463217,
      "grad_norm": 4.15625,
      "learning_rate": 6.947997726189102e-06,
      "loss": 1.13143139,
      "memory(GiB)": 112.26,
      "step": 31850,
      "train_speed(iter/s)": 1.131582
    },
    {
      "acc": 0.73565884,
      "epoch": 0.8080923389142567,
      "grad_norm": 4.9375,
      "learning_rate": 6.947031917345409e-06,
      "loss": 1.12114515,
      "memory(GiB)": 112.26,
      "step": 31855,
      "train_speed(iter/s)": 1.131596
    },
    {
      "acc": 0.73101931,
      "epoch": 0.8082191780821918,
      "grad_norm": 3.890625,
      "learning_rate": 6.946066022862561e-06,
      "loss": 1.11704788,
      "memory(GiB)": 112.26,
      "step": 31860,
      "train_speed(iter/s)": 1.131623
    },
    {
      "acc": 0.72545552,
      "epoch": 0.8083460172501269,
      "grad_norm": 4.0,
      "learning_rate": 6.945100042783039e-06,
      "loss": 1.11734142,
      "memory(GiB)": 112.26,
      "step": 31865,
      "train_speed(iter/s)": 1.131621
    },
    {
      "acc": 0.7337388,
      "epoch": 0.8084728564180619,
      "grad_norm": 3.796875,
      "learning_rate": 6.9441339771493345e-06,
      "loss": 1.03772879,
      "memory(GiB)": 112.26,
      "step": 31870,
      "train_speed(iter/s)": 1.131657
    },
    {
      "acc": 0.74856625,
      "epoch": 0.808599695585997,
      "grad_norm": 3.546875,
      "learning_rate": 6.943167826003937e-06,
      "loss": 1.01101131,
      "memory(GiB)": 112.26,
      "step": 31875,
      "train_speed(iter/s)": 1.131665
    },
    {
      "acc": 0.7453836,
      "epoch": 0.808726534753932,
      "grad_norm": 3.359375,
      "learning_rate": 6.942201589389344e-06,
      "loss": 1.07159595,
      "memory(GiB)": 112.26,
      "step": 31880,
      "train_speed(iter/s)": 1.131683
    },
    {
      "acc": 0.74385767,
      "epoch": 0.8088533739218671,
      "grad_norm": 3.171875,
      "learning_rate": 6.9412352673480525e-06,
      "loss": 1.07046232,
      "memory(GiB)": 112.26,
      "step": 31885,
      "train_speed(iter/s)": 1.131687
    },
    {
      "acc": 0.72424965,
      "epoch": 0.8089802130898022,
      "grad_norm": 3.15625,
      "learning_rate": 6.940268859922566e-06,
      "loss": 1.11362009,
      "memory(GiB)": 112.26,
      "step": 31890,
      "train_speed(iter/s)": 1.131701
    },
    {
      "acc": 0.74086404,
      "epoch": 0.8091070522577372,
      "grad_norm": 3.8125,
      "learning_rate": 6.939302367155394e-06,
      "loss": 1.05554018,
      "memory(GiB)": 112.26,
      "step": 31895,
      "train_speed(iter/s)": 1.131717
    },
    {
      "acc": 0.71750183,
      "epoch": 0.8092338914256723,
      "grad_norm": 4.5,
      "learning_rate": 6.9383357890890454e-06,
      "loss": 1.2015789,
      "memory(GiB)": 112.26,
      "step": 31900,
      "train_speed(iter/s)": 1.131756
    },
    {
      "acc": 0.72472854,
      "epoch": 0.8093607305936074,
      "grad_norm": 4.15625,
      "learning_rate": 6.937369125766033e-06,
      "loss": 1.10592499,
      "memory(GiB)": 112.26,
      "step": 31905,
      "train_speed(iter/s)": 1.131786
    },
    {
      "acc": 0.7319654,
      "epoch": 0.8094875697615423,
      "grad_norm": 4.4375,
      "learning_rate": 6.936402377228879e-06,
      "loss": 1.12911921,
      "memory(GiB)": 112.26,
      "step": 31910,
      "train_speed(iter/s)": 1.131797
    },
    {
      "acc": 0.74611073,
      "epoch": 0.8096144089294774,
      "grad_norm": 3.21875,
      "learning_rate": 6.9354355435201015e-06,
      "loss": 1.00124235,
      "memory(GiB)": 112.26,
      "step": 31915,
      "train_speed(iter/s)": 1.131828
    },
    {
      "acc": 0.73202982,
      "epoch": 0.8097412480974124,
      "grad_norm": 3.828125,
      "learning_rate": 6.934468624682229e-06,
      "loss": 1.08540211,
      "memory(GiB)": 112.26,
      "step": 31920,
      "train_speed(iter/s)": 1.131824
    },
    {
      "acc": 0.73806787,
      "epoch": 0.8098680872653475,
      "grad_norm": 4.125,
      "learning_rate": 6.933501620757789e-06,
      "loss": 1.05893936,
      "memory(GiB)": 112.26,
      "step": 31925,
      "train_speed(iter/s)": 1.131848
    },
    {
      "acc": 0.74314313,
      "epoch": 0.8099949264332826,
      "grad_norm": 3.5625,
      "learning_rate": 6.932534531789317e-06,
      "loss": 1.03153419,
      "memory(GiB)": 112.26,
      "step": 31930,
      "train_speed(iter/s)": 1.131838
    },
    {
      "acc": 0.73038592,
      "epoch": 0.8101217656012176,
      "grad_norm": 3.4375,
      "learning_rate": 6.931567357819344e-06,
      "loss": 1.07218065,
      "memory(GiB)": 112.26,
      "step": 31935,
      "train_speed(iter/s)": 1.131878
    },
    {
      "acc": 0.72886419,
      "epoch": 0.8102486047691527,
      "grad_norm": 3.359375,
      "learning_rate": 6.930600098890419e-06,
      "loss": 1.07531967,
      "memory(GiB)": 112.26,
      "step": 31940,
      "train_speed(iter/s)": 1.131909
    },
    {
      "acc": 0.72981091,
      "epoch": 0.8103754439370878,
      "grad_norm": 3.5,
      "learning_rate": 6.929632755045079e-06,
      "loss": 1.09039078,
      "memory(GiB)": 112.26,
      "step": 31945,
      "train_speed(iter/s)": 1.131929
    },
    {
      "acc": 0.73726969,
      "epoch": 0.8105022831050228,
      "grad_norm": 5.375,
      "learning_rate": 6.9286653263258765e-06,
      "loss": 1.10346346,
      "memory(GiB)": 112.26,
      "step": 31950,
      "train_speed(iter/s)": 1.131958
    },
    {
      "acc": 0.72517076,
      "epoch": 0.8106291222729579,
      "grad_norm": 4.125,
      "learning_rate": 6.927697812775363e-06,
      "loss": 1.12125883,
      "memory(GiB)": 112.26,
      "step": 31955,
      "train_speed(iter/s)": 1.131989
    },
    {
      "acc": 0.72561255,
      "epoch": 0.8107559614408929,
      "grad_norm": 4.4375,
      "learning_rate": 6.926730214436091e-06,
      "loss": 1.09880047,
      "memory(GiB)": 112.26,
      "step": 31960,
      "train_speed(iter/s)": 1.132023
    },
    {
      "acc": 0.73428621,
      "epoch": 0.810882800608828,
      "grad_norm": 4.15625,
      "learning_rate": 6.925762531350624e-06,
      "loss": 1.05715599,
      "memory(GiB)": 112.26,
      "step": 31965,
      "train_speed(iter/s)": 1.13205
    },
    {
      "acc": 0.72298908,
      "epoch": 0.8110096397767631,
      "grad_norm": 4.5,
      "learning_rate": 6.924794763561522e-06,
      "loss": 1.12848339,
      "memory(GiB)": 112.26,
      "step": 31970,
      "train_speed(iter/s)": 1.132068
    },
    {
      "acc": 0.72718587,
      "epoch": 0.8111364789446981,
      "grad_norm": 3.953125,
      "learning_rate": 6.923826911111353e-06,
      "loss": 1.09905024,
      "memory(GiB)": 112.26,
      "step": 31975,
      "train_speed(iter/s)": 1.132093
    },
    {
      "acc": 0.74194751,
      "epoch": 0.8112633181126332,
      "grad_norm": 3.1875,
      "learning_rate": 6.922858974042688e-06,
      "loss": 1.04840746,
      "memory(GiB)": 112.26,
      "step": 31980,
      "train_speed(iter/s)": 1.132124
    },
    {
      "acc": 0.74975948,
      "epoch": 0.8113901572805683,
      "grad_norm": 4.0625,
      "learning_rate": 6.921890952398098e-06,
      "loss": 1.04375553,
      "memory(GiB)": 112.26,
      "step": 31985,
      "train_speed(iter/s)": 1.13214
    },
    {
      "acc": 0.73065066,
      "epoch": 0.8115169964485033,
      "grad_norm": 4.1875,
      "learning_rate": 6.920922846220166e-06,
      "loss": 1.13787689,
      "memory(GiB)": 112.26,
      "step": 31990,
      "train_speed(iter/s)": 1.132179
    },
    {
      "acc": 0.71924191,
      "epoch": 0.8116438356164384,
      "grad_norm": 4.375,
      "learning_rate": 6.919954655551469e-06,
      "loss": 1.07910366,
      "memory(GiB)": 112.26,
      "step": 31995,
      "train_speed(iter/s)": 1.132205
    },
    {
      "acc": 0.74988508,
      "epoch": 0.8117706747843734,
      "grad_norm": 3.578125,
      "learning_rate": 6.918986380434594e-06,
      "loss": 1.03719378,
      "memory(GiB)": 112.26,
      "step": 32000,
      "train_speed(iter/s)": 1.132217
    },
    {
      "epoch": 0.8117706747843734,
      "eval_acc": 0.7245992018494039,
      "eval_loss": 1.0495305061340332,
      "eval_runtime": 70.809,
      "eval_samples_per_second": 89.96,
      "eval_steps_per_second": 22.497,
      "step": 32000
    },
    {
      "acc": 0.74606977,
      "epoch": 0.8118975139523085,
      "grad_norm": 4.625,
      "learning_rate": 6.918018020912132e-06,
      "loss": 1.09943447,
      "memory(GiB)": 112.26,
      "step": 32005,
      "train_speed(iter/s)": 1.127596
    },
    {
      "acc": 0.7454998,
      "epoch": 0.8120243531202436,
      "grad_norm": 4.4375,
      "learning_rate": 6.917049577026673e-06,
      "loss": 1.06874304,
      "memory(GiB)": 112.26,
      "step": 32010,
      "train_speed(iter/s)": 1.127599
    },
    {
      "acc": 0.738908,
      "epoch": 0.8121511922881786,
      "grad_norm": 3.203125,
      "learning_rate": 6.916081048820815e-06,
      "loss": 1.04192028,
      "memory(GiB)": 112.26,
      "step": 32015,
      "train_speed(iter/s)": 1.127634
    },
    {
      "acc": 0.72410412,
      "epoch": 0.8122780314561137,
      "grad_norm": 3.40625,
      "learning_rate": 6.915112436337157e-06,
      "loss": 1.11455631,
      "memory(GiB)": 112.26,
      "step": 32020,
      "train_speed(iter/s)": 1.127652
    },
    {
      "acc": 0.72788973,
      "epoch": 0.8124048706240488,
      "grad_norm": 3.671875,
      "learning_rate": 6.914143739618305e-06,
      "loss": 1.12131977,
      "memory(GiB)": 112.26,
      "step": 32025,
      "train_speed(iter/s)": 1.127681
    },
    {
      "acc": 0.75390882,
      "epoch": 0.8125317097919837,
      "grad_norm": 3.765625,
      "learning_rate": 6.913174958706865e-06,
      "loss": 0.99674463,
      "memory(GiB)": 112.26,
      "step": 32030,
      "train_speed(iter/s)": 1.127695
    },
    {
      "acc": 0.73735466,
      "epoch": 0.8126585489599188,
      "grad_norm": 3.34375,
      "learning_rate": 6.912206093645448e-06,
      "loss": 1.11799793,
      "memory(GiB)": 112.26,
      "step": 32035,
      "train_speed(iter/s)": 1.127732
    },
    {
      "acc": 0.75095344,
      "epoch": 0.8127853881278538,
      "grad_norm": 5.34375,
      "learning_rate": 6.91123714447667e-06,
      "loss": 1.065201,
      "memory(GiB)": 112.26,
      "step": 32040,
      "train_speed(iter/s)": 1.127761
    },
    {
      "acc": 0.72893801,
      "epoch": 0.8129122272957889,
      "grad_norm": 3.3125,
      "learning_rate": 6.910268111243149e-06,
      "loss": 1.03678112,
      "memory(GiB)": 112.26,
      "step": 32045,
      "train_speed(iter/s)": 1.12778
    },
    {
      "acc": 0.7188673,
      "epoch": 0.813039066463724,
      "grad_norm": 3.953125,
      "learning_rate": 6.909298993987508e-06,
      "loss": 1.20682926,
      "memory(GiB)": 112.26,
      "step": 32050,
      "train_speed(iter/s)": 1.127798
    },
    {
      "acc": 0.73106132,
      "epoch": 0.813165905631659,
      "grad_norm": 3.375,
      "learning_rate": 6.908329792752373e-06,
      "loss": 1.08836946,
      "memory(GiB)": 112.26,
      "step": 32055,
      "train_speed(iter/s)": 1.127822
    },
    {
      "acc": 0.74313011,
      "epoch": 0.8132927447995941,
      "grad_norm": 3.28125,
      "learning_rate": 6.907360507580374e-06,
      "loss": 1.08394985,
      "memory(GiB)": 112.26,
      "step": 32060,
      "train_speed(iter/s)": 1.127835
    },
    {
      "acc": 0.72063875,
      "epoch": 0.8134195839675292,
      "grad_norm": 3.59375,
      "learning_rate": 6.9063911385141425e-06,
      "loss": 1.10748615,
      "memory(GiB)": 112.26,
      "step": 32065,
      "train_speed(iter/s)": 1.127857
    },
    {
      "acc": 0.7307169,
      "epoch": 0.8135464231354642,
      "grad_norm": 3.5,
      "learning_rate": 6.9054216855963194e-06,
      "loss": 1.11560917,
      "memory(GiB)": 112.26,
      "step": 32070,
      "train_speed(iter/s)": 1.127888
    },
    {
      "acc": 0.72331066,
      "epoch": 0.8136732623033993,
      "grad_norm": 4.09375,
      "learning_rate": 6.904452148869541e-06,
      "loss": 1.10412493,
      "memory(GiB)": 112.26,
      "step": 32075,
      "train_speed(iter/s)": 1.127898
    },
    {
      "acc": 0.73322062,
      "epoch": 0.8138001014713343,
      "grad_norm": 3.34375,
      "learning_rate": 6.903482528376457e-06,
      "loss": 1.04937172,
      "memory(GiB)": 112.26,
      "step": 32080,
      "train_speed(iter/s)": 1.127913
    },
    {
      "acc": 0.72498479,
      "epoch": 0.8139269406392694,
      "grad_norm": 3.96875,
      "learning_rate": 6.902512824159711e-06,
      "loss": 1.16412601,
      "memory(GiB)": 112.26,
      "step": 32085,
      "train_speed(iter/s)": 1.127951
    },
    {
      "acc": 0.73711267,
      "epoch": 0.8140537798072045,
      "grad_norm": 3.734375,
      "learning_rate": 6.901543036261957e-06,
      "loss": 1.10556078,
      "memory(GiB)": 112.26,
      "step": 32090,
      "train_speed(iter/s)": 1.127983
    },
    {
      "acc": 0.72644262,
      "epoch": 0.8141806189751395,
      "grad_norm": 4.90625,
      "learning_rate": 6.900573164725852e-06,
      "loss": 1.15214577,
      "memory(GiB)": 112.26,
      "step": 32095,
      "train_speed(iter/s)": 1.128006
    },
    {
      "acc": 0.74418702,
      "epoch": 0.8143074581430746,
      "grad_norm": 3.921875,
      "learning_rate": 6.899603209594052e-06,
      "loss": 1.04951258,
      "memory(GiB)": 112.26,
      "step": 32100,
      "train_speed(iter/s)": 1.128011
    },
    {
      "acc": 0.73488317,
      "epoch": 0.8144342973110097,
      "grad_norm": 3.484375,
      "learning_rate": 6.898633170909224e-06,
      "loss": 1.08449936,
      "memory(GiB)": 112.26,
      "step": 32105,
      "train_speed(iter/s)": 1.128013
    },
    {
      "acc": 0.72668695,
      "epoch": 0.8145611364789447,
      "grad_norm": 3.96875,
      "learning_rate": 6.897663048714031e-06,
      "loss": 1.08588743,
      "memory(GiB)": 112.26,
      "step": 32110,
      "train_speed(iter/s)": 1.12803
    },
    {
      "acc": 0.73996577,
      "epoch": 0.8146879756468798,
      "grad_norm": 3.484375,
      "learning_rate": 6.896692843051145e-06,
      "loss": 1.08714342,
      "memory(GiB)": 112.26,
      "step": 32115,
      "train_speed(iter/s)": 1.128059
    },
    {
      "acc": 0.73402638,
      "epoch": 0.8148148148148148,
      "grad_norm": 3.921875,
      "learning_rate": 6.895722553963239e-06,
      "loss": 1.07556305,
      "memory(GiB)": 112.26,
      "step": 32120,
      "train_speed(iter/s)": 1.128093
    },
    {
      "acc": 0.73616476,
      "epoch": 0.8149416539827499,
      "grad_norm": 4.375,
      "learning_rate": 6.8947521814929915e-06,
      "loss": 1.11357746,
      "memory(GiB)": 112.26,
      "step": 32125,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.72209578,
      "epoch": 0.815068493150685,
      "grad_norm": 4.59375,
      "learning_rate": 6.8937817256830834e-06,
      "loss": 1.20123463,
      "memory(GiB)": 112.26,
      "step": 32130,
      "train_speed(iter/s)": 1.12814
    },
    {
      "acc": 0.7351079,
      "epoch": 0.81519533231862,
      "grad_norm": 4.125,
      "learning_rate": 6.892811186576199e-06,
      "loss": 1.09254723,
      "memory(GiB)": 112.26,
      "step": 32135,
      "train_speed(iter/s)": 1.128174
    },
    {
      "acc": 0.73503304,
      "epoch": 0.8153221714865551,
      "grad_norm": 3.765625,
      "learning_rate": 6.8918405642150295e-06,
      "loss": 1.09364157,
      "memory(GiB)": 112.26,
      "step": 32140,
      "train_speed(iter/s)": 1.128203
    },
    {
      "acc": 0.73391776,
      "epoch": 0.8154490106544902,
      "grad_norm": 3.234375,
      "learning_rate": 6.890869858642264e-06,
      "loss": 1.06660633,
      "memory(GiB)": 112.26,
      "step": 32145,
      "train_speed(iter/s)": 1.128222
    },
    {
      "acc": 0.73156071,
      "epoch": 0.8155758498224251,
      "grad_norm": 3.53125,
      "learning_rate": 6.889899069900603e-06,
      "loss": 1.09421787,
      "memory(GiB)": 112.26,
      "step": 32150,
      "train_speed(iter/s)": 1.128245
    },
    {
      "acc": 0.73280516,
      "epoch": 0.8157026889903602,
      "grad_norm": 3.8125,
      "learning_rate": 6.888928198032741e-06,
      "loss": 1.06699476,
      "memory(GiB)": 112.26,
      "step": 32155,
      "train_speed(iter/s)": 1.128273
    },
    {
      "acc": 0.74321256,
      "epoch": 0.8158295281582952,
      "grad_norm": 4.59375,
      "learning_rate": 6.887957243081384e-06,
      "loss": 1.05643349,
      "memory(GiB)": 112.26,
      "step": 32160,
      "train_speed(iter/s)": 1.128311
    },
    {
      "acc": 0.73637948,
      "epoch": 0.8159563673262303,
      "grad_norm": 3.859375,
      "learning_rate": 6.886986205089237e-06,
      "loss": 1.08453388,
      "memory(GiB)": 112.26,
      "step": 32165,
      "train_speed(iter/s)": 1.128333
    },
    {
      "acc": 0.74229984,
      "epoch": 0.8160832064941654,
      "grad_norm": 4.0,
      "learning_rate": 6.886015084099011e-06,
      "loss": 1.07753973,
      "memory(GiB)": 112.26,
      "step": 32170,
      "train_speed(iter/s)": 1.128342
    },
    {
      "acc": 0.73476548,
      "epoch": 0.8162100456621004,
      "grad_norm": 3.703125,
      "learning_rate": 6.885043880153424e-06,
      "loss": 1.08352737,
      "memory(GiB)": 112.26,
      "step": 32175,
      "train_speed(iter/s)": 1.128367
    },
    {
      "acc": 0.74949827,
      "epoch": 0.8163368848300355,
      "grad_norm": 4.125,
      "learning_rate": 6.88407259329519e-06,
      "loss": 1.02294197,
      "memory(GiB)": 112.26,
      "step": 32180,
      "train_speed(iter/s)": 1.128396
    },
    {
      "acc": 0.74061985,
      "epoch": 0.8164637239979706,
      "grad_norm": 3.609375,
      "learning_rate": 6.883101223567031e-06,
      "loss": 1.07763653,
      "memory(GiB)": 112.26,
      "step": 32185,
      "train_speed(iter/s)": 1.128426
    },
    {
      "acc": 0.73550806,
      "epoch": 0.8165905631659056,
      "grad_norm": 3.25,
      "learning_rate": 6.882129771011674e-06,
      "loss": 1.0642849,
      "memory(GiB)": 112.26,
      "step": 32190,
      "train_speed(iter/s)": 1.128428
    },
    {
      "acc": 0.74380641,
      "epoch": 0.8167174023338407,
      "grad_norm": 3.84375,
      "learning_rate": 6.881158235671845e-06,
      "loss": 0.99920759,
      "memory(GiB)": 112.26,
      "step": 32195,
      "train_speed(iter/s)": 1.128437
    },
    {
      "acc": 0.74017315,
      "epoch": 0.8168442415017757,
      "grad_norm": 3.625,
      "learning_rate": 6.8801866175902785e-06,
      "loss": 1.03803711,
      "memory(GiB)": 112.26,
      "step": 32200,
      "train_speed(iter/s)": 1.12847
    },
    {
      "acc": 0.7318027,
      "epoch": 0.8169710806697108,
      "grad_norm": 3.453125,
      "learning_rate": 6.87921491680971e-06,
      "loss": 1.1314229,
      "memory(GiB)": 112.26,
      "step": 32205,
      "train_speed(iter/s)": 1.12847
    },
    {
      "acc": 0.73140965,
      "epoch": 0.8170979198376459,
      "grad_norm": 3.796875,
      "learning_rate": 6.878243133372882e-06,
      "loss": 1.06731081,
      "memory(GiB)": 112.26,
      "step": 32210,
      "train_speed(iter/s)": 1.128495
    },
    {
      "acc": 0.74157915,
      "epoch": 0.8172247590055809,
      "grad_norm": 3.84375,
      "learning_rate": 6.877271267322532e-06,
      "loss": 1.06941223,
      "memory(GiB)": 112.26,
      "step": 32215,
      "train_speed(iter/s)": 1.128523
    },
    {
      "acc": 0.72044201,
      "epoch": 0.817351598173516,
      "grad_norm": 3.078125,
      "learning_rate": 6.876299318701412e-06,
      "loss": 1.14942179,
      "memory(GiB)": 112.26,
      "step": 32220,
      "train_speed(iter/s)": 1.128528
    },
    {
      "acc": 0.73322043,
      "epoch": 0.8174784373414511,
      "grad_norm": 3.671875,
      "learning_rate": 6.875327287552269e-06,
      "loss": 1.08757114,
      "memory(GiB)": 112.26,
      "step": 32225,
      "train_speed(iter/s)": 1.128564
    },
    {
      "acc": 0.73044734,
      "epoch": 0.8176052765093861,
      "grad_norm": 3.90625,
      "learning_rate": 6.8743551739178615e-06,
      "loss": 1.09718685,
      "memory(GiB)": 112.26,
      "step": 32230,
      "train_speed(iter/s)": 1.128598
    },
    {
      "acc": 0.73350215,
      "epoch": 0.8177321156773212,
      "grad_norm": 3.65625,
      "learning_rate": 6.8733829778409425e-06,
      "loss": 1.12754164,
      "memory(GiB)": 112.26,
      "step": 32235,
      "train_speed(iter/s)": 1.12863
    },
    {
      "acc": 0.75076861,
      "epoch": 0.8178589548452562,
      "grad_norm": 3.734375,
      "learning_rate": 6.872410699364278e-06,
      "loss": 0.96007624,
      "memory(GiB)": 112.26,
      "step": 32240,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.73207779,
      "epoch": 0.8179857940131913,
      "grad_norm": 3.546875,
      "learning_rate": 6.8714383385306305e-06,
      "loss": 1.1121664,
      "memory(GiB)": 112.26,
      "step": 32245,
      "train_speed(iter/s)": 1.128677
    },
    {
      "acc": 0.73730745,
      "epoch": 0.8181126331811264,
      "grad_norm": 3.3125,
      "learning_rate": 6.870465895382769e-06,
      "loss": 1.03476772,
      "memory(GiB)": 112.26,
      "step": 32250,
      "train_speed(iter/s)": 1.1287
    },
    {
      "acc": 0.74885807,
      "epoch": 0.8182394723490614,
      "grad_norm": 3.65625,
      "learning_rate": 6.869493369963468e-06,
      "loss": 1.05332584,
      "memory(GiB)": 112.26,
      "step": 32255,
      "train_speed(iter/s)": 1.128727
    },
    {
      "acc": 0.7392159,
      "epoch": 0.8183663115169965,
      "grad_norm": 4.25,
      "learning_rate": 6.8685207623155e-06,
      "loss": 1.09486752,
      "memory(GiB)": 112.26,
      "step": 32260,
      "train_speed(iter/s)": 1.128763
    },
    {
      "acc": 0.72240987,
      "epoch": 0.8184931506849316,
      "grad_norm": 3.546875,
      "learning_rate": 6.867548072481649e-06,
      "loss": 1.13975372,
      "memory(GiB)": 112.26,
      "step": 32265,
      "train_speed(iter/s)": 1.128797
    },
    {
      "acc": 0.72117414,
      "epoch": 0.8186199898528665,
      "grad_norm": 3.390625,
      "learning_rate": 6.866575300504695e-06,
      "loss": 1.08664227,
      "memory(GiB)": 112.26,
      "step": 32270,
      "train_speed(iter/s)": 1.128817
    },
    {
      "acc": 0.74822464,
      "epoch": 0.8187468290208016,
      "grad_norm": 4.6875,
      "learning_rate": 6.865602446427424e-06,
      "loss": 1.07396526,
      "memory(GiB)": 112.26,
      "step": 32275,
      "train_speed(iter/s)": 1.128848
    },
    {
      "acc": 0.73514538,
      "epoch": 0.8188736681887366,
      "grad_norm": 4.53125,
      "learning_rate": 6.864629510292629e-06,
      "loss": 1.08047018,
      "memory(GiB)": 112.26,
      "step": 32280,
      "train_speed(iter/s)": 1.128859
    },
    {
      "acc": 0.74385085,
      "epoch": 0.8190005073566717,
      "grad_norm": 3.203125,
      "learning_rate": 6.863656492143103e-06,
      "loss": 1.04962234,
      "memory(GiB)": 112.26,
      "step": 32285,
      "train_speed(iter/s)": 1.128845
    },
    {
      "acc": 0.72027702,
      "epoch": 0.8191273465246068,
      "grad_norm": 4.8125,
      "learning_rate": 6.862683392021644e-06,
      "loss": 1.07217178,
      "memory(GiB)": 112.26,
      "step": 32290,
      "train_speed(iter/s)": 1.128854
    },
    {
      "acc": 0.75076728,
      "epoch": 0.8192541856925418,
      "grad_norm": 3.859375,
      "learning_rate": 6.861710209971052e-06,
      "loss": 0.97656097,
      "memory(GiB)": 112.26,
      "step": 32295,
      "train_speed(iter/s)": 1.128867
    },
    {
      "acc": 0.72917318,
      "epoch": 0.8193810248604769,
      "grad_norm": 3.28125,
      "learning_rate": 6.860736946034136e-06,
      "loss": 1.11617374,
      "memory(GiB)": 112.26,
      "step": 32300,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.7190063,
      "epoch": 0.819507864028412,
      "grad_norm": 4.15625,
      "learning_rate": 6.859763600253698e-06,
      "loss": 1.18503323,
      "memory(GiB)": 112.26,
      "step": 32305,
      "train_speed(iter/s)": 1.128894
    },
    {
      "acc": 0.72932873,
      "epoch": 0.819634703196347,
      "grad_norm": 3.265625,
      "learning_rate": 6.858790172672556e-06,
      "loss": 1.10398226,
      "memory(GiB)": 112.26,
      "step": 32310,
      "train_speed(iter/s)": 1.128913
    },
    {
      "acc": 0.74192829,
      "epoch": 0.8197615423642821,
      "grad_norm": 3.625,
      "learning_rate": 6.857816663333523e-06,
      "loss": 1.05297146,
      "memory(GiB)": 112.26,
      "step": 32315,
      "train_speed(iter/s)": 1.12895
    },
    {
      "acc": 0.75274267,
      "epoch": 0.8198883815322171,
      "grad_norm": 4.625,
      "learning_rate": 6.856843072279418e-06,
      "loss": 0.99685688,
      "memory(GiB)": 112.26,
      "step": 32320,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.73394933,
      "epoch": 0.8200152207001522,
      "grad_norm": 3.296875,
      "learning_rate": 6.855869399553065e-06,
      "loss": 1.12889957,
      "memory(GiB)": 112.26,
      "step": 32325,
      "train_speed(iter/s)": 1.128987
    },
    {
      "acc": 0.7301434,
      "epoch": 0.8201420598680873,
      "grad_norm": 4.4375,
      "learning_rate": 6.85489564519729e-06,
      "loss": 1.08927145,
      "memory(GiB)": 112.26,
      "step": 32330,
      "train_speed(iter/s)": 1.129014
    },
    {
      "acc": 0.7481822,
      "epoch": 0.8202688990360223,
      "grad_norm": 3.546875,
      "learning_rate": 6.853921809254922e-06,
      "loss": 1.05430565,
      "memory(GiB)": 112.26,
      "step": 32335,
      "train_speed(iter/s)": 1.129032
    },
    {
      "acc": 0.73115978,
      "epoch": 0.8203957382039574,
      "grad_norm": 4.5,
      "learning_rate": 6.852947891768796e-06,
      "loss": 1.05781898,
      "memory(GiB)": 112.26,
      "step": 32340,
      "train_speed(iter/s)": 1.129052
    },
    {
      "acc": 0.75123014,
      "epoch": 0.8205225773718925,
      "grad_norm": 3.875,
      "learning_rate": 6.851973892781749e-06,
      "loss": 0.99790611,
      "memory(GiB)": 112.26,
      "step": 32345,
      "train_speed(iter/s)": 1.129067
    },
    {
      "acc": 0.72993546,
      "epoch": 0.8206494165398275,
      "grad_norm": 3.59375,
      "learning_rate": 6.850999812336623e-06,
      "loss": 1.07044649,
      "memory(GiB)": 112.26,
      "step": 32350,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.72790928,
      "epoch": 0.8207762557077626,
      "grad_norm": 4.53125,
      "learning_rate": 6.850025650476259e-06,
      "loss": 1.07133198,
      "memory(GiB)": 112.26,
      "step": 32355,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.715941,
      "epoch": 0.8209030948756976,
      "grad_norm": 3.296875,
      "learning_rate": 6.849051407243509e-06,
      "loss": 1.09106026,
      "memory(GiB)": 112.26,
      "step": 32360,
      "train_speed(iter/s)": 1.129105
    },
    {
      "acc": 0.72593393,
      "epoch": 0.8210299340436327,
      "grad_norm": 3.984375,
      "learning_rate": 6.8480770826812205e-06,
      "loss": 1.10395021,
      "memory(GiB)": 112.26,
      "step": 32365,
      "train_speed(iter/s)": 1.12913
    },
    {
      "acc": 0.73462214,
      "epoch": 0.8211567732115678,
      "grad_norm": 3.75,
      "learning_rate": 6.847102676832253e-06,
      "loss": 1.11447182,
      "memory(GiB)": 112.26,
      "step": 32370,
      "train_speed(iter/s)": 1.129157
    },
    {
      "acc": 0.7344418,
      "epoch": 0.8212836123795028,
      "grad_norm": 3.75,
      "learning_rate": 6.8461281897394615e-06,
      "loss": 1.09783258,
      "memory(GiB)": 112.26,
      "step": 32375,
      "train_speed(iter/s)": 1.129176
    },
    {
      "acc": 0.7193655,
      "epoch": 0.8214104515474379,
      "grad_norm": 3.90625,
      "learning_rate": 6.845153621445711e-06,
      "loss": 1.12355862,
      "memory(GiB)": 112.26,
      "step": 32380,
      "train_speed(iter/s)": 1.129207
    },
    {
      "acc": 0.73283834,
      "epoch": 0.821537290715373,
      "grad_norm": 3.75,
      "learning_rate": 6.844178971993866e-06,
      "loss": 1.14889946,
      "memory(GiB)": 112.26,
      "step": 32385,
      "train_speed(iter/s)": 1.129229
    },
    {
      "acc": 0.74583511,
      "epoch": 0.821664129883308,
      "grad_norm": 4.125,
      "learning_rate": 6.843204241426797e-06,
      "loss": 1.09749165,
      "memory(GiB)": 112.26,
      "step": 32390,
      "train_speed(iter/s)": 1.129261
    },
    {
      "acc": 0.74530554,
      "epoch": 0.821790969051243,
      "grad_norm": 2.984375,
      "learning_rate": 6.842229429787375e-06,
      "loss": 1.07948294,
      "memory(GiB)": 112.26,
      "step": 32395,
      "train_speed(iter/s)": 1.129275
    },
    {
      "acc": 0.73809423,
      "epoch": 0.821917808219178,
      "grad_norm": 3.28125,
      "learning_rate": 6.841254537118477e-06,
      "loss": 1.03113337,
      "memory(GiB)": 112.26,
      "step": 32400,
      "train_speed(iter/s)": 1.129294
    },
    {
      "acc": 0.72470331,
      "epoch": 0.8220446473871131,
      "grad_norm": 3.796875,
      "learning_rate": 6.840279563462985e-06,
      "loss": 1.15684834,
      "memory(GiB)": 112.26,
      "step": 32405,
      "train_speed(iter/s)": 1.129325
    },
    {
      "acc": 0.74265232,
      "epoch": 0.8221714865550482,
      "grad_norm": 3.75,
      "learning_rate": 6.839304508863781e-06,
      "loss": 1.09613209,
      "memory(GiB)": 112.26,
      "step": 32410,
      "train_speed(iter/s)": 1.129346
    },
    {
      "acc": 0.74121404,
      "epoch": 0.8222983257229832,
      "grad_norm": 3.34375,
      "learning_rate": 6.838329373363753e-06,
      "loss": 1.12840843,
      "memory(GiB)": 112.26,
      "step": 32415,
      "train_speed(iter/s)": 1.129362
    },
    {
      "acc": 0.73729744,
      "epoch": 0.8224251648909183,
      "grad_norm": 3.390625,
      "learning_rate": 6.8373541570057924e-06,
      "loss": 1.09213905,
      "memory(GiB)": 112.26,
      "step": 32420,
      "train_speed(iter/s)": 1.129374
    },
    {
      "acc": 0.74208155,
      "epoch": 0.8225520040588534,
      "grad_norm": 3.90625,
      "learning_rate": 6.836378859832791e-06,
      "loss": 1.10148792,
      "memory(GiB)": 112.26,
      "step": 32425,
      "train_speed(iter/s)": 1.129408
    },
    {
      "acc": 0.74340582,
      "epoch": 0.8226788432267884,
      "grad_norm": 3.390625,
      "learning_rate": 6.83540348188765e-06,
      "loss": 1.04368114,
      "memory(GiB)": 112.26,
      "step": 32430,
      "train_speed(iter/s)": 1.129437
    },
    {
      "acc": 0.74043336,
      "epoch": 0.8228056823947235,
      "grad_norm": 4.6875,
      "learning_rate": 6.834428023213268e-06,
      "loss": 1.04453211,
      "memory(GiB)": 112.26,
      "step": 32435,
      "train_speed(iter/s)": 1.129477
    },
    {
      "acc": 0.73051758,
      "epoch": 0.8229325215626585,
      "grad_norm": 3.21875,
      "learning_rate": 6.833452483852554e-06,
      "loss": 1.06969872,
      "memory(GiB)": 112.26,
      "step": 32440,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.74515924,
      "epoch": 0.8230593607305936,
      "grad_norm": 5.0,
      "learning_rate": 6.832476863848411e-06,
      "loss": 1.05079823,
      "memory(GiB)": 112.26,
      "step": 32445,
      "train_speed(iter/s)": 1.129527
    },
    {
      "acc": 0.73439064,
      "epoch": 0.8231861998985287,
      "grad_norm": 3.75,
      "learning_rate": 6.831501163243756e-06,
      "loss": 1.12346487,
      "memory(GiB)": 112.26,
      "step": 32450,
      "train_speed(iter/s)": 1.129553
    },
    {
      "acc": 0.7334199,
      "epoch": 0.8233130390664637,
      "grad_norm": 4.65625,
      "learning_rate": 6.830525382081501e-06,
      "loss": 1.09524689,
      "memory(GiB)": 112.26,
      "step": 32455,
      "train_speed(iter/s)": 1.129585
    },
    {
      "acc": 0.73456717,
      "epoch": 0.8234398782343988,
      "grad_norm": 3.0,
      "learning_rate": 6.829549520404568e-06,
      "loss": 1.05026302,
      "memory(GiB)": 112.26,
      "step": 32460,
      "train_speed(iter/s)": 1.129621
    },
    {
      "acc": 0.74728808,
      "epoch": 0.8235667174023339,
      "grad_norm": 3.59375,
      "learning_rate": 6.828573578255879e-06,
      "loss": 1.03646412,
      "memory(GiB)": 112.26,
      "step": 32465,
      "train_speed(iter/s)": 1.129616
    },
    {
      "acc": 0.72889185,
      "epoch": 0.8236935565702689,
      "grad_norm": 3.546875,
      "learning_rate": 6.82759755567836e-06,
      "loss": 1.09857168,
      "memory(GiB)": 112.26,
      "step": 32470,
      "train_speed(iter/s)": 1.129628
    },
    {
      "acc": 0.73654146,
      "epoch": 0.823820395738204,
      "grad_norm": 3.6875,
      "learning_rate": 6.826621452714941e-06,
      "loss": 1.10370445,
      "memory(GiB)": 112.26,
      "step": 32475,
      "train_speed(iter/s)": 1.129658
    },
    {
      "acc": 0.73130465,
      "epoch": 0.823947234906139,
      "grad_norm": 3.375,
      "learning_rate": 6.825645269408556e-06,
      "loss": 1.09718895,
      "memory(GiB)": 112.26,
      "step": 32480,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.736763,
      "epoch": 0.8240740740740741,
      "grad_norm": 3.90625,
      "learning_rate": 6.82466900580214e-06,
      "loss": 1.04863749,
      "memory(GiB)": 112.26,
      "step": 32485,
      "train_speed(iter/s)": 1.129718
    },
    {
      "acc": 0.72451596,
      "epoch": 0.8242009132420092,
      "grad_norm": 3.734375,
      "learning_rate": 6.823692661938634e-06,
      "loss": 1.14754801,
      "memory(GiB)": 112.26,
      "step": 32490,
      "train_speed(iter/s)": 1.12975
    },
    {
      "acc": 0.73438306,
      "epoch": 0.8243277524099442,
      "grad_norm": 3.96875,
      "learning_rate": 6.822716237860984e-06,
      "loss": 1.10189934,
      "memory(GiB)": 112.26,
      "step": 32495,
      "train_speed(iter/s)": 1.129754
    },
    {
      "acc": 0.73931375,
      "epoch": 0.8244545915778793,
      "grad_norm": 3.21875,
      "learning_rate": 6.821739733612135e-06,
      "loss": 1.03645,
      "memory(GiB)": 112.26,
      "step": 32500,
      "train_speed(iter/s)": 1.129781
    },
    {
      "acc": 0.73576493,
      "epoch": 0.8245814307458144,
      "grad_norm": 4.0625,
      "learning_rate": 6.820763149235039e-06,
      "loss": 1.12833595,
      "memory(GiB)": 112.26,
      "step": 32505,
      "train_speed(iter/s)": 1.129799
    },
    {
      "acc": 0.73567281,
      "epoch": 0.8247082699137493,
      "grad_norm": 3.3125,
      "learning_rate": 6.819786484772652e-06,
      "loss": 1.04884195,
      "memory(GiB)": 112.26,
      "step": 32510,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.71318769,
      "epoch": 0.8248351090816844,
      "grad_norm": 3.6875,
      "learning_rate": 6.8188097402679275e-06,
      "loss": 1.17266502,
      "memory(GiB)": 112.26,
      "step": 32515,
      "train_speed(iter/s)": 1.129814
    },
    {
      "acc": 0.74633827,
      "epoch": 0.8249619482496194,
      "grad_norm": 3.234375,
      "learning_rate": 6.817832915763833e-06,
      "loss": 0.99664764,
      "memory(GiB)": 112.26,
      "step": 32520,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.73164673,
      "epoch": 0.8250887874175545,
      "grad_norm": 3.5,
      "learning_rate": 6.81685601130333e-06,
      "loss": 1.07097549,
      "memory(GiB)": 112.26,
      "step": 32525,
      "train_speed(iter/s)": 1.129837
    },
    {
      "acc": 0.74501858,
      "epoch": 0.8252156265854896,
      "grad_norm": 4.5,
      "learning_rate": 6.8158790269293885e-06,
      "loss": 1.04290657,
      "memory(GiB)": 112.26,
      "step": 32530,
      "train_speed(iter/s)": 1.129862
    },
    {
      "acc": 0.74563198,
      "epoch": 0.8253424657534246,
      "grad_norm": 4.34375,
      "learning_rate": 6.8149019626849785e-06,
      "loss": 1.00097885,
      "memory(GiB)": 112.26,
      "step": 32535,
      "train_speed(iter/s)": 1.129886
    },
    {
      "acc": 0.7246007,
      "epoch": 0.8254693049213597,
      "grad_norm": 3.484375,
      "learning_rate": 6.813924818613079e-06,
      "loss": 1.11738214,
      "memory(GiB)": 112.26,
      "step": 32540,
      "train_speed(iter/s)": 1.129897
    },
    {
      "acc": 0.74477191,
      "epoch": 0.8255961440892948,
      "grad_norm": 4.125,
      "learning_rate": 6.812947594756667e-06,
      "loss": 1.10030317,
      "memory(GiB)": 112.26,
      "step": 32545,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.74982257,
      "epoch": 0.8257229832572298,
      "grad_norm": 3.6875,
      "learning_rate": 6.811970291158725e-06,
      "loss": 1.0742239,
      "memory(GiB)": 112.26,
      "step": 32550,
      "train_speed(iter/s)": 1.129942
    },
    {
      "acc": 0.74105291,
      "epoch": 0.8258498224251649,
      "grad_norm": 3.546875,
      "learning_rate": 6.810992907862239e-06,
      "loss": 1.07494049,
      "memory(GiB)": 112.26,
      "step": 32555,
      "train_speed(iter/s)": 1.129964
    },
    {
      "acc": 0.73070655,
      "epoch": 0.8259766615930999,
      "grad_norm": 4.375,
      "learning_rate": 6.810015444910202e-06,
      "loss": 1.06910219,
      "memory(GiB)": 112.26,
      "step": 32560,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.73780203,
      "epoch": 0.826103500761035,
      "grad_norm": 4.3125,
      "learning_rate": 6.809037902345603e-06,
      "loss": 1.1164506,
      "memory(GiB)": 112.26,
      "step": 32565,
      "train_speed(iter/s)": 1.13002
    },
    {
      "acc": 0.73073497,
      "epoch": 0.8262303399289701,
      "grad_norm": 4.125,
      "learning_rate": 6.808060280211439e-06,
      "loss": 1.08802948,
      "memory(GiB)": 112.26,
      "step": 32570,
      "train_speed(iter/s)": 1.130033
    },
    {
      "acc": 0.7436482,
      "epoch": 0.8263571790969051,
      "grad_norm": 3.8125,
      "learning_rate": 6.807082578550713e-06,
      "loss": 1.10132923,
      "memory(GiB)": 112.26,
      "step": 32575,
      "train_speed(iter/s)": 1.130058
    },
    {
      "acc": 0.73336539,
      "epoch": 0.8264840182648402,
      "grad_norm": 3.625,
      "learning_rate": 6.806104797406428e-06,
      "loss": 1.05696115,
      "memory(GiB)": 112.26,
      "step": 32580,
      "train_speed(iter/s)": 1.130074
    },
    {
      "acc": 0.72799802,
      "epoch": 0.8266108574327753,
      "grad_norm": 3.734375,
      "learning_rate": 6.805126936821588e-06,
      "loss": 1.1118577,
      "memory(GiB)": 112.26,
      "step": 32585,
      "train_speed(iter/s)": 1.13009
    },
    {
      "acc": 0.73742638,
      "epoch": 0.8267376966007103,
      "grad_norm": 3.546875,
      "learning_rate": 6.804148996839208e-06,
      "loss": 1.09135599,
      "memory(GiB)": 112.26,
      "step": 32590,
      "train_speed(iter/s)": 1.130118
    },
    {
      "acc": 0.73111334,
      "epoch": 0.8268645357686454,
      "grad_norm": 3.703125,
      "learning_rate": 6.803170977502298e-06,
      "loss": 1.09488802,
      "memory(GiB)": 112.26,
      "step": 32595,
      "train_speed(iter/s)": 1.130133
    },
    {
      "acc": 0.75097723,
      "epoch": 0.8269913749365804,
      "grad_norm": 6.375,
      "learning_rate": 6.802192878853879e-06,
      "loss": 1.06177692,
      "memory(GiB)": 112.26,
      "step": 32600,
      "train_speed(iter/s)": 1.13015
    },
    {
      "acc": 0.73570285,
      "epoch": 0.8271182141045155,
      "grad_norm": 3.890625,
      "learning_rate": 6.801214700936972e-06,
      "loss": 1.03839684,
      "memory(GiB)": 112.26,
      "step": 32605,
      "train_speed(iter/s)": 1.130169
    },
    {
      "acc": 0.74054556,
      "epoch": 0.8272450532724506,
      "grad_norm": 3.59375,
      "learning_rate": 6.8002364437946e-06,
      "loss": 1.05953751,
      "memory(GiB)": 112.26,
      "step": 32610,
      "train_speed(iter/s)": 1.13018
    },
    {
      "acc": 0.73110456,
      "epoch": 0.8273718924403856,
      "grad_norm": 4.0,
      "learning_rate": 6.799258107469792e-06,
      "loss": 1.1183383,
      "memory(GiB)": 112.26,
      "step": 32615,
      "train_speed(iter/s)": 1.130206
    },
    {
      "acc": 0.73564434,
      "epoch": 0.8274987316083207,
      "grad_norm": 2.890625,
      "learning_rate": 6.798279692005578e-06,
      "loss": 1.03687725,
      "memory(GiB)": 112.26,
      "step": 32620,
      "train_speed(iter/s)": 1.130203
    },
    {
      "acc": 0.74622622,
      "epoch": 0.8276255707762558,
      "grad_norm": 4.21875,
      "learning_rate": 6.7973011974449965e-06,
      "loss": 1.03828392,
      "memory(GiB)": 112.26,
      "step": 32625,
      "train_speed(iter/s)": 1.130218
    },
    {
      "acc": 0.74122057,
      "epoch": 0.8277524099441907,
      "grad_norm": 5.65625,
      "learning_rate": 6.796322623831082e-06,
      "loss": 1.05484524,
      "memory(GiB)": 112.26,
      "step": 32630,
      "train_speed(iter/s)": 1.130253
    },
    {
      "acc": 0.73389769,
      "epoch": 0.8278792491121258,
      "grad_norm": 4.0,
      "learning_rate": 6.795343971206879e-06,
      "loss": 1.07094765,
      "memory(GiB)": 112.26,
      "step": 32635,
      "train_speed(iter/s)": 1.130292
    },
    {
      "acc": 0.73892517,
      "epoch": 0.8280060882800608,
      "grad_norm": 7.40625,
      "learning_rate": 6.794365239615433e-06,
      "loss": 1.08081818,
      "memory(GiB)": 112.26,
      "step": 32640,
      "train_speed(iter/s)": 1.130305
    },
    {
      "acc": 0.74224625,
      "epoch": 0.8281329274479959,
      "grad_norm": 3.171875,
      "learning_rate": 6.793386429099792e-06,
      "loss": 1.10200882,
      "memory(GiB)": 112.26,
      "step": 32645,
      "train_speed(iter/s)": 1.130312
    },
    {
      "acc": 0.73896265,
      "epoch": 0.828259766615931,
      "grad_norm": 3.1875,
      "learning_rate": 6.79240753970301e-06,
      "loss": 1.06059895,
      "memory(GiB)": 112.26,
      "step": 32650,
      "train_speed(iter/s)": 1.130328
    },
    {
      "acc": 0.73146276,
      "epoch": 0.828386605783866,
      "grad_norm": 3.375,
      "learning_rate": 6.791428571468139e-06,
      "loss": 1.13066492,
      "memory(GiB)": 112.26,
      "step": 32655,
      "train_speed(iter/s)": 1.130345
    },
    {
      "acc": 0.73046069,
      "epoch": 0.8285134449518011,
      "grad_norm": 4.40625,
      "learning_rate": 6.7904495244382454e-06,
      "loss": 1.11826782,
      "memory(GiB)": 112.26,
      "step": 32660,
      "train_speed(iter/s)": 1.130367
    },
    {
      "acc": 0.72448816,
      "epoch": 0.8286402841197362,
      "grad_norm": 3.484375,
      "learning_rate": 6.789470398656385e-06,
      "loss": 1.14656715,
      "memory(GiB)": 112.26,
      "step": 32665,
      "train_speed(iter/s)": 1.130396
    },
    {
      "acc": 0.73676805,
      "epoch": 0.8287671232876712,
      "grad_norm": 3.765625,
      "learning_rate": 6.788491194165629e-06,
      "loss": 1.06652927,
      "memory(GiB)": 112.26,
      "step": 32670,
      "train_speed(iter/s)": 1.130427
    },
    {
      "acc": 0.75479765,
      "epoch": 0.8288939624556063,
      "grad_norm": 3.46875,
      "learning_rate": 6.787511911009044e-06,
      "loss": 1.00569992,
      "memory(GiB)": 112.26,
      "step": 32675,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.72684383,
      "epoch": 0.8290208016235413,
      "grad_norm": 3.546875,
      "learning_rate": 6.786532549229704e-06,
      "loss": 1.12789974,
      "memory(GiB)": 112.26,
      "step": 32680,
      "train_speed(iter/s)": 1.130459
    },
    {
      "acc": 0.74467678,
      "epoch": 0.8291476407914764,
      "grad_norm": 3.421875,
      "learning_rate": 6.785553108870686e-06,
      "loss": 1.05144567,
      "memory(GiB)": 112.26,
      "step": 32685,
      "train_speed(iter/s)": 1.130474
    },
    {
      "acc": 0.72937183,
      "epoch": 0.8292744799594115,
      "grad_norm": 3.5625,
      "learning_rate": 6.784573589975072e-06,
      "loss": 1.08487082,
      "memory(GiB)": 112.26,
      "step": 32690,
      "train_speed(iter/s)": 1.130506
    },
    {
      "acc": 0.7190681,
      "epoch": 0.8294013191273465,
      "grad_norm": 4.34375,
      "learning_rate": 6.783593992585943e-06,
      "loss": 1.12127781,
      "memory(GiB)": 112.26,
      "step": 32695,
      "train_speed(iter/s)": 1.130538
    },
    {
      "acc": 0.72978015,
      "epoch": 0.8295281582952816,
      "grad_norm": 3.625,
      "learning_rate": 6.7826143167463876e-06,
      "loss": 1.10690184,
      "memory(GiB)": 112.26,
      "step": 32700,
      "train_speed(iter/s)": 1.130565
    },
    {
      "acc": 0.73602982,
      "epoch": 0.8296549974632167,
      "grad_norm": 3.703125,
      "learning_rate": 6.781634562499495e-06,
      "loss": 1.11259365,
      "memory(GiB)": 112.26,
      "step": 32705,
      "train_speed(iter/s)": 1.130568
    },
    {
      "acc": 0.7370574,
      "epoch": 0.8297818366311517,
      "grad_norm": 3.90625,
      "learning_rate": 6.780654729888361e-06,
      "loss": 1.09105835,
      "memory(GiB)": 112.26,
      "step": 32710,
      "train_speed(iter/s)": 1.130586
    },
    {
      "acc": 0.73705344,
      "epoch": 0.8299086757990868,
      "grad_norm": 6.375,
      "learning_rate": 6.779674818956081e-06,
      "loss": 1.08470554,
      "memory(GiB)": 112.26,
      "step": 32715,
      "train_speed(iter/s)": 1.130611
    },
    {
      "acc": 0.72792807,
      "epoch": 0.8300355149670218,
      "grad_norm": 4.625,
      "learning_rate": 6.778694829745756e-06,
      "loss": 1.11133785,
      "memory(GiB)": 112.26,
      "step": 32720,
      "train_speed(iter/s)": 1.130638
    },
    {
      "acc": 0.72111502,
      "epoch": 0.8301623541349569,
      "grad_norm": 3.6875,
      "learning_rate": 6.777714762300492e-06,
      "loss": 1.07911854,
      "memory(GiB)": 112.26,
      "step": 32725,
      "train_speed(iter/s)": 1.130666
    },
    {
      "acc": 0.74771714,
      "epoch": 0.830289193302892,
      "grad_norm": 3.53125,
      "learning_rate": 6.776734616663397e-06,
      "loss": 1.03543348,
      "memory(GiB)": 112.26,
      "step": 32730,
      "train_speed(iter/s)": 1.130684
    },
    {
      "acc": 0.74957948,
      "epoch": 0.830416032470827,
      "grad_norm": 3.484375,
      "learning_rate": 6.77575439287758e-06,
      "loss": 0.99426174,
      "memory(GiB)": 112.26,
      "step": 32735,
      "train_speed(iter/s)": 1.130696
    },
    {
      "acc": 0.73491879,
      "epoch": 0.8305428716387621,
      "grad_norm": 3.953125,
      "learning_rate": 6.774774090986157e-06,
      "loss": 1.06454668,
      "memory(GiB)": 112.26,
      "step": 32740,
      "train_speed(iter/s)": 1.130716
    },
    {
      "acc": 0.74578195,
      "epoch": 0.8306697108066972,
      "grad_norm": 3.625,
      "learning_rate": 6.773793711032244e-06,
      "loss": 1.08329754,
      "memory(GiB)": 112.26,
      "step": 32745,
      "train_speed(iter/s)": 1.130747
    },
    {
      "acc": 0.72799287,
      "epoch": 0.8307965499746321,
      "grad_norm": 3.859375,
      "learning_rate": 6.772813253058965e-06,
      "loss": 1.10850363,
      "memory(GiB)": 112.26,
      "step": 32750,
      "train_speed(iter/s)": 1.130777
    },
    {
      "acc": 0.7401155,
      "epoch": 0.8309233891425672,
      "grad_norm": 4.21875,
      "learning_rate": 6.771832717109444e-06,
      "loss": 1.07151842,
      "memory(GiB)": 112.26,
      "step": 32755,
      "train_speed(iter/s)": 1.130796
    },
    {
      "acc": 0.73263016,
      "epoch": 0.8310502283105022,
      "grad_norm": 3.265625,
      "learning_rate": 6.77085210322681e-06,
      "loss": 1.10253658,
      "memory(GiB)": 112.26,
      "step": 32760,
      "train_speed(iter/s)": 1.130825
    },
    {
      "acc": 0.72028794,
      "epoch": 0.8311770674784373,
      "grad_norm": 3.484375,
      "learning_rate": 6.769871411454195e-06,
      "loss": 1.08316898,
      "memory(GiB)": 112.26,
      "step": 32765,
      "train_speed(iter/s)": 1.130843
    },
    {
      "acc": 0.71394939,
      "epoch": 0.8313039066463724,
      "grad_norm": 3.59375,
      "learning_rate": 6.768890641834732e-06,
      "loss": 1.13934002,
      "memory(GiB)": 112.26,
      "step": 32770,
      "train_speed(iter/s)": 1.130869
    },
    {
      "acc": 0.73550501,
      "epoch": 0.8314307458143074,
      "grad_norm": 3.203125,
      "learning_rate": 6.767909794411562e-06,
      "loss": 1.07423782,
      "memory(GiB)": 112.26,
      "step": 32775,
      "train_speed(iter/s)": 1.130885
    },
    {
      "acc": 0.73791037,
      "epoch": 0.8315575849822425,
      "grad_norm": 5.21875,
      "learning_rate": 6.7669288692278256e-06,
      "loss": 1.08193378,
      "memory(GiB)": 112.26,
      "step": 32780,
      "train_speed(iter/s)": 1.130898
    },
    {
      "acc": 0.72708259,
      "epoch": 0.8316844241501776,
      "grad_norm": 4.03125,
      "learning_rate": 6.76594786632667e-06,
      "loss": 1.02760668,
      "memory(GiB)": 112.26,
      "step": 32785,
      "train_speed(iter/s)": 1.130901
    },
    {
      "acc": 0.73091297,
      "epoch": 0.8318112633181126,
      "grad_norm": 3.828125,
      "learning_rate": 6.764966785751242e-06,
      "loss": 1.10570374,
      "memory(GiB)": 112.26,
      "step": 32790,
      "train_speed(iter/s)": 1.130921
    },
    {
      "acc": 0.73927803,
      "epoch": 0.8319381024860477,
      "grad_norm": 3.375,
      "learning_rate": 6.763985627544693e-06,
      "loss": 1.07314625,
      "memory(GiB)": 112.26,
      "step": 32795,
      "train_speed(iter/s)": 1.130949
    },
    {
      "acc": 0.72379847,
      "epoch": 0.8320649416539827,
      "grad_norm": 3.671875,
      "learning_rate": 6.763004391750183e-06,
      "loss": 1.09211464,
      "memory(GiB)": 112.26,
      "step": 32800,
      "train_speed(iter/s)": 1.130985
    },
    {
      "acc": 0.72663646,
      "epoch": 0.8321917808219178,
      "grad_norm": 4.4375,
      "learning_rate": 6.762023078410867e-06,
      "loss": 1.10870485,
      "memory(GiB)": 112.26,
      "step": 32805,
      "train_speed(iter/s)": 1.131004
    },
    {
      "acc": 0.73426638,
      "epoch": 0.8323186199898529,
      "grad_norm": 3.234375,
      "learning_rate": 6.7610416875699095e-06,
      "loss": 1.05788774,
      "memory(GiB)": 112.26,
      "step": 32810,
      "train_speed(iter/s)": 1.13103
    },
    {
      "acc": 0.74374895,
      "epoch": 0.8324454591577879,
      "grad_norm": 3.5625,
      "learning_rate": 6.760060219270476e-06,
      "loss": 1.07262383,
      "memory(GiB)": 112.26,
      "step": 32815,
      "train_speed(iter/s)": 1.131049
    },
    {
      "acc": 0.74395947,
      "epoch": 0.832572298325723,
      "grad_norm": 3.734375,
      "learning_rate": 6.759078673555736e-06,
      "loss": 1.09482994,
      "memory(GiB)": 112.26,
      "step": 32820,
      "train_speed(iter/s)": 1.131067
    },
    {
      "acc": 0.72945213,
      "epoch": 0.8326991374936581,
      "grad_norm": 3.90625,
      "learning_rate": 6.758097050468862e-06,
      "loss": 1.12094326,
      "memory(GiB)": 112.26,
      "step": 32825,
      "train_speed(iter/s)": 1.131102
    },
    {
      "acc": 0.73868103,
      "epoch": 0.8328259766615931,
      "grad_norm": 3.921875,
      "learning_rate": 6.757115350053032e-06,
      "loss": 1.11541138,
      "memory(GiB)": 112.26,
      "step": 32830,
      "train_speed(iter/s)": 1.13114
    },
    {
      "acc": 0.73080397,
      "epoch": 0.8329528158295282,
      "grad_norm": 3.234375,
      "learning_rate": 6.756133572351422e-06,
      "loss": 1.09510431,
      "memory(GiB)": 112.26,
      "step": 32835,
      "train_speed(iter/s)": 1.131161
    },
    {
      "acc": 0.74570723,
      "epoch": 0.8330796549974632,
      "grad_norm": 3.875,
      "learning_rate": 6.755151717407218e-06,
      "loss": 1.00847092,
      "memory(GiB)": 112.26,
      "step": 32840,
      "train_speed(iter/s)": 1.131192
    },
    {
      "acc": 0.73391628,
      "epoch": 0.8332064941653983,
      "grad_norm": 3.046875,
      "learning_rate": 6.754169785263605e-06,
      "loss": 1.09389095,
      "memory(GiB)": 112.26,
      "step": 32845,
      "train_speed(iter/s)": 1.131201
    },
    {
      "acc": 0.73727355,
      "epoch": 0.8333333333333334,
      "grad_norm": 4.03125,
      "learning_rate": 6.753187775963773e-06,
      "loss": 1.0724391,
      "memory(GiB)": 112.26,
      "step": 32850,
      "train_speed(iter/s)": 1.131226
    },
    {
      "acc": 0.74781227,
      "epoch": 0.8334601725012684,
      "grad_norm": 4.0625,
      "learning_rate": 6.752205689550915e-06,
      "loss": 1.01013756,
      "memory(GiB)": 112.26,
      "step": 32855,
      "train_speed(iter/s)": 1.131257
    },
    {
      "acc": 0.73405886,
      "epoch": 0.8335870116692035,
      "grad_norm": 3.421875,
      "learning_rate": 6.751223526068228e-06,
      "loss": 1.06914768,
      "memory(GiB)": 112.26,
      "step": 32860,
      "train_speed(iter/s)": 1.131288
    },
    {
      "acc": 0.72355442,
      "epoch": 0.8337138508371386,
      "grad_norm": 3.53125,
      "learning_rate": 6.75024128555891e-06,
      "loss": 1.12601528,
      "memory(GiB)": 112.26,
      "step": 32865,
      "train_speed(iter/s)": 1.13132
    },
    {
      "acc": 0.73144512,
      "epoch": 0.8338406900050735,
      "grad_norm": 3.21875,
      "learning_rate": 6.7492589680661695e-06,
      "loss": 1.07502804,
      "memory(GiB)": 112.26,
      "step": 32870,
      "train_speed(iter/s)": 1.131356
    },
    {
      "acc": 0.729567,
      "epoch": 0.8339675291730086,
      "grad_norm": 4.15625,
      "learning_rate": 6.748276573633207e-06,
      "loss": 1.12791195,
      "memory(GiB)": 112.26,
      "step": 32875,
      "train_speed(iter/s)": 1.131364
    },
    {
      "acc": 0.73905811,
      "epoch": 0.8340943683409436,
      "grad_norm": 3.46875,
      "learning_rate": 6.747294102303237e-06,
      "loss": 1.07207584,
      "memory(GiB)": 112.26,
      "step": 32880,
      "train_speed(iter/s)": 1.131377
    },
    {
      "acc": 0.74566422,
      "epoch": 0.8342212075088787,
      "grad_norm": 3.671875,
      "learning_rate": 6.746311554119469e-06,
      "loss": 1.04716568,
      "memory(GiB)": 112.26,
      "step": 32885,
      "train_speed(iter/s)": 1.13141
    },
    {
      "acc": 0.74862499,
      "epoch": 0.8343480466768138,
      "grad_norm": 3.796875,
      "learning_rate": 6.745328929125125e-06,
      "loss": 1.01887398,
      "memory(GiB)": 112.26,
      "step": 32890,
      "train_speed(iter/s)": 1.131439
    },
    {
      "acc": 0.72935395,
      "epoch": 0.8344748858447488,
      "grad_norm": 4.125,
      "learning_rate": 6.7443462273634195e-06,
      "loss": 1.0508419,
      "memory(GiB)": 112.26,
      "step": 32895,
      "train_speed(iter/s)": 1.131467
    },
    {
      "acc": 0.73626685,
      "epoch": 0.8346017250126839,
      "grad_norm": 4.09375,
      "learning_rate": 6.74336344887758e-06,
      "loss": 1.06098804,
      "memory(GiB)": 112.26,
      "step": 32900,
      "train_speed(iter/s)": 1.131503
    },
    {
      "acc": 0.73642664,
      "epoch": 0.834728564180619,
      "grad_norm": 3.890625,
      "learning_rate": 6.742380593710834e-06,
      "loss": 1.07412052,
      "memory(GiB)": 112.26,
      "step": 32905,
      "train_speed(iter/s)": 1.131513
    },
    {
      "acc": 0.72642136,
      "epoch": 0.834855403348554,
      "grad_norm": 4.0,
      "learning_rate": 6.7413976619064085e-06,
      "loss": 1.13742504,
      "memory(GiB)": 112.26,
      "step": 32910,
      "train_speed(iter/s)": 1.131542
    },
    {
      "acc": 0.73900051,
      "epoch": 0.8349822425164891,
      "grad_norm": 3.765625,
      "learning_rate": 6.74041465350754e-06,
      "loss": 1.02541513,
      "memory(GiB)": 112.26,
      "step": 32915,
      "train_speed(iter/s)": 1.131515
    },
    {
      "acc": 0.74951973,
      "epoch": 0.8351090816844241,
      "grad_norm": 3.375,
      "learning_rate": 6.739431568557464e-06,
      "loss": 0.98081455,
      "memory(GiB)": 112.26,
      "step": 32920,
      "train_speed(iter/s)": 1.131539
    },
    {
      "acc": 0.71868267,
      "epoch": 0.8352359208523592,
      "grad_norm": 3.390625,
      "learning_rate": 6.738448407099423e-06,
      "loss": 1.15090857,
      "memory(GiB)": 112.26,
      "step": 32925,
      "train_speed(iter/s)": 1.131576
    },
    {
      "acc": 0.73205194,
      "epoch": 0.8353627600202943,
      "grad_norm": 3.8125,
      "learning_rate": 6.737465169176658e-06,
      "loss": 1.05131912,
      "memory(GiB)": 112.26,
      "step": 32930,
      "train_speed(iter/s)": 1.131604
    },
    {
      "acc": 0.72908149,
      "epoch": 0.8354895991882293,
      "grad_norm": 5.5625,
      "learning_rate": 6.736481854832418e-06,
      "loss": 1.12649097,
      "memory(GiB)": 112.26,
      "step": 32935,
      "train_speed(iter/s)": 1.131635
    },
    {
      "acc": 0.73286428,
      "epoch": 0.8356164383561644,
      "grad_norm": 4.25,
      "learning_rate": 6.735498464109953e-06,
      "loss": 1.08599176,
      "memory(GiB)": 112.26,
      "step": 32940,
      "train_speed(iter/s)": 1.131656
    },
    {
      "acc": 0.74282389,
      "epoch": 0.8357432775240995,
      "grad_norm": 4.5,
      "learning_rate": 6.734514997052517e-06,
      "loss": 1.03021736,
      "memory(GiB)": 112.26,
      "step": 32945,
      "train_speed(iter/s)": 1.131677
    },
    {
      "acc": 0.74448175,
      "epoch": 0.8358701166920345,
      "grad_norm": 5.34375,
      "learning_rate": 6.733531453703368e-06,
      "loss": 1.06892614,
      "memory(GiB)": 112.26,
      "step": 32950,
      "train_speed(iter/s)": 1.131691
    },
    {
      "acc": 0.73782125,
      "epoch": 0.8359969558599696,
      "grad_norm": 4.09375,
      "learning_rate": 6.732547834105765e-06,
      "loss": 1.01828327,
      "memory(GiB)": 112.26,
      "step": 32955,
      "train_speed(iter/s)": 1.131718
    },
    {
      "acc": 0.74399018,
      "epoch": 0.8361237950279046,
      "grad_norm": 3.71875,
      "learning_rate": 6.731564138302975e-06,
      "loss": 1.07441292,
      "memory(GiB)": 112.26,
      "step": 32960,
      "train_speed(iter/s)": 1.131746
    },
    {
      "acc": 0.73917427,
      "epoch": 0.8362506341958397,
      "grad_norm": 3.390625,
      "learning_rate": 6.730580366338261e-06,
      "loss": 1.08236265,
      "memory(GiB)": 112.26,
      "step": 32965,
      "train_speed(iter/s)": 1.131781
    },
    {
      "acc": 0.75158625,
      "epoch": 0.8363774733637748,
      "grad_norm": 3.421875,
      "learning_rate": 6.729596518254897e-06,
      "loss": 1.02622566,
      "memory(GiB)": 112.26,
      "step": 32970,
      "train_speed(iter/s)": 1.131785
    },
    {
      "acc": 0.73624201,
      "epoch": 0.8365043125317098,
      "grad_norm": 5.03125,
      "learning_rate": 6.728612594096155e-06,
      "loss": 1.06420832,
      "memory(GiB)": 112.26,
      "step": 32975,
      "train_speed(iter/s)": 1.131819
    },
    {
      "acc": 0.72870722,
      "epoch": 0.8366311516996449,
      "grad_norm": 3.109375,
      "learning_rate": 6.727628593905315e-06,
      "loss": 1.10796432,
      "memory(GiB)": 112.26,
      "step": 32980,
      "train_speed(iter/s)": 1.131842
    },
    {
      "acc": 0.74050231,
      "epoch": 0.83675799086758,
      "grad_norm": 3.625,
      "learning_rate": 6.726644517725655e-06,
      "loss": 1.08217936,
      "memory(GiB)": 112.26,
      "step": 32985,
      "train_speed(iter/s)": 1.131869
    },
    {
      "acc": 0.71772857,
      "epoch": 0.836884830035515,
      "grad_norm": 4.34375,
      "learning_rate": 6.725660365600462e-06,
      "loss": 1.14498615,
      "memory(GiB)": 112.26,
      "step": 32990,
      "train_speed(iter/s)": 1.131882
    },
    {
      "acc": 0.71687269,
      "epoch": 0.83701166920345,
      "grad_norm": 4.09375,
      "learning_rate": 6.724676137573021e-06,
      "loss": 1.10561962,
      "memory(GiB)": 112.26,
      "step": 32995,
      "train_speed(iter/s)": 1.131909
    },
    {
      "acc": 0.72988462,
      "epoch": 0.837138508371385,
      "grad_norm": 5.1875,
      "learning_rate": 6.723691833686622e-06,
      "loss": 1.06400433,
      "memory(GiB)": 112.26,
      "step": 33000,
      "train_speed(iter/s)": 1.131937
    },
    {
      "epoch": 0.837138508371385,
      "eval_acc": 0.7248076147994078,
      "eval_loss": 1.0488306283950806,
      "eval_runtime": 70.8384,
      "eval_samples_per_second": 89.923,
      "eval_steps_per_second": 22.488,
      "step": 33000
    },
    {
      "acc": 0.73294764,
      "epoch": 0.8372653475393201,
      "grad_norm": 4.625,
      "learning_rate": 6.722707453984561e-06,
      "loss": 1.10289478,
      "memory(GiB)": 112.26,
      "step": 33005,
      "train_speed(iter/s)": 1.127477
    },
    {
      "acc": 0.74631634,
      "epoch": 0.8373921867072552,
      "grad_norm": 4.53125,
      "learning_rate": 6.721722998510135e-06,
      "loss": 1.12334728,
      "memory(GiB)": 112.26,
      "step": 33010,
      "train_speed(iter/s)": 1.12749
    },
    {
      "acc": 0.73553252,
      "epoch": 0.8375190258751902,
      "grad_norm": 3.328125,
      "learning_rate": 6.720738467306644e-06,
      "loss": 1.08750505,
      "memory(GiB)": 112.26,
      "step": 33015,
      "train_speed(iter/s)": 1.127498
    },
    {
      "acc": 0.73833389,
      "epoch": 0.8376458650431253,
      "grad_norm": 3.359375,
      "learning_rate": 6.719753860417394e-06,
      "loss": 1.10167885,
      "memory(GiB)": 112.26,
      "step": 33020,
      "train_speed(iter/s)": 1.127517
    },
    {
      "acc": 0.71871519,
      "epoch": 0.8377727042110604,
      "grad_norm": 4.46875,
      "learning_rate": 6.718769177885689e-06,
      "loss": 1.14290581,
      "memory(GiB)": 112.26,
      "step": 33025,
      "train_speed(iter/s)": 1.127541
    },
    {
      "acc": 0.75439744,
      "epoch": 0.8378995433789954,
      "grad_norm": 3.15625,
      "learning_rate": 6.717784419754845e-06,
      "loss": 0.98113766,
      "memory(GiB)": 112.26,
      "step": 33030,
      "train_speed(iter/s)": 1.127576
    },
    {
      "acc": 0.74177999,
      "epoch": 0.8380263825469305,
      "grad_norm": 3.828125,
      "learning_rate": 6.71679958606817e-06,
      "loss": 1.02943935,
      "memory(GiB)": 112.26,
      "step": 33035,
      "train_speed(iter/s)": 1.127609
    },
    {
      "acc": 0.71815042,
      "epoch": 0.8381532217148655,
      "grad_norm": 3.953125,
      "learning_rate": 6.715814676868985e-06,
      "loss": 1.13288078,
      "memory(GiB)": 112.26,
      "step": 33040,
      "train_speed(iter/s)": 1.127633
    },
    {
      "acc": 0.72401738,
      "epoch": 0.8382800608828006,
      "grad_norm": 3.203125,
      "learning_rate": 6.714829692200611e-06,
      "loss": 1.12442055,
      "memory(GiB)": 112.26,
      "step": 33045,
      "train_speed(iter/s)": 1.127668
    },
    {
      "acc": 0.73758163,
      "epoch": 0.8384069000507357,
      "grad_norm": 4.5625,
      "learning_rate": 6.71384463210637e-06,
      "loss": 1.08945704,
      "memory(GiB)": 112.26,
      "step": 33050,
      "train_speed(iter/s)": 1.12768
    },
    {
      "acc": 0.73661919,
      "epoch": 0.8385337392186707,
      "grad_norm": 3.375,
      "learning_rate": 6.7128594966295904e-06,
      "loss": 1.03956928,
      "memory(GiB)": 112.26,
      "step": 33055,
      "train_speed(iter/s)": 1.12771
    },
    {
      "acc": 0.7432435,
      "epoch": 0.8386605783866058,
      "grad_norm": 3.703125,
      "learning_rate": 6.711874285813602e-06,
      "loss": 1.03628807,
      "memory(GiB)": 112.26,
      "step": 33060,
      "train_speed(iter/s)": 1.127736
    },
    {
      "acc": 0.73560619,
      "epoch": 0.8387874175545409,
      "grad_norm": 3.234375,
      "learning_rate": 6.710888999701741e-06,
      "loss": 1.07035561,
      "memory(GiB)": 112.26,
      "step": 33065,
      "train_speed(iter/s)": 1.127762
    },
    {
      "acc": 0.74427791,
      "epoch": 0.8389142567224759,
      "grad_norm": 3.625,
      "learning_rate": 6.7099036383373425e-06,
      "loss": 1.03647518,
      "memory(GiB)": 112.26,
      "step": 33070,
      "train_speed(iter/s)": 1.127777
    },
    {
      "acc": 0.73812256,
      "epoch": 0.839041095890411,
      "grad_norm": 3.703125,
      "learning_rate": 6.708918201763748e-06,
      "loss": 1.07398224,
      "memory(GiB)": 112.26,
      "step": 33075,
      "train_speed(iter/s)": 1.127791
    },
    {
      "acc": 0.73925419,
      "epoch": 0.839167935058346,
      "grad_norm": 3.5,
      "learning_rate": 6.707932690024302e-06,
      "loss": 1.09467335,
      "memory(GiB)": 112.26,
      "step": 33080,
      "train_speed(iter/s)": 1.127805
    },
    {
      "acc": 0.73085208,
      "epoch": 0.8392947742262811,
      "grad_norm": 3.875,
      "learning_rate": 6.706947103162348e-06,
      "loss": 1.06594887,
      "memory(GiB)": 112.26,
      "step": 33085,
      "train_speed(iter/s)": 1.127822
    },
    {
      "acc": 0.74161434,
      "epoch": 0.8394216133942162,
      "grad_norm": 4.125,
      "learning_rate": 6.7059614412212425e-06,
      "loss": 1.08990479,
      "memory(GiB)": 112.26,
      "step": 33090,
      "train_speed(iter/s)": 1.127853
    },
    {
      "acc": 0.74260669,
      "epoch": 0.8395484525621512,
      "grad_norm": 3.4375,
      "learning_rate": 6.704975704244334e-06,
      "loss": 1.07280149,
      "memory(GiB)": 112.26,
      "step": 33095,
      "train_speed(iter/s)": 1.127873
    },
    {
      "acc": 0.72939658,
      "epoch": 0.8396752917300863,
      "grad_norm": 5.28125,
      "learning_rate": 6.703989892274985e-06,
      "loss": 1.13730516,
      "memory(GiB)": 112.26,
      "step": 33100,
      "train_speed(iter/s)": 1.127892
    },
    {
      "acc": 0.7486124,
      "epoch": 0.8398021308980214,
      "grad_norm": 5.1875,
      "learning_rate": 6.703004005356549e-06,
      "loss": 1.01232147,
      "memory(GiB)": 112.26,
      "step": 33105,
      "train_speed(iter/s)": 1.127926
    },
    {
      "acc": 0.71662292,
      "epoch": 0.8399289700659563,
      "grad_norm": 4.75,
      "learning_rate": 6.7020180435323965e-06,
      "loss": 1.11822414,
      "memory(GiB)": 112.26,
      "step": 33110,
      "train_speed(iter/s)": 1.127963
    },
    {
      "acc": 0.72774596,
      "epoch": 0.8400558092338914,
      "grad_norm": 3.859375,
      "learning_rate": 6.701032006845889e-06,
      "loss": 1.07332039,
      "memory(GiB)": 112.26,
      "step": 33115,
      "train_speed(iter/s)": 1.127972
    },
    {
      "acc": 0.7415092,
      "epoch": 0.8401826484018264,
      "grad_norm": 3.921875,
      "learning_rate": 6.700045895340401e-06,
      "loss": 1.03422718,
      "memory(GiB)": 112.26,
      "step": 33120,
      "train_speed(iter/s)": 1.128
    },
    {
      "acc": 0.74441781,
      "epoch": 0.8403094875697615,
      "grad_norm": 5.5625,
      "learning_rate": 6.699059709059304e-06,
      "loss": 1.09015837,
      "memory(GiB)": 112.26,
      "step": 33125,
      "train_speed(iter/s)": 1.12803
    },
    {
      "acc": 0.74733763,
      "epoch": 0.8404363267376966,
      "grad_norm": 3.421875,
      "learning_rate": 6.698073448045975e-06,
      "loss": 1.07214842,
      "memory(GiB)": 112.26,
      "step": 33130,
      "train_speed(iter/s)": 1.12805
    },
    {
      "acc": 0.74998569,
      "epoch": 0.8405631659056316,
      "grad_norm": 3.390625,
      "learning_rate": 6.697087112343795e-06,
      "loss": 1.02014847,
      "memory(GiB)": 112.26,
      "step": 33135,
      "train_speed(iter/s)": 1.128073
    },
    {
      "acc": 0.7253952,
      "epoch": 0.8406900050735667,
      "grad_norm": 3.8125,
      "learning_rate": 6.696100701996146e-06,
      "loss": 1.13393269,
      "memory(GiB)": 112.26,
      "step": 33140,
      "train_speed(iter/s)": 1.128095
    },
    {
      "acc": 0.74044065,
      "epoch": 0.8408168442415018,
      "grad_norm": 4.3125,
      "learning_rate": 6.6951142170464164e-06,
      "loss": 1.04204588,
      "memory(GiB)": 112.26,
      "step": 33145,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.73550663,
      "epoch": 0.8409436834094368,
      "grad_norm": 3.625,
      "learning_rate": 6.694127657537995e-06,
      "loss": 1.10684872,
      "memory(GiB)": 112.26,
      "step": 33150,
      "train_speed(iter/s)": 1.128155
    },
    {
      "acc": 0.73251877,
      "epoch": 0.8410705225773719,
      "grad_norm": 3.40625,
      "learning_rate": 6.693141023514276e-06,
      "loss": 1.06652298,
      "memory(GiB)": 112.26,
      "step": 33155,
      "train_speed(iter/s)": 1.128184
    },
    {
      "acc": 0.73025041,
      "epoch": 0.8411973617453069,
      "grad_norm": 3.703125,
      "learning_rate": 6.6921543150186555e-06,
      "loss": 1.10158091,
      "memory(GiB)": 112.26,
      "step": 33160,
      "train_speed(iter/s)": 1.128204
    },
    {
      "acc": 0.74556236,
      "epoch": 0.841324200913242,
      "grad_norm": 4.15625,
      "learning_rate": 6.691167532094531e-06,
      "loss": 1.05053778,
      "memory(GiB)": 112.26,
      "step": 33165,
      "train_speed(iter/s)": 1.128211
    },
    {
      "acc": 0.74141407,
      "epoch": 0.8414510400811771,
      "grad_norm": 4.3125,
      "learning_rate": 6.690180674785311e-06,
      "loss": 1.14192448,
      "memory(GiB)": 112.26,
      "step": 33170,
      "train_speed(iter/s)": 1.128245
    },
    {
      "acc": 0.72223535,
      "epoch": 0.8415778792491121,
      "grad_norm": 3.75,
      "learning_rate": 6.689193743134397e-06,
      "loss": 1.11158695,
      "memory(GiB)": 112.26,
      "step": 33175,
      "train_speed(iter/s)": 1.128276
    },
    {
      "acc": 0.72707334,
      "epoch": 0.8417047184170472,
      "grad_norm": 4.5,
      "learning_rate": 6.688206737185201e-06,
      "loss": 1.08723736,
      "memory(GiB)": 112.26,
      "step": 33180,
      "train_speed(iter/s)": 1.128314
    },
    {
      "acc": 0.72212458,
      "epoch": 0.8418315575849823,
      "grad_norm": 3.953125,
      "learning_rate": 6.687219656981135e-06,
      "loss": 1.08652287,
      "memory(GiB)": 112.26,
      "step": 33185,
      "train_speed(iter/s)": 1.128329
    },
    {
      "acc": 0.74299173,
      "epoch": 0.8419583967529173,
      "grad_norm": 3.890625,
      "learning_rate": 6.686232502565616e-06,
      "loss": 1.07856817,
      "memory(GiB)": 112.26,
      "step": 33190,
      "train_speed(iter/s)": 1.128366
    },
    {
      "acc": 0.73890266,
      "epoch": 0.8420852359208524,
      "grad_norm": 3.578125,
      "learning_rate": 6.685245273982063e-06,
      "loss": 1.09306087,
      "memory(GiB)": 112.26,
      "step": 33195,
      "train_speed(iter/s)": 1.128398
    },
    {
      "acc": 0.72063293,
      "epoch": 0.8422120750887874,
      "grad_norm": 3.6875,
      "learning_rate": 6.684257971273899e-06,
      "loss": 1.1870348,
      "memory(GiB)": 112.26,
      "step": 33200,
      "train_speed(iter/s)": 1.128414
    },
    {
      "acc": 0.74247856,
      "epoch": 0.8423389142567225,
      "grad_norm": 3.34375,
      "learning_rate": 6.68327059448455e-06,
      "loss": 1.03731813,
      "memory(GiB)": 112.26,
      "step": 33205,
      "train_speed(iter/s)": 1.128433
    },
    {
      "acc": 0.74309816,
      "epoch": 0.8424657534246576,
      "grad_norm": 4.65625,
      "learning_rate": 6.682283143657444e-06,
      "loss": 1.03087559,
      "memory(GiB)": 112.26,
      "step": 33210,
      "train_speed(iter/s)": 1.128462
    },
    {
      "acc": 0.73514547,
      "epoch": 0.8425925925925926,
      "grad_norm": 4.84375,
      "learning_rate": 6.681295618836015e-06,
      "loss": 1.11504097,
      "memory(GiB)": 112.26,
      "step": 33215,
      "train_speed(iter/s)": 1.128499
    },
    {
      "acc": 0.72445402,
      "epoch": 0.8427194317605277,
      "grad_norm": 3.4375,
      "learning_rate": 6.680308020063699e-06,
      "loss": 1.08904753,
      "memory(GiB)": 112.26,
      "step": 33220,
      "train_speed(iter/s)": 1.128509
    },
    {
      "acc": 0.73639212,
      "epoch": 0.8428462709284628,
      "grad_norm": 3.765625,
      "learning_rate": 6.679320347383933e-06,
      "loss": 1.09374342,
      "memory(GiB)": 112.26,
      "step": 33225,
      "train_speed(iter/s)": 1.128539
    },
    {
      "acc": 0.74165621,
      "epoch": 0.8429731100963977,
      "grad_norm": 4.78125,
      "learning_rate": 6.678332600840161e-06,
      "loss": 1.1008749,
      "memory(GiB)": 112.26,
      "step": 33230,
      "train_speed(iter/s)": 1.128562
    },
    {
      "acc": 0.75641813,
      "epoch": 0.8430999492643328,
      "grad_norm": 3.609375,
      "learning_rate": 6.677344780475827e-06,
      "loss": 1.01106319,
      "memory(GiB)": 112.26,
      "step": 33235,
      "train_speed(iter/s)": 1.128602
    },
    {
      "acc": 0.74816475,
      "epoch": 0.8432267884322678,
      "grad_norm": 3.34375,
      "learning_rate": 6.676356886334383e-06,
      "loss": 1.04516191,
      "memory(GiB)": 112.26,
      "step": 33240,
      "train_speed(iter/s)": 1.128615
    },
    {
      "acc": 0.73131475,
      "epoch": 0.8433536276002029,
      "grad_norm": 3.796875,
      "learning_rate": 6.675368918459276e-06,
      "loss": 1.11073484,
      "memory(GiB)": 112.26,
      "step": 33245,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.75287585,
      "epoch": 0.843480466768138,
      "grad_norm": 3.375,
      "learning_rate": 6.674380876893967e-06,
      "loss": 0.99161987,
      "memory(GiB)": 112.26,
      "step": 33250,
      "train_speed(iter/s)": 1.128659
    },
    {
      "acc": 0.73906865,
      "epoch": 0.843607305936073,
      "grad_norm": 4.4375,
      "learning_rate": 6.673392761681908e-06,
      "loss": 1.05040436,
      "memory(GiB)": 112.26,
      "step": 33255,
      "train_speed(iter/s)": 1.128687
    },
    {
      "acc": 0.74577141,
      "epoch": 0.8437341451040081,
      "grad_norm": 3.625,
      "learning_rate": 6.672404572866566e-06,
      "loss": 1.03424397,
      "memory(GiB)": 112.26,
      "step": 33260,
      "train_speed(iter/s)": 1.128699
    },
    {
      "acc": 0.73564472,
      "epoch": 0.8438609842719432,
      "grad_norm": 3.359375,
      "learning_rate": 6.671416310491406e-06,
      "loss": 1.02115917,
      "memory(GiB)": 112.26,
      "step": 33265,
      "train_speed(iter/s)": 1.128695
    },
    {
      "acc": 0.72307935,
      "epoch": 0.8439878234398782,
      "grad_norm": 4.03125,
      "learning_rate": 6.670427974599891e-06,
      "loss": 1.1556921,
      "memory(GiB)": 112.26,
      "step": 33270,
      "train_speed(iter/s)": 1.128719
    },
    {
      "acc": 0.73285456,
      "epoch": 0.8441146626078133,
      "grad_norm": 4.6875,
      "learning_rate": 6.669439565235498e-06,
      "loss": 1.1139286,
      "memory(GiB)": 112.26,
      "step": 33275,
      "train_speed(iter/s)": 1.128754
    },
    {
      "acc": 0.73653297,
      "epoch": 0.8442415017757483,
      "grad_norm": 3.71875,
      "learning_rate": 6.668451082441698e-06,
      "loss": 1.07386198,
      "memory(GiB)": 112.26,
      "step": 33280,
      "train_speed(iter/s)": 1.128777
    },
    {
      "acc": 0.72198982,
      "epoch": 0.8443683409436834,
      "grad_norm": 3.71875,
      "learning_rate": 6.667462526261972e-06,
      "loss": 1.09878187,
      "memory(GiB)": 112.26,
      "step": 33285,
      "train_speed(iter/s)": 1.128799
    },
    {
      "acc": 0.74863415,
      "epoch": 0.8444951801116185,
      "grad_norm": 3.0,
      "learning_rate": 6.666473896739798e-06,
      "loss": 1.0338953,
      "memory(GiB)": 112.26,
      "step": 33290,
      "train_speed(iter/s)": 1.128821
    },
    {
      "acc": 0.73807697,
      "epoch": 0.8446220192795535,
      "grad_norm": 3.96875,
      "learning_rate": 6.665485193918663e-06,
      "loss": 1.06807899,
      "memory(GiB)": 112.26,
      "step": 33295,
      "train_speed(iter/s)": 1.128854
    },
    {
      "acc": 0.72351341,
      "epoch": 0.8447488584474886,
      "grad_norm": 3.859375,
      "learning_rate": 6.664496417842053e-06,
      "loss": 1.10162201,
      "memory(GiB)": 112.26,
      "step": 33300,
      "train_speed(iter/s)": 1.12888
    },
    {
      "acc": 0.73714242,
      "epoch": 0.8448756976154237,
      "grad_norm": 3.109375,
      "learning_rate": 6.6635075685534566e-06,
      "loss": 1.06253538,
      "memory(GiB)": 112.26,
      "step": 33305,
      "train_speed(iter/s)": 1.128905
    },
    {
      "acc": 0.73382168,
      "epoch": 0.8450025367833587,
      "grad_norm": 4.625,
      "learning_rate": 6.662518646096374e-06,
      "loss": 1.09357672,
      "memory(GiB)": 112.26,
      "step": 33310,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.72843394,
      "epoch": 0.8451293759512938,
      "grad_norm": 3.1875,
      "learning_rate": 6.661529650514296e-06,
      "loss": 1.06997967,
      "memory(GiB)": 112.26,
      "step": 33315,
      "train_speed(iter/s)": 1.128958
    },
    {
      "acc": 0.72760267,
      "epoch": 0.8452562151192288,
      "grad_norm": 3.546875,
      "learning_rate": 6.6605405818507274e-06,
      "loss": 1.10222645,
      "memory(GiB)": 112.26,
      "step": 33320,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.73478341,
      "epoch": 0.8453830542871639,
      "grad_norm": 3.78125,
      "learning_rate": 6.659551440149169e-06,
      "loss": 1.07230301,
      "memory(GiB)": 112.26,
      "step": 33325,
      "train_speed(iter/s)": 1.128984
    },
    {
      "acc": 0.74291286,
      "epoch": 0.845509893455099,
      "grad_norm": 3.90625,
      "learning_rate": 6.65856222545313e-06,
      "loss": 1.04666576,
      "memory(GiB)": 112.26,
      "step": 33330,
      "train_speed(iter/s)": 1.128993
    },
    {
      "acc": 0.74377317,
      "epoch": 0.845636732623034,
      "grad_norm": 3.125,
      "learning_rate": 6.657572937806118e-06,
      "loss": 1.09965687,
      "memory(GiB)": 112.26,
      "step": 33335,
      "train_speed(iter/s)": 1.128992
    },
    {
      "acc": 0.73669662,
      "epoch": 0.8457635717909691,
      "grad_norm": 3.25,
      "learning_rate": 6.656583577251649e-06,
      "loss": 1.02435913,
      "memory(GiB)": 112.26,
      "step": 33340,
      "train_speed(iter/s)": 1.129018
    },
    {
      "acc": 0.71941676,
      "epoch": 0.8458904109589042,
      "grad_norm": 3.203125,
      "learning_rate": 6.655594143833237e-06,
      "loss": 1.1102623,
      "memory(GiB)": 112.26,
      "step": 33345,
      "train_speed(iter/s)": 1.129056
    },
    {
      "acc": 0.73667893,
      "epoch": 0.8460172501268391,
      "grad_norm": 3.796875,
      "learning_rate": 6.654604637594404e-06,
      "loss": 1.05151196,
      "memory(GiB)": 112.26,
      "step": 33350,
      "train_speed(iter/s)": 1.129083
    },
    {
      "acc": 0.7231504,
      "epoch": 0.8461440892947742,
      "grad_norm": 3.8125,
      "learning_rate": 6.653615058578672e-06,
      "loss": 1.13113718,
      "memory(GiB)": 112.26,
      "step": 33355,
      "train_speed(iter/s)": 1.12911
    },
    {
      "acc": 0.75137963,
      "epoch": 0.8462709284627092,
      "grad_norm": 3.65625,
      "learning_rate": 6.652625406829566e-06,
      "loss": 1.05352898,
      "memory(GiB)": 112.26,
      "step": 33360,
      "train_speed(iter/s)": 1.129132
    },
    {
      "acc": 0.7335041,
      "epoch": 0.8463977676306443,
      "grad_norm": 4.5,
      "learning_rate": 6.651635682390616e-06,
      "loss": 1.05661907,
      "memory(GiB)": 112.26,
      "step": 33365,
      "train_speed(iter/s)": 1.129162
    },
    {
      "acc": 0.74558034,
      "epoch": 0.8465246067985794,
      "grad_norm": 3.84375,
      "learning_rate": 6.650645885305356e-06,
      "loss": 1.03966808,
      "memory(GiB)": 112.26,
      "step": 33370,
      "train_speed(iter/s)": 1.129182
    },
    {
      "acc": 0.72997994,
      "epoch": 0.8466514459665144,
      "grad_norm": 5.40625,
      "learning_rate": 6.649656015617319e-06,
      "loss": 1.13701668,
      "memory(GiB)": 112.26,
      "step": 33375,
      "train_speed(iter/s)": 1.129211
    },
    {
      "acc": 0.72742491,
      "epoch": 0.8467782851344495,
      "grad_norm": 3.359375,
      "learning_rate": 6.648666073370046e-06,
      "loss": 1.07936382,
      "memory(GiB)": 112.26,
      "step": 33380,
      "train_speed(iter/s)": 1.129214
    },
    {
      "acc": 0.74316654,
      "epoch": 0.8469051243023846,
      "grad_norm": 3.4375,
      "learning_rate": 6.647676058607076e-06,
      "loss": 1.10706329,
      "memory(GiB)": 112.26,
      "step": 33385,
      "train_speed(iter/s)": 1.129246
    },
    {
      "acc": 0.72896557,
      "epoch": 0.8470319634703196,
      "grad_norm": 3.921875,
      "learning_rate": 6.64668597137196e-06,
      "loss": 1.11292877,
      "memory(GiB)": 112.26,
      "step": 33390,
      "train_speed(iter/s)": 1.129275
    },
    {
      "acc": 0.74706087,
      "epoch": 0.8471588026382547,
      "grad_norm": 4.34375,
      "learning_rate": 6.645695811708241e-06,
      "loss": 1.06829948,
      "memory(GiB)": 112.26,
      "step": 33395,
      "train_speed(iter/s)": 1.129299
    },
    {
      "acc": 0.74145398,
      "epoch": 0.8472856418061897,
      "grad_norm": 3.34375,
      "learning_rate": 6.644705579659474e-06,
      "loss": 1.0629406,
      "memory(GiB)": 112.26,
      "step": 33400,
      "train_speed(iter/s)": 1.129322
    },
    {
      "acc": 0.73461428,
      "epoch": 0.8474124809741248,
      "grad_norm": 4.03125,
      "learning_rate": 6.643715275269212e-06,
      "loss": 1.10086765,
      "memory(GiB)": 112.26,
      "step": 33405,
      "train_speed(iter/s)": 1.129345
    },
    {
      "acc": 0.73862543,
      "epoch": 0.8475393201420599,
      "grad_norm": 4.125,
      "learning_rate": 6.642724898581013e-06,
      "loss": 1.07820606,
      "memory(GiB)": 112.26,
      "step": 33410,
      "train_speed(iter/s)": 1.129369
    },
    {
      "acc": 0.7474618,
      "epoch": 0.8476661593099949,
      "grad_norm": 3.78125,
      "learning_rate": 6.6417344496384394e-06,
      "loss": 1.04103718,
      "memory(GiB)": 112.26,
      "step": 33415,
      "train_speed(iter/s)": 1.129375
    },
    {
      "acc": 0.71298046,
      "epoch": 0.84779299847793,
      "grad_norm": 2.765625,
      "learning_rate": 6.640743928485054e-06,
      "loss": 1.11532001,
      "memory(GiB)": 112.26,
      "step": 33420,
      "train_speed(iter/s)": 1.129394
    },
    {
      "acc": 0.74353776,
      "epoch": 0.8479198376458651,
      "grad_norm": 5.0,
      "learning_rate": 6.639753335164426e-06,
      "loss": 1.11526604,
      "memory(GiB)": 112.26,
      "step": 33425,
      "train_speed(iter/s)": 1.129423
    },
    {
      "acc": 0.73374777,
      "epoch": 0.8480466768138001,
      "grad_norm": 4.46875,
      "learning_rate": 6.638762669720126e-06,
      "loss": 1.10196304,
      "memory(GiB)": 112.26,
      "step": 33430,
      "train_speed(iter/s)": 1.129441
    },
    {
      "acc": 0.7526505,
      "epoch": 0.8481735159817352,
      "grad_norm": 3.953125,
      "learning_rate": 6.637771932195726e-06,
      "loss": 1.01694469,
      "memory(GiB)": 112.26,
      "step": 33435,
      "train_speed(iter/s)": 1.129454
    },
    {
      "acc": 0.74878654,
      "epoch": 0.8483003551496702,
      "grad_norm": 3.453125,
      "learning_rate": 6.636781122634804e-06,
      "loss": 1.0585042,
      "memory(GiB)": 112.26,
      "step": 33440,
      "train_speed(iter/s)": 1.12947
    },
    {
      "acc": 0.75486717,
      "epoch": 0.8484271943176053,
      "grad_norm": 3.296875,
      "learning_rate": 6.635790241080941e-06,
      "loss": 0.94902496,
      "memory(GiB)": 112.26,
      "step": 33445,
      "train_speed(iter/s)": 1.129499
    },
    {
      "acc": 0.73689117,
      "epoch": 0.8485540334855404,
      "grad_norm": 3.734375,
      "learning_rate": 6.634799287577721e-06,
      "loss": 1.05497227,
      "memory(GiB)": 112.26,
      "step": 33450,
      "train_speed(iter/s)": 1.1295
    },
    {
      "acc": 0.74713655,
      "epoch": 0.8486808726534754,
      "grad_norm": 4.15625,
      "learning_rate": 6.6338082621687286e-06,
      "loss": 1.00377426,
      "memory(GiB)": 112.26,
      "step": 33455,
      "train_speed(iter/s)": 1.129523
    },
    {
      "acc": 0.7268117,
      "epoch": 0.8488077118214105,
      "grad_norm": 5.34375,
      "learning_rate": 6.6328171648975545e-06,
      "loss": 1.14566002,
      "memory(GiB)": 112.26,
      "step": 33460,
      "train_speed(iter/s)": 1.129546
    },
    {
      "acc": 0.75169501,
      "epoch": 0.8489345509893456,
      "grad_norm": 4.03125,
      "learning_rate": 6.63182599580779e-06,
      "loss": 1.01807461,
      "memory(GiB)": 112.26,
      "step": 33465,
      "train_speed(iter/s)": 1.129574
    },
    {
      "acc": 0.74037399,
      "epoch": 0.8490613901572805,
      "grad_norm": 3.390625,
      "learning_rate": 6.630834754943036e-06,
      "loss": 1.06366005,
      "memory(GiB)": 112.26,
      "step": 33470,
      "train_speed(iter/s)": 1.129603
    },
    {
      "acc": 0.7361259,
      "epoch": 0.8491882293252156,
      "grad_norm": 4.34375,
      "learning_rate": 6.629843442346886e-06,
      "loss": 1.09040375,
      "memory(GiB)": 112.26,
      "step": 33475,
      "train_speed(iter/s)": 1.129635
    },
    {
      "acc": 0.74013987,
      "epoch": 0.8493150684931506,
      "grad_norm": 4.1875,
      "learning_rate": 6.628852058062944e-06,
      "loss": 1.11465244,
      "memory(GiB)": 112.26,
      "step": 33480,
      "train_speed(iter/s)": 1.129661
    },
    {
      "acc": 0.71578808,
      "epoch": 0.8494419076610857,
      "grad_norm": 3.6875,
      "learning_rate": 6.627860602134818e-06,
      "loss": 1.20743179,
      "memory(GiB)": 112.26,
      "step": 33485,
      "train_speed(iter/s)": 1.129689
    },
    {
      "acc": 0.73071375,
      "epoch": 0.8495687468290208,
      "grad_norm": 3.171875,
      "learning_rate": 6.626869074606113e-06,
      "loss": 1.10587168,
      "memory(GiB)": 112.26,
      "step": 33490,
      "train_speed(iter/s)": 1.129719
    },
    {
      "acc": 0.72174349,
      "epoch": 0.8496955859969558,
      "grad_norm": 3.703125,
      "learning_rate": 6.625877475520445e-06,
      "loss": 1.15271645,
      "memory(GiB)": 112.26,
      "step": 33495,
      "train_speed(iter/s)": 1.129751
    },
    {
      "acc": 0.75005341,
      "epoch": 0.8498224251648909,
      "grad_norm": 3.84375,
      "learning_rate": 6.624885804921425e-06,
      "loss": 0.98778954,
      "memory(GiB)": 112.26,
      "step": 33500,
      "train_speed(iter/s)": 1.129779
    },
    {
      "acc": 0.7377378,
      "epoch": 0.849949264332826,
      "grad_norm": 4.25,
      "learning_rate": 6.623894062852673e-06,
      "loss": 1.00798664,
      "memory(GiB)": 112.26,
      "step": 33505,
      "train_speed(iter/s)": 1.129798
    },
    {
      "acc": 0.75947971,
      "epoch": 0.850076103500761,
      "grad_norm": 3.125,
      "learning_rate": 6.62290224935781e-06,
      "loss": 1.00122814,
      "memory(GiB)": 112.26,
      "step": 33510,
      "train_speed(iter/s)": 1.129802
    },
    {
      "acc": 0.73763943,
      "epoch": 0.8502029426686961,
      "grad_norm": 3.078125,
      "learning_rate": 6.621910364480461e-06,
      "loss": 1.05555363,
      "memory(GiB)": 112.26,
      "step": 33515,
      "train_speed(iter/s)": 1.129826
    },
    {
      "acc": 0.729704,
      "epoch": 0.8503297818366311,
      "grad_norm": 3.84375,
      "learning_rate": 6.620918408264252e-06,
      "loss": 1.15298576,
      "memory(GiB)": 112.26,
      "step": 33520,
      "train_speed(iter/s)": 1.129859
    },
    {
      "acc": 0.72927537,
      "epoch": 0.8504566210045662,
      "grad_norm": 3.421875,
      "learning_rate": 6.6199263807528136e-06,
      "loss": 1.1553957,
      "memory(GiB)": 112.26,
      "step": 33525,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.7415453,
      "epoch": 0.8505834601725013,
      "grad_norm": 3.9375,
      "learning_rate": 6.618934281989783e-06,
      "loss": 1.09365349,
      "memory(GiB)": 112.26,
      "step": 33530,
      "train_speed(iter/s)": 1.129898
    },
    {
      "acc": 0.73779836,
      "epoch": 0.8507102993404363,
      "grad_norm": 3.796875,
      "learning_rate": 6.6179421120187915e-06,
      "loss": 1.03283806,
      "memory(GiB)": 112.26,
      "step": 33535,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.75141139,
      "epoch": 0.8508371385083714,
      "grad_norm": 3.703125,
      "learning_rate": 6.616949870883486e-06,
      "loss": 1.00113258,
      "memory(GiB)": 112.26,
      "step": 33540,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.72624397,
      "epoch": 0.8509639776763065,
      "grad_norm": 4.03125,
      "learning_rate": 6.615957558627503e-06,
      "loss": 1.11964493,
      "memory(GiB)": 112.26,
      "step": 33545,
      "train_speed(iter/s)": 1.129945
    },
    {
      "acc": 0.73846588,
      "epoch": 0.8510908168442415,
      "grad_norm": 3.71875,
      "learning_rate": 6.6149651752944945e-06,
      "loss": 1.06293173,
      "memory(GiB)": 112.26,
      "step": 33550,
      "train_speed(iter/s)": 1.129968
    },
    {
      "acc": 0.7368247,
      "epoch": 0.8512176560121766,
      "grad_norm": 3.984375,
      "learning_rate": 6.613972720928105e-06,
      "loss": 1.08845634,
      "memory(GiB)": 112.26,
      "step": 33555,
      "train_speed(iter/s)": 1.13
    },
    {
      "acc": 0.73688483,
      "epoch": 0.8513444951801116,
      "grad_norm": 4.25,
      "learning_rate": 6.61298019557199e-06,
      "loss": 1.02681303,
      "memory(GiB)": 112.26,
      "step": 33560,
      "train_speed(iter/s)": 1.13003
    },
    {
      "acc": 0.75076857,
      "epoch": 0.8514713343480467,
      "grad_norm": 3.234375,
      "learning_rate": 6.6119875992698045e-06,
      "loss": 1.02490616,
      "memory(GiB)": 112.26,
      "step": 33565,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.74665256,
      "epoch": 0.8515981735159818,
      "grad_norm": 3.734375,
      "learning_rate": 6.610994932065207e-06,
      "loss": 1.01566048,
      "memory(GiB)": 112.26,
      "step": 33570,
      "train_speed(iter/s)": 1.130075
    },
    {
      "acc": 0.73424406,
      "epoch": 0.8517250126839168,
      "grad_norm": 3.578125,
      "learning_rate": 6.610002194001861e-06,
      "loss": 1.0915678,
      "memory(GiB)": 112.26,
      "step": 33575,
      "train_speed(iter/s)": 1.130095
    },
    {
      "acc": 0.75004616,
      "epoch": 0.8518518518518519,
      "grad_norm": 4.1875,
      "learning_rate": 6.609009385123429e-06,
      "loss": 1.00755138,
      "memory(GiB)": 112.26,
      "step": 33580,
      "train_speed(iter/s)": 1.130116
    },
    {
      "acc": 0.73822207,
      "epoch": 0.851978691019787,
      "grad_norm": 3.65625,
      "learning_rate": 6.608016505473582e-06,
      "loss": 1.0456687,
      "memory(GiB)": 112.26,
      "step": 33585,
      "train_speed(iter/s)": 1.130131
    },
    {
      "acc": 0.73381,
      "epoch": 0.852105530187722,
      "grad_norm": 4.0625,
      "learning_rate": 6.60702355509599e-06,
      "loss": 1.06375389,
      "memory(GiB)": 112.26,
      "step": 33590,
      "train_speed(iter/s)": 1.130131
    },
    {
      "acc": 0.74331608,
      "epoch": 0.852232369355657,
      "grad_norm": 3.484375,
      "learning_rate": 6.606030534034326e-06,
      "loss": 1.07999306,
      "memory(GiB)": 112.26,
      "step": 33595,
      "train_speed(iter/s)": 1.13016
    },
    {
      "acc": 0.72654514,
      "epoch": 0.852359208523592,
      "grad_norm": 3.96875,
      "learning_rate": 6.6050374423322685e-06,
      "loss": 1.14950247,
      "memory(GiB)": 112.26,
      "step": 33600,
      "train_speed(iter/s)": 1.130172
    },
    {
      "acc": 0.71487713,
      "epoch": 0.8524860476915271,
      "grad_norm": 4.21875,
      "learning_rate": 6.604044280033498e-06,
      "loss": 1.12721949,
      "memory(GiB)": 112.26,
      "step": 33605,
      "train_speed(iter/s)": 1.130207
    },
    {
      "acc": 0.72583199,
      "epoch": 0.8526128868594622,
      "grad_norm": 4.78125,
      "learning_rate": 6.6030510471817e-06,
      "loss": 1.14946213,
      "memory(GiB)": 112.26,
      "step": 33610,
      "train_speed(iter/s)": 1.130237
    },
    {
      "acc": 0.71923809,
      "epoch": 0.8527397260273972,
      "grad_norm": 3.453125,
      "learning_rate": 6.602057743820558e-06,
      "loss": 1.12577658,
      "memory(GiB)": 112.26,
      "step": 33615,
      "train_speed(iter/s)": 1.130272
    },
    {
      "acc": 0.7484066,
      "epoch": 0.8528665651953323,
      "grad_norm": 5.65625,
      "learning_rate": 6.601064369993766e-06,
      "loss": 1.01514664,
      "memory(GiB)": 112.26,
      "step": 33620,
      "train_speed(iter/s)": 1.130291
    },
    {
      "acc": 0.7288249,
      "epoch": 0.8529934043632674,
      "grad_norm": 3.53125,
      "learning_rate": 6.600070925745012e-06,
      "loss": 1.09383755,
      "memory(GiB)": 112.26,
      "step": 33625,
      "train_speed(iter/s)": 1.130301
    },
    {
      "acc": 0.73573103,
      "epoch": 0.8531202435312024,
      "grad_norm": 3.875,
      "learning_rate": 6.599077411117998e-06,
      "loss": 1.08971424,
      "memory(GiB)": 112.26,
      "step": 33630,
      "train_speed(iter/s)": 1.13033
    },
    {
      "acc": 0.74701071,
      "epoch": 0.8532470826991375,
      "grad_norm": 3.53125,
      "learning_rate": 6.598083826156418e-06,
      "loss": 1.01335506,
      "memory(GiB)": 112.26,
      "step": 33635,
      "train_speed(iter/s)": 1.130359
    },
    {
      "acc": 0.74242582,
      "epoch": 0.8533739218670725,
      "grad_norm": 3.546875,
      "learning_rate": 6.597090170903977e-06,
      "loss": 1.08883133,
      "memory(GiB)": 112.26,
      "step": 33640,
      "train_speed(iter/s)": 1.130392
    },
    {
      "acc": 0.73180261,
      "epoch": 0.8535007610350076,
      "grad_norm": 4.75,
      "learning_rate": 6.596096445404381e-06,
      "loss": 1.06726007,
      "memory(GiB)": 112.26,
      "step": 33645,
      "train_speed(iter/s)": 1.130412
    },
    {
      "acc": 0.73090415,
      "epoch": 0.8536276002029427,
      "grad_norm": 3.375,
      "learning_rate": 6.595102649701336e-06,
      "loss": 1.05695438,
      "memory(GiB)": 112.26,
      "step": 33650,
      "train_speed(iter/s)": 1.130444
    },
    {
      "acc": 0.73388691,
      "epoch": 0.8537544393708777,
      "grad_norm": 3.90625,
      "learning_rate": 6.5941087838385545e-06,
      "loss": 1.07787495,
      "memory(GiB)": 112.26,
      "step": 33655,
      "train_speed(iter/s)": 1.130477
    },
    {
      "acc": 0.74610672,
      "epoch": 0.8538812785388128,
      "grad_norm": 3.640625,
      "learning_rate": 6.593114847859752e-06,
      "loss": 1.04981527,
      "memory(GiB)": 112.26,
      "step": 33660,
      "train_speed(iter/s)": 1.130492
    },
    {
      "acc": 0.73369389,
      "epoch": 0.8540081177067479,
      "grad_norm": 4.9375,
      "learning_rate": 6.592120841808646e-06,
      "loss": 1.10529423,
      "memory(GiB)": 112.26,
      "step": 33665,
      "train_speed(iter/s)": 1.130516
    },
    {
      "acc": 0.74174471,
      "epoch": 0.8541349568746829,
      "grad_norm": 3.328125,
      "learning_rate": 6.5911267657289564e-06,
      "loss": 1.09730148,
      "memory(GiB)": 112.26,
      "step": 33670,
      "train_speed(iter/s)": 1.130535
    },
    {
      "acc": 0.7324718,
      "epoch": 0.854261796042618,
      "grad_norm": 3.359375,
      "learning_rate": 6.590132619664408e-06,
      "loss": 1.09049234,
      "memory(GiB)": 112.26,
      "step": 33675,
      "train_speed(iter/s)": 1.13055
    },
    {
      "acc": 0.74957304,
      "epoch": 0.854388635210553,
      "grad_norm": 3.390625,
      "learning_rate": 6.589138403658728e-06,
      "loss": 1.03530903,
      "memory(GiB)": 112.26,
      "step": 33680,
      "train_speed(iter/s)": 1.13057
    },
    {
      "acc": 0.72591395,
      "epoch": 0.8545154743784881,
      "grad_norm": 3.71875,
      "learning_rate": 6.588144117755645e-06,
      "loss": 1.12065287,
      "memory(GiB)": 112.26,
      "step": 33685,
      "train_speed(iter/s)": 1.130592
    },
    {
      "acc": 0.7435442,
      "epoch": 0.8546423135464232,
      "grad_norm": 4.125,
      "learning_rate": 6.5871497619988945e-06,
      "loss": 1.05801058,
      "memory(GiB)": 112.26,
      "step": 33690,
      "train_speed(iter/s)": 1.130622
    },
    {
      "acc": 0.72476549,
      "epoch": 0.8547691527143582,
      "grad_norm": 3.515625,
      "learning_rate": 6.586155336432211e-06,
      "loss": 1.11618176,
      "memory(GiB)": 112.26,
      "step": 33695,
      "train_speed(iter/s)": 1.130654
    },
    {
      "acc": 0.74563408,
      "epoch": 0.8548959918822933,
      "grad_norm": 3.53125,
      "learning_rate": 6.585160841099333e-06,
      "loss": 1.01078739,
      "memory(GiB)": 112.26,
      "step": 33700,
      "train_speed(iter/s)": 1.130678
    },
    {
      "acc": 0.74677405,
      "epoch": 0.8550228310502284,
      "grad_norm": 3.90625,
      "learning_rate": 6.584166276044005e-06,
      "loss": 1.07370701,
      "memory(GiB)": 112.26,
      "step": 33705,
      "train_speed(iter/s)": 1.130697
    },
    {
      "acc": 0.7312099,
      "epoch": 0.8551496702181633,
      "grad_norm": 2.953125,
      "learning_rate": 6.583171641309971e-06,
      "loss": 1.13776703,
      "memory(GiB)": 112.26,
      "step": 33710,
      "train_speed(iter/s)": 1.130722
    },
    {
      "acc": 0.73334804,
      "epoch": 0.8552765093860984,
      "grad_norm": 4.5,
      "learning_rate": 6.58217693694098e-06,
      "loss": 1.11044512,
      "memory(GiB)": 112.26,
      "step": 33715,
      "train_speed(iter/s)": 1.130738
    },
    {
      "acc": 0.73410754,
      "epoch": 0.8554033485540334,
      "grad_norm": 4.71875,
      "learning_rate": 6.581182162980784e-06,
      "loss": 1.063694,
      "memory(GiB)": 112.26,
      "step": 33720,
      "train_speed(iter/s)": 1.130749
    },
    {
      "acc": 0.72745533,
      "epoch": 0.8555301877219685,
      "grad_norm": 3.28125,
      "learning_rate": 6.580187319473137e-06,
      "loss": 1.10969963,
      "memory(GiB)": 112.26,
      "step": 33725,
      "train_speed(iter/s)": 1.130773
    },
    {
      "acc": 0.72138953,
      "epoch": 0.8556570268899036,
      "grad_norm": 3.453125,
      "learning_rate": 6.579192406461796e-06,
      "loss": 1.11745281,
      "memory(GiB)": 112.26,
      "step": 33730,
      "train_speed(iter/s)": 1.130777
    },
    {
      "acc": 0.7319541,
      "epoch": 0.8557838660578386,
      "grad_norm": 4.1875,
      "learning_rate": 6.5781974239905225e-06,
      "loss": 1.13387127,
      "memory(GiB)": 112.26,
      "step": 33735,
      "train_speed(iter/s)": 1.130811
    },
    {
      "acc": 0.72439966,
      "epoch": 0.8559107052257737,
      "grad_norm": 4.53125,
      "learning_rate": 6.57720237210308e-06,
      "loss": 1.09538183,
      "memory(GiB)": 112.26,
      "step": 33740,
      "train_speed(iter/s)": 1.13083
    },
    {
      "acc": 0.73617435,
      "epoch": 0.8560375443937088,
      "grad_norm": 3.984375,
      "learning_rate": 6.576207250843235e-06,
      "loss": 1.04546881,
      "memory(GiB)": 112.26,
      "step": 33745,
      "train_speed(iter/s)": 1.130856
    },
    {
      "acc": 0.74956503,
      "epoch": 0.8561643835616438,
      "grad_norm": 3.265625,
      "learning_rate": 6.575212060254759e-06,
      "loss": 1.05691261,
      "memory(GiB)": 112.26,
      "step": 33750,
      "train_speed(iter/s)": 1.13088
    },
    {
      "acc": 0.73313775,
      "epoch": 0.8562912227295789,
      "grad_norm": 3.671875,
      "learning_rate": 6.574216800381424e-06,
      "loss": 1.11352444,
      "memory(GiB)": 112.26,
      "step": 33755,
      "train_speed(iter/s)": 1.1309
    },
    {
      "acc": 0.73922071,
      "epoch": 0.8564180618975139,
      "grad_norm": 4.0625,
      "learning_rate": 6.573221471267005e-06,
      "loss": 1.05744419,
      "memory(GiB)": 112.26,
      "step": 33760,
      "train_speed(iter/s)": 1.130904
    },
    {
      "acc": 0.73584723,
      "epoch": 0.856544901065449,
      "grad_norm": 3.203125,
      "learning_rate": 6.572226072955281e-06,
      "loss": 1.05879421,
      "memory(GiB)": 112.26,
      "step": 33765,
      "train_speed(iter/s)": 1.130927
    },
    {
      "acc": 0.7487638,
      "epoch": 0.8566717402333841,
      "grad_norm": 4.0625,
      "learning_rate": 6.571230605490036e-06,
      "loss": 1.0061758,
      "memory(GiB)": 112.26,
      "step": 33770,
      "train_speed(iter/s)": 1.130954
    },
    {
      "acc": 0.74949045,
      "epoch": 0.8567985794013191,
      "grad_norm": 3.578125,
      "learning_rate": 6.570235068915053e-06,
      "loss": 1.03992748,
      "memory(GiB)": 112.26,
      "step": 33775,
      "train_speed(iter/s)": 1.130965
    },
    {
      "acc": 0.74235115,
      "epoch": 0.8569254185692542,
      "grad_norm": 3.59375,
      "learning_rate": 6.569239463274122e-06,
      "loss": 1.09684677,
      "memory(GiB)": 112.26,
      "step": 33780,
      "train_speed(iter/s)": 1.13099
    },
    {
      "acc": 0.72384844,
      "epoch": 0.8570522577371893,
      "grad_norm": 3.1875,
      "learning_rate": 6.568243788611033e-06,
      "loss": 1.08239441,
      "memory(GiB)": 112.26,
      "step": 33785,
      "train_speed(iter/s)": 1.131013
    },
    {
      "acc": 0.73804188,
      "epoch": 0.8571790969051243,
      "grad_norm": 3.390625,
      "learning_rate": 6.56724804496958e-06,
      "loss": 1.05697565,
      "memory(GiB)": 112.26,
      "step": 33790,
      "train_speed(iter/s)": 1.131033
    },
    {
      "acc": 0.73710194,
      "epoch": 0.8573059360730594,
      "grad_norm": 3.125,
      "learning_rate": 6.566252232393561e-06,
      "loss": 1.09170732,
      "memory(GiB)": 112.26,
      "step": 33795,
      "train_speed(iter/s)": 1.131057
    },
    {
      "acc": 0.73897343,
      "epoch": 0.8574327752409944,
      "grad_norm": 3.59375,
      "learning_rate": 6.565256350926777e-06,
      "loss": 1.05978727,
      "memory(GiB)": 112.26,
      "step": 33800,
      "train_speed(iter/s)": 1.131065
    },
    {
      "acc": 0.74528666,
      "epoch": 0.8575596144089295,
      "grad_norm": 3.0625,
      "learning_rate": 6.5642604006130286e-06,
      "loss": 1.01709805,
      "memory(GiB)": 112.26,
      "step": 33805,
      "train_speed(iter/s)": 1.1311
    },
    {
      "acc": 0.72656469,
      "epoch": 0.8576864535768646,
      "grad_norm": 3.3125,
      "learning_rate": 6.563264381496124e-06,
      "loss": 1.16879072,
      "memory(GiB)": 112.26,
      "step": 33810,
      "train_speed(iter/s)": 1.13112
    },
    {
      "acc": 0.73258553,
      "epoch": 0.8578132927447996,
      "grad_norm": 6.625,
      "learning_rate": 6.562268293619872e-06,
      "loss": 1.14766541,
      "memory(GiB)": 112.26,
      "step": 33815,
      "train_speed(iter/s)": 1.131151
    },
    {
      "acc": 0.74254389,
      "epoch": 0.8579401319127347,
      "grad_norm": 4.875,
      "learning_rate": 6.561272137028089e-06,
      "loss": 1.08203573,
      "memory(GiB)": 112.26,
      "step": 33820,
      "train_speed(iter/s)": 1.131175
    },
    {
      "acc": 0.72745581,
      "epoch": 0.8580669710806698,
      "grad_norm": 3.59375,
      "learning_rate": 6.560275911764582e-06,
      "loss": 1.06767578,
      "memory(GiB)": 112.26,
      "step": 33825,
      "train_speed(iter/s)": 1.131172
    },
    {
      "acc": 0.74109907,
      "epoch": 0.8581938102486047,
      "grad_norm": 4.65625,
      "learning_rate": 6.5592796178731776e-06,
      "loss": 1.05971661,
      "memory(GiB)": 112.26,
      "step": 33830,
      "train_speed(iter/s)": 1.131202
    },
    {
      "acc": 0.72038889,
      "epoch": 0.8583206494165398,
      "grad_norm": 3.921875,
      "learning_rate": 6.5582832553976924e-06,
      "loss": 1.06478386,
      "memory(GiB)": 112.26,
      "step": 33835,
      "train_speed(iter/s)": 1.131234
    },
    {
      "acc": 0.74135408,
      "epoch": 0.8584474885844748,
      "grad_norm": 3.109375,
      "learning_rate": 6.557286824381955e-06,
      "loss": 1.0742197,
      "memory(GiB)": 112.26,
      "step": 33840,
      "train_speed(iter/s)": 1.131253
    },
    {
      "acc": 0.73558321,
      "epoch": 0.8585743277524099,
      "grad_norm": 4.375,
      "learning_rate": 6.556290324869786e-06,
      "loss": 1.08863058,
      "memory(GiB)": 112.26,
      "step": 33845,
      "train_speed(iter/s)": 1.131281
    },
    {
      "acc": 0.75354624,
      "epoch": 0.858701166920345,
      "grad_norm": 3.484375,
      "learning_rate": 6.555293756905024e-06,
      "loss": 1.05142384,
      "memory(GiB)": 112.26,
      "step": 33850,
      "train_speed(iter/s)": 1.131293
    },
    {
      "acc": 0.74450073,
      "epoch": 0.85882800608828,
      "grad_norm": 3.828125,
      "learning_rate": 6.554297120531497e-06,
      "loss": 1.0004015,
      "memory(GiB)": 112.26,
      "step": 33855,
      "train_speed(iter/s)": 1.131326
    },
    {
      "acc": 0.72807798,
      "epoch": 0.8589548452562151,
      "grad_norm": 3.046875,
      "learning_rate": 6.553300415793042e-06,
      "loss": 1.09521751,
      "memory(GiB)": 112.26,
      "step": 33860,
      "train_speed(iter/s)": 1.13135
    },
    {
      "acc": 0.72931814,
      "epoch": 0.8590816844241502,
      "grad_norm": 3.28125,
      "learning_rate": 6.552303642733502e-06,
      "loss": 1.10062551,
      "memory(GiB)": 112.26,
      "step": 33865,
      "train_speed(iter/s)": 1.131374
    },
    {
      "acc": 0.74075785,
      "epoch": 0.8592085235920852,
      "grad_norm": 3.453125,
      "learning_rate": 6.551306801396715e-06,
      "loss": 1.09377613,
      "memory(GiB)": 112.26,
      "step": 33870,
      "train_speed(iter/s)": 1.131401
    },
    {
      "acc": 0.73837233,
      "epoch": 0.8593353627600203,
      "grad_norm": 3.859375,
      "learning_rate": 6.550309891826531e-06,
      "loss": 1.03823137,
      "memory(GiB)": 112.26,
      "step": 33875,
      "train_speed(iter/s)": 1.131421
    },
    {
      "acc": 0.73821869,
      "epoch": 0.8594622019279553,
      "grad_norm": 3.90625,
      "learning_rate": 6.5493129140667955e-06,
      "loss": 1.02686462,
      "memory(GiB)": 112.26,
      "step": 33880,
      "train_speed(iter/s)": 1.131443
    },
    {
      "acc": 0.73153491,
      "epoch": 0.8595890410958904,
      "grad_norm": 4.21875,
      "learning_rate": 6.54831586816136e-06,
      "loss": 1.09974422,
      "memory(GiB)": 112.26,
      "step": 33885,
      "train_speed(iter/s)": 1.131485
    },
    {
      "acc": 0.74072232,
      "epoch": 0.8597158802638255,
      "grad_norm": 3.515625,
      "learning_rate": 6.54731875415408e-06,
      "loss": 1.07728214,
      "memory(GiB)": 112.26,
      "step": 33890,
      "train_speed(iter/s)": 1.131509
    },
    {
      "acc": 0.74207239,
      "epoch": 0.8598427194317605,
      "grad_norm": 2.984375,
      "learning_rate": 6.546321572088814e-06,
      "loss": 1.06373558,
      "memory(GiB)": 112.26,
      "step": 33895,
      "train_speed(iter/s)": 1.131537
    },
    {
      "acc": 0.73778648,
      "epoch": 0.8599695585996956,
      "grad_norm": 3.453125,
      "learning_rate": 6.545324322009421e-06,
      "loss": 1.10625544,
      "memory(GiB)": 112.26,
      "step": 33900,
      "train_speed(iter/s)": 1.131566
    },
    {
      "acc": 0.7483861,
      "epoch": 0.8600963977676307,
      "grad_norm": 4.03125,
      "learning_rate": 6.544327003959765e-06,
      "loss": 1.0353344,
      "memory(GiB)": 112.26,
      "step": 33905,
      "train_speed(iter/s)": 1.131602
    },
    {
      "acc": 0.74234071,
      "epoch": 0.8602232369355657,
      "grad_norm": 3.703125,
      "learning_rate": 6.543329617983713e-06,
      "loss": 1.06241989,
      "memory(GiB)": 112.26,
      "step": 33910,
      "train_speed(iter/s)": 1.131635
    },
    {
      "acc": 0.74888525,
      "epoch": 0.8603500761035008,
      "grad_norm": 3.8125,
      "learning_rate": 6.5423321641251316e-06,
      "loss": 1.10088625,
      "memory(GiB)": 112.26,
      "step": 33915,
      "train_speed(iter/s)": 1.131661
    },
    {
      "acc": 0.72711077,
      "epoch": 0.8604769152714358,
      "grad_norm": 4.0625,
      "learning_rate": 6.541334642427898e-06,
      "loss": 1.12300625,
      "memory(GiB)": 112.26,
      "step": 33920,
      "train_speed(iter/s)": 1.131696
    },
    {
      "acc": 0.73656106,
      "epoch": 0.8606037544393709,
      "grad_norm": 3.15625,
      "learning_rate": 6.540337052935884e-06,
      "loss": 1.04717379,
      "memory(GiB)": 112.26,
      "step": 33925,
      "train_speed(iter/s)": 1.131727
    },
    {
      "acc": 0.73270659,
      "epoch": 0.860730593607306,
      "grad_norm": 4.0,
      "learning_rate": 6.53933939569297e-06,
      "loss": 1.08768387,
      "memory(GiB)": 112.26,
      "step": 33930,
      "train_speed(iter/s)": 1.131753
    },
    {
      "acc": 0.72952151,
      "epoch": 0.860857432775241,
      "grad_norm": 3.5625,
      "learning_rate": 6.538341670743037e-06,
      "loss": 1.09741554,
      "memory(GiB)": 112.26,
      "step": 33935,
      "train_speed(iter/s)": 1.131771
    },
    {
      "acc": 0.7435605,
      "epoch": 0.8609842719431761,
      "grad_norm": 3.984375,
      "learning_rate": 6.537343878129969e-06,
      "loss": 1.05733185,
      "memory(GiB)": 112.26,
      "step": 33940,
      "train_speed(iter/s)": 1.131792
    },
    {
      "acc": 0.73436499,
      "epoch": 0.8611111111111112,
      "grad_norm": 4.21875,
      "learning_rate": 6.5363460178976524e-06,
      "loss": 1.0882843,
      "memory(GiB)": 112.26,
      "step": 33945,
      "train_speed(iter/s)": 1.13179
    },
    {
      "acc": 0.72426543,
      "epoch": 0.8612379502790461,
      "grad_norm": 3.9375,
      "learning_rate": 6.53534809008998e-06,
      "loss": 1.12421904,
      "memory(GiB)": 112.26,
      "step": 33950,
      "train_speed(iter/s)": 1.131817
    },
    {
      "acc": 0.73361521,
      "epoch": 0.8613647894469812,
      "grad_norm": 3.21875,
      "learning_rate": 6.534350094750843e-06,
      "loss": 1.09438238,
      "memory(GiB)": 112.26,
      "step": 33955,
      "train_speed(iter/s)": 1.131831
    },
    {
      "acc": 0.72845826,
      "epoch": 0.8614916286149162,
      "grad_norm": 3.765625,
      "learning_rate": 6.5333520319241385e-06,
      "loss": 1.1091917,
      "memory(GiB)": 112.26,
      "step": 33960,
      "train_speed(iter/s)": 1.131851
    },
    {
      "acc": 0.72451363,
      "epoch": 0.8616184677828513,
      "grad_norm": 4.375,
      "learning_rate": 6.532353901653765e-06,
      "loss": 1.1429739,
      "memory(GiB)": 112.26,
      "step": 33965,
      "train_speed(iter/s)": 1.131698
    },
    {
      "acc": 0.73114305,
      "epoch": 0.8617453069507864,
      "grad_norm": 3.796875,
      "learning_rate": 6.531355703983627e-06,
      "loss": 1.11308994,
      "memory(GiB)": 112.26,
      "step": 33970,
      "train_speed(iter/s)": 1.131735
    },
    {
      "acc": 0.73327489,
      "epoch": 0.8618721461187214,
      "grad_norm": 3.734375,
      "learning_rate": 6.530357438957626e-06,
      "loss": 1.09639521,
      "memory(GiB)": 112.26,
      "step": 33975,
      "train_speed(iter/s)": 1.13175
    },
    {
      "acc": 0.73990498,
      "epoch": 0.8619989852866565,
      "grad_norm": 4.125,
      "learning_rate": 6.529359106619675e-06,
      "loss": 1.07195396,
      "memory(GiB)": 112.26,
      "step": 33980,
      "train_speed(iter/s)": 1.131587
    },
    {
      "acc": 0.72959452,
      "epoch": 0.8621258244545916,
      "grad_norm": 3.21875,
      "learning_rate": 6.528360707013681e-06,
      "loss": 1.07489672,
      "memory(GiB)": 112.26,
      "step": 33985,
      "train_speed(iter/s)": 1.131582
    },
    {
      "acc": 0.75095181,
      "epoch": 0.8622526636225266,
      "grad_norm": 4.75,
      "learning_rate": 6.52736224018356e-06,
      "loss": 1.10517778,
      "memory(GiB)": 112.26,
      "step": 33990,
      "train_speed(iter/s)": 1.13162
    },
    {
      "acc": 0.73647976,
      "epoch": 0.8623795027904617,
      "grad_norm": 3.34375,
      "learning_rate": 6.526363706173227e-06,
      "loss": 1.11751556,
      "memory(GiB)": 112.26,
      "step": 33995,
      "train_speed(iter/s)": 1.131638
    },
    {
      "acc": 0.75198956,
      "epoch": 0.8625063419583967,
      "grad_norm": 3.5625,
      "learning_rate": 6.525365105026605e-06,
      "loss": 0.96366282,
      "memory(GiB)": 112.26,
      "step": 34000,
      "train_speed(iter/s)": 1.131662
    },
    {
      "epoch": 0.8625063419583967,
      "eval_acc": 0.7249492019538192,
      "eval_loss": 1.04811429977417,
      "eval_runtime": 70.7829,
      "eval_samples_per_second": 89.994,
      "eval_steps_per_second": 22.505,
      "step": 34000
    },
    {
      "acc": 0.75139551,
      "epoch": 0.8626331811263318,
      "grad_norm": 3.703125,
      "learning_rate": 6.524366436787615e-06,
      "loss": 1.00142384,
      "memory(GiB)": 112.26,
      "step": 34005,
      "train_speed(iter/s)": 1.127327
    },
    {
      "acc": 0.73674765,
      "epoch": 0.8627600202942669,
      "grad_norm": 3.40625,
      "learning_rate": 6.523367701500183e-06,
      "loss": 1.08857079,
      "memory(GiB)": 112.26,
      "step": 34010,
      "train_speed(iter/s)": 1.127347
    },
    {
      "acc": 0.73108139,
      "epoch": 0.8628868594622019,
      "grad_norm": 3.203125,
      "learning_rate": 6.5223688992082375e-06,
      "loss": 1.07684956,
      "memory(GiB)": 112.26,
      "step": 34015,
      "train_speed(iter/s)": 1.127372
    },
    {
      "acc": 0.72745953,
      "epoch": 0.863013698630137,
      "grad_norm": 4.09375,
      "learning_rate": 6.521370029955713e-06,
      "loss": 1.12938652,
      "memory(GiB)": 112.26,
      "step": 34020,
      "train_speed(iter/s)": 1.127394
    },
    {
      "acc": 0.723452,
      "epoch": 0.8631405377980721,
      "grad_norm": 3.265625,
      "learning_rate": 6.520371093786541e-06,
      "loss": 1.15143614,
      "memory(GiB)": 112.26,
      "step": 34025,
      "train_speed(iter/s)": 1.127422
    },
    {
      "acc": 0.75383205,
      "epoch": 0.8632673769660071,
      "grad_norm": 4.1875,
      "learning_rate": 6.51937209074466e-06,
      "loss": 1.04088306,
      "memory(GiB)": 112.26,
      "step": 34030,
      "train_speed(iter/s)": 1.127441
    },
    {
      "acc": 0.73968582,
      "epoch": 0.8633942161339422,
      "grad_norm": 3.6875,
      "learning_rate": 6.51837302087401e-06,
      "loss": 1.04653187,
      "memory(GiB)": 112.26,
      "step": 34035,
      "train_speed(iter/s)": 1.127462
    },
    {
      "acc": 0.73400793,
      "epoch": 0.8635210553018772,
      "grad_norm": 4.8125,
      "learning_rate": 6.517373884218539e-06,
      "loss": 1.12821035,
      "memory(GiB)": 112.26,
      "step": 34040,
      "train_speed(iter/s)": 1.127482
    },
    {
      "acc": 0.73014002,
      "epoch": 0.8636478944698123,
      "grad_norm": 4.125,
      "learning_rate": 6.5163746808221865e-06,
      "loss": 1.11560249,
      "memory(GiB)": 112.26,
      "step": 34045,
      "train_speed(iter/s)": 1.12751
    },
    {
      "acc": 0.72928209,
      "epoch": 0.8637747336377474,
      "grad_norm": 3.09375,
      "learning_rate": 6.515375410728907e-06,
      "loss": 1.0802021,
      "memory(GiB)": 112.26,
      "step": 34050,
      "train_speed(iter/s)": 1.127531
    },
    {
      "acc": 0.72928295,
      "epoch": 0.8639015728056824,
      "grad_norm": 2.921875,
      "learning_rate": 6.51437607398265e-06,
      "loss": 1.10515556,
      "memory(GiB)": 112.26,
      "step": 34055,
      "train_speed(iter/s)": 1.127548
    },
    {
      "acc": 0.74731736,
      "epoch": 0.8640284119736175,
      "grad_norm": 4.65625,
      "learning_rate": 6.513376670627374e-06,
      "loss": 1.02157269,
      "memory(GiB)": 112.26,
      "step": 34060,
      "train_speed(iter/s)": 1.127564
    },
    {
      "acc": 0.73433647,
      "epoch": 0.8641552511415526,
      "grad_norm": 4.6875,
      "learning_rate": 6.512377200707033e-06,
      "loss": 1.09443197,
      "memory(GiB)": 112.26,
      "step": 34065,
      "train_speed(iter/s)": 1.127594
    },
    {
      "acc": 0.73694897,
      "epoch": 0.8642820903094875,
      "grad_norm": 4.125,
      "learning_rate": 6.511377664265591e-06,
      "loss": 1.06495991,
      "memory(GiB)": 112.26,
      "step": 34070,
      "train_speed(iter/s)": 1.127603
    },
    {
      "acc": 0.7418623,
      "epoch": 0.8644089294774226,
      "grad_norm": 3.703125,
      "learning_rate": 6.510378061347013e-06,
      "loss": 1.09199209,
      "memory(GiB)": 112.26,
      "step": 34075,
      "train_speed(iter/s)": 1.127622
    },
    {
      "acc": 0.73363571,
      "epoch": 0.8645357686453576,
      "grad_norm": 4.90625,
      "learning_rate": 6.509378391995264e-06,
      "loss": 1.11746454,
      "memory(GiB)": 112.26,
      "step": 34080,
      "train_speed(iter/s)": 1.127648
    },
    {
      "acc": 0.7290853,
      "epoch": 0.8646626078132927,
      "grad_norm": 3.1875,
      "learning_rate": 6.508378656254314e-06,
      "loss": 1.14827566,
      "memory(GiB)": 112.26,
      "step": 34085,
      "train_speed(iter/s)": 1.127666
    },
    {
      "acc": 0.74592619,
      "epoch": 0.8647894469812278,
      "grad_norm": 3.515625,
      "learning_rate": 6.507378854168136e-06,
      "loss": 1.04239674,
      "memory(GiB)": 112.26,
      "step": 34090,
      "train_speed(iter/s)": 1.127672
    },
    {
      "acc": 0.72467184,
      "epoch": 0.8649162861491628,
      "grad_norm": 3.9375,
      "learning_rate": 6.506378985780707e-06,
      "loss": 1.06937971,
      "memory(GiB)": 112.26,
      "step": 34095,
      "train_speed(iter/s)": 1.127691
    },
    {
      "acc": 0.73916073,
      "epoch": 0.8650431253170979,
      "grad_norm": 3.8125,
      "learning_rate": 6.505379051136004e-06,
      "loss": 1.07592754,
      "memory(GiB)": 112.26,
      "step": 34100,
      "train_speed(iter/s)": 1.12773
    },
    {
      "acc": 0.74222636,
      "epoch": 0.865169964485033,
      "grad_norm": 3.53125,
      "learning_rate": 6.504379050278009e-06,
      "loss": 1.04962158,
      "memory(GiB)": 112.26,
      "step": 34105,
      "train_speed(iter/s)": 1.127747
    },
    {
      "acc": 0.7273057,
      "epoch": 0.865296803652968,
      "grad_norm": 3.8125,
      "learning_rate": 6.503378983250707e-06,
      "loss": 1.16718731,
      "memory(GiB)": 112.26,
      "step": 34110,
      "train_speed(iter/s)": 1.127769
    },
    {
      "acc": 0.73841338,
      "epoch": 0.8654236428209031,
      "grad_norm": 4.625,
      "learning_rate": 6.5023788500980855e-06,
      "loss": 1.07251749,
      "memory(GiB)": 112.26,
      "step": 34115,
      "train_speed(iter/s)": 1.127785
    },
    {
      "acc": 0.73224497,
      "epoch": 0.8655504819888381,
      "grad_norm": 3.421875,
      "learning_rate": 6.501378650864135e-06,
      "loss": 1.08076668,
      "memory(GiB)": 112.26,
      "step": 34120,
      "train_speed(iter/s)": 1.127812
    },
    {
      "acc": 0.7347065,
      "epoch": 0.8656773211567732,
      "grad_norm": 3.609375,
      "learning_rate": 6.500378385592847e-06,
      "loss": 1.0910408,
      "memory(GiB)": 112.26,
      "step": 34125,
      "train_speed(iter/s)": 1.127844
    },
    {
      "acc": 0.74001622,
      "epoch": 0.8658041603247083,
      "grad_norm": 4.75,
      "learning_rate": 6.49937805432822e-06,
      "loss": 1.08242035,
      "memory(GiB)": 112.26,
      "step": 34130,
      "train_speed(iter/s)": 1.127865
    },
    {
      "acc": 0.73535333,
      "epoch": 0.8659309994926433,
      "grad_norm": 3.84375,
      "learning_rate": 6.498377657114251e-06,
      "loss": 1.03377552,
      "memory(GiB)": 112.26,
      "step": 34135,
      "train_speed(iter/s)": 1.127886
    },
    {
      "acc": 0.75202179,
      "epoch": 0.8660578386605784,
      "grad_norm": 3.90625,
      "learning_rate": 6.497377193994944e-06,
      "loss": 1.0325037,
      "memory(GiB)": 112.26,
      "step": 34140,
      "train_speed(iter/s)": 1.127913
    },
    {
      "acc": 0.74150777,
      "epoch": 0.8661846778285135,
      "grad_norm": 3.609375,
      "learning_rate": 6.496376665014301e-06,
      "loss": 1.07362204,
      "memory(GiB)": 112.26,
      "step": 34145,
      "train_speed(iter/s)": 1.127936
    },
    {
      "acc": 0.72550917,
      "epoch": 0.8663115169964485,
      "grad_norm": 3.046875,
      "learning_rate": 6.4953760702163325e-06,
      "loss": 1.12443256,
      "memory(GiB)": 112.26,
      "step": 34150,
      "train_speed(iter/s)": 1.12796
    },
    {
      "acc": 0.73722639,
      "epoch": 0.8664383561643836,
      "grad_norm": 3.078125,
      "learning_rate": 6.494375409645049e-06,
      "loss": 1.05388498,
      "memory(GiB)": 112.26,
      "step": 34155,
      "train_speed(iter/s)": 1.127988
    },
    {
      "acc": 0.73508644,
      "epoch": 0.8665651953323186,
      "grad_norm": 3.6875,
      "learning_rate": 6.493374683344462e-06,
      "loss": 1.05095968,
      "memory(GiB)": 112.26,
      "step": 34160,
      "train_speed(iter/s)": 1.127992
    },
    {
      "acc": 0.74606981,
      "epoch": 0.8666920345002537,
      "grad_norm": 4.40625,
      "learning_rate": 6.492373891358589e-06,
      "loss": 1.00721703,
      "memory(GiB)": 112.26,
      "step": 34165,
      "train_speed(iter/s)": 1.128016
    },
    {
      "acc": 0.7353581,
      "epoch": 0.8668188736681888,
      "grad_norm": 4.5625,
      "learning_rate": 6.4913730337314495e-06,
      "loss": 1.08494749,
      "memory(GiB)": 112.26,
      "step": 34170,
      "train_speed(iter/s)": 1.128044
    },
    {
      "acc": 0.7314209,
      "epoch": 0.8669457128361238,
      "grad_norm": 2.96875,
      "learning_rate": 6.490372110507066e-06,
      "loss": 1.10712481,
      "memory(GiB)": 112.26,
      "step": 34175,
      "train_speed(iter/s)": 1.128073
    },
    {
      "acc": 0.74138584,
      "epoch": 0.8670725520040589,
      "grad_norm": 3.53125,
      "learning_rate": 6.489371121729462e-06,
      "loss": 1.04754896,
      "memory(GiB)": 112.26,
      "step": 34180,
      "train_speed(iter/s)": 1.128089
    },
    {
      "acc": 0.73776665,
      "epoch": 0.867199391171994,
      "grad_norm": 4.0625,
      "learning_rate": 6.4883700674426666e-06,
      "loss": 1.03688984,
      "memory(GiB)": 112.26,
      "step": 34185,
      "train_speed(iter/s)": 1.128115
    },
    {
      "acc": 0.73510089,
      "epoch": 0.867326230339929,
      "grad_norm": 3.484375,
      "learning_rate": 6.4873689476907105e-06,
      "loss": 1.06351252,
      "memory(GiB)": 112.26,
      "step": 34190,
      "train_speed(iter/s)": 1.128145
    },
    {
      "acc": 0.73597221,
      "epoch": 0.867453069507864,
      "grad_norm": 4.5,
      "learning_rate": 6.486367762517628e-06,
      "loss": 1.11146259,
      "memory(GiB)": 112.26,
      "step": 34195,
      "train_speed(iter/s)": 1.128164
    },
    {
      "acc": 0.73176165,
      "epoch": 0.867579908675799,
      "grad_norm": 3.46875,
      "learning_rate": 6.4853665119674556e-06,
      "loss": 1.12324076,
      "memory(GiB)": 112.26,
      "step": 34200,
      "train_speed(iter/s)": 1.128177
    },
    {
      "acc": 0.72848463,
      "epoch": 0.8677067478437341,
      "grad_norm": 3.296875,
      "learning_rate": 6.484365196084231e-06,
      "loss": 1.04829063,
      "memory(GiB)": 112.26,
      "step": 34205,
      "train_speed(iter/s)": 1.128191
    },
    {
      "acc": 0.7442441,
      "epoch": 0.8678335870116692,
      "grad_norm": 3.03125,
      "learning_rate": 6.4833638149119985e-06,
      "loss": 1.07474957,
      "memory(GiB)": 112.26,
      "step": 34210,
      "train_speed(iter/s)": 1.128214
    },
    {
      "acc": 0.73750534,
      "epoch": 0.8679604261796042,
      "grad_norm": 4.0625,
      "learning_rate": 6.4823623684948034e-06,
      "loss": 1.11561422,
      "memory(GiB)": 112.26,
      "step": 34215,
      "train_speed(iter/s)": 1.128224
    },
    {
      "acc": 0.74923515,
      "epoch": 0.8680872653475393,
      "grad_norm": 3.78125,
      "learning_rate": 6.4813608568766924e-06,
      "loss": 1.08395538,
      "memory(GiB)": 112.26,
      "step": 34220,
      "train_speed(iter/s)": 1.12825
    },
    {
      "acc": 0.72903142,
      "epoch": 0.8682141045154744,
      "grad_norm": 3.71875,
      "learning_rate": 6.480359280101717e-06,
      "loss": 1.09010849,
      "memory(GiB)": 112.26,
      "step": 34225,
      "train_speed(iter/s)": 1.128283
    },
    {
      "acc": 0.73828306,
      "epoch": 0.8683409436834094,
      "grad_norm": 3.421875,
      "learning_rate": 6.479357638213931e-06,
      "loss": 1.03167334,
      "memory(GiB)": 112.26,
      "step": 34230,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.74693422,
      "epoch": 0.8684677828513445,
      "grad_norm": 4.0,
      "learning_rate": 6.478355931257392e-06,
      "loss": 1.05466261,
      "memory(GiB)": 112.26,
      "step": 34235,
      "train_speed(iter/s)": 1.128326
    },
    {
      "acc": 0.75060124,
      "epoch": 0.8685946220192795,
      "grad_norm": 3.5625,
      "learning_rate": 6.477354159276158e-06,
      "loss": 1.05922747,
      "memory(GiB)": 112.26,
      "step": 34240,
      "train_speed(iter/s)": 1.128357
    },
    {
      "acc": 0.72682128,
      "epoch": 0.8687214611872146,
      "grad_norm": 3.5625,
      "learning_rate": 6.476352322314292e-06,
      "loss": 1.0817091,
      "memory(GiB)": 112.26,
      "step": 34245,
      "train_speed(iter/s)": 1.128376
    },
    {
      "acc": 0.73198109,
      "epoch": 0.8688483003551497,
      "grad_norm": 4.0,
      "learning_rate": 6.47535042041586e-06,
      "loss": 1.11800365,
      "memory(GiB)": 112.26,
      "step": 34250,
      "train_speed(iter/s)": 1.128405
    },
    {
      "acc": 0.70819592,
      "epoch": 0.8689751395230847,
      "grad_norm": 3.46875,
      "learning_rate": 6.474348453624929e-06,
      "loss": 1.1757206,
      "memory(GiB)": 112.26,
      "step": 34255,
      "train_speed(iter/s)": 1.128424
    },
    {
      "acc": 0.73504496,
      "epoch": 0.8691019786910198,
      "grad_norm": 4.375,
      "learning_rate": 6.473346421985571e-06,
      "loss": 1.0883358,
      "memory(GiB)": 112.26,
      "step": 34260,
      "train_speed(iter/s)": 1.128439
    },
    {
      "acc": 0.72753677,
      "epoch": 0.8692288178589549,
      "grad_norm": 4.0,
      "learning_rate": 6.472344325541859e-06,
      "loss": 1.12192307,
      "memory(GiB)": 112.26,
      "step": 34265,
      "train_speed(iter/s)": 1.128468
    },
    {
      "acc": 0.73920102,
      "epoch": 0.8693556570268899,
      "grad_norm": 3.5,
      "learning_rate": 6.4713421643378715e-06,
      "loss": 1.1178896,
      "memory(GiB)": 112.26,
      "step": 34270,
      "train_speed(iter/s)": 1.1285
    },
    {
      "acc": 0.72546759,
      "epoch": 0.869482496194825,
      "grad_norm": 3.59375,
      "learning_rate": 6.470339938417685e-06,
      "loss": 1.05460396,
      "memory(GiB)": 112.26,
      "step": 34275,
      "train_speed(iter/s)": 1.128536
    },
    {
      "acc": 0.75624514,
      "epoch": 0.86960933536276,
      "grad_norm": 3.515625,
      "learning_rate": 6.469337647825384e-06,
      "loss": 1.02996092,
      "memory(GiB)": 112.26,
      "step": 34280,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.7302083,
      "epoch": 0.8697361745306951,
      "grad_norm": 5.53125,
      "learning_rate": 6.468335292605053e-06,
      "loss": 1.07785339,
      "memory(GiB)": 112.26,
      "step": 34285,
      "train_speed(iter/s)": 1.128593
    },
    {
      "acc": 0.74065485,
      "epoch": 0.8698630136986302,
      "grad_norm": 3.734375,
      "learning_rate": 6.467332872800779e-06,
      "loss": 1.02155075,
      "memory(GiB)": 112.26,
      "step": 34290,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.7383832,
      "epoch": 0.8699898528665652,
      "grad_norm": 3.609375,
      "learning_rate": 6.466330388456655e-06,
      "loss": 1.07980909,
      "memory(GiB)": 112.26,
      "step": 34295,
      "train_speed(iter/s)": 1.128645
    },
    {
      "acc": 0.73279238,
      "epoch": 0.8701166920345003,
      "grad_norm": 5.0,
      "learning_rate": 6.465327839616774e-06,
      "loss": 1.10568876,
      "memory(GiB)": 112.26,
      "step": 34300,
      "train_speed(iter/s)": 1.128669
    },
    {
      "acc": 0.74057264,
      "epoch": 0.8702435312024354,
      "grad_norm": 4.09375,
      "learning_rate": 6.464325226325232e-06,
      "loss": 1.05008707,
      "memory(GiB)": 112.26,
      "step": 34305,
      "train_speed(iter/s)": 1.128687
    },
    {
      "acc": 0.72784662,
      "epoch": 0.8703703703703703,
      "grad_norm": 4.5625,
      "learning_rate": 6.46332254862613e-06,
      "loss": 1.13848343,
      "memory(GiB)": 112.26,
      "step": 34310,
      "train_speed(iter/s)": 1.128705
    },
    {
      "acc": 0.73575721,
      "epoch": 0.8704972095383054,
      "grad_norm": 3.03125,
      "learning_rate": 6.462319806563568e-06,
      "loss": 1.066745,
      "memory(GiB)": 112.26,
      "step": 34315,
      "train_speed(iter/s)": 1.128713
    },
    {
      "acc": 0.73615255,
      "epoch": 0.8706240487062404,
      "grad_norm": 3.71875,
      "learning_rate": 6.461317000181653e-06,
      "loss": 1.0491785,
      "memory(GiB)": 112.26,
      "step": 34320,
      "train_speed(iter/s)": 1.128746
    },
    {
      "acc": 0.73544202,
      "epoch": 0.8707508878741755,
      "grad_norm": 4.125,
      "learning_rate": 6.460314129524491e-06,
      "loss": 1.10155172,
      "memory(GiB)": 112.26,
      "step": 34325,
      "train_speed(iter/s)": 1.128775
    },
    {
      "acc": 0.73366685,
      "epoch": 0.8708777270421106,
      "grad_norm": 3.359375,
      "learning_rate": 6.4593111946361945e-06,
      "loss": 1.10501022,
      "memory(GiB)": 112.26,
      "step": 34330,
      "train_speed(iter/s)": 1.128804
    },
    {
      "acc": 0.7219892,
      "epoch": 0.8710045662100456,
      "grad_norm": 3.3125,
      "learning_rate": 6.458308195560874e-06,
      "loss": 1.07273712,
      "memory(GiB)": 112.26,
      "step": 34335,
      "train_speed(iter/s)": 1.128831
    },
    {
      "acc": 0.73504462,
      "epoch": 0.8711314053779807,
      "grad_norm": 4.5625,
      "learning_rate": 6.4573051323426515e-06,
      "loss": 1.13651857,
      "memory(GiB)": 112.26,
      "step": 34340,
      "train_speed(iter/s)": 1.128861
    },
    {
      "acc": 0.73438969,
      "epoch": 0.8712582445459158,
      "grad_norm": 4.15625,
      "learning_rate": 6.456302005025641e-06,
      "loss": 1.12061701,
      "memory(GiB)": 112.26,
      "step": 34345,
      "train_speed(iter/s)": 1.128877
    },
    {
      "acc": 0.72369328,
      "epoch": 0.8713850837138508,
      "grad_norm": 4.1875,
      "learning_rate": 6.4552988136539675e-06,
      "loss": 1.12364225,
      "memory(GiB)": 112.26,
      "step": 34350,
      "train_speed(iter/s)": 1.128891
    },
    {
      "acc": 0.74183693,
      "epoch": 0.8715119228817859,
      "grad_norm": 4.09375,
      "learning_rate": 6.454295558271752e-06,
      "loss": 1.03940392,
      "memory(GiB)": 112.26,
      "step": 34355,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.73922882,
      "epoch": 0.8716387620497209,
      "grad_norm": 3.40625,
      "learning_rate": 6.4532922389231275e-06,
      "loss": 1.03024797,
      "memory(GiB)": 112.26,
      "step": 34360,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.73564243,
      "epoch": 0.871765601217656,
      "grad_norm": 3.6875,
      "learning_rate": 6.452288855652222e-06,
      "loss": 1.06058245,
      "memory(GiB)": 112.26,
      "step": 34365,
      "train_speed(iter/s)": 1.128959
    },
    {
      "acc": 0.74332972,
      "epoch": 0.8718924403855911,
      "grad_norm": 3.21875,
      "learning_rate": 6.451285408503167e-06,
      "loss": 1.03786983,
      "memory(GiB)": 112.26,
      "step": 34370,
      "train_speed(iter/s)": 1.12896
    },
    {
      "acc": 0.72735357,
      "epoch": 0.8720192795535261,
      "grad_norm": 3.640625,
      "learning_rate": 6.450281897520102e-06,
      "loss": 1.10120392,
      "memory(GiB)": 112.26,
      "step": 34375,
      "train_speed(iter/s)": 1.128981
    },
    {
      "acc": 0.74848828,
      "epoch": 0.8721461187214612,
      "grad_norm": 3.375,
      "learning_rate": 6.449278322747164e-06,
      "loss": 1.04995804,
      "memory(GiB)": 112.26,
      "step": 34380,
      "train_speed(iter/s)": 1.128986
    },
    {
      "acc": 0.73960981,
      "epoch": 0.8722729578893963,
      "grad_norm": 3.75,
      "learning_rate": 6.448274684228494e-06,
      "loss": 1.08553925,
      "memory(GiB)": 112.26,
      "step": 34385,
      "train_speed(iter/s)": 1.129013
    },
    {
      "acc": 0.75346675,
      "epoch": 0.8723997970573313,
      "grad_norm": 4.1875,
      "learning_rate": 6.447270982008237e-06,
      "loss": 0.98654137,
      "memory(GiB)": 112.26,
      "step": 34390,
      "train_speed(iter/s)": 1.129032
    },
    {
      "acc": 0.72902899,
      "epoch": 0.8725266362252664,
      "grad_norm": 3.96875,
      "learning_rate": 6.446267216130541e-06,
      "loss": 1.10625458,
      "memory(GiB)": 112.26,
      "step": 34395,
      "train_speed(iter/s)": 1.129061
    },
    {
      "acc": 0.73774939,
      "epoch": 0.8726534753932014,
      "grad_norm": 3.265625,
      "learning_rate": 6.4452633866395555e-06,
      "loss": 1.06779366,
      "memory(GiB)": 112.26,
      "step": 34400,
      "train_speed(iter/s)": 1.129086
    },
    {
      "acc": 0.74025836,
      "epoch": 0.8727803145611365,
      "grad_norm": 3.046875,
      "learning_rate": 6.444259493579433e-06,
      "loss": 1.05241146,
      "memory(GiB)": 112.26,
      "step": 34405,
      "train_speed(iter/s)": 1.129109
    },
    {
      "acc": 0.73736057,
      "epoch": 0.8729071537290716,
      "grad_norm": 3.890625,
      "learning_rate": 6.443255536994331e-06,
      "loss": 1.05838575,
      "memory(GiB)": 112.26,
      "step": 34410,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.74490623,
      "epoch": 0.8730339928970066,
      "grad_norm": 3.703125,
      "learning_rate": 6.442251516928406e-06,
      "loss": 1.07480526,
      "memory(GiB)": 112.26,
      "step": 34415,
      "train_speed(iter/s)": 1.129169
    },
    {
      "acc": 0.74863267,
      "epoch": 0.8731608320649417,
      "grad_norm": 3.0625,
      "learning_rate": 6.441247433425821e-06,
      "loss": 1.01045818,
      "memory(GiB)": 112.26,
      "step": 34420,
      "train_speed(iter/s)": 1.129189
    },
    {
      "acc": 0.72944965,
      "epoch": 0.8732876712328768,
      "grad_norm": 3.75,
      "learning_rate": 6.4402432865307384e-06,
      "loss": 1.10802975,
      "memory(GiB)": 112.26,
      "step": 34425,
      "train_speed(iter/s)": 1.129223
    },
    {
      "acc": 0.73141313,
      "epoch": 0.8734145104008117,
      "grad_norm": 3.546875,
      "learning_rate": 6.439239076287327e-06,
      "loss": 1.11162987,
      "memory(GiB)": 112.26,
      "step": 34430,
      "train_speed(iter/s)": 1.129246
    },
    {
      "acc": 0.73474865,
      "epoch": 0.8735413495687468,
      "grad_norm": 3.984375,
      "learning_rate": 6.438234802739753e-06,
      "loss": 1.07495146,
      "memory(GiB)": 112.26,
      "step": 34435,
      "train_speed(iter/s)": 1.129272
    },
    {
      "acc": 0.74202943,
      "epoch": 0.8736681887366818,
      "grad_norm": 4.03125,
      "learning_rate": 6.4372304659321935e-06,
      "loss": 1.08633623,
      "memory(GiB)": 112.26,
      "step": 34440,
      "train_speed(iter/s)": 1.129263
    },
    {
      "acc": 0.73963995,
      "epoch": 0.8737950279046169,
      "grad_norm": 3.5,
      "learning_rate": 6.43622606590882e-06,
      "loss": 1.06729546,
      "memory(GiB)": 112.26,
      "step": 34445,
      "train_speed(iter/s)": 1.129294
    },
    {
      "acc": 0.7275918,
      "epoch": 0.873921867072552,
      "grad_norm": 3.59375,
      "learning_rate": 6.4352216027138125e-06,
      "loss": 1.03581657,
      "memory(GiB)": 112.26,
      "step": 34450,
      "train_speed(iter/s)": 1.129286
    },
    {
      "acc": 0.72742181,
      "epoch": 0.874048706240487,
      "grad_norm": 4.15625,
      "learning_rate": 6.434217076391351e-06,
      "loss": 1.09833946,
      "memory(GiB)": 112.26,
      "step": 34455,
      "train_speed(iter/s)": 1.129317
    },
    {
      "acc": 0.73583035,
      "epoch": 0.8741755454084221,
      "grad_norm": 3.625,
      "learning_rate": 6.433212486985618e-06,
      "loss": 1.06571932,
      "memory(GiB)": 112.26,
      "step": 34460,
      "train_speed(iter/s)": 1.12935
    },
    {
      "acc": 0.73861637,
      "epoch": 0.8743023845763572,
      "grad_norm": 3.21875,
      "learning_rate": 6.432207834540802e-06,
      "loss": 1.08602161,
      "memory(GiB)": 112.26,
      "step": 34465,
      "train_speed(iter/s)": 1.129365
    },
    {
      "acc": 0.74087415,
      "epoch": 0.8744292237442922,
      "grad_norm": 3.09375,
      "learning_rate": 6.431203119101093e-06,
      "loss": 1.05098171,
      "memory(GiB)": 112.26,
      "step": 34470,
      "train_speed(iter/s)": 1.12937
    },
    {
      "acc": 0.72746744,
      "epoch": 0.8745560629122273,
      "grad_norm": 3.890625,
      "learning_rate": 6.430198340710677e-06,
      "loss": 1.07288303,
      "memory(GiB)": 112.26,
      "step": 34475,
      "train_speed(iter/s)": 1.129408
    },
    {
      "acc": 0.74997487,
      "epoch": 0.8746829020801623,
      "grad_norm": 3.984375,
      "learning_rate": 6.4291934994137566e-06,
      "loss": 1.04367075,
      "memory(GiB)": 112.26,
      "step": 34480,
      "train_speed(iter/s)": 1.129425
    },
    {
      "acc": 0.74194641,
      "epoch": 0.8748097412480974,
      "grad_norm": 4.28125,
      "learning_rate": 6.428188595254521e-06,
      "loss": 1.06785431,
      "memory(GiB)": 112.26,
      "step": 34485,
      "train_speed(iter/s)": 1.12944
    },
    {
      "acc": 0.74349594,
      "epoch": 0.8749365804160325,
      "grad_norm": 4.65625,
      "learning_rate": 6.427183628277178e-06,
      "loss": 1.07824078,
      "memory(GiB)": 112.26,
      "step": 34490,
      "train_speed(iter/s)": 1.129454
    },
    {
      "acc": 0.73661146,
      "epoch": 0.8750634195839675,
      "grad_norm": 3.328125,
      "learning_rate": 6.426178598525925e-06,
      "loss": 1.10303965,
      "memory(GiB)": 112.26,
      "step": 34495,
      "train_speed(iter/s)": 1.129479
    },
    {
      "acc": 0.7340744,
      "epoch": 0.8751902587519026,
      "grad_norm": 3.125,
      "learning_rate": 6.4251735060449725e-06,
      "loss": 1.12896938,
      "memory(GiB)": 112.26,
      "step": 34500,
      "train_speed(iter/s)": 1.129506
    },
    {
      "acc": 0.7256916,
      "epoch": 0.8753170979198377,
      "grad_norm": 3.546875,
      "learning_rate": 6.424168350878524e-06,
      "loss": 1.0892766,
      "memory(GiB)": 112.26,
      "step": 34505,
      "train_speed(iter/s)": 1.129529
    },
    {
      "acc": 0.7488306,
      "epoch": 0.8754439370877727,
      "grad_norm": 4.40625,
      "learning_rate": 6.423163133070792e-06,
      "loss": 1.02407093,
      "memory(GiB)": 112.26,
      "step": 34510,
      "train_speed(iter/s)": 1.129538
    },
    {
      "acc": 0.74132681,
      "epoch": 0.8755707762557078,
      "grad_norm": 3.921875,
      "learning_rate": 6.422157852665993e-06,
      "loss": 1.14568729,
      "memory(GiB)": 112.26,
      "step": 34515,
      "train_speed(iter/s)": 1.129561
    },
    {
      "acc": 0.740241,
      "epoch": 0.8756976154236428,
      "grad_norm": 3.5625,
      "learning_rate": 6.421152509708342e-06,
      "loss": 1.00526314,
      "memory(GiB)": 112.26,
      "step": 34520,
      "train_speed(iter/s)": 1.129584
    },
    {
      "acc": 0.73980131,
      "epoch": 0.8758244545915779,
      "grad_norm": 4.3125,
      "learning_rate": 6.4201471042420595e-06,
      "loss": 1.04657116,
      "memory(GiB)": 112.26,
      "step": 34525,
      "train_speed(iter/s)": 1.129618
    },
    {
      "acc": 0.73406925,
      "epoch": 0.875951293759513,
      "grad_norm": 3.390625,
      "learning_rate": 6.419141636311366e-06,
      "loss": 1.04616318,
      "memory(GiB)": 112.26,
      "step": 34530,
      "train_speed(iter/s)": 1.12964
    },
    {
      "acc": 0.73858743,
      "epoch": 0.876078132927448,
      "grad_norm": 3.828125,
      "learning_rate": 6.4181361059604875e-06,
      "loss": 1.07640829,
      "memory(GiB)": 112.26,
      "step": 34535,
      "train_speed(iter/s)": 1.129653
    },
    {
      "acc": 0.72619066,
      "epoch": 0.8762049720953831,
      "grad_norm": 3.375,
      "learning_rate": 6.4171305132336515e-06,
      "loss": 1.0963686,
      "memory(GiB)": 112.26,
      "step": 34540,
      "train_speed(iter/s)": 1.129681
    },
    {
      "acc": 0.72481456,
      "epoch": 0.8763318112633182,
      "grad_norm": 3.15625,
      "learning_rate": 6.416124858175088e-06,
      "loss": 1.0671854,
      "memory(GiB)": 112.26,
      "step": 34545,
      "train_speed(iter/s)": 1.129704
    },
    {
      "acc": 0.73285522,
      "epoch": 0.8764586504312532,
      "grad_norm": 3.796875,
      "learning_rate": 6.415119140829031e-06,
      "loss": 1.16249628,
      "memory(GiB)": 112.26,
      "step": 34550,
      "train_speed(iter/s)": 1.129737
    },
    {
      "acc": 0.73283758,
      "epoch": 0.8765854895991883,
      "grad_norm": 3.484375,
      "learning_rate": 6.414113361239715e-06,
      "loss": 1.05978813,
      "memory(GiB)": 112.26,
      "step": 34555,
      "train_speed(iter/s)": 1.129764
    },
    {
      "acc": 0.75001774,
      "epoch": 0.8767123287671232,
      "grad_norm": 3.421875,
      "learning_rate": 6.4131075194513825e-06,
      "loss": 0.98823681,
      "memory(GiB)": 112.26,
      "step": 34560,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.75089431,
      "epoch": 0.8768391679350583,
      "grad_norm": 3.234375,
      "learning_rate": 6.41210161550827e-06,
      "loss": 0.92641468,
      "memory(GiB)": 112.26,
      "step": 34565,
      "train_speed(iter/s)": 1.12981
    },
    {
      "acc": 0.7330121,
      "epoch": 0.8769660071029934,
      "grad_norm": 3.203125,
      "learning_rate": 6.411095649454626e-06,
      "loss": 1.07540693,
      "memory(GiB)": 112.26,
      "step": 34570,
      "train_speed(iter/s)": 1.129836
    },
    {
      "acc": 0.72819595,
      "epoch": 0.8770928462709284,
      "grad_norm": 3.984375,
      "learning_rate": 6.410089621334693e-06,
      "loss": 1.11419401,
      "memory(GiB)": 112.26,
      "step": 34575,
      "train_speed(iter/s)": 1.129868
    },
    {
      "acc": 0.73545966,
      "epoch": 0.8772196854388635,
      "grad_norm": 3.359375,
      "learning_rate": 6.4090835311927236e-06,
      "loss": 1.02763338,
      "memory(GiB)": 112.26,
      "step": 34580,
      "train_speed(iter/s)": 1.129874
    },
    {
      "acc": 0.75162678,
      "epoch": 0.8773465246067986,
      "grad_norm": 3.421875,
      "learning_rate": 6.40807737907297e-06,
      "loss": 1.07634678,
      "memory(GiB)": 112.26,
      "step": 34585,
      "train_speed(iter/s)": 1.129889
    },
    {
      "acc": 0.72967129,
      "epoch": 0.8774733637747336,
      "grad_norm": 4.5625,
      "learning_rate": 6.407071165019686e-06,
      "loss": 1.10294418,
      "memory(GiB)": 112.26,
      "step": 34590,
      "train_speed(iter/s)": 1.129895
    },
    {
      "acc": 0.74964862,
      "epoch": 0.8776002029426687,
      "grad_norm": 3.34375,
      "learning_rate": 6.40606488907713e-06,
      "loss": 1.04658175,
      "memory(GiB)": 112.26,
      "step": 34595,
      "train_speed(iter/s)": 1.129919
    },
    {
      "acc": 0.72456813,
      "epoch": 0.8777270421106037,
      "grad_norm": 3.296875,
      "learning_rate": 6.4050585512895624e-06,
      "loss": 1.10773354,
      "memory(GiB)": 112.26,
      "step": 34600,
      "train_speed(iter/s)": 1.129942
    },
    {
      "acc": 0.74388809,
      "epoch": 0.8778538812785388,
      "grad_norm": 3.40625,
      "learning_rate": 6.4040521517012475e-06,
      "loss": 1.01640368,
      "memory(GiB)": 112.26,
      "step": 34605,
      "train_speed(iter/s)": 1.129966
    },
    {
      "acc": 0.7258049,
      "epoch": 0.8779807204464739,
      "grad_norm": 4.25,
      "learning_rate": 6.40304569035645e-06,
      "loss": 1.10606136,
      "memory(GiB)": 112.26,
      "step": 34610,
      "train_speed(iter/s)": 1.129978
    },
    {
      "acc": 0.73342576,
      "epoch": 0.8781075596144089,
      "grad_norm": 3.546875,
      "learning_rate": 6.402039167299439e-06,
      "loss": 1.09209976,
      "memory(GiB)": 112.26,
      "step": 34615,
      "train_speed(iter/s)": 1.130004
    },
    {
      "acc": 0.72477074,
      "epoch": 0.878234398782344,
      "grad_norm": 3.640625,
      "learning_rate": 6.401032582574485e-06,
      "loss": 1.11865158,
      "memory(GiB)": 112.26,
      "step": 34620,
      "train_speed(iter/s)": 1.130016
    },
    {
      "acc": 0.73310232,
      "epoch": 0.8783612379502791,
      "grad_norm": 4.15625,
      "learning_rate": 6.400025936225862e-06,
      "loss": 1.07244654,
      "memory(GiB)": 112.26,
      "step": 34625,
      "train_speed(iter/s)": 1.130029
    },
    {
      "acc": 0.72267604,
      "epoch": 0.8784880771182141,
      "grad_norm": 3.359375,
      "learning_rate": 6.399019228297851e-06,
      "loss": 1.12952862,
      "memory(GiB)": 112.26,
      "step": 34630,
      "train_speed(iter/s)": 1.130048
    },
    {
      "acc": 0.74418373,
      "epoch": 0.8786149162861492,
      "grad_norm": 4.875,
      "learning_rate": 6.398012458834724e-06,
      "loss": 1.03604393,
      "memory(GiB)": 112.26,
      "step": 34635,
      "train_speed(iter/s)": 1.130065
    },
    {
      "acc": 0.72932334,
      "epoch": 0.8787417554540842,
      "grad_norm": 3.375,
      "learning_rate": 6.397005627880771e-06,
      "loss": 1.05544128,
      "memory(GiB)": 112.26,
      "step": 34640,
      "train_speed(iter/s)": 1.130079
    },
    {
      "acc": 0.73430462,
      "epoch": 0.8788685946220193,
      "grad_norm": 4.28125,
      "learning_rate": 6.395998735480271e-06,
      "loss": 1.1129364,
      "memory(GiB)": 112.26,
      "step": 34645,
      "train_speed(iter/s)": 1.130114
    },
    {
      "acc": 0.73173542,
      "epoch": 0.8789954337899544,
      "grad_norm": 3.25,
      "learning_rate": 6.394991781677516e-06,
      "loss": 1.03948441,
      "memory(GiB)": 112.26,
      "step": 34650,
      "train_speed(iter/s)": 1.129948
    },
    {
      "acc": 0.72673264,
      "epoch": 0.8791222729578894,
      "grad_norm": 3.609375,
      "learning_rate": 6.393984766516792e-06,
      "loss": 1.10250635,
      "memory(GiB)": 112.26,
      "step": 34655,
      "train_speed(iter/s)": 1.129957
    },
    {
      "acc": 0.72260661,
      "epoch": 0.8792491121258245,
      "grad_norm": 3.703125,
      "learning_rate": 6.392977690042395e-06,
      "loss": 1.18913078,
      "memory(GiB)": 112.26,
      "step": 34660,
      "train_speed(iter/s)": 1.129992
    },
    {
      "acc": 0.74016252,
      "epoch": 0.8793759512937596,
      "grad_norm": 4.40625,
      "learning_rate": 6.3919705522986205e-06,
      "loss": 1.06414185,
      "memory(GiB)": 112.26,
      "step": 34665,
      "train_speed(iter/s)": 1.130015
    },
    {
      "acc": 0.7556973,
      "epoch": 0.8795027904616946,
      "grad_norm": 3.453125,
      "learning_rate": 6.390963353329767e-06,
      "loss": 1.02836761,
      "memory(GiB)": 112.26,
      "step": 34670,
      "train_speed(iter/s)": 1.130032
    },
    {
      "acc": 0.71864743,
      "epoch": 0.8796296296296297,
      "grad_norm": 3.28125,
      "learning_rate": 6.389956093180134e-06,
      "loss": 1.12850933,
      "memory(GiB)": 112.26,
      "step": 34675,
      "train_speed(iter/s)": 1.130056
    },
    {
      "acc": 0.75184698,
      "epoch": 0.8797564687975646,
      "grad_norm": 3.40625,
      "learning_rate": 6.388948771894025e-06,
      "loss": 1.04275255,
      "memory(GiB)": 112.26,
      "step": 34680,
      "train_speed(iter/s)": 1.130088
    },
    {
      "acc": 0.74692478,
      "epoch": 0.8798833079654997,
      "grad_norm": 3.453125,
      "learning_rate": 6.38794138951575e-06,
      "loss": 1.06509323,
      "memory(GiB)": 112.26,
      "step": 34685,
      "train_speed(iter/s)": 1.13011
    },
    {
      "acc": 0.74983654,
      "epoch": 0.8800101471334348,
      "grad_norm": 3.75,
      "learning_rate": 6.386933946089615e-06,
      "loss": 1.07485237,
      "memory(GiB)": 112.26,
      "step": 34690,
      "train_speed(iter/s)": 1.13012
    },
    {
      "acc": 0.74326992,
      "epoch": 0.8801369863013698,
      "grad_norm": 3.921875,
      "learning_rate": 6.385926441659933e-06,
      "loss": 1.08343849,
      "memory(GiB)": 112.26,
      "step": 34695,
      "train_speed(iter/s)": 1.130155
    },
    {
      "acc": 0.72687874,
      "epoch": 0.8802638254693049,
      "grad_norm": 4.28125,
      "learning_rate": 6.38491887627102e-06,
      "loss": 1.11118116,
      "memory(GiB)": 112.26,
      "step": 34700,
      "train_speed(iter/s)": 1.130153
    },
    {
      "acc": 0.7388175,
      "epoch": 0.88039066463724,
      "grad_norm": 4.375,
      "learning_rate": 6.383911249967188e-06,
      "loss": 1.07962437,
      "memory(GiB)": 112.26,
      "step": 34705,
      "train_speed(iter/s)": 1.130158
    },
    {
      "acc": 0.72917323,
      "epoch": 0.880517503805175,
      "grad_norm": 3.4375,
      "learning_rate": 6.382903562792764e-06,
      "loss": 1.10045605,
      "memory(GiB)": 112.26,
      "step": 34710,
      "train_speed(iter/s)": 1.130181
    },
    {
      "acc": 0.72765818,
      "epoch": 0.8806443429731101,
      "grad_norm": 4.15625,
      "learning_rate": 6.381895814792065e-06,
      "loss": 1.12633944,
      "memory(GiB)": 112.26,
      "step": 34715,
      "train_speed(iter/s)": 1.130185
    },
    {
      "acc": 0.73868351,
      "epoch": 0.8807711821410451,
      "grad_norm": 3.546875,
      "learning_rate": 6.38088800600942e-06,
      "loss": 1.05490265,
      "memory(GiB)": 112.26,
      "step": 34720,
      "train_speed(iter/s)": 1.130212
    },
    {
      "acc": 0.74189339,
      "epoch": 0.8808980213089802,
      "grad_norm": 3.640625,
      "learning_rate": 6.3798801364891535e-06,
      "loss": 1.09726086,
      "memory(GiB)": 112.26,
      "step": 34725,
      "train_speed(iter/s)": 1.130243
    },
    {
      "acc": 0.7274395,
      "epoch": 0.8810248604769153,
      "grad_norm": 3.953125,
      "learning_rate": 6.378872206275599e-06,
      "loss": 1.06938648,
      "memory(GiB)": 112.26,
      "step": 34730,
      "train_speed(iter/s)": 1.130273
    },
    {
      "acc": 0.74247351,
      "epoch": 0.8811516996448503,
      "grad_norm": 3.65625,
      "learning_rate": 6.377864215413088e-06,
      "loss": 1.03366623,
      "memory(GiB)": 112.26,
      "step": 34735,
      "train_speed(iter/s)": 1.130291
    },
    {
      "acc": 0.73956509,
      "epoch": 0.8812785388127854,
      "grad_norm": 4.125,
      "learning_rate": 6.376856163945957e-06,
      "loss": 1.09933672,
      "memory(GiB)": 112.26,
      "step": 34740,
      "train_speed(iter/s)": 1.130303
    },
    {
      "acc": 0.7371686,
      "epoch": 0.8814053779807205,
      "grad_norm": 4.15625,
      "learning_rate": 6.375848051918546e-06,
      "loss": 1.07933407,
      "memory(GiB)": 112.26,
      "step": 34745,
      "train_speed(iter/s)": 1.130311
    },
    {
      "acc": 0.73748274,
      "epoch": 0.8815322171486555,
      "grad_norm": 3.59375,
      "learning_rate": 6.374839879375194e-06,
      "loss": 1.03819485,
      "memory(GiB)": 112.26,
      "step": 34750,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.72762012,
      "epoch": 0.8816590563165906,
      "grad_norm": 3.578125,
      "learning_rate": 6.373831646360245e-06,
      "loss": 1.05921431,
      "memory(GiB)": 112.26,
      "step": 34755,
      "train_speed(iter/s)": 1.130339
    },
    {
      "acc": 0.73336325,
      "epoch": 0.8817858954845256,
      "grad_norm": 3.5,
      "learning_rate": 6.372823352918048e-06,
      "loss": 1.07848082,
      "memory(GiB)": 112.26,
      "step": 34760,
      "train_speed(iter/s)": 1.130365
    },
    {
      "acc": 0.73338881,
      "epoch": 0.8819127346524607,
      "grad_norm": 3.375,
      "learning_rate": 6.371814999092951e-06,
      "loss": 1.06377239,
      "memory(GiB)": 112.26,
      "step": 34765,
      "train_speed(iter/s)": 1.130378
    },
    {
      "acc": 0.73257008,
      "epoch": 0.8820395738203958,
      "grad_norm": 3.453125,
      "learning_rate": 6.370806584929305e-06,
      "loss": 1.13182831,
      "memory(GiB)": 112.26,
      "step": 34770,
      "train_speed(iter/s)": 1.130407
    },
    {
      "acc": 0.73217978,
      "epoch": 0.8821664129883308,
      "grad_norm": 3.046875,
      "learning_rate": 6.369798110471463e-06,
      "loss": 1.08509998,
      "memory(GiB)": 112.26,
      "step": 34775,
      "train_speed(iter/s)": 1.130432
    },
    {
      "acc": 0.74552402,
      "epoch": 0.8822932521562659,
      "grad_norm": 4.0625,
      "learning_rate": 6.368789575763787e-06,
      "loss": 1.01866999,
      "memory(GiB)": 112.26,
      "step": 34780,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.73369713,
      "epoch": 0.882420091324201,
      "grad_norm": 4.125,
      "learning_rate": 6.367780980850633e-06,
      "loss": 1.05157909,
      "memory(GiB)": 112.26,
      "step": 34785,
      "train_speed(iter/s)": 1.130462
    },
    {
      "acc": 0.73863268,
      "epoch": 0.882546930492136,
      "grad_norm": 4.1875,
      "learning_rate": 6.366772325776367e-06,
      "loss": 1.10201721,
      "memory(GiB)": 112.26,
      "step": 34790,
      "train_speed(iter/s)": 1.130482
    },
    {
      "acc": 0.73726778,
      "epoch": 0.882673769660071,
      "grad_norm": 4.125,
      "learning_rate": 6.365763610585349e-06,
      "loss": 1.04341202,
      "memory(GiB)": 112.26,
      "step": 34795,
      "train_speed(iter/s)": 1.130503
    },
    {
      "acc": 0.74602442,
      "epoch": 0.882800608828006,
      "grad_norm": 4.15625,
      "learning_rate": 6.3647548353219515e-06,
      "loss": 1.07152634,
      "memory(GiB)": 112.26,
      "step": 34800,
      "train_speed(iter/s)": 1.130504
    },
    {
      "acc": 0.74748392,
      "epoch": 0.8829274479959411,
      "grad_norm": 4.21875,
      "learning_rate": 6.363746000030543e-06,
      "loss": 1.08035202,
      "memory(GiB)": 112.26,
      "step": 34805,
      "train_speed(iter/s)": 1.130513
    },
    {
      "acc": 0.73863058,
      "epoch": 0.8830542871638762,
      "grad_norm": 4.28125,
      "learning_rate": 6.362737104755497e-06,
      "loss": 1.08188038,
      "memory(GiB)": 112.26,
      "step": 34810,
      "train_speed(iter/s)": 1.13054
    },
    {
      "acc": 0.74133043,
      "epoch": 0.8831811263318112,
      "grad_norm": 4.3125,
      "learning_rate": 6.361728149541188e-06,
      "loss": 1.08296661,
      "memory(GiB)": 112.26,
      "step": 34815,
      "train_speed(iter/s)": 1.130556
    },
    {
      "acc": 0.73760033,
      "epoch": 0.8833079654997463,
      "grad_norm": 3.4375,
      "learning_rate": 6.360719134431995e-06,
      "loss": 1.09273691,
      "memory(GiB)": 112.26,
      "step": 34820,
      "train_speed(iter/s)": 1.13058
    },
    {
      "acc": 0.74618835,
      "epoch": 0.8834348046676814,
      "grad_norm": 4.9375,
      "learning_rate": 6.359710059472299e-06,
      "loss": 1.06953392,
      "memory(GiB)": 112.26,
      "step": 34825,
      "train_speed(iter/s)": 1.130594
    },
    {
      "acc": 0.73873253,
      "epoch": 0.8835616438356164,
      "grad_norm": 3.859375,
      "learning_rate": 6.358700924706486e-06,
      "loss": 1.07634487,
      "memory(GiB)": 112.26,
      "step": 34830,
      "train_speed(iter/s)": 1.130611
    },
    {
      "acc": 0.73918161,
      "epoch": 0.8836884830035515,
      "grad_norm": 4.125,
      "learning_rate": 6.357691730178939e-06,
      "loss": 1.0924902,
      "memory(GiB)": 112.26,
      "step": 34835,
      "train_speed(iter/s)": 1.130643
    },
    {
      "acc": 0.72876873,
      "epoch": 0.8838153221714865,
      "grad_norm": 3.421875,
      "learning_rate": 6.356682475934048e-06,
      "loss": 1.13194933,
      "memory(GiB)": 112.26,
      "step": 34840,
      "train_speed(iter/s)": 1.130668
    },
    {
      "acc": 0.7338275,
      "epoch": 0.8839421613394216,
      "grad_norm": 4.125,
      "learning_rate": 6.3556731620162036e-06,
      "loss": 1.06716948,
      "memory(GiB)": 112.26,
      "step": 34845,
      "train_speed(iter/s)": 1.130696
    },
    {
      "acc": 0.74764352,
      "epoch": 0.8840690005073567,
      "grad_norm": 4.71875,
      "learning_rate": 6.354663788469803e-06,
      "loss": 1.04603386,
      "memory(GiB)": 112.26,
      "step": 34850,
      "train_speed(iter/s)": 1.13071
    },
    {
      "acc": 0.73211479,
      "epoch": 0.8841958396752917,
      "grad_norm": 4.1875,
      "learning_rate": 6.353654355339238e-06,
      "loss": 1.11806145,
      "memory(GiB)": 112.26,
      "step": 34855,
      "train_speed(iter/s)": 1.130735
    },
    {
      "acc": 0.7442894,
      "epoch": 0.8843226788432268,
      "grad_norm": 3.765625,
      "learning_rate": 6.352644862668914e-06,
      "loss": 1.05252628,
      "memory(GiB)": 112.26,
      "step": 34860,
      "train_speed(iter/s)": 1.130756
    },
    {
      "acc": 0.74849243,
      "epoch": 0.8844495180111619,
      "grad_norm": 3.640625,
      "learning_rate": 6.351635310503228e-06,
      "loss": 1.04483833,
      "memory(GiB)": 112.26,
      "step": 34865,
      "train_speed(iter/s)": 1.13078
    },
    {
      "acc": 0.74042873,
      "epoch": 0.8845763571790969,
      "grad_norm": 4.40625,
      "learning_rate": 6.3506256988865865e-06,
      "loss": 1.06398478,
      "memory(GiB)": 112.26,
      "step": 34870,
      "train_speed(iter/s)": 1.130807
    },
    {
      "acc": 0.75690947,
      "epoch": 0.884703196347032,
      "grad_norm": 3.296875,
      "learning_rate": 6.349616027863397e-06,
      "loss": 0.96745186,
      "memory(GiB)": 112.26,
      "step": 34875,
      "train_speed(iter/s)": 1.130818
    },
    {
      "acc": 0.72949219,
      "epoch": 0.884830035514967,
      "grad_norm": 3.390625,
      "learning_rate": 6.34860629747807e-06,
      "loss": 1.09214754,
      "memory(GiB)": 112.26,
      "step": 34880,
      "train_speed(iter/s)": 1.130845
    },
    {
      "acc": 0.72618179,
      "epoch": 0.8849568746829021,
      "grad_norm": 5.34375,
      "learning_rate": 6.347596507775016e-06,
      "loss": 1.09143476,
      "memory(GiB)": 112.26,
      "step": 34885,
      "train_speed(iter/s)": 1.130868
    },
    {
      "acc": 0.74423256,
      "epoch": 0.8850837138508372,
      "grad_norm": 3.3125,
      "learning_rate": 6.3465866587986505e-06,
      "loss": 1.00867062,
      "memory(GiB)": 112.26,
      "step": 34890,
      "train_speed(iter/s)": 1.130871
    },
    {
      "acc": 0.75160255,
      "epoch": 0.8852105530187722,
      "grad_norm": 3.390625,
      "learning_rate": 6.345576750593392e-06,
      "loss": 1.03588562,
      "memory(GiB)": 112.26,
      "step": 34895,
      "train_speed(iter/s)": 1.130879
    },
    {
      "acc": 0.72245674,
      "epoch": 0.8853373921867073,
      "grad_norm": 4.5,
      "learning_rate": 6.34456678320366e-06,
      "loss": 1.14776764,
      "memory(GiB)": 112.26,
      "step": 34900,
      "train_speed(iter/s)": 1.130911
    },
    {
      "acc": 0.72802067,
      "epoch": 0.8854642313546424,
      "grad_norm": 3.34375,
      "learning_rate": 6.343556756673879e-06,
      "loss": 1.12678223,
      "memory(GiB)": 112.26,
      "step": 34905,
      "train_speed(iter/s)": 1.130913
    },
    {
      "acc": 0.73876848,
      "epoch": 0.8855910705225774,
      "grad_norm": 3.125,
      "learning_rate": 6.3425466710484726e-06,
      "loss": 1.0644206,
      "memory(GiB)": 112.26,
      "step": 34910,
      "train_speed(iter/s)": 1.130949
    },
    {
      "acc": 0.73241796,
      "epoch": 0.8857179096905125,
      "grad_norm": 3.734375,
      "learning_rate": 6.3415365263718686e-06,
      "loss": 1.11306343,
      "memory(GiB)": 112.26,
      "step": 34915,
      "train_speed(iter/s)": 1.130954
    },
    {
      "acc": 0.73425775,
      "epoch": 0.8858447488584474,
      "grad_norm": 3.40625,
      "learning_rate": 6.340526322688501e-06,
      "loss": 1.05674047,
      "memory(GiB)": 112.26,
      "step": 34920,
      "train_speed(iter/s)": 1.130969
    },
    {
      "acc": 0.74173646,
      "epoch": 0.8859715880263825,
      "grad_norm": 4.09375,
      "learning_rate": 6.339516060042798e-06,
      "loss": 1.09608593,
      "memory(GiB)": 112.26,
      "step": 34925,
      "train_speed(iter/s)": 1.130989
    },
    {
      "acc": 0.72357483,
      "epoch": 0.8860984271943176,
      "grad_norm": 3.90625,
      "learning_rate": 6.3385057384792e-06,
      "loss": 1.11431179,
      "memory(GiB)": 112.26,
      "step": 34930,
      "train_speed(iter/s)": 1.131001
    },
    {
      "acc": 0.72490849,
      "epoch": 0.8862252663622526,
      "grad_norm": 4.53125,
      "learning_rate": 6.337495358042143e-06,
      "loss": 1.12356911,
      "memory(GiB)": 112.26,
      "step": 34935,
      "train_speed(iter/s)": 1.131014
    },
    {
      "acc": 0.73580284,
      "epoch": 0.8863521055301877,
      "grad_norm": 3.515625,
      "learning_rate": 6.336484918776069e-06,
      "loss": 1.09612465,
      "memory(GiB)": 112.26,
      "step": 34940,
      "train_speed(iter/s)": 1.131035
    },
    {
      "acc": 0.74421864,
      "epoch": 0.8864789446981228,
      "grad_norm": 3.34375,
      "learning_rate": 6.335474420725421e-06,
      "loss": 1.06729336,
      "memory(GiB)": 112.26,
      "step": 34945,
      "train_speed(iter/s)": 1.131064
    },
    {
      "acc": 0.72239194,
      "epoch": 0.8866057838660578,
      "grad_norm": 3.578125,
      "learning_rate": 6.334463863934646e-06,
      "loss": 1.11071205,
      "memory(GiB)": 112.26,
      "step": 34950,
      "train_speed(iter/s)": 1.13108
    },
    {
      "acc": 0.73505583,
      "epoch": 0.8867326230339929,
      "grad_norm": 3.4375,
      "learning_rate": 6.333453248448192e-06,
      "loss": 1.04397793,
      "memory(GiB)": 112.26,
      "step": 34955,
      "train_speed(iter/s)": 1.131102
    },
    {
      "acc": 0.71912222,
      "epoch": 0.8868594622019279,
      "grad_norm": 3.46875,
      "learning_rate": 6.33244257431051e-06,
      "loss": 1.20416155,
      "memory(GiB)": 112.26,
      "step": 34960,
      "train_speed(iter/s)": 1.131135
    },
    {
      "acc": 0.729422,
      "epoch": 0.886986301369863,
      "grad_norm": 3.375,
      "learning_rate": 6.331431841566056e-06,
      "loss": 1.09329815,
      "memory(GiB)": 112.26,
      "step": 34965,
      "train_speed(iter/s)": 1.13116
    },
    {
      "acc": 0.73760071,
      "epoch": 0.8871131405377981,
      "grad_norm": 3.96875,
      "learning_rate": 6.330421050259283e-06,
      "loss": 1.08902884,
      "memory(GiB)": 112.26,
      "step": 34970,
      "train_speed(iter/s)": 1.131186
    },
    {
      "acc": 0.74006653,
      "epoch": 0.8872399797057331,
      "grad_norm": 4.28125,
      "learning_rate": 6.329410200434655e-06,
      "loss": 1.04284077,
      "memory(GiB)": 112.26,
      "step": 34975,
      "train_speed(iter/s)": 1.131216
    },
    {
      "acc": 0.73409786,
      "epoch": 0.8873668188736682,
      "grad_norm": 3.703125,
      "learning_rate": 6.328399292136629e-06,
      "loss": 1.11941481,
      "memory(GiB)": 112.26,
      "step": 34980,
      "train_speed(iter/s)": 1.13124
    },
    {
      "acc": 0.73034,
      "epoch": 0.8874936580416033,
      "grad_norm": 3.984375,
      "learning_rate": 6.327388325409672e-06,
      "loss": 1.12318993,
      "memory(GiB)": 112.26,
      "step": 34985,
      "train_speed(iter/s)": 1.131266
    },
    {
      "acc": 0.72329631,
      "epoch": 0.8876204972095383,
      "grad_norm": 3.203125,
      "learning_rate": 6.326377300298251e-06,
      "loss": 1.11056862,
      "memory(GiB)": 112.26,
      "step": 34990,
      "train_speed(iter/s)": 1.131279
    },
    {
      "acc": 0.74039531,
      "epoch": 0.8877473363774734,
      "grad_norm": 3.765625,
      "learning_rate": 6.325366216846832e-06,
      "loss": 1.05903645,
      "memory(GiB)": 112.26,
      "step": 34995,
      "train_speed(iter/s)": 1.131305
    },
    {
      "acc": 0.743115,
      "epoch": 0.8878741755454084,
      "grad_norm": 4.28125,
      "learning_rate": 6.324355075099893e-06,
      "loss": 1.12529526,
      "memory(GiB)": 112.26,
      "step": 35000,
      "train_speed(iter/s)": 1.131318
    },
    {
      "epoch": 0.8878741755454084,
      "eval_acc": 0.724981361867948,
      "eval_loss": 1.0474475622177124,
      "eval_runtime": 70.9331,
      "eval_samples_per_second": 89.803,
      "eval_steps_per_second": 22.458,
      "step": 35000
    },
    {
      "acc": 0.73339624,
      "epoch": 0.8880010147133435,
      "grad_norm": 3.328125,
      "learning_rate": 6.3233438751019016e-06,
      "loss": 1.10304565,
      "memory(GiB)": 112.26,
      "step": 35005,
      "train_speed(iter/s)": 1.127117
    },
    {
      "acc": 0.74198084,
      "epoch": 0.8881278538812786,
      "grad_norm": 4.8125,
      "learning_rate": 6.322332616897341e-06,
      "loss": 1.03566122,
      "memory(GiB)": 112.26,
      "step": 35010,
      "train_speed(iter/s)": 1.127148
    },
    {
      "acc": 0.73728614,
      "epoch": 0.8882546930492136,
      "grad_norm": 4.8125,
      "learning_rate": 6.321321300530685e-06,
      "loss": 1.01431923,
      "memory(GiB)": 112.26,
      "step": 35015,
      "train_speed(iter/s)": 1.127175
    },
    {
      "acc": 0.75676432,
      "epoch": 0.8883815322171487,
      "grad_norm": 4.15625,
      "learning_rate": 6.320309926046421e-06,
      "loss": 1.04067926,
      "memory(GiB)": 112.26,
      "step": 35020,
      "train_speed(iter/s)": 1.127192
    },
    {
      "acc": 0.71792297,
      "epoch": 0.8885083713850838,
      "grad_norm": 4.21875,
      "learning_rate": 6.319298493489032e-06,
      "loss": 1.15938101,
      "memory(GiB)": 112.26,
      "step": 35025,
      "train_speed(iter/s)": 1.127228
    },
    {
      "acc": 0.73245897,
      "epoch": 0.8886352105530188,
      "grad_norm": 4.25,
      "learning_rate": 6.318287002903004e-06,
      "loss": 1.07542362,
      "memory(GiB)": 112.26,
      "step": 35030,
      "train_speed(iter/s)": 1.127246
    },
    {
      "acc": 0.72073998,
      "epoch": 0.8887620497209539,
      "grad_norm": 3.828125,
      "learning_rate": 6.317275454332829e-06,
      "loss": 1.10162172,
      "memory(GiB)": 112.26,
      "step": 35035,
      "train_speed(iter/s)": 1.127279
    },
    {
      "acc": 0.73125939,
      "epoch": 0.8888888888888888,
      "grad_norm": 5.78125,
      "learning_rate": 6.3162638478229965e-06,
      "loss": 1.11194992,
      "memory(GiB)": 112.26,
      "step": 35040,
      "train_speed(iter/s)": 1.127308
    },
    {
      "acc": 0.74010906,
      "epoch": 0.8890157280568239,
      "grad_norm": 3.625,
      "learning_rate": 6.315252183418005e-06,
      "loss": 1.06378117,
      "memory(GiB)": 112.26,
      "step": 35045,
      "train_speed(iter/s)": 1.127327
    },
    {
      "acc": 0.73017178,
      "epoch": 0.889142567224759,
      "grad_norm": 3.265625,
      "learning_rate": 6.31424046116235e-06,
      "loss": 1.16447525,
      "memory(GiB)": 112.26,
      "step": 35050,
      "train_speed(iter/s)": 1.127359
    },
    {
      "acc": 0.72473488,
      "epoch": 0.889269406392694,
      "grad_norm": 3.5625,
      "learning_rate": 6.313228681100532e-06,
      "loss": 1.10329132,
      "memory(GiB)": 112.26,
      "step": 35055,
      "train_speed(iter/s)": 1.127387
    },
    {
      "acc": 0.74255524,
      "epoch": 0.8893962455606291,
      "grad_norm": 3.828125,
      "learning_rate": 6.312216843277052e-06,
      "loss": 1.0618597,
      "memory(GiB)": 112.26,
      "step": 35060,
      "train_speed(iter/s)": 1.127223
    },
    {
      "acc": 0.70584707,
      "epoch": 0.8895230847285642,
      "grad_norm": 3.703125,
      "learning_rate": 6.3112049477364165e-06,
      "loss": 1.20352354,
      "memory(GiB)": 112.26,
      "step": 35065,
      "train_speed(iter/s)": 1.127246
    },
    {
      "acc": 0.73729854,
      "epoch": 0.8896499238964992,
      "grad_norm": 4.625,
      "learning_rate": 6.310192994523137e-06,
      "loss": 1.11972494,
      "memory(GiB)": 112.26,
      "step": 35070,
      "train_speed(iter/s)": 1.127264
    },
    {
      "acc": 0.72961454,
      "epoch": 0.8897767630644343,
      "grad_norm": 3.546875,
      "learning_rate": 6.309180983681716e-06,
      "loss": 1.10657234,
      "memory(GiB)": 112.26,
      "step": 35075,
      "train_speed(iter/s)": 1.12728
    },
    {
      "acc": 0.7244916,
      "epoch": 0.8899036022323693,
      "grad_norm": 3.609375,
      "learning_rate": 6.308168915256671e-06,
      "loss": 1.13699875,
      "memory(GiB)": 112.26,
      "step": 35080,
      "train_speed(iter/s)": 1.127305
    },
    {
      "acc": 0.72989159,
      "epoch": 0.8900304414003044,
      "grad_norm": 3.90625,
      "learning_rate": 6.307156789292518e-06,
      "loss": 1.13784733,
      "memory(GiB)": 112.26,
      "step": 35085,
      "train_speed(iter/s)": 1.127334
    },
    {
      "acc": 0.73927517,
      "epoch": 0.8901572805682395,
      "grad_norm": 3.75,
      "learning_rate": 6.306144605833773e-06,
      "loss": 1.0741601,
      "memory(GiB)": 112.26,
      "step": 35090,
      "train_speed(iter/s)": 1.127357
    },
    {
      "acc": 0.72180119,
      "epoch": 0.8902841197361745,
      "grad_norm": 3.84375,
      "learning_rate": 6.305132364924955e-06,
      "loss": 1.08332748,
      "memory(GiB)": 112.26,
      "step": 35095,
      "train_speed(iter/s)": 1.127373
    },
    {
      "acc": 0.72572269,
      "epoch": 0.8904109589041096,
      "grad_norm": 4.09375,
      "learning_rate": 6.3041200666105905e-06,
      "loss": 1.06093006,
      "memory(GiB)": 112.26,
      "step": 35100,
      "train_speed(iter/s)": 1.127396
    },
    {
      "acc": 0.72937741,
      "epoch": 0.8905377980720447,
      "grad_norm": 3.1875,
      "learning_rate": 6.303107710935202e-06,
      "loss": 1.0846262,
      "memory(GiB)": 112.26,
      "step": 35105,
      "train_speed(iter/s)": 1.127422
    },
    {
      "acc": 0.7220572,
      "epoch": 0.8906646372399797,
      "grad_norm": 3.6875,
      "learning_rate": 6.302095297943319e-06,
      "loss": 1.07330589,
      "memory(GiB)": 112.26,
      "step": 35110,
      "train_speed(iter/s)": 1.127436
    },
    {
      "acc": 0.73140955,
      "epoch": 0.8907914764079148,
      "grad_norm": 3.34375,
      "learning_rate": 6.301082827679472e-06,
      "loss": 1.10044479,
      "memory(GiB)": 112.26,
      "step": 35115,
      "train_speed(iter/s)": 1.127456
    },
    {
      "acc": 0.75347338,
      "epoch": 0.8909183155758498,
      "grad_norm": 4.15625,
      "learning_rate": 6.300070300188192e-06,
      "loss": 1.03499165,
      "memory(GiB)": 112.26,
      "step": 35120,
      "train_speed(iter/s)": 1.127478
    },
    {
      "acc": 0.74324541,
      "epoch": 0.8910451547437849,
      "grad_norm": 4.65625,
      "learning_rate": 6.2990577155140164e-06,
      "loss": 1.08236675,
      "memory(GiB)": 112.26,
      "step": 35125,
      "train_speed(iter/s)": 1.127513
    },
    {
      "acc": 0.73592014,
      "epoch": 0.89117199391172,
      "grad_norm": 3.78125,
      "learning_rate": 6.298045073701483e-06,
      "loss": 1.06931458,
      "memory(GiB)": 112.26,
      "step": 35130,
      "train_speed(iter/s)": 1.127542
    },
    {
      "acc": 0.7336997,
      "epoch": 0.891298833079655,
      "grad_norm": 3.40625,
      "learning_rate": 6.29703237479513e-06,
      "loss": 1.06732912,
      "memory(GiB)": 112.26,
      "step": 35135,
      "train_speed(iter/s)": 1.127543
    },
    {
      "acc": 0.73278122,
      "epoch": 0.8914256722475901,
      "grad_norm": 3.890625,
      "learning_rate": 6.296019618839505e-06,
      "loss": 1.10571575,
      "memory(GiB)": 112.26,
      "step": 35140,
      "train_speed(iter/s)": 1.127556
    },
    {
      "acc": 0.74761524,
      "epoch": 0.8915525114155252,
      "grad_norm": 3.390625,
      "learning_rate": 6.295006805879149e-06,
      "loss": 1.04719524,
      "memory(GiB)": 112.26,
      "step": 35145,
      "train_speed(iter/s)": 1.127591
    },
    {
      "acc": 0.73736668,
      "epoch": 0.8916793505834602,
      "grad_norm": 3.890625,
      "learning_rate": 6.293993935958613e-06,
      "loss": 1.04779406,
      "memory(GiB)": 112.26,
      "step": 35150,
      "train_speed(iter/s)": 1.12762
    },
    {
      "acc": 0.74272022,
      "epoch": 0.8918061897513953,
      "grad_norm": 3.328125,
      "learning_rate": 6.292981009122445e-06,
      "loss": 1.05662537,
      "memory(GiB)": 112.26,
      "step": 35155,
      "train_speed(iter/s)": 1.127647
    },
    {
      "acc": 0.72848878,
      "epoch": 0.8919330289193302,
      "grad_norm": 4.3125,
      "learning_rate": 6.291968025415202e-06,
      "loss": 1.08776398,
      "memory(GiB)": 112.26,
      "step": 35160,
      "train_speed(iter/s)": 1.127669
    },
    {
      "acc": 0.7395246,
      "epoch": 0.8920598680872653,
      "grad_norm": 3.796875,
      "learning_rate": 6.290954984881434e-06,
      "loss": 1.06196527,
      "memory(GiB)": 112.26,
      "step": 35165,
      "train_speed(iter/s)": 1.127697
    },
    {
      "acc": 0.73725061,
      "epoch": 0.8921867072552004,
      "grad_norm": 3.984375,
      "learning_rate": 6.289941887565703e-06,
      "loss": 1.11264009,
      "memory(GiB)": 112.26,
      "step": 35170,
      "train_speed(iter/s)": 1.127732
    },
    {
      "acc": 0.74568777,
      "epoch": 0.8923135464231354,
      "grad_norm": 3.78125,
      "learning_rate": 6.288928733512569e-06,
      "loss": 1.0611762,
      "memory(GiB)": 112.26,
      "step": 35175,
      "train_speed(iter/s)": 1.127748
    },
    {
      "acc": 0.74652672,
      "epoch": 0.8924403855910705,
      "grad_norm": 4.15625,
      "learning_rate": 6.287915522766596e-06,
      "loss": 0.99127874,
      "memory(GiB)": 112.26,
      "step": 35180,
      "train_speed(iter/s)": 1.127765
    },
    {
      "acc": 0.73370543,
      "epoch": 0.8925672247590056,
      "grad_norm": 4.15625,
      "learning_rate": 6.2869022553723465e-06,
      "loss": 1.04369869,
      "memory(GiB)": 112.26,
      "step": 35185,
      "train_speed(iter/s)": 1.127795
    },
    {
      "acc": 0.74661045,
      "epoch": 0.8926940639269406,
      "grad_norm": 3.203125,
      "learning_rate": 6.285888931374391e-06,
      "loss": 1.05434771,
      "memory(GiB)": 112.26,
      "step": 35190,
      "train_speed(iter/s)": 1.127827
    },
    {
      "acc": 0.73539534,
      "epoch": 0.8928209030948757,
      "grad_norm": 4.1875,
      "learning_rate": 6.284875550817299e-06,
      "loss": 1.02940292,
      "memory(GiB)": 112.26,
      "step": 35195,
      "train_speed(iter/s)": 1.127853
    },
    {
      "acc": 0.7281487,
      "epoch": 0.8929477422628107,
      "grad_norm": 3.78125,
      "learning_rate": 6.2838621137456425e-06,
      "loss": 1.08467464,
      "memory(GiB)": 112.26,
      "step": 35200,
      "train_speed(iter/s)": 1.127876
    },
    {
      "acc": 0.73435583,
      "epoch": 0.8930745814307458,
      "grad_norm": 2.890625,
      "learning_rate": 6.282848620203999e-06,
      "loss": 1.06576138,
      "memory(GiB)": 112.26,
      "step": 35205,
      "train_speed(iter/s)": 1.127909
    },
    {
      "acc": 0.73542566,
      "epoch": 0.8932014205986809,
      "grad_norm": 3.609375,
      "learning_rate": 6.2818350702369466e-06,
      "loss": 1.07239265,
      "memory(GiB)": 112.26,
      "step": 35210,
      "train_speed(iter/s)": 1.12794
    },
    {
      "acc": 0.7400836,
      "epoch": 0.8933282597666159,
      "grad_norm": 4.6875,
      "learning_rate": 6.280821463889063e-06,
      "loss": 1.08091555,
      "memory(GiB)": 112.26,
      "step": 35215,
      "train_speed(iter/s)": 1.127961
    },
    {
      "acc": 0.74100971,
      "epoch": 0.893455098934551,
      "grad_norm": 3.578125,
      "learning_rate": 6.279807801204936e-06,
      "loss": 1.07636023,
      "memory(GiB)": 112.26,
      "step": 35220,
      "train_speed(iter/s)": 1.127981
    },
    {
      "acc": 0.75253124,
      "epoch": 0.8935819381024861,
      "grad_norm": 3.296875,
      "learning_rate": 6.278794082229145e-06,
      "loss": 1.04185076,
      "memory(GiB)": 112.26,
      "step": 35225,
      "train_speed(iter/s)": 1.12799
    },
    {
      "acc": 0.74498758,
      "epoch": 0.8937087772704211,
      "grad_norm": 3.890625,
      "learning_rate": 6.2777803070062825e-06,
      "loss": 1.08825054,
      "memory(GiB)": 112.26,
      "step": 35230,
      "train_speed(iter/s)": 1.128006
    },
    {
      "acc": 0.73705916,
      "epoch": 0.8938356164383562,
      "grad_norm": 3.625,
      "learning_rate": 6.276766475580935e-06,
      "loss": 1.042066,
      "memory(GiB)": 112.26,
      "step": 35235,
      "train_speed(iter/s)": 1.128026
    },
    {
      "acc": 0.72170377,
      "epoch": 0.8939624556062912,
      "grad_norm": 3.859375,
      "learning_rate": 6.2757525879977e-06,
      "loss": 1.16063442,
      "memory(GiB)": 112.26,
      "step": 35240,
      "train_speed(iter/s)": 1.128047
    },
    {
      "acc": 0.734828,
      "epoch": 0.8940892947742263,
      "grad_norm": 4.34375,
      "learning_rate": 6.27473864430117e-06,
      "loss": 1.10737047,
      "memory(GiB)": 112.26,
      "step": 35245,
      "train_speed(iter/s)": 1.128067
    },
    {
      "acc": 0.72332373,
      "epoch": 0.8942161339421614,
      "grad_norm": 3.75,
      "learning_rate": 6.273724644535942e-06,
      "loss": 1.12335443,
      "memory(GiB)": 112.26,
      "step": 35250,
      "train_speed(iter/s)": 1.128078
    },
    {
      "acc": 0.74534531,
      "epoch": 0.8943429731100964,
      "grad_norm": 3.328125,
      "learning_rate": 6.272710588746619e-06,
      "loss": 1.03196964,
      "memory(GiB)": 112.26,
      "step": 35255,
      "train_speed(iter/s)": 1.128076
    },
    {
      "acc": 0.72600327,
      "epoch": 0.8944698122780315,
      "grad_norm": 3.5,
      "learning_rate": 6.271696476977801e-06,
      "loss": 1.13219032,
      "memory(GiB)": 112.26,
      "step": 35260,
      "train_speed(iter/s)": 1.12809
    },
    {
      "acc": 0.74017725,
      "epoch": 0.8945966514459666,
      "grad_norm": 3.5625,
      "learning_rate": 6.270682309274094e-06,
      "loss": 1.02691364,
      "memory(GiB)": 112.26,
      "step": 35265,
      "train_speed(iter/s)": 1.128103
    },
    {
      "acc": 0.73735437,
      "epoch": 0.8947234906139016,
      "grad_norm": 3.734375,
      "learning_rate": 6.269668085680106e-06,
      "loss": 1.06131353,
      "memory(GiB)": 112.26,
      "step": 35270,
      "train_speed(iter/s)": 1.128122
    },
    {
      "acc": 0.72207842,
      "epoch": 0.8948503297818367,
      "grad_norm": 4.46875,
      "learning_rate": 6.268653806240448e-06,
      "loss": 1.1437499,
      "memory(GiB)": 112.26,
      "step": 35275,
      "train_speed(iter/s)": 1.128154
    },
    {
      "acc": 0.74593153,
      "epoch": 0.8949771689497716,
      "grad_norm": 3.609375,
      "learning_rate": 6.26763947099973e-06,
      "loss": 1.06047821,
      "memory(GiB)": 112.26,
      "step": 35280,
      "train_speed(iter/s)": 1.12817
    },
    {
      "acc": 0.728827,
      "epoch": 0.8951040081177067,
      "grad_norm": 4.28125,
      "learning_rate": 6.266625080002569e-06,
      "loss": 1.15243435,
      "memory(GiB)": 112.26,
      "step": 35285,
      "train_speed(iter/s)": 1.128203
    },
    {
      "acc": 0.71965456,
      "epoch": 0.8952308472856418,
      "grad_norm": 3.609375,
      "learning_rate": 6.265610633293582e-06,
      "loss": 1.11883326,
      "memory(GiB)": 112.26,
      "step": 35290,
      "train_speed(iter/s)": 1.12822
    },
    {
      "acc": 0.73110175,
      "epoch": 0.8953576864535768,
      "grad_norm": 4.0625,
      "learning_rate": 6.264596130917389e-06,
      "loss": 1.07953968,
      "memory(GiB)": 112.26,
      "step": 35295,
      "train_speed(iter/s)": 1.128244
    },
    {
      "acc": 0.74709005,
      "epoch": 0.8954845256215119,
      "grad_norm": 4.09375,
      "learning_rate": 6.2635815729186124e-06,
      "loss": 1.00420837,
      "memory(GiB)": 112.26,
      "step": 35300,
      "train_speed(iter/s)": 1.128262
    },
    {
      "acc": 0.7316978,
      "epoch": 0.895611364789447,
      "grad_norm": 4.375,
      "learning_rate": 6.2625669593418744e-06,
      "loss": 1.10838871,
      "memory(GiB)": 112.26,
      "step": 35305,
      "train_speed(iter/s)": 1.128281
    },
    {
      "acc": 0.7358758,
      "epoch": 0.895738203957382,
      "grad_norm": 4.3125,
      "learning_rate": 6.261552290231807e-06,
      "loss": 1.05753422,
      "memory(GiB)": 112.26,
      "step": 35310,
      "train_speed(iter/s)": 1.128306
    },
    {
      "acc": 0.74044461,
      "epoch": 0.8958650431253171,
      "grad_norm": 3.4375,
      "learning_rate": 6.260537565633037e-06,
      "loss": 1.01457539,
      "memory(GiB)": 112.26,
      "step": 35315,
      "train_speed(iter/s)": 1.128322
    },
    {
      "acc": 0.73998671,
      "epoch": 0.8959918822932521,
      "grad_norm": 3.5,
      "learning_rate": 6.259522785590197e-06,
      "loss": 1.08025503,
      "memory(GiB)": 112.26,
      "step": 35320,
      "train_speed(iter/s)": 1.128338
    },
    {
      "acc": 0.7289011,
      "epoch": 0.8961187214611872,
      "grad_norm": 4.71875,
      "learning_rate": 6.2585079501479205e-06,
      "loss": 1.11780605,
      "memory(GiB)": 112.26,
      "step": 35325,
      "train_speed(iter/s)": 1.128372
    },
    {
      "acc": 0.74342003,
      "epoch": 0.8962455606291223,
      "grad_norm": 3.9375,
      "learning_rate": 6.257493059350848e-06,
      "loss": 1.05441465,
      "memory(GiB)": 112.26,
      "step": 35330,
      "train_speed(iter/s)": 1.128403
    },
    {
      "acc": 0.73875828,
      "epoch": 0.8963723997970573,
      "grad_norm": 3.0,
      "learning_rate": 6.256478113243613e-06,
      "loss": 1.09642382,
      "memory(GiB)": 112.26,
      "step": 35335,
      "train_speed(iter/s)": 1.128427
    },
    {
      "acc": 0.73779664,
      "epoch": 0.8964992389649924,
      "grad_norm": 3.796875,
      "learning_rate": 6.255463111870864e-06,
      "loss": 1.0412487,
      "memory(GiB)": 112.26,
      "step": 35340,
      "train_speed(iter/s)": 1.128446
    },
    {
      "acc": 0.74319983,
      "epoch": 0.8966260781329275,
      "grad_norm": 3.84375,
      "learning_rate": 6.25444805527724e-06,
      "loss": 1.07495565,
      "memory(GiB)": 112.26,
      "step": 35345,
      "train_speed(iter/s)": 1.128469
    },
    {
      "acc": 0.72655201,
      "epoch": 0.8967529173008625,
      "grad_norm": 4.09375,
      "learning_rate": 6.253432943507391e-06,
      "loss": 1.15225506,
      "memory(GiB)": 112.26,
      "step": 35350,
      "train_speed(iter/s)": 1.1285
    },
    {
      "acc": 0.7356535,
      "epoch": 0.8968797564687976,
      "grad_norm": 4.1875,
      "learning_rate": 6.252417776605964e-06,
      "loss": 1.05664482,
      "memory(GiB)": 112.26,
      "step": 35355,
      "train_speed(iter/s)": 1.128525
    },
    {
      "acc": 0.74501667,
      "epoch": 0.8970065956367326,
      "grad_norm": 3.71875,
      "learning_rate": 6.251402554617613e-06,
      "loss": 1.05080309,
      "memory(GiB)": 112.26,
      "step": 35360,
      "train_speed(iter/s)": 1.128543
    },
    {
      "acc": 0.71729875,
      "epoch": 0.8971334348046677,
      "grad_norm": 5.0625,
      "learning_rate": 6.2503872775869886e-06,
      "loss": 1.14927568,
      "memory(GiB)": 112.26,
      "step": 35365,
      "train_speed(iter/s)": 1.128564
    },
    {
      "acc": 0.75073652,
      "epoch": 0.8972602739726028,
      "grad_norm": 3.578125,
      "learning_rate": 6.249371945558751e-06,
      "loss": 1.0607338,
      "memory(GiB)": 112.26,
      "step": 35370,
      "train_speed(iter/s)": 1.12858
    },
    {
      "acc": 0.74593325,
      "epoch": 0.8973871131405378,
      "grad_norm": 3.515625,
      "learning_rate": 6.248356558577555e-06,
      "loss": 1.03601456,
      "memory(GiB)": 112.26,
      "step": 35375,
      "train_speed(iter/s)": 1.128608
    },
    {
      "acc": 0.73520341,
      "epoch": 0.8975139523084729,
      "grad_norm": 4.375,
      "learning_rate": 6.247341116688067e-06,
      "loss": 1.11335697,
      "memory(GiB)": 112.26,
      "step": 35380,
      "train_speed(iter/s)": 1.128635
    },
    {
      "acc": 0.74178486,
      "epoch": 0.897640791476408,
      "grad_norm": 3.421875,
      "learning_rate": 6.246325619934945e-06,
      "loss": 1.03341694,
      "memory(GiB)": 112.26,
      "step": 35385,
      "train_speed(iter/s)": 1.128661
    },
    {
      "acc": 0.74275627,
      "epoch": 0.897767630644343,
      "grad_norm": 4.1875,
      "learning_rate": 6.245310068362859e-06,
      "loss": 1.02657928,
      "memory(GiB)": 112.26,
      "step": 35390,
      "train_speed(iter/s)": 1.128689
    },
    {
      "acc": 0.7393929,
      "epoch": 0.897894469812278,
      "grad_norm": 3.734375,
      "learning_rate": 6.244294462016476e-06,
      "loss": 1.08610229,
      "memory(GiB)": 112.26,
      "step": 35395,
      "train_speed(iter/s)": 1.128714
    },
    {
      "acc": 0.75333977,
      "epoch": 0.898021308980213,
      "grad_norm": 4.15625,
      "learning_rate": 6.243278800940468e-06,
      "loss": 1.00830059,
      "memory(GiB)": 112.26,
      "step": 35400,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.7421917,
      "epoch": 0.8981481481481481,
      "grad_norm": 4.09375,
      "learning_rate": 6.242263085179506e-06,
      "loss": 1.06826611,
      "memory(GiB)": 112.26,
      "step": 35405,
      "train_speed(iter/s)": 1.128769
    },
    {
      "acc": 0.7311471,
      "epoch": 0.8982749873160832,
      "grad_norm": 3.328125,
      "learning_rate": 6.241247314778269e-06,
      "loss": 1.09219074,
      "memory(GiB)": 112.26,
      "step": 35410,
      "train_speed(iter/s)": 1.128799
    },
    {
      "acc": 0.72932792,
      "epoch": 0.8984018264840182,
      "grad_norm": 3.296875,
      "learning_rate": 6.240231489781432e-06,
      "loss": 1.15574837,
      "memory(GiB)": 112.26,
      "step": 35415,
      "train_speed(iter/s)": 1.128828
    },
    {
      "acc": 0.72383881,
      "epoch": 0.8985286656519533,
      "grad_norm": 3.828125,
      "learning_rate": 6.239215610233678e-06,
      "loss": 1.09287634,
      "memory(GiB)": 112.26,
      "step": 35420,
      "train_speed(iter/s)": 1.128863
    },
    {
      "acc": 0.7495224,
      "epoch": 0.8986555048198884,
      "grad_norm": 4.0625,
      "learning_rate": 6.238199676179688e-06,
      "loss": 1.03151245,
      "memory(GiB)": 112.26,
      "step": 35425,
      "train_speed(iter/s)": 1.128895
    },
    {
      "acc": 0.74056773,
      "epoch": 0.8987823439878234,
      "grad_norm": 5.4375,
      "learning_rate": 6.2371836876641475e-06,
      "loss": 1.02043343,
      "memory(GiB)": 112.26,
      "step": 35430,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.73126698,
      "epoch": 0.8989091831557585,
      "grad_norm": 4.25,
      "learning_rate": 6.236167644731745e-06,
      "loss": 1.09920893,
      "memory(GiB)": 112.26,
      "step": 35435,
      "train_speed(iter/s)": 1.128914
    },
    {
      "acc": 0.73709602,
      "epoch": 0.8990360223236935,
      "grad_norm": 3.84375,
      "learning_rate": 6.235151547427172e-06,
      "loss": 1.07344666,
      "memory(GiB)": 112.26,
      "step": 35440,
      "train_speed(iter/s)": 1.128939
    },
    {
      "acc": 0.73820391,
      "epoch": 0.8991628614916286,
      "grad_norm": 3.765625,
      "learning_rate": 6.2341353957951165e-06,
      "loss": 1.09995518,
      "memory(GiB)": 112.26,
      "step": 35445,
      "train_speed(iter/s)": 1.128957
    },
    {
      "acc": 0.71529803,
      "epoch": 0.8992897006595637,
      "grad_norm": 5.0625,
      "learning_rate": 6.233119189880279e-06,
      "loss": 1.12485085,
      "memory(GiB)": 112.26,
      "step": 35450,
      "train_speed(iter/s)": 1.128986
    },
    {
      "acc": 0.72669172,
      "epoch": 0.8994165398274987,
      "grad_norm": 3.640625,
      "learning_rate": 6.232102929727353e-06,
      "loss": 1.10639467,
      "memory(GiB)": 112.26,
      "step": 35455,
      "train_speed(iter/s)": 1.129014
    },
    {
      "acc": 0.7226656,
      "epoch": 0.8995433789954338,
      "grad_norm": 3.34375,
      "learning_rate": 6.231086615381039e-06,
      "loss": 1.13614254,
      "memory(GiB)": 112.26,
      "step": 35460,
      "train_speed(iter/s)": 1.129035
    },
    {
      "acc": 0.74119272,
      "epoch": 0.8996702181633689,
      "grad_norm": 4.28125,
      "learning_rate": 6.2300702468860385e-06,
      "loss": 1.08718987,
      "memory(GiB)": 112.26,
      "step": 35465,
      "train_speed(iter/s)": 1.129062
    },
    {
      "acc": 0.74292946,
      "epoch": 0.8997970573313039,
      "grad_norm": 3.859375,
      "learning_rate": 6.229053824287058e-06,
      "loss": 1.03359346,
      "memory(GiB)": 112.26,
      "step": 35470,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.73117232,
      "epoch": 0.899923896499239,
      "grad_norm": 4.21875,
      "learning_rate": 6.228037347628803e-06,
      "loss": 1.09977379,
      "memory(GiB)": 112.26,
      "step": 35475,
      "train_speed(iter/s)": 1.129109
    },
    {
      "acc": 0.74299908,
      "epoch": 0.900050735667174,
      "grad_norm": 3.28125,
      "learning_rate": 6.227020816955982e-06,
      "loss": 1.01999512,
      "memory(GiB)": 112.26,
      "step": 35480,
      "train_speed(iter/s)": 1.129123
    },
    {
      "acc": 0.73514733,
      "epoch": 0.9001775748351091,
      "grad_norm": 3.40625,
      "learning_rate": 6.226004232313308e-06,
      "loss": 1.07389603,
      "memory(GiB)": 112.26,
      "step": 35485,
      "train_speed(iter/s)": 1.129154
    },
    {
      "acc": 0.73099403,
      "epoch": 0.9003044140030442,
      "grad_norm": 3.453125,
      "learning_rate": 6.224987593745493e-06,
      "loss": 1.08458576,
      "memory(GiB)": 112.26,
      "step": 35490,
      "train_speed(iter/s)": 1.129181
    },
    {
      "acc": 0.73102651,
      "epoch": 0.9004312531709792,
      "grad_norm": 4.125,
      "learning_rate": 6.223970901297255e-06,
      "loss": 1.05639153,
      "memory(GiB)": 112.26,
      "step": 35495,
      "train_speed(iter/s)": 1.1292
    },
    {
      "acc": 0.73910246,
      "epoch": 0.9005580923389143,
      "grad_norm": 4.0625,
      "learning_rate": 6.222954155013312e-06,
      "loss": 1.07511606,
      "memory(GiB)": 112.26,
      "step": 35500,
      "train_speed(iter/s)": 1.129228
    },
    {
      "acc": 0.74666128,
      "epoch": 0.9006849315068494,
      "grad_norm": 3.578125,
      "learning_rate": 6.221937354938386e-06,
      "loss": 1.04326382,
      "memory(GiB)": 112.26,
      "step": 35505,
      "train_speed(iter/s)": 1.129253
    },
    {
      "acc": 0.7427453,
      "epoch": 0.9008117706747844,
      "grad_norm": 3.59375,
      "learning_rate": 6.2209205011171995e-06,
      "loss": 1.07618465,
      "memory(GiB)": 112.26,
      "step": 35510,
      "train_speed(iter/s)": 1.129264
    },
    {
      "acc": 0.72460432,
      "epoch": 0.9009386098427195,
      "grad_norm": 3.765625,
      "learning_rate": 6.219903593594476e-06,
      "loss": 1.0692627,
      "memory(GiB)": 112.26,
      "step": 35515,
      "train_speed(iter/s)": 1.129294
    },
    {
      "acc": 0.74542985,
      "epoch": 0.9010654490106544,
      "grad_norm": 4.3125,
      "learning_rate": 6.218886632414949e-06,
      "loss": 1.02791119,
      "memory(GiB)": 112.26,
      "step": 35520,
      "train_speed(iter/s)": 1.129316
    },
    {
      "acc": 0.73295536,
      "epoch": 0.9011922881785895,
      "grad_norm": 3.546875,
      "learning_rate": 6.217869617623343e-06,
      "loss": 1.10147562,
      "memory(GiB)": 112.26,
      "step": 35525,
      "train_speed(iter/s)": 1.129337
    },
    {
      "acc": 0.74515762,
      "epoch": 0.9013191273465246,
      "grad_norm": 3.5625,
      "learning_rate": 6.216852549264396e-06,
      "loss": 1.06520348,
      "memory(GiB)": 112.26,
      "step": 35530,
      "train_speed(iter/s)": 1.129367
    },
    {
      "acc": 0.74244051,
      "epoch": 0.9014459665144596,
      "grad_norm": 3.984375,
      "learning_rate": 6.215835427382842e-06,
      "loss": 1.06959028,
      "memory(GiB)": 112.26,
      "step": 35535,
      "train_speed(iter/s)": 1.129373
    },
    {
      "acc": 0.73930969,
      "epoch": 0.9015728056823947,
      "grad_norm": 3.421875,
      "learning_rate": 6.214818252023415e-06,
      "loss": 1.07599516,
      "memory(GiB)": 112.26,
      "step": 35540,
      "train_speed(iter/s)": 1.129397
    },
    {
      "acc": 0.74244146,
      "epoch": 0.9016996448503298,
      "grad_norm": 3.328125,
      "learning_rate": 6.2138010232308585e-06,
      "loss": 1.02881975,
      "memory(GiB)": 112.26,
      "step": 35545,
      "train_speed(iter/s)": 1.12941
    },
    {
      "acc": 0.74544535,
      "epoch": 0.9018264840182648,
      "grad_norm": 3.953125,
      "learning_rate": 6.212783741049915e-06,
      "loss": 1.04500713,
      "memory(GiB)": 112.26,
      "step": 35550,
      "train_speed(iter/s)": 1.129427
    },
    {
      "acc": 0.73808918,
      "epoch": 0.9019533231861999,
      "grad_norm": 2.984375,
      "learning_rate": 6.211766405525326e-06,
      "loss": 1.04942617,
      "memory(GiB)": 112.26,
      "step": 35555,
      "train_speed(iter/s)": 1.129445
    },
    {
      "acc": 0.73731289,
      "epoch": 0.9020801623541349,
      "grad_norm": 4.03125,
      "learning_rate": 6.210749016701842e-06,
      "loss": 1.09073,
      "memory(GiB)": 112.26,
      "step": 35560,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.72690768,
      "epoch": 0.90220700152207,
      "grad_norm": 4.03125,
      "learning_rate": 6.2097315746242095e-06,
      "loss": 1.10545845,
      "memory(GiB)": 112.26,
      "step": 35565,
      "train_speed(iter/s)": 1.12948
    },
    {
      "acc": 0.71491179,
      "epoch": 0.9023338406900051,
      "grad_norm": 3.546875,
      "learning_rate": 6.208714079337181e-06,
      "loss": 1.13493328,
      "memory(GiB)": 112.26,
      "step": 35570,
      "train_speed(iter/s)": 1.129489
    },
    {
      "acc": 0.7304677,
      "epoch": 0.9024606798579401,
      "grad_norm": 3.375,
      "learning_rate": 6.207696530885511e-06,
      "loss": 1.09322929,
      "memory(GiB)": 112.26,
      "step": 35575,
      "train_speed(iter/s)": 1.129517
    },
    {
      "acc": 0.72997274,
      "epoch": 0.9025875190258752,
      "grad_norm": 3.859375,
      "learning_rate": 6.2066789293139565e-06,
      "loss": 1.09708824,
      "memory(GiB)": 112.26,
      "step": 35580,
      "train_speed(iter/s)": 1.129525
    },
    {
      "acc": 0.72107267,
      "epoch": 0.9027143581938103,
      "grad_norm": 3.6875,
      "learning_rate": 6.2056612746672736e-06,
      "loss": 1.14641047,
      "memory(GiB)": 112.26,
      "step": 35585,
      "train_speed(iter/s)": 1.129532
    },
    {
      "acc": 0.74356413,
      "epoch": 0.9028411973617453,
      "grad_norm": 3.578125,
      "learning_rate": 6.204643566990227e-06,
      "loss": 1.09173965,
      "memory(GiB)": 112.26,
      "step": 35590,
      "train_speed(iter/s)": 1.129568
    },
    {
      "acc": 0.73424644,
      "epoch": 0.9029680365296804,
      "grad_norm": 3.625,
      "learning_rate": 6.2036258063275764e-06,
      "loss": 1.04992046,
      "memory(GiB)": 112.26,
      "step": 35595,
      "train_speed(iter/s)": 1.129594
    },
    {
      "acc": 0.74044633,
      "epoch": 0.9030948756976154,
      "grad_norm": 4.34375,
      "learning_rate": 6.20260799272409e-06,
      "loss": 1.06305275,
      "memory(GiB)": 112.26,
      "step": 35600,
      "train_speed(iter/s)": 1.129603
    },
    {
      "acc": 0.74182572,
      "epoch": 0.9032217148655505,
      "grad_norm": 3.265625,
      "learning_rate": 6.201590126224534e-06,
      "loss": 1.09932384,
      "memory(GiB)": 112.26,
      "step": 35605,
      "train_speed(iter/s)": 1.129616
    },
    {
      "acc": 0.74785328,
      "epoch": 0.9033485540334856,
      "grad_norm": 3.171875,
      "learning_rate": 6.20057220687368e-06,
      "loss": 1.00641794,
      "memory(GiB)": 112.26,
      "step": 35610,
      "train_speed(iter/s)": 1.129643
    },
    {
      "acc": 0.72836304,
      "epoch": 0.9034753932014206,
      "grad_norm": 3.25,
      "learning_rate": 6.199554234716301e-06,
      "loss": 1.06827888,
      "memory(GiB)": 112.26,
      "step": 35615,
      "train_speed(iter/s)": 1.12966
    },
    {
      "acc": 0.72822328,
      "epoch": 0.9036022323693557,
      "grad_norm": 3.890625,
      "learning_rate": 6.19853620979717e-06,
      "loss": 1.05038786,
      "memory(GiB)": 112.26,
      "step": 35620,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.74337959,
      "epoch": 0.9037290715372908,
      "grad_norm": 3.890625,
      "learning_rate": 6.1975181321610655e-06,
      "loss": 1.07351303,
      "memory(GiB)": 112.26,
      "step": 35625,
      "train_speed(iter/s)": 1.129717
    },
    {
      "acc": 0.72515335,
      "epoch": 0.9038559107052258,
      "grad_norm": 4.15625,
      "learning_rate": 6.1965000018527676e-06,
      "loss": 1.11244402,
      "memory(GiB)": 112.26,
      "step": 35630,
      "train_speed(iter/s)": 1.129735
    },
    {
      "acc": 0.73158574,
      "epoch": 0.9039827498731609,
      "grad_norm": 3.609375,
      "learning_rate": 6.195481818917057e-06,
      "loss": 1.07707062,
      "memory(GiB)": 112.26,
      "step": 35635,
      "train_speed(iter/s)": 1.129763
    },
    {
      "acc": 0.72989259,
      "epoch": 0.9041095890410958,
      "grad_norm": 3.703125,
      "learning_rate": 6.194463583398719e-06,
      "loss": 1.08790684,
      "memory(GiB)": 112.26,
      "step": 35640,
      "train_speed(iter/s)": 1.12979
    },
    {
      "acc": 0.73317766,
      "epoch": 0.9042364282090309,
      "grad_norm": 3.703125,
      "learning_rate": 6.193445295342538e-06,
      "loss": 1.03996687,
      "memory(GiB)": 112.26,
      "step": 35645,
      "train_speed(iter/s)": 1.129816
    },
    {
      "acc": 0.72007198,
      "epoch": 0.904363267376966,
      "grad_norm": 3.265625,
      "learning_rate": 6.192426954793308e-06,
      "loss": 1.10077438,
      "memory(GiB)": 112.26,
      "step": 35650,
      "train_speed(iter/s)": 1.129847
    },
    {
      "acc": 0.74288654,
      "epoch": 0.904490106544901,
      "grad_norm": 3.734375,
      "learning_rate": 6.1914085617958135e-06,
      "loss": 1.06573458,
      "memory(GiB)": 112.26,
      "step": 35655,
      "train_speed(iter/s)": 1.129867
    },
    {
      "acc": 0.74443054,
      "epoch": 0.9046169457128361,
      "grad_norm": 3.296875,
      "learning_rate": 6.190390116394853e-06,
      "loss": 1.06374226,
      "memory(GiB)": 112.26,
      "step": 35660,
      "train_speed(iter/s)": 1.12987
    },
    {
      "acc": 0.72662811,
      "epoch": 0.9047437848807712,
      "grad_norm": 5.78125,
      "learning_rate": 6.189371618635219e-06,
      "loss": 1.11197968,
      "memory(GiB)": 112.26,
      "step": 35665,
      "train_speed(iter/s)": 1.129906
    },
    {
      "acc": 0.72817249,
      "epoch": 0.9048706240487062,
      "grad_norm": 3.328125,
      "learning_rate": 6.188353068561714e-06,
      "loss": 1.06908379,
      "memory(GiB)": 112.26,
      "step": 35670,
      "train_speed(iter/s)": 1.129925
    },
    {
      "acc": 0.74598751,
      "epoch": 0.9049974632166413,
      "grad_norm": 3.859375,
      "learning_rate": 6.187334466219133e-06,
      "loss": 1.03156567,
      "memory(GiB)": 112.26,
      "step": 35675,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.74116087,
      "epoch": 0.9051243023845763,
      "grad_norm": 3.9375,
      "learning_rate": 6.18631581165228e-06,
      "loss": 1.01449757,
      "memory(GiB)": 112.26,
      "step": 35680,
      "train_speed(iter/s)": 1.129982
    },
    {
      "acc": 0.73043499,
      "epoch": 0.9052511415525114,
      "grad_norm": 3.859375,
      "learning_rate": 6.185297104905963e-06,
      "loss": 1.08522882,
      "memory(GiB)": 112.26,
      "step": 35685,
      "train_speed(iter/s)": 1.13
    },
    {
      "acc": 0.72415333,
      "epoch": 0.9053779807204465,
      "grad_norm": 3.78125,
      "learning_rate": 6.184278346024988e-06,
      "loss": 1.11784286,
      "memory(GiB)": 112.26,
      "step": 35690,
      "train_speed(iter/s)": 1.130035
    },
    {
      "acc": 0.73463039,
      "epoch": 0.9055048198883815,
      "grad_norm": 3.359375,
      "learning_rate": 6.183259535054163e-06,
      "loss": 1.05760908,
      "memory(GiB)": 112.26,
      "step": 35695,
      "train_speed(iter/s)": 1.130059
    },
    {
      "acc": 0.71943207,
      "epoch": 0.9056316590563166,
      "grad_norm": 3.3125,
      "learning_rate": 6.1822406720383e-06,
      "loss": 1.08068542,
      "memory(GiB)": 112.26,
      "step": 35700,
      "train_speed(iter/s)": 1.130081
    },
    {
      "acc": 0.73358188,
      "epoch": 0.9057584982242517,
      "grad_norm": 3.421875,
      "learning_rate": 6.181221757022215e-06,
      "loss": 1.08745365,
      "memory(GiB)": 112.26,
      "step": 35705,
      "train_speed(iter/s)": 1.130097
    },
    {
      "acc": 0.7331336,
      "epoch": 0.9058853373921867,
      "grad_norm": 4.0625,
      "learning_rate": 6.180202790050724e-06,
      "loss": 1.07039099,
      "memory(GiB)": 112.26,
      "step": 35710,
      "train_speed(iter/s)": 1.130117
    },
    {
      "acc": 0.74023271,
      "epoch": 0.9060121765601218,
      "grad_norm": 3.4375,
      "learning_rate": 6.179183771168643e-06,
      "loss": 1.0988039,
      "memory(GiB)": 112.26,
      "step": 35715,
      "train_speed(iter/s)": 1.130134
    },
    {
      "acc": 0.73017836,
      "epoch": 0.9061390157280568,
      "grad_norm": 3.53125,
      "learning_rate": 6.1781647004207965e-06,
      "loss": 1.10977859,
      "memory(GiB)": 112.26,
      "step": 35720,
      "train_speed(iter/s)": 1.130134
    },
    {
      "acc": 0.72246218,
      "epoch": 0.9062658548959919,
      "grad_norm": 4.3125,
      "learning_rate": 6.177145577852005e-06,
      "loss": 1.12838917,
      "memory(GiB)": 112.26,
      "step": 35725,
      "train_speed(iter/s)": 1.130148
    },
    {
      "acc": 0.72254696,
      "epoch": 0.906392694063927,
      "grad_norm": 3.75,
      "learning_rate": 6.176126403507097e-06,
      "loss": 1.11426353,
      "memory(GiB)": 112.26,
      "step": 35730,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.74166145,
      "epoch": 0.906519533231862,
      "grad_norm": 3.421875,
      "learning_rate": 6.175107177430897e-06,
      "loss": 1.07181311,
      "memory(GiB)": 112.26,
      "step": 35735,
      "train_speed(iter/s)": 1.130207
    },
    {
      "acc": 0.73016205,
      "epoch": 0.9066463723997971,
      "grad_norm": 3.640625,
      "learning_rate": 6.17408789966824e-06,
      "loss": 1.03989763,
      "memory(GiB)": 112.26,
      "step": 35740,
      "train_speed(iter/s)": 1.130233
    },
    {
      "acc": 0.74152308,
      "epoch": 0.9067732115677322,
      "grad_norm": 3.484375,
      "learning_rate": 6.173068570263951e-06,
      "loss": 1.05503197,
      "memory(GiB)": 112.26,
      "step": 35745,
      "train_speed(iter/s)": 1.130243
    },
    {
      "acc": 0.73272676,
      "epoch": 0.9069000507356672,
      "grad_norm": 3.9375,
      "learning_rate": 6.172049189262872e-06,
      "loss": 1.09470901,
      "memory(GiB)": 112.26,
      "step": 35750,
      "train_speed(iter/s)": 1.130264
    },
    {
      "acc": 0.73548813,
      "epoch": 0.9070268899036023,
      "grad_norm": 3.4375,
      "learning_rate": 6.1710297567098354e-06,
      "loss": 1.1042429,
      "memory(GiB)": 112.26,
      "step": 35755,
      "train_speed(iter/s)": 1.130291
    },
    {
      "acc": 0.73150907,
      "epoch": 0.9071537290715372,
      "grad_norm": 4.40625,
      "learning_rate": 6.170010272649682e-06,
      "loss": 1.08688326,
      "memory(GiB)": 112.26,
      "step": 35760,
      "train_speed(iter/s)": 1.130306
    },
    {
      "acc": 0.72892547,
      "epoch": 0.9072805682394723,
      "grad_norm": 4.25,
      "learning_rate": 6.168990737127254e-06,
      "loss": 1.10466833,
      "memory(GiB)": 112.26,
      "step": 35765,
      "train_speed(iter/s)": 1.130329
    },
    {
      "acc": 0.73394055,
      "epoch": 0.9074074074074074,
      "grad_norm": 3.5625,
      "learning_rate": 6.167971150187394e-06,
      "loss": 1.05864735,
      "memory(GiB)": 112.26,
      "step": 35770,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.72475548,
      "epoch": 0.9075342465753424,
      "grad_norm": 3.828125,
      "learning_rate": 6.166951511874948e-06,
      "loss": 1.1460578,
      "memory(GiB)": 112.26,
      "step": 35775,
      "train_speed(iter/s)": 1.130368
    },
    {
      "acc": 0.74193144,
      "epoch": 0.9076610857432775,
      "grad_norm": 4.28125,
      "learning_rate": 6.165931822234764e-06,
      "loss": 1.06469879,
      "memory(GiB)": 112.26,
      "step": 35780,
      "train_speed(iter/s)": 1.130393
    },
    {
      "acc": 0.73667698,
      "epoch": 0.9077879249112126,
      "grad_norm": 4.625,
      "learning_rate": 6.164912081311694e-06,
      "loss": 1.14393587,
      "memory(GiB)": 112.26,
      "step": 35785,
      "train_speed(iter/s)": 1.130412
    },
    {
      "acc": 0.73649359,
      "epoch": 0.9079147640791476,
      "grad_norm": 3.765625,
      "learning_rate": 6.163892289150588e-06,
      "loss": 1.0287344,
      "memory(GiB)": 112.26,
      "step": 35790,
      "train_speed(iter/s)": 1.130443
    },
    {
      "acc": 0.74919252,
      "epoch": 0.9080416032470827,
      "grad_norm": 4.03125,
      "learning_rate": 6.162872445796303e-06,
      "loss": 1.05639496,
      "memory(GiB)": 112.26,
      "step": 35795,
      "train_speed(iter/s)": 1.130469
    },
    {
      "acc": 0.72340722,
      "epoch": 0.9081684424150177,
      "grad_norm": 3.15625,
      "learning_rate": 6.161852551293697e-06,
      "loss": 1.10744419,
      "memory(GiB)": 112.26,
      "step": 35800,
      "train_speed(iter/s)": 1.130491
    },
    {
      "acc": 0.73413692,
      "epoch": 0.9082952815829528,
      "grad_norm": 4.4375,
      "learning_rate": 6.160832605687628e-06,
      "loss": 1.11911097,
      "memory(GiB)": 112.26,
      "step": 35805,
      "train_speed(iter/s)": 1.130503
    },
    {
      "acc": 0.73400164,
      "epoch": 0.9084221207508879,
      "grad_norm": 3.9375,
      "learning_rate": 6.159812609022961e-06,
      "loss": 1.07344666,
      "memory(GiB)": 112.26,
      "step": 35810,
      "train_speed(iter/s)": 1.130525
    },
    {
      "acc": 0.72607718,
      "epoch": 0.9085489599188229,
      "grad_norm": 3.015625,
      "learning_rate": 6.158792561344553e-06,
      "loss": 1.11441317,
      "memory(GiB)": 112.26,
      "step": 35815,
      "train_speed(iter/s)": 1.130537
    },
    {
      "acc": 0.73353558,
      "epoch": 0.908675799086758,
      "grad_norm": 4.1875,
      "learning_rate": 6.157772462697277e-06,
      "loss": 1.10795822,
      "memory(GiB)": 112.26,
      "step": 35820,
      "train_speed(iter/s)": 1.130547
    },
    {
      "acc": 0.74243479,
      "epoch": 0.9088026382546931,
      "grad_norm": 4.21875,
      "learning_rate": 6.156752313125998e-06,
      "loss": 1.10765142,
      "memory(GiB)": 112.26,
      "step": 35825,
      "train_speed(iter/s)": 1.130578
    },
    {
      "acc": 0.74440985,
      "epoch": 0.9089294774226281,
      "grad_norm": 4.25,
      "learning_rate": 6.155732112675587e-06,
      "loss": 1.06653824,
      "memory(GiB)": 112.26,
      "step": 35830,
      "train_speed(iter/s)": 1.130599
    },
    {
      "acc": 0.75737805,
      "epoch": 0.9090563165905632,
      "grad_norm": 4.0625,
      "learning_rate": 6.154711861390919e-06,
      "loss": 0.99404802,
      "memory(GiB)": 112.26,
      "step": 35835,
      "train_speed(iter/s)": 1.130616
    },
    {
      "acc": 0.73544726,
      "epoch": 0.9091831557584982,
      "grad_norm": 3.15625,
      "learning_rate": 6.153691559316868e-06,
      "loss": 1.0908761,
      "memory(GiB)": 112.26,
      "step": 35840,
      "train_speed(iter/s)": 1.130639
    },
    {
      "acc": 0.719909,
      "epoch": 0.9093099949264333,
      "grad_norm": 4.21875,
      "learning_rate": 6.152671206498311e-06,
      "loss": 1.17339172,
      "memory(GiB)": 112.26,
      "step": 35845,
      "train_speed(iter/s)": 1.130667
    },
    {
      "acc": 0.74824314,
      "epoch": 0.9094368340943684,
      "grad_norm": 3.71875,
      "learning_rate": 6.151650802980128e-06,
      "loss": 1.04081554,
      "memory(GiB)": 112.26,
      "step": 35850,
      "train_speed(iter/s)": 1.130679
    },
    {
      "acc": 0.72864833,
      "epoch": 0.9095636732623034,
      "grad_norm": 3.78125,
      "learning_rate": 6.150630348807201e-06,
      "loss": 1.13395987,
      "memory(GiB)": 112.26,
      "step": 35855,
      "train_speed(iter/s)": 1.130699
    },
    {
      "acc": 0.7156003,
      "epoch": 0.9096905124302385,
      "grad_norm": 4.78125,
      "learning_rate": 6.149609844024413e-06,
      "loss": 1.13499298,
      "memory(GiB)": 112.26,
      "step": 35860,
      "train_speed(iter/s)": 1.130734
    },
    {
      "acc": 0.73110614,
      "epoch": 0.9098173515981736,
      "grad_norm": 3.328125,
      "learning_rate": 6.148589288676652e-06,
      "loss": 1.13285809,
      "memory(GiB)": 112.26,
      "step": 35865,
      "train_speed(iter/s)": 1.130766
    },
    {
      "acc": 0.73888226,
      "epoch": 0.9099441907661086,
      "grad_norm": 4.59375,
      "learning_rate": 6.147568682808808e-06,
      "loss": 1.05988665,
      "memory(GiB)": 112.26,
      "step": 35870,
      "train_speed(iter/s)": 1.130797
    },
    {
      "acc": 0.7416719,
      "epoch": 0.9100710299340437,
      "grad_norm": 4.125,
      "learning_rate": 6.146548026465766e-06,
      "loss": 1.10185604,
      "memory(GiB)": 112.26,
      "step": 35875,
      "train_speed(iter/s)": 1.130824
    },
    {
      "acc": 0.74616456,
      "epoch": 0.9101978691019786,
      "grad_norm": 4.21875,
      "learning_rate": 6.145527319692427e-06,
      "loss": 1.03483162,
      "memory(GiB)": 112.26,
      "step": 35880,
      "train_speed(iter/s)": 1.130838
    },
    {
      "acc": 0.7381732,
      "epoch": 0.9103247082699137,
      "grad_norm": 3.625,
      "learning_rate": 6.144506562533678e-06,
      "loss": 1.05614729,
      "memory(GiB)": 112.26,
      "step": 35885,
      "train_speed(iter/s)": 1.130866
    },
    {
      "acc": 0.74064293,
      "epoch": 0.9104515474378488,
      "grad_norm": 3.9375,
      "learning_rate": 6.143485755034425e-06,
      "loss": 1.05247669,
      "memory(GiB)": 112.26,
      "step": 35890,
      "train_speed(iter/s)": 1.13089
    },
    {
      "acc": 0.73032608,
      "epoch": 0.9105783866057838,
      "grad_norm": 4.125,
      "learning_rate": 6.14246489723956e-06,
      "loss": 1.0741498,
      "memory(GiB)": 112.26,
      "step": 35895,
      "train_speed(iter/s)": 1.130908
    },
    {
      "acc": 0.73326364,
      "epoch": 0.9107052257737189,
      "grad_norm": 4.4375,
      "learning_rate": 6.141443989193988e-06,
      "loss": 1.08726549,
      "memory(GiB)": 112.26,
      "step": 35900,
      "train_speed(iter/s)": 1.130943
    },
    {
      "acc": 0.7200129,
      "epoch": 0.910832064941654,
      "grad_norm": 3.9375,
      "learning_rate": 6.140423030942615e-06,
      "loss": 1.17116156,
      "memory(GiB)": 112.26,
      "step": 35905,
      "train_speed(iter/s)": 1.130954
    },
    {
      "acc": 0.73998361,
      "epoch": 0.910958904109589,
      "grad_norm": 3.203125,
      "learning_rate": 6.139402022530344e-06,
      "loss": 1.08091908,
      "memory(GiB)": 112.26,
      "step": 35910,
      "train_speed(iter/s)": 1.130983
    },
    {
      "acc": 0.7254961,
      "epoch": 0.9110857432775241,
      "grad_norm": 3.765625,
      "learning_rate": 6.138380964002087e-06,
      "loss": 1.09802961,
      "memory(GiB)": 112.26,
      "step": 35915,
      "train_speed(iter/s)": 1.131001
    },
    {
      "acc": 0.74867191,
      "epoch": 0.9112125824454591,
      "grad_norm": 5.4375,
      "learning_rate": 6.13735985540275e-06,
      "loss": 1.03516903,
      "memory(GiB)": 112.26,
      "step": 35920,
      "train_speed(iter/s)": 1.131022
    },
    {
      "acc": 0.73508091,
      "epoch": 0.9113394216133942,
      "grad_norm": 4.59375,
      "learning_rate": 6.13633869677725e-06,
      "loss": 1.0406085,
      "memory(GiB)": 112.26,
      "step": 35925,
      "train_speed(iter/s)": 1.131022
    },
    {
      "acc": 0.72773013,
      "epoch": 0.9114662607813293,
      "grad_norm": 3.46875,
      "learning_rate": 6.1353174881705e-06,
      "loss": 1.09814596,
      "memory(GiB)": 112.26,
      "step": 35930,
      "train_speed(iter/s)": 1.131025
    },
    {
      "acc": 0.71929603,
      "epoch": 0.9115930999492643,
      "grad_norm": 3.578125,
      "learning_rate": 6.134296229627419e-06,
      "loss": 1.14818525,
      "memory(GiB)": 112.26,
      "step": 35935,
      "train_speed(iter/s)": 1.131038
    },
    {
      "acc": 0.73332462,
      "epoch": 0.9117199391171994,
      "grad_norm": 3.703125,
      "learning_rate": 6.1332749211929255e-06,
      "loss": 1.0935606,
      "memory(GiB)": 112.26,
      "step": 35940,
      "train_speed(iter/s)": 1.131065
    },
    {
      "acc": 0.75275679,
      "epoch": 0.9118467782851345,
      "grad_norm": 3.859375,
      "learning_rate": 6.132253562911941e-06,
      "loss": 1.03277903,
      "memory(GiB)": 112.26,
      "step": 35945,
      "train_speed(iter/s)": 1.131088
    },
    {
      "acc": 0.74450583,
      "epoch": 0.9119736174530695,
      "grad_norm": 3.703125,
      "learning_rate": 6.1312321548293895e-06,
      "loss": 1.04791384,
      "memory(GiB)": 112.26,
      "step": 35950,
      "train_speed(iter/s)": 1.131121
    },
    {
      "acc": 0.73308654,
      "epoch": 0.9121004566210046,
      "grad_norm": 3.59375,
      "learning_rate": 6.130210696990197e-06,
      "loss": 1.16677856,
      "memory(GiB)": 112.26,
      "step": 35955,
      "train_speed(iter/s)": 1.131136
    },
    {
      "acc": 0.73586965,
      "epoch": 0.9122272957889396,
      "grad_norm": 4.28125,
      "learning_rate": 6.129189189439293e-06,
      "loss": 1.13615932,
      "memory(GiB)": 112.26,
      "step": 35960,
      "train_speed(iter/s)": 1.131152
    },
    {
      "acc": 0.73202696,
      "epoch": 0.9123541349568747,
      "grad_norm": 5.125,
      "learning_rate": 6.128167632221605e-06,
      "loss": 1.11352606,
      "memory(GiB)": 112.26,
      "step": 35965,
      "train_speed(iter/s)": 1.131179
    },
    {
      "acc": 0.74037991,
      "epoch": 0.9124809741248098,
      "grad_norm": 3.375,
      "learning_rate": 6.127146025382069e-06,
      "loss": 1.04218731,
      "memory(GiB)": 112.26,
      "step": 35970,
      "train_speed(iter/s)": 1.131183
    },
    {
      "acc": 0.72356977,
      "epoch": 0.9126078132927448,
      "grad_norm": 3.96875,
      "learning_rate": 6.126124368965619e-06,
      "loss": 1.15508862,
      "memory(GiB)": 112.26,
      "step": 35975,
      "train_speed(iter/s)": 1.131214
    },
    {
      "acc": 0.71308546,
      "epoch": 0.9127346524606799,
      "grad_norm": 3.953125,
      "learning_rate": 6.125102663017191e-06,
      "loss": 1.19620457,
      "memory(GiB)": 112.26,
      "step": 35980,
      "train_speed(iter/s)": 1.131231
    },
    {
      "acc": 0.74131603,
      "epoch": 0.912861491628615,
      "grad_norm": 3.34375,
      "learning_rate": 6.124080907581724e-06,
      "loss": 1.060742,
      "memory(GiB)": 112.26,
      "step": 35985,
      "train_speed(iter/s)": 1.131248
    },
    {
      "acc": 0.7400197,
      "epoch": 0.91298833079655,
      "grad_norm": 3.4375,
      "learning_rate": 6.1230591027041605e-06,
      "loss": 1.06560555,
      "memory(GiB)": 112.26,
      "step": 35990,
      "train_speed(iter/s)": 1.131245
    },
    {
      "acc": 0.7453691,
      "epoch": 0.913115169964485,
      "grad_norm": 3.375,
      "learning_rate": 6.1220372484294444e-06,
      "loss": 1.02163801,
      "memory(GiB)": 112.26,
      "step": 35995,
      "train_speed(iter/s)": 1.131271
    },
    {
      "acc": 0.72397566,
      "epoch": 0.91324200913242,
      "grad_norm": 3.828125,
      "learning_rate": 6.12101534480252e-06,
      "loss": 1.09035091,
      "memory(GiB)": 112.26,
      "step": 36000,
      "train_speed(iter/s)": 1.131291
    },
    {
      "epoch": 0.91324200913242,
      "eval_acc": 0.7252248583606379,
      "eval_loss": 1.0467991828918457,
      "eval_runtime": 70.8743,
      "eval_samples_per_second": 89.877,
      "eval_steps_per_second": 22.476,
      "step": 36000
    },
    {
      "acc": 0.73685589,
      "epoch": 0.9133688483003551,
      "grad_norm": 3.953125,
      "learning_rate": 6.119993391868335e-06,
      "loss": 1.06444302,
      "memory(GiB)": 112.26,
      "step": 36005,
      "train_speed(iter/s)": 1.127236
    },
    {
      "acc": 0.74828119,
      "epoch": 0.9134956874682902,
      "grad_norm": 3.4375,
      "learning_rate": 6.118971389671842e-06,
      "loss": 1.05791254,
      "memory(GiB)": 112.26,
      "step": 36010,
      "train_speed(iter/s)": 1.127263
    },
    {
      "acc": 0.73045506,
      "epoch": 0.9136225266362252,
      "grad_norm": 3.171875,
      "learning_rate": 6.117949338257989e-06,
      "loss": 1.10517282,
      "memory(GiB)": 112.26,
      "step": 36015,
      "train_speed(iter/s)": 1.127273
    },
    {
      "acc": 0.73937039,
      "epoch": 0.9137493658041603,
      "grad_norm": 4.0,
      "learning_rate": 6.116927237671735e-06,
      "loss": 1.05690899,
      "memory(GiB)": 112.26,
      "step": 36020,
      "train_speed(iter/s)": 1.127292
    },
    {
      "acc": 0.73834915,
      "epoch": 0.9138762049720954,
      "grad_norm": 4.21875,
      "learning_rate": 6.115905087958032e-06,
      "loss": 1.04936352,
      "memory(GiB)": 112.26,
      "step": 36025,
      "train_speed(iter/s)": 1.127317
    },
    {
      "acc": 0.73160067,
      "epoch": 0.9140030441400304,
      "grad_norm": 3.9375,
      "learning_rate": 6.114882889161844e-06,
      "loss": 1.11267834,
      "memory(GiB)": 112.26,
      "step": 36030,
      "train_speed(iter/s)": 1.127333
    },
    {
      "acc": 0.74403181,
      "epoch": 0.9141298833079655,
      "grad_norm": 4.0,
      "learning_rate": 6.113860641328127e-06,
      "loss": 1.07658339,
      "memory(GiB)": 112.26,
      "step": 36035,
      "train_speed(iter/s)": 1.127367
    },
    {
      "acc": 0.73737559,
      "epoch": 0.9142567224759005,
      "grad_norm": 3.828125,
      "learning_rate": 6.112838344501846e-06,
      "loss": 1.05203791,
      "memory(GiB)": 112.26,
      "step": 36040,
      "train_speed(iter/s)": 1.127396
    },
    {
      "acc": 0.73442917,
      "epoch": 0.9143835616438356,
      "grad_norm": 3.75,
      "learning_rate": 6.111815998727966e-06,
      "loss": 1.11930723,
      "memory(GiB)": 112.26,
      "step": 36045,
      "train_speed(iter/s)": 1.12742
    },
    {
      "acc": 0.73878059,
      "epoch": 0.9145104008117707,
      "grad_norm": 4.125,
      "learning_rate": 6.110793604051455e-06,
      "loss": 1.04714508,
      "memory(GiB)": 112.26,
      "step": 36050,
      "train_speed(iter/s)": 1.127434
    },
    {
      "acc": 0.73341055,
      "epoch": 0.9146372399797057,
      "grad_norm": 4.1875,
      "learning_rate": 6.109771160517283e-06,
      "loss": 1.10317326,
      "memory(GiB)": 112.26,
      "step": 36055,
      "train_speed(iter/s)": 1.127452
    },
    {
      "acc": 0.73674803,
      "epoch": 0.9147640791476408,
      "grad_norm": 4.28125,
      "learning_rate": 6.108748668170419e-06,
      "loss": 1.1082346,
      "memory(GiB)": 112.26,
      "step": 36060,
      "train_speed(iter/s)": 1.127463
    },
    {
      "acc": 0.74155521,
      "epoch": 0.9148909183155759,
      "grad_norm": 3.15625,
      "learning_rate": 6.1077261270558385e-06,
      "loss": 1.08522053,
      "memory(GiB)": 112.26,
      "step": 36065,
      "train_speed(iter/s)": 1.127478
    },
    {
      "acc": 0.73218331,
      "epoch": 0.9150177574835109,
      "grad_norm": 3.046875,
      "learning_rate": 6.106703537218518e-06,
      "loss": 1.11004944,
      "memory(GiB)": 112.26,
      "step": 36070,
      "train_speed(iter/s)": 1.127493
    },
    {
      "acc": 0.73318901,
      "epoch": 0.915144596651446,
      "grad_norm": 3.46875,
      "learning_rate": 6.105680898703434e-06,
      "loss": 1.09262753,
      "memory(GiB)": 112.26,
      "step": 36075,
      "train_speed(iter/s)": 1.12751
    },
    {
      "acc": 0.7267086,
      "epoch": 0.915271435819381,
      "grad_norm": 3.078125,
      "learning_rate": 6.104658211555568e-06,
      "loss": 1.11668701,
      "memory(GiB)": 112.26,
      "step": 36080,
      "train_speed(iter/s)": 1.127513
    },
    {
      "acc": 0.73181915,
      "epoch": 0.9153982749873161,
      "grad_norm": 4.375,
      "learning_rate": 6.103635475819902e-06,
      "loss": 1.09688015,
      "memory(GiB)": 112.26,
      "step": 36085,
      "train_speed(iter/s)": 1.127532
    },
    {
      "acc": 0.73209801,
      "epoch": 0.9155251141552512,
      "grad_norm": 3.28125,
      "learning_rate": 6.102612691541422e-06,
      "loss": 1.09076414,
      "memory(GiB)": 112.26,
      "step": 36090,
      "train_speed(iter/s)": 1.127558
    },
    {
      "acc": 0.72442751,
      "epoch": 0.9156519533231862,
      "grad_norm": 3.578125,
      "learning_rate": 6.10158985876511e-06,
      "loss": 1.06360893,
      "memory(GiB)": 112.26,
      "step": 36095,
      "train_speed(iter/s)": 1.12759
    },
    {
      "acc": 0.73680182,
      "epoch": 0.9157787924911213,
      "grad_norm": 3.71875,
      "learning_rate": 6.10056697753596e-06,
      "loss": 1.04817171,
      "memory(GiB)": 112.26,
      "step": 36100,
      "train_speed(iter/s)": 1.127608
    },
    {
      "acc": 0.7276104,
      "epoch": 0.9159056316590564,
      "grad_norm": 3.1875,
      "learning_rate": 6.0995440478989595e-06,
      "loss": 1.05457907,
      "memory(GiB)": 112.26,
      "step": 36105,
      "train_speed(iter/s)": 1.127616
    },
    {
      "acc": 0.76028709,
      "epoch": 0.9160324708269914,
      "grad_norm": 4.9375,
      "learning_rate": 6.098521069899104e-06,
      "loss": 0.92029686,
      "memory(GiB)": 112.26,
      "step": 36110,
      "train_speed(iter/s)": 1.127631
    },
    {
      "acc": 0.7360333,
      "epoch": 0.9161593099949265,
      "grad_norm": 4.59375,
      "learning_rate": 6.097498043581385e-06,
      "loss": 1.1274826,
      "memory(GiB)": 112.26,
      "step": 36115,
      "train_speed(iter/s)": 1.127658
    },
    {
      "acc": 0.74398546,
      "epoch": 0.9162861491628614,
      "grad_norm": 4.15625,
      "learning_rate": 6.096474968990804e-06,
      "loss": 1.04806728,
      "memory(GiB)": 112.26,
      "step": 36120,
      "train_speed(iter/s)": 1.12767
    },
    {
      "acc": 0.73421988,
      "epoch": 0.9164129883307965,
      "grad_norm": 3.171875,
      "learning_rate": 6.095451846172358e-06,
      "loss": 1.08422184,
      "memory(GiB)": 112.26,
      "step": 36125,
      "train_speed(iter/s)": 1.127697
    },
    {
      "acc": 0.73202868,
      "epoch": 0.9165398274987316,
      "grad_norm": 4.3125,
      "learning_rate": 6.094428675171049e-06,
      "loss": 1.1082346,
      "memory(GiB)": 112.26,
      "step": 36130,
      "train_speed(iter/s)": 1.127722
    },
    {
      "acc": 0.74078789,
      "epoch": 0.9166666666666666,
      "grad_norm": 3.9375,
      "learning_rate": 6.09340545603188e-06,
      "loss": 1.09921141,
      "memory(GiB)": 112.26,
      "step": 36135,
      "train_speed(iter/s)": 1.127752
    },
    {
      "acc": 0.74632912,
      "epoch": 0.9167935058346017,
      "grad_norm": 3.78125,
      "learning_rate": 6.092382188799858e-06,
      "loss": 1.0578228,
      "memory(GiB)": 112.26,
      "step": 36140,
      "train_speed(iter/s)": 1.127775
    },
    {
      "acc": 0.74146214,
      "epoch": 0.9169203450025368,
      "grad_norm": 3.53125,
      "learning_rate": 6.09135887351999e-06,
      "loss": 1.06677732,
      "memory(GiB)": 112.26,
      "step": 36145,
      "train_speed(iter/s)": 1.127807
    },
    {
      "acc": 0.73349428,
      "epoch": 0.9170471841704718,
      "grad_norm": 5.375,
      "learning_rate": 6.090335510237286e-06,
      "loss": 1.07268887,
      "memory(GiB)": 112.26,
      "step": 36150,
      "train_speed(iter/s)": 1.127833
    },
    {
      "acc": 0.73614469,
      "epoch": 0.9171740233384069,
      "grad_norm": 3.390625,
      "learning_rate": 6.089312098996758e-06,
      "loss": 1.05335617,
      "memory(GiB)": 112.26,
      "step": 36155,
      "train_speed(iter/s)": 1.127844
    },
    {
      "acc": 0.7410727,
      "epoch": 0.9173008625063419,
      "grad_norm": 4.84375,
      "learning_rate": 6.088288639843422e-06,
      "loss": 1.06359091,
      "memory(GiB)": 112.26,
      "step": 36160,
      "train_speed(iter/s)": 1.127877
    },
    {
      "acc": 0.7430666,
      "epoch": 0.917427701674277,
      "grad_norm": 4.125,
      "learning_rate": 6.08726513282229e-06,
      "loss": 1.0629632,
      "memory(GiB)": 112.26,
      "step": 36165,
      "train_speed(iter/s)": 1.127882
    },
    {
      "acc": 0.73967743,
      "epoch": 0.9175545408422121,
      "grad_norm": 3.453125,
      "learning_rate": 6.0862415779783855e-06,
      "loss": 1.08691216,
      "memory(GiB)": 112.26,
      "step": 36170,
      "train_speed(iter/s)": 1.127897
    },
    {
      "acc": 0.72878647,
      "epoch": 0.9176813800101471,
      "grad_norm": 4.03125,
      "learning_rate": 6.085217975356726e-06,
      "loss": 1.10836544,
      "memory(GiB)": 112.26,
      "step": 36175,
      "train_speed(iter/s)": 1.127919
    },
    {
      "acc": 0.72145224,
      "epoch": 0.9178082191780822,
      "grad_norm": 3.21875,
      "learning_rate": 6.084194325002335e-06,
      "loss": 1.1354393,
      "memory(GiB)": 112.26,
      "step": 36180,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.74220815,
      "epoch": 0.9179350583460173,
      "grad_norm": 3.71875,
      "learning_rate": 6.083170626960237e-06,
      "loss": 1.04843674,
      "memory(GiB)": 112.26,
      "step": 36185,
      "train_speed(iter/s)": 1.127945
    },
    {
      "acc": 0.74203262,
      "epoch": 0.9180618975139523,
      "grad_norm": 2.96875,
      "learning_rate": 6.082146881275458e-06,
      "loss": 1.05741749,
      "memory(GiB)": 112.26,
      "step": 36190,
      "train_speed(iter/s)": 1.127958
    },
    {
      "acc": 0.73802724,
      "epoch": 0.9181887366818874,
      "grad_norm": 3.8125,
      "learning_rate": 6.081123087993028e-06,
      "loss": 1.047756,
      "memory(GiB)": 112.26,
      "step": 36195,
      "train_speed(iter/s)": 1.127979
    },
    {
      "acc": 0.72353024,
      "epoch": 0.9183155758498224,
      "grad_norm": 3.90625,
      "learning_rate": 6.0800992471579775e-06,
      "loss": 1.11355686,
      "memory(GiB)": 112.26,
      "step": 36200,
      "train_speed(iter/s)": 1.12801
    },
    {
      "acc": 0.74618368,
      "epoch": 0.9184424150177575,
      "grad_norm": 3.390625,
      "learning_rate": 6.079075358815341e-06,
      "loss": 1.0391983,
      "memory(GiB)": 112.26,
      "step": 36205,
      "train_speed(iter/s)": 1.128039
    },
    {
      "acc": 0.73272514,
      "epoch": 0.9185692541856926,
      "grad_norm": 3.78125,
      "learning_rate": 6.078051423010152e-06,
      "loss": 1.11707325,
      "memory(GiB)": 112.26,
      "step": 36210,
      "train_speed(iter/s)": 1.128058
    },
    {
      "acc": 0.72853651,
      "epoch": 0.9186960933536276,
      "grad_norm": 4.03125,
      "learning_rate": 6.077027439787448e-06,
      "loss": 1.12889652,
      "memory(GiB)": 112.26,
      "step": 36215,
      "train_speed(iter/s)": 1.12807
    },
    {
      "acc": 0.73101058,
      "epoch": 0.9188229325215627,
      "grad_norm": 3.5,
      "learning_rate": 6.076003409192268e-06,
      "loss": 1.10705738,
      "memory(GiB)": 112.26,
      "step": 36220,
      "train_speed(iter/s)": 1.128093
    },
    {
      "acc": 0.73709688,
      "epoch": 0.9189497716894978,
      "grad_norm": 3.8125,
      "learning_rate": 6.074979331269656e-06,
      "loss": 1.09364185,
      "memory(GiB)": 112.26,
      "step": 36225,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.73548107,
      "epoch": 0.9190766108574328,
      "grad_norm": 3.40625,
      "learning_rate": 6.0739552060646525e-06,
      "loss": 1.11379795,
      "memory(GiB)": 112.26,
      "step": 36230,
      "train_speed(iter/s)": 1.128149
    },
    {
      "acc": 0.74358387,
      "epoch": 0.9192034500253679,
      "grad_norm": 4.25,
      "learning_rate": 6.0729310336223025e-06,
      "loss": 1.04563198,
      "memory(GiB)": 112.26,
      "step": 36235,
      "train_speed(iter/s)": 1.128176
    },
    {
      "acc": 0.74270039,
      "epoch": 0.9193302891933028,
      "grad_norm": 3.09375,
      "learning_rate": 6.071906813987658e-06,
      "loss": 1.02908249,
      "memory(GiB)": 112.26,
      "step": 36240,
      "train_speed(iter/s)": 1.128194
    },
    {
      "acc": 0.74064732,
      "epoch": 0.9194571283612379,
      "grad_norm": 4.3125,
      "learning_rate": 6.070882547205764e-06,
      "loss": 1.09480505,
      "memory(GiB)": 112.26,
      "step": 36245,
      "train_speed(iter/s)": 1.128202
    },
    {
      "acc": 0.7511014,
      "epoch": 0.919583967529173,
      "grad_norm": 3.796875,
      "learning_rate": 6.069858233321677e-06,
      "loss": 1.01942024,
      "memory(GiB)": 112.26,
      "step": 36250,
      "train_speed(iter/s)": 1.128209
    },
    {
      "acc": 0.73764229,
      "epoch": 0.919710806697108,
      "grad_norm": 3.84375,
      "learning_rate": 6.068833872380445e-06,
      "loss": 1.04687786,
      "memory(GiB)": 112.26,
      "step": 36255,
      "train_speed(iter/s)": 1.128235
    },
    {
      "acc": 0.72434978,
      "epoch": 0.9198376458650431,
      "grad_norm": 4.03125,
      "learning_rate": 6.067809464427129e-06,
      "loss": 1.13148937,
      "memory(GiB)": 112.26,
      "step": 36260,
      "train_speed(iter/s)": 1.128262
    },
    {
      "acc": 0.74336963,
      "epoch": 0.9199644850329782,
      "grad_norm": 4.03125,
      "learning_rate": 6.066785009506786e-06,
      "loss": 1.06351604,
      "memory(GiB)": 112.26,
      "step": 36265,
      "train_speed(iter/s)": 1.128284
    },
    {
      "acc": 0.74152241,
      "epoch": 0.9200913242009132,
      "grad_norm": 3.859375,
      "learning_rate": 6.065760507664474e-06,
      "loss": 1.07328272,
      "memory(GiB)": 112.26,
      "step": 36270,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.73856325,
      "epoch": 0.9202181633688483,
      "grad_norm": 4.71875,
      "learning_rate": 6.064735958945258e-06,
      "loss": 1.0864584,
      "memory(GiB)": 112.26,
      "step": 36275,
      "train_speed(iter/s)": 1.128325
    },
    {
      "acc": 0.7506741,
      "epoch": 0.9203450025367833,
      "grad_norm": 5.5,
      "learning_rate": 6.0637113633942006e-06,
      "loss": 1.07088051,
      "memory(GiB)": 112.26,
      "step": 36280,
      "train_speed(iter/s)": 1.128332
    },
    {
      "acc": 0.71796956,
      "epoch": 0.9204718417047184,
      "grad_norm": 3.515625,
      "learning_rate": 6.0626867210563675e-06,
      "loss": 1.17674332,
      "memory(GiB)": 112.26,
      "step": 36285,
      "train_speed(iter/s)": 1.128347
    },
    {
      "acc": 0.74497285,
      "epoch": 0.9205986808726535,
      "grad_norm": 3.234375,
      "learning_rate": 6.061662031976828e-06,
      "loss": 1.05570869,
      "memory(GiB)": 112.26,
      "step": 36290,
      "train_speed(iter/s)": 1.12838
    },
    {
      "acc": 0.7330543,
      "epoch": 0.9207255200405885,
      "grad_norm": 3.546875,
      "learning_rate": 6.0606372962006534e-06,
      "loss": 1.05233965,
      "memory(GiB)": 112.26,
      "step": 36295,
      "train_speed(iter/s)": 1.128416
    },
    {
      "acc": 0.72224641,
      "epoch": 0.9208523592085236,
      "grad_norm": 3.34375,
      "learning_rate": 6.0596125137729145e-06,
      "loss": 1.10895348,
      "memory(GiB)": 112.26,
      "step": 36300,
      "train_speed(iter/s)": 1.128424
    },
    {
      "acc": 0.72852955,
      "epoch": 0.9209791983764587,
      "grad_norm": 3.859375,
      "learning_rate": 6.058587684738685e-06,
      "loss": 1.12356787,
      "memory(GiB)": 112.26,
      "step": 36305,
      "train_speed(iter/s)": 1.128454
    },
    {
      "acc": 0.73688345,
      "epoch": 0.9211060375443937,
      "grad_norm": 4.3125,
      "learning_rate": 6.057562809143045e-06,
      "loss": 1.0384717,
      "memory(GiB)": 112.26,
      "step": 36310,
      "train_speed(iter/s)": 1.128469
    },
    {
      "acc": 0.73089685,
      "epoch": 0.9212328767123288,
      "grad_norm": 3.4375,
      "learning_rate": 6.056537887031069e-06,
      "loss": 1.07163258,
      "memory(GiB)": 112.26,
      "step": 36315,
      "train_speed(iter/s)": 1.128489
    },
    {
      "acc": 0.74284983,
      "epoch": 0.9213597158802638,
      "grad_norm": 3.359375,
      "learning_rate": 6.055512918447841e-06,
      "loss": 1.0816,
      "memory(GiB)": 112.26,
      "step": 36320,
      "train_speed(iter/s)": 1.128518
    },
    {
      "acc": 0.73244319,
      "epoch": 0.9214865550481989,
      "grad_norm": 3.375,
      "learning_rate": 6.054487903438442e-06,
      "loss": 1.06626778,
      "memory(GiB)": 112.26,
      "step": 36325,
      "train_speed(iter/s)": 1.128544
    },
    {
      "acc": 0.74101419,
      "epoch": 0.921613394216134,
      "grad_norm": 4.0,
      "learning_rate": 6.0534628420479576e-06,
      "loss": 1.08701,
      "memory(GiB)": 112.26,
      "step": 36330,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.73428826,
      "epoch": 0.921740233384069,
      "grad_norm": 3.65625,
      "learning_rate": 6.0524377343214724e-06,
      "loss": 1.13126698,
      "memory(GiB)": 112.26,
      "step": 36335,
      "train_speed(iter/s)": 1.128582
    },
    {
      "acc": 0.72692757,
      "epoch": 0.9218670725520041,
      "grad_norm": 3.84375,
      "learning_rate": 6.051412580304079e-06,
      "loss": 1.11176176,
      "memory(GiB)": 112.26,
      "step": 36340,
      "train_speed(iter/s)": 1.128608
    },
    {
      "acc": 0.72995162,
      "epoch": 0.9219939117199392,
      "grad_norm": 3.046875,
      "learning_rate": 6.050387380040864e-06,
      "loss": 1.10249691,
      "memory(GiB)": 112.26,
      "step": 36345,
      "train_speed(iter/s)": 1.128625
    },
    {
      "acc": 0.72662802,
      "epoch": 0.9221207508878742,
      "grad_norm": 3.375,
      "learning_rate": 6.049362133576924e-06,
      "loss": 1.09890375,
      "memory(GiB)": 112.26,
      "step": 36350,
      "train_speed(iter/s)": 1.128637
    },
    {
      "acc": 0.75676575,
      "epoch": 0.9222475900558093,
      "grad_norm": 4.3125,
      "learning_rate": 6.048336840957351e-06,
      "loss": 1.03814163,
      "memory(GiB)": 112.26,
      "step": 36355,
      "train_speed(iter/s)": 1.128657
    },
    {
      "acc": 0.74503489,
      "epoch": 0.9223744292237442,
      "grad_norm": 3.296875,
      "learning_rate": 6.047311502227245e-06,
      "loss": 1.08591423,
      "memory(GiB)": 112.26,
      "step": 36360,
      "train_speed(iter/s)": 1.128686
    },
    {
      "acc": 0.73338952,
      "epoch": 0.9225012683916793,
      "grad_norm": 3.671875,
      "learning_rate": 6.046286117431703e-06,
      "loss": 1.09840088,
      "memory(GiB)": 112.26,
      "step": 36365,
      "train_speed(iter/s)": 1.128694
    },
    {
      "acc": 0.73091125,
      "epoch": 0.9226281075596144,
      "grad_norm": 2.84375,
      "learning_rate": 6.0452606866158246e-06,
      "loss": 1.11556454,
      "memory(GiB)": 112.26,
      "step": 36370,
      "train_speed(iter/s)": 1.128704
    },
    {
      "acc": 0.74382606,
      "epoch": 0.9227549467275494,
      "grad_norm": 3.96875,
      "learning_rate": 6.044235209824716e-06,
      "loss": 1.03364983,
      "memory(GiB)": 112.26,
      "step": 36375,
      "train_speed(iter/s)": 1.12873
    },
    {
      "acc": 0.72234979,
      "epoch": 0.9228817858954845,
      "grad_norm": 4.15625,
      "learning_rate": 6.04320968710348e-06,
      "loss": 1.17192278,
      "memory(GiB)": 112.26,
      "step": 36380,
      "train_speed(iter/s)": 1.12874
    },
    {
      "acc": 0.71380243,
      "epoch": 0.9230086250634196,
      "grad_norm": 4.1875,
      "learning_rate": 6.042184118497223e-06,
      "loss": 1.1330265,
      "memory(GiB)": 112.26,
      "step": 36385,
      "train_speed(iter/s)": 1.128767
    },
    {
      "acc": 0.74393158,
      "epoch": 0.9231354642313546,
      "grad_norm": 4.03125,
      "learning_rate": 6.0411585040510576e-06,
      "loss": 1.06057186,
      "memory(GiB)": 112.26,
      "step": 36390,
      "train_speed(iter/s)": 1.128792
    },
    {
      "acc": 0.7356143,
      "epoch": 0.9232623033992897,
      "grad_norm": 3.515625,
      "learning_rate": 6.040132843810091e-06,
      "loss": 1.05460949,
      "memory(GiB)": 112.26,
      "step": 36395,
      "train_speed(iter/s)": 1.128821
    },
    {
      "acc": 0.76293564,
      "epoch": 0.9233891425672247,
      "grad_norm": 4.03125,
      "learning_rate": 6.03910713781944e-06,
      "loss": 0.97563505,
      "memory(GiB)": 112.26,
      "step": 36400,
      "train_speed(iter/s)": 1.128826
    },
    {
      "acc": 0.72699575,
      "epoch": 0.9235159817351598,
      "grad_norm": 3.84375,
      "learning_rate": 6.038081386124216e-06,
      "loss": 1.11073961,
      "memory(GiB)": 112.26,
      "step": 36405,
      "train_speed(iter/s)": 1.128851
    },
    {
      "acc": 0.74513216,
      "epoch": 0.9236428209030949,
      "grad_norm": 3.59375,
      "learning_rate": 6.037055588769539e-06,
      "loss": 1.02654009,
      "memory(GiB)": 112.26,
      "step": 36410,
      "train_speed(iter/s)": 1.128877
    },
    {
      "acc": 0.74023685,
      "epoch": 0.9237696600710299,
      "grad_norm": 3.421875,
      "learning_rate": 6.036029745800527e-06,
      "loss": 1.03984814,
      "memory(GiB)": 112.26,
      "step": 36415,
      "train_speed(iter/s)": 1.128897
    },
    {
      "acc": 0.7403368,
      "epoch": 0.923896499238965,
      "grad_norm": 3.46875,
      "learning_rate": 6.0350038572623e-06,
      "loss": 1.14254446,
      "memory(GiB)": 112.26,
      "step": 36420,
      "train_speed(iter/s)": 1.128912
    },
    {
      "acc": 0.73201222,
      "epoch": 0.9240233384069001,
      "grad_norm": 3.5,
      "learning_rate": 6.033977923199984e-06,
      "loss": 1.09267502,
      "memory(GiB)": 112.26,
      "step": 36425,
      "train_speed(iter/s)": 1.128935
    },
    {
      "acc": 0.75043254,
      "epoch": 0.9241501775748351,
      "grad_norm": 4.21875,
      "learning_rate": 6.032951943658702e-06,
      "loss": 1.03117352,
      "memory(GiB)": 112.26,
      "step": 36430,
      "train_speed(iter/s)": 1.128953
    },
    {
      "acc": 0.72956495,
      "epoch": 0.9242770167427702,
      "grad_norm": 4.0,
      "learning_rate": 6.031925918683582e-06,
      "loss": 1.08043041,
      "memory(GiB)": 112.26,
      "step": 36435,
      "train_speed(iter/s)": 1.128966
    },
    {
      "acc": 0.72877645,
      "epoch": 0.9244038559107052,
      "grad_norm": 4.09375,
      "learning_rate": 6.030899848319754e-06,
      "loss": 1.14104872,
      "memory(GiB)": 112.26,
      "step": 36440,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.73034701,
      "epoch": 0.9245306950786403,
      "grad_norm": 3.59375,
      "learning_rate": 6.029873732612346e-06,
      "loss": 1.09901066,
      "memory(GiB)": 112.26,
      "step": 36445,
      "train_speed(iter/s)": 1.128989
    },
    {
      "acc": 0.72909646,
      "epoch": 0.9246575342465754,
      "grad_norm": 4.21875,
      "learning_rate": 6.028847571606493e-06,
      "loss": 1.12109995,
      "memory(GiB)": 112.26,
      "step": 36450,
      "train_speed(iter/s)": 1.128998
    },
    {
      "acc": 0.72250872,
      "epoch": 0.9247843734145104,
      "grad_norm": 3.28125,
      "learning_rate": 6.0278213653473305e-06,
      "loss": 1.0820055,
      "memory(GiB)": 112.26,
      "step": 36455,
      "train_speed(iter/s)": 1.129009
    },
    {
      "acc": 0.73422642,
      "epoch": 0.9249112125824455,
      "grad_norm": 3.328125,
      "learning_rate": 6.026795113879998e-06,
      "loss": 1.0931282,
      "memory(GiB)": 112.26,
      "step": 36460,
      "train_speed(iter/s)": 1.129034
    },
    {
      "acc": 0.73493776,
      "epoch": 0.9250380517503806,
      "grad_norm": 3.4375,
      "learning_rate": 6.025768817249629e-06,
      "loss": 1.12169819,
      "memory(GiB)": 112.26,
      "step": 36465,
      "train_speed(iter/s)": 1.129068
    },
    {
      "acc": 0.71658945,
      "epoch": 0.9251648909183156,
      "grad_norm": 3.78125,
      "learning_rate": 6.024742475501369e-06,
      "loss": 1.14698925,
      "memory(GiB)": 112.26,
      "step": 36470,
      "train_speed(iter/s)": 1.129094
    },
    {
      "acc": 0.7293292,
      "epoch": 0.9252917300862507,
      "grad_norm": 3.65625,
      "learning_rate": 6.023716088680359e-06,
      "loss": 1.09735327,
      "memory(GiB)": 112.26,
      "step": 36475,
      "train_speed(iter/s)": 1.129113
    },
    {
      "acc": 0.73381767,
      "epoch": 0.9254185692541856,
      "grad_norm": 3.6875,
      "learning_rate": 6.022689656831746e-06,
      "loss": 1.01095743,
      "memory(GiB)": 112.26,
      "step": 36480,
      "train_speed(iter/s)": 1.129136
    },
    {
      "acc": 0.73394737,
      "epoch": 0.9255454084221207,
      "grad_norm": 5.375,
      "learning_rate": 6.021663180000675e-06,
      "loss": 1.04671745,
      "memory(GiB)": 112.26,
      "step": 36485,
      "train_speed(iter/s)": 1.129166
    },
    {
      "acc": 0.73039331,
      "epoch": 0.9256722475900558,
      "grad_norm": 3.734375,
      "learning_rate": 6.020636658232297e-06,
      "loss": 1.07553329,
      "memory(GiB)": 112.26,
      "step": 36490,
      "train_speed(iter/s)": 1.129192
    },
    {
      "acc": 0.73097272,
      "epoch": 0.9257990867579908,
      "grad_norm": 3.9375,
      "learning_rate": 6.019610091571762e-06,
      "loss": 1.0942997,
      "memory(GiB)": 112.26,
      "step": 36495,
      "train_speed(iter/s)": 1.129218
    },
    {
      "acc": 0.73023949,
      "epoch": 0.9259259259259259,
      "grad_norm": 4.75,
      "learning_rate": 6.018583480064222e-06,
      "loss": 1.12097092,
      "memory(GiB)": 112.26,
      "step": 36500,
      "train_speed(iter/s)": 1.129236
    },
    {
      "acc": 0.74343338,
      "epoch": 0.926052765093861,
      "grad_norm": 3.359375,
      "learning_rate": 6.017556823754833e-06,
      "loss": 0.97990484,
      "memory(GiB)": 112.26,
      "step": 36505,
      "train_speed(iter/s)": 1.129257
    },
    {
      "acc": 0.74774332,
      "epoch": 0.926179604261796,
      "grad_norm": 4.90625,
      "learning_rate": 6.016530122688753e-06,
      "loss": 1.05362434,
      "memory(GiB)": 112.26,
      "step": 36510,
      "train_speed(iter/s)": 1.129281
    },
    {
      "acc": 0.74696846,
      "epoch": 0.9263064434297311,
      "grad_norm": 3.8125,
      "learning_rate": 6.015503376911138e-06,
      "loss": 1.06548481,
      "memory(GiB)": 112.26,
      "step": 36515,
      "train_speed(iter/s)": 1.129306
    },
    {
      "acc": 0.73583775,
      "epoch": 0.9264332825976661,
      "grad_norm": 3.265625,
      "learning_rate": 6.0144765864671515e-06,
      "loss": 1.0694808,
      "memory(GiB)": 112.26,
      "step": 36520,
      "train_speed(iter/s)": 1.129328
    },
    {
      "acc": 0.71089826,
      "epoch": 0.9265601217656012,
      "grad_norm": 3.5,
      "learning_rate": 6.013449751401954e-06,
      "loss": 1.14142303,
      "memory(GiB)": 112.26,
      "step": 36525,
      "train_speed(iter/s)": 1.129346
    },
    {
      "acc": 0.74796371,
      "epoch": 0.9266869609335363,
      "grad_norm": 4.03125,
      "learning_rate": 6.012422871760715e-06,
      "loss": 1.0360198,
      "memory(GiB)": 112.26,
      "step": 36530,
      "train_speed(iter/s)": 1.129364
    },
    {
      "acc": 0.72872009,
      "epoch": 0.9268138001014713,
      "grad_norm": 3.734375,
      "learning_rate": 6.011395947588594e-06,
      "loss": 1.12108479,
      "memory(GiB)": 112.26,
      "step": 36535,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.72808385,
      "epoch": 0.9269406392694064,
      "grad_norm": 3.65625,
      "learning_rate": 6.010368978930767e-06,
      "loss": 1.09605703,
      "memory(GiB)": 112.26,
      "step": 36540,
      "train_speed(iter/s)": 1.129406
    },
    {
      "acc": 0.73393078,
      "epoch": 0.9270674784373415,
      "grad_norm": 3.859375,
      "learning_rate": 6.0093419658323995e-06,
      "loss": 1.13543205,
      "memory(GiB)": 112.26,
      "step": 36545,
      "train_speed(iter/s)": 1.129435
    },
    {
      "acc": 0.72658706,
      "epoch": 0.9271943176052765,
      "grad_norm": 3.875,
      "learning_rate": 6.0083149083386675e-06,
      "loss": 1.18309345,
      "memory(GiB)": 112.26,
      "step": 36550,
      "train_speed(iter/s)": 1.129465
    },
    {
      "acc": 0.71798649,
      "epoch": 0.9273211567732116,
      "grad_norm": 3.609375,
      "learning_rate": 6.007287806494742e-06,
      "loss": 1.11675186,
      "memory(GiB)": 112.26,
      "step": 36555,
      "train_speed(iter/s)": 1.129487
    },
    {
      "acc": 0.7413662,
      "epoch": 0.9274479959411466,
      "grad_norm": 3.5625,
      "learning_rate": 6.006260660345802e-06,
      "loss": 1.08141098,
      "memory(GiB)": 112.26,
      "step": 36560,
      "train_speed(iter/s)": 1.129507
    },
    {
      "acc": 0.73792434,
      "epoch": 0.9275748351090817,
      "grad_norm": 3.296875,
      "learning_rate": 6.005233469937027e-06,
      "loss": 1.08224268,
      "memory(GiB)": 112.26,
      "step": 36565,
      "train_speed(iter/s)": 1.129519
    },
    {
      "acc": 0.74676609,
      "epoch": 0.9277016742770168,
      "grad_norm": 4.03125,
      "learning_rate": 6.004206235313594e-06,
      "loss": 1.03455477,
      "memory(GiB)": 112.26,
      "step": 36570,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.7389533,
      "epoch": 0.9278285134449518,
      "grad_norm": 3.34375,
      "learning_rate": 6.003178956520688e-06,
      "loss": 1.08017921,
      "memory(GiB)": 112.26,
      "step": 36575,
      "train_speed(iter/s)": 1.129559
    },
    {
      "acc": 0.73253088,
      "epoch": 0.9279553526128869,
      "grad_norm": 3.046875,
      "learning_rate": 6.002151633603493e-06,
      "loss": 1.10805511,
      "memory(GiB)": 112.26,
      "step": 36580,
      "train_speed(iter/s)": 1.129585
    },
    {
      "acc": 0.7319284,
      "epoch": 0.928082191780822,
      "grad_norm": 3.171875,
      "learning_rate": 6.0011242666071945e-06,
      "loss": 1.08312645,
      "memory(GiB)": 112.26,
      "step": 36585,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.72543621,
      "epoch": 0.928209030948757,
      "grad_norm": 3.4375,
      "learning_rate": 6.000096855576982e-06,
      "loss": 1.05891647,
      "memory(GiB)": 112.26,
      "step": 36590,
      "train_speed(iter/s)": 1.129625
    },
    {
      "acc": 0.73712492,
      "epoch": 0.928335870116692,
      "grad_norm": 3.4375,
      "learning_rate": 5.999069400558044e-06,
      "loss": 1.10461159,
      "memory(GiB)": 112.26,
      "step": 36595,
      "train_speed(iter/s)": 1.129621
    },
    {
      "acc": 0.73838339,
      "epoch": 0.928462709284627,
      "grad_norm": 3.796875,
      "learning_rate": 5.998041901595573e-06,
      "loss": 1.03844395,
      "memory(GiB)": 112.26,
      "step": 36600,
      "train_speed(iter/s)": 1.129641
    },
    {
      "acc": 0.71725502,
      "epoch": 0.9285895484525621,
      "grad_norm": 3.734375,
      "learning_rate": 5.997014358734763e-06,
      "loss": 1.11202507,
      "memory(GiB)": 112.26,
      "step": 36605,
      "train_speed(iter/s)": 1.129634
    },
    {
      "acc": 0.74106808,
      "epoch": 0.9287163876204972,
      "grad_norm": 3.53125,
      "learning_rate": 5.995986772020811e-06,
      "loss": 1.02007151,
      "memory(GiB)": 112.26,
      "step": 36610,
      "train_speed(iter/s)": 1.129661
    },
    {
      "acc": 0.73638191,
      "epoch": 0.9288432267884322,
      "grad_norm": 3.4375,
      "learning_rate": 5.994959141498913e-06,
      "loss": 1.06962795,
      "memory(GiB)": 112.26,
      "step": 36615,
      "train_speed(iter/s)": 1.129687
    },
    {
      "acc": 0.73605194,
      "epoch": 0.9289700659563673,
      "grad_norm": 3.09375,
      "learning_rate": 5.993931467214272e-06,
      "loss": 1.08970909,
      "memory(GiB)": 112.26,
      "step": 36620,
      "train_speed(iter/s)": 1.129714
    },
    {
      "acc": 0.73670254,
      "epoch": 0.9290969051243024,
      "grad_norm": 3.46875,
      "learning_rate": 5.992903749212084e-06,
      "loss": 1.09041166,
      "memory(GiB)": 112.26,
      "step": 36625,
      "train_speed(iter/s)": 1.129732
    },
    {
      "acc": 0.73136663,
      "epoch": 0.9292237442922374,
      "grad_norm": 3.875,
      "learning_rate": 5.991875987537559e-06,
      "loss": 1.09101658,
      "memory(GiB)": 112.26,
      "step": 36630,
      "train_speed(iter/s)": 1.129747
    },
    {
      "acc": 0.74180493,
      "epoch": 0.9293505834601725,
      "grad_norm": 3.90625,
      "learning_rate": 5.990848182235898e-06,
      "loss": 1.07479677,
      "memory(GiB)": 112.26,
      "step": 36635,
      "train_speed(iter/s)": 1.129779
    },
    {
      "acc": 0.72874446,
      "epoch": 0.9294774226281075,
      "grad_norm": 4.6875,
      "learning_rate": 5.98982033335231e-06,
      "loss": 1.12357416,
      "memory(GiB)": 112.26,
      "step": 36640,
      "train_speed(iter/s)": 1.129785
    },
    {
      "acc": 0.74937582,
      "epoch": 0.9296042617960426,
      "grad_norm": 3.6875,
      "learning_rate": 5.988792440932006e-06,
      "loss": 0.97930889,
      "memory(GiB)": 112.26,
      "step": 36645,
      "train_speed(iter/s)": 1.129798
    },
    {
      "acc": 0.74777484,
      "epoch": 0.9297311009639777,
      "grad_norm": 3.46875,
      "learning_rate": 5.987764505020195e-06,
      "loss": 1.00657911,
      "memory(GiB)": 112.26,
      "step": 36650,
      "train_speed(iter/s)": 1.12982
    },
    {
      "acc": 0.71947575,
      "epoch": 0.9298579401319127,
      "grad_norm": 3.890625,
      "learning_rate": 5.986736525662091e-06,
      "loss": 1.09575357,
      "memory(GiB)": 112.26,
      "step": 36655,
      "train_speed(iter/s)": 1.129847
    },
    {
      "acc": 0.73289156,
      "epoch": 0.9299847792998478,
      "grad_norm": 3.171875,
      "learning_rate": 5.985708502902909e-06,
      "loss": 1.08007498,
      "memory(GiB)": 112.26,
      "step": 36660,
      "train_speed(iter/s)": 1.129848
    },
    {
      "acc": 0.74051013,
      "epoch": 0.9301116184677829,
      "grad_norm": 3.59375,
      "learning_rate": 5.984680436787867e-06,
      "loss": 1.07046347,
      "memory(GiB)": 112.26,
      "step": 36665,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.72772322,
      "epoch": 0.9302384576357179,
      "grad_norm": 3.546875,
      "learning_rate": 5.983652327362182e-06,
      "loss": 1.09749184,
      "memory(GiB)": 112.26,
      "step": 36670,
      "train_speed(iter/s)": 1.129894
    },
    {
      "acc": 0.73711023,
      "epoch": 0.930365296803653,
      "grad_norm": 3.34375,
      "learning_rate": 5.982624174671077e-06,
      "loss": 1.11070805,
      "memory(GiB)": 112.26,
      "step": 36675,
      "train_speed(iter/s)": 1.129906
    },
    {
      "acc": 0.738802,
      "epoch": 0.930492135971588,
      "grad_norm": 4.1875,
      "learning_rate": 5.981595978759773e-06,
      "loss": 1.09140186,
      "memory(GiB)": 112.26,
      "step": 36680,
      "train_speed(iter/s)": 1.129941
    },
    {
      "acc": 0.73001089,
      "epoch": 0.9306189751395231,
      "grad_norm": 3.328125,
      "learning_rate": 5.980567739673495e-06,
      "loss": 1.12910061,
      "memory(GiB)": 112.26,
      "step": 36685,
      "train_speed(iter/s)": 1.129968
    },
    {
      "acc": 0.746666,
      "epoch": 0.9307458143074582,
      "grad_norm": 3.484375,
      "learning_rate": 5.979539457457472e-06,
      "loss": 1.06672773,
      "memory(GiB)": 112.26,
      "step": 36690,
      "train_speed(iter/s)": 1.130002
    },
    {
      "acc": 0.73554511,
      "epoch": 0.9308726534753932,
      "grad_norm": 4.09375,
      "learning_rate": 5.978511132156928e-06,
      "loss": 1.09574671,
      "memory(GiB)": 112.26,
      "step": 36695,
      "train_speed(iter/s)": 1.130029
    },
    {
      "acc": 0.73074174,
      "epoch": 0.9309994926433283,
      "grad_norm": 4.3125,
      "learning_rate": 5.9774827638170965e-06,
      "loss": 1.1086957,
      "memory(GiB)": 112.26,
      "step": 36700,
      "train_speed(iter/s)": 1.130056
    },
    {
      "acc": 0.74494715,
      "epoch": 0.9311263318112634,
      "grad_norm": 3.390625,
      "learning_rate": 5.9764543524832085e-06,
      "loss": 1.03516502,
      "memory(GiB)": 112.26,
      "step": 36705,
      "train_speed(iter/s)": 1.130075
    },
    {
      "acc": 0.74244881,
      "epoch": 0.9312531709791984,
      "grad_norm": 4.0,
      "learning_rate": 5.975425898200499e-06,
      "loss": 1.06641331,
      "memory(GiB)": 112.26,
      "step": 36710,
      "train_speed(iter/s)": 1.130099
    },
    {
      "acc": 0.73238974,
      "epoch": 0.9313800101471335,
      "grad_norm": 4.125,
      "learning_rate": 5.974397401014202e-06,
      "loss": 1.12801762,
      "memory(GiB)": 112.26,
      "step": 36715,
      "train_speed(iter/s)": 1.13012
    },
    {
      "acc": 0.73046622,
      "epoch": 0.9315068493150684,
      "grad_norm": 3.5,
      "learning_rate": 5.973368860969559e-06,
      "loss": 1.11899977,
      "memory(GiB)": 112.26,
      "step": 36720,
      "train_speed(iter/s)": 1.130136
    },
    {
      "acc": 0.73373041,
      "epoch": 0.9316336884830035,
      "grad_norm": 4.15625,
      "learning_rate": 5.972340278111808e-06,
      "loss": 1.11216364,
      "memory(GiB)": 112.26,
      "step": 36725,
      "train_speed(iter/s)": 1.130144
    },
    {
      "acc": 0.73479533,
      "epoch": 0.9317605276509386,
      "grad_norm": 3.21875,
      "learning_rate": 5.9713116524861895e-06,
      "loss": 1.02088327,
      "memory(GiB)": 112.26,
      "step": 36730,
      "train_speed(iter/s)": 1.130141
    },
    {
      "acc": 0.7380445,
      "epoch": 0.9318873668188736,
      "grad_norm": 4.21875,
      "learning_rate": 5.970282984137947e-06,
      "loss": 1.1048358,
      "memory(GiB)": 112.26,
      "step": 36735,
      "train_speed(iter/s)": 1.130131
    },
    {
      "acc": 0.74967833,
      "epoch": 0.9320142059868087,
      "grad_norm": 3.03125,
      "learning_rate": 5.969254273112328e-06,
      "loss": 1.0544014,
      "memory(GiB)": 112.26,
      "step": 36740,
      "train_speed(iter/s)": 1.130159
    },
    {
      "acc": 0.73422303,
      "epoch": 0.9321410451547438,
      "grad_norm": 4.5625,
      "learning_rate": 5.968225519454577e-06,
      "loss": 1.11140842,
      "memory(GiB)": 112.26,
      "step": 36745,
      "train_speed(iter/s)": 1.130153
    },
    {
      "acc": 0.74778814,
      "epoch": 0.9322678843226788,
      "grad_norm": 3.65625,
      "learning_rate": 5.967196723209947e-06,
      "loss": 1.04776363,
      "memory(GiB)": 112.26,
      "step": 36750,
      "train_speed(iter/s)": 1.130169
    },
    {
      "acc": 0.71914892,
      "epoch": 0.9323947234906139,
      "grad_norm": 4.40625,
      "learning_rate": 5.966167884423686e-06,
      "loss": 1.1740098,
      "memory(GiB)": 112.26,
      "step": 36755,
      "train_speed(iter/s)": 1.130195
    },
    {
      "acc": 0.7589819,
      "epoch": 0.9325215626585489,
      "grad_norm": 4.0625,
      "learning_rate": 5.965139003141048e-06,
      "loss": 1.00249891,
      "memory(GiB)": 112.26,
      "step": 36760,
      "train_speed(iter/s)": 1.130215
    },
    {
      "acc": 0.72840357,
      "epoch": 0.932648401826484,
      "grad_norm": 3.46875,
      "learning_rate": 5.964110079407287e-06,
      "loss": 1.05612545,
      "memory(GiB)": 112.26,
      "step": 36765,
      "train_speed(iter/s)": 1.130251
    },
    {
      "acc": 0.72690339,
      "epoch": 0.9327752409944191,
      "grad_norm": 3.828125,
      "learning_rate": 5.9630811132676625e-06,
      "loss": 1.13436852,
      "memory(GiB)": 112.26,
      "step": 36770,
      "train_speed(iter/s)": 1.130267
    },
    {
      "acc": 0.73454742,
      "epoch": 0.9329020801623541,
      "grad_norm": 3.609375,
      "learning_rate": 5.962052104767427e-06,
      "loss": 1.11457272,
      "memory(GiB)": 112.26,
      "step": 36775,
      "train_speed(iter/s)": 1.130278
    },
    {
      "acc": 0.74101844,
      "epoch": 0.9330289193302892,
      "grad_norm": 4.15625,
      "learning_rate": 5.961023053951848e-06,
      "loss": 1.07565174,
      "memory(GiB)": 112.26,
      "step": 36780,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.73763652,
      "epoch": 0.9331557584982243,
      "grad_norm": 4.1875,
      "learning_rate": 5.9599939608661825e-06,
      "loss": 1.124506,
      "memory(GiB)": 112.26,
      "step": 36785,
      "train_speed(iter/s)": 1.130291
    },
    {
      "acc": 0.73046427,
      "epoch": 0.9332825976661593,
      "grad_norm": 3.40625,
      "learning_rate": 5.9589648255556975e-06,
      "loss": 1.11166162,
      "memory(GiB)": 112.26,
      "step": 36790,
      "train_speed(iter/s)": 1.130303
    },
    {
      "acc": 0.74019384,
      "epoch": 0.9334094368340944,
      "grad_norm": 4.0625,
      "learning_rate": 5.957935648065658e-06,
      "loss": 1.0588479,
      "memory(GiB)": 112.26,
      "step": 36795,
      "train_speed(iter/s)": 1.130329
    },
    {
      "acc": 0.73136325,
      "epoch": 0.9335362760020294,
      "grad_norm": 4.4375,
      "learning_rate": 5.956906428441331e-06,
      "loss": 1.08397589,
      "memory(GiB)": 112.26,
      "step": 36800,
      "train_speed(iter/s)": 1.13036
    },
    {
      "acc": 0.74062147,
      "epoch": 0.9336631151699645,
      "grad_norm": 3.4375,
      "learning_rate": 5.955877166727988e-06,
      "loss": 1.08641071,
      "memory(GiB)": 112.26,
      "step": 36805,
      "train_speed(iter/s)": 1.130383
    },
    {
      "acc": 0.73476696,
      "epoch": 0.9337899543378996,
      "grad_norm": 4.28125,
      "learning_rate": 5.954847862970898e-06,
      "loss": 1.0724781,
      "memory(GiB)": 112.26,
      "step": 36810,
      "train_speed(iter/s)": 1.130406
    },
    {
      "acc": 0.72418957,
      "epoch": 0.9339167935058346,
      "grad_norm": 3.296875,
      "learning_rate": 5.953818517215338e-06,
      "loss": 1.14193211,
      "memory(GiB)": 112.26,
      "step": 36815,
      "train_speed(iter/s)": 1.130426
    },
    {
      "acc": 0.74036222,
      "epoch": 0.9340436326737697,
      "grad_norm": 3.3125,
      "learning_rate": 5.95278912950658e-06,
      "loss": 1.0772522,
      "memory(GiB)": 112.26,
      "step": 36820,
      "train_speed(iter/s)": 1.130453
    },
    {
      "acc": 0.75542812,
      "epoch": 0.9341704718417048,
      "grad_norm": 3.265625,
      "learning_rate": 5.9517596998899e-06,
      "loss": 1.00646667,
      "memory(GiB)": 112.26,
      "step": 36825,
      "train_speed(iter/s)": 1.13048
    },
    {
      "acc": 0.74708347,
      "epoch": 0.9342973110096398,
      "grad_norm": 3.796875,
      "learning_rate": 5.9507302284105836e-06,
      "loss": 1.04928446,
      "memory(GiB)": 112.26,
      "step": 36830,
      "train_speed(iter/s)": 1.130479
    },
    {
      "acc": 0.74634886,
      "epoch": 0.9344241501775749,
      "grad_norm": 3.46875,
      "learning_rate": 5.949700715113904e-06,
      "loss": 1.09337997,
      "memory(GiB)": 112.26,
      "step": 36835,
      "train_speed(iter/s)": 1.130505
    },
    {
      "acc": 0.73861389,
      "epoch": 0.9345509893455098,
      "grad_norm": 4.28125,
      "learning_rate": 5.9486711600451484e-06,
      "loss": 1.05121765,
      "memory(GiB)": 112.26,
      "step": 36840,
      "train_speed(iter/s)": 1.130534
    },
    {
      "acc": 0.73973198,
      "epoch": 0.9346778285134449,
      "grad_norm": 3.53125,
      "learning_rate": 5.9476415632495974e-06,
      "loss": 1.09726925,
      "memory(GiB)": 112.26,
      "step": 36845,
      "train_speed(iter/s)": 1.130559
    },
    {
      "acc": 0.72585983,
      "epoch": 0.93480466768138,
      "grad_norm": 3.53125,
      "learning_rate": 5.946611924772542e-06,
      "loss": 1.08122578,
      "memory(GiB)": 112.26,
      "step": 36850,
      "train_speed(iter/s)": 1.130583
    },
    {
      "acc": 0.74280462,
      "epoch": 0.934931506849315,
      "grad_norm": 3.203125,
      "learning_rate": 5.945582244659267e-06,
      "loss": 1.05499744,
      "memory(GiB)": 112.26,
      "step": 36855,
      "train_speed(iter/s)": 1.130614
    },
    {
      "acc": 0.73741798,
      "epoch": 0.9350583460172501,
      "grad_norm": 3.65625,
      "learning_rate": 5.944552522955063e-06,
      "loss": 1.1188303,
      "memory(GiB)": 112.26,
      "step": 36860,
      "train_speed(iter/s)": 1.130634
    },
    {
      "acc": 0.74876804,
      "epoch": 0.9351851851851852,
      "grad_norm": 2.8125,
      "learning_rate": 5.943522759705221e-06,
      "loss": 1.04988184,
      "memory(GiB)": 112.26,
      "step": 36865,
      "train_speed(iter/s)": 1.13064
    },
    {
      "acc": 0.72199025,
      "epoch": 0.9353120243531202,
      "grad_norm": 3.109375,
      "learning_rate": 5.942492954955037e-06,
      "loss": 1.1336216,
      "memory(GiB)": 112.26,
      "step": 36870,
      "train_speed(iter/s)": 1.130666
    },
    {
      "acc": 0.72594762,
      "epoch": 0.9354388635210553,
      "grad_norm": 3.703125,
      "learning_rate": 5.941463108749804e-06,
      "loss": 1.11235714,
      "memory(GiB)": 112.26,
      "step": 36875,
      "train_speed(iter/s)": 1.13069
    },
    {
      "acc": 0.73563952,
      "epoch": 0.9355657026889903,
      "grad_norm": 4.46875,
      "learning_rate": 5.940433221134821e-06,
      "loss": 1.09415903,
      "memory(GiB)": 112.26,
      "step": 36880,
      "train_speed(iter/s)": 1.130706
    },
    {
      "acc": 0.73790751,
      "epoch": 0.9356925418569254,
      "grad_norm": 3.96875,
      "learning_rate": 5.9394032921553856e-06,
      "loss": 1.10354738,
      "memory(GiB)": 112.26,
      "step": 36885,
      "train_speed(iter/s)": 1.130722
    },
    {
      "acc": 0.74203568,
      "epoch": 0.9358193810248605,
      "grad_norm": 4.25,
      "learning_rate": 5.9383733218568e-06,
      "loss": 1.11382179,
      "memory(GiB)": 112.26,
      "step": 36890,
      "train_speed(iter/s)": 1.130746
    },
    {
      "acc": 0.73033395,
      "epoch": 0.9359462201927955,
      "grad_norm": 3.421875,
      "learning_rate": 5.937343310284365e-06,
      "loss": 1.11520052,
      "memory(GiB)": 112.26,
      "step": 36895,
      "train_speed(iter/s)": 1.130769
    },
    {
      "acc": 0.72735152,
      "epoch": 0.9360730593607306,
      "grad_norm": 3.234375,
      "learning_rate": 5.936313257483387e-06,
      "loss": 1.07666721,
      "memory(GiB)": 112.26,
      "step": 36900,
      "train_speed(iter/s)": 1.1308
    },
    {
      "acc": 0.73084707,
      "epoch": 0.9361998985286657,
      "grad_norm": 3.375,
      "learning_rate": 5.935283163499171e-06,
      "loss": 1.12345543,
      "memory(GiB)": 112.26,
      "step": 36905,
      "train_speed(iter/s)": 1.130819
    },
    {
      "acc": 0.7316462,
      "epoch": 0.9363267376966007,
      "grad_norm": 3.34375,
      "learning_rate": 5.9342530283770274e-06,
      "loss": 1.09823151,
      "memory(GiB)": 112.26,
      "step": 36910,
      "train_speed(iter/s)": 1.130822
    },
    {
      "acc": 0.74894066,
      "epoch": 0.9364535768645358,
      "grad_norm": 2.96875,
      "learning_rate": 5.9332228521622615e-06,
      "loss": 0.99775543,
      "memory(GiB)": 112.26,
      "step": 36915,
      "train_speed(iter/s)": 1.130834
    },
    {
      "acc": 0.74533873,
      "epoch": 0.9365804160324708,
      "grad_norm": 3.640625,
      "learning_rate": 5.93219263490019e-06,
      "loss": 1.08991613,
      "memory(GiB)": 112.26,
      "step": 36920,
      "train_speed(iter/s)": 1.130849
    },
    {
      "acc": 0.73586259,
      "epoch": 0.9367072552004059,
      "grad_norm": 3.96875,
      "learning_rate": 5.931162376636123e-06,
      "loss": 1.1513998,
      "memory(GiB)": 112.26,
      "step": 36925,
      "train_speed(iter/s)": 1.130857
    },
    {
      "acc": 0.73535757,
      "epoch": 0.936834094368341,
      "grad_norm": 4.21875,
      "learning_rate": 5.93013207741538e-06,
      "loss": 1.0446516,
      "memory(GiB)": 112.26,
      "step": 36930,
      "train_speed(iter/s)": 1.130868
    },
    {
      "acc": 0.7507916,
      "epoch": 0.936960933536276,
      "grad_norm": 3.796875,
      "learning_rate": 5.929101737283274e-06,
      "loss": 1.01691151,
      "memory(GiB)": 112.26,
      "step": 36935,
      "train_speed(iter/s)": 1.130893
    },
    {
      "acc": 0.72824249,
      "epoch": 0.9370877727042111,
      "grad_norm": 3.859375,
      "learning_rate": 5.928071356285126e-06,
      "loss": 1.06940813,
      "memory(GiB)": 112.26,
      "step": 36940,
      "train_speed(iter/s)": 1.130913
    },
    {
      "acc": 0.74845276,
      "epoch": 0.9372146118721462,
      "grad_norm": 3.40625,
      "learning_rate": 5.927040934466255e-06,
      "loss": 1.03526821,
      "memory(GiB)": 112.26,
      "step": 36945,
      "train_speed(iter/s)": 1.130939
    },
    {
      "acc": 0.74860964,
      "epoch": 0.9373414510400812,
      "grad_norm": 3.21875,
      "learning_rate": 5.926010471871986e-06,
      "loss": 1.03753748,
      "memory(GiB)": 112.26,
      "step": 36950,
      "train_speed(iter/s)": 1.130956
    },
    {
      "acc": 0.74573121,
      "epoch": 0.9374682902080163,
      "grad_norm": 3.015625,
      "learning_rate": 5.924979968547642e-06,
      "loss": 1.0313098,
      "memory(GiB)": 112.26,
      "step": 36955,
      "train_speed(iter/s)": 1.130975
    },
    {
      "acc": 0.71617308,
      "epoch": 0.9375951293759512,
      "grad_norm": 4.375,
      "learning_rate": 5.9239494245385485e-06,
      "loss": 1.18184681,
      "memory(GiB)": 112.26,
      "step": 36960,
      "train_speed(iter/s)": 1.130999
    },
    {
      "acc": 0.74107561,
      "epoch": 0.9377219685438863,
      "grad_norm": 3.71875,
      "learning_rate": 5.9229188398900325e-06,
      "loss": 1.09391937,
      "memory(GiB)": 112.26,
      "step": 36965,
      "train_speed(iter/s)": 1.131018
    },
    {
      "acc": 0.72211013,
      "epoch": 0.9378488077118214,
      "grad_norm": 3.921875,
      "learning_rate": 5.921888214647429e-06,
      "loss": 1.12394896,
      "memory(GiB)": 112.26,
      "step": 36970,
      "train_speed(iter/s)": 1.131047
    },
    {
      "acc": 0.73633184,
      "epoch": 0.9379756468797564,
      "grad_norm": 3.65625,
      "learning_rate": 5.920857548856064e-06,
      "loss": 1.05736713,
      "memory(GiB)": 112.26,
      "step": 36975,
      "train_speed(iter/s)": 1.131069
    },
    {
      "acc": 0.73461614,
      "epoch": 0.9381024860476915,
      "grad_norm": 4.78125,
      "learning_rate": 5.919826842561274e-06,
      "loss": 1.05988369,
      "memory(GiB)": 112.26,
      "step": 36980,
      "train_speed(iter/s)": 1.131096
    },
    {
      "acc": 0.73483763,
      "epoch": 0.9382293252156266,
      "grad_norm": 3.78125,
      "learning_rate": 5.91879609580839e-06,
      "loss": 1.11830168,
      "memory(GiB)": 112.26,
      "step": 36985,
      "train_speed(iter/s)": 1.13112
    },
    {
      "acc": 0.72966003,
      "epoch": 0.9383561643835616,
      "grad_norm": 4.6875,
      "learning_rate": 5.917765308642754e-06,
      "loss": 1.14174118,
      "memory(GiB)": 112.26,
      "step": 36990,
      "train_speed(iter/s)": 1.13114
    },
    {
      "acc": 0.73166237,
      "epoch": 0.9384830035514967,
      "grad_norm": 5.40625,
      "learning_rate": 5.9167344811097014e-06,
      "loss": 1.13750076,
      "memory(GiB)": 112.26,
      "step": 36995,
      "train_speed(iter/s)": 1.131169
    },
    {
      "acc": 0.74729238,
      "epoch": 0.9386098427194317,
      "grad_norm": 4.03125,
      "learning_rate": 5.9157036132545735e-06,
      "loss": 1.02638836,
      "memory(GiB)": 112.26,
      "step": 37000,
      "train_speed(iter/s)": 1.131202
    },
    {
      "epoch": 0.9386098427194317,
      "eval_acc": 0.7251977103811785,
      "eval_loss": 1.0467532873153687,
      "eval_runtime": 70.966,
      "eval_samples_per_second": 89.761,
      "eval_steps_per_second": 22.447,
      "step": 37000
    },
    {
      "acc": 0.74924746,
      "epoch": 0.9387366818873668,
      "grad_norm": 4.3125,
      "learning_rate": 5.914672705122713e-06,
      "loss": 1.07337828,
      "memory(GiB)": 112.26,
      "step": 37005,
      "train_speed(iter/s)": 1.127257
    },
    {
      "acc": 0.73676281,
      "epoch": 0.9388635210553019,
      "grad_norm": 4.1875,
      "learning_rate": 5.9136417567594615e-06,
      "loss": 1.06440849,
      "memory(GiB)": 112.26,
      "step": 37010,
      "train_speed(iter/s)": 1.127286
    },
    {
      "acc": 0.73376646,
      "epoch": 0.9389903602232369,
      "grad_norm": 3.859375,
      "learning_rate": 5.9126107682101675e-06,
      "loss": 1.11082916,
      "memory(GiB)": 112.26,
      "step": 37015,
      "train_speed(iter/s)": 1.127308
    },
    {
      "acc": 0.72035823,
      "epoch": 0.939117199391172,
      "grad_norm": 2.75,
      "learning_rate": 5.911579739520178e-06,
      "loss": 1.11670036,
      "memory(GiB)": 112.26,
      "step": 37020,
      "train_speed(iter/s)": 1.127319
    },
    {
      "acc": 0.73364086,
      "epoch": 0.9392440385591071,
      "grad_norm": 4.03125,
      "learning_rate": 5.91054867073484e-06,
      "loss": 1.10463486,
      "memory(GiB)": 112.26,
      "step": 37025,
      "train_speed(iter/s)": 1.12733
    },
    {
      "acc": 0.72712836,
      "epoch": 0.9393708777270421,
      "grad_norm": 4.03125,
      "learning_rate": 5.909517561899508e-06,
      "loss": 1.10966873,
      "memory(GiB)": 112.26,
      "step": 37030,
      "train_speed(iter/s)": 1.127356
    },
    {
      "acc": 0.71571984,
      "epoch": 0.9394977168949772,
      "grad_norm": 3.890625,
      "learning_rate": 5.908486413059532e-06,
      "loss": 1.11136007,
      "memory(GiB)": 112.26,
      "step": 37035,
      "train_speed(iter/s)": 1.127391
    },
    {
      "acc": 0.73262877,
      "epoch": 0.9396245560629122,
      "grad_norm": 2.9375,
      "learning_rate": 5.907455224260268e-06,
      "loss": 1.08219872,
      "memory(GiB)": 112.26,
      "step": 37040,
      "train_speed(iter/s)": 1.127406
    },
    {
      "acc": 0.73498793,
      "epoch": 0.9397513952308473,
      "grad_norm": 4.15625,
      "learning_rate": 5.9064239955470704e-06,
      "loss": 1.07320595,
      "memory(GiB)": 112.26,
      "step": 37045,
      "train_speed(iter/s)": 1.127439
    },
    {
      "acc": 0.70770388,
      "epoch": 0.9398782343987824,
      "grad_norm": 3.875,
      "learning_rate": 5.9053927269653e-06,
      "loss": 1.17172756,
      "memory(GiB)": 112.26,
      "step": 37050,
      "train_speed(iter/s)": 1.127457
    },
    {
      "acc": 0.75008864,
      "epoch": 0.9400050735667174,
      "grad_norm": 3.640625,
      "learning_rate": 5.904361418560314e-06,
      "loss": 1.0483717,
      "memory(GiB)": 112.26,
      "step": 37055,
      "train_speed(iter/s)": 1.127487
    },
    {
      "acc": 0.73958092,
      "epoch": 0.9401319127346525,
      "grad_norm": 4.3125,
      "learning_rate": 5.903330070377477e-06,
      "loss": 1.1054801,
      "memory(GiB)": 112.26,
      "step": 37060,
      "train_speed(iter/s)": 1.127503
    },
    {
      "acc": 0.74351478,
      "epoch": 0.9402587519025876,
      "grad_norm": 4.0625,
      "learning_rate": 5.902298682462147e-06,
      "loss": 1.00985928,
      "memory(GiB)": 112.26,
      "step": 37065,
      "train_speed(iter/s)": 1.127509
    },
    {
      "acc": 0.74619741,
      "epoch": 0.9403855910705226,
      "grad_norm": 4.34375,
      "learning_rate": 5.901267254859695e-06,
      "loss": 1.07827063,
      "memory(GiB)": 112.26,
      "step": 37070,
      "train_speed(iter/s)": 1.127538
    },
    {
      "acc": 0.72808518,
      "epoch": 0.9405124302384577,
      "grad_norm": 3.015625,
      "learning_rate": 5.900235787615485e-06,
      "loss": 1.14733315,
      "memory(GiB)": 112.26,
      "step": 37075,
      "train_speed(iter/s)": 1.12755
    },
    {
      "acc": 0.74495587,
      "epoch": 0.9406392694063926,
      "grad_norm": 4.03125,
      "learning_rate": 5.8992042807748866e-06,
      "loss": 1.05709696,
      "memory(GiB)": 112.26,
      "step": 37080,
      "train_speed(iter/s)": 1.127579
    },
    {
      "acc": 0.73190312,
      "epoch": 0.9407661085743277,
      "grad_norm": 3.90625,
      "learning_rate": 5.898172734383267e-06,
      "loss": 1.10576,
      "memory(GiB)": 112.26,
      "step": 37085,
      "train_speed(iter/s)": 1.127598
    },
    {
      "acc": 0.72437401,
      "epoch": 0.9408929477422628,
      "grad_norm": 4.09375,
      "learning_rate": 5.897141148486003e-06,
      "loss": 1.14328709,
      "memory(GiB)": 112.26,
      "step": 37090,
      "train_speed(iter/s)": 1.12761
    },
    {
      "acc": 0.73967304,
      "epoch": 0.9410197869101978,
      "grad_norm": 3.953125,
      "learning_rate": 5.8961095231284645e-06,
      "loss": 1.04069633,
      "memory(GiB)": 112.26,
      "step": 37095,
      "train_speed(iter/s)": 1.127635
    },
    {
      "acc": 0.72796912,
      "epoch": 0.9411466260781329,
      "grad_norm": 3.375,
      "learning_rate": 5.895077858356029e-06,
      "loss": 1.09320793,
      "memory(GiB)": 112.26,
      "step": 37100,
      "train_speed(iter/s)": 1.127667
    },
    {
      "acc": 0.7360013,
      "epoch": 0.941273465246068,
      "grad_norm": 3.890625,
      "learning_rate": 5.8940461542140725e-06,
      "loss": 1.05513248,
      "memory(GiB)": 112.26,
      "step": 37105,
      "train_speed(iter/s)": 1.127693
    },
    {
      "acc": 0.74542041,
      "epoch": 0.941400304414003,
      "grad_norm": 3.9375,
      "learning_rate": 5.893014410747975e-06,
      "loss": 1.03718109,
      "memory(GiB)": 112.26,
      "step": 37110,
      "train_speed(iter/s)": 1.12772
    },
    {
      "acc": 0.74042177,
      "epoch": 0.9415271435819381,
      "grad_norm": 3.484375,
      "learning_rate": 5.891982628003114e-06,
      "loss": 1.08834,
      "memory(GiB)": 112.26,
      "step": 37115,
      "train_speed(iter/s)": 1.127752
    },
    {
      "acc": 0.73063221,
      "epoch": 0.9416539827498731,
      "grad_norm": 4.53125,
      "learning_rate": 5.890950806024879e-06,
      "loss": 1.07975788,
      "memory(GiB)": 112.26,
      "step": 37120,
      "train_speed(iter/s)": 1.127778
    },
    {
      "acc": 0.73713741,
      "epoch": 0.9417808219178082,
      "grad_norm": 3.8125,
      "learning_rate": 5.889918944858647e-06,
      "loss": 1.11307001,
      "memory(GiB)": 112.26,
      "step": 37125,
      "train_speed(iter/s)": 1.127787
    },
    {
      "acc": 0.75015154,
      "epoch": 0.9419076610857433,
      "grad_norm": 3.6875,
      "learning_rate": 5.888887044549808e-06,
      "loss": 1.05565872,
      "memory(GiB)": 112.26,
      "step": 37130,
      "train_speed(iter/s)": 1.127809
    },
    {
      "acc": 0.72740273,
      "epoch": 0.9420345002536783,
      "grad_norm": 3.59375,
      "learning_rate": 5.887855105143746e-06,
      "loss": 1.09066658,
      "memory(GiB)": 112.26,
      "step": 37135,
      "train_speed(iter/s)": 1.127834
    },
    {
      "acc": 0.74084663,
      "epoch": 0.9421613394216134,
      "grad_norm": 3.1875,
      "learning_rate": 5.886823126685855e-06,
      "loss": 1.03876476,
      "memory(GiB)": 112.26,
      "step": 37140,
      "train_speed(iter/s)": 1.127866
    },
    {
      "acc": 0.734024,
      "epoch": 0.9422881785895485,
      "grad_norm": 4.1875,
      "learning_rate": 5.8857911092215214e-06,
      "loss": 1.13788395,
      "memory(GiB)": 112.26,
      "step": 37145,
      "train_speed(iter/s)": 1.127894
    },
    {
      "acc": 0.73179789,
      "epoch": 0.9424150177574835,
      "grad_norm": 3.6875,
      "learning_rate": 5.884759052796142e-06,
      "loss": 1.13162994,
      "memory(GiB)": 112.26,
      "step": 37150,
      "train_speed(iter/s)": 1.127913
    },
    {
      "acc": 0.73771157,
      "epoch": 0.9425418569254186,
      "grad_norm": 3.65625,
      "learning_rate": 5.883726957455108e-06,
      "loss": 1.07623959,
      "memory(GiB)": 112.26,
      "step": 37155,
      "train_speed(iter/s)": 1.127924
    },
    {
      "acc": 0.73358889,
      "epoch": 0.9426686960933536,
      "grad_norm": 3.234375,
      "learning_rate": 5.8826948232438176e-06,
      "loss": 1.07796087,
      "memory(GiB)": 112.26,
      "step": 37160,
      "train_speed(iter/s)": 1.127957
    },
    {
      "acc": 0.74183774,
      "epoch": 0.9427955352612887,
      "grad_norm": 3.265625,
      "learning_rate": 5.881662650207667e-06,
      "loss": 1.06058846,
      "memory(GiB)": 112.26,
      "step": 37165,
      "train_speed(iter/s)": 1.127976
    },
    {
      "acc": 0.75083513,
      "epoch": 0.9429223744292238,
      "grad_norm": 4.03125,
      "learning_rate": 5.880630438392057e-06,
      "loss": 1.02190647,
      "memory(GiB)": 112.26,
      "step": 37170,
      "train_speed(iter/s)": 1.12801
    },
    {
      "acc": 0.74087262,
      "epoch": 0.9430492135971588,
      "grad_norm": 3.546875,
      "learning_rate": 5.879598187842389e-06,
      "loss": 1.05609217,
      "memory(GiB)": 112.26,
      "step": 37175,
      "train_speed(iter/s)": 1.128024
    },
    {
      "acc": 0.74264164,
      "epoch": 0.9431760527650939,
      "grad_norm": 5.375,
      "learning_rate": 5.878565898604066e-06,
      "loss": 1.08451357,
      "memory(GiB)": 112.26,
      "step": 37180,
      "train_speed(iter/s)": 1.128043
    },
    {
      "acc": 0.74377556,
      "epoch": 0.943302891933029,
      "grad_norm": 3.140625,
      "learning_rate": 5.87753357072249e-06,
      "loss": 0.99549713,
      "memory(GiB)": 112.26,
      "step": 37185,
      "train_speed(iter/s)": 1.128054
    },
    {
      "acc": 0.7455308,
      "epoch": 0.943429731100964,
      "grad_norm": 4.125,
      "learning_rate": 5.876501204243072e-06,
      "loss": 1.06832886,
      "memory(GiB)": 112.26,
      "step": 37190,
      "train_speed(iter/s)": 1.128083
    },
    {
      "acc": 0.75799594,
      "epoch": 0.943556570268899,
      "grad_norm": 5.03125,
      "learning_rate": 5.875468799211217e-06,
      "loss": 1.04314861,
      "memory(GiB)": 112.26,
      "step": 37195,
      "train_speed(iter/s)": 1.128102
    },
    {
      "acc": 0.72827768,
      "epoch": 0.943683409436834,
      "grad_norm": 3.1875,
      "learning_rate": 5.874436355672337e-06,
      "loss": 1.02186928,
      "memory(GiB)": 112.26,
      "step": 37200,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.73423367,
      "epoch": 0.9438102486047691,
      "grad_norm": 4.625,
      "learning_rate": 5.873403873671839e-06,
      "loss": 1.09956923,
      "memory(GiB)": 112.26,
      "step": 37205,
      "train_speed(iter/s)": 1.128147
    },
    {
      "acc": 0.73726559,
      "epoch": 0.9439370877727042,
      "grad_norm": 3.90625,
      "learning_rate": 5.872371353255142e-06,
      "loss": 1.09835396,
      "memory(GiB)": 112.26,
      "step": 37210,
      "train_speed(iter/s)": 1.128165
    },
    {
      "acc": 0.74253817,
      "epoch": 0.9440639269406392,
      "grad_norm": 3.984375,
      "learning_rate": 5.871338794467656e-06,
      "loss": 1.06224947,
      "memory(GiB)": 112.26,
      "step": 37215,
      "train_speed(iter/s)": 1.128183
    },
    {
      "acc": 0.73294973,
      "epoch": 0.9441907661085743,
      "grad_norm": 3.734375,
      "learning_rate": 5.8703061973548e-06,
      "loss": 1.06016655,
      "memory(GiB)": 112.26,
      "step": 37220,
      "train_speed(iter/s)": 1.1282
    },
    {
      "acc": 0.74132233,
      "epoch": 0.9443176052765094,
      "grad_norm": 2.734375,
      "learning_rate": 5.869273561961992e-06,
      "loss": 1.06686821,
      "memory(GiB)": 112.26,
      "step": 37225,
      "train_speed(iter/s)": 1.128228
    },
    {
      "acc": 0.74155788,
      "epoch": 0.9444444444444444,
      "grad_norm": 3.65625,
      "learning_rate": 5.8682408883346535e-06,
      "loss": 1.08371468,
      "memory(GiB)": 112.26,
      "step": 37230,
      "train_speed(iter/s)": 1.128242
    },
    {
      "acc": 0.73836765,
      "epoch": 0.9445712836123795,
      "grad_norm": 3.765625,
      "learning_rate": 5.867208176518202e-06,
      "loss": 1.06119127,
      "memory(GiB)": 112.26,
      "step": 37235,
      "train_speed(iter/s)": 1.128271
    },
    {
      "acc": 0.74674549,
      "epoch": 0.9446981227803145,
      "grad_norm": 4.90625,
      "learning_rate": 5.866175426558064e-06,
      "loss": 1.04569254,
      "memory(GiB)": 112.26,
      "step": 37240,
      "train_speed(iter/s)": 1.128278
    },
    {
      "acc": 0.74162378,
      "epoch": 0.9448249619482496,
      "grad_norm": 3.703125,
      "learning_rate": 5.865142638499664e-06,
      "loss": 1.1262001,
      "memory(GiB)": 112.26,
      "step": 37245,
      "train_speed(iter/s)": 1.128305
    },
    {
      "acc": 0.72246685,
      "epoch": 0.9449518011161847,
      "grad_norm": 3.578125,
      "learning_rate": 5.864109812388426e-06,
      "loss": 1.18226538,
      "memory(GiB)": 112.26,
      "step": 37250,
      "train_speed(iter/s)": 1.12833
    },
    {
      "acc": 0.73358822,
      "epoch": 0.9450786402841197,
      "grad_norm": 3.328125,
      "learning_rate": 5.863076948269782e-06,
      "loss": 1.06503544,
      "memory(GiB)": 112.26,
      "step": 37255,
      "train_speed(iter/s)": 1.128346
    },
    {
      "acc": 0.74359636,
      "epoch": 0.9452054794520548,
      "grad_norm": 3.25,
      "learning_rate": 5.862044046189162e-06,
      "loss": 1.09286709,
      "memory(GiB)": 112.26,
      "step": 37260,
      "train_speed(iter/s)": 1.128362
    },
    {
      "acc": 0.74883041,
      "epoch": 0.9453323186199899,
      "grad_norm": 4.0625,
      "learning_rate": 5.8610111061919924e-06,
      "loss": 1.06455402,
      "memory(GiB)": 112.26,
      "step": 37265,
      "train_speed(iter/s)": 1.128389
    },
    {
      "acc": 0.73179612,
      "epoch": 0.9454591577879249,
      "grad_norm": 3.921875,
      "learning_rate": 5.859978128323713e-06,
      "loss": 1.0891861,
      "memory(GiB)": 112.26,
      "step": 37270,
      "train_speed(iter/s)": 1.128414
    },
    {
      "acc": 0.74381838,
      "epoch": 0.94558599695586,
      "grad_norm": 3.65625,
      "learning_rate": 5.858945112629755e-06,
      "loss": 1.0611042,
      "memory(GiB)": 112.26,
      "step": 37275,
      "train_speed(iter/s)": 1.12842
    },
    {
      "acc": 0.74609213,
      "epoch": 0.945712836123795,
      "grad_norm": 3.453125,
      "learning_rate": 5.857912059155557e-06,
      "loss": 1.06918983,
      "memory(GiB)": 112.26,
      "step": 37280,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.74850883,
      "epoch": 0.9458396752917301,
      "grad_norm": 3.6875,
      "learning_rate": 5.856878967946555e-06,
      "loss": 1.03765507,
      "memory(GiB)": 112.26,
      "step": 37285,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.73100295,
      "epoch": 0.9459665144596652,
      "grad_norm": 4.0,
      "learning_rate": 5.855845839048191e-06,
      "loss": 1.08826618,
      "memory(GiB)": 112.26,
      "step": 37290,
      "train_speed(iter/s)": 1.128471
    },
    {
      "acc": 0.73682294,
      "epoch": 0.9460933536276002,
      "grad_norm": 3.5,
      "learning_rate": 5.854812672505906e-06,
      "loss": 1.12591057,
      "memory(GiB)": 112.26,
      "step": 37295,
      "train_speed(iter/s)": 1.128483
    },
    {
      "acc": 0.74611797,
      "epoch": 0.9462201927955353,
      "grad_norm": 3.984375,
      "learning_rate": 5.853779468365144e-06,
      "loss": 1.02982368,
      "memory(GiB)": 112.26,
      "step": 37300,
      "train_speed(iter/s)": 1.128514
    },
    {
      "acc": 0.73485756,
      "epoch": 0.9463470319634704,
      "grad_norm": 3.578125,
      "learning_rate": 5.852746226671348e-06,
      "loss": 1.12213364,
      "memory(GiB)": 112.26,
      "step": 37305,
      "train_speed(iter/s)": 1.128543
    },
    {
      "acc": 0.73475471,
      "epoch": 0.9464738711314054,
      "grad_norm": 3.296875,
      "learning_rate": 5.851712947469966e-06,
      "loss": 1.0862751,
      "memory(GiB)": 112.26,
      "step": 37310,
      "train_speed(iter/s)": 1.128569
    },
    {
      "acc": 0.72767134,
      "epoch": 0.9466007102993405,
      "grad_norm": 3.625,
      "learning_rate": 5.850679630806446e-06,
      "loss": 1.12549229,
      "memory(GiB)": 112.26,
      "step": 37315,
      "train_speed(iter/s)": 1.128582
    },
    {
      "acc": 0.74069571,
      "epoch": 0.9467275494672754,
      "grad_norm": 3.40625,
      "learning_rate": 5.849646276726237e-06,
      "loss": 1.10340891,
      "memory(GiB)": 112.26,
      "step": 37320,
      "train_speed(iter/s)": 1.128597
    },
    {
      "acc": 0.73340082,
      "epoch": 0.9468543886352105,
      "grad_norm": 4.21875,
      "learning_rate": 5.848612885274792e-06,
      "loss": 1.11349907,
      "memory(GiB)": 112.26,
      "step": 37325,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.72813187,
      "epoch": 0.9469812278031456,
      "grad_norm": 3.4375,
      "learning_rate": 5.847579456497564e-06,
      "loss": 1.12959146,
      "memory(GiB)": 112.26,
      "step": 37330,
      "train_speed(iter/s)": 1.128621
    },
    {
      "acc": 0.73751764,
      "epoch": 0.9471080669710806,
      "grad_norm": 3.8125,
      "learning_rate": 5.8465459904400065e-06,
      "loss": 1.03005238,
      "memory(GiB)": 112.26,
      "step": 37335,
      "train_speed(iter/s)": 1.128637
    },
    {
      "acc": 0.73968506,
      "epoch": 0.9472349061390157,
      "grad_norm": 3.96875,
      "learning_rate": 5.845512487147579e-06,
      "loss": 1.08929739,
      "memory(GiB)": 112.26,
      "step": 37340,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.73433409,
      "epoch": 0.9473617453069508,
      "grad_norm": 4.15625,
      "learning_rate": 5.844478946665733e-06,
      "loss": 1.07362862,
      "memory(GiB)": 112.26,
      "step": 37345,
      "train_speed(iter/s)": 1.128676
    },
    {
      "acc": 0.74409027,
      "epoch": 0.9474885844748858,
      "grad_norm": 3.171875,
      "learning_rate": 5.843445369039937e-06,
      "loss": 1.11164017,
      "memory(GiB)": 112.26,
      "step": 37350,
      "train_speed(iter/s)": 1.128695
    },
    {
      "acc": 0.75237994,
      "epoch": 0.9476154236428209,
      "grad_norm": 4.625,
      "learning_rate": 5.842411754315645e-06,
      "loss": 1.0114975,
      "memory(GiB)": 112.26,
      "step": 37355,
      "train_speed(iter/s)": 1.128714
    },
    {
      "acc": 0.73173013,
      "epoch": 0.9477422628107559,
      "grad_norm": 3.5,
      "learning_rate": 5.841378102538324e-06,
      "loss": 1.12672272,
      "memory(GiB)": 112.26,
      "step": 37360,
      "train_speed(iter/s)": 1.128728
    },
    {
      "acc": 0.73745613,
      "epoch": 0.947869101978691,
      "grad_norm": 4.1875,
      "learning_rate": 5.840344413753438e-06,
      "loss": 1.05463676,
      "memory(GiB)": 112.26,
      "step": 37365,
      "train_speed(iter/s)": 1.128749
    },
    {
      "acc": 0.73281364,
      "epoch": 0.9479959411466261,
      "grad_norm": 3.265625,
      "learning_rate": 5.8393106880064535e-06,
      "loss": 1.06600704,
      "memory(GiB)": 112.26,
      "step": 37370,
      "train_speed(iter/s)": 1.128774
    },
    {
      "acc": 0.72796488,
      "epoch": 0.9481227803145611,
      "grad_norm": 3.578125,
      "learning_rate": 5.838276925342836e-06,
      "loss": 1.04388952,
      "memory(GiB)": 112.26,
      "step": 37375,
      "train_speed(iter/s)": 1.128802
    },
    {
      "acc": 0.73682022,
      "epoch": 0.9482496194824962,
      "grad_norm": 3.6875,
      "learning_rate": 5.837243125808058e-06,
      "loss": 1.05152006,
      "memory(GiB)": 112.26,
      "step": 37380,
      "train_speed(iter/s)": 1.128822
    },
    {
      "acc": 0.72191706,
      "epoch": 0.9483764586504313,
      "grad_norm": 4.1875,
      "learning_rate": 5.8362092894475886e-06,
      "loss": 1.13971386,
      "memory(GiB)": 112.26,
      "step": 37385,
      "train_speed(iter/s)": 1.128844
    },
    {
      "acc": 0.73755655,
      "epoch": 0.9485032978183663,
      "grad_norm": 3.25,
      "learning_rate": 5.835175416306901e-06,
      "loss": 1.08504219,
      "memory(GiB)": 112.26,
      "step": 37390,
      "train_speed(iter/s)": 1.128869
    },
    {
      "acc": 0.7441638,
      "epoch": 0.9486301369863014,
      "grad_norm": 4.09375,
      "learning_rate": 5.83414150643147e-06,
      "loss": 1.01619453,
      "memory(GiB)": 112.26,
      "step": 37395,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.72093787,
      "epoch": 0.9487569761542364,
      "grad_norm": 3.859375,
      "learning_rate": 5.833107559866772e-06,
      "loss": 1.03659077,
      "memory(GiB)": 112.26,
      "step": 37400,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.73915892,
      "epoch": 0.9488838153221715,
      "grad_norm": 4.375,
      "learning_rate": 5.832073576658282e-06,
      "loss": 1.08230419,
      "memory(GiB)": 112.26,
      "step": 37405,
      "train_speed(iter/s)": 1.128908
    },
    {
      "acc": 0.73796167,
      "epoch": 0.9490106544901066,
      "grad_norm": 4.0,
      "learning_rate": 5.831039556851485e-06,
      "loss": 1.06417131,
      "memory(GiB)": 112.26,
      "step": 37410,
      "train_speed(iter/s)": 1.128931
    },
    {
      "acc": 0.72965698,
      "epoch": 0.9491374936580416,
      "grad_norm": 3.625,
      "learning_rate": 5.8300055004918535e-06,
      "loss": 1.07335873,
      "memory(GiB)": 112.26,
      "step": 37415,
      "train_speed(iter/s)": 1.128939
    },
    {
      "acc": 0.72573967,
      "epoch": 0.9492643328259767,
      "grad_norm": 3.953125,
      "learning_rate": 5.828971407624877e-06,
      "loss": 1.12368221,
      "memory(GiB)": 112.26,
      "step": 37420,
      "train_speed(iter/s)": 1.128947
    },
    {
      "acc": 0.73657479,
      "epoch": 0.9493911719939118,
      "grad_norm": 3.359375,
      "learning_rate": 5.827937278296037e-06,
      "loss": 1.05790071,
      "memory(GiB)": 112.26,
      "step": 37425,
      "train_speed(iter/s)": 1.128953
    },
    {
      "acc": 0.74720182,
      "epoch": 0.9495180111618468,
      "grad_norm": 3.75,
      "learning_rate": 5.826903112550819e-06,
      "loss": 1.04792576,
      "memory(GiB)": 112.26,
      "step": 37430,
      "train_speed(iter/s)": 1.128973
    },
    {
      "acc": 0.73562527,
      "epoch": 0.9496448503297819,
      "grad_norm": 3.75,
      "learning_rate": 5.825868910434708e-06,
      "loss": 1.0440424,
      "memory(GiB)": 112.26,
      "step": 37435,
      "train_speed(iter/s)": 1.128989
    },
    {
      "acc": 0.75004239,
      "epoch": 0.9497716894977168,
      "grad_norm": 3.265625,
      "learning_rate": 5.824834671993197e-06,
      "loss": 1.03465433,
      "memory(GiB)": 112.26,
      "step": 37440,
      "train_speed(iter/s)": 1.129009
    },
    {
      "acc": 0.72891512,
      "epoch": 0.9498985286656519,
      "grad_norm": 3.96875,
      "learning_rate": 5.823800397271774e-06,
      "loss": 1.10668316,
      "memory(GiB)": 112.26,
      "step": 37445,
      "train_speed(iter/s)": 1.129032
    },
    {
      "acc": 0.73248959,
      "epoch": 0.950025367833587,
      "grad_norm": 5.5,
      "learning_rate": 5.822766086315932e-06,
      "loss": 1.11355343,
      "memory(GiB)": 112.26,
      "step": 37450,
      "train_speed(iter/s)": 1.129059
    },
    {
      "acc": 0.73579292,
      "epoch": 0.950152207001522,
      "grad_norm": 3.640625,
      "learning_rate": 5.821731739171164e-06,
      "loss": 1.11101961,
      "memory(GiB)": 112.26,
      "step": 37455,
      "train_speed(iter/s)": 1.129081
    },
    {
      "acc": 0.74135284,
      "epoch": 0.9502790461694571,
      "grad_norm": 3.6875,
      "learning_rate": 5.820697355882965e-06,
      "loss": 1.12372169,
      "memory(GiB)": 112.26,
      "step": 37460,
      "train_speed(iter/s)": 1.129096
    },
    {
      "acc": 0.74011397,
      "epoch": 0.9504058853373922,
      "grad_norm": 4.15625,
      "learning_rate": 5.819662936496833e-06,
      "loss": 1.09930744,
      "memory(GiB)": 112.26,
      "step": 37465,
      "train_speed(iter/s)": 1.129104
    },
    {
      "acc": 0.73273773,
      "epoch": 0.9505327245053272,
      "grad_norm": 3.203125,
      "learning_rate": 5.818628481058265e-06,
      "loss": 1.02793798,
      "memory(GiB)": 112.26,
      "step": 37470,
      "train_speed(iter/s)": 1.129121
    },
    {
      "acc": 0.7248765,
      "epoch": 0.9506595636732623,
      "grad_norm": 3.703125,
      "learning_rate": 5.81759398961276e-06,
      "loss": 1.1151866,
      "memory(GiB)": 112.26,
      "step": 37475,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.73727012,
      "epoch": 0.9507864028411973,
      "grad_norm": 3.5,
      "learning_rate": 5.816559462205824e-06,
      "loss": 1.07643547,
      "memory(GiB)": 112.26,
      "step": 37480,
      "train_speed(iter/s)": 1.12916
    },
    {
      "acc": 0.74149361,
      "epoch": 0.9509132420091324,
      "grad_norm": 4.15625,
      "learning_rate": 5.815524898882954e-06,
      "loss": 1.06347885,
      "memory(GiB)": 112.26,
      "step": 37485,
      "train_speed(iter/s)": 1.129185
    },
    {
      "acc": 0.74692888,
      "epoch": 0.9510400811770675,
      "grad_norm": 3.671875,
      "learning_rate": 5.8144902996896615e-06,
      "loss": 1.07877712,
      "memory(GiB)": 112.26,
      "step": 37490,
      "train_speed(iter/s)": 1.129191
    },
    {
      "acc": 0.72477951,
      "epoch": 0.9511669203450025,
      "grad_norm": 3.296875,
      "learning_rate": 5.813455664671446e-06,
      "loss": 1.13114414,
      "memory(GiB)": 112.26,
      "step": 37495,
      "train_speed(iter/s)": 1.129217
    },
    {
      "acc": 0.74488225,
      "epoch": 0.9512937595129376,
      "grad_norm": 3.953125,
      "learning_rate": 5.812420993873819e-06,
      "loss": 0.98542547,
      "memory(GiB)": 112.26,
      "step": 37500,
      "train_speed(iter/s)": 1.129237
    },
    {
      "acc": 0.74051781,
      "epoch": 0.9514205986808727,
      "grad_norm": 3.71875,
      "learning_rate": 5.81138628734229e-06,
      "loss": 1.06743202,
      "memory(GiB)": 112.26,
      "step": 37505,
      "train_speed(iter/s)": 1.129262
    },
    {
      "acc": 0.73764896,
      "epoch": 0.9515474378488077,
      "grad_norm": 3.859375,
      "learning_rate": 5.81035154512237e-06,
      "loss": 1.03994179,
      "memory(GiB)": 112.26,
      "step": 37510,
      "train_speed(iter/s)": 1.129287
    },
    {
      "acc": 0.72572145,
      "epoch": 0.9516742770167428,
      "grad_norm": 3.84375,
      "learning_rate": 5.809316767259571e-06,
      "loss": 1.10002384,
      "memory(GiB)": 112.26,
      "step": 37515,
      "train_speed(iter/s)": 1.129315
    },
    {
      "acc": 0.71874032,
      "epoch": 0.9518011161846778,
      "grad_norm": 3.484375,
      "learning_rate": 5.808281953799408e-06,
      "loss": 1.09511986,
      "memory(GiB)": 112.26,
      "step": 37520,
      "train_speed(iter/s)": 1.129336
    },
    {
      "acc": 0.71688275,
      "epoch": 0.9519279553526129,
      "grad_norm": 4.1875,
      "learning_rate": 5.807247104787395e-06,
      "loss": 1.09755354,
      "memory(GiB)": 112.26,
      "step": 37525,
      "train_speed(iter/s)": 1.129363
    },
    {
      "acc": 0.74853392,
      "epoch": 0.952054794520548,
      "grad_norm": 3.765625,
      "learning_rate": 5.806212220269049e-06,
      "loss": 1.06354256,
      "memory(GiB)": 112.26,
      "step": 37530,
      "train_speed(iter/s)": 1.129383
    },
    {
      "acc": 0.72584724,
      "epoch": 0.952181633688483,
      "grad_norm": 3.640625,
      "learning_rate": 5.805177300289891e-06,
      "loss": 1.1436203,
      "memory(GiB)": 112.26,
      "step": 37535,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.73600502,
      "epoch": 0.9523084728564181,
      "grad_norm": 3.6875,
      "learning_rate": 5.804142344895441e-06,
      "loss": 1.0807272,
      "memory(GiB)": 112.26,
      "step": 37540,
      "train_speed(iter/s)": 1.129408
    },
    {
      "acc": 0.74165697,
      "epoch": 0.9524353120243532,
      "grad_norm": 4.1875,
      "learning_rate": 5.803107354131221e-06,
      "loss": 1.04416819,
      "memory(GiB)": 112.26,
      "step": 37545,
      "train_speed(iter/s)": 1.129426
    },
    {
      "acc": 0.73326864,
      "epoch": 0.9525621511922882,
      "grad_norm": 4.15625,
      "learning_rate": 5.802072328042753e-06,
      "loss": 1.09843216,
      "memory(GiB)": 112.26,
      "step": 37550,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.72898741,
      "epoch": 0.9526889903602233,
      "grad_norm": 3.40625,
      "learning_rate": 5.8010372666755625e-06,
      "loss": 1.11257687,
      "memory(GiB)": 112.26,
      "step": 37555,
      "train_speed(iter/s)": 1.129461
    },
    {
      "acc": 0.7364532,
      "epoch": 0.9528158295281582,
      "grad_norm": 4.40625,
      "learning_rate": 5.800002170075179e-06,
      "loss": 1.10141497,
      "memory(GiB)": 112.26,
      "step": 37560,
      "train_speed(iter/s)": 1.129471
    },
    {
      "acc": 0.74955778,
      "epoch": 0.9529426686960933,
      "grad_norm": 3.578125,
      "learning_rate": 5.798967038287125e-06,
      "loss": 1.04472198,
      "memory(GiB)": 112.26,
      "step": 37565,
      "train_speed(iter/s)": 1.129497
    },
    {
      "acc": 0.74379654,
      "epoch": 0.9530695078640284,
      "grad_norm": 4.65625,
      "learning_rate": 5.797931871356936e-06,
      "loss": 1.05138206,
      "memory(GiB)": 112.26,
      "step": 37570,
      "train_speed(iter/s)": 1.129521
    },
    {
      "acc": 0.7336978,
      "epoch": 0.9531963470319634,
      "grad_norm": 3.5,
      "learning_rate": 5.796896669330139e-06,
      "loss": 1.07462883,
      "memory(GiB)": 112.26,
      "step": 37575,
      "train_speed(iter/s)": 1.129547
    },
    {
      "acc": 0.72166939,
      "epoch": 0.9533231861998985,
      "grad_norm": 4.59375,
      "learning_rate": 5.79586143225227e-06,
      "loss": 1.14042187,
      "memory(GiB)": 112.26,
      "step": 37580,
      "train_speed(iter/s)": 1.129565
    },
    {
      "acc": 0.72422886,
      "epoch": 0.9534500253678336,
      "grad_norm": 4.25,
      "learning_rate": 5.79482616016886e-06,
      "loss": 1.13012352,
      "memory(GiB)": 112.26,
      "step": 37585,
      "train_speed(iter/s)": 1.129595
    },
    {
      "acc": 0.73394814,
      "epoch": 0.9535768645357686,
      "grad_norm": 4.75,
      "learning_rate": 5.793790853125449e-06,
      "loss": 1.10350313,
      "memory(GiB)": 112.26,
      "step": 37590,
      "train_speed(iter/s)": 1.129614
    },
    {
      "acc": 0.73210497,
      "epoch": 0.9537037037037037,
      "grad_norm": 3.96875,
      "learning_rate": 5.792755511167572e-06,
      "loss": 1.10067711,
      "memory(GiB)": 112.26,
      "step": 37595,
      "train_speed(iter/s)": 1.129636
    },
    {
      "acc": 0.73975806,
      "epoch": 0.9538305428716387,
      "grad_norm": 3.984375,
      "learning_rate": 5.7917201343407685e-06,
      "loss": 1.06164103,
      "memory(GiB)": 112.26,
      "step": 37600,
      "train_speed(iter/s)": 1.129654
    },
    {
      "acc": 0.73483515,
      "epoch": 0.9539573820395738,
      "grad_norm": 4.21875,
      "learning_rate": 5.790684722690577e-06,
      "loss": 1.15289192,
      "memory(GiB)": 112.26,
      "step": 37605,
      "train_speed(iter/s)": 1.129661
    },
    {
      "acc": 0.73048,
      "epoch": 0.9540842212075089,
      "grad_norm": 3.625,
      "learning_rate": 5.789649276262542e-06,
      "loss": 1.11440258,
      "memory(GiB)": 112.26,
      "step": 37610,
      "train_speed(iter/s)": 1.129669
    },
    {
      "acc": 0.74068103,
      "epoch": 0.9542110603754439,
      "grad_norm": 4.5,
      "learning_rate": 5.788613795102207e-06,
      "loss": 1.07174072,
      "memory(GiB)": 112.26,
      "step": 37615,
      "train_speed(iter/s)": 1.12969
    },
    {
      "acc": 0.73784142,
      "epoch": 0.954337899543379,
      "grad_norm": 3.265625,
      "learning_rate": 5.787578279255116e-06,
      "loss": 1.02299185,
      "memory(GiB)": 112.26,
      "step": 37620,
      "train_speed(iter/s)": 1.129704
    },
    {
      "acc": 0.75405512,
      "epoch": 0.9544647387113141,
      "grad_norm": 3.359375,
      "learning_rate": 5.786542728766815e-06,
      "loss": 1.02681713,
      "memory(GiB)": 112.26,
      "step": 37625,
      "train_speed(iter/s)": 1.129731
    },
    {
      "acc": 0.72923717,
      "epoch": 0.9545915778792491,
      "grad_norm": 5.46875,
      "learning_rate": 5.785507143682856e-06,
      "loss": 1.07756462,
      "memory(GiB)": 112.26,
      "step": 37630,
      "train_speed(iter/s)": 1.129747
    },
    {
      "acc": 0.72185526,
      "epoch": 0.9547184170471842,
      "grad_norm": 3.625,
      "learning_rate": 5.784471524048782e-06,
      "loss": 1.08727026,
      "memory(GiB)": 112.26,
      "step": 37635,
      "train_speed(iter/s)": 1.129773
    },
    {
      "acc": 0.73450103,
      "epoch": 0.9548452562151192,
      "grad_norm": 4.21875,
      "learning_rate": 5.783435869910151e-06,
      "loss": 1.10518646,
      "memory(GiB)": 112.26,
      "step": 37640,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.73201418,
      "epoch": 0.9549720953830543,
      "grad_norm": 3.109375,
      "learning_rate": 5.782400181312511e-06,
      "loss": 1.09675684,
      "memory(GiB)": 112.26,
      "step": 37645,
      "train_speed(iter/s)": 1.129798
    },
    {
      "acc": 0.73767114,
      "epoch": 0.9550989345509894,
      "grad_norm": 3.671875,
      "learning_rate": 5.781364458301419e-06,
      "loss": 1.05026016,
      "memory(GiB)": 112.26,
      "step": 37650,
      "train_speed(iter/s)": 1.129802
    },
    {
      "acc": 0.74052649,
      "epoch": 0.9552257737189244,
      "grad_norm": 3.234375,
      "learning_rate": 5.780328700922427e-06,
      "loss": 1.07852402,
      "memory(GiB)": 112.26,
      "step": 37655,
      "train_speed(iter/s)": 1.129816
    },
    {
      "acc": 0.75680594,
      "epoch": 0.9553526128868595,
      "grad_norm": 3.390625,
      "learning_rate": 5.779292909221097e-06,
      "loss": 1.05060949,
      "memory(GiB)": 112.26,
      "step": 37660,
      "train_speed(iter/s)": 1.129839
    },
    {
      "acc": 0.74202709,
      "epoch": 0.9554794520547946,
      "grad_norm": 3.484375,
      "learning_rate": 5.778257083242986e-06,
      "loss": 1.07727928,
      "memory(GiB)": 112.26,
      "step": 37665,
      "train_speed(iter/s)": 1.129869
    },
    {
      "acc": 0.72703218,
      "epoch": 0.9556062912227296,
      "grad_norm": 3.09375,
      "learning_rate": 5.777221223033653e-06,
      "loss": 1.09059267,
      "memory(GiB)": 112.26,
      "step": 37670,
      "train_speed(iter/s)": 1.129885
    },
    {
      "acc": 0.73271718,
      "epoch": 0.9557331303906647,
      "grad_norm": 3.0625,
      "learning_rate": 5.77618532863866e-06,
      "loss": 1.10286655,
      "memory(GiB)": 112.26,
      "step": 37675,
      "train_speed(iter/s)": 1.129891
    },
    {
      "acc": 0.74815359,
      "epoch": 0.9558599695585996,
      "grad_norm": 5.0625,
      "learning_rate": 5.775149400103572e-06,
      "loss": 0.9910017,
      "memory(GiB)": 112.26,
      "step": 37680,
      "train_speed(iter/s)": 1.129906
    },
    {
      "acc": 0.7318922,
      "epoch": 0.9559868087265347,
      "grad_norm": 4.125,
      "learning_rate": 5.774113437473953e-06,
      "loss": 1.08983269,
      "memory(GiB)": 112.26,
      "step": 37685,
      "train_speed(iter/s)": 1.129922
    },
    {
      "acc": 0.73452764,
      "epoch": 0.9561136478944698,
      "grad_norm": 3.296875,
      "learning_rate": 5.7730774407953675e-06,
      "loss": 1.05239296,
      "memory(GiB)": 112.26,
      "step": 37690,
      "train_speed(iter/s)": 1.129938
    },
    {
      "acc": 0.74464607,
      "epoch": 0.9562404870624048,
      "grad_norm": 4.25,
      "learning_rate": 5.772041410113384e-06,
      "loss": 1.01776161,
      "memory(GiB)": 112.26,
      "step": 37695,
      "train_speed(iter/s)": 1.129956
    },
    {
      "acc": 0.72887521,
      "epoch": 0.9563673262303399,
      "grad_norm": 3.625,
      "learning_rate": 5.771005345473575e-06,
      "loss": 1.08057289,
      "memory(GiB)": 112.26,
      "step": 37700,
      "train_speed(iter/s)": 1.129988
    },
    {
      "acc": 0.74191589,
      "epoch": 0.956494165398275,
      "grad_norm": 3.421875,
      "learning_rate": 5.769969246921505e-06,
      "loss": 1.03789902,
      "memory(GiB)": 112.26,
      "step": 37705,
      "train_speed(iter/s)": 1.13001
    },
    {
      "acc": 0.73403368,
      "epoch": 0.95662100456621,
      "grad_norm": 3.4375,
      "learning_rate": 5.768933114502753e-06,
      "loss": 1.08225994,
      "memory(GiB)": 112.26,
      "step": 37710,
      "train_speed(iter/s)": 1.130034
    },
    {
      "acc": 0.75041599,
      "epoch": 0.9567478437341451,
      "grad_norm": 4.125,
      "learning_rate": 5.7678969482628875e-06,
      "loss": 1.01958828,
      "memory(GiB)": 112.26,
      "step": 37715,
      "train_speed(iter/s)": 1.13006
    },
    {
      "acc": 0.74468246,
      "epoch": 0.9568746829020801,
      "grad_norm": 5.28125,
      "learning_rate": 5.766860748247488e-06,
      "loss": 1.02619419,
      "memory(GiB)": 112.26,
      "step": 37720,
      "train_speed(iter/s)": 1.130072
    },
    {
      "acc": 0.72003832,
      "epoch": 0.9570015220700152,
      "grad_norm": 3.390625,
      "learning_rate": 5.765824514502126e-06,
      "loss": 1.1050869,
      "memory(GiB)": 112.26,
      "step": 37725,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.75801716,
      "epoch": 0.9571283612379503,
      "grad_norm": 5.8125,
      "learning_rate": 5.7647882470723846e-06,
      "loss": 1.05438747,
      "memory(GiB)": 112.26,
      "step": 37730,
      "train_speed(iter/s)": 1.130123
    },
    {
      "acc": 0.75210009,
      "epoch": 0.9572552004058853,
      "grad_norm": 4.96875,
      "learning_rate": 5.763751946003842e-06,
      "loss": 1.00186634,
      "memory(GiB)": 112.26,
      "step": 37735,
      "train_speed(iter/s)": 1.130135
    },
    {
      "acc": 0.73407593,
      "epoch": 0.9573820395738204,
      "grad_norm": 3.375,
      "learning_rate": 5.7627156113420775e-06,
      "loss": 1.0454174,
      "memory(GiB)": 112.26,
      "step": 37740,
      "train_speed(iter/s)": 1.130145
    },
    {
      "acc": 0.73372784,
      "epoch": 0.9575088787417555,
      "grad_norm": 3.984375,
      "learning_rate": 5.761679243132677e-06,
      "loss": 1.04802456,
      "memory(GiB)": 112.26,
      "step": 37745,
      "train_speed(iter/s)": 1.130162
    },
    {
      "acc": 0.72015653,
      "epoch": 0.9576357179096905,
      "grad_norm": 3.578125,
      "learning_rate": 5.760642841421222e-06,
      "loss": 1.09175224,
      "memory(GiB)": 112.26,
      "step": 37750,
      "train_speed(iter/s)": 1.130166
    },
    {
      "acc": 0.74383736,
      "epoch": 0.9577625570776256,
      "grad_norm": 4.3125,
      "learning_rate": 5.759606406253299e-06,
      "loss": 1.03251963,
      "memory(GiB)": 112.26,
      "step": 37755,
      "train_speed(iter/s)": 1.130181
    },
    {
      "acc": 0.74425001,
      "epoch": 0.9578893962455606,
      "grad_norm": 3.171875,
      "learning_rate": 5.758569937674494e-06,
      "loss": 1.02508507,
      "memory(GiB)": 112.26,
      "step": 37760,
      "train_speed(iter/s)": 1.130188
    },
    {
      "acc": 0.74703817,
      "epoch": 0.9580162354134957,
      "grad_norm": 3.796875,
      "learning_rate": 5.7575334357303954e-06,
      "loss": 1.03660851,
      "memory(GiB)": 112.26,
      "step": 37765,
      "train_speed(iter/s)": 1.130204
    },
    {
      "acc": 0.73504009,
      "epoch": 0.9581430745814308,
      "grad_norm": 3.484375,
      "learning_rate": 5.756496900466596e-06,
      "loss": 1.05875769,
      "memory(GiB)": 112.26,
      "step": 37770,
      "train_speed(iter/s)": 1.130232
    },
    {
      "acc": 0.73613572,
      "epoch": 0.9582699137493658,
      "grad_norm": 3.5,
      "learning_rate": 5.755460331928684e-06,
      "loss": 1.06494207,
      "memory(GiB)": 112.26,
      "step": 37775,
      "train_speed(iter/s)": 1.130253
    },
    {
      "acc": 0.72999635,
      "epoch": 0.9583967529173009,
      "grad_norm": 3.75,
      "learning_rate": 5.754423730162257e-06,
      "loss": 1.12466574,
      "memory(GiB)": 112.26,
      "step": 37780,
      "train_speed(iter/s)": 1.130262
    },
    {
      "acc": 0.73723516,
      "epoch": 0.958523592085236,
      "grad_norm": 3.5,
      "learning_rate": 5.753387095212901e-06,
      "loss": 1.08963661,
      "memory(GiB)": 112.26,
      "step": 37785,
      "train_speed(iter/s)": 1.130287
    },
    {
      "acc": 0.73832169,
      "epoch": 0.958650431253171,
      "grad_norm": 4.46875,
      "learning_rate": 5.752350427126221e-06,
      "loss": 1.09853039,
      "memory(GiB)": 112.26,
      "step": 37790,
      "train_speed(iter/s)": 1.130315
    },
    {
      "acc": 0.73686352,
      "epoch": 0.958777270421106,
      "grad_norm": 3.265625,
      "learning_rate": 5.751313725947808e-06,
      "loss": 1.02601833,
      "memory(GiB)": 112.26,
      "step": 37795,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.74761662,
      "epoch": 0.958904109589041,
      "grad_norm": 4.4375,
      "learning_rate": 5.7502769917232635e-06,
      "loss": 1.05104094,
      "memory(GiB)": 112.26,
      "step": 37800,
      "train_speed(iter/s)": 1.13036
    },
    {
      "acc": 0.72647557,
      "epoch": 0.9590309487569761,
      "grad_norm": 3.4375,
      "learning_rate": 5.7492402244981885e-06,
      "loss": 1.11354084,
      "memory(GiB)": 112.26,
      "step": 37805,
      "train_speed(iter/s)": 1.130381
    },
    {
      "acc": 0.74544415,
      "epoch": 0.9591577879249112,
      "grad_norm": 4.21875,
      "learning_rate": 5.748203424318182e-06,
      "loss": 1.0793313,
      "memory(GiB)": 112.26,
      "step": 37810,
      "train_speed(iter/s)": 1.130398
    },
    {
      "acc": 0.75716805,
      "epoch": 0.9592846270928462,
      "grad_norm": 3.78125,
      "learning_rate": 5.747166591228849e-06,
      "loss": 1.01368456,
      "memory(GiB)": 112.26,
      "step": 37815,
      "train_speed(iter/s)": 1.130412
    },
    {
      "acc": 0.73931866,
      "epoch": 0.9594114662607813,
      "grad_norm": 3.84375,
      "learning_rate": 5.746129725275793e-06,
      "loss": 1.08053303,
      "memory(GiB)": 112.26,
      "step": 37820,
      "train_speed(iter/s)": 1.130441
    },
    {
      "acc": 0.73207378,
      "epoch": 0.9595383054287164,
      "grad_norm": 3.5625,
      "learning_rate": 5.74509282650462e-06,
      "loss": 1.10476284,
      "memory(GiB)": 112.26,
      "step": 37825,
      "train_speed(iter/s)": 1.130471
    },
    {
      "acc": 0.72592077,
      "epoch": 0.9596651445966514,
      "grad_norm": 4.96875,
      "learning_rate": 5.744055894960938e-06,
      "loss": 1.1461998,
      "memory(GiB)": 112.26,
      "step": 37830,
      "train_speed(iter/s)": 1.130491
    },
    {
      "acc": 0.72464452,
      "epoch": 0.9597919837645865,
      "grad_norm": 4.0,
      "learning_rate": 5.743018930690357e-06,
      "loss": 1.16546469,
      "memory(GiB)": 112.26,
      "step": 37835,
      "train_speed(iter/s)": 1.130521
    },
    {
      "acc": 0.73696141,
      "epoch": 0.9599188229325215,
      "grad_norm": 5.1875,
      "learning_rate": 5.7419819337384855e-06,
      "loss": 1.07307138,
      "memory(GiB)": 112.26,
      "step": 37840,
      "train_speed(iter/s)": 1.130549
    },
    {
      "acc": 0.73195448,
      "epoch": 0.9600456621004566,
      "grad_norm": 3.890625,
      "learning_rate": 5.740944904150934e-06,
      "loss": 1.05209942,
      "memory(GiB)": 112.26,
      "step": 37845,
      "train_speed(iter/s)": 1.130577
    },
    {
      "acc": 0.73555584,
      "epoch": 0.9601725012683917,
      "grad_norm": 3.671875,
      "learning_rate": 5.739907841973321e-06,
      "loss": 1.04648037,
      "memory(GiB)": 112.26,
      "step": 37850,
      "train_speed(iter/s)": 1.130585
    },
    {
      "acc": 0.73860168,
      "epoch": 0.9602993404363267,
      "grad_norm": 3.96875,
      "learning_rate": 5.738870747251255e-06,
      "loss": 1.0911499,
      "memory(GiB)": 112.26,
      "step": 37855,
      "train_speed(iter/s)": 1.130604
    },
    {
      "acc": 0.73518705,
      "epoch": 0.9604261796042618,
      "grad_norm": 3.765625,
      "learning_rate": 5.737833620030357e-06,
      "loss": 1.09385777,
      "memory(GiB)": 112.26,
      "step": 37860,
      "train_speed(iter/s)": 1.130632
    },
    {
      "acc": 0.75907211,
      "epoch": 0.9605530187721969,
      "grad_norm": 3.828125,
      "learning_rate": 5.7367964603562385e-06,
      "loss": 1.00842581,
      "memory(GiB)": 112.26,
      "step": 37865,
      "train_speed(iter/s)": 1.130658
    },
    {
      "acc": 0.74556751,
      "epoch": 0.9606798579401319,
      "grad_norm": 3.296875,
      "learning_rate": 5.7357592682745245e-06,
      "loss": 1.07349987,
      "memory(GiB)": 112.26,
      "step": 37870,
      "train_speed(iter/s)": 1.13068
    },
    {
      "acc": 0.74673171,
      "epoch": 0.960806697108067,
      "grad_norm": 4.0,
      "learning_rate": 5.734722043830833e-06,
      "loss": 1.00812283,
      "memory(GiB)": 112.26,
      "step": 37875,
      "train_speed(iter/s)": 1.130687
    },
    {
      "acc": 0.73559093,
      "epoch": 0.960933536276002,
      "grad_norm": 3.921875,
      "learning_rate": 5.7336847870707855e-06,
      "loss": 1.0886488,
      "memory(GiB)": 112.26,
      "step": 37880,
      "train_speed(iter/s)": 1.130713
    },
    {
      "acc": 0.73067565,
      "epoch": 0.9610603754439371,
      "grad_norm": 3.5,
      "learning_rate": 5.732647498040006e-06,
      "loss": 1.10950737,
      "memory(GiB)": 112.26,
      "step": 37885,
      "train_speed(iter/s)": 1.130734
    },
    {
      "acc": 0.73583713,
      "epoch": 0.9611872146118722,
      "grad_norm": 5.75,
      "learning_rate": 5.731610176784118e-06,
      "loss": 1.05721321,
      "memory(GiB)": 112.26,
      "step": 37890,
      "train_speed(iter/s)": 1.130749
    },
    {
      "acc": 0.73989382,
      "epoch": 0.9613140537798072,
      "grad_norm": 3.40625,
      "learning_rate": 5.730572823348748e-06,
      "loss": 1.03447065,
      "memory(GiB)": 112.26,
      "step": 37895,
      "train_speed(iter/s)": 1.130775
    },
    {
      "acc": 0.73257732,
      "epoch": 0.9614408929477423,
      "grad_norm": 3.859375,
      "learning_rate": 5.729535437779523e-06,
      "loss": 1.08085394,
      "memory(GiB)": 112.26,
      "step": 37900,
      "train_speed(iter/s)": 1.130781
    },
    {
      "acc": 0.72035294,
      "epoch": 0.9615677321156774,
      "grad_norm": 3.46875,
      "learning_rate": 5.728498020122073e-06,
      "loss": 1.11752939,
      "memory(GiB)": 112.26,
      "step": 37905,
      "train_speed(iter/s)": 1.130809
    },
    {
      "acc": 0.74240789,
      "epoch": 0.9616945712836124,
      "grad_norm": 3.859375,
      "learning_rate": 5.727460570422028e-06,
      "loss": 1.03792572,
      "memory(GiB)": 112.26,
      "step": 37910,
      "train_speed(iter/s)": 1.13081
    },
    {
      "acc": 0.74763789,
      "epoch": 0.9618214104515475,
      "grad_norm": 3.78125,
      "learning_rate": 5.726423088725017e-06,
      "loss": 1.08138123,
      "memory(GiB)": 112.26,
      "step": 37915,
      "train_speed(iter/s)": 1.130821
    },
    {
      "acc": 0.72982402,
      "epoch": 0.9619482496194824,
      "grad_norm": 3.0625,
      "learning_rate": 5.725385575076677e-06,
      "loss": 1.05707188,
      "memory(GiB)": 112.26,
      "step": 37920,
      "train_speed(iter/s)": 1.13085
    },
    {
      "acc": 0.72930889,
      "epoch": 0.9620750887874175,
      "grad_norm": 3.921875,
      "learning_rate": 5.7243480295226405e-06,
      "loss": 1.10182743,
      "memory(GiB)": 112.26,
      "step": 37925,
      "train_speed(iter/s)": 1.130878
    },
    {
      "acc": 0.7424233,
      "epoch": 0.9622019279553526,
      "grad_norm": 3.796875,
      "learning_rate": 5.723310452108545e-06,
      "loss": 1.06322279,
      "memory(GiB)": 112.26,
      "step": 37930,
      "train_speed(iter/s)": 1.130905
    },
    {
      "acc": 0.72182393,
      "epoch": 0.9623287671232876,
      "grad_norm": 3.4375,
      "learning_rate": 5.722272842880023e-06,
      "loss": 1.14393787,
      "memory(GiB)": 112.26,
      "step": 37935,
      "train_speed(iter/s)": 1.130931
    },
    {
      "acc": 0.73569431,
      "epoch": 0.9624556062912227,
      "grad_norm": 3.421875,
      "learning_rate": 5.7212352018827215e-06,
      "loss": 1.07265282,
      "memory(GiB)": 112.26,
      "step": 37940,
      "train_speed(iter/s)": 1.130945
    },
    {
      "acc": 0.73950129,
      "epoch": 0.9625824454591578,
      "grad_norm": 3.4375,
      "learning_rate": 5.720197529162272e-06,
      "loss": 1.05476627,
      "memory(GiB)": 112.26,
      "step": 37945,
      "train_speed(iter/s)": 1.130982
    },
    {
      "acc": 0.74711094,
      "epoch": 0.9627092846270928,
      "grad_norm": 3.125,
      "learning_rate": 5.719159824764321e-06,
      "loss": 0.99547882,
      "memory(GiB)": 112.26,
      "step": 37950,
      "train_speed(iter/s)": 1.130992
    },
    {
      "acc": 0.73617811,
      "epoch": 0.9628361237950279,
      "grad_norm": 3.65625,
      "learning_rate": 5.71812208873451e-06,
      "loss": 1.1117795,
      "memory(GiB)": 112.26,
      "step": 37955,
      "train_speed(iter/s)": 1.131012
    },
    {
      "acc": 0.73953876,
      "epoch": 0.9629629629629629,
      "grad_norm": 3.546875,
      "learning_rate": 5.717084321118482e-06,
      "loss": 1.06116724,
      "memory(GiB)": 112.26,
      "step": 37960,
      "train_speed(iter/s)": 1.131033
    },
    {
      "acc": 0.73903756,
      "epoch": 0.963089802130898,
      "grad_norm": 4.0625,
      "learning_rate": 5.716046521961887e-06,
      "loss": 1.12134895,
      "memory(GiB)": 112.26,
      "step": 37965,
      "train_speed(iter/s)": 1.13105
    },
    {
      "acc": 0.74404883,
      "epoch": 0.9632166412988331,
      "grad_norm": 4.375,
      "learning_rate": 5.715008691310366e-06,
      "loss": 1.06817827,
      "memory(GiB)": 112.26,
      "step": 37970,
      "train_speed(iter/s)": 1.131076
    },
    {
      "acc": 0.72786636,
      "epoch": 0.9633434804667681,
      "grad_norm": 4.5625,
      "learning_rate": 5.713970829209573e-06,
      "loss": 1.14783831,
      "memory(GiB)": 112.26,
      "step": 37975,
      "train_speed(iter/s)": 1.131095
    },
    {
      "acc": 0.73385668,
      "epoch": 0.9634703196347032,
      "grad_norm": 3.34375,
      "learning_rate": 5.712932935705153e-06,
      "loss": 1.14736576,
      "memory(GiB)": 112.26,
      "step": 37980,
      "train_speed(iter/s)": 1.131104
    },
    {
      "acc": 0.71928492,
      "epoch": 0.9635971588026383,
      "grad_norm": 3.65625,
      "learning_rate": 5.711895010842762e-06,
      "loss": 1.16353159,
      "memory(GiB)": 112.26,
      "step": 37985,
      "train_speed(iter/s)": 1.131132
    },
    {
      "acc": 0.74004097,
      "epoch": 0.9637239979705733,
      "grad_norm": 3.875,
      "learning_rate": 5.710857054668048e-06,
      "loss": 1.08695211,
      "memory(GiB)": 112.26,
      "step": 37990,
      "train_speed(iter/s)": 1.131156
    },
    {
      "acc": 0.74715815,
      "epoch": 0.9638508371385084,
      "grad_norm": 3.765625,
      "learning_rate": 5.7098190672266675e-06,
      "loss": 1.08326998,
      "memory(GiB)": 112.26,
      "step": 37995,
      "train_speed(iter/s)": 1.131167
    },
    {
      "acc": 0.73604746,
      "epoch": 0.9639776763064434,
      "grad_norm": 3.671875,
      "learning_rate": 5.708781048564276e-06,
      "loss": 1.04584064,
      "memory(GiB)": 112.26,
      "step": 38000,
      "train_speed(iter/s)": 1.131196
    },
    {
      "epoch": 0.9639776763064434,
      "eval_acc": 0.7253881638986169,
      "eval_loss": 1.0459413528442383,
      "eval_runtime": 70.9408,
      "eval_samples_per_second": 89.793,
      "eval_steps_per_second": 22.455,
      "step": 38000
    },
    {
      "acc": 0.74557648,
      "epoch": 0.9641045154743785,
      "grad_norm": 5.09375,
      "learning_rate": 5.707742998726527e-06,
      "loss": 1.04269047,
      "memory(GiB)": 112.26,
      "step": 38005,
      "train_speed(iter/s)": 1.12736
    },
    {
      "acc": 0.73455706,
      "epoch": 0.9642313546423136,
      "grad_norm": 3.9375,
      "learning_rate": 5.706704917759085e-06,
      "loss": 1.0328476,
      "memory(GiB)": 112.26,
      "step": 38010,
      "train_speed(iter/s)": 1.127383
    },
    {
      "acc": 0.75768695,
      "epoch": 0.9643581938102486,
      "grad_norm": 4.09375,
      "learning_rate": 5.705666805707603e-06,
      "loss": 1.01883993,
      "memory(GiB)": 112.26,
      "step": 38015,
      "train_speed(iter/s)": 1.127407
    },
    {
      "acc": 0.73257437,
      "epoch": 0.9644850329781837,
      "grad_norm": 3.15625,
      "learning_rate": 5.704628662617744e-06,
      "loss": 1.06221409,
      "memory(GiB)": 112.26,
      "step": 38020,
      "train_speed(iter/s)": 1.127436
    },
    {
      "acc": 0.75066729,
      "epoch": 0.9646118721461188,
      "grad_norm": 3.578125,
      "learning_rate": 5.703590488535171e-06,
      "loss": 1.06280241,
      "memory(GiB)": 112.26,
      "step": 38025,
      "train_speed(iter/s)": 1.127456
    },
    {
      "acc": 0.7430666,
      "epoch": 0.9647387113140538,
      "grad_norm": 4.0,
      "learning_rate": 5.702552283505548e-06,
      "loss": 1.05622854,
      "memory(GiB)": 112.26,
      "step": 38030,
      "train_speed(iter/s)": 1.127481
    },
    {
      "acc": 0.74513507,
      "epoch": 0.9648655504819889,
      "grad_norm": 3.5625,
      "learning_rate": 5.7015140475745376e-06,
      "loss": 1.04289713,
      "memory(GiB)": 112.26,
      "step": 38035,
      "train_speed(iter/s)": 1.127506
    },
    {
      "acc": 0.73600826,
      "epoch": 0.9649923896499238,
      "grad_norm": 3.890625,
      "learning_rate": 5.700475780787809e-06,
      "loss": 1.04439507,
      "memory(GiB)": 112.26,
      "step": 38040,
      "train_speed(iter/s)": 1.127539
    },
    {
      "acc": 0.73424673,
      "epoch": 0.9651192288178589,
      "grad_norm": 3.578125,
      "learning_rate": 5.699437483191027e-06,
      "loss": 1.01685944,
      "memory(GiB)": 112.26,
      "step": 38045,
      "train_speed(iter/s)": 1.127558
    },
    {
      "acc": 0.74488673,
      "epoch": 0.965246067985794,
      "grad_norm": 3.484375,
      "learning_rate": 5.6983991548298615e-06,
      "loss": 1.06656294,
      "memory(GiB)": 112.26,
      "step": 38050,
      "train_speed(iter/s)": 1.127584
    },
    {
      "acc": 0.74619761,
      "epoch": 0.965372907153729,
      "grad_norm": 4.5,
      "learning_rate": 5.697360795749983e-06,
      "loss": 1.05674515,
      "memory(GiB)": 112.26,
      "step": 38055,
      "train_speed(iter/s)": 1.127599
    },
    {
      "acc": 0.73781757,
      "epoch": 0.9654997463216641,
      "grad_norm": 3.671875,
      "learning_rate": 5.696322405997064e-06,
      "loss": 1.11098528,
      "memory(GiB)": 112.26,
      "step": 38060,
      "train_speed(iter/s)": 1.127629
    },
    {
      "acc": 0.7363801,
      "epoch": 0.9656265854895992,
      "grad_norm": 5.25,
      "learning_rate": 5.695283985616775e-06,
      "loss": 1.1040966,
      "memory(GiB)": 112.26,
      "step": 38065,
      "train_speed(iter/s)": 1.12763
    },
    {
      "acc": 0.73019919,
      "epoch": 0.9657534246575342,
      "grad_norm": 3.234375,
      "learning_rate": 5.694245534654795e-06,
      "loss": 1.10852137,
      "memory(GiB)": 112.26,
      "step": 38070,
      "train_speed(iter/s)": 1.127659
    },
    {
      "acc": 0.75554395,
      "epoch": 0.9658802638254693,
      "grad_norm": 4.375,
      "learning_rate": 5.693207053156794e-06,
      "loss": 0.96483049,
      "memory(GiB)": 112.26,
      "step": 38075,
      "train_speed(iter/s)": 1.127685
    },
    {
      "acc": 0.73782635,
      "epoch": 0.9660071029934043,
      "grad_norm": 3.046875,
      "learning_rate": 5.692168541168455e-06,
      "loss": 1.04900789,
      "memory(GiB)": 112.26,
      "step": 38080,
      "train_speed(iter/s)": 1.127702
    },
    {
      "acc": 0.74583549,
      "epoch": 0.9661339421613394,
      "grad_norm": 3.421875,
      "learning_rate": 5.691129998735449e-06,
      "loss": 1.00664902,
      "memory(GiB)": 112.26,
      "step": 38085,
      "train_speed(iter/s)": 1.127726
    },
    {
      "acc": 0.73494787,
      "epoch": 0.9662607813292745,
      "grad_norm": 3.765625,
      "learning_rate": 5.690091425903464e-06,
      "loss": 1.12121992,
      "memory(GiB)": 112.26,
      "step": 38090,
      "train_speed(iter/s)": 1.127715
    },
    {
      "acc": 0.73205128,
      "epoch": 0.9663876204972095,
      "grad_norm": 3.953125,
      "learning_rate": 5.689052822718175e-06,
      "loss": 1.06355076,
      "memory(GiB)": 112.26,
      "step": 38095,
      "train_speed(iter/s)": 1.127739
    },
    {
      "acc": 0.74557791,
      "epoch": 0.9665144596651446,
      "grad_norm": 4.15625,
      "learning_rate": 5.688014189225266e-06,
      "loss": 1.02867279,
      "memory(GiB)": 112.26,
      "step": 38100,
      "train_speed(iter/s)": 1.127763
    },
    {
      "acc": 0.73270807,
      "epoch": 0.9666412988330797,
      "grad_norm": 4.125,
      "learning_rate": 5.686975525470423e-06,
      "loss": 1.12096481,
      "memory(GiB)": 112.26,
      "step": 38105,
      "train_speed(iter/s)": 1.127777
    },
    {
      "acc": 0.7370306,
      "epoch": 0.9667681380010147,
      "grad_norm": 4.03125,
      "learning_rate": 5.685936831499328e-06,
      "loss": 1.09160767,
      "memory(GiB)": 112.26,
      "step": 38110,
      "train_speed(iter/s)": 1.127777
    },
    {
      "acc": 0.73746781,
      "epoch": 0.9668949771689498,
      "grad_norm": 4.0625,
      "learning_rate": 5.684898107357669e-06,
      "loss": 1.07603378,
      "memory(GiB)": 112.26,
      "step": 38115,
      "train_speed(iter/s)": 1.127773
    },
    {
      "acc": 0.72869525,
      "epoch": 0.9670218163368848,
      "grad_norm": 4.0625,
      "learning_rate": 5.683859353091133e-06,
      "loss": 1.15304031,
      "memory(GiB)": 112.26,
      "step": 38120,
      "train_speed(iter/s)": 1.127803
    },
    {
      "acc": 0.73191509,
      "epoch": 0.9671486555048199,
      "grad_norm": 3.40625,
      "learning_rate": 5.6828205687454094e-06,
      "loss": 1.09866676,
      "memory(GiB)": 112.26,
      "step": 38125,
      "train_speed(iter/s)": 1.127822
    },
    {
      "acc": 0.72674713,
      "epoch": 0.967275494672755,
      "grad_norm": 3.515625,
      "learning_rate": 5.68178175436619e-06,
      "loss": 1.12517109,
      "memory(GiB)": 112.26,
      "step": 38130,
      "train_speed(iter/s)": 1.127845
    },
    {
      "acc": 0.73420763,
      "epoch": 0.96740233384069,
      "grad_norm": 3.859375,
      "learning_rate": 5.680742909999163e-06,
      "loss": 1.1045023,
      "memory(GiB)": 112.26,
      "step": 38135,
      "train_speed(iter/s)": 1.127861
    },
    {
      "acc": 0.72195253,
      "epoch": 0.9675291730086251,
      "grad_norm": 4.5,
      "learning_rate": 5.679704035690026e-06,
      "loss": 1.15936403,
      "memory(GiB)": 112.26,
      "step": 38140,
      "train_speed(iter/s)": 1.127871
    },
    {
      "acc": 0.743606,
      "epoch": 0.9676560121765602,
      "grad_norm": 3.171875,
      "learning_rate": 5.6786651314844675e-06,
      "loss": 1.01388998,
      "memory(GiB)": 112.26,
      "step": 38145,
      "train_speed(iter/s)": 1.127886
    },
    {
      "acc": 0.73603697,
      "epoch": 0.9677828513444952,
      "grad_norm": 3.71875,
      "learning_rate": 5.67762619742819e-06,
      "loss": 1.07360134,
      "memory(GiB)": 112.26,
      "step": 38150,
      "train_speed(iter/s)": 1.127911
    },
    {
      "acc": 0.73454113,
      "epoch": 0.9679096905124303,
      "grad_norm": 3.984375,
      "learning_rate": 5.676587233566885e-06,
      "loss": 1.07735548,
      "memory(GiB)": 112.26,
      "step": 38155,
      "train_speed(iter/s)": 1.127936
    },
    {
      "acc": 0.72852507,
      "epoch": 0.9680365296803652,
      "grad_norm": 3.25,
      "learning_rate": 5.675548239946254e-06,
      "loss": 1.07249289,
      "memory(GiB)": 112.26,
      "step": 38160,
      "train_speed(iter/s)": 1.127974
    },
    {
      "acc": 0.72093902,
      "epoch": 0.9681633688483003,
      "grad_norm": 4.0625,
      "learning_rate": 5.674509216611993e-06,
      "loss": 1.15788307,
      "memory(GiB)": 112.26,
      "step": 38165,
      "train_speed(iter/s)": 1.127991
    },
    {
      "acc": 0.7331109,
      "epoch": 0.9682902080162354,
      "grad_norm": 3.625,
      "learning_rate": 5.673470163609806e-06,
      "loss": 1.06362915,
      "memory(GiB)": 112.26,
      "step": 38170,
      "train_speed(iter/s)": 1.12801
    },
    {
      "acc": 0.75323639,
      "epoch": 0.9684170471841704,
      "grad_norm": 3.265625,
      "learning_rate": 5.672431080985395e-06,
      "loss": 1.01538944,
      "memory(GiB)": 112.26,
      "step": 38175,
      "train_speed(iter/s)": 1.128023
    },
    {
      "acc": 0.7314806,
      "epoch": 0.9685438863521055,
      "grad_norm": 4.40625,
      "learning_rate": 5.671391968784464e-06,
      "loss": 1.08139439,
      "memory(GiB)": 112.26,
      "step": 38180,
      "train_speed(iter/s)": 1.128049
    },
    {
      "acc": 0.74082828,
      "epoch": 0.9686707255200406,
      "grad_norm": 4.34375,
      "learning_rate": 5.670352827052715e-06,
      "loss": 1.08871098,
      "memory(GiB)": 112.26,
      "step": 38185,
      "train_speed(iter/s)": 1.128082
    },
    {
      "acc": 0.75105891,
      "epoch": 0.9687975646879756,
      "grad_norm": 3.5625,
      "learning_rate": 5.6693136558358565e-06,
      "loss": 1.06772509,
      "memory(GiB)": 112.26,
      "step": 38190,
      "train_speed(iter/s)": 1.128112
    },
    {
      "acc": 0.72936149,
      "epoch": 0.9689244038559107,
      "grad_norm": 3.84375,
      "learning_rate": 5.668274455179595e-06,
      "loss": 1.10170498,
      "memory(GiB)": 112.26,
      "step": 38195,
      "train_speed(iter/s)": 1.128123
    },
    {
      "acc": 0.71675186,
      "epoch": 0.9690512430238457,
      "grad_norm": 4.09375,
      "learning_rate": 5.667235225129639e-06,
      "loss": 1.12379608,
      "memory(GiB)": 112.26,
      "step": 38200,
      "train_speed(iter/s)": 1.128128
    },
    {
      "acc": 0.73249178,
      "epoch": 0.9691780821917808,
      "grad_norm": 4.5625,
      "learning_rate": 5.6661959657317e-06,
      "loss": 1.0627409,
      "memory(GiB)": 112.26,
      "step": 38205,
      "train_speed(iter/s)": 1.128147
    },
    {
      "acc": 0.75221844,
      "epoch": 0.9693049213597159,
      "grad_norm": 4.5625,
      "learning_rate": 5.665156677031487e-06,
      "loss": 1.04690704,
      "memory(GiB)": 112.26,
      "step": 38210,
      "train_speed(iter/s)": 1.128169
    },
    {
      "acc": 0.73677845,
      "epoch": 0.9694317605276509,
      "grad_norm": 4.34375,
      "learning_rate": 5.664117359074712e-06,
      "loss": 1.10278673,
      "memory(GiB)": 112.26,
      "step": 38215,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.72767143,
      "epoch": 0.969558599695586,
      "grad_norm": 4.0625,
      "learning_rate": 5.6630780119070935e-06,
      "loss": 1.13277493,
      "memory(GiB)": 112.26,
      "step": 38220,
      "train_speed(iter/s)": 1.128222
    },
    {
      "acc": 0.731602,
      "epoch": 0.9696854388635211,
      "grad_norm": 3.71875,
      "learning_rate": 5.6620386355743415e-06,
      "loss": 1.11126852,
      "memory(GiB)": 112.26,
      "step": 38225,
      "train_speed(iter/s)": 1.128235
    },
    {
      "acc": 0.74034224,
      "epoch": 0.9698122780314561,
      "grad_norm": 3.796875,
      "learning_rate": 5.660999230122177e-06,
      "loss": 1.03464842,
      "memory(GiB)": 112.26,
      "step": 38230,
      "train_speed(iter/s)": 1.128258
    },
    {
      "acc": 0.73290305,
      "epoch": 0.9699391171993912,
      "grad_norm": 3.703125,
      "learning_rate": 5.659959795596313e-06,
      "loss": 1.05018253,
      "memory(GiB)": 112.26,
      "step": 38235,
      "train_speed(iter/s)": 1.128283
    },
    {
      "acc": 0.72884455,
      "epoch": 0.9700659563673262,
      "grad_norm": 4.375,
      "learning_rate": 5.65892033204247e-06,
      "loss": 1.10684156,
      "memory(GiB)": 112.26,
      "step": 38240,
      "train_speed(iter/s)": 1.128306
    },
    {
      "acc": 0.74994268,
      "epoch": 0.9701927955352613,
      "grad_norm": 3.40625,
      "learning_rate": 5.657880839506371e-06,
      "loss": 1.00607691,
      "memory(GiB)": 112.26,
      "step": 38245,
      "train_speed(iter/s)": 1.128333
    },
    {
      "acc": 0.74066491,
      "epoch": 0.9703196347031964,
      "grad_norm": 4.78125,
      "learning_rate": 5.656841318033735e-06,
      "loss": 1.06492004,
      "memory(GiB)": 112.26,
      "step": 38250,
      "train_speed(iter/s)": 1.128352
    },
    {
      "acc": 0.73272977,
      "epoch": 0.9704464738711314,
      "grad_norm": 4.1875,
      "learning_rate": 5.6558017676702846e-06,
      "loss": 1.04407225,
      "memory(GiB)": 112.26,
      "step": 38255,
      "train_speed(iter/s)": 1.128358
    },
    {
      "acc": 0.7382699,
      "epoch": 0.9705733130390665,
      "grad_norm": 3.734375,
      "learning_rate": 5.654762188461744e-06,
      "loss": 1.10099831,
      "memory(GiB)": 112.26,
      "step": 38260,
      "train_speed(iter/s)": 1.128383
    },
    {
      "acc": 0.72947598,
      "epoch": 0.9707001522070016,
      "grad_norm": 3.90625,
      "learning_rate": 5.653722580453841e-06,
      "loss": 1.11497297,
      "memory(GiB)": 112.26,
      "step": 38265,
      "train_speed(iter/s)": 1.128414
    },
    {
      "acc": 0.71846905,
      "epoch": 0.9708269913749366,
      "grad_norm": 3.796875,
      "learning_rate": 5.652682943692299e-06,
      "loss": 1.13898582,
      "memory(GiB)": 112.26,
      "step": 38270,
      "train_speed(iter/s)": 1.128427
    },
    {
      "acc": 0.74411635,
      "epoch": 0.9709538305428717,
      "grad_norm": 5.0,
      "learning_rate": 5.651643278222847e-06,
      "loss": 1.08492126,
      "memory(GiB)": 112.26,
      "step": 38275,
      "train_speed(iter/s)": 1.12846
    },
    {
      "acc": 0.75040874,
      "epoch": 0.9710806697108066,
      "grad_norm": 3.921875,
      "learning_rate": 5.6506035840912145e-06,
      "loss": 1.01588392,
      "memory(GiB)": 112.26,
      "step": 38280,
      "train_speed(iter/s)": 1.12849
    },
    {
      "acc": 0.74280419,
      "epoch": 0.9712075088787417,
      "grad_norm": 3.859375,
      "learning_rate": 5.649563861343131e-06,
      "loss": 1.0666357,
      "memory(GiB)": 112.26,
      "step": 38285,
      "train_speed(iter/s)": 1.12851
    },
    {
      "acc": 0.72334504,
      "epoch": 0.9713343480466768,
      "grad_norm": 4.625,
      "learning_rate": 5.648524110024331e-06,
      "loss": 1.10172043,
      "memory(GiB)": 112.26,
      "step": 38290,
      "train_speed(iter/s)": 1.128534
    },
    {
      "acc": 0.74460373,
      "epoch": 0.9714611872146118,
      "grad_norm": 3.71875,
      "learning_rate": 5.647484330180542e-06,
      "loss": 1.0675355,
      "memory(GiB)": 112.26,
      "step": 38295,
      "train_speed(iter/s)": 1.128548
    },
    {
      "acc": 0.7371439,
      "epoch": 0.9715880263825469,
      "grad_norm": 4.625,
      "learning_rate": 5.646444521857504e-06,
      "loss": 1.0959547,
      "memory(GiB)": 112.26,
      "step": 38300,
      "train_speed(iter/s)": 1.128569
    },
    {
      "acc": 0.7588326,
      "epoch": 0.971714865550482,
      "grad_norm": 3.734375,
      "learning_rate": 5.645404685100948e-06,
      "loss": 0.98508482,
      "memory(GiB)": 112.26,
      "step": 38305,
      "train_speed(iter/s)": 1.128591
    },
    {
      "acc": 0.74046144,
      "epoch": 0.971841704718417,
      "grad_norm": 3.671875,
      "learning_rate": 5.644364819956613e-06,
      "loss": 1.09600925,
      "memory(GiB)": 112.26,
      "step": 38310,
      "train_speed(iter/s)": 1.128616
    },
    {
      "acc": 0.73098974,
      "epoch": 0.9719685438863521,
      "grad_norm": 3.984375,
      "learning_rate": 5.643324926470236e-06,
      "loss": 1.07920856,
      "memory(GiB)": 112.26,
      "step": 38315,
      "train_speed(iter/s)": 1.12864
    },
    {
      "acc": 0.74089437,
      "epoch": 0.9720953830542871,
      "grad_norm": 4.375,
      "learning_rate": 5.642285004687557e-06,
      "loss": 1.05993662,
      "memory(GiB)": 112.26,
      "step": 38320,
      "train_speed(iter/s)": 1.128665
    },
    {
      "acc": 0.7472785,
      "epoch": 0.9722222222222222,
      "grad_norm": 3.75,
      "learning_rate": 5.6412450546543165e-06,
      "loss": 1.07876587,
      "memory(GiB)": 112.26,
      "step": 38325,
      "train_speed(iter/s)": 1.128682
    },
    {
      "acc": 0.7231657,
      "epoch": 0.9723490613901573,
      "grad_norm": 3.734375,
      "learning_rate": 5.640205076416254e-06,
      "loss": 1.1679306,
      "memory(GiB)": 112.26,
      "step": 38330,
      "train_speed(iter/s)": 1.128708
    },
    {
      "acc": 0.72396069,
      "epoch": 0.9724759005580923,
      "grad_norm": 4.5,
      "learning_rate": 5.639165070019116e-06,
      "loss": 1.11380234,
      "memory(GiB)": 112.26,
      "step": 38335,
      "train_speed(iter/s)": 1.128728
    },
    {
      "acc": 0.73706584,
      "epoch": 0.9726027397260274,
      "grad_norm": 4.125,
      "learning_rate": 5.638125035508642e-06,
      "loss": 1.0720541,
      "memory(GiB)": 112.26,
      "step": 38340,
      "train_speed(iter/s)": 1.128747
    },
    {
      "acc": 0.74128451,
      "epoch": 0.9727295788939625,
      "grad_norm": 4.5,
      "learning_rate": 5.6370849729305825e-06,
      "loss": 1.0813139,
      "memory(GiB)": 112.26,
      "step": 38345,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.72726622,
      "epoch": 0.9728564180618975,
      "grad_norm": 3.65625,
      "learning_rate": 5.63604488233068e-06,
      "loss": 1.12501125,
      "memory(GiB)": 112.26,
      "step": 38350,
      "train_speed(iter/s)": 1.128788
    },
    {
      "acc": 0.73858843,
      "epoch": 0.9729832572298326,
      "grad_norm": 3.75,
      "learning_rate": 5.635004763754683e-06,
      "loss": 1.04744225,
      "memory(GiB)": 112.26,
      "step": 38355,
      "train_speed(iter/s)": 1.128795
    },
    {
      "acc": 0.72371812,
      "epoch": 0.9731100963977676,
      "grad_norm": 4.34375,
      "learning_rate": 5.633964617248345e-06,
      "loss": 1.10660172,
      "memory(GiB)": 112.26,
      "step": 38360,
      "train_speed(iter/s)": 1.128814
    },
    {
      "acc": 0.74544334,
      "epoch": 0.9732369355657027,
      "grad_norm": 3.515625,
      "learning_rate": 5.6329244428574085e-06,
      "loss": 1.02317419,
      "memory(GiB)": 112.26,
      "step": 38365,
      "train_speed(iter/s)": 1.128828
    },
    {
      "acc": 0.7373754,
      "epoch": 0.9733637747336378,
      "grad_norm": 3.59375,
      "learning_rate": 5.631884240627632e-06,
      "loss": 1.08126602,
      "memory(GiB)": 112.26,
      "step": 38370,
      "train_speed(iter/s)": 1.128854
    },
    {
      "acc": 0.73664861,
      "epoch": 0.9734906139015728,
      "grad_norm": 3.1875,
      "learning_rate": 5.6308440106047634e-06,
      "loss": 1.09604931,
      "memory(GiB)": 112.26,
      "step": 38375,
      "train_speed(iter/s)": 1.128878
    },
    {
      "acc": 0.73931594,
      "epoch": 0.9736174530695079,
      "grad_norm": 3.875,
      "learning_rate": 5.62980375283456e-06,
      "loss": 1.06520138,
      "memory(GiB)": 112.26,
      "step": 38380,
      "train_speed(iter/s)": 1.128894
    },
    {
      "acc": 0.73505206,
      "epoch": 0.973744292237443,
      "grad_norm": 3.890625,
      "learning_rate": 5.628763467362775e-06,
      "loss": 1.08809366,
      "memory(GiB)": 112.26,
      "step": 38385,
      "train_speed(iter/s)": 1.128894
    },
    {
      "acc": 0.72336493,
      "epoch": 0.973871131405378,
      "grad_norm": 3.625,
      "learning_rate": 5.627723154235165e-06,
      "loss": 1.0824729,
      "memory(GiB)": 112.26,
      "step": 38390,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.7401257,
      "epoch": 0.973997970573313,
      "grad_norm": 3.796875,
      "learning_rate": 5.62668281349749e-06,
      "loss": 1.12521286,
      "memory(GiB)": 112.26,
      "step": 38395,
      "train_speed(iter/s)": 1.128933
    },
    {
      "acc": 0.72344055,
      "epoch": 0.974124809741248,
      "grad_norm": 3.9375,
      "learning_rate": 5.625642445195505e-06,
      "loss": 1.15660315,
      "memory(GiB)": 112.26,
      "step": 38400,
      "train_speed(iter/s)": 1.128957
    },
    {
      "acc": 0.74310331,
      "epoch": 0.9742516489091831,
      "grad_norm": 4.0625,
      "learning_rate": 5.6246020493749735e-06,
      "loss": 1.08869076,
      "memory(GiB)": 112.26,
      "step": 38405,
      "train_speed(iter/s)": 1.128978
    },
    {
      "acc": 0.73878465,
      "epoch": 0.9743784880771182,
      "grad_norm": 4.09375,
      "learning_rate": 5.623561626081654e-06,
      "loss": 1.095788,
      "memory(GiB)": 112.26,
      "step": 38410,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.73504438,
      "epoch": 0.9745053272450532,
      "grad_norm": 5.09375,
      "learning_rate": 5.622521175361311e-06,
      "loss": 1.07948208,
      "memory(GiB)": 112.26,
      "step": 38415,
      "train_speed(iter/s)": 1.129008
    },
    {
      "acc": 0.73690434,
      "epoch": 0.9746321664129883,
      "grad_norm": 3.84375,
      "learning_rate": 5.621480697259707e-06,
      "loss": 1.14236956,
      "memory(GiB)": 112.26,
      "step": 38420,
      "train_speed(iter/s)": 1.129031
    },
    {
      "acc": 0.72870021,
      "epoch": 0.9747590055809234,
      "grad_norm": 3.65625,
      "learning_rate": 5.620440191822607e-06,
      "loss": 1.07848549,
      "memory(GiB)": 112.26,
      "step": 38425,
      "train_speed(iter/s)": 1.129053
    },
    {
      "acc": 0.72535734,
      "epoch": 0.9748858447488584,
      "grad_norm": 3.28125,
      "learning_rate": 5.619399659095778e-06,
      "loss": 1.10929832,
      "memory(GiB)": 112.26,
      "step": 38430,
      "train_speed(iter/s)": 1.129078
    },
    {
      "acc": 0.73710408,
      "epoch": 0.9750126839167935,
      "grad_norm": 4.1875,
      "learning_rate": 5.618359099124985e-06,
      "loss": 1.07511387,
      "memory(GiB)": 112.26,
      "step": 38435,
      "train_speed(iter/s)": 1.129114
    },
    {
      "acc": 0.74160137,
      "epoch": 0.9751395230847285,
      "grad_norm": 3.265625,
      "learning_rate": 5.617318511956001e-06,
      "loss": 1.09524765,
      "memory(GiB)": 112.26,
      "step": 38440,
      "train_speed(iter/s)": 1.129134
    },
    {
      "acc": 0.72918825,
      "epoch": 0.9752663622526636,
      "grad_norm": 4.09375,
      "learning_rate": 5.61627789763459e-06,
      "loss": 1.10308266,
      "memory(GiB)": 112.26,
      "step": 38445,
      "train_speed(iter/s)": 1.129141
    },
    {
      "acc": 0.74396553,
      "epoch": 0.9753932014205987,
      "grad_norm": 3.5625,
      "learning_rate": 5.6152372562065275e-06,
      "loss": 1.04265518,
      "memory(GiB)": 112.26,
      "step": 38450,
      "train_speed(iter/s)": 1.129162
    },
    {
      "acc": 0.73239818,
      "epoch": 0.9755200405885337,
      "grad_norm": 3.390625,
      "learning_rate": 5.614196587717581e-06,
      "loss": 1.08682461,
      "memory(GiB)": 112.26,
      "step": 38455,
      "train_speed(iter/s)": 1.129183
    },
    {
      "acc": 0.75204325,
      "epoch": 0.9756468797564688,
      "grad_norm": 2.9375,
      "learning_rate": 5.613155892213529e-06,
      "loss": 1.03603144,
      "memory(GiB)": 112.26,
      "step": 38460,
      "train_speed(iter/s)": 1.129212
    },
    {
      "acc": 0.74379292,
      "epoch": 0.9757737189244039,
      "grad_norm": 3.546875,
      "learning_rate": 5.612115169740142e-06,
      "loss": 1.04941072,
      "memory(GiB)": 112.26,
      "step": 38465,
      "train_speed(iter/s)": 1.129211
    },
    {
      "acc": 0.7493803,
      "epoch": 0.9759005580923389,
      "grad_norm": 3.859375,
      "learning_rate": 5.611074420343197e-06,
      "loss": 1.06974955,
      "memory(GiB)": 112.26,
      "step": 38470,
      "train_speed(iter/s)": 1.12923
    },
    {
      "acc": 0.74546351,
      "epoch": 0.976027397260274,
      "grad_norm": 3.5,
      "learning_rate": 5.610033644068471e-06,
      "loss": 1.0623167,
      "memory(GiB)": 112.26,
      "step": 38475,
      "train_speed(iter/s)": 1.129265
    },
    {
      "acc": 0.75172844,
      "epoch": 0.976154236428209,
      "grad_norm": 2.96875,
      "learning_rate": 5.608992840961742e-06,
      "loss": 1.03425312,
      "memory(GiB)": 112.26,
      "step": 38480,
      "train_speed(iter/s)": 1.12928
    },
    {
      "acc": 0.73502593,
      "epoch": 0.9762810755961441,
      "grad_norm": 3.75,
      "learning_rate": 5.6079520110687876e-06,
      "loss": 1.05728645,
      "memory(GiB)": 112.26,
      "step": 38485,
      "train_speed(iter/s)": 1.129303
    },
    {
      "acc": 0.74398746,
      "epoch": 0.9764079147640792,
      "grad_norm": 3.484375,
      "learning_rate": 5.606911154435392e-06,
      "loss": 1.04410572,
      "memory(GiB)": 112.26,
      "step": 38490,
      "train_speed(iter/s)": 1.129329
    },
    {
      "acc": 0.73188772,
      "epoch": 0.9765347539320142,
      "grad_norm": 4.5625,
      "learning_rate": 5.605870271107332e-06,
      "loss": 1.08208961,
      "memory(GiB)": 112.26,
      "step": 38495,
      "train_speed(iter/s)": 1.129357
    },
    {
      "acc": 0.73535442,
      "epoch": 0.9766615930999493,
      "grad_norm": 3.890625,
      "learning_rate": 5.6048293611303925e-06,
      "loss": 1.08864565,
      "memory(GiB)": 112.26,
      "step": 38500,
      "train_speed(iter/s)": 1.129376
    },
    {
      "acc": 0.74929085,
      "epoch": 0.9767884322678844,
      "grad_norm": 3.0625,
      "learning_rate": 5.603788424550357e-06,
      "loss": 1.05329475,
      "memory(GiB)": 112.26,
      "step": 38505,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.73532028,
      "epoch": 0.9769152714358194,
      "grad_norm": 3.125,
      "learning_rate": 5.602747461413014e-06,
      "loss": 1.07873154,
      "memory(GiB)": 112.26,
      "step": 38510,
      "train_speed(iter/s)": 1.129407
    },
    {
      "acc": 0.74747629,
      "epoch": 0.9770421106037545,
      "grad_norm": 5.1875,
      "learning_rate": 5.6017064717641435e-06,
      "loss": 0.99820004,
      "memory(GiB)": 112.26,
      "step": 38515,
      "train_speed(iter/s)": 1.129416
    },
    {
      "acc": 0.73641281,
      "epoch": 0.9771689497716894,
      "grad_norm": 3.5,
      "learning_rate": 5.600665455649538e-06,
      "loss": 1.08345604,
      "memory(GiB)": 112.26,
      "step": 38520,
      "train_speed(iter/s)": 1.129441
    },
    {
      "acc": 0.73646345,
      "epoch": 0.9772957889396245,
      "grad_norm": 3.890625,
      "learning_rate": 5.599624413114981e-06,
      "loss": 1.04960012,
      "memory(GiB)": 112.26,
      "step": 38525,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.7414947,
      "epoch": 0.9774226281075596,
      "grad_norm": 3.4375,
      "learning_rate": 5.5985833442062676e-06,
      "loss": 1.09581003,
      "memory(GiB)": 112.26,
      "step": 38530,
      "train_speed(iter/s)": 1.129501
    },
    {
      "acc": 0.74184666,
      "epoch": 0.9775494672754946,
      "grad_norm": 3.484375,
      "learning_rate": 5.597542248969185e-06,
      "loss": 1.01809301,
      "memory(GiB)": 112.26,
      "step": 38535,
      "train_speed(iter/s)": 1.129517
    },
    {
      "acc": 0.72481284,
      "epoch": 0.9776763064434297,
      "grad_norm": 3.984375,
      "learning_rate": 5.596501127449527e-06,
      "loss": 1.10370789,
      "memory(GiB)": 112.26,
      "step": 38540,
      "train_speed(iter/s)": 1.129532
    },
    {
      "acc": 0.73856606,
      "epoch": 0.9778031456113648,
      "grad_norm": 3.609375,
      "learning_rate": 5.595459979693086e-06,
      "loss": 1.04712324,
      "memory(GiB)": 112.26,
      "step": 38545,
      "train_speed(iter/s)": 1.129559
    },
    {
      "acc": 0.74204006,
      "epoch": 0.9779299847792998,
      "grad_norm": 3.671875,
      "learning_rate": 5.594418805745657e-06,
      "loss": 1.07477989,
      "memory(GiB)": 112.26,
      "step": 38550,
      "train_speed(iter/s)": 1.129572
    },
    {
      "acc": 0.73021054,
      "epoch": 0.9780568239472349,
      "grad_norm": 3.796875,
      "learning_rate": 5.593377605653035e-06,
      "loss": 1.05867796,
      "memory(GiB)": 112.26,
      "step": 38555,
      "train_speed(iter/s)": 1.129592
    },
    {
      "acc": 0.74599013,
      "epoch": 0.9781836631151699,
      "grad_norm": 3.46875,
      "learning_rate": 5.592336379461018e-06,
      "loss": 1.05396204,
      "memory(GiB)": 112.26,
      "step": 38560,
      "train_speed(iter/s)": 1.129619
    },
    {
      "acc": 0.7304091,
      "epoch": 0.978310502283105,
      "grad_norm": 4.75,
      "learning_rate": 5.5912951272154004e-06,
      "loss": 1.04241533,
      "memory(GiB)": 112.26,
      "step": 38565,
      "train_speed(iter/s)": 1.129648
    },
    {
      "acc": 0.73397512,
      "epoch": 0.9784373414510401,
      "grad_norm": 3.34375,
      "learning_rate": 5.590253848961984e-06,
      "loss": 1.12452774,
      "memory(GiB)": 112.26,
      "step": 38570,
      "train_speed(iter/s)": 1.129664
    },
    {
      "acc": 0.725319,
      "epoch": 0.9785641806189751,
      "grad_norm": 3.3125,
      "learning_rate": 5.589212544746566e-06,
      "loss": 1.08921309,
      "memory(GiB)": 112.26,
      "step": 38575,
      "train_speed(iter/s)": 1.129688
    },
    {
      "acc": 0.74635239,
      "epoch": 0.9786910197869102,
      "grad_norm": 4.71875,
      "learning_rate": 5.588171214614953e-06,
      "loss": 1.13000164,
      "memory(GiB)": 112.26,
      "step": 38580,
      "train_speed(iter/s)": 1.1297
    },
    {
      "acc": 0.73584261,
      "epoch": 0.9788178589548453,
      "grad_norm": 3.546875,
      "learning_rate": 5.587129858612941e-06,
      "loss": 1.0469121,
      "memory(GiB)": 112.26,
      "step": 38585,
      "train_speed(iter/s)": 1.129715
    },
    {
      "acc": 0.72847543,
      "epoch": 0.9789446981227803,
      "grad_norm": 3.0625,
      "learning_rate": 5.586088476786339e-06,
      "loss": 1.09475307,
      "memory(GiB)": 112.26,
      "step": 38590,
      "train_speed(iter/s)": 1.129741
    },
    {
      "acc": 0.72738657,
      "epoch": 0.9790715372907154,
      "grad_norm": 3.609375,
      "learning_rate": 5.585047069180947e-06,
      "loss": 1.13698301,
      "memory(GiB)": 112.26,
      "step": 38595,
      "train_speed(iter/s)": 1.129771
    },
    {
      "acc": 0.73239489,
      "epoch": 0.9791983764586504,
      "grad_norm": 3.875,
      "learning_rate": 5.5840056358425755e-06,
      "loss": 1.05748177,
      "memory(GiB)": 112.26,
      "step": 38600,
      "train_speed(iter/s)": 1.12979
    },
    {
      "acc": 0.71576443,
      "epoch": 0.9793252156265855,
      "grad_norm": 3.859375,
      "learning_rate": 5.582964176817025e-06,
      "loss": 1.14276247,
      "memory(GiB)": 112.26,
      "step": 38605,
      "train_speed(iter/s)": 1.1298
    },
    {
      "acc": 0.74889483,
      "epoch": 0.9794520547945206,
      "grad_norm": 4.34375,
      "learning_rate": 5.58192269215011e-06,
      "loss": 1.03614168,
      "memory(GiB)": 112.26,
      "step": 38610,
      "train_speed(iter/s)": 1.129816
    },
    {
      "acc": 0.7474431,
      "epoch": 0.9795788939624556,
      "grad_norm": 3.796875,
      "learning_rate": 5.580881181887636e-06,
      "loss": 1.08663788,
      "memory(GiB)": 112.26,
      "step": 38615,
      "train_speed(iter/s)": 1.129849
    },
    {
      "acc": 0.73432713,
      "epoch": 0.9797057331303907,
      "grad_norm": 3.015625,
      "learning_rate": 5.579839646075414e-06,
      "loss": 1.06614857,
      "memory(GiB)": 112.26,
      "step": 38620,
      "train_speed(iter/s)": 1.129867
    },
    {
      "acc": 0.73019948,
      "epoch": 0.9798325722983258,
      "grad_norm": 2.828125,
      "learning_rate": 5.578798084759257e-06,
      "loss": 1.11084623,
      "memory(GiB)": 112.26,
      "step": 38625,
      "train_speed(iter/s)": 1.12988
    },
    {
      "acc": 0.74461908,
      "epoch": 0.9799594114662608,
      "grad_norm": 4.28125,
      "learning_rate": 5.577756497984975e-06,
      "loss": 1.02632084,
      "memory(GiB)": 112.26,
      "step": 38630,
      "train_speed(iter/s)": 1.129878
    },
    {
      "acc": 0.7377779,
      "epoch": 0.9800862506341959,
      "grad_norm": 3.34375,
      "learning_rate": 5.576714885798382e-06,
      "loss": 1.03946934,
      "memory(GiB)": 112.26,
      "step": 38635,
      "train_speed(iter/s)": 1.129898
    },
    {
      "acc": 0.74466372,
      "epoch": 0.9802130898021308,
      "grad_norm": 3.75,
      "learning_rate": 5.575673248245295e-06,
      "loss": 1.03705378,
      "memory(GiB)": 112.26,
      "step": 38640,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.72533088,
      "epoch": 0.9803399289700659,
      "grad_norm": 5.25,
      "learning_rate": 5.574631585371527e-06,
      "loss": 1.16252203,
      "memory(GiB)": 112.26,
      "step": 38645,
      "train_speed(iter/s)": 1.129939
    },
    {
      "acc": 0.72949286,
      "epoch": 0.980466768138001,
      "grad_norm": 3.796875,
      "learning_rate": 5.573589897222897e-06,
      "loss": 1.05664425,
      "memory(GiB)": 112.26,
      "step": 38650,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.73843207,
      "epoch": 0.980593607305936,
      "grad_norm": 3.3125,
      "learning_rate": 5.572548183845222e-06,
      "loss": 1.03152199,
      "memory(GiB)": 112.26,
      "step": 38655,
      "train_speed(iter/s)": 1.129977
    },
    {
      "acc": 0.72552519,
      "epoch": 0.9807204464738711,
      "grad_norm": 3.359375,
      "learning_rate": 5.571506445284322e-06,
      "loss": 1.09133253,
      "memory(GiB)": 112.26,
      "step": 38660,
      "train_speed(iter/s)": 1.129994
    },
    {
      "acc": 0.74361215,
      "epoch": 0.9808472856418062,
      "grad_norm": 2.859375,
      "learning_rate": 5.570464681586017e-06,
      "loss": 1.06428919,
      "memory(GiB)": 112.26,
      "step": 38665,
      "train_speed(iter/s)": 1.129992
    },
    {
      "acc": 0.72716904,
      "epoch": 0.9809741248097412,
      "grad_norm": 3.609375,
      "learning_rate": 5.569422892796129e-06,
      "loss": 1.09490223,
      "memory(GiB)": 112.26,
      "step": 38670,
      "train_speed(iter/s)": 1.130003
    },
    {
      "acc": 0.71910601,
      "epoch": 0.9811009639776763,
      "grad_norm": 3.65625,
      "learning_rate": 5.568381078960479e-06,
      "loss": 1.19051714,
      "memory(GiB)": 112.26,
      "step": 38675,
      "train_speed(iter/s)": 1.130037
    },
    {
      "acc": 0.74691339,
      "epoch": 0.9812278031456113,
      "grad_norm": 4.21875,
      "learning_rate": 5.567339240124892e-06,
      "loss": 0.99130001,
      "memory(GiB)": 112.26,
      "step": 38680,
      "train_speed(iter/s)": 1.130059
    },
    {
      "acc": 0.73906474,
      "epoch": 0.9813546423135464,
      "grad_norm": 3.421875,
      "learning_rate": 5.5662973763351915e-06,
      "loss": 1.0903162,
      "memory(GiB)": 112.26,
      "step": 38685,
      "train_speed(iter/s)": 1.130072
    },
    {
      "acc": 0.73158579,
      "epoch": 0.9814814814814815,
      "grad_norm": 4.25,
      "learning_rate": 5.565255487637204e-06,
      "loss": 1.09047174,
      "memory(GiB)": 112.26,
      "step": 38690,
      "train_speed(iter/s)": 1.1301
    },
    {
      "acc": 0.73546052,
      "epoch": 0.9816083206494165,
      "grad_norm": 3.90625,
      "learning_rate": 5.564213574076757e-06,
      "loss": 1.07401619,
      "memory(GiB)": 112.26,
      "step": 38695,
      "train_speed(iter/s)": 1.130121
    },
    {
      "acc": 0.72152166,
      "epoch": 0.9817351598173516,
      "grad_norm": 4.125,
      "learning_rate": 5.563171635699678e-06,
      "loss": 1.11204319,
      "memory(GiB)": 112.26,
      "step": 38700,
      "train_speed(iter/s)": 1.130145
    },
    {
      "acc": 0.75136905,
      "epoch": 0.9818619989852867,
      "grad_norm": 3.890625,
      "learning_rate": 5.562129672551796e-06,
      "loss": 1.02757654,
      "memory(GiB)": 112.26,
      "step": 38705,
      "train_speed(iter/s)": 1.130168
    },
    {
      "acc": 0.71384177,
      "epoch": 0.9819888381532217,
      "grad_norm": 3.59375,
      "learning_rate": 5.561087684678941e-06,
      "loss": 1.09995651,
      "memory(GiB)": 112.26,
      "step": 38710,
      "train_speed(iter/s)": 1.130185
    },
    {
      "acc": 0.72700453,
      "epoch": 0.9821156773211568,
      "grad_norm": 3.421875,
      "learning_rate": 5.560045672126945e-06,
      "loss": 1.08947849,
      "memory(GiB)": 112.26,
      "step": 38715,
      "train_speed(iter/s)": 1.130213
    },
    {
      "acc": 0.73337884,
      "epoch": 0.9822425164890918,
      "grad_norm": 3.875,
      "learning_rate": 5.55900363494164e-06,
      "loss": 1.07220097,
      "memory(GiB)": 112.26,
      "step": 38720,
      "train_speed(iter/s)": 1.130228
    },
    {
      "acc": 0.7407959,
      "epoch": 0.9823693556570269,
      "grad_norm": 3.75,
      "learning_rate": 5.557961573168857e-06,
      "loss": 1.09903193,
      "memory(GiB)": 112.26,
      "step": 38725,
      "train_speed(iter/s)": 1.13024
    },
    {
      "acc": 0.73814192,
      "epoch": 0.982496194824962,
      "grad_norm": 4.03125,
      "learning_rate": 5.5569194868544376e-06,
      "loss": 1.07600498,
      "memory(GiB)": 112.26,
      "step": 38730,
      "train_speed(iter/s)": 1.130258
    },
    {
      "acc": 0.73431244,
      "epoch": 0.982623033992897,
      "grad_norm": 3.890625,
      "learning_rate": 5.555877376044209e-06,
      "loss": 1.03803825,
      "memory(GiB)": 112.26,
      "step": 38735,
      "train_speed(iter/s)": 1.130274
    },
    {
      "acc": 0.75065084,
      "epoch": 0.9827498731608321,
      "grad_norm": 3.75,
      "learning_rate": 5.554835240784013e-06,
      "loss": 1.06424789,
      "memory(GiB)": 112.26,
      "step": 38740,
      "train_speed(iter/s)": 1.130295
    },
    {
      "acc": 0.73601789,
      "epoch": 0.9828767123287672,
      "grad_norm": 3.828125,
      "learning_rate": 5.553793081119685e-06,
      "loss": 1.13078098,
      "memory(GiB)": 112.26,
      "step": 38745,
      "train_speed(iter/s)": 1.130304
    },
    {
      "acc": 0.731253,
      "epoch": 0.9830035514967022,
      "grad_norm": 3.203125,
      "learning_rate": 5.552750897097065e-06,
      "loss": 1.06948462,
      "memory(GiB)": 112.26,
      "step": 38750,
      "train_speed(iter/s)": 1.130319
    },
    {
      "acc": 0.72504253,
      "epoch": 0.9831303906646373,
      "grad_norm": 4.46875,
      "learning_rate": 5.551708688761993e-06,
      "loss": 1.09729042,
      "memory(GiB)": 112.26,
      "step": 38755,
      "train_speed(iter/s)": 1.130341
    },
    {
      "acc": 0.73685327,
      "epoch": 0.9832572298325722,
      "grad_norm": 3.5625,
      "learning_rate": 5.550666456160311e-06,
      "loss": 1.05690451,
      "memory(GiB)": 112.26,
      "step": 38760,
      "train_speed(iter/s)": 1.13035
    },
    {
      "acc": 0.73736343,
      "epoch": 0.9833840690005073,
      "grad_norm": 3.140625,
      "learning_rate": 5.549624199337857e-06,
      "loss": 1.08882122,
      "memory(GiB)": 112.26,
      "step": 38765,
      "train_speed(iter/s)": 1.130368
    },
    {
      "acc": 0.73181539,
      "epoch": 0.9835109081684424,
      "grad_norm": 4.5625,
      "learning_rate": 5.548581918340479e-06,
      "loss": 1.10983772,
      "memory(GiB)": 112.26,
      "step": 38770,
      "train_speed(iter/s)": 1.130397
    },
    {
      "acc": 0.74329939,
      "epoch": 0.9836377473363774,
      "grad_norm": 3.9375,
      "learning_rate": 5.547539613214019e-06,
      "loss": 1.05168934,
      "memory(GiB)": 112.26,
      "step": 38775,
      "train_speed(iter/s)": 1.130409
    },
    {
      "acc": 0.73332248,
      "epoch": 0.9837645865043125,
      "grad_norm": 4.34375,
      "learning_rate": 5.546497284004321e-06,
      "loss": 1.09183445,
      "memory(GiB)": 112.26,
      "step": 38780,
      "train_speed(iter/s)": 1.130445
    },
    {
      "acc": 0.73994818,
      "epoch": 0.9838914256722476,
      "grad_norm": 3.859375,
      "learning_rate": 5.545454930757233e-06,
      "loss": 1.08329954,
      "memory(GiB)": 112.26,
      "step": 38785,
      "train_speed(iter/s)": 1.130469
    },
    {
      "acc": 0.7509141,
      "epoch": 0.9840182648401826,
      "grad_norm": 3.3125,
      "learning_rate": 5.544412553518602e-06,
      "loss": 0.99806824,
      "memory(GiB)": 112.26,
      "step": 38790,
      "train_speed(iter/s)": 1.130494
    },
    {
      "acc": 0.73721938,
      "epoch": 0.9841451040081177,
      "grad_norm": 3.109375,
      "learning_rate": 5.543370152334275e-06,
      "loss": 1.06461544,
      "memory(GiB)": 112.26,
      "step": 38795,
      "train_speed(iter/s)": 1.130515
    },
    {
      "acc": 0.73834829,
      "epoch": 0.9842719431760527,
      "grad_norm": 3.296875,
      "learning_rate": 5.542327727250105e-06,
      "loss": 1.0443058,
      "memory(GiB)": 112.26,
      "step": 38800,
      "train_speed(iter/s)": 1.130521
    },
    {
      "acc": 0.72866387,
      "epoch": 0.9843987823439878,
      "grad_norm": 3.71875,
      "learning_rate": 5.5412852783119385e-06,
      "loss": 1.09904175,
      "memory(GiB)": 112.26,
      "step": 38805,
      "train_speed(iter/s)": 1.130538
    },
    {
      "acc": 0.73332558,
      "epoch": 0.9845256215119229,
      "grad_norm": 3.109375,
      "learning_rate": 5.54024280556563e-06,
      "loss": 1.07387638,
      "memory(GiB)": 112.26,
      "step": 38810,
      "train_speed(iter/s)": 1.130569
    },
    {
      "acc": 0.73303499,
      "epoch": 0.9846524606798579,
      "grad_norm": 5.5625,
      "learning_rate": 5.53920030905703e-06,
      "loss": 1.12716761,
      "memory(GiB)": 112.26,
      "step": 38815,
      "train_speed(iter/s)": 1.130591
    },
    {
      "acc": 0.72794142,
      "epoch": 0.984779299847793,
      "grad_norm": 3.296875,
      "learning_rate": 5.538157788831993e-06,
      "loss": 1.05673447,
      "memory(GiB)": 112.26,
      "step": 38820,
      "train_speed(iter/s)": 1.130615
    },
    {
      "acc": 0.73547239,
      "epoch": 0.9849061390157281,
      "grad_norm": 5.375,
      "learning_rate": 5.537115244936374e-06,
      "loss": 1.07703867,
      "memory(GiB)": 112.26,
      "step": 38825,
      "train_speed(iter/s)": 1.130641
    },
    {
      "acc": 0.72376757,
      "epoch": 0.9850329781836631,
      "grad_norm": 4.71875,
      "learning_rate": 5.536072677416029e-06,
      "loss": 1.15246372,
      "memory(GiB)": 112.26,
      "step": 38830,
      "train_speed(iter/s)": 1.130663
    },
    {
      "acc": 0.7408741,
      "epoch": 0.9851598173515982,
      "grad_norm": 3.546875,
      "learning_rate": 5.535030086316814e-06,
      "loss": 1.03697405,
      "memory(GiB)": 112.26,
      "step": 38835,
      "train_speed(iter/s)": 1.130683
    },
    {
      "acc": 0.74191265,
      "epoch": 0.9852866565195332,
      "grad_norm": 2.96875,
      "learning_rate": 5.533987471684586e-06,
      "loss": 1.02315159,
      "memory(GiB)": 112.26,
      "step": 38840,
      "train_speed(iter/s)": 1.130693
    },
    {
      "acc": 0.73895249,
      "epoch": 0.9854134956874683,
      "grad_norm": 3.34375,
      "learning_rate": 5.532944833565207e-06,
      "loss": 1.05712166,
      "memory(GiB)": 112.26,
      "step": 38845,
      "train_speed(iter/s)": 1.130709
    },
    {
      "acc": 0.73286476,
      "epoch": 0.9855403348554034,
      "grad_norm": 3.328125,
      "learning_rate": 5.531902172004533e-06,
      "loss": 1.0743824,
      "memory(GiB)": 112.26,
      "step": 38850,
      "train_speed(iter/s)": 1.130727
    },
    {
      "acc": 0.7344985,
      "epoch": 0.9856671740233384,
      "grad_norm": 3.75,
      "learning_rate": 5.530859487048427e-06,
      "loss": 1.10339479,
      "memory(GiB)": 112.26,
      "step": 38855,
      "train_speed(iter/s)": 1.130756
    },
    {
      "acc": 0.71637459,
      "epoch": 0.9857940131912735,
      "grad_norm": 3.140625,
      "learning_rate": 5.529816778742752e-06,
      "loss": 1.17100124,
      "memory(GiB)": 112.26,
      "step": 38860,
      "train_speed(iter/s)": 1.13077
    },
    {
      "acc": 0.76005068,
      "epoch": 0.9859208523592086,
      "grad_norm": 3.65625,
      "learning_rate": 5.528774047133369e-06,
      "loss": 0.99373102,
      "memory(GiB)": 112.26,
      "step": 38865,
      "train_speed(iter/s)": 1.130789
    },
    {
      "acc": 0.73736563,
      "epoch": 0.9860476915271436,
      "grad_norm": 3.234375,
      "learning_rate": 5.527731292266142e-06,
      "loss": 1.05635777,
      "memory(GiB)": 112.26,
      "step": 38870,
      "train_speed(iter/s)": 1.130796
    },
    {
      "acc": 0.73900895,
      "epoch": 0.9861745306950787,
      "grad_norm": 3.59375,
      "learning_rate": 5.5266885141869355e-06,
      "loss": 1.11183605,
      "memory(GiB)": 112.26,
      "step": 38875,
      "train_speed(iter/s)": 1.130826
    },
    {
      "acc": 0.74102535,
      "epoch": 0.9863013698630136,
      "grad_norm": 3.953125,
      "learning_rate": 5.5256457129416185e-06,
      "loss": 1.09813824,
      "memory(GiB)": 112.26,
      "step": 38880,
      "train_speed(iter/s)": 1.13085
    },
    {
      "acc": 0.75381422,
      "epoch": 0.9864282090309487,
      "grad_norm": 3.515625,
      "learning_rate": 5.524602888576055e-06,
      "loss": 1.04254866,
      "memory(GiB)": 112.26,
      "step": 38885,
      "train_speed(iter/s)": 1.130872
    },
    {
      "acc": 0.71710854,
      "epoch": 0.9865550481988838,
      "grad_norm": 3.484375,
      "learning_rate": 5.523560041136116e-06,
      "loss": 1.11491823,
      "memory(GiB)": 112.26,
      "step": 38890,
      "train_speed(iter/s)": 1.130888
    },
    {
      "acc": 0.7175477,
      "epoch": 0.9866818873668188,
      "grad_norm": 3.6875,
      "learning_rate": 5.522517170667667e-06,
      "loss": 1.17186937,
      "memory(GiB)": 112.26,
      "step": 38895,
      "train_speed(iter/s)": 1.130919
    },
    {
      "acc": 0.7470809,
      "epoch": 0.9868087265347539,
      "grad_norm": 3.9375,
      "learning_rate": 5.5214742772165806e-06,
      "loss": 1.03660831,
      "memory(GiB)": 112.26,
      "step": 38900,
      "train_speed(iter/s)": 1.130933
    },
    {
      "acc": 0.71939569,
      "epoch": 0.986935565702689,
      "grad_norm": 4.5,
      "learning_rate": 5.520431360828728e-06,
      "loss": 1.14309683,
      "memory(GiB)": 112.26,
      "step": 38905,
      "train_speed(iter/s)": 1.130959
    },
    {
      "acc": 0.71966496,
      "epoch": 0.987062404870624,
      "grad_norm": 4.21875,
      "learning_rate": 5.51938842154998e-06,
      "loss": 1.1437295,
      "memory(GiB)": 112.26,
      "step": 38910,
      "train_speed(iter/s)": 1.130976
    },
    {
      "acc": 0.74289603,
      "epoch": 0.9871892440385591,
      "grad_norm": 4.84375,
      "learning_rate": 5.51834545942621e-06,
      "loss": 1.03146114,
      "memory(GiB)": 112.26,
      "step": 38915,
      "train_speed(iter/s)": 1.130994
    },
    {
      "acc": 0.7304203,
      "epoch": 0.9873160832064941,
      "grad_norm": 4.65625,
      "learning_rate": 5.5173024745032925e-06,
      "loss": 1.07350616,
      "memory(GiB)": 112.26,
      "step": 38920,
      "train_speed(iter/s)": 1.131007
    },
    {
      "acc": 0.72751141,
      "epoch": 0.9874429223744292,
      "grad_norm": 3.921875,
      "learning_rate": 5.516259466827103e-06,
      "loss": 1.124716,
      "memory(GiB)": 112.26,
      "step": 38925,
      "train_speed(iter/s)": 1.13103
    },
    {
      "acc": 0.73739233,
      "epoch": 0.9875697615423643,
      "grad_norm": 4.34375,
      "learning_rate": 5.515216436443517e-06,
      "loss": 1.07788477,
      "memory(GiB)": 112.26,
      "step": 38930,
      "train_speed(iter/s)": 1.131048
    },
    {
      "acc": 0.72952104,
      "epoch": 0.9876966007102993,
      "grad_norm": 4.40625,
      "learning_rate": 5.514173383398412e-06,
      "loss": 1.11169491,
      "memory(GiB)": 112.26,
      "step": 38935,
      "train_speed(iter/s)": 1.131067
    },
    {
      "acc": 0.73112135,
      "epoch": 0.9878234398782344,
      "grad_norm": 3.9375,
      "learning_rate": 5.513130307737666e-06,
      "loss": 1.10190163,
      "memory(GiB)": 112.26,
      "step": 38940,
      "train_speed(iter/s)": 1.131084
    },
    {
      "acc": 0.72366114,
      "epoch": 0.9879502790461695,
      "grad_norm": 3.28125,
      "learning_rate": 5.512087209507157e-06,
      "loss": 1.14153461,
      "memory(GiB)": 112.26,
      "step": 38945,
      "train_speed(iter/s)": 1.1311
    },
    {
      "acc": 0.73808203,
      "epoch": 0.9880771182141045,
      "grad_norm": 3.4375,
      "learning_rate": 5.5110440887527684e-06,
      "loss": 1.02720852,
      "memory(GiB)": 112.26,
      "step": 38950,
      "train_speed(iter/s)": 1.131119
    },
    {
      "acc": 0.73811417,
      "epoch": 0.9882039573820396,
      "grad_norm": 3.078125,
      "learning_rate": 5.510000945520377e-06,
      "loss": 1.05751219,
      "memory(GiB)": 112.26,
      "step": 38955,
      "train_speed(iter/s)": 1.131121
    },
    {
      "acc": 0.73764062,
      "epoch": 0.9883307965499746,
      "grad_norm": 3.96875,
      "learning_rate": 5.508957779855869e-06,
      "loss": 1.08906183,
      "memory(GiB)": 112.26,
      "step": 38960,
      "train_speed(iter/s)": 1.131145
    },
    {
      "acc": 0.73719735,
      "epoch": 0.9884576357179097,
      "grad_norm": 3.890625,
      "learning_rate": 5.507914591805124e-06,
      "loss": 1.107584,
      "memory(GiB)": 112.26,
      "step": 38965,
      "train_speed(iter/s)": 1.13116
    },
    {
      "acc": 0.73805442,
      "epoch": 0.9885844748858448,
      "grad_norm": 3.390625,
      "learning_rate": 5.506871381414027e-06,
      "loss": 1.03365946,
      "memory(GiB)": 112.26,
      "step": 38970,
      "train_speed(iter/s)": 1.131177
    },
    {
      "acc": 0.73318253,
      "epoch": 0.9887113140537798,
      "grad_norm": 4.4375,
      "learning_rate": 5.505828148728465e-06,
      "loss": 1.08558989,
      "memory(GiB)": 112.26,
      "step": 38975,
      "train_speed(iter/s)": 1.131199
    },
    {
      "acc": 0.74435782,
      "epoch": 0.9888381532217149,
      "grad_norm": 3.5625,
      "learning_rate": 5.5047848937943225e-06,
      "loss": 1.05974884,
      "memory(GiB)": 112.26,
      "step": 38980,
      "train_speed(iter/s)": 1.131225
    },
    {
      "acc": 0.73833394,
      "epoch": 0.98896499238965,
      "grad_norm": 3.84375,
      "learning_rate": 5.503741616657486e-06,
      "loss": 1.05604782,
      "memory(GiB)": 112.26,
      "step": 38985,
      "train_speed(iter/s)": 1.13123
    },
    {
      "acc": 0.73741121,
      "epoch": 0.989091831557585,
      "grad_norm": 4.8125,
      "learning_rate": 5.502698317363846e-06,
      "loss": 1.10971413,
      "memory(GiB)": 112.26,
      "step": 38990,
      "train_speed(iter/s)": 1.131249
    },
    {
      "acc": 0.73317108,
      "epoch": 0.98921867072552,
      "grad_norm": 3.96875,
      "learning_rate": 5.501654995959288e-06,
      "loss": 1.09370289,
      "memory(GiB)": 112.26,
      "step": 38995,
      "train_speed(iter/s)": 1.131253
    },
    {
      "acc": 0.72603149,
      "epoch": 0.989345509893455,
      "grad_norm": 3.921875,
      "learning_rate": 5.5006116524897034e-06,
      "loss": 1.09646568,
      "memory(GiB)": 112.26,
      "step": 39000,
      "train_speed(iter/s)": 1.13128
    },
    {
      "epoch": 0.989345509893455,
      "eval_acc": 0.725404870347515,
      "eval_loss": 1.045866847038269,
      "eval_runtime": 70.8339,
      "eval_samples_per_second": 89.929,
      "eval_steps_per_second": 22.489,
      "step": 39000
    },
    {
      "acc": 0.73360434,
      "epoch": 0.9894723490613901,
      "grad_norm": 4.03125,
      "learning_rate": 5.499568287000984e-06,
      "loss": 1.11210251,
      "memory(GiB)": 112.26,
      "step": 39005,
      "train_speed(iter/s)": 1.127523
    },
    {
      "acc": 0.74420056,
      "epoch": 0.9895991882293252,
      "grad_norm": 3.640625,
      "learning_rate": 5.49852489953902e-06,
      "loss": 1.07738361,
      "memory(GiB)": 112.26,
      "step": 39010,
      "train_speed(iter/s)": 1.127551
    },
    {
      "acc": 0.7413682,
      "epoch": 0.9897260273972602,
      "grad_norm": 4.28125,
      "learning_rate": 5.497481490149705e-06,
      "loss": 1.06335859,
      "memory(GiB)": 112.26,
      "step": 39015,
      "train_speed(iter/s)": 1.127568
    },
    {
      "acc": 0.73540082,
      "epoch": 0.9898528665651953,
      "grad_norm": 3.53125,
      "learning_rate": 5.496438058878936e-06,
      "loss": 1.10099468,
      "memory(GiB)": 112.26,
      "step": 39020,
      "train_speed(iter/s)": 1.127588
    },
    {
      "acc": 0.72992158,
      "epoch": 0.9899797057331304,
      "grad_norm": 3.59375,
      "learning_rate": 5.4953946057726005e-06,
      "loss": 1.13193417,
      "memory(GiB)": 112.26,
      "step": 39025,
      "train_speed(iter/s)": 1.127605
    },
    {
      "acc": 0.73951392,
      "epoch": 0.9901065449010654,
      "grad_norm": 3.34375,
      "learning_rate": 5.494351130876602e-06,
      "loss": 1.06400738,
      "memory(GiB)": 112.26,
      "step": 39030,
      "train_speed(iter/s)": 1.127626
    },
    {
      "acc": 0.74789419,
      "epoch": 0.9902333840690005,
      "grad_norm": 3.390625,
      "learning_rate": 5.493307634236831e-06,
      "loss": 1.04287872,
      "memory(GiB)": 112.26,
      "step": 39035,
      "train_speed(iter/s)": 1.127649
    },
    {
      "acc": 0.73615208,
      "epoch": 0.9903602232369355,
      "grad_norm": 3.71875,
      "learning_rate": 5.492264115899189e-06,
      "loss": 1.06776276,
      "memory(GiB)": 112.26,
      "step": 39040,
      "train_speed(iter/s)": 1.127656
    },
    {
      "acc": 0.73384361,
      "epoch": 0.9904870624048706,
      "grad_norm": 6.25,
      "learning_rate": 5.491220575909573e-06,
      "loss": 1.07958736,
      "memory(GiB)": 112.26,
      "step": 39045,
      "train_speed(iter/s)": 1.127687
    },
    {
      "acc": 0.73311725,
      "epoch": 0.9906139015728057,
      "grad_norm": 3.109375,
      "learning_rate": 5.4901770143138835e-06,
      "loss": 1.12846184,
      "memory(GiB)": 112.26,
      "step": 39050,
      "train_speed(iter/s)": 1.127705
    },
    {
      "acc": 0.73620343,
      "epoch": 0.9907407407407407,
      "grad_norm": 2.96875,
      "learning_rate": 5.48913343115802e-06,
      "loss": 1.0691927,
      "memory(GiB)": 112.26,
      "step": 39055,
      "train_speed(iter/s)": 1.127728
    },
    {
      "acc": 0.7338397,
      "epoch": 0.9908675799086758,
      "grad_norm": 3.21875,
      "learning_rate": 5.488089826487884e-06,
      "loss": 1.0479557,
      "memory(GiB)": 112.26,
      "step": 39060,
      "train_speed(iter/s)": 1.12775
    },
    {
      "acc": 0.74641547,
      "epoch": 0.9909944190766109,
      "grad_norm": 3.25,
      "learning_rate": 5.48704620034938e-06,
      "loss": 1.0366744,
      "memory(GiB)": 112.26,
      "step": 39065,
      "train_speed(iter/s)": 1.127772
    },
    {
      "acc": 0.7431838,
      "epoch": 0.9911212582445459,
      "grad_norm": 4.71875,
      "learning_rate": 5.486002552788408e-06,
      "loss": 1.06691055,
      "memory(GiB)": 112.26,
      "step": 39070,
      "train_speed(iter/s)": 1.12779
    },
    {
      "acc": 0.72973471,
      "epoch": 0.991248097412481,
      "grad_norm": 4.0625,
      "learning_rate": 5.4849588838508734e-06,
      "loss": 1.04654636,
      "memory(GiB)": 112.26,
      "step": 39075,
      "train_speed(iter/s)": 1.127798
    },
    {
      "acc": 0.74519091,
      "epoch": 0.991374936580416,
      "grad_norm": 4.1875,
      "learning_rate": 5.483915193582684e-06,
      "loss": 1.06348724,
      "memory(GiB)": 112.26,
      "step": 39080,
      "train_speed(iter/s)": 1.127796
    },
    {
      "acc": 0.72460418,
      "epoch": 0.9915017757483511,
      "grad_norm": 3.46875,
      "learning_rate": 5.482871482029742e-06,
      "loss": 1.03922539,
      "memory(GiB)": 112.26,
      "step": 39085,
      "train_speed(iter/s)": 1.127801
    },
    {
      "acc": 0.73852601,
      "epoch": 0.9916286149162862,
      "grad_norm": 3.265625,
      "learning_rate": 5.4818277492379565e-06,
      "loss": 1.09958801,
      "memory(GiB)": 112.26,
      "step": 39090,
      "train_speed(iter/s)": 1.127819
    },
    {
      "acc": 0.74256506,
      "epoch": 0.9917554540842212,
      "grad_norm": 4.34375,
      "learning_rate": 5.480783995253236e-06,
      "loss": 1.08160362,
      "memory(GiB)": 112.26,
      "step": 39095,
      "train_speed(iter/s)": 1.127851
    },
    {
      "acc": 0.74814887,
      "epoch": 0.9918822932521563,
      "grad_norm": 4.15625,
      "learning_rate": 5.47974022012149e-06,
      "loss": 1.04130239,
      "memory(GiB)": 112.26,
      "step": 39100,
      "train_speed(iter/s)": 1.127852
    },
    {
      "acc": 0.74450703,
      "epoch": 0.9920091324200914,
      "grad_norm": 4.21875,
      "learning_rate": 5.478696423888624e-06,
      "loss": 1.02707748,
      "memory(GiB)": 112.26,
      "step": 39105,
      "train_speed(iter/s)": 1.127861
    },
    {
      "acc": 0.73715668,
      "epoch": 0.9921359715880264,
      "grad_norm": 4.21875,
      "learning_rate": 5.477652606600555e-06,
      "loss": 1.06405039,
      "memory(GiB)": 112.26,
      "step": 39110,
      "train_speed(iter/s)": 1.127896
    },
    {
      "acc": 0.75007501,
      "epoch": 0.9922628107559615,
      "grad_norm": 3.859375,
      "learning_rate": 5.47660876830319e-06,
      "loss": 1.0263916,
      "memory(GiB)": 112.26,
      "step": 39115,
      "train_speed(iter/s)": 1.127906
    },
    {
      "acc": 0.74685793,
      "epoch": 0.9923896499238964,
      "grad_norm": 3.984375,
      "learning_rate": 5.475564909042444e-06,
      "loss": 0.99634705,
      "memory(GiB)": 112.26,
      "step": 39120,
      "train_speed(iter/s)": 1.127935
    },
    {
      "acc": 0.73534551,
      "epoch": 0.9925164890918315,
      "grad_norm": 3.84375,
      "learning_rate": 5.4745210288642306e-06,
      "loss": 1.08307571,
      "memory(GiB)": 112.26,
      "step": 39125,
      "train_speed(iter/s)": 1.12796
    },
    {
      "acc": 0.72219076,
      "epoch": 0.9926433282597666,
      "grad_norm": 3.390625,
      "learning_rate": 5.473477127814464e-06,
      "loss": 1.06313934,
      "memory(GiB)": 112.26,
      "step": 39130,
      "train_speed(iter/s)": 1.127979
    },
    {
      "acc": 0.71498966,
      "epoch": 0.9927701674277016,
      "grad_norm": 4.15625,
      "learning_rate": 5.472433205939058e-06,
      "loss": 1.18227177,
      "memory(GiB)": 112.26,
      "step": 39135,
      "train_speed(iter/s)": 1.128002
    },
    {
      "acc": 0.74878998,
      "epoch": 0.9928970065956367,
      "grad_norm": 4.09375,
      "learning_rate": 5.471389263283932e-06,
      "loss": 1.02141981,
      "memory(GiB)": 112.26,
      "step": 39140,
      "train_speed(iter/s)": 1.128019
    },
    {
      "acc": 0.75194273,
      "epoch": 0.9930238457635718,
      "grad_norm": 4.40625,
      "learning_rate": 5.4703452998950005e-06,
      "loss": 1.01839867,
      "memory(GiB)": 112.26,
      "step": 39145,
      "train_speed(iter/s)": 1.128025
    },
    {
      "acc": 0.73745022,
      "epoch": 0.9931506849315068,
      "grad_norm": 3.796875,
      "learning_rate": 5.469301315818183e-06,
      "loss": 1.09885941,
      "memory(GiB)": 112.26,
      "step": 39150,
      "train_speed(iter/s)": 1.128042
    },
    {
      "acc": 0.74089584,
      "epoch": 0.9932775240994419,
      "grad_norm": 3.25,
      "learning_rate": 5.468257311099399e-06,
      "loss": 0.97936783,
      "memory(GiB)": 112.26,
      "step": 39155,
      "train_speed(iter/s)": 1.128059
    },
    {
      "acc": 0.75364456,
      "epoch": 0.9934043632673769,
      "grad_norm": 4.1875,
      "learning_rate": 5.467213285784567e-06,
      "loss": 1.02344522,
      "memory(GiB)": 112.26,
      "step": 39160,
      "train_speed(iter/s)": 1.128086
    },
    {
      "acc": 0.73650799,
      "epoch": 0.993531202435312,
      "grad_norm": 3.828125,
      "learning_rate": 5.466169239919608e-06,
      "loss": 1.12370453,
      "memory(GiB)": 112.26,
      "step": 39165,
      "train_speed(iter/s)": 1.128112
    },
    {
      "acc": 0.73473206,
      "epoch": 0.9936580416032471,
      "grad_norm": 4.03125,
      "learning_rate": 5.465125173550446e-06,
      "loss": 1.12286816,
      "memory(GiB)": 112.26,
      "step": 39170,
      "train_speed(iter/s)": 1.128128
    },
    {
      "acc": 0.73868999,
      "epoch": 0.9937848807711821,
      "grad_norm": 4.0625,
      "learning_rate": 5.464081086723001e-06,
      "loss": 1.08806992,
      "memory(GiB)": 112.26,
      "step": 39175,
      "train_speed(iter/s)": 1.128144
    },
    {
      "acc": 0.73109779,
      "epoch": 0.9939117199391172,
      "grad_norm": 3.921875,
      "learning_rate": 5.4630369794832006e-06,
      "loss": 1.10062122,
      "memory(GiB)": 112.26,
      "step": 39180,
      "train_speed(iter/s)": 1.128158
    },
    {
      "acc": 0.74359159,
      "epoch": 0.9940385591070523,
      "grad_norm": 3.78125,
      "learning_rate": 5.461992851876963e-06,
      "loss": 1.10183058,
      "memory(GiB)": 112.26,
      "step": 39185,
      "train_speed(iter/s)": 1.128163
    },
    {
      "acc": 0.73211346,
      "epoch": 0.9941653982749873,
      "grad_norm": 5.1875,
      "learning_rate": 5.460948703950218e-06,
      "loss": 1.13619251,
      "memory(GiB)": 112.26,
      "step": 39190,
      "train_speed(iter/s)": 1.128168
    },
    {
      "acc": 0.72273288,
      "epoch": 0.9942922374429224,
      "grad_norm": 4.1875,
      "learning_rate": 5.459904535748892e-06,
      "loss": 1.16714621,
      "memory(GiB)": 112.26,
      "step": 39195,
      "train_speed(iter/s)": 1.128193
    },
    {
      "acc": 0.75305433,
      "epoch": 0.9944190766108574,
      "grad_norm": 3.546875,
      "learning_rate": 5.458860347318912e-06,
      "loss": 1.00079794,
      "memory(GiB)": 112.26,
      "step": 39200,
      "train_speed(iter/s)": 1.128212
    },
    {
      "acc": 0.7359097,
      "epoch": 0.9945459157787925,
      "grad_norm": 3.90625,
      "learning_rate": 5.457816138706203e-06,
      "loss": 1.13093624,
      "memory(GiB)": 112.26,
      "step": 39205,
      "train_speed(iter/s)": 1.128239
    },
    {
      "acc": 0.74306774,
      "epoch": 0.9946727549467276,
      "grad_norm": 6.15625,
      "learning_rate": 5.456771909956697e-06,
      "loss": 1.07931385,
      "memory(GiB)": 112.26,
      "step": 39210,
      "train_speed(iter/s)": 1.12826
    },
    {
      "acc": 0.74330459,
      "epoch": 0.9947995941146626,
      "grad_norm": 4.40625,
      "learning_rate": 5.455727661116324e-06,
      "loss": 1.07295675,
      "memory(GiB)": 112.26,
      "step": 39215,
      "train_speed(iter/s)": 1.128275
    },
    {
      "acc": 0.73923378,
      "epoch": 0.9949264332825977,
      "grad_norm": 8.125,
      "learning_rate": 5.454683392231014e-06,
      "loss": 1.09482565,
      "memory(GiB)": 112.26,
      "step": 39220,
      "train_speed(iter/s)": 1.128302
    },
    {
      "acc": 0.74280906,
      "epoch": 0.9950532724505328,
      "grad_norm": 3.390625,
      "learning_rate": 5.453639103346697e-06,
      "loss": 1.06430607,
      "memory(GiB)": 112.26,
      "step": 39225,
      "train_speed(iter/s)": 1.128316
    },
    {
      "acc": 0.73375864,
      "epoch": 0.9951801116184678,
      "grad_norm": 4.5,
      "learning_rate": 5.452594794509307e-06,
      "loss": 1.03328667,
      "memory(GiB)": 112.26,
      "step": 39230,
      "train_speed(iter/s)": 1.128334
    },
    {
      "acc": 0.74296331,
      "epoch": 0.9953069507864029,
      "grad_norm": 3.5625,
      "learning_rate": 5.4515504657647765e-06,
      "loss": 1.11729612,
      "memory(GiB)": 112.26,
      "step": 39235,
      "train_speed(iter/s)": 1.128351
    },
    {
      "acc": 0.73802552,
      "epoch": 0.9954337899543378,
      "grad_norm": 3.515625,
      "learning_rate": 5.450506117159044e-06,
      "loss": 1.12277241,
      "memory(GiB)": 112.26,
      "step": 39240,
      "train_speed(iter/s)": 1.128368
    },
    {
      "acc": 0.73826752,
      "epoch": 0.9955606291222729,
      "grad_norm": 4.5,
      "learning_rate": 5.449461748738037e-06,
      "loss": 1.09121819,
      "memory(GiB)": 112.26,
      "step": 39245,
      "train_speed(iter/s)": 1.128379
    },
    {
      "acc": 0.73785133,
      "epoch": 0.995687468290208,
      "grad_norm": 3.8125,
      "learning_rate": 5.448417360547699e-06,
      "loss": 1.02720509,
      "memory(GiB)": 112.26,
      "step": 39250,
      "train_speed(iter/s)": 1.128397
    },
    {
      "acc": 0.74502201,
      "epoch": 0.995814307458143,
      "grad_norm": 3.40625,
      "learning_rate": 5.44737295263396e-06,
      "loss": 1.02747765,
      "memory(GiB)": 112.26,
      "step": 39255,
      "train_speed(iter/s)": 1.128414
    },
    {
      "acc": 0.72556205,
      "epoch": 0.9959411466260781,
      "grad_norm": 3.796875,
      "learning_rate": 5.446328525042764e-06,
      "loss": 1.13104687,
      "memory(GiB)": 112.26,
      "step": 39260,
      "train_speed(iter/s)": 1.128423
    },
    {
      "acc": 0.72448788,
      "epoch": 0.9960679857940132,
      "grad_norm": 4.125,
      "learning_rate": 5.4452840778200456e-06,
      "loss": 1.13693218,
      "memory(GiB)": 112.26,
      "step": 39265,
      "train_speed(iter/s)": 1.128455
    },
    {
      "acc": 0.72943497,
      "epoch": 0.9961948249619482,
      "grad_norm": 4.5625,
      "learning_rate": 5.444239611011746e-06,
      "loss": 1.07098246,
      "memory(GiB)": 112.26,
      "step": 39270,
      "train_speed(iter/s)": 1.128467
    },
    {
      "acc": 0.73208022,
      "epoch": 0.9963216641298833,
      "grad_norm": 3.3125,
      "learning_rate": 5.443195124663804e-06,
      "loss": 1.10245342,
      "memory(GiB)": 112.26,
      "step": 39275,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.73146415,
      "epoch": 0.9964485032978183,
      "grad_norm": 4.375,
      "learning_rate": 5.442150618822162e-06,
      "loss": 1.1054512,
      "memory(GiB)": 112.26,
      "step": 39280,
      "train_speed(iter/s)": 1.128516
    },
    {
      "acc": 0.7410533,
      "epoch": 0.9965753424657534,
      "grad_norm": 3.53125,
      "learning_rate": 5.441106093532762e-06,
      "loss": 1.1065794,
      "memory(GiB)": 112.26,
      "step": 39285,
      "train_speed(iter/s)": 1.128521
    },
    {
      "acc": 0.75071588,
      "epoch": 0.9967021816336885,
      "grad_norm": 3.03125,
      "learning_rate": 5.440061548841546e-06,
      "loss": 1.04985218,
      "memory(GiB)": 112.26,
      "step": 39290,
      "train_speed(iter/s)": 1.128542
    },
    {
      "acc": 0.74469919,
      "epoch": 0.9968290208016235,
      "grad_norm": 4.5625,
      "learning_rate": 5.43901698479446e-06,
      "loss": 1.081357,
      "memory(GiB)": 112.26,
      "step": 39295,
      "train_speed(iter/s)": 1.12857
    },
    {
      "acc": 0.72684274,
      "epoch": 0.9969558599695586,
      "grad_norm": 3.65625,
      "learning_rate": 5.4379724014374455e-06,
      "loss": 1.08705254,
      "memory(GiB)": 112.26,
      "step": 39300,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.72128363,
      "epoch": 0.9970826991374937,
      "grad_norm": 3.0625,
      "learning_rate": 5.436927798816448e-06,
      "loss": 1.10523167,
      "memory(GiB)": 112.26,
      "step": 39305,
      "train_speed(iter/s)": 1.12863
    },
    {
      "acc": 0.75157995,
      "epoch": 0.9972095383054287,
      "grad_norm": 6.4375,
      "learning_rate": 5.4358831769774174e-06,
      "loss": 1.00251579,
      "memory(GiB)": 112.26,
      "step": 39310,
      "train_speed(iter/s)": 1.128652
    },
    {
      "acc": 0.73675966,
      "epoch": 0.9973363774733638,
      "grad_norm": 3.34375,
      "learning_rate": 5.434838535966298e-06,
      "loss": 1.11149607,
      "memory(GiB)": 112.26,
      "step": 39315,
      "train_speed(iter/s)": 1.128673
    },
    {
      "acc": 0.72960544,
      "epoch": 0.9974632166412988,
      "grad_norm": 4.09375,
      "learning_rate": 5.43379387582904e-06,
      "loss": 1.07640619,
      "memory(GiB)": 112.26,
      "step": 39320,
      "train_speed(iter/s)": 1.128707
    },
    {
      "acc": 0.7386137,
      "epoch": 0.9975900558092339,
      "grad_norm": 3.453125,
      "learning_rate": 5.432749196611587e-06,
      "loss": 1.04672394,
      "memory(GiB)": 112.26,
      "step": 39325,
      "train_speed(iter/s)": 1.128723
    },
    {
      "acc": 0.73529024,
      "epoch": 0.997716894977169,
      "grad_norm": 3.65625,
      "learning_rate": 5.431704498359896e-06,
      "loss": 1.0557188,
      "memory(GiB)": 112.26,
      "step": 39330,
      "train_speed(iter/s)": 1.12875
    },
    {
      "acc": 0.7404707,
      "epoch": 0.997843734145104,
      "grad_norm": 4.28125,
      "learning_rate": 5.43065978111991e-06,
      "loss": 1.09019279,
      "memory(GiB)": 112.26,
      "step": 39335,
      "train_speed(iter/s)": 1.128761
    },
    {
      "acc": 0.73898544,
      "epoch": 0.9979705733130391,
      "grad_norm": 4.625,
      "learning_rate": 5.429615044937586e-06,
      "loss": 1.05935783,
      "memory(GiB)": 112.26,
      "step": 39340,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.72937455,
      "epoch": 0.9980974124809742,
      "grad_norm": 3.671875,
      "learning_rate": 5.4285702898588754e-06,
      "loss": 1.12612438,
      "memory(GiB)": 112.26,
      "step": 39345,
      "train_speed(iter/s)": 1.128792
    },
    {
      "acc": 0.74056811,
      "epoch": 0.9982242516489092,
      "grad_norm": 3.375,
      "learning_rate": 5.427525515929729e-06,
      "loss": 1.04797554,
      "memory(GiB)": 112.26,
      "step": 39350,
      "train_speed(iter/s)": 1.12882
    },
    {
      "acc": 0.75307436,
      "epoch": 0.9983510908168443,
      "grad_norm": 4.0625,
      "learning_rate": 5.426480723196102e-06,
      "loss": 1.00027924,
      "memory(GiB)": 112.26,
      "step": 39355,
      "train_speed(iter/s)": 1.128848
    },
    {
      "acc": 0.74166074,
      "epoch": 0.9984779299847792,
      "grad_norm": 3.53125,
      "learning_rate": 5.425435911703948e-06,
      "loss": 1.07204647,
      "memory(GiB)": 112.26,
      "step": 39360,
      "train_speed(iter/s)": 1.128863
    },
    {
      "acc": 0.73773937,
      "epoch": 0.9986047691527143,
      "grad_norm": 3.921875,
      "learning_rate": 5.424391081499223e-06,
      "loss": 1.08498325,
      "memory(GiB)": 112.26,
      "step": 39365,
      "train_speed(iter/s)": 1.128889
    },
    {
      "acc": 0.74150839,
      "epoch": 0.9987316083206494,
      "grad_norm": 3.234375,
      "learning_rate": 5.423346232627884e-06,
      "loss": 1.06949539,
      "memory(GiB)": 112.26,
      "step": 39370,
      "train_speed(iter/s)": 1.128913
    },
    {
      "acc": 0.72874041,
      "epoch": 0.9988584474885844,
      "grad_norm": 4.53125,
      "learning_rate": 5.422301365135887e-06,
      "loss": 1.12020607,
      "memory(GiB)": 112.26,
      "step": 39375,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.72448511,
      "epoch": 0.9989852866565195,
      "grad_norm": 4.125,
      "learning_rate": 5.421256479069191e-06,
      "loss": 1.10953445,
      "memory(GiB)": 112.26,
      "step": 39380,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.74812474,
      "epoch": 0.9991121258244546,
      "grad_norm": 3.6875,
      "learning_rate": 5.420211574473754e-06,
      "loss": 1.02218428,
      "memory(GiB)": 112.26,
      "step": 39385,
      "train_speed(iter/s)": 1.128962
    },
    {
      "acc": 0.74193001,
      "epoch": 0.9992389649923896,
      "grad_norm": 3.4375,
      "learning_rate": 5.419166651395536e-06,
      "loss": 1.07424049,
      "memory(GiB)": 112.26,
      "step": 39390,
      "train_speed(iter/s)": 1.128982
    },
    {
      "acc": 0.74677067,
      "epoch": 0.9993658041603247,
      "grad_norm": 4.3125,
      "learning_rate": 5.418121709880497e-06,
      "loss": 1.02933979,
      "memory(GiB)": 112.26,
      "step": 39395,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.73722353,
      "epoch": 0.9994926433282597,
      "grad_norm": 4.3125,
      "learning_rate": 5.4170767499746e-06,
      "loss": 1.05504074,
      "memory(GiB)": 112.26,
      "step": 39400,
      "train_speed(iter/s)": 1.129011
    },
    {
      "acc": 0.72847853,
      "epoch": 0.9996194824961948,
      "grad_norm": 4.1875,
      "learning_rate": 5.416031771723803e-06,
      "loss": 1.09918842,
      "memory(GiB)": 112.26,
      "step": 39405,
      "train_speed(iter/s)": 1.12903
    },
    {
      "acc": 0.74442616,
      "epoch": 0.9997463216641299,
      "grad_norm": 4.46875,
      "learning_rate": 5.414986775174073e-06,
      "loss": 1.04441032,
      "memory(GiB)": 112.26,
      "step": 39410,
      "train_speed(iter/s)": 1.129059
    },
    {
      "acc": 0.74846067,
      "epoch": 0.9998731608320649,
      "grad_norm": 3.09375,
      "learning_rate": 5.41394176037137e-06,
      "loss": 1.04436569,
      "memory(GiB)": 112.26,
      "step": 39415,
      "train_speed(iter/s)": 1.129083
    },
    {
      "acc": 0.72658243,
      "epoch": 1.0,
      "grad_norm": 4.09375,
      "learning_rate": 5.412896727361663e-06,
      "loss": 1.15192528,
      "memory(GiB)": 112.26,
      "step": 39420,
      "train_speed(iter/s)": 1.129091
    },
    {
      "acc": 0.74938993,
      "epoch": 1.000126839167935,
      "grad_norm": 4.03125,
      "learning_rate": 5.411851676190912e-06,
      "loss": 1.05045662,
      "memory(GiB)": 112.26,
      "step": 39425,
      "train_speed(iter/s)": 1.129099
    },
    {
      "acc": 0.73828487,
      "epoch": 1.0002536783358702,
      "grad_norm": 3.40625,
      "learning_rate": 5.4108066069050864e-06,
      "loss": 1.08042622,
      "memory(GiB)": 112.26,
      "step": 39430,
      "train_speed(iter/s)": 1.129116
    },
    {
      "acc": 0.71842942,
      "epoch": 1.0003805175038052,
      "grad_norm": 3.453125,
      "learning_rate": 5.409761519550153e-06,
      "loss": 1.0957222,
      "memory(GiB)": 112.26,
      "step": 39435,
      "train_speed(iter/s)": 1.129134
    },
    {
      "acc": 0.75021801,
      "epoch": 1.0005073566717402,
      "grad_norm": 3.84375,
      "learning_rate": 5.408716414172077e-06,
      "loss": 1.02623262,
      "memory(GiB)": 112.26,
      "step": 39440,
      "train_speed(iter/s)": 1.129145
    },
    {
      "acc": 0.75233264,
      "epoch": 1.0006341958396754,
      "grad_norm": 4.34375,
      "learning_rate": 5.407671290816829e-06,
      "loss": 1.03797445,
      "memory(GiB)": 112.26,
      "step": 39445,
      "train_speed(iter/s)": 1.129163
    },
    {
      "acc": 0.7169282,
      "epoch": 1.0007610350076104,
      "grad_norm": 3.984375,
      "learning_rate": 5.406626149530378e-06,
      "loss": 1.13787918,
      "memory(GiB)": 112.26,
      "step": 39450,
      "train_speed(iter/s)": 1.129172
    },
    {
      "acc": 0.74829297,
      "epoch": 1.0008878741755454,
      "grad_norm": 3.125,
      "learning_rate": 5.405580990358692e-06,
      "loss": 1.00333138,
      "memory(GiB)": 112.26,
      "step": 39455,
      "train_speed(iter/s)": 1.129196
    },
    {
      "acc": 0.74286537,
      "epoch": 1.0010147133434804,
      "grad_norm": 4.03125,
      "learning_rate": 5.404535813347746e-06,
      "loss": 1.04968147,
      "memory(GiB)": 112.26,
      "step": 39460,
      "train_speed(iter/s)": 1.129222
    },
    {
      "acc": 0.73959193,
      "epoch": 1.0011415525114156,
      "grad_norm": 5.125,
      "learning_rate": 5.403490618543505e-06,
      "loss": 1.08095093,
      "memory(GiB)": 112.26,
      "step": 39465,
      "train_speed(iter/s)": 1.129241
    },
    {
      "acc": 0.75442209,
      "epoch": 1.0012683916793506,
      "grad_norm": 3.421875,
      "learning_rate": 5.40244540599195e-06,
      "loss": 1.03073406,
      "memory(GiB)": 112.26,
      "step": 39470,
      "train_speed(iter/s)": 1.129261
    },
    {
      "acc": 0.74097018,
      "epoch": 1.0013952308472855,
      "grad_norm": 3.171875,
      "learning_rate": 5.401400175739045e-06,
      "loss": 1.08766861,
      "memory(GiB)": 112.26,
      "step": 39475,
      "train_speed(iter/s)": 1.129279
    },
    {
      "acc": 0.73478832,
      "epoch": 1.0015220700152208,
      "grad_norm": 4.25,
      "learning_rate": 5.400354927830769e-06,
      "loss": 1.04875355,
      "memory(GiB)": 112.26,
      "step": 39480,
      "train_speed(iter/s)": 1.129304
    },
    {
      "acc": 0.74946308,
      "epoch": 1.0016489091831557,
      "grad_norm": 3.71875,
      "learning_rate": 5.399309662313097e-06,
      "loss": 1.03330374,
      "memory(GiB)": 112.26,
      "step": 39485,
      "train_speed(iter/s)": 1.129315
    },
    {
      "acc": 0.73628139,
      "epoch": 1.0017757483510907,
      "grad_norm": 3.78125,
      "learning_rate": 5.3982643792320024e-06,
      "loss": 1.04452562,
      "memory(GiB)": 112.26,
      "step": 39490,
      "train_speed(iter/s)": 1.12933
    },
    {
      "acc": 0.73644686,
      "epoch": 1.001902587519026,
      "grad_norm": 3.21875,
      "learning_rate": 5.397219078633462e-06,
      "loss": 1.04790955,
      "memory(GiB)": 112.26,
      "step": 39495,
      "train_speed(iter/s)": 1.129353
    },
    {
      "acc": 0.74170361,
      "epoch": 1.002029426686961,
      "grad_norm": 4.53125,
      "learning_rate": 5.3961737605634546e-06,
      "loss": 1.0793499,
      "memory(GiB)": 112.26,
      "step": 39500,
      "train_speed(iter/s)": 1.129371
    },
    {
      "acc": 0.74316158,
      "epoch": 1.002156265854896,
      "grad_norm": 3.703125,
      "learning_rate": 5.395128425067954e-06,
      "loss": 1.05103216,
      "memory(GiB)": 112.26,
      "step": 39505,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.75622764,
      "epoch": 1.0022831050228311,
      "grad_norm": 3.390625,
      "learning_rate": 5.394083072192944e-06,
      "loss": 0.99671087,
      "memory(GiB)": 112.26,
      "step": 39510,
      "train_speed(iter/s)": 1.129422
    },
    {
      "acc": 0.74689159,
      "epoch": 1.0024099441907661,
      "grad_norm": 4.21875,
      "learning_rate": 5.393037701984399e-06,
      "loss": 1.00444603,
      "memory(GiB)": 112.26,
      "step": 39515,
      "train_speed(iter/s)": 1.129438
    },
    {
      "acc": 0.73704858,
      "epoch": 1.0025367833587011,
      "grad_norm": 3.421875,
      "learning_rate": 5.391992314488303e-06,
      "loss": 1.04223642,
      "memory(GiB)": 112.26,
      "step": 39520,
      "train_speed(iter/s)": 1.129458
    },
    {
      "acc": 0.73444967,
      "epoch": 1.0026636225266363,
      "grad_norm": 3.109375,
      "learning_rate": 5.3909469097506314e-06,
      "loss": 1.03685417,
      "memory(GiB)": 112.26,
      "step": 39525,
      "train_speed(iter/s)": 1.129476
    },
    {
      "acc": 0.72414083,
      "epoch": 1.0027904616945713,
      "grad_norm": 3.9375,
      "learning_rate": 5.389901487817373e-06,
      "loss": 1.09696503,
      "memory(GiB)": 112.26,
      "step": 39530,
      "train_speed(iter/s)": 1.129497
    },
    {
      "acc": 0.75598545,
      "epoch": 1.0029173008625063,
      "grad_norm": 3.75,
      "learning_rate": 5.388856048734505e-06,
      "loss": 1.03939819,
      "memory(GiB)": 112.26,
      "step": 39535,
      "train_speed(iter/s)": 1.129523
    },
    {
      "acc": 0.72868271,
      "epoch": 1.0030441400304415,
      "grad_norm": 3.453125,
      "learning_rate": 5.3878105925480115e-06,
      "loss": 1.12864933,
      "memory(GiB)": 112.26,
      "step": 39540,
      "train_speed(iter/s)": 1.129551
    },
    {
      "acc": 0.74074488,
      "epoch": 1.0031709791983765,
      "grad_norm": 3.25,
      "learning_rate": 5.3867651193038765e-06,
      "loss": 1.05605946,
      "memory(GiB)": 112.26,
      "step": 39545,
      "train_speed(iter/s)": 1.129572
    },
    {
      "acc": 0.73834848,
      "epoch": 1.0032978183663115,
      "grad_norm": 3.5625,
      "learning_rate": 5.385719629048086e-06,
      "loss": 1.04735546,
      "memory(GiB)": 112.26,
      "step": 39550,
      "train_speed(iter/s)": 1.129595
    },
    {
      "acc": 0.73103085,
      "epoch": 1.0034246575342465,
      "grad_norm": 3.140625,
      "learning_rate": 5.384674121826622e-06,
      "loss": 1.08841209,
      "memory(GiB)": 112.26,
      "step": 39555,
      "train_speed(iter/s)": 1.129616
    },
    {
      "acc": 0.74328184,
      "epoch": 1.0035514967021817,
      "grad_norm": 4.28125,
      "learning_rate": 5.383628597685474e-06,
      "loss": 1.06030941,
      "memory(GiB)": 112.26,
      "step": 39560,
      "train_speed(iter/s)": 1.129642
    },
    {
      "acc": 0.76103039,
      "epoch": 1.0036783358701167,
      "grad_norm": 3.828125,
      "learning_rate": 5.382583056670627e-06,
      "loss": 1.00519657,
      "memory(GiB)": 112.26,
      "step": 39565,
      "train_speed(iter/s)": 1.129663
    },
    {
      "acc": 0.74399176,
      "epoch": 1.0038051750380517,
      "grad_norm": 4.09375,
      "learning_rate": 5.38153749882807e-06,
      "loss": 1.0670269,
      "memory(GiB)": 112.26,
      "step": 39570,
      "train_speed(iter/s)": 1.129691
    },
    {
      "acc": 0.74215794,
      "epoch": 1.0039320142059869,
      "grad_norm": 4.03125,
      "learning_rate": 5.38049192420379e-06,
      "loss": 1.04423275,
      "memory(GiB)": 112.26,
      "step": 39575,
      "train_speed(iter/s)": 1.129722
    },
    {
      "acc": 0.73568983,
      "epoch": 1.0040588533739219,
      "grad_norm": 2.96875,
      "learning_rate": 5.3794463328437766e-06,
      "loss": 1.05532494,
      "memory(GiB)": 112.26,
      "step": 39580,
      "train_speed(iter/s)": 1.129748
    },
    {
      "acc": 0.74935508,
      "epoch": 1.0041856925418569,
      "grad_norm": 4.25,
      "learning_rate": 5.3784007247940185e-06,
      "loss": 1.00102005,
      "memory(GiB)": 112.26,
      "step": 39585,
      "train_speed(iter/s)": 1.12977
    },
    {
      "acc": 0.74192958,
      "epoch": 1.004312531709792,
      "grad_norm": 5.625,
      "learning_rate": 5.377355100100508e-06,
      "loss": 0.99113855,
      "memory(GiB)": 112.26,
      "step": 39590,
      "train_speed(iter/s)": 1.129788
    },
    {
      "acc": 0.75396862,
      "epoch": 1.004439370877727,
      "grad_norm": 4.3125,
      "learning_rate": 5.376309458809235e-06,
      "loss": 0.99099455,
      "memory(GiB)": 112.26,
      "step": 39595,
      "train_speed(iter/s)": 1.129801
    },
    {
      "acc": 0.72709675,
      "epoch": 1.004566210045662,
      "grad_norm": 3.875,
      "learning_rate": 5.375263800966192e-06,
      "loss": 1.0694706,
      "memory(GiB)": 112.26,
      "step": 39600,
      "train_speed(iter/s)": 1.129814
    },
    {
      "acc": 0.73719888,
      "epoch": 1.0046930492135973,
      "grad_norm": 4.5,
      "learning_rate": 5.374218126617371e-06,
      "loss": 1.04066982,
      "memory(GiB)": 112.26,
      "step": 39605,
      "train_speed(iter/s)": 1.12983
    },
    {
      "acc": 0.73894887,
      "epoch": 1.0048198883815322,
      "grad_norm": 3.3125,
      "learning_rate": 5.373172435808768e-06,
      "loss": 1.07863998,
      "memory(GiB)": 112.26,
      "step": 39610,
      "train_speed(iter/s)": 1.129856
    },
    {
      "acc": 0.74080138,
      "epoch": 1.0049467275494672,
      "grad_norm": 4.09375,
      "learning_rate": 5.372126728586372e-06,
      "loss": 1.07786636,
      "memory(GiB)": 112.26,
      "step": 39615,
      "train_speed(iter/s)": 1.129874
    },
    {
      "acc": 0.73722367,
      "epoch": 1.0050735667174022,
      "grad_norm": 3.5625,
      "learning_rate": 5.371081004996184e-06,
      "loss": 1.04505539,
      "memory(GiB)": 112.26,
      "step": 39620,
      "train_speed(iter/s)": 1.129887
    },
    {
      "acc": 0.72998466,
      "epoch": 1.0052004058853374,
      "grad_norm": 3.359375,
      "learning_rate": 5.370035265084195e-06,
      "loss": 1.06585426,
      "memory(GiB)": 112.26,
      "step": 39625,
      "train_speed(iter/s)": 1.12991
    },
    {
      "acc": 0.74356403,
      "epoch": 1.0053272450532724,
      "grad_norm": 4.4375,
      "learning_rate": 5.3689895088964025e-06,
      "loss": 1.07460871,
      "memory(GiB)": 112.26,
      "step": 39630,
      "train_speed(iter/s)": 1.129924
    },
    {
      "acc": 0.73624525,
      "epoch": 1.0054540842212074,
      "grad_norm": 3.890625,
      "learning_rate": 5.367943736478806e-06,
      "loss": 1.08663044,
      "memory(GiB)": 112.26,
      "step": 39635,
      "train_speed(iter/s)": 1.129947
    },
    {
      "acc": 0.72785382,
      "epoch": 1.0055809233891426,
      "grad_norm": 3.859375,
      "learning_rate": 5.3668979478774e-06,
      "loss": 1.12588301,
      "memory(GiB)": 112.26,
      "step": 39640,
      "train_speed(iter/s)": 1.129975
    },
    {
      "acc": 0.751966,
      "epoch": 1.0057077625570776,
      "grad_norm": 3.65625,
      "learning_rate": 5.3658521431381836e-06,
      "loss": 1.0342598,
      "memory(GiB)": 112.26,
      "step": 39645,
      "train_speed(iter/s)": 1.129984
    },
    {
      "acc": 0.74305201,
      "epoch": 1.0058346017250126,
      "grad_norm": 3.9375,
      "learning_rate": 5.364806322307158e-06,
      "loss": 1.05001717,
      "memory(GiB)": 112.26,
      "step": 39650,
      "train_speed(iter/s)": 1.130012
    },
    {
      "acc": 0.73543892,
      "epoch": 1.0059614408929478,
      "grad_norm": 4.0,
      "learning_rate": 5.363760485430321e-06,
      "loss": 1.08712711,
      "memory(GiB)": 112.26,
      "step": 39655,
      "train_speed(iter/s)": 1.130034
    },
    {
      "acc": 0.75065398,
      "epoch": 1.0060882800608828,
      "grad_norm": 3.875,
      "learning_rate": 5.3627146325536725e-06,
      "loss": 1.07032604,
      "memory(GiB)": 112.26,
      "step": 39660,
      "train_speed(iter/s)": 1.130044
    },
    {
      "acc": 0.76348953,
      "epoch": 1.0062151192288178,
      "grad_norm": 3.90625,
      "learning_rate": 5.361668763723216e-06,
      "loss": 0.93907471,
      "memory(GiB)": 112.26,
      "step": 39665,
      "train_speed(iter/s)": 1.130058
    },
    {
      "acc": 0.74410377,
      "epoch": 1.006341958396753,
      "grad_norm": 3.546875,
      "learning_rate": 5.360622878984954e-06,
      "loss": 1.02357006,
      "memory(GiB)": 112.26,
      "step": 39670,
      "train_speed(iter/s)": 1.130071
    },
    {
      "acc": 0.7391573,
      "epoch": 1.006468797564688,
      "grad_norm": 3.46875,
      "learning_rate": 5.359576978384885e-06,
      "loss": 1.06076546,
      "memory(GiB)": 112.26,
      "step": 39675,
      "train_speed(iter/s)": 1.130096
    },
    {
      "acc": 0.73778634,
      "epoch": 1.006595636732623,
      "grad_norm": 3.484375,
      "learning_rate": 5.358531061969018e-06,
      "loss": 1.05558243,
      "memory(GiB)": 112.26,
      "step": 39680,
      "train_speed(iter/s)": 1.130117
    },
    {
      "acc": 0.73413148,
      "epoch": 1.0067224759005582,
      "grad_norm": 3.921875,
      "learning_rate": 5.357485129783351e-06,
      "loss": 1.13419094,
      "memory(GiB)": 112.26,
      "step": 39685,
      "train_speed(iter/s)": 1.130137
    },
    {
      "acc": 0.73765917,
      "epoch": 1.0068493150684932,
      "grad_norm": 4.0,
      "learning_rate": 5.356439181873895e-06,
      "loss": 1.05364685,
      "memory(GiB)": 112.26,
      "step": 39690,
      "train_speed(iter/s)": 1.130168
    },
    {
      "acc": 0.74842758,
      "epoch": 1.0069761542364282,
      "grad_norm": 3.65625,
      "learning_rate": 5.35539321828665e-06,
      "loss": 0.99933243,
      "memory(GiB)": 112.26,
      "step": 39695,
      "train_speed(iter/s)": 1.130189
    },
    {
      "acc": 0.73393946,
      "epoch": 1.0071029934043634,
      "grad_norm": 3.28125,
      "learning_rate": 5.354347239067625e-06,
      "loss": 1.06418524,
      "memory(GiB)": 112.26,
      "step": 39700,
      "train_speed(iter/s)": 1.130202
    },
    {
      "acc": 0.74383841,
      "epoch": 1.0072298325722984,
      "grad_norm": 3.765625,
      "learning_rate": 5.3533012442628275e-06,
      "loss": 1.0039361,
      "memory(GiB)": 112.26,
      "step": 39705,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.75313587,
      "epoch": 1.0073566717402334,
      "grad_norm": 5.0625,
      "learning_rate": 5.3522552339182635e-06,
      "loss": 0.97307787,
      "memory(GiB)": 112.26,
      "step": 39710,
      "train_speed(iter/s)": 1.130224
    },
    {
      "acc": 0.74424047,
      "epoch": 1.0074835109081683,
      "grad_norm": 3.8125,
      "learning_rate": 5.351209208079941e-06,
      "loss": 1.07345333,
      "memory(GiB)": 112.26,
      "step": 39715,
      "train_speed(iter/s)": 1.130254
    },
    {
      "acc": 0.74008808,
      "epoch": 1.0076103500761036,
      "grad_norm": 3.953125,
      "learning_rate": 5.35016316679387e-06,
      "loss": 1.06347532,
      "memory(GiB)": 112.26,
      "step": 39720,
      "train_speed(iter/s)": 1.130281
    },
    {
      "acc": 0.74978757,
      "epoch": 1.0077371892440385,
      "grad_norm": 4.40625,
      "learning_rate": 5.349117110106059e-06,
      "loss": 0.97615366,
      "memory(GiB)": 112.26,
      "step": 39725,
      "train_speed(iter/s)": 1.130307
    },
    {
      "acc": 0.73723693,
      "epoch": 1.0078640284119735,
      "grad_norm": 4.0625,
      "learning_rate": 5.34807103806252e-06,
      "loss": 1.04157467,
      "memory(GiB)": 112.26,
      "step": 39730,
      "train_speed(iter/s)": 1.130326
    },
    {
      "acc": 0.7324975,
      "epoch": 1.0079908675799087,
      "grad_norm": 3.671875,
      "learning_rate": 5.347024950709262e-06,
      "loss": 1.07561665,
      "memory(GiB)": 112.26,
      "step": 39735,
      "train_speed(iter/s)": 1.130327
    },
    {
      "acc": 0.72759204,
      "epoch": 1.0081177067478437,
      "grad_norm": 3.78125,
      "learning_rate": 5.345978848092297e-06,
      "loss": 1.09144325,
      "memory(GiB)": 112.26,
      "step": 39740,
      "train_speed(iter/s)": 1.130354
    },
    {
      "acc": 0.74272108,
      "epoch": 1.0082445459157787,
      "grad_norm": 4.59375,
      "learning_rate": 5.344932730257637e-06,
      "loss": 1.04104567,
      "memory(GiB)": 112.26,
      "step": 39745,
      "train_speed(iter/s)": 1.130378
    },
    {
      "acc": 0.73760738,
      "epoch": 1.008371385083714,
      "grad_norm": 4.25,
      "learning_rate": 5.343886597251298e-06,
      "loss": 1.06457157,
      "memory(GiB)": 112.26,
      "step": 39750,
      "train_speed(iter/s)": 1.130394
    },
    {
      "acc": 0.74286604,
      "epoch": 1.008498224251649,
      "grad_norm": 3.65625,
      "learning_rate": 5.342840449119287e-06,
      "loss": 1.07807455,
      "memory(GiB)": 112.26,
      "step": 39755,
      "train_speed(iter/s)": 1.130421
    },
    {
      "acc": 0.74257178,
      "epoch": 1.008625063419584,
      "grad_norm": 4.03125,
      "learning_rate": 5.341794285907627e-06,
      "loss": 1.05933714,
      "memory(GiB)": 112.26,
      "step": 39760,
      "train_speed(iter/s)": 1.130439
    },
    {
      "acc": 0.73082657,
      "epoch": 1.0087519025875191,
      "grad_norm": 3.671875,
      "learning_rate": 5.340748107662324e-06,
      "loss": 1.11018867,
      "memory(GiB)": 112.26,
      "step": 39765,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.7354517,
      "epoch": 1.0088787417554541,
      "grad_norm": 3.53125,
      "learning_rate": 5.339701914429402e-06,
      "loss": 1.0853817,
      "memory(GiB)": 112.26,
      "step": 39770,
      "train_speed(iter/s)": 1.130485
    },
    {
      "acc": 0.72918653,
      "epoch": 1.009005580923389,
      "grad_norm": 3.890625,
      "learning_rate": 5.338655706254871e-06,
      "loss": 1.15150137,
      "memory(GiB)": 112.26,
      "step": 39775,
      "train_speed(iter/s)": 1.130514
    },
    {
      "acc": 0.72838664,
      "epoch": 1.009132420091324,
      "grad_norm": 2.9375,
      "learning_rate": 5.33760948318475e-06,
      "loss": 1.08493004,
      "memory(GiB)": 112.26,
      "step": 39780,
      "train_speed(iter/s)": 1.130536
    },
    {
      "acc": 0.74166341,
      "epoch": 1.0092592592592593,
      "grad_norm": 3.984375,
      "learning_rate": 5.336563245265056e-06,
      "loss": 1.09883976,
      "memory(GiB)": 112.26,
      "step": 39785,
      "train_speed(iter/s)": 1.130554
    },
    {
      "acc": 0.72660284,
      "epoch": 1.0093860984271943,
      "grad_norm": 4.53125,
      "learning_rate": 5.3355169925418095e-06,
      "loss": 1.13260717,
      "memory(GiB)": 112.26,
      "step": 39790,
      "train_speed(iter/s)": 1.130567
    },
    {
      "acc": 0.739396,
      "epoch": 1.0095129375951293,
      "grad_norm": 3.15625,
      "learning_rate": 5.334470725061027e-06,
      "loss": 1.07319536,
      "memory(GiB)": 112.26,
      "step": 39795,
      "train_speed(iter/s)": 1.130588
    },
    {
      "acc": 0.74632435,
      "epoch": 1.0096397767630645,
      "grad_norm": 3.578125,
      "learning_rate": 5.333424442868729e-06,
      "loss": 1.08195114,
      "memory(GiB)": 112.26,
      "step": 39800,
      "train_speed(iter/s)": 1.130608
    },
    {
      "acc": 0.73856173,
      "epoch": 1.0097666159309995,
      "grad_norm": 4.25,
      "learning_rate": 5.3323781460109345e-06,
      "loss": 1.11069889,
      "memory(GiB)": 112.26,
      "step": 39805,
      "train_speed(iter/s)": 1.130619
    },
    {
      "acc": 0.74382191,
      "epoch": 1.0098934550989345,
      "grad_norm": 4.09375,
      "learning_rate": 5.3313318345336665e-06,
      "loss": 1.04387369,
      "memory(GiB)": 112.26,
      "step": 39810,
      "train_speed(iter/s)": 1.130639
    },
    {
      "acc": 0.75492511,
      "epoch": 1.0100202942668697,
      "grad_norm": 4.1875,
      "learning_rate": 5.330285508482944e-06,
      "loss": 1.03926563,
      "memory(GiB)": 112.26,
      "step": 39815,
      "train_speed(iter/s)": 1.130666
    },
    {
      "acc": 0.74480839,
      "epoch": 1.0101471334348047,
      "grad_norm": 5.6875,
      "learning_rate": 5.3292391679047905e-06,
      "loss": 1.06952276,
      "memory(GiB)": 112.26,
      "step": 39820,
      "train_speed(iter/s)": 1.130682
    },
    {
      "acc": 0.73436165,
      "epoch": 1.0102739726027397,
      "grad_norm": 3.421875,
      "learning_rate": 5.328192812845228e-06,
      "loss": 1.09783745,
      "memory(GiB)": 112.26,
      "step": 39825,
      "train_speed(iter/s)": 1.130707
    },
    {
      "acc": 0.74159198,
      "epoch": 1.0104008117706749,
      "grad_norm": 4.15625,
      "learning_rate": 5.3271464433502805e-06,
      "loss": 1.02301693,
      "memory(GiB)": 112.26,
      "step": 39830,
      "train_speed(iter/s)": 1.130724
    },
    {
      "acc": 0.73428154,
      "epoch": 1.0105276509386099,
      "grad_norm": 4.25,
      "learning_rate": 5.3261000594659715e-06,
      "loss": 1.12215633,
      "memory(GiB)": 112.26,
      "step": 39835,
      "train_speed(iter/s)": 1.130743
    },
    {
      "acc": 0.72050495,
      "epoch": 1.0106544901065448,
      "grad_norm": 3.734375,
      "learning_rate": 5.3250536612383275e-06,
      "loss": 1.14396305,
      "memory(GiB)": 112.26,
      "step": 39840,
      "train_speed(iter/s)": 1.130742
    },
    {
      "acc": 0.74993272,
      "epoch": 1.01078132927448,
      "grad_norm": 3.03125,
      "learning_rate": 5.32400724871337e-06,
      "loss": 1.00788383,
      "memory(GiB)": 112.26,
      "step": 39845,
      "train_speed(iter/s)": 1.130753
    },
    {
      "acc": 0.7493124,
      "epoch": 1.010908168442415,
      "grad_norm": 3.703125,
      "learning_rate": 5.322960821937129e-06,
      "loss": 1.01988306,
      "memory(GiB)": 112.26,
      "step": 39850,
      "train_speed(iter/s)": 1.130781
    },
    {
      "acc": 0.72595563,
      "epoch": 1.01103500761035,
      "grad_norm": 4.125,
      "learning_rate": 5.321914380955628e-06,
      "loss": 1.1040884,
      "memory(GiB)": 112.26,
      "step": 39855,
      "train_speed(iter/s)": 1.130794
    },
    {
      "acc": 0.74497161,
      "epoch": 1.0111618467782852,
      "grad_norm": 3.59375,
      "learning_rate": 5.320867925814896e-06,
      "loss": 1.05643158,
      "memory(GiB)": 112.26,
      "step": 39860,
      "train_speed(iter/s)": 1.130819
    },
    {
      "acc": 0.74754086,
      "epoch": 1.0112886859462202,
      "grad_norm": 3.546875,
      "learning_rate": 5.31982145656096e-06,
      "loss": 1.05223017,
      "memory(GiB)": 112.26,
      "step": 39865,
      "train_speed(iter/s)": 1.13085
    },
    {
      "acc": 0.73793736,
      "epoch": 1.0114155251141552,
      "grad_norm": 3.265625,
      "learning_rate": 5.318774973239849e-06,
      "loss": 1.01376333,
      "memory(GiB)": 112.26,
      "step": 39870,
      "train_speed(iter/s)": 1.130864
    },
    {
      "acc": 0.74367599,
      "epoch": 1.0115423642820902,
      "grad_norm": 3.421875,
      "learning_rate": 5.31772847589759e-06,
      "loss": 1.05917263,
      "memory(GiB)": 112.26,
      "step": 39875,
      "train_speed(iter/s)": 1.130892
    },
    {
      "acc": 0.74822893,
      "epoch": 1.0116692034500254,
      "grad_norm": 4.03125,
      "learning_rate": 5.316681964580215e-06,
      "loss": 1.02643318,
      "memory(GiB)": 112.26,
      "step": 39880,
      "train_speed(iter/s)": 1.130921
    },
    {
      "acc": 0.74318123,
      "epoch": 1.0117960426179604,
      "grad_norm": 4.0,
      "learning_rate": 5.315635439333753e-06,
      "loss": 1.05954218,
      "memory(GiB)": 112.26,
      "step": 39885,
      "train_speed(iter/s)": 1.130915
    },
    {
      "acc": 0.7357707,
      "epoch": 1.0119228817858954,
      "grad_norm": 3.609375,
      "learning_rate": 5.314588900204235e-06,
      "loss": 1.07355709,
      "memory(GiB)": 112.26,
      "step": 39890,
      "train_speed(iter/s)": 1.130944
    },
    {
      "acc": 0.73434262,
      "epoch": 1.0120497209538306,
      "grad_norm": 4.15625,
      "learning_rate": 5.313542347237692e-06,
      "loss": 1.10994482,
      "memory(GiB)": 112.26,
      "step": 39895,
      "train_speed(iter/s)": 1.130973
    },
    {
      "acc": 0.72572465,
      "epoch": 1.0121765601217656,
      "grad_norm": 4.1875,
      "learning_rate": 5.312495780480159e-06,
      "loss": 1.07219601,
      "memory(GiB)": 112.26,
      "step": 39900,
      "train_speed(iter/s)": 1.130997
    },
    {
      "acc": 0.74719148,
      "epoch": 1.0123033992897006,
      "grad_norm": 3.46875,
      "learning_rate": 5.311449199977664e-06,
      "loss": 1.06082802,
      "memory(GiB)": 112.26,
      "step": 39905,
      "train_speed(iter/s)": 1.13102
    },
    {
      "acc": 0.74984541,
      "epoch": 1.0124302384576358,
      "grad_norm": 3.859375,
      "learning_rate": 5.310402605776245e-06,
      "loss": 1.02848654,
      "memory(GiB)": 112.26,
      "step": 39910,
      "train_speed(iter/s)": 1.131038
    },
    {
      "acc": 0.74360237,
      "epoch": 1.0125570776255708,
      "grad_norm": 3.484375,
      "learning_rate": 5.309355997921931e-06,
      "loss": 1.05492115,
      "memory(GiB)": 112.26,
      "step": 39915,
      "train_speed(iter/s)": 1.131057
    },
    {
      "acc": 0.75665345,
      "epoch": 1.0126839167935058,
      "grad_norm": 3.59375,
      "learning_rate": 5.308309376460761e-06,
      "loss": 1.06385384,
      "memory(GiB)": 112.26,
      "step": 39920,
      "train_speed(iter/s)": 1.131071
    },
    {
      "acc": 0.7540576,
      "epoch": 1.012810755961441,
      "grad_norm": 3.265625,
      "learning_rate": 5.307262741438767e-06,
      "loss": 1.01503983,
      "memory(GiB)": 112.26,
      "step": 39925,
      "train_speed(iter/s)": 1.131093
    },
    {
      "acc": 0.75179238,
      "epoch": 1.012937595129376,
      "grad_norm": 3.859375,
      "learning_rate": 5.3062160929019855e-06,
      "loss": 1.04522495,
      "memory(GiB)": 112.26,
      "step": 39930,
      "train_speed(iter/s)": 1.131125
    },
    {
      "acc": 0.75108304,
      "epoch": 1.013064434297311,
      "grad_norm": 3.421875,
      "learning_rate": 5.305169430896454e-06,
      "loss": 1.0116478,
      "memory(GiB)": 112.26,
      "step": 39935,
      "train_speed(iter/s)": 1.131148
    },
    {
      "acc": 0.74754295,
      "epoch": 1.013191273465246,
      "grad_norm": 3.109375,
      "learning_rate": 5.304122755468209e-06,
      "loss": 0.98424273,
      "memory(GiB)": 112.26,
      "step": 39940,
      "train_speed(iter/s)": 1.131158
    },
    {
      "acc": 0.74931073,
      "epoch": 1.0133181126331812,
      "grad_norm": 4.1875,
      "learning_rate": 5.303076066663286e-06,
      "loss": 0.97129755,
      "memory(GiB)": 112.26,
      "step": 39945,
      "train_speed(iter/s)": 1.131183
    },
    {
      "acc": 0.73935852,
      "epoch": 1.0134449518011162,
      "grad_norm": 3.59375,
      "learning_rate": 5.302029364527726e-06,
      "loss": 1.06389484,
      "memory(GiB)": 112.26,
      "step": 39950,
      "train_speed(iter/s)": 1.131196
    },
    {
      "acc": 0.73120236,
      "epoch": 1.0135717909690511,
      "grad_norm": 4.21875,
      "learning_rate": 5.3009826491075645e-06,
      "loss": 1.13264322,
      "memory(GiB)": 112.26,
      "step": 39955,
      "train_speed(iter/s)": 1.131215
    },
    {
      "acc": 0.74200382,
      "epoch": 1.0136986301369864,
      "grad_norm": 5.21875,
      "learning_rate": 5.299935920448843e-06,
      "loss": 1.01748695,
      "memory(GiB)": 112.26,
      "step": 39960,
      "train_speed(iter/s)": 1.131231
    },
    {
      "acc": 0.74468069,
      "epoch": 1.0138254693049213,
      "grad_norm": 3.359375,
      "learning_rate": 5.298889178597599e-06,
      "loss": 1.0410078,
      "memory(GiB)": 112.26,
      "step": 39965,
      "train_speed(iter/s)": 1.131252
    },
    {
      "acc": 0.73097644,
      "epoch": 1.0139523084728563,
      "grad_norm": 4.375,
      "learning_rate": 5.297842423599877e-06,
      "loss": 1.06396122,
      "memory(GiB)": 112.26,
      "step": 39970,
      "train_speed(iter/s)": 1.131272
    },
    {
      "acc": 0.75148454,
      "epoch": 1.0140791476407915,
      "grad_norm": 4.375,
      "learning_rate": 5.296795655501714e-06,
      "loss": 1.08497734,
      "memory(GiB)": 112.26,
      "step": 39975,
      "train_speed(iter/s)": 1.1313
    },
    {
      "acc": 0.73863478,
      "epoch": 1.0142059868087265,
      "grad_norm": 3.796875,
      "learning_rate": 5.295748874349155e-06,
      "loss": 1.10554876,
      "memory(GiB)": 112.26,
      "step": 39980,
      "train_speed(iter/s)": 1.131316
    },
    {
      "acc": 0.73782663,
      "epoch": 1.0143328259766615,
      "grad_norm": 3.75,
      "learning_rate": 5.294702080188236e-06,
      "loss": 1.03354349,
      "memory(GiB)": 112.26,
      "step": 39985,
      "train_speed(iter/s)": 1.131317
    },
    {
      "acc": 0.73460202,
      "epoch": 1.0144596651445967,
      "grad_norm": 3.53125,
      "learning_rate": 5.293655273065008e-06,
      "loss": 1.05754967,
      "memory(GiB)": 112.26,
      "step": 39990,
      "train_speed(iter/s)": 1.131335
    },
    {
      "acc": 0.75321856,
      "epoch": 1.0145865043125317,
      "grad_norm": 3.375,
      "learning_rate": 5.2926084530255076e-06,
      "loss": 1.03401031,
      "memory(GiB)": 112.26,
      "step": 39995,
      "train_speed(iter/s)": 1.131356
    },
    {
      "acc": 0.73830981,
      "epoch": 1.0147133434804667,
      "grad_norm": 3.671875,
      "learning_rate": 5.291561620115781e-06,
      "loss": 1.04619932,
      "memory(GiB)": 112.26,
      "step": 40000,
      "train_speed(iter/s)": 1.131373
    },
    {
      "epoch": 1.0147133434804667,
      "eval_acc": 0.7253956818006211,
      "eval_loss": 1.0458587408065796,
      "eval_runtime": 71.0581,
      "eval_samples_per_second": 89.645,
      "eval_steps_per_second": 22.418,
      "step": 40000
    },
    {
      "acc": 0.73704295,
      "epoch": 1.014840182648402,
      "grad_norm": 4.09375,
      "learning_rate": 5.290514774381874e-06,
      "loss": 1.11675596,
      "memory(GiB)": 112.26,
      "step": 40005,
      "train_speed(iter/s)": 1.127718
    },
    {
      "acc": 0.74176116,
      "epoch": 1.014967021816337,
      "grad_norm": 3.6875,
      "learning_rate": 5.289467915869829e-06,
      "loss": 1.03969059,
      "memory(GiB)": 112.26,
      "step": 40010,
      "train_speed(iter/s)": 1.127733
    },
    {
      "acc": 0.74786963,
      "epoch": 1.015093860984272,
      "grad_norm": 3.90625,
      "learning_rate": 5.288421044625694e-06,
      "loss": 1.05466042,
      "memory(GiB)": 112.26,
      "step": 40015,
      "train_speed(iter/s)": 1.127748
    },
    {
      "acc": 0.74218483,
      "epoch": 1.0152207001522071,
      "grad_norm": 3.515625,
      "learning_rate": 5.287374160695513e-06,
      "loss": 1.07076492,
      "memory(GiB)": 112.26,
      "step": 40020,
      "train_speed(iter/s)": 1.127775
    },
    {
      "acc": 0.73524408,
      "epoch": 1.015347539320142,
      "grad_norm": 3.375,
      "learning_rate": 5.286327264125332e-06,
      "loss": 1.12040625,
      "memory(GiB)": 112.26,
      "step": 40025,
      "train_speed(iter/s)": 1.127806
    },
    {
      "acc": 0.73251019,
      "epoch": 1.015474378488077,
      "grad_norm": 4.0,
      "learning_rate": 5.285280354961202e-06,
      "loss": 1.11270504,
      "memory(GiB)": 112.26,
      "step": 40030,
      "train_speed(iter/s)": 1.127826
    },
    {
      "acc": 0.74059968,
      "epoch": 1.015601217656012,
      "grad_norm": 3.640625,
      "learning_rate": 5.284233433249167e-06,
      "loss": 0.9927536,
      "memory(GiB)": 112.26,
      "step": 40035,
      "train_speed(iter/s)": 1.127845
    },
    {
      "acc": 0.75007095,
      "epoch": 1.0157280568239473,
      "grad_norm": 4.46875,
      "learning_rate": 5.283186499035276e-06,
      "loss": 1.01536379,
      "memory(GiB)": 112.26,
      "step": 40040,
      "train_speed(iter/s)": 1.127866
    },
    {
      "acc": 0.7418066,
      "epoch": 1.0158548959918823,
      "grad_norm": 3.703125,
      "learning_rate": 5.2821395523655795e-06,
      "loss": 1.00899773,
      "memory(GiB)": 112.26,
      "step": 40045,
      "train_speed(iter/s)": 1.127875
    },
    {
      "acc": 0.75055909,
      "epoch": 1.0159817351598173,
      "grad_norm": 3.640625,
      "learning_rate": 5.281092593286127e-06,
      "loss": 1.01439171,
      "memory(GiB)": 112.26,
      "step": 40050,
      "train_speed(iter/s)": 1.127871
    },
    {
      "acc": 0.73858585,
      "epoch": 1.0161085743277525,
      "grad_norm": 3.46875,
      "learning_rate": 5.280045621842964e-06,
      "loss": 1.05062828,
      "memory(GiB)": 112.26,
      "step": 40055,
      "train_speed(iter/s)": 1.127902
    },
    {
      "acc": 0.71847353,
      "epoch": 1.0162354134956875,
      "grad_norm": 3.3125,
      "learning_rate": 5.278998638082148e-06,
      "loss": 1.0681076,
      "memory(GiB)": 112.26,
      "step": 40060,
      "train_speed(iter/s)": 1.127915
    },
    {
      "acc": 0.73952465,
      "epoch": 1.0163622526636225,
      "grad_norm": 3.4375,
      "learning_rate": 5.277951642049722e-06,
      "loss": 1.08231249,
      "memory(GiB)": 112.26,
      "step": 40065,
      "train_speed(iter/s)": 1.127919
    },
    {
      "acc": 0.74866962,
      "epoch": 1.0164890918315577,
      "grad_norm": 3.21875,
      "learning_rate": 5.276904633791745e-06,
      "loss": 1.03260822,
      "memory(GiB)": 112.26,
      "step": 40070,
      "train_speed(iter/s)": 1.12794
    },
    {
      "acc": 0.73685713,
      "epoch": 1.0166159309994927,
      "grad_norm": 3.875,
      "learning_rate": 5.275857613354265e-06,
      "loss": 1.03649349,
      "memory(GiB)": 112.26,
      "step": 40075,
      "train_speed(iter/s)": 1.127966
    },
    {
      "acc": 0.74983139,
      "epoch": 1.0167427701674276,
      "grad_norm": 3.15625,
      "learning_rate": 5.274810580783335e-06,
      "loss": 1.04311123,
      "memory(GiB)": 112.26,
      "step": 40080,
      "train_speed(iter/s)": 1.127992
    },
    {
      "acc": 0.75447702,
      "epoch": 1.0168696093353629,
      "grad_norm": 3.578125,
      "learning_rate": 5.2737635361250094e-06,
      "loss": 1.03154612,
      "memory(GiB)": 112.26,
      "step": 40085,
      "train_speed(iter/s)": 1.128015
    },
    {
      "acc": 0.74401712,
      "epoch": 1.0169964485032978,
      "grad_norm": 3.84375,
      "learning_rate": 5.2727164794253415e-06,
      "loss": 1.04055605,
      "memory(GiB)": 112.26,
      "step": 40090,
      "train_speed(iter/s)": 1.128041
    },
    {
      "acc": 0.7290935,
      "epoch": 1.0171232876712328,
      "grad_norm": 3.78125,
      "learning_rate": 5.271669410730384e-06,
      "loss": 1.06375332,
      "memory(GiB)": 112.26,
      "step": 40095,
      "train_speed(iter/s)": 1.128062
    },
    {
      "acc": 0.74587059,
      "epoch": 1.0172501268391678,
      "grad_norm": 3.640625,
      "learning_rate": 5.270622330086194e-06,
      "loss": 1.09224949,
      "memory(GiB)": 112.26,
      "step": 40100,
      "train_speed(iter/s)": 1.12809
    },
    {
      "acc": 0.7342186,
      "epoch": 1.017376966007103,
      "grad_norm": 3.203125,
      "learning_rate": 5.269575237538827e-06,
      "loss": 1.03670063,
      "memory(GiB)": 112.26,
      "step": 40105,
      "train_speed(iter/s)": 1.128106
    },
    {
      "acc": 0.72809982,
      "epoch": 1.017503805175038,
      "grad_norm": 3.75,
      "learning_rate": 5.268528133134335e-06,
      "loss": 1.07388697,
      "memory(GiB)": 112.26,
      "step": 40110,
      "train_speed(iter/s)": 1.128126
    },
    {
      "acc": 0.74384308,
      "epoch": 1.017630644342973,
      "grad_norm": 3.609375,
      "learning_rate": 5.267481016918776e-06,
      "loss": 1.02054396,
      "memory(GiB)": 112.26,
      "step": 40115,
      "train_speed(iter/s)": 1.128136
    },
    {
      "acc": 0.74680319,
      "epoch": 1.0177574835109082,
      "grad_norm": 3.765625,
      "learning_rate": 5.266433888938212e-06,
      "loss": 1.04527245,
      "memory(GiB)": 112.26,
      "step": 40120,
      "train_speed(iter/s)": 1.128158
    },
    {
      "acc": 0.75013528,
      "epoch": 1.0178843226788432,
      "grad_norm": 3.40625,
      "learning_rate": 5.265386749238691e-06,
      "loss": 1.0164238,
      "memory(GiB)": 112.26,
      "step": 40125,
      "train_speed(iter/s)": 1.128183
    },
    {
      "acc": 0.73384895,
      "epoch": 1.0180111618467782,
      "grad_norm": 4.09375,
      "learning_rate": 5.26433959786628e-06,
      "loss": 1.06090031,
      "memory(GiB)": 112.26,
      "step": 40130,
      "train_speed(iter/s)": 1.128178
    },
    {
      "acc": 0.7323884,
      "epoch": 1.0181380010147134,
      "grad_norm": 3.765625,
      "learning_rate": 5.263292434867031e-06,
      "loss": 1.07026892,
      "memory(GiB)": 112.26,
      "step": 40135,
      "train_speed(iter/s)": 1.128199
    },
    {
      "acc": 0.75231562,
      "epoch": 1.0182648401826484,
      "grad_norm": 3.03125,
      "learning_rate": 5.262245260287006e-06,
      "loss": 0.9861145,
      "memory(GiB)": 112.26,
      "step": 40140,
      "train_speed(iter/s)": 1.128206
    },
    {
      "acc": 0.73262639,
      "epoch": 1.0183916793505834,
      "grad_norm": 5.34375,
      "learning_rate": 5.261198074172262e-06,
      "loss": 1.11455975,
      "memory(GiB)": 112.26,
      "step": 40145,
      "train_speed(iter/s)": 1.128239
    },
    {
      "acc": 0.74751019,
      "epoch": 1.0185185185185186,
      "grad_norm": 3.515625,
      "learning_rate": 5.260150876568862e-06,
      "loss": 1.05554171,
      "memory(GiB)": 112.26,
      "step": 40150,
      "train_speed(iter/s)": 1.128265
    },
    {
      "acc": 0.74336805,
      "epoch": 1.0186453576864536,
      "grad_norm": 3.09375,
      "learning_rate": 5.259103667522866e-06,
      "loss": 1.06026039,
      "memory(GiB)": 112.26,
      "step": 40155,
      "train_speed(iter/s)": 1.128285
    },
    {
      "acc": 0.74169507,
      "epoch": 1.0187721968543886,
      "grad_norm": 3.265625,
      "learning_rate": 5.258056447080333e-06,
      "loss": 1.07897835,
      "memory(GiB)": 112.26,
      "step": 40160,
      "train_speed(iter/s)": 1.128296
    },
    {
      "acc": 0.73777022,
      "epoch": 1.0188990360223238,
      "grad_norm": 3.5,
      "learning_rate": 5.257009215287325e-06,
      "loss": 1.09375134,
      "memory(GiB)": 112.26,
      "step": 40165,
      "train_speed(iter/s)": 1.128321
    },
    {
      "acc": 0.73960109,
      "epoch": 1.0190258751902588,
      "grad_norm": 3.53125,
      "learning_rate": 5.255961972189905e-06,
      "loss": 1.06996384,
      "memory(GiB)": 112.26,
      "step": 40170,
      "train_speed(iter/s)": 1.128348
    },
    {
      "acc": 0.73600502,
      "epoch": 1.0191527143581938,
      "grad_norm": 3.859375,
      "learning_rate": 5.254914717834133e-06,
      "loss": 1.06375942,
      "memory(GiB)": 112.26,
      "step": 40175,
      "train_speed(iter/s)": 1.128355
    },
    {
      "acc": 0.74335718,
      "epoch": 1.019279553526129,
      "grad_norm": 3.203125,
      "learning_rate": 5.253867452266075e-06,
      "loss": 1.01158285,
      "memory(GiB)": 112.26,
      "step": 40180,
      "train_speed(iter/s)": 1.128374
    },
    {
      "acc": 0.75912719,
      "epoch": 1.019406392694064,
      "grad_norm": 4.59375,
      "learning_rate": 5.252820175531792e-06,
      "loss": 1.02205887,
      "memory(GiB)": 112.26,
      "step": 40185,
      "train_speed(iter/s)": 1.128395
    },
    {
      "acc": 0.73607321,
      "epoch": 1.019533231861999,
      "grad_norm": 4.78125,
      "learning_rate": 5.25177288767735e-06,
      "loss": 1.05942583,
      "memory(GiB)": 112.26,
      "step": 40190,
      "train_speed(iter/s)": 1.128419
    },
    {
      "acc": 0.75036736,
      "epoch": 1.019660071029934,
      "grad_norm": 3.640625,
      "learning_rate": 5.250725588748811e-06,
      "loss": 1.03093681,
      "memory(GiB)": 112.26,
      "step": 40195,
      "train_speed(iter/s)": 1.128447
    },
    {
      "acc": 0.72794189,
      "epoch": 1.0197869101978692,
      "grad_norm": 3.609375,
      "learning_rate": 5.249678278792243e-06,
      "loss": 1.1420929,
      "memory(GiB)": 112.26,
      "step": 40200,
      "train_speed(iter/s)": 1.128458
    },
    {
      "acc": 0.75824509,
      "epoch": 1.0199137493658041,
      "grad_norm": 3.515625,
      "learning_rate": 5.248630957853708e-06,
      "loss": 0.99693031,
      "memory(GiB)": 112.26,
      "step": 40205,
      "train_speed(iter/s)": 1.128478
    },
    {
      "acc": 0.74176798,
      "epoch": 1.0200405885337391,
      "grad_norm": 3.390625,
      "learning_rate": 5.247583625979276e-06,
      "loss": 1.00091953,
      "memory(GiB)": 112.26,
      "step": 40210,
      "train_speed(iter/s)": 1.128488
    },
    {
      "acc": 0.71944494,
      "epoch": 1.0201674277016743,
      "grad_norm": 4.34375,
      "learning_rate": 5.246536283215007e-06,
      "loss": 1.08045311,
      "memory(GiB)": 112.26,
      "step": 40215,
      "train_speed(iter/s)": 1.128512
    },
    {
      "acc": 0.74184036,
      "epoch": 1.0202942668696093,
      "grad_norm": 3.546875,
      "learning_rate": 5.245488929606974e-06,
      "loss": 1.06861649,
      "memory(GiB)": 112.26,
      "step": 40220,
      "train_speed(iter/s)": 1.128528
    },
    {
      "acc": 0.74601984,
      "epoch": 1.0204211060375443,
      "grad_norm": 2.828125,
      "learning_rate": 5.244441565201241e-06,
      "loss": 1.05917683,
      "memory(GiB)": 112.26,
      "step": 40225,
      "train_speed(iter/s)": 1.128544
    },
    {
      "acc": 0.73899741,
      "epoch": 1.0205479452054795,
      "grad_norm": 3.859375,
      "learning_rate": 5.243394190043877e-06,
      "loss": 1.0057806,
      "memory(GiB)": 112.26,
      "step": 40230,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.74381332,
      "epoch": 1.0206747843734145,
      "grad_norm": 3.875,
      "learning_rate": 5.242346804180949e-06,
      "loss": 1.04513006,
      "memory(GiB)": 112.26,
      "step": 40235,
      "train_speed(iter/s)": 1.128595
    },
    {
      "acc": 0.74001169,
      "epoch": 1.0208016235413495,
      "grad_norm": 3.484375,
      "learning_rate": 5.241299407658528e-06,
      "loss": 1.05955734,
      "memory(GiB)": 112.26,
      "step": 40240,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.74989214,
      "epoch": 1.0209284627092847,
      "grad_norm": 3.453125,
      "learning_rate": 5.240252000522681e-06,
      "loss": 1.02301741,
      "memory(GiB)": 112.26,
      "step": 40245,
      "train_speed(iter/s)": 1.128615
    },
    {
      "acc": 0.73355293,
      "epoch": 1.0210553018772197,
      "grad_norm": 4.09375,
      "learning_rate": 5.239204582819479e-06,
      "loss": 1.09217796,
      "memory(GiB)": 112.26,
      "step": 40250,
      "train_speed(iter/s)": 1.128643
    },
    {
      "acc": 0.73371968,
      "epoch": 1.0211821410451547,
      "grad_norm": 4.84375,
      "learning_rate": 5.238157154594989e-06,
      "loss": 1.05272818,
      "memory(GiB)": 112.26,
      "step": 40255,
      "train_speed(iter/s)": 1.128666
    },
    {
      "acc": 0.75760808,
      "epoch": 1.0213089802130897,
      "grad_norm": 4.125,
      "learning_rate": 5.237109715895287e-06,
      "loss": 0.97224503,
      "memory(GiB)": 112.26,
      "step": 40260,
      "train_speed(iter/s)": 1.128691
    },
    {
      "acc": 0.75073395,
      "epoch": 1.021435819381025,
      "grad_norm": 3.734375,
      "learning_rate": 5.2360622667664385e-06,
      "loss": 1.02321281,
      "memory(GiB)": 112.26,
      "step": 40265,
      "train_speed(iter/s)": 1.128718
    },
    {
      "acc": 0.75946693,
      "epoch": 1.02156265854896,
      "grad_norm": 4.5,
      "learning_rate": 5.235014807254521e-06,
      "loss": 1.01276894,
      "memory(GiB)": 112.26,
      "step": 40270,
      "train_speed(iter/s)": 1.128728
    },
    {
      "acc": 0.73956385,
      "epoch": 1.0216894977168949,
      "grad_norm": 4.375,
      "learning_rate": 5.233967337405599e-06,
      "loss": 1.04292469,
      "memory(GiB)": 112.26,
      "step": 40275,
      "train_speed(iter/s)": 1.128752
    },
    {
      "acc": 0.74882689,
      "epoch": 1.02181633688483,
      "grad_norm": 3.28125,
      "learning_rate": 5.232919857265752e-06,
      "loss": 1.04338694,
      "memory(GiB)": 112.26,
      "step": 40280,
      "train_speed(iter/s)": 1.128763
    },
    {
      "acc": 0.73512535,
      "epoch": 1.021943176052765,
      "grad_norm": 3.5,
      "learning_rate": 5.231872366881048e-06,
      "loss": 1.04080524,
      "memory(GiB)": 112.26,
      "step": 40285,
      "train_speed(iter/s)": 1.12879
    },
    {
      "acc": 0.74437695,
      "epoch": 1.0220700152207,
      "grad_norm": 3.21875,
      "learning_rate": 5.230824866297563e-06,
      "loss": 1.05204411,
      "memory(GiB)": 112.26,
      "step": 40290,
      "train_speed(iter/s)": 1.128793
    },
    {
      "acc": 0.7421669,
      "epoch": 1.0221968543886353,
      "grad_norm": 3.703125,
      "learning_rate": 5.229777355561368e-06,
      "loss": 1.04613676,
      "memory(GiB)": 112.26,
      "step": 40295,
      "train_speed(iter/s)": 1.128815
    },
    {
      "acc": 0.74936695,
      "epoch": 1.0223236935565703,
      "grad_norm": 4.875,
      "learning_rate": 5.2287298347185415e-06,
      "loss": 1.04517174,
      "memory(GiB)": 112.26,
      "step": 40300,
      "train_speed(iter/s)": 1.128837
    },
    {
      "acc": 0.72548828,
      "epoch": 1.0224505327245053,
      "grad_norm": 3.75,
      "learning_rate": 5.227682303815155e-06,
      "loss": 1.06569357,
      "memory(GiB)": 112.26,
      "step": 40305,
      "train_speed(iter/s)": 1.128826
    },
    {
      "acc": 0.73837461,
      "epoch": 1.0225773718924405,
      "grad_norm": 3.46875,
      "learning_rate": 5.226634762897284e-06,
      "loss": 1.08521805,
      "memory(GiB)": 112.26,
      "step": 40310,
      "train_speed(iter/s)": 1.128848
    },
    {
      "acc": 0.74457703,
      "epoch": 1.0227042110603755,
      "grad_norm": 3.734375,
      "learning_rate": 5.225587212011004e-06,
      "loss": 0.99604311,
      "memory(GiB)": 112.26,
      "step": 40315,
      "train_speed(iter/s)": 1.128866
    },
    {
      "acc": 0.73827515,
      "epoch": 1.0228310502283104,
      "grad_norm": 3.59375,
      "learning_rate": 5.224539651202391e-06,
      "loss": 1.02228203,
      "memory(GiB)": 112.26,
      "step": 40320,
      "train_speed(iter/s)": 1.128887
    },
    {
      "acc": 0.73979568,
      "epoch": 1.0229578893962457,
      "grad_norm": 3.59375,
      "learning_rate": 5.223492080517523e-06,
      "loss": 1.07337246,
      "memory(GiB)": 112.26,
      "step": 40325,
      "train_speed(iter/s)": 1.128891
    },
    {
      "acc": 0.73161364,
      "epoch": 1.0230847285641806,
      "grad_norm": 4.28125,
      "learning_rate": 5.2224445000024744e-06,
      "loss": 1.09396152,
      "memory(GiB)": 112.26,
      "step": 40330,
      "train_speed(iter/s)": 1.128911
    },
    {
      "acc": 0.73551178,
      "epoch": 1.0232115677321156,
      "grad_norm": 3.765625,
      "learning_rate": 5.221396909703322e-06,
      "loss": 1.04334755,
      "memory(GiB)": 112.26,
      "step": 40335,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.74861479,
      "epoch": 1.0233384069000508,
      "grad_norm": 3.5,
      "learning_rate": 5.220349309666148e-06,
      "loss": 0.98768101,
      "memory(GiB)": 112.26,
      "step": 40340,
      "train_speed(iter/s)": 1.128961
    },
    {
      "acc": 0.73770561,
      "epoch": 1.0234652460679858,
      "grad_norm": 4.53125,
      "learning_rate": 5.2193016999370265e-06,
      "loss": 1.05529137,
      "memory(GiB)": 112.26,
      "step": 40345,
      "train_speed(iter/s)": 1.128981
    },
    {
      "acc": 0.74425292,
      "epoch": 1.0235920852359208,
      "grad_norm": 3.390625,
      "learning_rate": 5.218254080562038e-06,
      "loss": 1.01598301,
      "memory(GiB)": 112.26,
      "step": 40350,
      "train_speed(iter/s)": 1.129013
    },
    {
      "acc": 0.75573454,
      "epoch": 1.0237189244038558,
      "grad_norm": 4.5625,
      "learning_rate": 5.2172064515872585e-06,
      "loss": 0.98988695,
      "memory(GiB)": 112.26,
      "step": 40355,
      "train_speed(iter/s)": 1.129035
    },
    {
      "acc": 0.73582735,
      "epoch": 1.023845763571791,
      "grad_norm": 4.4375,
      "learning_rate": 5.21615881305877e-06,
      "loss": 1.08231888,
      "memory(GiB)": 112.26,
      "step": 40360,
      "train_speed(iter/s)": 1.129063
    },
    {
      "acc": 0.73651218,
      "epoch": 1.023972602739726,
      "grad_norm": 3.625,
      "learning_rate": 5.215111165022653e-06,
      "loss": 1.03148279,
      "memory(GiB)": 112.26,
      "step": 40365,
      "train_speed(iter/s)": 1.129068
    },
    {
      "acc": 0.75451989,
      "epoch": 1.024099441907661,
      "grad_norm": 3.421875,
      "learning_rate": 5.2140635075249856e-06,
      "loss": 0.97574081,
      "memory(GiB)": 112.26,
      "step": 40370,
      "train_speed(iter/s)": 1.12908
    },
    {
      "acc": 0.74986787,
      "epoch": 1.0242262810755962,
      "grad_norm": 3.6875,
      "learning_rate": 5.213015840611851e-06,
      "loss": 1.02051945,
      "memory(GiB)": 112.26,
      "step": 40375,
      "train_speed(iter/s)": 1.129102
    },
    {
      "acc": 0.73285332,
      "epoch": 1.0243531202435312,
      "grad_norm": 4.3125,
      "learning_rate": 5.211968164329328e-06,
      "loss": 1.08746395,
      "memory(GiB)": 112.26,
      "step": 40380,
      "train_speed(iter/s)": 1.129116
    },
    {
      "acc": 0.74495873,
      "epoch": 1.0244799594114662,
      "grad_norm": 3.640625,
      "learning_rate": 5.210920478723497e-06,
      "loss": 1.06736469,
      "memory(GiB)": 112.26,
      "step": 40385,
      "train_speed(iter/s)": 1.129142
    },
    {
      "acc": 0.72503715,
      "epoch": 1.0246067985794014,
      "grad_norm": 3.875,
      "learning_rate": 5.209872783840443e-06,
      "loss": 1.12011089,
      "memory(GiB)": 112.26,
      "step": 40390,
      "train_speed(iter/s)": 1.129154
    },
    {
      "acc": 0.74139261,
      "epoch": 1.0247336377473364,
      "grad_norm": 3.34375,
      "learning_rate": 5.208825079726248e-06,
      "loss": 1.06195087,
      "memory(GiB)": 112.26,
      "step": 40395,
      "train_speed(iter/s)": 1.129169
    },
    {
      "acc": 0.7466464,
      "epoch": 1.0248604769152714,
      "grad_norm": 3.6875,
      "learning_rate": 5.207777366426992e-06,
      "loss": 1.06062145,
      "memory(GiB)": 112.26,
      "step": 40400,
      "train_speed(iter/s)": 1.129179
    },
    {
      "acc": 0.74319153,
      "epoch": 1.0249873160832066,
      "grad_norm": 3.6875,
      "learning_rate": 5.206729643988759e-06,
      "loss": 1.0366869,
      "memory(GiB)": 112.26,
      "step": 40405,
      "train_speed(iter/s)": 1.129213
    },
    {
      "acc": 0.74400802,
      "epoch": 1.0251141552511416,
      "grad_norm": 4.0,
      "learning_rate": 5.205681912457635e-06,
      "loss": 1.04114714,
      "memory(GiB)": 112.26,
      "step": 40410,
      "train_speed(iter/s)": 1.129211
    },
    {
      "acc": 0.72737145,
      "epoch": 1.0252409944190766,
      "grad_norm": 4.75,
      "learning_rate": 5.204634171879701e-06,
      "loss": 1.14325705,
      "memory(GiB)": 112.26,
      "step": 40415,
      "train_speed(iter/s)": 1.129219
    },
    {
      "acc": 0.74778142,
      "epoch": 1.0253678335870116,
      "grad_norm": 3.0625,
      "learning_rate": 5.2035864223010445e-06,
      "loss": 0.97707729,
      "memory(GiB)": 112.26,
      "step": 40420,
      "train_speed(iter/s)": 1.12924
    },
    {
      "acc": 0.73240452,
      "epoch": 1.0254946727549468,
      "grad_norm": 4.53125,
      "learning_rate": 5.202538663767746e-06,
      "loss": 1.09421053,
      "memory(GiB)": 112.26,
      "step": 40425,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.73844147,
      "epoch": 1.0256215119228818,
      "grad_norm": 4.09375,
      "learning_rate": 5.201490896325895e-06,
      "loss": 1.09856415,
      "memory(GiB)": 112.26,
      "step": 40430,
      "train_speed(iter/s)": 1.129287
    },
    {
      "acc": 0.73959503,
      "epoch": 1.0257483510908167,
      "grad_norm": 3.6875,
      "learning_rate": 5.200443120021572e-06,
      "loss": 1.0558815,
      "memory(GiB)": 112.26,
      "step": 40435,
      "train_speed(iter/s)": 1.12931
    },
    {
      "acc": 0.75188389,
      "epoch": 1.025875190258752,
      "grad_norm": 3.640625,
      "learning_rate": 5.199395334900868e-06,
      "loss": 1.00030289,
      "memory(GiB)": 112.26,
      "step": 40440,
      "train_speed(iter/s)": 1.129331
    },
    {
      "acc": 0.73704834,
      "epoch": 1.026002029426687,
      "grad_norm": 4.3125,
      "learning_rate": 5.198347541009866e-06,
      "loss": 1.07275085,
      "memory(GiB)": 112.26,
      "step": 40445,
      "train_speed(iter/s)": 1.129352
    },
    {
      "acc": 0.73681865,
      "epoch": 1.026128868594622,
      "grad_norm": 3.953125,
      "learning_rate": 5.197299738394654e-06,
      "loss": 1.09950647,
      "memory(GiB)": 112.26,
      "step": 40450,
      "train_speed(iter/s)": 1.129364
    },
    {
      "acc": 0.74036474,
      "epoch": 1.0262557077625571,
      "grad_norm": 3.46875,
      "learning_rate": 5.196251927101318e-06,
      "loss": 1.0498621,
      "memory(GiB)": 112.26,
      "step": 40455,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.75183516,
      "epoch": 1.0263825469304921,
      "grad_norm": 3.828125,
      "learning_rate": 5.195204107175946e-06,
      "loss": 0.97395153,
      "memory(GiB)": 112.26,
      "step": 40460,
      "train_speed(iter/s)": 1.129407
    },
    {
      "acc": 0.73699226,
      "epoch": 1.0265093860984271,
      "grad_norm": 4.53125,
      "learning_rate": 5.194156278664627e-06,
      "loss": 1.10265656,
      "memory(GiB)": 112.26,
      "step": 40465,
      "train_speed(iter/s)": 1.129425
    },
    {
      "acc": 0.74800358,
      "epoch": 1.0266362252663623,
      "grad_norm": 3.1875,
      "learning_rate": 5.1931084416134466e-06,
      "loss": 1.05063515,
      "memory(GiB)": 112.26,
      "step": 40470,
      "train_speed(iter/s)": 1.129443
    },
    {
      "acc": 0.73655815,
      "epoch": 1.0267630644342973,
      "grad_norm": 3.0,
      "learning_rate": 5.192060596068496e-06,
      "loss": 1.07832737,
      "memory(GiB)": 112.26,
      "step": 40475,
      "train_speed(iter/s)": 1.129464
    },
    {
      "acc": 0.74692912,
      "epoch": 1.0268899036022323,
      "grad_norm": 3.453125,
      "learning_rate": 5.191012742075863e-06,
      "loss": 1.02158947,
      "memory(GiB)": 112.26,
      "step": 40480,
      "train_speed(iter/s)": 1.129472
    },
    {
      "acc": 0.74727039,
      "epoch": 1.0270167427701675,
      "grad_norm": 5.125,
      "learning_rate": 5.189964879681635e-06,
      "loss": 1.08436375,
      "memory(GiB)": 112.26,
      "step": 40485,
      "train_speed(iter/s)": 1.129469
    },
    {
      "acc": 0.74197454,
      "epoch": 1.0271435819381025,
      "grad_norm": 3.859375,
      "learning_rate": 5.188917008931905e-06,
      "loss": 1.06032124,
      "memory(GiB)": 112.26,
      "step": 40490,
      "train_speed(iter/s)": 1.129493
    },
    {
      "acc": 0.74342718,
      "epoch": 1.0272704211060375,
      "grad_norm": 4.53125,
      "learning_rate": 5.18786912987276e-06,
      "loss": 1.06130848,
      "memory(GiB)": 112.26,
      "step": 40495,
      "train_speed(iter/s)": 1.129523
    },
    {
      "acc": 0.74678545,
      "epoch": 1.0273972602739727,
      "grad_norm": 3.4375,
      "learning_rate": 5.186821242550294e-06,
      "loss": 1.02443237,
      "memory(GiB)": 112.26,
      "step": 40500,
      "train_speed(iter/s)": 1.129541
    },
    {
      "acc": 0.73003464,
      "epoch": 1.0275240994419077,
      "grad_norm": 3.953125,
      "learning_rate": 5.185773347010594e-06,
      "loss": 1.07572603,
      "memory(GiB)": 112.26,
      "step": 40505,
      "train_speed(iter/s)": 1.129565
    },
    {
      "acc": 0.74851947,
      "epoch": 1.0276509386098427,
      "grad_norm": 3.625,
      "learning_rate": 5.184725443299753e-06,
      "loss": 1.03460732,
      "memory(GiB)": 112.26,
      "step": 40510,
      "train_speed(iter/s)": 1.129594
    },
    {
      "acc": 0.7526453,
      "epoch": 1.0277777777777777,
      "grad_norm": 3.8125,
      "learning_rate": 5.183677531463863e-06,
      "loss": 1.02395802,
      "memory(GiB)": 112.26,
      "step": 40515,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.73455853,
      "epoch": 1.027904616945713,
      "grad_norm": 3.984375,
      "learning_rate": 5.182629611549015e-06,
      "loss": 1.11744251,
      "memory(GiB)": 112.26,
      "step": 40520,
      "train_speed(iter/s)": 1.129617
    },
    {
      "acc": 0.74239244,
      "epoch": 1.0280314561136479,
      "grad_norm": 3.734375,
      "learning_rate": 5.181581683601301e-06,
      "loss": 1.01308889,
      "memory(GiB)": 112.26,
      "step": 40525,
      "train_speed(iter/s)": 1.129646
    },
    {
      "acc": 0.74127464,
      "epoch": 1.0281582952815829,
      "grad_norm": 4.40625,
      "learning_rate": 5.1805337476668135e-06,
      "loss": 1.16060925,
      "memory(GiB)": 112.26,
      "step": 40530,
      "train_speed(iter/s)": 1.129662
    },
    {
      "acc": 0.7444294,
      "epoch": 1.028285134449518,
      "grad_norm": 2.875,
      "learning_rate": 5.179485803791646e-06,
      "loss": 1.08621521,
      "memory(GiB)": 112.26,
      "step": 40535,
      "train_speed(iter/s)": 1.129665
    },
    {
      "acc": 0.7463995,
      "epoch": 1.028411973617453,
      "grad_norm": 3.84375,
      "learning_rate": 5.178437852021892e-06,
      "loss": 1.09748907,
      "memory(GiB)": 112.26,
      "step": 40540,
      "train_speed(iter/s)": 1.129684
    },
    {
      "acc": 0.74865232,
      "epoch": 1.028538812785388,
      "grad_norm": 4.03125,
      "learning_rate": 5.177389892403645e-06,
      "loss": 1.02291222,
      "memory(GiB)": 112.26,
      "step": 40545,
      "train_speed(iter/s)": 1.12971
    },
    {
      "acc": 0.74004583,
      "epoch": 1.0286656519533233,
      "grad_norm": 3.78125,
      "learning_rate": 5.176341924982997e-06,
      "loss": 1.03783617,
      "memory(GiB)": 112.26,
      "step": 40550,
      "train_speed(iter/s)": 1.129728
    },
    {
      "acc": 0.74764504,
      "epoch": 1.0287924911212583,
      "grad_norm": 4.5625,
      "learning_rate": 5.1752939498060435e-06,
      "loss": 1.02049599,
      "memory(GiB)": 112.26,
      "step": 40555,
      "train_speed(iter/s)": 1.129755
    },
    {
      "acc": 0.72970505,
      "epoch": 1.0289193302891932,
      "grad_norm": 3.59375,
      "learning_rate": 5.174245966918883e-06,
      "loss": 1.14193869,
      "memory(GiB)": 112.26,
      "step": 40560,
      "train_speed(iter/s)": 1.129777
    },
    {
      "acc": 0.72965279,
      "epoch": 1.0290461694571285,
      "grad_norm": 3.5,
      "learning_rate": 5.173197976367603e-06,
      "loss": 1.05581131,
      "memory(GiB)": 112.26,
      "step": 40565,
      "train_speed(iter/s)": 1.129799
    },
    {
      "acc": 0.74271154,
      "epoch": 1.0291730086250634,
      "grad_norm": 3.453125,
      "learning_rate": 5.1721499781983055e-06,
      "loss": 1.0155508,
      "memory(GiB)": 112.26,
      "step": 40570,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.72732859,
      "epoch": 1.0292998477929984,
      "grad_norm": 3.171875,
      "learning_rate": 5.171101972457081e-06,
      "loss": 1.05024443,
      "memory(GiB)": 112.26,
      "step": 40575,
      "train_speed(iter/s)": 1.129849
    },
    {
      "acc": 0.73936234,
      "epoch": 1.0294266869609334,
      "grad_norm": 3.5625,
      "learning_rate": 5.170053959190029e-06,
      "loss": 1.04460316,
      "memory(GiB)": 112.26,
      "step": 40580,
      "train_speed(iter/s)": 1.129854
    },
    {
      "acc": 0.74078493,
      "epoch": 1.0295535261288686,
      "grad_norm": 4.15625,
      "learning_rate": 5.169005938443245e-06,
      "loss": 1.06366014,
      "memory(GiB)": 112.26,
      "step": 40585,
      "train_speed(iter/s)": 1.129879
    },
    {
      "acc": 0.73823676,
      "epoch": 1.0296803652968036,
      "grad_norm": 3.453125,
      "learning_rate": 5.1679579102628245e-06,
      "loss": 1.06346369,
      "memory(GiB)": 112.26,
      "step": 40590,
      "train_speed(iter/s)": 1.129905
    },
    {
      "acc": 0.73028545,
      "epoch": 1.0298072044647386,
      "grad_norm": 3.5,
      "learning_rate": 5.166909874694866e-06,
      "loss": 1.05419178,
      "memory(GiB)": 112.26,
      "step": 40595,
      "train_speed(iter/s)": 1.129928
    },
    {
      "acc": 0.73294373,
      "epoch": 1.0299340436326738,
      "grad_norm": 4.65625,
      "learning_rate": 5.165861831785465e-06,
      "loss": 1.13161497,
      "memory(GiB)": 112.26,
      "step": 40600,
      "train_speed(iter/s)": 1.129948
    },
    {
      "acc": 0.73449206,
      "epoch": 1.0300608828006088,
      "grad_norm": 3.640625,
      "learning_rate": 5.164813781580721e-06,
      "loss": 1.05025225,
      "memory(GiB)": 112.26,
      "step": 40605,
      "train_speed(iter/s)": 1.129951
    },
    {
      "acc": 0.73491144,
      "epoch": 1.0301877219685438,
      "grad_norm": 3.328125,
      "learning_rate": 5.16376572412673e-06,
      "loss": 1.04090958,
      "memory(GiB)": 112.26,
      "step": 40610,
      "train_speed(iter/s)": 1.129973
    },
    {
      "acc": 0.74838872,
      "epoch": 1.030314561136479,
      "grad_norm": 3.578125,
      "learning_rate": 5.162717659469593e-06,
      "loss": 1.07194557,
      "memory(GiB)": 112.26,
      "step": 40615,
      "train_speed(iter/s)": 1.129979
    },
    {
      "acc": 0.74984322,
      "epoch": 1.030441400304414,
      "grad_norm": 3.328125,
      "learning_rate": 5.161669587655406e-06,
      "loss": 0.98576231,
      "memory(GiB)": 112.26,
      "step": 40620,
      "train_speed(iter/s)": 1.129987
    },
    {
      "acc": 0.74236164,
      "epoch": 1.030568239472349,
      "grad_norm": 4.46875,
      "learning_rate": 5.160621508730267e-06,
      "loss": 1.01805458,
      "memory(GiB)": 112.26,
      "step": 40625,
      "train_speed(iter/s)": 1.130006
    },
    {
      "acc": 0.73664775,
      "epoch": 1.0306950786402842,
      "grad_norm": 3.671875,
      "learning_rate": 5.15957342274028e-06,
      "loss": 1.08305073,
      "memory(GiB)": 112.26,
      "step": 40630,
      "train_speed(iter/s)": 1.130027
    },
    {
      "acc": 0.73482695,
      "epoch": 1.0308219178082192,
      "grad_norm": 5.34375,
      "learning_rate": 5.158525329731539e-06,
      "loss": 1.06442175,
      "memory(GiB)": 112.26,
      "step": 40635,
      "train_speed(iter/s)": 1.129892
    },
    {
      "acc": 0.73683238,
      "epoch": 1.0309487569761542,
      "grad_norm": 4.28125,
      "learning_rate": 5.157477229750149e-06,
      "loss": 1.12469444,
      "memory(GiB)": 112.26,
      "step": 40640,
      "train_speed(iter/s)": 1.129907
    },
    {
      "acc": 0.74416904,
      "epoch": 1.0310755961440894,
      "grad_norm": 3.375,
      "learning_rate": 5.156429122842204e-06,
      "loss": 1.06665049,
      "memory(GiB)": 112.26,
      "step": 40645,
      "train_speed(iter/s)": 1.129927
    },
    {
      "acc": 0.74276485,
      "epoch": 1.0312024353120244,
      "grad_norm": 4.1875,
      "learning_rate": 5.15538100905381e-06,
      "loss": 1.03545818,
      "memory(GiB)": 112.26,
      "step": 40650,
      "train_speed(iter/s)": 1.129924
    },
    {
      "acc": 0.74440684,
      "epoch": 1.0313292744799594,
      "grad_norm": 3.0625,
      "learning_rate": 5.154332888431064e-06,
      "loss": 1.04899492,
      "memory(GiB)": 112.26,
      "step": 40655,
      "train_speed(iter/s)": 1.129941
    },
    {
      "acc": 0.73447723,
      "epoch": 1.0314561136478946,
      "grad_norm": 4.1875,
      "learning_rate": 5.15328476102007e-06,
      "loss": 1.06328163,
      "memory(GiB)": 112.26,
      "step": 40660,
      "train_speed(iter/s)": 1.129964
    },
    {
      "acc": 0.73506351,
      "epoch": 1.0315829528158296,
      "grad_norm": 3.515625,
      "learning_rate": 5.1522366268669264e-06,
      "loss": 1.05797138,
      "memory(GiB)": 112.26,
      "step": 40665,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.73777471,
      "epoch": 1.0317097919837646,
      "grad_norm": 4.09375,
      "learning_rate": 5.1511884860177376e-06,
      "loss": 1.05776043,
      "memory(GiB)": 112.26,
      "step": 40670,
      "train_speed(iter/s)": 1.130004
    },
    {
      "acc": 0.74458055,
      "epoch": 1.0318366311516995,
      "grad_norm": 3.703125,
      "learning_rate": 5.150140338518603e-06,
      "loss": 1.06516895,
      "memory(GiB)": 112.26,
      "step": 40675,
      "train_speed(iter/s)": 1.13002
    },
    {
      "acc": 0.75293875,
      "epoch": 1.0319634703196348,
      "grad_norm": 3.40625,
      "learning_rate": 5.149092184415627e-06,
      "loss": 0.998592,
      "memory(GiB)": 112.26,
      "step": 40680,
      "train_speed(iter/s)": 1.130037
    },
    {
      "acc": 0.75799384,
      "epoch": 1.0320903094875697,
      "grad_norm": 3.34375,
      "learning_rate": 5.148044023754911e-06,
      "loss": 1.03464937,
      "memory(GiB)": 112.26,
      "step": 40685,
      "train_speed(iter/s)": 1.13006
    },
    {
      "acc": 0.7235713,
      "epoch": 1.0322171486555047,
      "grad_norm": 3.28125,
      "learning_rate": 5.146995856582557e-06,
      "loss": 1.09089851,
      "memory(GiB)": 112.26,
      "step": 40690,
      "train_speed(iter/s)": 1.130067
    },
    {
      "acc": 0.73849287,
      "epoch": 1.03234398782344,
      "grad_norm": 3.5625,
      "learning_rate": 5.14594768294467e-06,
      "loss": 1.09024696,
      "memory(GiB)": 112.26,
      "step": 40695,
      "train_speed(iter/s)": 1.130095
    },
    {
      "acc": 0.73699317,
      "epoch": 1.032470826991375,
      "grad_norm": 3.921875,
      "learning_rate": 5.1448995028873515e-06,
      "loss": 1.0904213,
      "memory(GiB)": 112.26,
      "step": 40700,
      "train_speed(iter/s)": 1.130108
    },
    {
      "acc": 0.74123778,
      "epoch": 1.03259766615931,
      "grad_norm": 3.578125,
      "learning_rate": 5.143851316456706e-06,
      "loss": 1.0213707,
      "memory(GiB)": 112.26,
      "step": 40705,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.73305826,
      "epoch": 1.0327245053272451,
      "grad_norm": 4.53125,
      "learning_rate": 5.142803123698838e-06,
      "loss": 1.08198538,
      "memory(GiB)": 112.26,
      "step": 40710,
      "train_speed(iter/s)": 1.130119
    },
    {
      "acc": 0.7515563,
      "epoch": 1.0328513444951801,
      "grad_norm": 3.546875,
      "learning_rate": 5.14175492465985e-06,
      "loss": 0.9821291,
      "memory(GiB)": 112.26,
      "step": 40715,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.74127584,
      "epoch": 1.0329781836631151,
      "grad_norm": 3.8125,
      "learning_rate": 5.14070671938585e-06,
      "loss": 1.08253889,
      "memory(GiB)": 112.26,
      "step": 40720,
      "train_speed(iter/s)": 1.130149
    },
    {
      "acc": 0.74334211,
      "epoch": 1.0331050228310503,
      "grad_norm": 3.453125,
      "learning_rate": 5.139658507922937e-06,
      "loss": 1.04953403,
      "memory(GiB)": 112.26,
      "step": 40725,
      "train_speed(iter/s)": 1.130169
    },
    {
      "acc": 0.73177361,
      "epoch": 1.0332318619989853,
      "grad_norm": 4.6875,
      "learning_rate": 5.138610290317221e-06,
      "loss": 1.08859301,
      "memory(GiB)": 112.26,
      "step": 40730,
      "train_speed(iter/s)": 1.130189
    },
    {
      "acc": 0.73893929,
      "epoch": 1.0333587011669203,
      "grad_norm": 3.609375,
      "learning_rate": 5.137562066614805e-06,
      "loss": 1.06656666,
      "memory(GiB)": 112.26,
      "step": 40735,
      "train_speed(iter/s)": 1.130211
    },
    {
      "acc": 0.75326142,
      "epoch": 1.0334855403348553,
      "grad_norm": 4.4375,
      "learning_rate": 5.136513836861795e-06,
      "loss": 1.01114883,
      "memory(GiB)": 112.26,
      "step": 40740,
      "train_speed(iter/s)": 1.130229
    },
    {
      "acc": 0.74345989,
      "epoch": 1.0336123795027905,
      "grad_norm": 3.296875,
      "learning_rate": 5.135465601104298e-06,
      "loss": 1.11296234,
      "memory(GiB)": 112.26,
      "step": 40745,
      "train_speed(iter/s)": 1.130253
    },
    {
      "acc": 0.76300755,
      "epoch": 1.0337392186707255,
      "grad_norm": 3.328125,
      "learning_rate": 5.134417359388418e-06,
      "loss": 1.01148157,
      "memory(GiB)": 112.26,
      "step": 40750,
      "train_speed(iter/s)": 1.130281
    },
    {
      "acc": 0.7302228,
      "epoch": 1.0338660578386605,
      "grad_norm": 3.890625,
      "learning_rate": 5.133369111760264e-06,
      "loss": 1.08085327,
      "memory(GiB)": 112.26,
      "step": 40755,
      "train_speed(iter/s)": 1.130287
    },
    {
      "acc": 0.7456192,
      "epoch": 1.0339928970065957,
      "grad_norm": 4.875,
      "learning_rate": 5.132320858265939e-06,
      "loss": 1.03143749,
      "memory(GiB)": 112.26,
      "step": 40760,
      "train_speed(iter/s)": 1.130309
    },
    {
      "acc": 0.74405165,
      "epoch": 1.0341197361745307,
      "grad_norm": 4.59375,
      "learning_rate": 5.131272598951554e-06,
      "loss": 1.06071529,
      "memory(GiB)": 112.26,
      "step": 40765,
      "train_speed(iter/s)": 1.130324
    },
    {
      "acc": 0.74934244,
      "epoch": 1.0342465753424657,
      "grad_norm": 2.84375,
      "learning_rate": 5.130224333863212e-06,
      "loss": 0.97597456,
      "memory(GiB)": 112.26,
      "step": 40770,
      "train_speed(iter/s)": 1.130333
    },
    {
      "acc": 0.74112482,
      "epoch": 1.0343734145104009,
      "grad_norm": 3.90625,
      "learning_rate": 5.129176063047022e-06,
      "loss": 1.05633316,
      "memory(GiB)": 112.26,
      "step": 40775,
      "train_speed(iter/s)": 1.130362
    },
    {
      "acc": 0.73096519,
      "epoch": 1.0345002536783359,
      "grad_norm": 3.90625,
      "learning_rate": 5.128127786549094e-06,
      "loss": 1.09815254,
      "memory(GiB)": 112.26,
      "step": 40780,
      "train_speed(iter/s)": 1.130383
    },
    {
      "acc": 0.7364212,
      "epoch": 1.0346270928462709,
      "grad_norm": 3.59375,
      "learning_rate": 5.127079504415532e-06,
      "loss": 1.07315769,
      "memory(GiB)": 112.26,
      "step": 40785,
      "train_speed(iter/s)": 1.130406
    },
    {
      "acc": 0.76076584,
      "epoch": 1.034753932014206,
      "grad_norm": 4.0,
      "learning_rate": 5.126031216692449e-06,
      "loss": 0.99611034,
      "memory(GiB)": 112.26,
      "step": 40790,
      "train_speed(iter/s)": 1.130421
    },
    {
      "acc": 0.73973284,
      "epoch": 1.034880771182141,
      "grad_norm": 3.046875,
      "learning_rate": 5.124982923425947e-06,
      "loss": 1.05316868,
      "memory(GiB)": 112.26,
      "step": 40795,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.73949094,
      "epoch": 1.035007610350076,
      "grad_norm": 3.203125,
      "learning_rate": 5.123934624662139e-06,
      "loss": 1.05818939,
      "memory(GiB)": 112.26,
      "step": 40800,
      "train_speed(iter/s)": 1.130453
    },
    {
      "acc": 0.72954025,
      "epoch": 1.0351344495180113,
      "grad_norm": 4.3125,
      "learning_rate": 5.1228863204471335e-06,
      "loss": 1.09265823,
      "memory(GiB)": 112.26,
      "step": 40805,
      "train_speed(iter/s)": 1.130473
    },
    {
      "acc": 0.73815937,
      "epoch": 1.0352612886859462,
      "grad_norm": 2.828125,
      "learning_rate": 5.121838010827039e-06,
      "loss": 1.03964806,
      "memory(GiB)": 112.26,
      "step": 40810,
      "train_speed(iter/s)": 1.130494
    },
    {
      "acc": 0.73846598,
      "epoch": 1.0353881278538812,
      "grad_norm": 3.640625,
      "learning_rate": 5.120789695847965e-06,
      "loss": 1.06339474,
      "memory(GiB)": 112.26,
      "step": 40815,
      "train_speed(iter/s)": 1.130521
    },
    {
      "acc": 0.73848948,
      "epoch": 1.0355149670218164,
      "grad_norm": 3.8125,
      "learning_rate": 5.119741375556021e-06,
      "loss": 1.06540823,
      "memory(GiB)": 112.26,
      "step": 40820,
      "train_speed(iter/s)": 1.130541
    },
    {
      "acc": 0.7655127,
      "epoch": 1.0356418061897514,
      "grad_norm": 3.8125,
      "learning_rate": 5.118693049997316e-06,
      "loss": 0.9893671,
      "memory(GiB)": 112.26,
      "step": 40825,
      "train_speed(iter/s)": 1.130559
    },
    {
      "acc": 0.73072739,
      "epoch": 1.0357686453576864,
      "grad_norm": 3.953125,
      "learning_rate": 5.117644719217961e-06,
      "loss": 1.08388004,
      "memory(GiB)": 112.26,
      "step": 40830,
      "train_speed(iter/s)": 1.130586
    },
    {
      "acc": 0.73640189,
      "epoch": 1.0358954845256214,
      "grad_norm": 3.984375,
      "learning_rate": 5.116596383264066e-06,
      "loss": 1.06662359,
      "memory(GiB)": 112.26,
      "step": 40835,
      "train_speed(iter/s)": 1.130607
    },
    {
      "acc": 0.7279026,
      "epoch": 1.0360223236935566,
      "grad_norm": 5.46875,
      "learning_rate": 5.115548042181742e-06,
      "loss": 1.13203049,
      "memory(GiB)": 112.26,
      "step": 40840,
      "train_speed(iter/s)": 1.13061
    },
    {
      "acc": 0.7527328,
      "epoch": 1.0361491628614916,
      "grad_norm": 3.0625,
      "learning_rate": 5.114499696017098e-06,
      "loss": 0.96734657,
      "memory(GiB)": 112.26,
      "step": 40845,
      "train_speed(iter/s)": 1.130618
    },
    {
      "acc": 0.73235316,
      "epoch": 1.0362760020294266,
      "grad_norm": 3.421875,
      "learning_rate": 5.1134513448162475e-06,
      "loss": 1.1190155,
      "memory(GiB)": 112.26,
      "step": 40850,
      "train_speed(iter/s)": 1.130635
    },
    {
      "acc": 0.72460423,
      "epoch": 1.0364028411973618,
      "grad_norm": 3.390625,
      "learning_rate": 5.112402988625299e-06,
      "loss": 1.08237123,
      "memory(GiB)": 112.26,
      "step": 40855,
      "train_speed(iter/s)": 1.130659
    },
    {
      "acc": 0.74866161,
      "epoch": 1.0365296803652968,
      "grad_norm": 4.0625,
      "learning_rate": 5.111354627490367e-06,
      "loss": 1.02216558,
      "memory(GiB)": 112.26,
      "step": 40860,
      "train_speed(iter/s)": 1.130678
    },
    {
      "acc": 0.73118925,
      "epoch": 1.0366565195332318,
      "grad_norm": 3.546875,
      "learning_rate": 5.110306261457559e-06,
      "loss": 1.08701887,
      "memory(GiB)": 112.26,
      "step": 40865,
      "train_speed(iter/s)": 1.130703
    },
    {
      "acc": 0.73337612,
      "epoch": 1.036783358701167,
      "grad_norm": 3.140625,
      "learning_rate": 5.109257890572991e-06,
      "loss": 1.12302523,
      "memory(GiB)": 112.26,
      "step": 40870,
      "train_speed(iter/s)": 1.130723
    },
    {
      "acc": 0.74450517,
      "epoch": 1.036910197869102,
      "grad_norm": 4.3125,
      "learning_rate": 5.108209514882772e-06,
      "loss": 1.03976994,
      "memory(GiB)": 112.26,
      "step": 40875,
      "train_speed(iter/s)": 1.13073
    },
    {
      "acc": 0.73241239,
      "epoch": 1.037037037037037,
      "grad_norm": 4.21875,
      "learning_rate": 5.107161134433017e-06,
      "loss": 1.08386889,
      "memory(GiB)": 112.26,
      "step": 40880,
      "train_speed(iter/s)": 1.130585
    },
    {
      "acc": 0.74284234,
      "epoch": 1.0371638762049722,
      "grad_norm": 4.125,
      "learning_rate": 5.106112749269835e-06,
      "loss": 1.01549072,
      "memory(GiB)": 112.26,
      "step": 40885,
      "train_speed(iter/s)": 1.130578
    },
    {
      "acc": 0.73553648,
      "epoch": 1.0372907153729072,
      "grad_norm": 6.71875,
      "learning_rate": 5.105064359439341e-06,
      "loss": 1.10676365,
      "memory(GiB)": 112.26,
      "step": 40890,
      "train_speed(iter/s)": 1.130608
    },
    {
      "acc": 0.74962916,
      "epoch": 1.0374175545408422,
      "grad_norm": 3.734375,
      "learning_rate": 5.1040159649876485e-06,
      "loss": 0.98978539,
      "memory(GiB)": 112.26,
      "step": 40895,
      "train_speed(iter/s)": 1.130615
    },
    {
      "acc": 0.73280754,
      "epoch": 1.0375443937087772,
      "grad_norm": 4.40625,
      "learning_rate": 5.102967565960868e-06,
      "loss": 1.09350948,
      "memory(GiB)": 112.26,
      "step": 40900,
      "train_speed(iter/s)": 1.130623
    },
    {
      "acc": 0.74001846,
      "epoch": 1.0376712328767124,
      "grad_norm": 3.65625,
      "learning_rate": 5.101919162405116e-06,
      "loss": 1.07815609,
      "memory(GiB)": 112.26,
      "step": 40905,
      "train_speed(iter/s)": 1.130626
    },
    {
      "acc": 0.74566517,
      "epoch": 1.0377980720446474,
      "grad_norm": 3.875,
      "learning_rate": 5.100870754366503e-06,
      "loss": 1.04341516,
      "memory(GiB)": 112.26,
      "step": 40910,
      "train_speed(iter/s)": 1.130637
    },
    {
      "acc": 0.75510364,
      "epoch": 1.0379249112125823,
      "grad_norm": 3.703125,
      "learning_rate": 5.099822341891144e-06,
      "loss": 0.95658464,
      "memory(GiB)": 112.26,
      "step": 40915,
      "train_speed(iter/s)": 1.130665
    },
    {
      "acc": 0.73353739,
      "epoch": 1.0380517503805176,
      "grad_norm": 3.84375,
      "learning_rate": 5.098773925025152e-06,
      "loss": 1.08169193,
      "memory(GiB)": 112.26,
      "step": 40920,
      "train_speed(iter/s)": 1.130692
    },
    {
      "acc": 0.72415285,
      "epoch": 1.0381785895484525,
      "grad_norm": 3.90625,
      "learning_rate": 5.097725503814643e-06,
      "loss": 1.11282301,
      "memory(GiB)": 112.26,
      "step": 40925,
      "train_speed(iter/s)": 1.130715
    },
    {
      "acc": 0.74397593,
      "epoch": 1.0383054287163875,
      "grad_norm": 3.28125,
      "learning_rate": 5.09667707830573e-06,
      "loss": 1.00311146,
      "memory(GiB)": 112.26,
      "step": 40930,
      "train_speed(iter/s)": 1.130739
    },
    {
      "acc": 0.7550251,
      "epoch": 1.0384322678843227,
      "grad_norm": 3.890625,
      "learning_rate": 5.095628648544526e-06,
      "loss": 0.96750183,
      "memory(GiB)": 112.26,
      "step": 40935,
      "train_speed(iter/s)": 1.130751
    },
    {
      "acc": 0.74839306,
      "epoch": 1.0385591070522577,
      "grad_norm": 3.578125,
      "learning_rate": 5.0945802145771495e-06,
      "loss": 1.00421124,
      "memory(GiB)": 112.26,
      "step": 40940,
      "train_speed(iter/s)": 1.130777
    },
    {
      "acc": 0.74492607,
      "epoch": 1.0386859462201927,
      "grad_norm": 3.421875,
      "learning_rate": 5.093531776449711e-06,
      "loss": 1.00513296,
      "memory(GiB)": 112.26,
      "step": 40945,
      "train_speed(iter/s)": 1.130784
    },
    {
      "acc": 0.74783678,
      "epoch": 1.038812785388128,
      "grad_norm": 3.828125,
      "learning_rate": 5.092483334208327e-06,
      "loss": 1.05623569,
      "memory(GiB)": 112.26,
      "step": 40950,
      "train_speed(iter/s)": 1.130807
    },
    {
      "acc": 0.73827305,
      "epoch": 1.038939624556063,
      "grad_norm": 4.21875,
      "learning_rate": 5.091434887899114e-06,
      "loss": 1.0922822,
      "memory(GiB)": 112.26,
      "step": 40955,
      "train_speed(iter/s)": 1.130824
    },
    {
      "acc": 0.74111753,
      "epoch": 1.039066463723998,
      "grad_norm": 4.09375,
      "learning_rate": 5.0903864375681866e-06,
      "loss": 1.04774456,
      "memory(GiB)": 112.26,
      "step": 40960,
      "train_speed(iter/s)": 1.130837
    },
    {
      "acc": 0.74544106,
      "epoch": 1.0391933028919331,
      "grad_norm": 3.453125,
      "learning_rate": 5.0893379832616594e-06,
      "loss": 1.03494482,
      "memory(GiB)": 112.26,
      "step": 40965,
      "train_speed(iter/s)": 1.130842
    },
    {
      "acc": 0.74549432,
      "epoch": 1.0393201420598681,
      "grad_norm": 3.8125,
      "learning_rate": 5.08828952502565e-06,
      "loss": 1.05189362,
      "memory(GiB)": 112.26,
      "step": 40970,
      "train_speed(iter/s)": 1.130861
    },
    {
      "acc": 0.74974875,
      "epoch": 1.039446981227803,
      "grad_norm": 3.328125,
      "learning_rate": 5.087241062906272e-06,
      "loss": 1.04041853,
      "memory(GiB)": 112.26,
      "step": 40975,
      "train_speed(iter/s)": 1.130889
    },
    {
      "acc": 0.73279066,
      "epoch": 1.0395738203957383,
      "grad_norm": 3.265625,
      "learning_rate": 5.086192596949643e-06,
      "loss": 1.0586297,
      "memory(GiB)": 112.26,
      "step": 40980,
      "train_speed(iter/s)": 1.130904
    },
    {
      "acc": 0.74470072,
      "epoch": 1.0397006595636733,
      "grad_norm": 3.6875,
      "learning_rate": 5.085144127201879e-06,
      "loss": 1.02942677,
      "memory(GiB)": 112.26,
      "step": 40985,
      "train_speed(iter/s)": 1.130931
    },
    {
      "acc": 0.74241934,
      "epoch": 1.0398274987316083,
      "grad_norm": 4.0,
      "learning_rate": 5.084095653709096e-06,
      "loss": 0.98222551,
      "memory(GiB)": 112.26,
      "step": 40990,
      "train_speed(iter/s)": 1.130949
    },
    {
      "acc": 0.753055,
      "epoch": 1.0399543378995433,
      "grad_norm": 3.515625,
      "learning_rate": 5.0830471765174096e-06,
      "loss": 1.06221676,
      "memory(GiB)": 112.26,
      "step": 40995,
      "train_speed(iter/s)": 1.130956
    },
    {
      "acc": 0.72891793,
      "epoch": 1.0400811770674785,
      "grad_norm": 3.8125,
      "learning_rate": 5.0819986956729395e-06,
      "loss": 1.08443089,
      "memory(GiB)": 112.26,
      "step": 41000,
      "train_speed(iter/s)": 1.130978
    },
    {
      "epoch": 1.0400811770674785,
      "eval_acc": 0.7254144765556314,
      "eval_loss": 1.0456072092056274,
      "eval_runtime": 70.9686,
      "eval_samples_per_second": 89.758,
      "eval_steps_per_second": 22.447,
      "step": 41000
    },
    {
      "acc": 0.74910226,
      "epoch": 1.0402080162354135,
      "grad_norm": 4.3125,
      "learning_rate": 5.080950211221799e-06,
      "loss": 1.03692207,
      "memory(GiB)": 112.26,
      "step": 41005,
      "train_speed(iter/s)": 1.127412
    },
    {
      "acc": 0.7284976,
      "epoch": 1.0403348554033485,
      "grad_norm": 3.71875,
      "learning_rate": 5.079901723210109e-06,
      "loss": 1.04037514,
      "memory(GiB)": 112.26,
      "step": 41010,
      "train_speed(iter/s)": 1.127441
    },
    {
      "acc": 0.73480639,
      "epoch": 1.0404616945712837,
      "grad_norm": 3.796875,
      "learning_rate": 5.078853231683981e-06,
      "loss": 1.06895494,
      "memory(GiB)": 112.26,
      "step": 41015,
      "train_speed(iter/s)": 1.127468
    },
    {
      "acc": 0.7363596,
      "epoch": 1.0405885337392187,
      "grad_norm": 3.671875,
      "learning_rate": 5.077804736689539e-06,
      "loss": 1.08308411,
      "memory(GiB)": 112.26,
      "step": 41020,
      "train_speed(iter/s)": 1.127495
    },
    {
      "acc": 0.74305382,
      "epoch": 1.0407153729071537,
      "grad_norm": 4.0625,
      "learning_rate": 5.0767562382728955e-06,
      "loss": 1.0321063,
      "memory(GiB)": 112.26,
      "step": 41025,
      "train_speed(iter/s)": 1.127524
    },
    {
      "acc": 0.72821498,
      "epoch": 1.0408422120750889,
      "grad_norm": 4.40625,
      "learning_rate": 5.075707736480171e-06,
      "loss": 1.14334011,
      "memory(GiB)": 112.26,
      "step": 41030,
      "train_speed(iter/s)": 1.127547
    },
    {
      "acc": 0.73664012,
      "epoch": 1.0409690512430239,
      "grad_norm": 3.734375,
      "learning_rate": 5.074659231357482e-06,
      "loss": 1.07645054,
      "memory(GiB)": 112.26,
      "step": 41035,
      "train_speed(iter/s)": 1.127561
    },
    {
      "acc": 0.74552412,
      "epoch": 1.0410958904109588,
      "grad_norm": 3.0,
      "learning_rate": 5.073610722950947e-06,
      "loss": 1.05079947,
      "memory(GiB)": 112.26,
      "step": 41040,
      "train_speed(iter/s)": 1.127581
    },
    {
      "acc": 0.73383141,
      "epoch": 1.041222729578894,
      "grad_norm": 4.59375,
      "learning_rate": 5.072562211306683e-06,
      "loss": 1.03462782,
      "memory(GiB)": 112.26,
      "step": 41045,
      "train_speed(iter/s)": 1.127591
    },
    {
      "acc": 0.72472935,
      "epoch": 1.041349568746829,
      "grad_norm": 4.4375,
      "learning_rate": 5.071513696470809e-06,
      "loss": 1.1145462,
      "memory(GiB)": 112.26,
      "step": 41050,
      "train_speed(iter/s)": 1.127611
    },
    {
      "acc": 0.74651628,
      "epoch": 1.041476407914764,
      "grad_norm": 4.5625,
      "learning_rate": 5.070465178489443e-06,
      "loss": 1.04948359,
      "memory(GiB)": 112.26,
      "step": 41055,
      "train_speed(iter/s)": 1.127643
    },
    {
      "acc": 0.7450242,
      "epoch": 1.041603247082699,
      "grad_norm": 3.296875,
      "learning_rate": 5.069416657408704e-06,
      "loss": 1.03877125,
      "memory(GiB)": 112.26,
      "step": 41060,
      "train_speed(iter/s)": 1.127657
    },
    {
      "acc": 0.74297085,
      "epoch": 1.0417300862506342,
      "grad_norm": 2.9375,
      "learning_rate": 5.0683681332747105e-06,
      "loss": 1.09591703,
      "memory(GiB)": 112.26,
      "step": 41065,
      "train_speed(iter/s)": 1.127665
    },
    {
      "acc": 0.74358187,
      "epoch": 1.0418569254185692,
      "grad_norm": 3.453125,
      "learning_rate": 5.067319606133583e-06,
      "loss": 1.0884367,
      "memory(GiB)": 112.26,
      "step": 41070,
      "train_speed(iter/s)": 1.127679
    },
    {
      "acc": 0.7535593,
      "epoch": 1.0419837645865042,
      "grad_norm": 4.5625,
      "learning_rate": 5.066271076031436e-06,
      "loss": 1.0286725,
      "memory(GiB)": 112.26,
      "step": 41075,
      "train_speed(iter/s)": 1.1277
    },
    {
      "acc": 0.73873491,
      "epoch": 1.0421106037544394,
      "grad_norm": 3.984375,
      "learning_rate": 5.065222543014394e-06,
      "loss": 1.07527962,
      "memory(GiB)": 112.26,
      "step": 41080,
      "train_speed(iter/s)": 1.127719
    },
    {
      "acc": 0.73997078,
      "epoch": 1.0422374429223744,
      "grad_norm": 4.46875,
      "learning_rate": 5.06417400712857e-06,
      "loss": 1.08201122,
      "memory(GiB)": 112.26,
      "step": 41085,
      "train_speed(iter/s)": 1.127731
    },
    {
      "acc": 0.7452589,
      "epoch": 1.0423642820903094,
      "grad_norm": 3.59375,
      "learning_rate": 5.0631254684200906e-06,
      "loss": 0.9988493,
      "memory(GiB)": 112.26,
      "step": 41090,
      "train_speed(iter/s)": 1.127755
    },
    {
      "acc": 0.74914436,
      "epoch": 1.0424911212582446,
      "grad_norm": 3.515625,
      "learning_rate": 5.062076926935068e-06,
      "loss": 1.0237009,
      "memory(GiB)": 112.26,
      "step": 41095,
      "train_speed(iter/s)": 1.127786
    },
    {
      "acc": 0.74900126,
      "epoch": 1.0426179604261796,
      "grad_norm": 3.84375,
      "learning_rate": 5.061028382719626e-06,
      "loss": 1.00202885,
      "memory(GiB)": 112.26,
      "step": 41100,
      "train_speed(iter/s)": 1.127812
    },
    {
      "acc": 0.74418116,
      "epoch": 1.0427447995941146,
      "grad_norm": 3.53125,
      "learning_rate": 5.0599798358198835e-06,
      "loss": 1.02243853,
      "memory(GiB)": 112.26,
      "step": 41105,
      "train_speed(iter/s)": 1.127836
    },
    {
      "acc": 0.74468546,
      "epoch": 1.0428716387620498,
      "grad_norm": 3.625,
      "learning_rate": 5.0589312862819605e-06,
      "loss": 1.06249285,
      "memory(GiB)": 112.26,
      "step": 41110,
      "train_speed(iter/s)": 1.127857
    },
    {
      "acc": 0.74783897,
      "epoch": 1.0429984779299848,
      "grad_norm": 3.421875,
      "learning_rate": 5.057882734151977e-06,
      "loss": 1.0179038,
      "memory(GiB)": 112.26,
      "step": 41115,
      "train_speed(iter/s)": 1.127876
    },
    {
      "acc": 0.75028882,
      "epoch": 1.0431253170979198,
      "grad_norm": 3.46875,
      "learning_rate": 5.05683417947605e-06,
      "loss": 1.06728687,
      "memory(GiB)": 112.26,
      "step": 41120,
      "train_speed(iter/s)": 1.127901
    },
    {
      "acc": 0.74304223,
      "epoch": 1.043252156265855,
      "grad_norm": 4.0625,
      "learning_rate": 5.055785622300303e-06,
      "loss": 1.05790653,
      "memory(GiB)": 112.26,
      "step": 41125,
      "train_speed(iter/s)": 1.127924
    },
    {
      "acc": 0.73230596,
      "epoch": 1.04337899543379,
      "grad_norm": 3.25,
      "learning_rate": 5.054737062670857e-06,
      "loss": 1.09126596,
      "memory(GiB)": 112.26,
      "step": 41130,
      "train_speed(iter/s)": 1.127938
    },
    {
      "acc": 0.73789549,
      "epoch": 1.043505834601725,
      "grad_norm": 3.515625,
      "learning_rate": 5.053688500633828e-06,
      "loss": 1.03168278,
      "memory(GiB)": 112.26,
      "step": 41135,
      "train_speed(iter/s)": 1.127964
    },
    {
      "acc": 0.74206185,
      "epoch": 1.0436326737696602,
      "grad_norm": 3.953125,
      "learning_rate": 5.052639936235341e-06,
      "loss": 1.04420547,
      "memory(GiB)": 112.26,
      "step": 41140,
      "train_speed(iter/s)": 1.127975
    },
    {
      "acc": 0.73940954,
      "epoch": 1.0437595129375952,
      "grad_norm": 4.625,
      "learning_rate": 5.051591369521513e-06,
      "loss": 1.07784767,
      "memory(GiB)": 112.26,
      "step": 41145,
      "train_speed(iter/s)": 1.128007
    },
    {
      "acc": 0.73524089,
      "epoch": 1.0438863521055302,
      "grad_norm": 3.90625,
      "learning_rate": 5.050542800538469e-06,
      "loss": 1.07214832,
      "memory(GiB)": 112.26,
      "step": 41150,
      "train_speed(iter/s)": 1.128026
    },
    {
      "acc": 0.73222685,
      "epoch": 1.0440131912734651,
      "grad_norm": 3.765625,
      "learning_rate": 5.049494229332324e-06,
      "loss": 1.11441975,
      "memory(GiB)": 112.26,
      "step": 41155,
      "train_speed(iter/s)": 1.128043
    },
    {
      "acc": 0.74695225,
      "epoch": 1.0441400304414004,
      "grad_norm": 3.21875,
      "learning_rate": 5.048445655949204e-06,
      "loss": 1.07020187,
      "memory(GiB)": 112.26,
      "step": 41160,
      "train_speed(iter/s)": 1.128047
    },
    {
      "acc": 0.7237174,
      "epoch": 1.0442668696093353,
      "grad_norm": 3.765625,
      "learning_rate": 5.047397080435225e-06,
      "loss": 1.16266537,
      "memory(GiB)": 112.26,
      "step": 41165,
      "train_speed(iter/s)": 1.128071
    },
    {
      "acc": 0.74773273,
      "epoch": 1.0443937087772703,
      "grad_norm": 3.765625,
      "learning_rate": 5.046348502836512e-06,
      "loss": 1.08918047,
      "memory(GiB)": 112.26,
      "step": 41170,
      "train_speed(iter/s)": 1.128092
    },
    {
      "acc": 0.73241796,
      "epoch": 1.0445205479452055,
      "grad_norm": 3.46875,
      "learning_rate": 5.045299923199186e-06,
      "loss": 1.09734211,
      "memory(GiB)": 112.26,
      "step": 41175,
      "train_speed(iter/s)": 1.128101
    },
    {
      "acc": 0.74074492,
      "epoch": 1.0446473871131405,
      "grad_norm": 3.0,
      "learning_rate": 5.044251341569366e-06,
      "loss": 1.02148552,
      "memory(GiB)": 112.26,
      "step": 41180,
      "train_speed(iter/s)": 1.128118
    },
    {
      "acc": 0.72615166,
      "epoch": 1.0447742262810755,
      "grad_norm": 4.53125,
      "learning_rate": 5.043202757993175e-06,
      "loss": 1.13836327,
      "memory(GiB)": 112.26,
      "step": 41185,
      "train_speed(iter/s)": 1.128143
    },
    {
      "acc": 0.73158894,
      "epoch": 1.0449010654490107,
      "grad_norm": 5.03125,
      "learning_rate": 5.042154172516734e-06,
      "loss": 1.11611433,
      "memory(GiB)": 112.26,
      "step": 41190,
      "train_speed(iter/s)": 1.128168
    },
    {
      "acc": 0.73947611,
      "epoch": 1.0450279046169457,
      "grad_norm": 3.5,
      "learning_rate": 5.041105585186164e-06,
      "loss": 1.05977526,
      "memory(GiB)": 112.26,
      "step": 41195,
      "train_speed(iter/s)": 1.128186
    },
    {
      "acc": 0.75160828,
      "epoch": 1.0451547437848807,
      "grad_norm": 3.234375,
      "learning_rate": 5.040056996047587e-06,
      "loss": 1.0764389,
      "memory(GiB)": 112.26,
      "step": 41200,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.74452844,
      "epoch": 1.045281582952816,
      "grad_norm": 3.46875,
      "learning_rate": 5.039008405147125e-06,
      "loss": 1.02597408,
      "memory(GiB)": 112.26,
      "step": 41205,
      "train_speed(iter/s)": 1.128227
    },
    {
      "acc": 0.7348731,
      "epoch": 1.045408422120751,
      "grad_norm": 4.34375,
      "learning_rate": 5.0379598125308984e-06,
      "loss": 1.0828867,
      "memory(GiB)": 112.26,
      "step": 41210,
      "train_speed(iter/s)": 1.128249
    },
    {
      "acc": 0.72531719,
      "epoch": 1.045535261288686,
      "grad_norm": 3.96875,
      "learning_rate": 5.036911218245029e-06,
      "loss": 1.12505226,
      "memory(GiB)": 112.26,
      "step": 41215,
      "train_speed(iter/s)": 1.128266
    },
    {
      "acc": 0.73347006,
      "epoch": 1.045662100456621,
      "grad_norm": 3.640625,
      "learning_rate": 5.035862622335641e-06,
      "loss": 1.07790956,
      "memory(GiB)": 112.26,
      "step": 41220,
      "train_speed(iter/s)": 1.128264
    },
    {
      "acc": 0.75417409,
      "epoch": 1.045788939624556,
      "grad_norm": 3.59375,
      "learning_rate": 5.034814024848853e-06,
      "loss": 1.0069334,
      "memory(GiB)": 112.26,
      "step": 41225,
      "train_speed(iter/s)": 1.128276
    },
    {
      "acc": 0.7473824,
      "epoch": 1.045915778792491,
      "grad_norm": 3.328125,
      "learning_rate": 5.033765425830791e-06,
      "loss": 1.03049879,
      "memory(GiB)": 112.26,
      "step": 41230,
      "train_speed(iter/s)": 1.128291
    },
    {
      "acc": 0.74734368,
      "epoch": 1.046042617960426,
      "grad_norm": 4.40625,
      "learning_rate": 5.032716825327573e-06,
      "loss": 1.0296237,
      "memory(GiB)": 112.26,
      "step": 41235,
      "train_speed(iter/s)": 1.12831
    },
    {
      "acc": 0.7454185,
      "epoch": 1.0461694571283613,
      "grad_norm": 3.953125,
      "learning_rate": 5.031668223385323e-06,
      "loss": 1.03134251,
      "memory(GiB)": 112.26,
      "step": 41240,
      "train_speed(iter/s)": 1.128329
    },
    {
      "acc": 0.7346221,
      "epoch": 1.0462962962962963,
      "grad_norm": 3.953125,
      "learning_rate": 5.030619620050163e-06,
      "loss": 1.07521801,
      "memory(GiB)": 112.26,
      "step": 41245,
      "train_speed(iter/s)": 1.128354
    },
    {
      "acc": 0.75994148,
      "epoch": 1.0464231354642313,
      "grad_norm": 3.9375,
      "learning_rate": 5.029571015368217e-06,
      "loss": 0.95198231,
      "memory(GiB)": 112.26,
      "step": 41250,
      "train_speed(iter/s)": 1.128358
    },
    {
      "acc": 0.73687887,
      "epoch": 1.0465499746321665,
      "grad_norm": 3.484375,
      "learning_rate": 5.028522409385605e-06,
      "loss": 1.0671875,
      "memory(GiB)": 112.26,
      "step": 41255,
      "train_speed(iter/s)": 1.128376
    },
    {
      "acc": 0.7443872,
      "epoch": 1.0466768138001015,
      "grad_norm": 3.359375,
      "learning_rate": 5.0274738021484495e-06,
      "loss": 0.99906101,
      "memory(GiB)": 112.26,
      "step": 41260,
      "train_speed(iter/s)": 1.128393
    },
    {
      "acc": 0.73038254,
      "epoch": 1.0468036529680365,
      "grad_norm": 3.765625,
      "learning_rate": 5.026425193702874e-06,
      "loss": 1.08419256,
      "memory(GiB)": 112.26,
      "step": 41265,
      "train_speed(iter/s)": 1.128412
    },
    {
      "acc": 0.76000156,
      "epoch": 1.0469304921359717,
      "grad_norm": 3.46875,
      "learning_rate": 5.025376584095001e-06,
      "loss": 0.94993324,
      "memory(GiB)": 112.26,
      "step": 41270,
      "train_speed(iter/s)": 1.12843
    },
    {
      "acc": 0.75609941,
      "epoch": 1.0470573313039067,
      "grad_norm": 4.09375,
      "learning_rate": 5.024327973370951e-06,
      "loss": 0.98595953,
      "memory(GiB)": 112.26,
      "step": 41275,
      "train_speed(iter/s)": 1.128455
    },
    {
      "acc": 0.72627201,
      "epoch": 1.0471841704718416,
      "grad_norm": 4.34375,
      "learning_rate": 5.02327936157685e-06,
      "loss": 1.09551334,
      "memory(GiB)": 112.26,
      "step": 41280,
      "train_speed(iter/s)": 1.128473
    },
    {
      "acc": 0.74003429,
      "epoch": 1.0473110096397769,
      "grad_norm": 3.640625,
      "learning_rate": 5.022230748758816e-06,
      "loss": 1.03906307,
      "memory(GiB)": 112.26,
      "step": 41285,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.74960608,
      "epoch": 1.0474378488077118,
      "grad_norm": 4.15625,
      "learning_rate": 5.021182134962978e-06,
      "loss": 1.08460827,
      "memory(GiB)": 112.26,
      "step": 41290,
      "train_speed(iter/s)": 1.128479
    },
    {
      "acc": 0.74990177,
      "epoch": 1.0475646879756468,
      "grad_norm": 2.9375,
      "learning_rate": 5.020133520235453e-06,
      "loss": 1.06881151,
      "memory(GiB)": 112.26,
      "step": 41295,
      "train_speed(iter/s)": 1.128477
    },
    {
      "acc": 0.72596908,
      "epoch": 1.047691527143582,
      "grad_norm": 3.59375,
      "learning_rate": 5.019084904622367e-06,
      "loss": 1.07846327,
      "memory(GiB)": 112.26,
      "step": 41300,
      "train_speed(iter/s)": 1.128493
    },
    {
      "acc": 0.73621655,
      "epoch": 1.047818366311517,
      "grad_norm": 3.046875,
      "learning_rate": 5.01803628816984e-06,
      "loss": 1.05432415,
      "memory(GiB)": 112.26,
      "step": 41305,
      "train_speed(iter/s)": 1.128506
    },
    {
      "acc": 0.73556175,
      "epoch": 1.047945205479452,
      "grad_norm": 4.0625,
      "learning_rate": 5.016987670923998e-06,
      "loss": 1.03691063,
      "memory(GiB)": 112.26,
      "step": 41310,
      "train_speed(iter/s)": 1.128526
    },
    {
      "acc": 0.75536995,
      "epoch": 1.048072044647387,
      "grad_norm": 3.75,
      "learning_rate": 5.0159390529309615e-06,
      "loss": 0.96498756,
      "memory(GiB)": 112.26,
      "step": 41315,
      "train_speed(iter/s)": 1.128544
    },
    {
      "acc": 0.7421658,
      "epoch": 1.0481988838153222,
      "grad_norm": 3.984375,
      "learning_rate": 5.014890434236854e-06,
      "loss": 1.02997971,
      "memory(GiB)": 112.26,
      "step": 41320,
      "train_speed(iter/s)": 1.128556
    },
    {
      "acc": 0.72652702,
      "epoch": 1.0483257229832572,
      "grad_norm": 4.65625,
      "learning_rate": 5.0138418148878e-06,
      "loss": 1.12320013,
      "memory(GiB)": 112.26,
      "step": 41325,
      "train_speed(iter/s)": 1.128579
    },
    {
      "acc": 0.74468989,
      "epoch": 1.0484525621511922,
      "grad_norm": 4.53125,
      "learning_rate": 5.01279319492992e-06,
      "loss": 1.05739746,
      "memory(GiB)": 112.26,
      "step": 41330,
      "train_speed(iter/s)": 1.128598
    },
    {
      "acc": 0.73130827,
      "epoch": 1.0485794013191274,
      "grad_norm": 3.578125,
      "learning_rate": 5.01174457440934e-06,
      "loss": 1.06815491,
      "memory(GiB)": 112.26,
      "step": 41335,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.75647106,
      "epoch": 1.0487062404870624,
      "grad_norm": 3.40625,
      "learning_rate": 5.010695953372179e-06,
      "loss": 1.02437057,
      "memory(GiB)": 112.26,
      "step": 41340,
      "train_speed(iter/s)": 1.128634
    },
    {
      "acc": 0.74437113,
      "epoch": 1.0488330796549974,
      "grad_norm": 3.53125,
      "learning_rate": 5.009647331864563e-06,
      "loss": 1.02859507,
      "memory(GiB)": 112.26,
      "step": 41345,
      "train_speed(iter/s)": 1.128661
    },
    {
      "acc": 0.73899832,
      "epoch": 1.0489599188229326,
      "grad_norm": 3.625,
      "learning_rate": 5.008598709932615e-06,
      "loss": 1.07264576,
      "memory(GiB)": 112.26,
      "step": 41350,
      "train_speed(iter/s)": 1.128677
    },
    {
      "acc": 0.73243618,
      "epoch": 1.0490867579908676,
      "grad_norm": 3.578125,
      "learning_rate": 5.007550087622456e-06,
      "loss": 1.09101009,
      "memory(GiB)": 112.26,
      "step": 41355,
      "train_speed(iter/s)": 1.128689
    },
    {
      "acc": 0.75328698,
      "epoch": 1.0492135971588026,
      "grad_norm": 4.375,
      "learning_rate": 5.0065014649802124e-06,
      "loss": 1.02884083,
      "memory(GiB)": 112.26,
      "step": 41360,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.73497691,
      "epoch": 1.0493404363267378,
      "grad_norm": 3.34375,
      "learning_rate": 5.005452842052003e-06,
      "loss": 1.07575083,
      "memory(GiB)": 112.26,
      "step": 41365,
      "train_speed(iter/s)": 1.128726
    },
    {
      "acc": 0.73833666,
      "epoch": 1.0494672754946728,
      "grad_norm": 3.53125,
      "learning_rate": 5.004404218883955e-06,
      "loss": 1.09097481,
      "memory(GiB)": 112.26,
      "step": 41370,
      "train_speed(iter/s)": 1.128735
    },
    {
      "acc": 0.75020208,
      "epoch": 1.0495941146626078,
      "grad_norm": 4.1875,
      "learning_rate": 5.0033555955221875e-06,
      "loss": 1.04551964,
      "memory(GiB)": 112.26,
      "step": 41375,
      "train_speed(iter/s)": 1.128761
    },
    {
      "acc": 0.74858332,
      "epoch": 1.0497209538305428,
      "grad_norm": 3.71875,
      "learning_rate": 5.002306972012829e-06,
      "loss": 1.02922211,
      "memory(GiB)": 112.26,
      "step": 41380,
      "train_speed(iter/s)": 1.128626
    },
    {
      "acc": 0.73513975,
      "epoch": 1.049847792998478,
      "grad_norm": 3.203125,
      "learning_rate": 5.001258348401998e-06,
      "loss": 1.06340227,
      "memory(GiB)": 112.26,
      "step": 41385,
      "train_speed(iter/s)": 1.128645
    },
    {
      "acc": 0.73885517,
      "epoch": 1.049974632166413,
      "grad_norm": 3.53125,
      "learning_rate": 5.000209724735819e-06,
      "loss": 1.08278131,
      "memory(GiB)": 112.26,
      "step": 41390,
      "train_speed(iter/s)": 1.128662
    },
    {
      "acc": 0.73421354,
      "epoch": 1.050101471334348,
      "grad_norm": 3.9375,
      "learning_rate": 4.999161101060416e-06,
      "loss": 1.1344305,
      "memory(GiB)": 112.26,
      "step": 41395,
      "train_speed(iter/s)": 1.12869
    },
    {
      "acc": 0.72998838,
      "epoch": 1.0502283105022832,
      "grad_norm": 4.5,
      "learning_rate": 4.99811247742191e-06,
      "loss": 1.10640221,
      "memory(GiB)": 112.26,
      "step": 41400,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.73602695,
      "epoch": 1.0503551496702181,
      "grad_norm": 3.671875,
      "learning_rate": 4.9970638538664275e-06,
      "loss": 1.07955589,
      "memory(GiB)": 112.26,
      "step": 41405,
      "train_speed(iter/s)": 1.128715
    },
    {
      "acc": 0.74826207,
      "epoch": 1.0504819888381531,
      "grad_norm": 3.21875,
      "learning_rate": 4.996015230440091e-06,
      "loss": 1.05268688,
      "memory(GiB)": 112.26,
      "step": 41410,
      "train_speed(iter/s)": 1.128727
    },
    {
      "acc": 0.75355825,
      "epoch": 1.0506088280060883,
      "grad_norm": 3.671875,
      "learning_rate": 4.99496660718902e-06,
      "loss": 0.97814169,
      "memory(GiB)": 112.26,
      "step": 41415,
      "train_speed(iter/s)": 1.12875
    },
    {
      "acc": 0.73625026,
      "epoch": 1.0507356671740233,
      "grad_norm": 3.421875,
      "learning_rate": 4.99391798415934e-06,
      "loss": 1.07096834,
      "memory(GiB)": 112.26,
      "step": 41420,
      "train_speed(iter/s)": 1.12877
    },
    {
      "acc": 0.73842778,
      "epoch": 1.0508625063419583,
      "grad_norm": 3.953125,
      "learning_rate": 4.992869361397175e-06,
      "loss": 1.05826225,
      "memory(GiB)": 112.26,
      "step": 41425,
      "train_speed(iter/s)": 1.128781
    },
    {
      "acc": 0.74037457,
      "epoch": 1.0509893455098935,
      "grad_norm": 3.3125,
      "learning_rate": 4.991820738948649e-06,
      "loss": 1.02276974,
      "memory(GiB)": 112.26,
      "step": 41430,
      "train_speed(iter/s)": 1.128802
    },
    {
      "acc": 0.7282568,
      "epoch": 1.0511161846778285,
      "grad_norm": 4.1875,
      "learning_rate": 4.9907721168598805e-06,
      "loss": 1.08001137,
      "memory(GiB)": 112.26,
      "step": 41435,
      "train_speed(iter/s)": 1.128817
    },
    {
      "acc": 0.75660329,
      "epoch": 1.0512430238457635,
      "grad_norm": 3.25,
      "learning_rate": 4.989723495176997e-06,
      "loss": 0.98782349,
      "memory(GiB)": 112.26,
      "step": 41440,
      "train_speed(iter/s)": 1.128836
    },
    {
      "acc": 0.75775523,
      "epoch": 1.0513698630136987,
      "grad_norm": 3.421875,
      "learning_rate": 4.988674873946118e-06,
      "loss": 0.9861948,
      "memory(GiB)": 112.26,
      "step": 41445,
      "train_speed(iter/s)": 1.128863
    },
    {
      "acc": 0.75215893,
      "epoch": 1.0514967021816337,
      "grad_norm": 4.4375,
      "learning_rate": 4.987626253213373e-06,
      "loss": 1.01562433,
      "memory(GiB)": 112.26,
      "step": 41450,
      "train_speed(iter/s)": 1.128873
    },
    {
      "acc": 0.75275769,
      "epoch": 1.0516235413495687,
      "grad_norm": 3.984375,
      "learning_rate": 4.986577633024877e-06,
      "loss": 1.03578377,
      "memory(GiB)": 112.26,
      "step": 41455,
      "train_speed(iter/s)": 1.12889
    },
    {
      "acc": 0.74074435,
      "epoch": 1.051750380517504,
      "grad_norm": 4.125,
      "learning_rate": 4.985529013426758e-06,
      "loss": 1.01499805,
      "memory(GiB)": 112.26,
      "step": 41460,
      "train_speed(iter/s)": 1.128916
    },
    {
      "acc": 0.74181142,
      "epoch": 1.051877219685439,
      "grad_norm": 3.671875,
      "learning_rate": 4.984480394465136e-06,
      "loss": 1.01319714,
      "memory(GiB)": 112.26,
      "step": 41465,
      "train_speed(iter/s)": 1.128918
    },
    {
      "acc": 0.73503809,
      "epoch": 1.052004058853374,
      "grad_norm": 2.890625,
      "learning_rate": 4.9834317761861385e-06,
      "loss": 1.06877069,
      "memory(GiB)": 112.26,
      "step": 41470,
      "train_speed(iter/s)": 1.128941
    },
    {
      "acc": 0.72899141,
      "epoch": 1.0521308980213089,
      "grad_norm": 4.03125,
      "learning_rate": 4.982383158635884e-06,
      "loss": 1.07063828,
      "memory(GiB)": 112.26,
      "step": 41475,
      "train_speed(iter/s)": 1.128968
    },
    {
      "acc": 0.72759309,
      "epoch": 1.052257737189244,
      "grad_norm": 3.890625,
      "learning_rate": 4.981334541860496e-06,
      "loss": 1.06689835,
      "memory(GiB)": 112.26,
      "step": 41480,
      "train_speed(iter/s)": 1.128986
    },
    {
      "acc": 0.74118786,
      "epoch": 1.052384576357179,
      "grad_norm": 3.78125,
      "learning_rate": 4.980285925906098e-06,
      "loss": 1.07032461,
      "memory(GiB)": 112.26,
      "step": 41485,
      "train_speed(iter/s)": 1.129003
    },
    {
      "acc": 0.74428129,
      "epoch": 1.052511415525114,
      "grad_norm": 3.984375,
      "learning_rate": 4.9792373108188155e-06,
      "loss": 1.06736298,
      "memory(GiB)": 112.26,
      "step": 41490,
      "train_speed(iter/s)": 1.129007
    },
    {
      "acc": 0.74054461,
      "epoch": 1.0526382546930493,
      "grad_norm": 4.75,
      "learning_rate": 4.978188696644767e-06,
      "loss": 1.02488384,
      "memory(GiB)": 112.26,
      "step": 41495,
      "train_speed(iter/s)": 1.129023
    },
    {
      "acc": 0.75259676,
      "epoch": 1.0527650938609843,
      "grad_norm": 3.25,
      "learning_rate": 4.977140083430075e-06,
      "loss": 1.02187567,
      "memory(GiB)": 112.26,
      "step": 41500,
      "train_speed(iter/s)": 1.12903
    },
    {
      "acc": 0.74603095,
      "epoch": 1.0528919330289193,
      "grad_norm": 2.96875,
      "learning_rate": 4.976091471220867e-06,
      "loss": 1.02349043,
      "memory(GiB)": 112.26,
      "step": 41505,
      "train_speed(iter/s)": 1.129045
    },
    {
      "acc": 0.73538394,
      "epoch": 1.0530187721968545,
      "grad_norm": 3.1875,
      "learning_rate": 4.975042860063263e-06,
      "loss": 1.08609085,
      "memory(GiB)": 112.26,
      "step": 41510,
      "train_speed(iter/s)": 1.129065
    },
    {
      "acc": 0.74021125,
      "epoch": 1.0531456113647895,
      "grad_norm": 3.75,
      "learning_rate": 4.973994250003384e-06,
      "loss": 1.06324863,
      "memory(GiB)": 112.26,
      "step": 41515,
      "train_speed(iter/s)": 1.129093
    },
    {
      "acc": 0.73064179,
      "epoch": 1.0532724505327244,
      "grad_norm": 3.53125,
      "learning_rate": 4.972945641087355e-06,
      "loss": 1.12385702,
      "memory(GiB)": 112.26,
      "step": 41520,
      "train_speed(iter/s)": 1.129093
    },
    {
      "acc": 0.7434669,
      "epoch": 1.0533992897006597,
      "grad_norm": 3.265625,
      "learning_rate": 4.9718970333612955e-06,
      "loss": 1.06010723,
      "memory(GiB)": 112.26,
      "step": 41525,
      "train_speed(iter/s)": 1.129122
    },
    {
      "acc": 0.73024139,
      "epoch": 1.0535261288685946,
      "grad_norm": 4.1875,
      "learning_rate": 4.970848426871333e-06,
      "loss": 1.06150951,
      "memory(GiB)": 112.26,
      "step": 41530,
      "train_speed(iter/s)": 1.129142
    },
    {
      "acc": 0.73661566,
      "epoch": 1.0536529680365296,
      "grad_norm": 3.5,
      "learning_rate": 4.9697998216635854e-06,
      "loss": 1.07712164,
      "memory(GiB)": 112.26,
      "step": 41535,
      "train_speed(iter/s)": 1.129155
    },
    {
      "acc": 0.74521151,
      "epoch": 1.0537798072044646,
      "grad_norm": 3.40625,
      "learning_rate": 4.9687512177841765e-06,
      "loss": 1.01393166,
      "memory(GiB)": 112.26,
      "step": 41540,
      "train_speed(iter/s)": 1.129177
    },
    {
      "acc": 0.72785115,
      "epoch": 1.0539066463723998,
      "grad_norm": 3.53125,
      "learning_rate": 4.967702615279227e-06,
      "loss": 1.09675646,
      "memory(GiB)": 112.26,
      "step": 41545,
      "train_speed(iter/s)": 1.12919
    },
    {
      "acc": 0.72393188,
      "epoch": 1.0540334855403348,
      "grad_norm": 3.5,
      "learning_rate": 4.966654014194863e-06,
      "loss": 1.13138876,
      "memory(GiB)": 112.26,
      "step": 41550,
      "train_speed(iter/s)": 1.129207
    },
    {
      "acc": 0.75403266,
      "epoch": 1.0541603247082698,
      "grad_norm": 3.140625,
      "learning_rate": 4.965605414577204e-06,
      "loss": 0.97213249,
      "memory(GiB)": 112.26,
      "step": 41555,
      "train_speed(iter/s)": 1.129222
    },
    {
      "acc": 0.7505342,
      "epoch": 1.054287163876205,
      "grad_norm": 3.703125,
      "learning_rate": 4.964556816472371e-06,
      "loss": 1.03204012,
      "memory(GiB)": 112.26,
      "step": 41560,
      "train_speed(iter/s)": 1.129233
    },
    {
      "acc": 0.73669152,
      "epoch": 1.05441400304414,
      "grad_norm": 2.984375,
      "learning_rate": 4.9635082199264874e-06,
      "loss": 1.08097897,
      "memory(GiB)": 112.26,
      "step": 41565,
      "train_speed(iter/s)": 1.129227
    },
    {
      "acc": 0.74733763,
      "epoch": 1.054540842212075,
      "grad_norm": 3.546875,
      "learning_rate": 4.962459624985677e-06,
      "loss": 1.04363899,
      "memory(GiB)": 112.26,
      "step": 41570,
      "train_speed(iter/s)": 1.129239
    },
    {
      "acc": 0.73861408,
      "epoch": 1.0546676813800102,
      "grad_norm": 3.953125,
      "learning_rate": 4.961411031696059e-06,
      "loss": 1.07890167,
      "memory(GiB)": 112.26,
      "step": 41575,
      "train_speed(iter/s)": 1.129255
    },
    {
      "acc": 0.74860697,
      "epoch": 1.0547945205479452,
      "grad_norm": 4.09375,
      "learning_rate": 4.960362440103756e-06,
      "loss": 1.06206455,
      "memory(GiB)": 112.26,
      "step": 41580,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.75374842,
      "epoch": 1.0549213597158802,
      "grad_norm": 4.5,
      "learning_rate": 4.95931385025489e-06,
      "loss": 1.00859089,
      "memory(GiB)": 112.26,
      "step": 41585,
      "train_speed(iter/s)": 1.1293
    },
    {
      "acc": 0.74519606,
      "epoch": 1.0550481988838154,
      "grad_norm": 3.546875,
      "learning_rate": 4.958265262195584e-06,
      "loss": 1.05206051,
      "memory(GiB)": 112.26,
      "step": 41590,
      "train_speed(iter/s)": 1.129322
    },
    {
      "acc": 0.75769901,
      "epoch": 1.0551750380517504,
      "grad_norm": 3.875,
      "learning_rate": 4.957216675971955e-06,
      "loss": 1.03505917,
      "memory(GiB)": 112.26,
      "step": 41595,
      "train_speed(iter/s)": 1.129338
    },
    {
      "acc": 0.73844013,
      "epoch": 1.0553018772196854,
      "grad_norm": 4.09375,
      "learning_rate": 4.9561680916301295e-06,
      "loss": 1.11611824,
      "memory(GiB)": 112.26,
      "step": 41600,
      "train_speed(iter/s)": 1.129353
    },
    {
      "acc": 0.74139328,
      "epoch": 1.0554287163876206,
      "grad_norm": 3.96875,
      "learning_rate": 4.955119509216226e-06,
      "loss": 1.05005341,
      "memory(GiB)": 112.26,
      "step": 41605,
      "train_speed(iter/s)": 1.129373
    },
    {
      "acc": 0.74172702,
      "epoch": 1.0555555555555556,
      "grad_norm": 3.640625,
      "learning_rate": 4.9540709287763685e-06,
      "loss": 1.08724689,
      "memory(GiB)": 112.26,
      "step": 41610,
      "train_speed(iter/s)": 1.129397
    },
    {
      "acc": 0.74023533,
      "epoch": 1.0556823947234906,
      "grad_norm": 4.9375,
      "learning_rate": 4.953022350356676e-06,
      "loss": 1.08716574,
      "memory(GiB)": 112.26,
      "step": 41615,
      "train_speed(iter/s)": 1.129429
    },
    {
      "acc": 0.74245577,
      "epoch": 1.0558092338914258,
      "grad_norm": 4.375,
      "learning_rate": 4.951973774003269e-06,
      "loss": 1.06693745,
      "memory(GiB)": 112.26,
      "step": 41620,
      "train_speed(iter/s)": 1.129447
    },
    {
      "acc": 0.73899803,
      "epoch": 1.0559360730593608,
      "grad_norm": 4.21875,
      "learning_rate": 4.950925199762271e-06,
      "loss": 1.07998247,
      "memory(GiB)": 112.26,
      "step": 41625,
      "train_speed(iter/s)": 1.129464
    },
    {
      "acc": 0.74053335,
      "epoch": 1.0560629122272958,
      "grad_norm": 4.0,
      "learning_rate": 4.949876627679803e-06,
      "loss": 1.07062216,
      "memory(GiB)": 112.26,
      "step": 41630,
      "train_speed(iter/s)": 1.129477
    },
    {
      "acc": 0.75473919,
      "epoch": 1.0561897513952307,
      "grad_norm": 3.890625,
      "learning_rate": 4.948828057801983e-06,
      "loss": 1.04304447,
      "memory(GiB)": 112.26,
      "step": 41635,
      "train_speed(iter/s)": 1.129507
    },
    {
      "acc": 0.73054256,
      "epoch": 1.056316590563166,
      "grad_norm": 4.03125,
      "learning_rate": 4.947779490174933e-06,
      "loss": 1.0806818,
      "memory(GiB)": 112.26,
      "step": 41640,
      "train_speed(iter/s)": 1.12953
    },
    {
      "acc": 0.74939432,
      "epoch": 1.056443429731101,
      "grad_norm": 4.1875,
      "learning_rate": 4.946730924844775e-06,
      "loss": 1.05724068,
      "memory(GiB)": 112.26,
      "step": 41645,
      "train_speed(iter/s)": 1.129543
    },
    {
      "acc": 0.74006371,
      "epoch": 1.056570268899036,
      "grad_norm": 3.640625,
      "learning_rate": 4.945682361857631e-06,
      "loss": 1.06127911,
      "memory(GiB)": 112.26,
      "step": 41650,
      "train_speed(iter/s)": 1.129565
    },
    {
      "acc": 0.74762383,
      "epoch": 1.0566971080669711,
      "grad_norm": 3.671875,
      "learning_rate": 4.944633801259615e-06,
      "loss": 1.04389191,
      "memory(GiB)": 112.26,
      "step": 41655,
      "train_speed(iter/s)": 1.129583
    },
    {
      "acc": 0.73753643,
      "epoch": 1.0568239472349061,
      "grad_norm": 4.71875,
      "learning_rate": 4.943585243096854e-06,
      "loss": 1.07779694,
      "memory(GiB)": 112.26,
      "step": 41660,
      "train_speed(iter/s)": 1.129588
    },
    {
      "acc": 0.7488719,
      "epoch": 1.0569507864028411,
      "grad_norm": 3.328125,
      "learning_rate": 4.942536687415465e-06,
      "loss": 1.01053638,
      "memory(GiB)": 112.26,
      "step": 41665,
      "train_speed(iter/s)": 1.129598
    },
    {
      "acc": 0.72554159,
      "epoch": 1.0570776255707763,
      "grad_norm": 3.984375,
      "learning_rate": 4.941488134261571e-06,
      "loss": 1.13993721,
      "memory(GiB)": 112.26,
      "step": 41670,
      "train_speed(iter/s)": 1.12962
    },
    {
      "acc": 0.7505929,
      "epoch": 1.0572044647387113,
      "grad_norm": 3.96875,
      "learning_rate": 4.940439583681288e-06,
      "loss": 0.98047562,
      "memory(GiB)": 112.26,
      "step": 41675,
      "train_speed(iter/s)": 1.129641
    },
    {
      "acc": 0.74219818,
      "epoch": 1.0573313039066463,
      "grad_norm": 3.578125,
      "learning_rate": 4.939391035720739e-06,
      "loss": 1.02458153,
      "memory(GiB)": 112.26,
      "step": 41680,
      "train_speed(iter/s)": 1.129662
    },
    {
      "acc": 0.75413218,
      "epoch": 1.0574581430745815,
      "grad_norm": 3.515625,
      "learning_rate": 4.938342490426041e-06,
      "loss": 0.9881608,
      "memory(GiB)": 112.26,
      "step": 41685,
      "train_speed(iter/s)": 1.129682
    },
    {
      "acc": 0.74528894,
      "epoch": 1.0575849822425165,
      "grad_norm": 3.90625,
      "learning_rate": 4.937293947843318e-06,
      "loss": 1.04743843,
      "memory(GiB)": 112.26,
      "step": 41690,
      "train_speed(iter/s)": 1.12971
    },
    {
      "acc": 0.74432683,
      "epoch": 1.0577118214104515,
      "grad_norm": 3.0625,
      "learning_rate": 4.936245408018687e-06,
      "loss": 1.00724039,
      "memory(GiB)": 112.26,
      "step": 41695,
      "train_speed(iter/s)": 1.12973
    },
    {
      "acc": 0.74305949,
      "epoch": 1.0578386605783865,
      "grad_norm": 3.90625,
      "learning_rate": 4.935196870998265e-06,
      "loss": 1.0744566,
      "memory(GiB)": 112.26,
      "step": 41700,
      "train_speed(iter/s)": 1.129744
    },
    {
      "acc": 0.73518386,
      "epoch": 1.0579654997463217,
      "grad_norm": 7.3125,
      "learning_rate": 4.934148336828176e-06,
      "loss": 1.10693636,
      "memory(GiB)": 112.26,
      "step": 41705,
      "train_speed(iter/s)": 1.12976
    },
    {
      "acc": 0.72479105,
      "epoch": 1.0580923389142567,
      "grad_norm": 4.625,
      "learning_rate": 4.933099805554538e-06,
      "loss": 1.14287281,
      "memory(GiB)": 112.26,
      "step": 41710,
      "train_speed(iter/s)": 1.129771
    },
    {
      "acc": 0.72691622,
      "epoch": 1.0582191780821917,
      "grad_norm": 3.796875,
      "learning_rate": 4.932051277223468e-06,
      "loss": 1.12761936,
      "memory(GiB)": 112.26,
      "step": 41715,
      "train_speed(iter/s)": 1.129789
    },
    {
      "acc": 0.74040623,
      "epoch": 1.058346017250127,
      "grad_norm": 3.9375,
      "learning_rate": 4.931002751881086e-06,
      "loss": 1.07409744,
      "memory(GiB)": 112.26,
      "step": 41720,
      "train_speed(iter/s)": 1.129796
    },
    {
      "acc": 0.74113026,
      "epoch": 1.0584728564180619,
      "grad_norm": 5.0,
      "learning_rate": 4.929954229573512e-06,
      "loss": 1.02937031,
      "memory(GiB)": 112.26,
      "step": 41725,
      "train_speed(iter/s)": 1.129819
    },
    {
      "acc": 0.73509321,
      "epoch": 1.0585996955859969,
      "grad_norm": 3.5,
      "learning_rate": 4.9289057103468635e-06,
      "loss": 1.02772961,
      "memory(GiB)": 112.26,
      "step": 41730,
      "train_speed(iter/s)": 1.129838
    },
    {
      "acc": 0.74235592,
      "epoch": 1.058726534753932,
      "grad_norm": 3.34375,
      "learning_rate": 4.927857194247258e-06,
      "loss": 1.04608183,
      "memory(GiB)": 112.26,
      "step": 41735,
      "train_speed(iter/s)": 1.129851
    },
    {
      "acc": 0.72639952,
      "epoch": 1.058853373921867,
      "grad_norm": 3.734375,
      "learning_rate": 4.926808681320816e-06,
      "loss": 1.10185776,
      "memory(GiB)": 112.26,
      "step": 41740,
      "train_speed(iter/s)": 1.129881
    },
    {
      "acc": 0.73188515,
      "epoch": 1.058980213089802,
      "grad_norm": 4.90625,
      "learning_rate": 4.925760171613654e-06,
      "loss": 1.05535564,
      "memory(GiB)": 112.26,
      "step": 41745,
      "train_speed(iter/s)": 1.129905
    },
    {
      "acc": 0.74135098,
      "epoch": 1.0591070522577373,
      "grad_norm": 3.640625,
      "learning_rate": 4.9247116651718925e-06,
      "loss": 1.05199347,
      "memory(GiB)": 112.26,
      "step": 41750,
      "train_speed(iter/s)": 1.129914
    },
    {
      "acc": 0.73950548,
      "epoch": 1.0592338914256723,
      "grad_norm": 5.40625,
      "learning_rate": 4.9236631620416486e-06,
      "loss": 1.11247988,
      "memory(GiB)": 112.26,
      "step": 41755,
      "train_speed(iter/s)": 1.129934
    },
    {
      "acc": 0.74342375,
      "epoch": 1.0593607305936072,
      "grad_norm": 3.265625,
      "learning_rate": 4.922614662269038e-06,
      "loss": 1.05451937,
      "memory(GiB)": 112.26,
      "step": 41760,
      "train_speed(iter/s)": 1.129957
    },
    {
      "acc": 0.74247122,
      "epoch": 1.0594875697615425,
      "grad_norm": 3.296875,
      "learning_rate": 4.9215661659001805e-06,
      "loss": 1.02507477,
      "memory(GiB)": 112.26,
      "step": 41765,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.76134033,
      "epoch": 1.0596144089294774,
      "grad_norm": 3.9375,
      "learning_rate": 4.920517672981195e-06,
      "loss": 0.97691879,
      "memory(GiB)": 112.26,
      "step": 41770,
      "train_speed(iter/s)": 1.129988
    },
    {
      "acc": 0.73941164,
      "epoch": 1.0597412480974124,
      "grad_norm": 3.671875,
      "learning_rate": 4.919469183558195e-06,
      "loss": 1.05803146,
      "memory(GiB)": 112.26,
      "step": 41775,
      "train_speed(iter/s)": 1.130002
    },
    {
      "acc": 0.74794989,
      "epoch": 1.0598680872653476,
      "grad_norm": 3.4375,
      "learning_rate": 4.9184206976773e-06,
      "loss": 1.04459991,
      "memory(GiB)": 112.26,
      "step": 41780,
      "train_speed(iter/s)": 1.130008
    },
    {
      "acc": 0.73455114,
      "epoch": 1.0599949264332826,
      "grad_norm": 4.03125,
      "learning_rate": 4.917372215384627e-06,
      "loss": 1.1211504,
      "memory(GiB)": 112.26,
      "step": 41785,
      "train_speed(iter/s)": 1.130019
    },
    {
      "acc": 0.73772974,
      "epoch": 1.0601217656012176,
      "grad_norm": 4.21875,
      "learning_rate": 4.916323736726295e-06,
      "loss": 1.02909689,
      "memory(GiB)": 112.26,
      "step": 41790,
      "train_speed(iter/s)": 1.13003
    },
    {
      "acc": 0.73973837,
      "epoch": 1.0602486047691526,
      "grad_norm": 3.421875,
      "learning_rate": 4.9152752617484156e-06,
      "loss": 1.0649971,
      "memory(GiB)": 112.26,
      "step": 41795,
      "train_speed(iter/s)": 1.130044
    },
    {
      "acc": 0.74404192,
      "epoch": 1.0603754439370878,
      "grad_norm": 3.71875,
      "learning_rate": 4.91422679049711e-06,
      "loss": 1.06303387,
      "memory(GiB)": 112.26,
      "step": 41800,
      "train_speed(iter/s)": 1.130057
    },
    {
      "acc": 0.74591317,
      "epoch": 1.0605022831050228,
      "grad_norm": 3.625,
      "learning_rate": 4.913178323018493e-06,
      "loss": 1.02547817,
      "memory(GiB)": 112.26,
      "step": 41805,
      "train_speed(iter/s)": 1.129917
    },
    {
      "acc": 0.74808702,
      "epoch": 1.0606291222729578,
      "grad_norm": 4.78125,
      "learning_rate": 4.912129859358682e-06,
      "loss": 1.04343414,
      "memory(GiB)": 112.26,
      "step": 41810,
      "train_speed(iter/s)": 1.12994
    },
    {
      "acc": 0.7520606,
      "epoch": 1.060755961440893,
      "grad_norm": 3.71875,
      "learning_rate": 4.9110813995637905e-06,
      "loss": 0.99473085,
      "memory(GiB)": 112.26,
      "step": 41815,
      "train_speed(iter/s)": 1.129948
    },
    {
      "acc": 0.74959574,
      "epoch": 1.060882800608828,
      "grad_norm": 3.1875,
      "learning_rate": 4.910032943679936e-06,
      "loss": 1.00853233,
      "memory(GiB)": 112.26,
      "step": 41820,
      "train_speed(iter/s)": 1.129969
    },
    {
      "acc": 0.74541306,
      "epoch": 1.061009639776763,
      "grad_norm": 3.921875,
      "learning_rate": 4.908984491753234e-06,
      "loss": 1.02747555,
      "memory(GiB)": 112.26,
      "step": 41825,
      "train_speed(iter/s)": 1.12999
    },
    {
      "acc": 0.7383872,
      "epoch": 1.0611364789446982,
      "grad_norm": 3.90625,
      "learning_rate": 4.907936043829802e-06,
      "loss": 1.07540245,
      "memory(GiB)": 112.26,
      "step": 41830,
      "train_speed(iter/s)": 1.130013
    },
    {
      "acc": 0.73858633,
      "epoch": 1.0612633181126332,
      "grad_norm": 3.71875,
      "learning_rate": 4.906887599955754e-06,
      "loss": 1.06484756,
      "memory(GiB)": 112.26,
      "step": 41835,
      "train_speed(iter/s)": 1.130029
    },
    {
      "acc": 0.74992967,
      "epoch": 1.0613901572805682,
      "grad_norm": 3.828125,
      "learning_rate": 4.905839160177203e-06,
      "loss": 1.01073637,
      "memory(GiB)": 112.26,
      "step": 41840,
      "train_speed(iter/s)": 1.130052
    },
    {
      "acc": 0.73832269,
      "epoch": 1.0615169964485034,
      "grad_norm": 3.890625,
      "learning_rate": 4.904790724540267e-06,
      "loss": 1.02623701,
      "memory(GiB)": 112.26,
      "step": 41845,
      "train_speed(iter/s)": 1.130063
    },
    {
      "acc": 0.74500599,
      "epoch": 1.0616438356164384,
      "grad_norm": 3.703125,
      "learning_rate": 4.903742293091061e-06,
      "loss": 1.04089584,
      "memory(GiB)": 112.26,
      "step": 41850,
      "train_speed(iter/s)": 1.130081
    },
    {
      "acc": 0.73303757,
      "epoch": 1.0617706747843734,
      "grad_norm": 3.578125,
      "learning_rate": 4.902693865875698e-06,
      "loss": 1.09286728,
      "memory(GiB)": 112.26,
      "step": 41855,
      "train_speed(iter/s)": 1.130085
    },
    {
      "acc": 0.74086866,
      "epoch": 1.0618975139523084,
      "grad_norm": 4.125,
      "learning_rate": 4.901645442940293e-06,
      "loss": 1.05597372,
      "memory(GiB)": 112.26,
      "step": 41860,
      "train_speed(iter/s)": 1.130099
    },
    {
      "acc": 0.74733429,
      "epoch": 1.0620243531202436,
      "grad_norm": 3.59375,
      "learning_rate": 4.900597024330961e-06,
      "loss": 1.02799473,
      "memory(GiB)": 112.26,
      "step": 41865,
      "train_speed(iter/s)": 1.130107
    },
    {
      "acc": 0.73974171,
      "epoch": 1.0621511922881786,
      "grad_norm": 4.15625,
      "learning_rate": 4.899548610093816e-06,
      "loss": 1.07487268,
      "memory(GiB)": 112.26,
      "step": 41870,
      "train_speed(iter/s)": 1.130127
    },
    {
      "acc": 0.74429188,
      "epoch": 1.0622780314561135,
      "grad_norm": 5.46875,
      "learning_rate": 4.89850020027497e-06,
      "loss": 1.04487333,
      "memory(GiB)": 112.26,
      "step": 41875,
      "train_speed(iter/s)": 1.130144
    },
    {
      "acc": 0.74221935,
      "epoch": 1.0624048706240488,
      "grad_norm": 3.78125,
      "learning_rate": 4.89745179492054e-06,
      "loss": 1.0530139,
      "memory(GiB)": 112.26,
      "step": 41880,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.74671087,
      "epoch": 1.0625317097919837,
      "grad_norm": 4.21875,
      "learning_rate": 4.896403394076636e-06,
      "loss": 1.06667252,
      "memory(GiB)": 112.26,
      "step": 41885,
      "train_speed(iter/s)": 1.130164
    },
    {
      "acc": 0.73499303,
      "epoch": 1.0626585489599187,
      "grad_norm": 5.625,
      "learning_rate": 4.895354997789377e-06,
      "loss": 1.10742817,
      "memory(GiB)": 112.26,
      "step": 41890,
      "train_speed(iter/s)": 1.130187
    },
    {
      "acc": 0.74671659,
      "epoch": 1.062785388127854,
      "grad_norm": 3.453125,
      "learning_rate": 4.894306606104869e-06,
      "loss": 1.04326267,
      "memory(GiB)": 112.26,
      "step": 41895,
      "train_speed(iter/s)": 1.130201
    },
    {
      "acc": 0.74619384,
      "epoch": 1.062912227295789,
      "grad_norm": 3.140625,
      "learning_rate": 4.893258219069229e-06,
      "loss": 1.03825016,
      "memory(GiB)": 112.26,
      "step": 41900,
      "train_speed(iter/s)": 1.130221
    },
    {
      "acc": 0.74967861,
      "epoch": 1.063039066463724,
      "grad_norm": 4.0,
      "learning_rate": 4.892209836728569e-06,
      "loss": 1.03202534,
      "memory(GiB)": 112.26,
      "step": 41905,
      "train_speed(iter/s)": 1.13023
    },
    {
      "acc": 0.7363266,
      "epoch": 1.0631659056316591,
      "grad_norm": 3.34375,
      "learning_rate": 4.891161459129003e-06,
      "loss": 1.09490547,
      "memory(GiB)": 112.26,
      "step": 41910,
      "train_speed(iter/s)": 1.130251
    },
    {
      "acc": 0.75315237,
      "epoch": 1.0632927447995941,
      "grad_norm": 4.15625,
      "learning_rate": 4.890113086316641e-06,
      "loss": 1.0229516,
      "memory(GiB)": 112.26,
      "step": 41915,
      "train_speed(iter/s)": 1.130267
    },
    {
      "acc": 0.74540806,
      "epoch": 1.0634195839675291,
      "grad_norm": 3.34375,
      "learning_rate": 4.889064718337595e-06,
      "loss": 1.01870031,
      "memory(GiB)": 112.26,
      "step": 41920,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.75166988,
      "epoch": 1.0635464231354643,
      "grad_norm": 3.0625,
      "learning_rate": 4.888016355237979e-06,
      "loss": 1.03062172,
      "memory(GiB)": 112.26,
      "step": 41925,
      "train_speed(iter/s)": 1.130307
    },
    {
      "acc": 0.74160037,
      "epoch": 1.0636732623033993,
      "grad_norm": 5.90625,
      "learning_rate": 4.886967997063905e-06,
      "loss": 1.02694626,
      "memory(GiB)": 112.26,
      "step": 41930,
      "train_speed(iter/s)": 1.130324
    },
    {
      "acc": 0.74978385,
      "epoch": 1.0638001014713343,
      "grad_norm": 4.0625,
      "learning_rate": 4.885919643861482e-06,
      "loss": 0.98354683,
      "memory(GiB)": 112.26,
      "step": 41935,
      "train_speed(iter/s)": 1.130347
    },
    {
      "acc": 0.75441742,
      "epoch": 1.0639269406392695,
      "grad_norm": 5.125,
      "learning_rate": 4.884871295676821e-06,
      "loss": 0.95556011,
      "memory(GiB)": 112.26,
      "step": 41940,
      "train_speed(iter/s)": 1.130344
    },
    {
      "acc": 0.74662538,
      "epoch": 1.0640537798072045,
      "grad_norm": 3.96875,
      "learning_rate": 4.883822952556036e-06,
      "loss": 1.03604403,
      "memory(GiB)": 112.26,
      "step": 41945,
      "train_speed(iter/s)": 1.13037
    },
    {
      "acc": 0.73847303,
      "epoch": 1.0641806189751395,
      "grad_norm": 4.0625,
      "learning_rate": 4.882774614545237e-06,
      "loss": 1.03387642,
      "memory(GiB)": 112.26,
      "step": 41950,
      "train_speed(iter/s)": 1.130393
    },
    {
      "acc": 0.73780618,
      "epoch": 1.0643074581430745,
      "grad_norm": 4.15625,
      "learning_rate": 4.881726281690531e-06,
      "loss": 1.07355452,
      "memory(GiB)": 112.26,
      "step": 41955,
      "train_speed(iter/s)": 1.130409
    },
    {
      "acc": 0.7283658,
      "epoch": 1.0644342973110097,
      "grad_norm": 4.375,
      "learning_rate": 4.8806779540380335e-06,
      "loss": 1.10411739,
      "memory(GiB)": 112.26,
      "step": 41960,
      "train_speed(iter/s)": 1.130425
    },
    {
      "acc": 0.75355339,
      "epoch": 1.0645611364789447,
      "grad_norm": 3.140625,
      "learning_rate": 4.879629631633851e-06,
      "loss": 1.02437744,
      "memory(GiB)": 112.26,
      "step": 41965,
      "train_speed(iter/s)": 1.130442
    },
    {
      "acc": 0.73982077,
      "epoch": 1.0646879756468797,
      "grad_norm": 4.34375,
      "learning_rate": 4.8785813145240965e-06,
      "loss": 1.05632763,
      "memory(GiB)": 112.26,
      "step": 41970,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.73864946,
      "epoch": 1.0648148148148149,
      "grad_norm": 3.578125,
      "learning_rate": 4.877533002754877e-06,
      "loss": 1.03920155,
      "memory(GiB)": 112.26,
      "step": 41975,
      "train_speed(iter/s)": 1.130488
    },
    {
      "acc": 0.7240726,
      "epoch": 1.0649416539827499,
      "grad_norm": 3.203125,
      "learning_rate": 4.8764846963723025e-06,
      "loss": 1.10224123,
      "memory(GiB)": 112.26,
      "step": 41980,
      "train_speed(iter/s)": 1.130516
    },
    {
      "acc": 0.73317509,
      "epoch": 1.0650684931506849,
      "grad_norm": 4.28125,
      "learning_rate": 4.875436395422481e-06,
      "loss": 1.06620235,
      "memory(GiB)": 112.26,
      "step": 41985,
      "train_speed(iter/s)": 1.130528
    },
    {
      "acc": 0.73733869,
      "epoch": 1.06519533231862,
      "grad_norm": 3.421875,
      "learning_rate": 4.874388099951527e-06,
      "loss": 1.05492439,
      "memory(GiB)": 112.26,
      "step": 41990,
      "train_speed(iter/s)": 1.130553
    },
    {
      "acc": 0.7617918,
      "epoch": 1.065322171486555,
      "grad_norm": 3.15625,
      "learning_rate": 4.873339810005543e-06,
      "loss": 1.01723728,
      "memory(GiB)": 112.26,
      "step": 41995,
      "train_speed(iter/s)": 1.130561
    },
    {
      "acc": 0.73367805,
      "epoch": 1.06544901065449,
      "grad_norm": 3.84375,
      "learning_rate": 4.872291525630638e-06,
      "loss": 1.09919109,
      "memory(GiB)": 112.26,
      "step": 42000,
      "train_speed(iter/s)": 1.130572
    },
    {
      "epoch": 1.06544901065449,
      "eval_acc": 0.7254031997026252,
      "eval_loss": 1.0454081296920776,
      "eval_runtime": 70.7337,
      "eval_samples_per_second": 90.056,
      "eval_steps_per_second": 22.521,
      "step": 42000
    },
    {
      "acc": 0.74539204,
      "epoch": 1.0655758498224253,
      "grad_norm": 3.96875,
      "learning_rate": 4.871243246872923e-06,
      "loss": 1.03534565,
      "memory(GiB)": 112.26,
      "step": 42005,
      "train_speed(iter/s)": 1.127114
    },
    {
      "acc": 0.74051681,
      "epoch": 1.0657026889903602,
      "grad_norm": 3.609375,
      "learning_rate": 4.870194973778506e-06,
      "loss": 1.05212898,
      "memory(GiB)": 112.26,
      "step": 42010,
      "train_speed(iter/s)": 1.127124
    },
    {
      "acc": 0.73720069,
      "epoch": 1.0658295281582952,
      "grad_norm": 3.515625,
      "learning_rate": 4.869146706393493e-06,
      "loss": 1.0945343,
      "memory(GiB)": 112.26,
      "step": 42015,
      "train_speed(iter/s)": 1.127147
    },
    {
      "acc": 0.7494699,
      "epoch": 1.0659563673262302,
      "grad_norm": 3.984375,
      "learning_rate": 4.868098444763991e-06,
      "loss": 1.00000353,
      "memory(GiB)": 112.26,
      "step": 42020,
      "train_speed(iter/s)": 1.127166
    },
    {
      "acc": 0.73597693,
      "epoch": 1.0660832064941654,
      "grad_norm": 5.03125,
      "learning_rate": 4.86705018893611e-06,
      "loss": 1.07914343,
      "memory(GiB)": 112.26,
      "step": 42025,
      "train_speed(iter/s)": 1.127194
    },
    {
      "acc": 0.74918385,
      "epoch": 1.0662100456621004,
      "grad_norm": 3.328125,
      "learning_rate": 4.866001938955955e-06,
      "loss": 1.02193203,
      "memory(GiB)": 112.26,
      "step": 42030,
      "train_speed(iter/s)": 1.127206
    },
    {
      "acc": 0.73494558,
      "epoch": 1.0663368848300354,
      "grad_norm": 3.296875,
      "learning_rate": 4.864953694869632e-06,
      "loss": 1.06220112,
      "memory(GiB)": 112.26,
      "step": 42035,
      "train_speed(iter/s)": 1.12723
    },
    {
      "acc": 0.74844785,
      "epoch": 1.0664637239979706,
      "grad_norm": 5.40625,
      "learning_rate": 4.863905456723249e-06,
      "loss": 1.03875847,
      "memory(GiB)": 112.26,
      "step": 42040,
      "train_speed(iter/s)": 1.127249
    },
    {
      "acc": 0.72508345,
      "epoch": 1.0665905631659056,
      "grad_norm": 3.65625,
      "learning_rate": 4.8628572245629105e-06,
      "loss": 1.12367315,
      "memory(GiB)": 112.26,
      "step": 42045,
      "train_speed(iter/s)": 1.127267
    },
    {
      "acc": 0.73929367,
      "epoch": 1.0667174023338406,
      "grad_norm": 3.8125,
      "learning_rate": 4.861808998434726e-06,
      "loss": 1.0444355,
      "memory(GiB)": 112.26,
      "step": 42050,
      "train_speed(iter/s)": 1.127284
    },
    {
      "acc": 0.75050669,
      "epoch": 1.0668442415017758,
      "grad_norm": 4.125,
      "learning_rate": 4.860760778384797e-06,
      "loss": 1.00147467,
      "memory(GiB)": 112.26,
      "step": 42055,
      "train_speed(iter/s)": 1.127301
    },
    {
      "acc": 0.74087348,
      "epoch": 1.0669710806697108,
      "grad_norm": 3.453125,
      "learning_rate": 4.85971256445923e-06,
      "loss": 1.02459888,
      "memory(GiB)": 112.26,
      "step": 42060,
      "train_speed(iter/s)": 1.127314
    },
    {
      "acc": 0.73774452,
      "epoch": 1.0670979198376458,
      "grad_norm": 4.25,
      "learning_rate": 4.858664356704131e-06,
      "loss": 1.08721008,
      "memory(GiB)": 112.26,
      "step": 42065,
      "train_speed(iter/s)": 1.127331
    },
    {
      "acc": 0.76545062,
      "epoch": 1.067224759005581,
      "grad_norm": 4.21875,
      "learning_rate": 4.857616155165606e-06,
      "loss": 0.93010693,
      "memory(GiB)": 112.26,
      "step": 42070,
      "train_speed(iter/s)": 1.12736
    },
    {
      "acc": 0.71858521,
      "epoch": 1.067351598173516,
      "grad_norm": 3.4375,
      "learning_rate": 4.856567959889758e-06,
      "loss": 1.14176998,
      "memory(GiB)": 112.26,
      "step": 42075,
      "train_speed(iter/s)": 1.127366
    },
    {
      "acc": 0.7514102,
      "epoch": 1.067478437341451,
      "grad_norm": 3.875,
      "learning_rate": 4.855519770922691e-06,
      "loss": 1.0555212,
      "memory(GiB)": 112.26,
      "step": 42080,
      "train_speed(iter/s)": 1.127382
    },
    {
      "acc": 0.73902578,
      "epoch": 1.0676052765093862,
      "grad_norm": 4.375,
      "learning_rate": 4.8544715883105084e-06,
      "loss": 1.0636198,
      "memory(GiB)": 112.26,
      "step": 42085,
      "train_speed(iter/s)": 1.12739
    },
    {
      "acc": 0.74866266,
      "epoch": 1.0677321156773212,
      "grad_norm": 4.0625,
      "learning_rate": 4.853423412099318e-06,
      "loss": 1.06799212,
      "memory(GiB)": 112.26,
      "step": 42090,
      "train_speed(iter/s)": 1.127404
    },
    {
      "acc": 0.73374929,
      "epoch": 1.0678589548452562,
      "grad_norm": 3.71875,
      "learning_rate": 4.852375242335217e-06,
      "loss": 1.07277641,
      "memory(GiB)": 112.26,
      "step": 42095,
      "train_speed(iter/s)": 1.127431
    },
    {
      "acc": 0.74089136,
      "epoch": 1.0679857940131914,
      "grad_norm": 3.4375,
      "learning_rate": 4.851327079064314e-06,
      "loss": 1.05892477,
      "memory(GiB)": 112.26,
      "step": 42100,
      "train_speed(iter/s)": 1.12745
    },
    {
      "acc": 0.73745365,
      "epoch": 1.0681126331811264,
      "grad_norm": 4.0625,
      "learning_rate": 4.850278922332708e-06,
      "loss": 1.11742268,
      "memory(GiB)": 112.26,
      "step": 42105,
      "train_speed(iter/s)": 1.127467
    },
    {
      "acc": 0.74061832,
      "epoch": 1.0682394723490614,
      "grad_norm": 4.21875,
      "learning_rate": 4.849230772186508e-06,
      "loss": 1.04482975,
      "memory(GiB)": 112.26,
      "step": 42110,
      "train_speed(iter/s)": 1.127474
    },
    {
      "acc": 0.74644308,
      "epoch": 1.0683663115169963,
      "grad_norm": 3.265625,
      "learning_rate": 4.848182628671806e-06,
      "loss": 1.01763058,
      "memory(GiB)": 112.26,
      "step": 42115,
      "train_speed(iter/s)": 1.127489
    },
    {
      "acc": 0.75219593,
      "epoch": 1.0684931506849316,
      "grad_norm": 3.34375,
      "learning_rate": 4.847134491834713e-06,
      "loss": 1.0209507,
      "memory(GiB)": 112.26,
      "step": 42120,
      "train_speed(iter/s)": 1.127506
    },
    {
      "acc": 0.73943605,
      "epoch": 1.0686199898528665,
      "grad_norm": 3.296875,
      "learning_rate": 4.846086361721326e-06,
      "loss": 1.02228127,
      "memory(GiB)": 112.26,
      "step": 42125,
      "train_speed(iter/s)": 1.127537
    },
    {
      "acc": 0.73518748,
      "epoch": 1.0687468290208015,
      "grad_norm": 4.0625,
      "learning_rate": 4.84503823837775e-06,
      "loss": 1.05709095,
      "memory(GiB)": 112.26,
      "step": 42130,
      "train_speed(iter/s)": 1.127561
    },
    {
      "acc": 0.74719625,
      "epoch": 1.0688736681887367,
      "grad_norm": 3.3125,
      "learning_rate": 4.843990121850083e-06,
      "loss": 1.0225008,
      "memory(GiB)": 112.26,
      "step": 42135,
      "train_speed(iter/s)": 1.127585
    },
    {
      "acc": 0.72743273,
      "epoch": 1.0690005073566717,
      "grad_norm": 3.703125,
      "learning_rate": 4.842942012184426e-06,
      "loss": 1.08796244,
      "memory(GiB)": 112.26,
      "step": 42140,
      "train_speed(iter/s)": 1.12761
    },
    {
      "acc": 0.73296971,
      "epoch": 1.0691273465246067,
      "grad_norm": 3.109375,
      "learning_rate": 4.841893909426881e-06,
      "loss": 1.07879353,
      "memory(GiB)": 112.26,
      "step": 42145,
      "train_speed(iter/s)": 1.12763
    },
    {
      "acc": 0.73419476,
      "epoch": 1.069254185692542,
      "grad_norm": 4.59375,
      "learning_rate": 4.84084581362355e-06,
      "loss": 1.1044323,
      "memory(GiB)": 112.26,
      "step": 42150,
      "train_speed(iter/s)": 1.127658
    },
    {
      "acc": 0.74152184,
      "epoch": 1.069381024860477,
      "grad_norm": 3.515625,
      "learning_rate": 4.839797724820529e-06,
      "loss": 1.05270128,
      "memory(GiB)": 112.26,
      "step": 42155,
      "train_speed(iter/s)": 1.127668
    },
    {
      "acc": 0.7341002,
      "epoch": 1.069507864028412,
      "grad_norm": 4.5625,
      "learning_rate": 4.838749643063918e-06,
      "loss": 1.09911308,
      "memory(GiB)": 112.26,
      "step": 42160,
      "train_speed(iter/s)": 1.127692
    },
    {
      "acc": 0.73462486,
      "epoch": 1.0696347031963471,
      "grad_norm": 3.40625,
      "learning_rate": 4.837701568399819e-06,
      "loss": 1.08268223,
      "memory(GiB)": 112.26,
      "step": 42165,
      "train_speed(iter/s)": 1.127718
    },
    {
      "acc": 0.72486234,
      "epoch": 1.0697615423642821,
      "grad_norm": 2.984375,
      "learning_rate": 4.836653500874331e-06,
      "loss": 1.06804333,
      "memory(GiB)": 112.26,
      "step": 42170,
      "train_speed(iter/s)": 1.127743
    },
    {
      "acc": 0.74299145,
      "epoch": 1.069888381532217,
      "grad_norm": 3.859375,
      "learning_rate": 4.835605440533549e-06,
      "loss": 1.09297695,
      "memory(GiB)": 112.26,
      "step": 42175,
      "train_speed(iter/s)": 1.127765
    },
    {
      "acc": 0.75575175,
      "epoch": 1.070015220700152,
      "grad_norm": 3.734375,
      "learning_rate": 4.834557387423575e-06,
      "loss": 0.97537699,
      "memory(GiB)": 112.26,
      "step": 42180,
      "train_speed(iter/s)": 1.127783
    },
    {
      "acc": 0.73773661,
      "epoch": 1.0701420598680873,
      "grad_norm": 3.359375,
      "learning_rate": 4.833509341590503e-06,
      "loss": 1.07647238,
      "memory(GiB)": 112.26,
      "step": 42185,
      "train_speed(iter/s)": 1.127809
    },
    {
      "acc": 0.74111714,
      "epoch": 1.0702688990360223,
      "grad_norm": 3.734375,
      "learning_rate": 4.8324613030804374e-06,
      "loss": 0.99262838,
      "memory(GiB)": 112.26,
      "step": 42190,
      "train_speed(iter/s)": 1.127806
    },
    {
      "acc": 0.7307724,
      "epoch": 1.0703957382039573,
      "grad_norm": 3.84375,
      "learning_rate": 4.83141327193947e-06,
      "loss": 1.10922184,
      "memory(GiB)": 112.26,
      "step": 42195,
      "train_speed(iter/s)": 1.12783
    },
    {
      "acc": 0.75091391,
      "epoch": 1.0705225773718925,
      "grad_norm": 3.78125,
      "learning_rate": 4.8303652482137e-06,
      "loss": 1.00783577,
      "memory(GiB)": 112.26,
      "step": 42200,
      "train_speed(iter/s)": 1.127855
    },
    {
      "acc": 0.72616343,
      "epoch": 1.0706494165398275,
      "grad_norm": 4.125,
      "learning_rate": 4.829317231949222e-06,
      "loss": 1.10055618,
      "memory(GiB)": 112.26,
      "step": 42205,
      "train_speed(iter/s)": 1.127873
    },
    {
      "acc": 0.75786366,
      "epoch": 1.0707762557077625,
      "grad_norm": 3.671875,
      "learning_rate": 4.828269223192137e-06,
      "loss": 1.0512516,
      "memory(GiB)": 112.26,
      "step": 42210,
      "train_speed(iter/s)": 1.127882
    },
    {
      "acc": 0.74374895,
      "epoch": 1.0709030948756977,
      "grad_norm": 3.890625,
      "learning_rate": 4.827221221988537e-06,
      "loss": 1.04458361,
      "memory(GiB)": 112.26,
      "step": 42215,
      "train_speed(iter/s)": 1.127907
    },
    {
      "acc": 0.74416733,
      "epoch": 1.0710299340436327,
      "grad_norm": 3.40625,
      "learning_rate": 4.826173228384518e-06,
      "loss": 1.0266921,
      "memory(GiB)": 112.26,
      "step": 42220,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.73682504,
      "epoch": 1.0711567732115677,
      "grad_norm": 3.296875,
      "learning_rate": 4.8251252424261775e-06,
      "loss": 1.105445,
      "memory(GiB)": 112.26,
      "step": 42225,
      "train_speed(iter/s)": 1.127948
    },
    {
      "acc": 0.75389576,
      "epoch": 1.0712836123795029,
      "grad_norm": 3.28125,
      "learning_rate": 4.8240772641596105e-06,
      "loss": 0.97724104,
      "memory(GiB)": 112.26,
      "step": 42230,
      "train_speed(iter/s)": 1.127963
    },
    {
      "acc": 0.75000582,
      "epoch": 1.0714104515474379,
      "grad_norm": 3.421875,
      "learning_rate": 4.82302929363091e-06,
      "loss": 1.05736933,
      "memory(GiB)": 112.26,
      "step": 42235,
      "train_speed(iter/s)": 1.127986
    },
    {
      "acc": 0.74013386,
      "epoch": 1.0715372907153728,
      "grad_norm": 3.734375,
      "learning_rate": 4.8219813308861705e-06,
      "loss": 1.08831902,
      "memory(GiB)": 112.26,
      "step": 42240,
      "train_speed(iter/s)": 1.128004
    },
    {
      "acc": 0.75477729,
      "epoch": 1.071664129883308,
      "grad_norm": 3.53125,
      "learning_rate": 4.820933375971487e-06,
      "loss": 0.97928772,
      "memory(GiB)": 112.26,
      "step": 42245,
      "train_speed(iter/s)": 1.128023
    },
    {
      "acc": 0.74881053,
      "epoch": 1.071790969051243,
      "grad_norm": 4.28125,
      "learning_rate": 4.819885428932955e-06,
      "loss": 1.06656752,
      "memory(GiB)": 112.26,
      "step": 42250,
      "train_speed(iter/s)": 1.128049
    },
    {
      "acc": 0.75271015,
      "epoch": 1.071917808219178,
      "grad_norm": 3.640625,
      "learning_rate": 4.818837489816664e-06,
      "loss": 1.02991199,
      "memory(GiB)": 112.26,
      "step": 42255,
      "train_speed(iter/s)": 1.128073
    },
    {
      "acc": 0.7391901,
      "epoch": 1.0720446473871132,
      "grad_norm": 3.34375,
      "learning_rate": 4.81778955866871e-06,
      "loss": 1.08942738,
      "memory(GiB)": 112.26,
      "step": 42260,
      "train_speed(iter/s)": 1.128095
    },
    {
      "acc": 0.74876213,
      "epoch": 1.0721714865550482,
      "grad_norm": 3.59375,
      "learning_rate": 4.816741635535183e-06,
      "loss": 1.03662434,
      "memory(GiB)": 112.26,
      "step": 42265,
      "train_speed(iter/s)": 1.12812
    },
    {
      "acc": 0.73217206,
      "epoch": 1.0722983257229832,
      "grad_norm": 3.75,
      "learning_rate": 4.81569372046218e-06,
      "loss": 1.13414097,
      "memory(GiB)": 112.26,
      "step": 42270,
      "train_speed(iter/s)": 1.12814
    },
    {
      "acc": 0.73055763,
      "epoch": 1.0724251648909182,
      "grad_norm": 4.25,
      "learning_rate": 4.814645813495788e-06,
      "loss": 1.11277361,
      "memory(GiB)": 112.26,
      "step": 42275,
      "train_speed(iter/s)": 1.128158
    },
    {
      "acc": 0.73725061,
      "epoch": 1.0725520040588534,
      "grad_norm": 2.9375,
      "learning_rate": 4.8135979146821e-06,
      "loss": 1.07506399,
      "memory(GiB)": 112.26,
      "step": 42280,
      "train_speed(iter/s)": 1.128178
    },
    {
      "acc": 0.73169498,
      "epoch": 1.0726788432267884,
      "grad_norm": 4.28125,
      "learning_rate": 4.81255002406721e-06,
      "loss": 1.03882484,
      "memory(GiB)": 112.26,
      "step": 42285,
      "train_speed(iter/s)": 1.128206
    },
    {
      "acc": 0.7554605,
      "epoch": 1.0728056823947234,
      "grad_norm": 4.40625,
      "learning_rate": 4.811502141697206e-06,
      "loss": 0.99210224,
      "memory(GiB)": 112.26,
      "step": 42290,
      "train_speed(iter/s)": 1.128221
    },
    {
      "acc": 0.73704939,
      "epoch": 1.0729325215626586,
      "grad_norm": 3.125,
      "learning_rate": 4.81045426761818e-06,
      "loss": 1.05326805,
      "memory(GiB)": 112.26,
      "step": 42295,
      "train_speed(iter/s)": 1.128248
    },
    {
      "acc": 0.74369636,
      "epoch": 1.0730593607305936,
      "grad_norm": 3.0625,
      "learning_rate": 4.80940640187622e-06,
      "loss": 1.08267117,
      "memory(GiB)": 112.26,
      "step": 42300,
      "train_speed(iter/s)": 1.128255
    },
    {
      "acc": 0.74705753,
      "epoch": 1.0731861998985286,
      "grad_norm": 3.640625,
      "learning_rate": 4.808358544517418e-06,
      "loss": 1.0201498,
      "memory(GiB)": 112.26,
      "step": 42305,
      "train_speed(iter/s)": 1.128275
    },
    {
      "acc": 0.75375037,
      "epoch": 1.0733130390664638,
      "grad_norm": 4.0625,
      "learning_rate": 4.807310695587865e-06,
      "loss": 0.9866909,
      "memory(GiB)": 112.26,
      "step": 42310,
      "train_speed(iter/s)": 1.128303
    },
    {
      "acc": 0.7191216,
      "epoch": 1.0734398782343988,
      "grad_norm": 3.53125,
      "learning_rate": 4.8062628551336445e-06,
      "loss": 1.13174925,
      "memory(GiB)": 112.26,
      "step": 42315,
      "train_speed(iter/s)": 1.128321
    },
    {
      "acc": 0.73586855,
      "epoch": 1.0735667174023338,
      "grad_norm": 3.640625,
      "learning_rate": 4.80521502320085e-06,
      "loss": 1.09472914,
      "memory(GiB)": 112.26,
      "step": 42320,
      "train_speed(iter/s)": 1.128344
    },
    {
      "acc": 0.73110371,
      "epoch": 1.073693556570269,
      "grad_norm": 4.09375,
      "learning_rate": 4.804167199835567e-06,
      "loss": 1.06424007,
      "memory(GiB)": 112.26,
      "step": 42325,
      "train_speed(iter/s)": 1.128345
    },
    {
      "acc": 0.7432487,
      "epoch": 1.073820395738204,
      "grad_norm": 3.546875,
      "learning_rate": 4.8031193850838894e-06,
      "loss": 1.00950642,
      "memory(GiB)": 112.26,
      "step": 42330,
      "train_speed(iter/s)": 1.128355
    },
    {
      "acc": 0.74549036,
      "epoch": 1.073947234906139,
      "grad_norm": 3.53125,
      "learning_rate": 4.802071578991896e-06,
      "loss": 1.07283716,
      "memory(GiB)": 112.26,
      "step": 42335,
      "train_speed(iter/s)": 1.128386
    },
    {
      "acc": 0.74046221,
      "epoch": 1.074074074074074,
      "grad_norm": 3.171875,
      "learning_rate": 4.801023781605679e-06,
      "loss": 1.07347393,
      "memory(GiB)": 112.26,
      "step": 42340,
      "train_speed(iter/s)": 1.128404
    },
    {
      "acc": 0.73430777,
      "epoch": 1.0742009132420092,
      "grad_norm": 3.046875,
      "learning_rate": 4.799975992971325e-06,
      "loss": 1.05898962,
      "memory(GiB)": 112.26,
      "step": 42345,
      "train_speed(iter/s)": 1.128413
    },
    {
      "acc": 0.74935355,
      "epoch": 1.0743277524099442,
      "grad_norm": 3.4375,
      "learning_rate": 4.798928213134921e-06,
      "loss": 1.03283691,
      "memory(GiB)": 112.26,
      "step": 42350,
      "train_speed(iter/s)": 1.128434
    },
    {
      "acc": 0.74994688,
      "epoch": 1.0744545915778791,
      "grad_norm": 3.953125,
      "learning_rate": 4.797880442142551e-06,
      "loss": 1.09477406,
      "memory(GiB)": 112.26,
      "step": 42355,
      "train_speed(iter/s)": 1.128442
    },
    {
      "acc": 0.74938631,
      "epoch": 1.0745814307458144,
      "grad_norm": 3.703125,
      "learning_rate": 4.7968326800403e-06,
      "loss": 1.01640511,
      "memory(GiB)": 112.26,
      "step": 42360,
      "train_speed(iter/s)": 1.12846
    },
    {
      "acc": 0.7320909,
      "epoch": 1.0747082699137493,
      "grad_norm": 4.3125,
      "learning_rate": 4.795784926874255e-06,
      "loss": 1.08221836,
      "memory(GiB)": 112.26,
      "step": 42365,
      "train_speed(iter/s)": 1.128489
    },
    {
      "acc": 0.74643054,
      "epoch": 1.0748351090816843,
      "grad_norm": 4.28125,
      "learning_rate": 4.794737182690503e-06,
      "loss": 1.06053066,
      "memory(GiB)": 112.26,
      "step": 42370,
      "train_speed(iter/s)": 1.128519
    },
    {
      "acc": 0.72505531,
      "epoch": 1.0749619482496195,
      "grad_norm": 3.34375,
      "learning_rate": 4.793689447535126e-06,
      "loss": 1.05209579,
      "memory(GiB)": 112.26,
      "step": 42375,
      "train_speed(iter/s)": 1.128535
    },
    {
      "acc": 0.75741177,
      "epoch": 1.0750887874175545,
      "grad_norm": 4.28125,
      "learning_rate": 4.792641721454206e-06,
      "loss": 1.05979767,
      "memory(GiB)": 112.26,
      "step": 42380,
      "train_speed(iter/s)": 1.128553
    },
    {
      "acc": 0.7473876,
      "epoch": 1.0752156265854895,
      "grad_norm": 3.515625,
      "learning_rate": 4.79159400449383e-06,
      "loss": 1.04612722,
      "memory(GiB)": 112.26,
      "step": 42385,
      "train_speed(iter/s)": 1.128573
    },
    {
      "acc": 0.74567294,
      "epoch": 1.0753424657534247,
      "grad_norm": 3.53125,
      "learning_rate": 4.7905462967000816e-06,
      "loss": 1.06185493,
      "memory(GiB)": 112.26,
      "step": 42390,
      "train_speed(iter/s)": 1.128593
    },
    {
      "acc": 0.73153291,
      "epoch": 1.0754693049213597,
      "grad_norm": 4.03125,
      "learning_rate": 4.789498598119039e-06,
      "loss": 1.1103056,
      "memory(GiB)": 112.26,
      "step": 42395,
      "train_speed(iter/s)": 1.128616
    },
    {
      "acc": 0.73830643,
      "epoch": 1.0755961440892947,
      "grad_norm": 3.5625,
      "learning_rate": 4.78845090879679e-06,
      "loss": 1.04904385,
      "memory(GiB)": 112.26,
      "step": 42400,
      "train_speed(iter/s)": 1.128645
    },
    {
      "acc": 0.74283242,
      "epoch": 1.07572298325723,
      "grad_norm": 4.25,
      "learning_rate": 4.787403228779413e-06,
      "loss": 1.03846703,
      "memory(GiB)": 112.26,
      "step": 42405,
      "train_speed(iter/s)": 1.128664
    },
    {
      "acc": 0.7363596,
      "epoch": 1.075849822425165,
      "grad_norm": 5.03125,
      "learning_rate": 4.786355558112994e-06,
      "loss": 1.0970808,
      "memory(GiB)": 112.26,
      "step": 42410,
      "train_speed(iter/s)": 1.128678
    },
    {
      "acc": 0.75712814,
      "epoch": 1.0759766615931,
      "grad_norm": 3.265625,
      "learning_rate": 4.78530789684361e-06,
      "loss": 1.00474901,
      "memory(GiB)": 112.26,
      "step": 42415,
      "train_speed(iter/s)": 1.128699
    },
    {
      "acc": 0.73526201,
      "epoch": 1.0761035007610351,
      "grad_norm": 2.875,
      "learning_rate": 4.784260245017343e-06,
      "loss": 1.0820694,
      "memory(GiB)": 112.26,
      "step": 42420,
      "train_speed(iter/s)": 1.12872
    },
    {
      "acc": 0.74230967,
      "epoch": 1.07623033992897,
      "grad_norm": 3.546875,
      "learning_rate": 4.7832126026802725e-06,
      "loss": 1.0691576,
      "memory(GiB)": 112.26,
      "step": 42425,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.74621258,
      "epoch": 1.076357179096905,
      "grad_norm": 3.765625,
      "learning_rate": 4.782164969878482e-06,
      "loss": 0.98516302,
      "memory(GiB)": 112.26,
      "step": 42430,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.72376237,
      "epoch": 1.07648401826484,
      "grad_norm": 3.265625,
      "learning_rate": 4.781117346658047e-06,
      "loss": 1.07749205,
      "memory(GiB)": 112.26,
      "step": 42435,
      "train_speed(iter/s)": 1.128773
    },
    {
      "acc": 0.73269558,
      "epoch": 1.0766108574327753,
      "grad_norm": 3.578125,
      "learning_rate": 4.780069733065048e-06,
      "loss": 1.04737854,
      "memory(GiB)": 112.26,
      "step": 42440,
      "train_speed(iter/s)": 1.128781
    },
    {
      "acc": 0.75108261,
      "epoch": 1.0767376966007103,
      "grad_norm": 5.75,
      "learning_rate": 4.779022129145566e-06,
      "loss": 1.02593307,
      "memory(GiB)": 112.26,
      "step": 42445,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.73247342,
      "epoch": 1.0768645357686453,
      "grad_norm": 4.0,
      "learning_rate": 4.777974534945677e-06,
      "loss": 1.13488693,
      "memory(GiB)": 112.26,
      "step": 42450,
      "train_speed(iter/s)": 1.128818
    },
    {
      "acc": 0.73612723,
      "epoch": 1.0769913749365805,
      "grad_norm": 2.96875,
      "learning_rate": 4.776926950511457e-06,
      "loss": 1.1218318,
      "memory(GiB)": 112.26,
      "step": 42455,
      "train_speed(iter/s)": 1.128845
    },
    {
      "acc": 0.72527781,
      "epoch": 1.0771182141045155,
      "grad_norm": 3.53125,
      "learning_rate": 4.775879375888986e-06,
      "loss": 1.11673908,
      "memory(GiB)": 112.26,
      "step": 42460,
      "train_speed(iter/s)": 1.128857
    },
    {
      "acc": 0.74812732,
      "epoch": 1.0772450532724505,
      "grad_norm": 3.671875,
      "learning_rate": 4.774831811124343e-06,
      "loss": 1.0596427,
      "memory(GiB)": 112.26,
      "step": 42465,
      "train_speed(iter/s)": 1.128869
    },
    {
      "acc": 0.74117022,
      "epoch": 1.0773718924403857,
      "grad_norm": 3.40625,
      "learning_rate": 4.773784256263601e-06,
      "loss": 1.0371294,
      "memory(GiB)": 112.26,
      "step": 42470,
      "train_speed(iter/s)": 1.12889
    },
    {
      "acc": 0.72969389,
      "epoch": 1.0774987316083207,
      "grad_norm": 3.609375,
      "learning_rate": 4.7727367113528374e-06,
      "loss": 1.08338232,
      "memory(GiB)": 112.26,
      "step": 42475,
      "train_speed(iter/s)": 1.128903
    },
    {
      "acc": 0.73219705,
      "epoch": 1.0776255707762556,
      "grad_norm": 3.53125,
      "learning_rate": 4.771689176438128e-06,
      "loss": 1.10959482,
      "memory(GiB)": 112.26,
      "step": 42480,
      "train_speed(iter/s)": 1.128913
    },
    {
      "acc": 0.74544206,
      "epoch": 1.0777524099441909,
      "grad_norm": 4.21875,
      "learning_rate": 4.770641651565546e-06,
      "loss": 1.00616131,
      "memory(GiB)": 112.26,
      "step": 42485,
      "train_speed(iter/s)": 1.128925
    },
    {
      "acc": 0.74557481,
      "epoch": 1.0778792491121258,
      "grad_norm": 3.671875,
      "learning_rate": 4.769594136781172e-06,
      "loss": 1.027635,
      "memory(GiB)": 112.26,
      "step": 42490,
      "train_speed(iter/s)": 1.128945
    },
    {
      "acc": 0.74816885,
      "epoch": 1.0780060882800608,
      "grad_norm": 4.34375,
      "learning_rate": 4.768546632131074e-06,
      "loss": 1.03474627,
      "memory(GiB)": 112.26,
      "step": 42495,
      "train_speed(iter/s)": 1.128969
    },
    {
      "acc": 0.73719797,
      "epoch": 1.0781329274479958,
      "grad_norm": 5.0,
      "learning_rate": 4.767499137661328e-06,
      "loss": 1.09187307,
      "memory(GiB)": 112.26,
      "step": 42500,
      "train_speed(iter/s)": 1.128971
    },
    {
      "acc": 0.74884472,
      "epoch": 1.078259766615931,
      "grad_norm": 2.9375,
      "learning_rate": 4.76645165341801e-06,
      "loss": 0.97324848,
      "memory(GiB)": 112.26,
      "step": 42505,
      "train_speed(iter/s)": 1.128993
    },
    {
      "acc": 0.72677526,
      "epoch": 1.078386605783866,
      "grad_norm": 3.9375,
      "learning_rate": 4.76540417944719e-06,
      "loss": 1.05981913,
      "memory(GiB)": 112.26,
      "step": 42510,
      "train_speed(iter/s)": 1.128994
    },
    {
      "acc": 0.74461861,
      "epoch": 1.078513444951801,
      "grad_norm": 3.0625,
      "learning_rate": 4.764356715794942e-06,
      "loss": 1.0657402,
      "memory(GiB)": 112.26,
      "step": 42515,
      "train_speed(iter/s)": 1.129006
    },
    {
      "acc": 0.7519969,
      "epoch": 1.0786402841197362,
      "grad_norm": 4.96875,
      "learning_rate": 4.763309262507336e-06,
      "loss": 0.97946262,
      "memory(GiB)": 112.26,
      "step": 42520,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.73791351,
      "epoch": 1.0787671232876712,
      "grad_norm": 4.1875,
      "learning_rate": 4.762261819630447e-06,
      "loss": 1.07602501,
      "memory(GiB)": 112.26,
      "step": 42525,
      "train_speed(iter/s)": 1.129038
    },
    {
      "acc": 0.75361691,
      "epoch": 1.0788939624556062,
      "grad_norm": 3.6875,
      "learning_rate": 4.761214387210345e-06,
      "loss": 1.01384735,
      "memory(GiB)": 112.26,
      "step": 42530,
      "train_speed(iter/s)": 1.129056
    },
    {
      "acc": 0.7604929,
      "epoch": 1.0790208016235414,
      "grad_norm": 3.484375,
      "learning_rate": 4.760166965293099e-06,
      "loss": 1.04365206,
      "memory(GiB)": 112.26,
      "step": 42535,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.75084314,
      "epoch": 1.0791476407914764,
      "grad_norm": 4.0625,
      "learning_rate": 4.759119553924781e-06,
      "loss": 0.99756422,
      "memory(GiB)": 112.26,
      "step": 42540,
      "train_speed(iter/s)": 1.129098
    },
    {
      "acc": 0.73804245,
      "epoch": 1.0792744799594114,
      "grad_norm": 3.484375,
      "learning_rate": 4.758072153151461e-06,
      "loss": 1.03682003,
      "memory(GiB)": 112.26,
      "step": 42545,
      "train_speed(iter/s)": 1.129103
    },
    {
      "acc": 0.73970065,
      "epoch": 1.0794013191273466,
      "grad_norm": 3.40625,
      "learning_rate": 4.757024763019209e-06,
      "loss": 1.0207716,
      "memory(GiB)": 112.26,
      "step": 42550,
      "train_speed(iter/s)": 1.129118
    },
    {
      "acc": 0.74368544,
      "epoch": 1.0795281582952816,
      "grad_norm": 3.109375,
      "learning_rate": 4.755977383574091e-06,
      "loss": 1.02905703,
      "memory(GiB)": 112.26,
      "step": 42555,
      "train_speed(iter/s)": 1.129135
    },
    {
      "acc": 0.74774623,
      "epoch": 1.0796549974632166,
      "grad_norm": 3.625,
      "learning_rate": 4.754930014862177e-06,
      "loss": 1.05026207,
      "memory(GiB)": 112.26,
      "step": 42560,
      "train_speed(iter/s)": 1.129159
    },
    {
      "acc": 0.73833365,
      "epoch": 1.0797818366311518,
      "grad_norm": 4.125,
      "learning_rate": 4.753882656929535e-06,
      "loss": 1.12128725,
      "memory(GiB)": 112.26,
      "step": 42565,
      "train_speed(iter/s)": 1.12918
    },
    {
      "acc": 0.74730453,
      "epoch": 1.0799086757990868,
      "grad_norm": 3.421875,
      "learning_rate": 4.752835309822234e-06,
      "loss": 1.05464325,
      "memory(GiB)": 112.26,
      "step": 42570,
      "train_speed(iter/s)": 1.129204
    },
    {
      "acc": 0.75088696,
      "epoch": 1.0800355149670218,
      "grad_norm": 3.671875,
      "learning_rate": 4.7517879735863385e-06,
      "loss": 1.01916494,
      "memory(GiB)": 112.26,
      "step": 42575,
      "train_speed(iter/s)": 1.129215
    },
    {
      "acc": 0.72845616,
      "epoch": 1.080162354134957,
      "grad_norm": 3.09375,
      "learning_rate": 4.750740648267916e-06,
      "loss": 1.08414841,
      "memory(GiB)": 112.26,
      "step": 42580,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.73719749,
      "epoch": 1.080289193302892,
      "grad_norm": 3.125,
      "learning_rate": 4.749693333913033e-06,
      "loss": 1.06983643,
      "memory(GiB)": 112.26,
      "step": 42585,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.7406208,
      "epoch": 1.080416032470827,
      "grad_norm": 3.859375,
      "learning_rate": 4.748646030567755e-06,
      "loss": 1.07493429,
      "memory(GiB)": 112.26,
      "step": 42590,
      "train_speed(iter/s)": 1.129266
    },
    {
      "acc": 0.74362135,
      "epoch": 1.080542871638762,
      "grad_norm": 4.0625,
      "learning_rate": 4.747598738278147e-06,
      "loss": 1.07008934,
      "memory(GiB)": 112.26,
      "step": 42595,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.74341617,
      "epoch": 1.0806697108066972,
      "grad_norm": 3.0625,
      "learning_rate": 4.746551457090272e-06,
      "loss": 1.06541214,
      "memory(GiB)": 112.26,
      "step": 42600,
      "train_speed(iter/s)": 1.129305
    },
    {
      "acc": 0.73979855,
      "epoch": 1.0807965499746321,
      "grad_norm": 3.65625,
      "learning_rate": 4.745504187050197e-06,
      "loss": 1.10830107,
      "memory(GiB)": 112.26,
      "step": 42605,
      "train_speed(iter/s)": 1.12931
    },
    {
      "acc": 0.73575668,
      "epoch": 1.0809233891425671,
      "grad_norm": 3.609375,
      "learning_rate": 4.744456928203985e-06,
      "loss": 1.0726779,
      "memory(GiB)": 112.26,
      "step": 42610,
      "train_speed(iter/s)": 1.129308
    },
    {
      "acc": 0.73408566,
      "epoch": 1.0810502283105023,
      "grad_norm": 4.4375,
      "learning_rate": 4.743409680597695e-06,
      "loss": 1.06943197,
      "memory(GiB)": 112.26,
      "step": 42615,
      "train_speed(iter/s)": 1.129328
    },
    {
      "acc": 0.72822528,
      "epoch": 1.0811770674784373,
      "grad_norm": 3.71875,
      "learning_rate": 4.742362444277394e-06,
      "loss": 1.10669975,
      "memory(GiB)": 112.26,
      "step": 42620,
      "train_speed(iter/s)": 1.129353
    },
    {
      "acc": 0.73597941,
      "epoch": 1.0813039066463723,
      "grad_norm": 3.515625,
      "learning_rate": 4.741315219289142e-06,
      "loss": 1.09411097,
      "memory(GiB)": 112.26,
      "step": 42625,
      "train_speed(iter/s)": 1.129365
    },
    {
      "acc": 0.74927421,
      "epoch": 1.0814307458143075,
      "grad_norm": 4.09375,
      "learning_rate": 4.740268005679005e-06,
      "loss": 1.03567104,
      "memory(GiB)": 112.26,
      "step": 42630,
      "train_speed(iter/s)": 1.129383
    },
    {
      "acc": 0.74204979,
      "epoch": 1.0815575849822425,
      "grad_norm": 4.65625,
      "learning_rate": 4.739220803493039e-06,
      "loss": 1.017383,
      "memory(GiB)": 112.26,
      "step": 42635,
      "train_speed(iter/s)": 1.129378
    },
    {
      "acc": 0.74802518,
      "epoch": 1.0816844241501775,
      "grad_norm": 4.40625,
      "learning_rate": 4.738173612777306e-06,
      "loss": 1.07200642,
      "memory(GiB)": 112.26,
      "step": 42640,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.7293365,
      "epoch": 1.0818112633181127,
      "grad_norm": 3.46875,
      "learning_rate": 4.737126433577866e-06,
      "loss": 1.12987919,
      "memory(GiB)": 112.26,
      "step": 42645,
      "train_speed(iter/s)": 1.129413
    },
    {
      "acc": 0.73005943,
      "epoch": 1.0819381024860477,
      "grad_norm": 3.859375,
      "learning_rate": 4.736079265940781e-06,
      "loss": 1.10020847,
      "memory(GiB)": 112.26,
      "step": 42650,
      "train_speed(iter/s)": 1.129436
    },
    {
      "acc": 0.7306828,
      "epoch": 1.0820649416539827,
      "grad_norm": 4.4375,
      "learning_rate": 4.735032109912107e-06,
      "loss": 1.09639816,
      "memory(GiB)": 112.26,
      "step": 42655,
      "train_speed(iter/s)": 1.129463
    },
    {
      "acc": 0.72903581,
      "epoch": 1.0821917808219177,
      "grad_norm": 3.671875,
      "learning_rate": 4.733984965537903e-06,
      "loss": 1.05005522,
      "memory(GiB)": 112.26,
      "step": 42660,
      "train_speed(iter/s)": 1.129475
    },
    {
      "acc": 0.75437651,
      "epoch": 1.082318619989853,
      "grad_norm": 3.953125,
      "learning_rate": 4.732937832864229e-06,
      "loss": 1.01352024,
      "memory(GiB)": 112.26,
      "step": 42665,
      "train_speed(iter/s)": 1.129498
    },
    {
      "acc": 0.72778072,
      "epoch": 1.082445459157788,
      "grad_norm": 4.03125,
      "learning_rate": 4.731890711937141e-06,
      "loss": 1.09256134,
      "memory(GiB)": 112.26,
      "step": 42670,
      "train_speed(iter/s)": 1.129518
    },
    {
      "acc": 0.74718461,
      "epoch": 1.0825722983257229,
      "grad_norm": 4.375,
      "learning_rate": 4.730843602802696e-06,
      "loss": 1.03482218,
      "memory(GiB)": 112.26,
      "step": 42675,
      "train_speed(iter/s)": 1.129539
    },
    {
      "acc": 0.74410105,
      "epoch": 1.082699137493658,
      "grad_norm": 4.3125,
      "learning_rate": 4.729796505506951e-06,
      "loss": 1.07184925,
      "memory(GiB)": 112.26,
      "step": 42680,
      "train_speed(iter/s)": 1.129564
    },
    {
      "acc": 0.72786002,
      "epoch": 1.082825976661593,
      "grad_norm": 3.359375,
      "learning_rate": 4.728749420095964e-06,
      "loss": 1.08460407,
      "memory(GiB)": 112.26,
      "step": 42685,
      "train_speed(iter/s)": 1.129577
    },
    {
      "acc": 0.74405694,
      "epoch": 1.082952815829528,
      "grad_norm": 3.578125,
      "learning_rate": 4.727702346615788e-06,
      "loss": 1.094069,
      "memory(GiB)": 112.26,
      "step": 42690,
      "train_speed(iter/s)": 1.129596
    },
    {
      "acc": 0.74208708,
      "epoch": 1.0830796549974633,
      "grad_norm": 3.0,
      "learning_rate": 4.726655285112477e-06,
      "loss": 1.02698097,
      "memory(GiB)": 112.26,
      "step": 42695,
      "train_speed(iter/s)": 1.12962
    },
    {
      "acc": 0.73688564,
      "epoch": 1.0832064941653983,
      "grad_norm": 4.09375,
      "learning_rate": 4.725608235632088e-06,
      "loss": 1.04863358,
      "memory(GiB)": 112.26,
      "step": 42700,
      "train_speed(iter/s)": 1.129633
    },
    {
      "acc": 0.74572768,
      "epoch": 1.0833333333333333,
      "grad_norm": 4.0,
      "learning_rate": 4.724561198220672e-06,
      "loss": 1.05220413,
      "memory(GiB)": 112.26,
      "step": 42705,
      "train_speed(iter/s)": 1.129641
    },
    {
      "acc": 0.73488913,
      "epoch": 1.0834601725012685,
      "grad_norm": 3.3125,
      "learning_rate": 4.723514172924287e-06,
      "loss": 1.09582844,
      "memory(GiB)": 112.26,
      "step": 42710,
      "train_speed(iter/s)": 1.129663
    },
    {
      "acc": 0.73853812,
      "epoch": 1.0835870116692035,
      "grad_norm": 3.296875,
      "learning_rate": 4.7224671597889825e-06,
      "loss": 1.0650444,
      "memory(GiB)": 112.26,
      "step": 42715,
      "train_speed(iter/s)": 1.129675
    },
    {
      "acc": 0.73306074,
      "epoch": 1.0837138508371384,
      "grad_norm": 4.34375,
      "learning_rate": 4.72142015886081e-06,
      "loss": 1.08823233,
      "memory(GiB)": 112.26,
      "step": 42720,
      "train_speed(iter/s)": 1.129693
    },
    {
      "acc": 0.75397305,
      "epoch": 1.0838406900050737,
      "grad_norm": 3.640625,
      "learning_rate": 4.720373170185823e-06,
      "loss": 1.03456049,
      "memory(GiB)": 112.26,
      "step": 42725,
      "train_speed(iter/s)": 1.129702
    },
    {
      "acc": 0.74236879,
      "epoch": 1.0839675291730086,
      "grad_norm": 4.3125,
      "learning_rate": 4.719326193810075e-06,
      "loss": 1.10035524,
      "memory(GiB)": 112.26,
      "step": 42730,
      "train_speed(iter/s)": 1.129718
    },
    {
      "acc": 0.73056111,
      "epoch": 1.0840943683409436,
      "grad_norm": 4.875,
      "learning_rate": 4.718279229779612e-06,
      "loss": 1.13885021,
      "memory(GiB)": 112.26,
      "step": 42735,
      "train_speed(iter/s)": 1.129744
    },
    {
      "acc": 0.7330317,
      "epoch": 1.0842212075088788,
      "grad_norm": 3.515625,
      "learning_rate": 4.717232278140485e-06,
      "loss": 1.1064105,
      "memory(GiB)": 112.26,
      "step": 42740,
      "train_speed(iter/s)": 1.129756
    },
    {
      "acc": 0.75198607,
      "epoch": 1.0843480466768138,
      "grad_norm": 3.28125,
      "learning_rate": 4.716185338938746e-06,
      "loss": 0.9921916,
      "memory(GiB)": 112.26,
      "step": 42745,
      "train_speed(iter/s)": 1.129773
    },
    {
      "acc": 0.73643541,
      "epoch": 1.0844748858447488,
      "grad_norm": 4.1875,
      "learning_rate": 4.7151384122204445e-06,
      "loss": 1.01125755,
      "memory(GiB)": 112.26,
      "step": 42750,
      "train_speed(iter/s)": 1.129793
    },
    {
      "acc": 0.73559561,
      "epoch": 1.0846017250126838,
      "grad_norm": 3.90625,
      "learning_rate": 4.7140914980316254e-06,
      "loss": 1.03128262,
      "memory(GiB)": 112.26,
      "step": 42755,
      "train_speed(iter/s)": 1.1298
    },
    {
      "acc": 0.7342031,
      "epoch": 1.084728564180619,
      "grad_norm": 4.21875,
      "learning_rate": 4.713044596418339e-06,
      "loss": 1.07243528,
      "memory(GiB)": 112.26,
      "step": 42760,
      "train_speed(iter/s)": 1.129826
    },
    {
      "acc": 0.73694668,
      "epoch": 1.084855403348554,
      "grad_norm": 4.0625,
      "learning_rate": 4.711997707426632e-06,
      "loss": 1.07890015,
      "memory(GiB)": 112.26,
      "step": 42765,
      "train_speed(iter/s)": 1.12984
    },
    {
      "acc": 0.73367281,
      "epoch": 1.084982242516489,
      "grad_norm": 3.765625,
      "learning_rate": 4.710950831102555e-06,
      "loss": 1.06856279,
      "memory(GiB)": 112.26,
      "step": 42770,
      "train_speed(iter/s)": 1.129858
    },
    {
      "acc": 0.73704305,
      "epoch": 1.0851090816844242,
      "grad_norm": 4.0625,
      "learning_rate": 4.709903967492147e-06,
      "loss": 1.03865194,
      "memory(GiB)": 112.26,
      "step": 42775,
      "train_speed(iter/s)": 1.129884
    },
    {
      "acc": 0.7325635,
      "epoch": 1.0852359208523592,
      "grad_norm": 3.65625,
      "learning_rate": 4.7088571166414595e-06,
      "loss": 1.0595438,
      "memory(GiB)": 112.26,
      "step": 42780,
      "train_speed(iter/s)": 1.129907
    },
    {
      "acc": 0.73977127,
      "epoch": 1.0853627600202942,
      "grad_norm": 3.765625,
      "learning_rate": 4.707810278596534e-06,
      "loss": 1.0744936,
      "memory(GiB)": 112.26,
      "step": 42785,
      "train_speed(iter/s)": 1.129921
    },
    {
      "acc": 0.75335588,
      "epoch": 1.0854895991882294,
      "grad_norm": 4.34375,
      "learning_rate": 4.7067634534034205e-06,
      "loss": 1.05027313,
      "memory(GiB)": 112.26,
      "step": 42790,
      "train_speed(iter/s)": 1.129949
    },
    {
      "acc": 0.74685416,
      "epoch": 1.0856164383561644,
      "grad_norm": 4.09375,
      "learning_rate": 4.705716641108157e-06,
      "loss": 1.0204092,
      "memory(GiB)": 112.26,
      "step": 42795,
      "train_speed(iter/s)": 1.12998
    },
    {
      "acc": 0.73858185,
      "epoch": 1.0857432775240994,
      "grad_norm": 4.28125,
      "learning_rate": 4.7046698417567894e-06,
      "loss": 1.09167852,
      "memory(GiB)": 112.26,
      "step": 42800,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.74101624,
      "epoch": 1.0858701166920346,
      "grad_norm": 4.0,
      "learning_rate": 4.7036230553953616e-06,
      "loss": 1.07790489,
      "memory(GiB)": 112.26,
      "step": 42805,
      "train_speed(iter/s)": 1.130013
    },
    {
      "acc": 0.75148339,
      "epoch": 1.0859969558599696,
      "grad_norm": 4.15625,
      "learning_rate": 4.702576282069916e-06,
      "loss": 0.98579998,
      "memory(GiB)": 112.26,
      "step": 42810,
      "train_speed(iter/s)": 1.13002
    },
    {
      "acc": 0.73387032,
      "epoch": 1.0861237950279046,
      "grad_norm": 3.90625,
      "learning_rate": 4.701529521826492e-06,
      "loss": 1.10240011,
      "memory(GiB)": 112.26,
      "step": 42815,
      "train_speed(iter/s)": 1.130041
    },
    {
      "acc": 0.75635581,
      "epoch": 1.0862506341958396,
      "grad_norm": 3.59375,
      "learning_rate": 4.700482774711131e-06,
      "loss": 1.06035414,
      "memory(GiB)": 112.26,
      "step": 42820,
      "train_speed(iter/s)": 1.130061
    },
    {
      "acc": 0.75404038,
      "epoch": 1.0863774733637748,
      "grad_norm": 3.75,
      "learning_rate": 4.699436040769877e-06,
      "loss": 0.99477177,
      "memory(GiB)": 112.26,
      "step": 42825,
      "train_speed(iter/s)": 1.130083
    },
    {
      "acc": 0.74596844,
      "epoch": 1.0865043125317098,
      "grad_norm": 4.15625,
      "learning_rate": 4.698389320048768e-06,
      "loss": 1.05647659,
      "memory(GiB)": 112.26,
      "step": 42830,
      "train_speed(iter/s)": 1.130096
    },
    {
      "acc": 0.73177419,
      "epoch": 1.0866311516996447,
      "grad_norm": 3.609375,
      "learning_rate": 4.697342612593841e-06,
      "loss": 1.05843754,
      "memory(GiB)": 112.26,
      "step": 42835,
      "train_speed(iter/s)": 1.130115
    },
    {
      "acc": 0.74102054,
      "epoch": 1.08675799086758,
      "grad_norm": 3.421875,
      "learning_rate": 4.696295918451139e-06,
      "loss": 1.03100348,
      "memory(GiB)": 112.26,
      "step": 42840,
      "train_speed(iter/s)": 1.130125
    },
    {
      "acc": 0.74800744,
      "epoch": 1.086884830035515,
      "grad_norm": 3.328125,
      "learning_rate": 4.695249237666697e-06,
      "loss": 1.02415161,
      "memory(GiB)": 112.26,
      "step": 42845,
      "train_speed(iter/s)": 1.13014
    },
    {
      "acc": 0.76166492,
      "epoch": 1.08701166920345,
      "grad_norm": 3.796875,
      "learning_rate": 4.694202570286556e-06,
      "loss": 0.99102535,
      "memory(GiB)": 112.26,
      "step": 42850,
      "train_speed(iter/s)": 1.130132
    },
    {
      "acc": 0.74324617,
      "epoch": 1.0871385083713851,
      "grad_norm": 3.5625,
      "learning_rate": 4.693155916356751e-06,
      "loss": 1.08277512,
      "memory(GiB)": 112.26,
      "step": 42855,
      "train_speed(iter/s)": 1.130154
    },
    {
      "acc": 0.72454529,
      "epoch": 1.0872653475393201,
      "grad_norm": 3.75,
      "learning_rate": 4.692109275923318e-06,
      "loss": 1.12437153,
      "memory(GiB)": 112.26,
      "step": 42860,
      "train_speed(iter/s)": 1.130173
    },
    {
      "acc": 0.74328303,
      "epoch": 1.0873921867072551,
      "grad_norm": 5.15625,
      "learning_rate": 4.6910626490322925e-06,
      "loss": 1.10166149,
      "memory(GiB)": 112.26,
      "step": 42865,
      "train_speed(iter/s)": 1.130189
    },
    {
      "acc": 0.74331613,
      "epoch": 1.0875190258751903,
      "grad_norm": 4.4375,
      "learning_rate": 4.690016035729714e-06,
      "loss": 1.01693344,
      "memory(GiB)": 112.26,
      "step": 42870,
      "train_speed(iter/s)": 1.130209
    },
    {
      "acc": 0.73822289,
      "epoch": 1.0876458650431253,
      "grad_norm": 4.3125,
      "learning_rate": 4.688969436061612e-06,
      "loss": 1.0765789,
      "memory(GiB)": 112.26,
      "step": 42875,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.7410121,
      "epoch": 1.0877727042110603,
      "grad_norm": 4.15625,
      "learning_rate": 4.687922850074022e-06,
      "loss": 1.06617737,
      "memory(GiB)": 112.26,
      "step": 42880,
      "train_speed(iter/s)": 1.130246
    },
    {
      "acc": 0.74081964,
      "epoch": 1.0878995433789955,
      "grad_norm": 3.5,
      "learning_rate": 4.686876277812981e-06,
      "loss": 1.1178257,
      "memory(GiB)": 112.26,
      "step": 42885,
      "train_speed(iter/s)": 1.130263
    },
    {
      "acc": 0.7348011,
      "epoch": 1.0880263825469305,
      "grad_norm": 3.828125,
      "learning_rate": 4.685829719324519e-06,
      "loss": 1.10608988,
      "memory(GiB)": 112.26,
      "step": 42890,
      "train_speed(iter/s)": 1.13026
    },
    {
      "acc": 0.73197031,
      "epoch": 1.0881532217148655,
      "grad_norm": 3.890625,
      "learning_rate": 4.6847831746546664e-06,
      "loss": 1.13011322,
      "memory(GiB)": 112.26,
      "step": 42895,
      "train_speed(iter/s)": 1.130284
    },
    {
      "acc": 0.75198808,
      "epoch": 1.0882800608828007,
      "grad_norm": 4.90625,
      "learning_rate": 4.683736643849459e-06,
      "loss": 1.01484499,
      "memory(GiB)": 112.26,
      "step": 42900,
      "train_speed(iter/s)": 1.130305
    },
    {
      "acc": 0.74691863,
      "epoch": 1.0884069000507357,
      "grad_norm": 3.78125,
      "learning_rate": 4.6826901269549255e-06,
      "loss": 1.0187458,
      "memory(GiB)": 112.26,
      "step": 42905,
      "train_speed(iter/s)": 1.130306
    },
    {
      "acc": 0.73532696,
      "epoch": 1.0885337392186707,
      "grad_norm": 4.8125,
      "learning_rate": 4.681643624017097e-06,
      "loss": 1.07109613,
      "memory(GiB)": 112.26,
      "step": 42910,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.75954676,
      "epoch": 1.0886605783866057,
      "grad_norm": 4.125,
      "learning_rate": 4.680597135082002e-06,
      "loss": 0.9746563,
      "memory(GiB)": 112.26,
      "step": 42915,
      "train_speed(iter/s)": 1.130355
    },
    {
      "acc": 0.76518044,
      "epoch": 1.088787417554541,
      "grad_norm": 4.4375,
      "learning_rate": 4.679550660195673e-06,
      "loss": 1.01071968,
      "memory(GiB)": 112.26,
      "step": 42920,
      "train_speed(iter/s)": 1.130377
    },
    {
      "acc": 0.73394661,
      "epoch": 1.0889142567224759,
      "grad_norm": 5.28125,
      "learning_rate": 4.6785041994041345e-06,
      "loss": 1.08329697,
      "memory(GiB)": 112.26,
      "step": 42925,
      "train_speed(iter/s)": 1.130395
    },
    {
      "acc": 0.73350329,
      "epoch": 1.0890410958904109,
      "grad_norm": 3.765625,
      "learning_rate": 4.6774577527534195e-06,
      "loss": 1.06117878,
      "memory(GiB)": 112.26,
      "step": 42930,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.74478607,
      "epoch": 1.089167935058346,
      "grad_norm": 3.46875,
      "learning_rate": 4.676411320289551e-06,
      "loss": 1.08824892,
      "memory(GiB)": 112.26,
      "step": 42935,
      "train_speed(iter/s)": 1.130442
    },
    {
      "acc": 0.74494057,
      "epoch": 1.089294774226281,
      "grad_norm": 4.3125,
      "learning_rate": 4.675364902058556e-06,
      "loss": 1.07781506,
      "memory(GiB)": 112.26,
      "step": 42940,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.75712585,
      "epoch": 1.089421613394216,
      "grad_norm": 3.984375,
      "learning_rate": 4.674318498106464e-06,
      "loss": 1.0821044,
      "memory(GiB)": 112.26,
      "step": 42945,
      "train_speed(iter/s)": 1.130485
    },
    {
      "acc": 0.7540586,
      "epoch": 1.0895484525621513,
      "grad_norm": 4.5,
      "learning_rate": 4.6732721084792985e-06,
      "loss": 1.04861145,
      "memory(GiB)": 112.26,
      "step": 42950,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.72871819,
      "epoch": 1.0896752917300863,
      "grad_norm": 4.15625,
      "learning_rate": 4.672225733223084e-06,
      "loss": 1.09264336,
      "memory(GiB)": 112.26,
      "step": 42955,
      "train_speed(iter/s)": 1.13053
    },
    {
      "acc": 0.75429759,
      "epoch": 1.0898021308980212,
      "grad_norm": 4.0625,
      "learning_rate": 4.671179372383844e-06,
      "loss": 1.00816736,
      "memory(GiB)": 112.26,
      "step": 42960,
      "train_speed(iter/s)": 1.130544
    },
    {
      "acc": 0.74550409,
      "epoch": 1.0899289700659565,
      "grad_norm": 3.84375,
      "learning_rate": 4.670133026007604e-06,
      "loss": 1.07751198,
      "memory(GiB)": 112.26,
      "step": 42965,
      "train_speed(iter/s)": 1.130565
    },
    {
      "acc": 0.74174404,
      "epoch": 1.0900558092338914,
      "grad_norm": 4.375,
      "learning_rate": 4.669086694140388e-06,
      "loss": 1.1002636,
      "memory(GiB)": 112.26,
      "step": 42970,
      "train_speed(iter/s)": 1.130572
    },
    {
      "acc": 0.73882589,
      "epoch": 1.0901826484018264,
      "grad_norm": 3.15625,
      "learning_rate": 4.668040376828214e-06,
      "loss": 1.04186726,
      "memory(GiB)": 112.26,
      "step": 42975,
      "train_speed(iter/s)": 1.130594
    },
    {
      "acc": 0.75172176,
      "epoch": 1.0903094875697614,
      "grad_norm": 3.71875,
      "learning_rate": 4.666994074117108e-06,
      "loss": 1.07120028,
      "memory(GiB)": 112.26,
      "step": 42980,
      "train_speed(iter/s)": 1.130601
    },
    {
      "acc": 0.73722334,
      "epoch": 1.0904363267376966,
      "grad_norm": 3.71875,
      "learning_rate": 4.665947786053088e-06,
      "loss": 1.1024992,
      "memory(GiB)": 112.26,
      "step": 42985,
      "train_speed(iter/s)": 1.130614
    },
    {
      "acc": 0.72985086,
      "epoch": 1.0905631659056316,
      "grad_norm": 3.6875,
      "learning_rate": 4.664901512682179e-06,
      "loss": 1.09828224,
      "memory(GiB)": 112.26,
      "step": 42990,
      "train_speed(iter/s)": 1.130633
    },
    {
      "acc": 0.74236374,
      "epoch": 1.0906900050735666,
      "grad_norm": 4.3125,
      "learning_rate": 4.663855254050394e-06,
      "loss": 1.06122417,
      "memory(GiB)": 112.26,
      "step": 42995,
      "train_speed(iter/s)": 1.130639
    },
    {
      "acc": 0.73074713,
      "epoch": 1.0908168442415018,
      "grad_norm": 4.03125,
      "learning_rate": 4.662809010203757e-06,
      "loss": 1.09214678,
      "memory(GiB)": 112.26,
      "step": 43000,
      "train_speed(iter/s)": 1.130653
    },
    {
      "epoch": 1.0908168442415018,
      "eval_acc": 0.7254783787226666,
      "eval_loss": 1.0451031923294067,
      "eval_runtime": 70.7528,
      "eval_samples_per_second": 90.032,
      "eval_steps_per_second": 22.515,
      "step": 43000
    },
    {
      "acc": 0.73941875,
      "epoch": 1.0909436834094368,
      "grad_norm": 3.859375,
      "learning_rate": 4.661762781188284e-06,
      "loss": 1.06818752,
      "memory(GiB)": 112.26,
      "step": 43005,
      "train_speed(iter/s)": 1.12726
    },
    {
      "acc": 0.74714704,
      "epoch": 1.0910705225773718,
      "grad_norm": 3.140625,
      "learning_rate": 4.660716567049997e-06,
      "loss": 1.04037733,
      "memory(GiB)": 112.26,
      "step": 43010,
      "train_speed(iter/s)": 1.127277
    },
    {
      "acc": 0.73442068,
      "epoch": 1.091197361745307,
      "grad_norm": 4.1875,
      "learning_rate": 4.659670367834908e-06,
      "loss": 1.06192875,
      "memory(GiB)": 112.26,
      "step": 43015,
      "train_speed(iter/s)": 1.127296
    },
    {
      "acc": 0.74449425,
      "epoch": 1.091324200913242,
      "grad_norm": 4.0625,
      "learning_rate": 4.658624183589035e-06,
      "loss": 1.04895973,
      "memory(GiB)": 112.26,
      "step": 43020,
      "train_speed(iter/s)": 1.127317
    },
    {
      "acc": 0.75139065,
      "epoch": 1.091451040081177,
      "grad_norm": 3.125,
      "learning_rate": 4.657578014358395e-06,
      "loss": 1.01901512,
      "memory(GiB)": 112.26,
      "step": 43025,
      "train_speed(iter/s)": 1.127332
    },
    {
      "acc": 0.7275754,
      "epoch": 1.0915778792491122,
      "grad_norm": 3.328125,
      "learning_rate": 4.656531860189005e-06,
      "loss": 1.05098457,
      "memory(GiB)": 112.26,
      "step": 43030,
      "train_speed(iter/s)": 1.127352
    },
    {
      "acc": 0.74443769,
      "epoch": 1.0917047184170472,
      "grad_norm": 3.625,
      "learning_rate": 4.655485721126875e-06,
      "loss": 1.05816917,
      "memory(GiB)": 112.26,
      "step": 43035,
      "train_speed(iter/s)": 1.127375
    },
    {
      "acc": 0.73142099,
      "epoch": 1.0918315575849822,
      "grad_norm": 4.71875,
      "learning_rate": 4.6544395972180214e-06,
      "loss": 1.10064373,
      "memory(GiB)": 112.26,
      "step": 43040,
      "train_speed(iter/s)": 1.127386
    },
    {
      "acc": 0.73392591,
      "epoch": 1.0919583967529174,
      "grad_norm": 3.46875,
      "learning_rate": 4.653393488508457e-06,
      "loss": 1.09518604,
      "memory(GiB)": 112.26,
      "step": 43045,
      "train_speed(iter/s)": 1.127405
    },
    {
      "acc": 0.7327239,
      "epoch": 1.0920852359208524,
      "grad_norm": 4.1875,
      "learning_rate": 4.652347395044197e-06,
      "loss": 1.06596718,
      "memory(GiB)": 112.26,
      "step": 43050,
      "train_speed(iter/s)": 1.12743
    },
    {
      "acc": 0.7411478,
      "epoch": 1.0922120750887874,
      "grad_norm": 3.171875,
      "learning_rate": 4.651301316871247e-06,
      "loss": 1.08678436,
      "memory(GiB)": 112.26,
      "step": 43055,
      "train_speed(iter/s)": 1.127435
    },
    {
      "acc": 0.74314404,
      "epoch": 1.0923389142567226,
      "grad_norm": 3.515625,
      "learning_rate": 4.6502552540356235e-06,
      "loss": 1.05208168,
      "memory(GiB)": 112.26,
      "step": 43060,
      "train_speed(iter/s)": 1.127465
    },
    {
      "acc": 0.74245024,
      "epoch": 1.0924657534246576,
      "grad_norm": 3.734375,
      "learning_rate": 4.649209206583335e-06,
      "loss": 1.09119167,
      "memory(GiB)": 112.26,
      "step": 43065,
      "train_speed(iter/s)": 1.127492
    },
    {
      "acc": 0.7597075,
      "epoch": 1.0925925925925926,
      "grad_norm": 3.3125,
      "learning_rate": 4.648163174560393e-06,
      "loss": 1.02952042,
      "memory(GiB)": 112.26,
      "step": 43070,
      "train_speed(iter/s)": 1.127506
    },
    {
      "acc": 0.74552135,
      "epoch": 1.0927194317605275,
      "grad_norm": 3.515625,
      "learning_rate": 4.647117158012804e-06,
      "loss": 1.0411396,
      "memory(GiB)": 112.26,
      "step": 43075,
      "train_speed(iter/s)": 1.127529
    },
    {
      "acc": 0.73921323,
      "epoch": 1.0928462709284628,
      "grad_norm": 3.59375,
      "learning_rate": 4.646071156986579e-06,
      "loss": 1.04022226,
      "memory(GiB)": 112.26,
      "step": 43080,
      "train_speed(iter/s)": 1.127555
    },
    {
      "acc": 0.73093824,
      "epoch": 1.0929731100963977,
      "grad_norm": 3.921875,
      "learning_rate": 4.645025171527723e-06,
      "loss": 1.0731555,
      "memory(GiB)": 112.26,
      "step": 43085,
      "train_speed(iter/s)": 1.127561
    },
    {
      "acc": 0.7283041,
      "epoch": 1.0930999492643327,
      "grad_norm": 3.578125,
      "learning_rate": 4.643979201682247e-06,
      "loss": 1.08430176,
      "memory(GiB)": 112.26,
      "step": 43090,
      "train_speed(iter/s)": 1.127582
    },
    {
      "acc": 0.73745203,
      "epoch": 1.093226788432268,
      "grad_norm": 4.5,
      "learning_rate": 4.642933247496155e-06,
      "loss": 1.09918909,
      "memory(GiB)": 112.26,
      "step": 43095,
      "train_speed(iter/s)": 1.127606
    },
    {
      "acc": 0.73474326,
      "epoch": 1.093353627600203,
      "grad_norm": 4.03125,
      "learning_rate": 4.641887309015451e-06,
      "loss": 1.10115814,
      "memory(GiB)": 112.26,
      "step": 43100,
      "train_speed(iter/s)": 1.127614
    },
    {
      "acc": 0.74473972,
      "epoch": 1.093480466768138,
      "grad_norm": 3.140625,
      "learning_rate": 4.640841386286143e-06,
      "loss": 1.00732536,
      "memory(GiB)": 112.26,
      "step": 43105,
      "train_speed(iter/s)": 1.127621
    },
    {
      "acc": 0.7392725,
      "epoch": 1.0936073059360731,
      "grad_norm": 3.765625,
      "learning_rate": 4.639795479354236e-06,
      "loss": 1.11335106,
      "memory(GiB)": 112.26,
      "step": 43110,
      "train_speed(iter/s)": 1.127643
    },
    {
      "acc": 0.74705257,
      "epoch": 1.0937341451040081,
      "grad_norm": 5.53125,
      "learning_rate": 4.6387495882657295e-06,
      "loss": 1.06297693,
      "memory(GiB)": 112.26,
      "step": 43115,
      "train_speed(iter/s)": 1.127646
    },
    {
      "acc": 0.73485341,
      "epoch": 1.0938609842719431,
      "grad_norm": 3.578125,
      "learning_rate": 4.63770371306663e-06,
      "loss": 1.08374681,
      "memory(GiB)": 112.26,
      "step": 43120,
      "train_speed(iter/s)": 1.127661
    },
    {
      "acc": 0.74467158,
      "epoch": 1.0939878234398783,
      "grad_norm": 3.953125,
      "learning_rate": 4.636657853802939e-06,
      "loss": 0.99952698,
      "memory(GiB)": 112.26,
      "step": 43125,
      "train_speed(iter/s)": 1.127676
    },
    {
      "acc": 0.75689216,
      "epoch": 1.0941146626078133,
      "grad_norm": 3.96875,
      "learning_rate": 4.635612010520659e-06,
      "loss": 1.08724079,
      "memory(GiB)": 112.26,
      "step": 43130,
      "train_speed(iter/s)": 1.127698
    },
    {
      "acc": 0.74003634,
      "epoch": 1.0942415017757483,
      "grad_norm": 4.03125,
      "learning_rate": 4.6345661832657866e-06,
      "loss": 1.08235989,
      "memory(GiB)": 112.26,
      "step": 43135,
      "train_speed(iter/s)": 1.127718
    },
    {
      "acc": 0.74399772,
      "epoch": 1.0943683409436833,
      "grad_norm": 3.3125,
      "learning_rate": 4.633520372084327e-06,
      "loss": 1.01270161,
      "memory(GiB)": 112.26,
      "step": 43140,
      "train_speed(iter/s)": 1.127724
    },
    {
      "acc": 0.73764429,
      "epoch": 1.0944951801116185,
      "grad_norm": 3.5625,
      "learning_rate": 4.632474577022276e-06,
      "loss": 1.11529322,
      "memory(GiB)": 112.26,
      "step": 43145,
      "train_speed(iter/s)": 1.127748
    },
    {
      "acc": 0.74413786,
      "epoch": 1.0946220192795535,
      "grad_norm": 3.671875,
      "learning_rate": 4.631428798125637e-06,
      "loss": 1.03521833,
      "memory(GiB)": 112.26,
      "step": 43150,
      "train_speed(iter/s)": 1.127754
    },
    {
      "acc": 0.74212694,
      "epoch": 1.0947488584474885,
      "grad_norm": 3.15625,
      "learning_rate": 4.630383035440403e-06,
      "loss": 1.06033478,
      "memory(GiB)": 112.26,
      "step": 43155,
      "train_speed(iter/s)": 1.127776
    },
    {
      "acc": 0.75441809,
      "epoch": 1.0948756976154237,
      "grad_norm": 3.453125,
      "learning_rate": 4.6293372890125724e-06,
      "loss": 1.05433083,
      "memory(GiB)": 112.26,
      "step": 43160,
      "train_speed(iter/s)": 1.127793
    },
    {
      "acc": 0.74124579,
      "epoch": 1.0950025367833587,
      "grad_norm": 3.109375,
      "learning_rate": 4.628291558888144e-06,
      "loss": 1.07057133,
      "memory(GiB)": 112.26,
      "step": 43165,
      "train_speed(iter/s)": 1.127801
    },
    {
      "acc": 0.74585485,
      "epoch": 1.0951293759512937,
      "grad_norm": 3.828125,
      "learning_rate": 4.627245845113113e-06,
      "loss": 1.03889761,
      "memory(GiB)": 112.26,
      "step": 43170,
      "train_speed(iter/s)": 1.127828
    },
    {
      "acc": 0.73689799,
      "epoch": 1.0952562151192289,
      "grad_norm": 3.828125,
      "learning_rate": 4.626200147733474e-06,
      "loss": 1.04960098,
      "memory(GiB)": 112.26,
      "step": 43175,
      "train_speed(iter/s)": 1.127846
    },
    {
      "acc": 0.73525496,
      "epoch": 1.0953830542871639,
      "grad_norm": 3.5625,
      "learning_rate": 4.62515446679522e-06,
      "loss": 1.11694794,
      "memory(GiB)": 112.26,
      "step": 43180,
      "train_speed(iter/s)": 1.127849
    },
    {
      "acc": 0.75746603,
      "epoch": 1.0955098934550989,
      "grad_norm": 3.375,
      "learning_rate": 4.624108802344347e-06,
      "loss": 0.97605553,
      "memory(GiB)": 112.26,
      "step": 43185,
      "train_speed(iter/s)": 1.127875
    },
    {
      "acc": 0.74757385,
      "epoch": 1.095636732623034,
      "grad_norm": 4.625,
      "learning_rate": 4.623063154426848e-06,
      "loss": 1.0393733,
      "memory(GiB)": 112.26,
      "step": 43190,
      "train_speed(iter/s)": 1.127896
    },
    {
      "acc": 0.73684444,
      "epoch": 1.095763571790969,
      "grad_norm": 3.8125,
      "learning_rate": 4.622017523088712e-06,
      "loss": 1.03800602,
      "memory(GiB)": 112.26,
      "step": 43195,
      "train_speed(iter/s)": 1.127918
    },
    {
      "acc": 0.74173741,
      "epoch": 1.095890410958904,
      "grad_norm": 3.890625,
      "learning_rate": 4.620971908375934e-06,
      "loss": 1.07246552,
      "memory(GiB)": 112.26,
      "step": 43200,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.75803242,
      "epoch": 1.0960172501268393,
      "grad_norm": 4.34375,
      "learning_rate": 4.619926310334503e-06,
      "loss": 1.00376205,
      "memory(GiB)": 112.26,
      "step": 43205,
      "train_speed(iter/s)": 1.127958
    },
    {
      "acc": 0.73517976,
      "epoch": 1.0961440892947742,
      "grad_norm": 4.03125,
      "learning_rate": 4.618880729010413e-06,
      "loss": 1.07149067,
      "memory(GiB)": 112.26,
      "step": 43210,
      "train_speed(iter/s)": 1.127989
    },
    {
      "acc": 0.7461875,
      "epoch": 1.0962709284627092,
      "grad_norm": 3.609375,
      "learning_rate": 4.617835164449647e-06,
      "loss": 1.01171389,
      "memory(GiB)": 112.26,
      "step": 43215,
      "train_speed(iter/s)": 1.128011
    },
    {
      "acc": 0.74462218,
      "epoch": 1.0963977676306444,
      "grad_norm": 4.375,
      "learning_rate": 4.616789616698197e-06,
      "loss": 1.05205612,
      "memory(GiB)": 112.26,
      "step": 43220,
      "train_speed(iter/s)": 1.128032
    },
    {
      "acc": 0.72839222,
      "epoch": 1.0965246067985794,
      "grad_norm": 5.0625,
      "learning_rate": 4.61574408580205e-06,
      "loss": 1.08712139,
      "memory(GiB)": 112.26,
      "step": 43225,
      "train_speed(iter/s)": 1.128049
    },
    {
      "acc": 0.75696092,
      "epoch": 1.0966514459665144,
      "grad_norm": 3.8125,
      "learning_rate": 4.614698571807196e-06,
      "loss": 0.99866352,
      "memory(GiB)": 112.26,
      "step": 43230,
      "train_speed(iter/s)": 1.128057
    },
    {
      "acc": 0.73717613,
      "epoch": 1.0967782851344494,
      "grad_norm": 3.8125,
      "learning_rate": 4.6136530747596185e-06,
      "loss": 1.0613307,
      "memory(GiB)": 112.26,
      "step": 43235,
      "train_speed(iter/s)": 1.128079
    },
    {
      "acc": 0.74197831,
      "epoch": 1.0969051243023846,
      "grad_norm": 3.421875,
      "learning_rate": 4.612607594705301e-06,
      "loss": 1.09166565,
      "memory(GiB)": 112.26,
      "step": 43240,
      "train_speed(iter/s)": 1.128105
    },
    {
      "acc": 0.75101857,
      "epoch": 1.0970319634703196,
      "grad_norm": 3.40625,
      "learning_rate": 4.611562131690234e-06,
      "loss": 1.02335081,
      "memory(GiB)": 112.26,
      "step": 43245,
      "train_speed(iter/s)": 1.128128
    },
    {
      "acc": 0.74025455,
      "epoch": 1.0971588026382546,
      "grad_norm": 3.59375,
      "learning_rate": 4.610516685760399e-06,
      "loss": 1.05147009,
      "memory(GiB)": 112.26,
      "step": 43250,
      "train_speed(iter/s)": 1.128139
    },
    {
      "acc": 0.75560727,
      "epoch": 1.0972856418061898,
      "grad_norm": 3.484375,
      "learning_rate": 4.6094712569617775e-06,
      "loss": 0.9902298,
      "memory(GiB)": 112.26,
      "step": 43255,
      "train_speed(iter/s)": 1.128148
    },
    {
      "acc": 0.739537,
      "epoch": 1.0974124809741248,
      "grad_norm": 3.546875,
      "learning_rate": 4.608425845340353e-06,
      "loss": 1.06454353,
      "memory(GiB)": 112.26,
      "step": 43260,
      "train_speed(iter/s)": 1.128169
    },
    {
      "acc": 0.71824684,
      "epoch": 1.0975393201420598,
      "grad_norm": 3.9375,
      "learning_rate": 4.607380450942109e-06,
      "loss": 1.11178856,
      "memory(GiB)": 112.26,
      "step": 43265,
      "train_speed(iter/s)": 1.128195
    },
    {
      "acc": 0.74598408,
      "epoch": 1.097666159309995,
      "grad_norm": 3.796875,
      "learning_rate": 4.606335073813028e-06,
      "loss": 1.08349628,
      "memory(GiB)": 112.26,
      "step": 43270,
      "train_speed(iter/s)": 1.128222
    },
    {
      "acc": 0.72548623,
      "epoch": 1.09779299847793,
      "grad_norm": 3.46875,
      "learning_rate": 4.605289713999085e-06,
      "loss": 1.09687204,
      "memory(GiB)": 112.26,
      "step": 43275,
      "train_speed(iter/s)": 1.128239
    },
    {
      "acc": 0.73688736,
      "epoch": 1.097919837645865,
      "grad_norm": 2.890625,
      "learning_rate": 4.604244371546263e-06,
      "loss": 1.04295998,
      "memory(GiB)": 112.26,
      "step": 43280,
      "train_speed(iter/s)": 1.128259
    },
    {
      "acc": 0.72370882,
      "epoch": 1.0980466768138002,
      "grad_norm": 3.234375,
      "learning_rate": 4.603199046500539e-06,
      "loss": 1.12263165,
      "memory(GiB)": 112.26,
      "step": 43285,
      "train_speed(iter/s)": 1.128275
    },
    {
      "acc": 0.74408278,
      "epoch": 1.0981735159817352,
      "grad_norm": 3.71875,
      "learning_rate": 4.602153738907896e-06,
      "loss": 1.05305738,
      "memory(GiB)": 112.26,
      "step": 43290,
      "train_speed(iter/s)": 1.128288
    },
    {
      "acc": 0.74668217,
      "epoch": 1.0983003551496702,
      "grad_norm": 3.859375,
      "learning_rate": 4.601108448814306e-06,
      "loss": 1.0680337,
      "memory(GiB)": 112.26,
      "step": 43295,
      "train_speed(iter/s)": 1.128311
    },
    {
      "acc": 0.73771038,
      "epoch": 1.0984271943176052,
      "grad_norm": 3.21875,
      "learning_rate": 4.600063176265749e-06,
      "loss": 1.00735302,
      "memory(GiB)": 112.26,
      "step": 43300,
      "train_speed(iter/s)": 1.128327
    },
    {
      "acc": 0.74521637,
      "epoch": 1.0985540334855404,
      "grad_norm": 3.609375,
      "learning_rate": 4.599017921308196e-06,
      "loss": 1.06109333,
      "memory(GiB)": 112.26,
      "step": 43305,
      "train_speed(iter/s)": 1.128337
    },
    {
      "acc": 0.73981228,
      "epoch": 1.0986808726534754,
      "grad_norm": 3.75,
      "learning_rate": 4.5979726839876285e-06,
      "loss": 1.03691664,
      "memory(GiB)": 112.26,
      "step": 43310,
      "train_speed(iter/s)": 1.128354
    },
    {
      "acc": 0.73594718,
      "epoch": 1.0988077118214103,
      "grad_norm": 3.53125,
      "learning_rate": 4.596927464350015e-06,
      "loss": 1.09567661,
      "memory(GiB)": 112.26,
      "step": 43315,
      "train_speed(iter/s)": 1.128372
    },
    {
      "acc": 0.7322329,
      "epoch": 1.0989345509893456,
      "grad_norm": 3.3125,
      "learning_rate": 4.595882262441331e-06,
      "loss": 1.03783464,
      "memory(GiB)": 112.26,
      "step": 43320,
      "train_speed(iter/s)": 1.128389
    },
    {
      "acc": 0.74082503,
      "epoch": 1.0990613901572805,
      "grad_norm": 2.875,
      "learning_rate": 4.5948370783075505e-06,
      "loss": 1.03282051,
      "memory(GiB)": 112.26,
      "step": 43325,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.74367466,
      "epoch": 1.0991882293252155,
      "grad_norm": 3.8125,
      "learning_rate": 4.5937919119946445e-06,
      "loss": 1.07828674,
      "memory(GiB)": 112.26,
      "step": 43330,
      "train_speed(iter/s)": 1.128415
    },
    {
      "acc": 0.74786391,
      "epoch": 1.0993150684931507,
      "grad_norm": 4.125,
      "learning_rate": 4.592746763548582e-06,
      "loss": 1.01860638,
      "memory(GiB)": 112.26,
      "step": 43335,
      "train_speed(iter/s)": 1.128428
    },
    {
      "acc": 0.73697529,
      "epoch": 1.0994419076610857,
      "grad_norm": 4.09375,
      "learning_rate": 4.591701633015336e-06,
      "loss": 1.07674875,
      "memory(GiB)": 112.26,
      "step": 43340,
      "train_speed(iter/s)": 1.128437
    },
    {
      "acc": 0.7442163,
      "epoch": 1.0995687468290207,
      "grad_norm": 3.34375,
      "learning_rate": 4.590656520440876e-06,
      "loss": 1.0855011,
      "memory(GiB)": 112.26,
      "step": 43345,
      "train_speed(iter/s)": 1.128464
    },
    {
      "acc": 0.76300483,
      "epoch": 1.099695585996956,
      "grad_norm": 3.625,
      "learning_rate": 4.58961142587117e-06,
      "loss": 0.98138103,
      "memory(GiB)": 112.26,
      "step": 43350,
      "train_speed(iter/s)": 1.128475
    },
    {
      "acc": 0.73413138,
      "epoch": 1.099822425164891,
      "grad_norm": 3.609375,
      "learning_rate": 4.588566349352185e-06,
      "loss": 1.0161972,
      "memory(GiB)": 112.26,
      "step": 43355,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.74139013,
      "epoch": 1.099949264332826,
      "grad_norm": 4.59375,
      "learning_rate": 4.5875212909298885e-06,
      "loss": 1.02928467,
      "memory(GiB)": 112.26,
      "step": 43360,
      "train_speed(iter/s)": 1.128507
    },
    {
      "acc": 0.75061994,
      "epoch": 1.1000761035007611,
      "grad_norm": 3.40625,
      "learning_rate": 4.586476250650246e-06,
      "loss": 1.01749973,
      "memory(GiB)": 112.26,
      "step": 43365,
      "train_speed(iter/s)": 1.128529
    },
    {
      "acc": 0.73779378,
      "epoch": 1.1002029426686961,
      "grad_norm": 3.390625,
      "learning_rate": 4.585431228559228e-06,
      "loss": 1.04996853,
      "memory(GiB)": 112.26,
      "step": 43370,
      "train_speed(iter/s)": 1.12855
    },
    {
      "acc": 0.74026408,
      "epoch": 1.100329781836631,
      "grad_norm": 3.3125,
      "learning_rate": 4.584386224702792e-06,
      "loss": 1.03626966,
      "memory(GiB)": 112.26,
      "step": 43375,
      "train_speed(iter/s)": 1.128575
    },
    {
      "acc": 0.7378685,
      "epoch": 1.1004566210045663,
      "grad_norm": 4.34375,
      "learning_rate": 4.583341239126906e-06,
      "loss": 1.06691971,
      "memory(GiB)": 112.26,
      "step": 43380,
      "train_speed(iter/s)": 1.1286
    },
    {
      "acc": 0.73639116,
      "epoch": 1.1005834601725013,
      "grad_norm": 3.921875,
      "learning_rate": 4.582296271877534e-06,
      "loss": 1.1129427,
      "memory(GiB)": 112.26,
      "step": 43385,
      "train_speed(iter/s)": 1.128627
    },
    {
      "acc": 0.73667951,
      "epoch": 1.1007102993404363,
      "grad_norm": 3.90625,
      "learning_rate": 4.581251323000636e-06,
      "loss": 1.0782939,
      "memory(GiB)": 112.26,
      "step": 43390,
      "train_speed(iter/s)": 1.128643
    },
    {
      "acc": 0.71921921,
      "epoch": 1.1008371385083713,
      "grad_norm": 3.4375,
      "learning_rate": 4.580206392542175e-06,
      "loss": 1.08580742,
      "memory(GiB)": 112.26,
      "step": 43395,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.7380887,
      "epoch": 1.1009639776763065,
      "grad_norm": 3.5625,
      "learning_rate": 4.579161480548109e-06,
      "loss": 1.05133982,
      "memory(GiB)": 112.26,
      "step": 43400,
      "train_speed(iter/s)": 1.128665
    },
    {
      "acc": 0.73999472,
      "epoch": 1.1010908168442415,
      "grad_norm": 3.15625,
      "learning_rate": 4.578116587064402e-06,
      "loss": 1.08352337,
      "memory(GiB)": 112.26,
      "step": 43405,
      "train_speed(iter/s)": 1.128674
    },
    {
      "acc": 0.74387465,
      "epoch": 1.1012176560121765,
      "grad_norm": 6.40625,
      "learning_rate": 4.577071712137012e-06,
      "loss": 1.06410847,
      "memory(GiB)": 112.26,
      "step": 43410,
      "train_speed(iter/s)": 1.128693
    },
    {
      "acc": 0.74507751,
      "epoch": 1.1013444951801117,
      "grad_norm": 3.671875,
      "learning_rate": 4.576026855811893e-06,
      "loss": 1.05364084,
      "memory(GiB)": 112.26,
      "step": 43415,
      "train_speed(iter/s)": 1.128714
    },
    {
      "acc": 0.75251269,
      "epoch": 1.1014713343480467,
      "grad_norm": 5.8125,
      "learning_rate": 4.5749820181350095e-06,
      "loss": 1.0467392,
      "memory(GiB)": 112.26,
      "step": 43420,
      "train_speed(iter/s)": 1.128729
    },
    {
      "acc": 0.73147974,
      "epoch": 1.1015981735159817,
      "grad_norm": 3.46875,
      "learning_rate": 4.57393719915231e-06,
      "loss": 1.04410238,
      "memory(GiB)": 112.26,
      "step": 43425,
      "train_speed(iter/s)": 1.128751
    },
    {
      "acc": 0.73933163,
      "epoch": 1.1017250126839169,
      "grad_norm": 3.65625,
      "learning_rate": 4.5728923989097604e-06,
      "loss": 1.04574966,
      "memory(GiB)": 112.26,
      "step": 43430,
      "train_speed(iter/s)": 1.128752
    },
    {
      "acc": 0.74367423,
      "epoch": 1.1018518518518519,
      "grad_norm": 3.5,
      "learning_rate": 4.571847617453306e-06,
      "loss": 0.99033766,
      "memory(GiB)": 112.26,
      "step": 43435,
      "train_speed(iter/s)": 1.128768
    },
    {
      "acc": 0.73968792,
      "epoch": 1.1019786910197868,
      "grad_norm": 3.828125,
      "learning_rate": 4.570802854828906e-06,
      "loss": 1.07857714,
      "memory(GiB)": 112.26,
      "step": 43440,
      "train_speed(iter/s)": 1.128785
    },
    {
      "acc": 0.74485254,
      "epoch": 1.102105530187722,
      "grad_norm": 3.375,
      "learning_rate": 4.569758111082512e-06,
      "loss": 1.02206564,
      "memory(GiB)": 112.26,
      "step": 43445,
      "train_speed(iter/s)": 1.128798
    },
    {
      "acc": 0.75526838,
      "epoch": 1.102232369355657,
      "grad_norm": 4.15625,
      "learning_rate": 4.568713386260078e-06,
      "loss": 0.98538322,
      "memory(GiB)": 112.26,
      "step": 43450,
      "train_speed(iter/s)": 1.128824
    },
    {
      "acc": 0.75845852,
      "epoch": 1.102359208523592,
      "grad_norm": 4.375,
      "learning_rate": 4.567668680407555e-06,
      "loss": 1.01150522,
      "memory(GiB)": 112.26,
      "step": 43455,
      "train_speed(iter/s)": 1.128852
    },
    {
      "acc": 0.73287463,
      "epoch": 1.102486047691527,
      "grad_norm": 3.984375,
      "learning_rate": 4.566623993570893e-06,
      "loss": 1.08421736,
      "memory(GiB)": 112.26,
      "step": 43460,
      "train_speed(iter/s)": 1.128877
    },
    {
      "acc": 0.72177324,
      "epoch": 1.1026128868594622,
      "grad_norm": 3.609375,
      "learning_rate": 4.565579325796043e-06,
      "loss": 1.15297947,
      "memory(GiB)": 112.26,
      "step": 43465,
      "train_speed(iter/s)": 1.12889
    },
    {
      "acc": 0.74690928,
      "epoch": 1.1027397260273972,
      "grad_norm": 3.4375,
      "learning_rate": 4.564534677128954e-06,
      "loss": 1.06227913,
      "memory(GiB)": 112.26,
      "step": 43470,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.73844318,
      "epoch": 1.1028665651953322,
      "grad_norm": 3.28125,
      "learning_rate": 4.563490047615574e-06,
      "loss": 1.05778732,
      "memory(GiB)": 112.26,
      "step": 43475,
      "train_speed(iter/s)": 1.128933
    },
    {
      "acc": 0.7478898,
      "epoch": 1.1029934043632674,
      "grad_norm": 3.90625,
      "learning_rate": 4.56244543730185e-06,
      "loss": 1.00949841,
      "memory(GiB)": 112.26,
      "step": 43480,
      "train_speed(iter/s)": 1.128952
    },
    {
      "acc": 0.74087272,
      "epoch": 1.1031202435312024,
      "grad_norm": 3.34375,
      "learning_rate": 4.561400846233729e-06,
      "loss": 1.02605143,
      "memory(GiB)": 112.26,
      "step": 43485,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.74261961,
      "epoch": 1.1032470826991374,
      "grad_norm": 3.71875,
      "learning_rate": 4.56035627445716e-06,
      "loss": 1.00980797,
      "memory(GiB)": 112.26,
      "step": 43490,
      "train_speed(iter/s)": 1.128983
    },
    {
      "acc": 0.72191062,
      "epoch": 1.1033739218670726,
      "grad_norm": 4.28125,
      "learning_rate": 4.55931172201808e-06,
      "loss": 1.14114895,
      "memory(GiB)": 112.26,
      "step": 43495,
      "train_speed(iter/s)": 1.129003
    },
    {
      "acc": 0.74010248,
      "epoch": 1.1035007610350076,
      "grad_norm": 3.78125,
      "learning_rate": 4.558267188962441e-06,
      "loss": 1.02625561,
      "memory(GiB)": 112.26,
      "step": 43500,
      "train_speed(iter/s)": 1.129016
    },
    {
      "acc": 0.73992105,
      "epoch": 1.1036276002029426,
      "grad_norm": 3.265625,
      "learning_rate": 4.557222675336182e-06,
      "loss": 1.06529856,
      "memory(GiB)": 112.26,
      "step": 43505,
      "train_speed(iter/s)": 1.129034
    },
    {
      "acc": 0.73642588,
      "epoch": 1.1037544393708778,
      "grad_norm": 4.03125,
      "learning_rate": 4.556178181185249e-06,
      "loss": 1.05643663,
      "memory(GiB)": 112.26,
      "step": 43510,
      "train_speed(iter/s)": 1.129039
    },
    {
      "acc": 0.73303299,
      "epoch": 1.1038812785388128,
      "grad_norm": 3.8125,
      "learning_rate": 4.555133706555579e-06,
      "loss": 1.12393179,
      "memory(GiB)": 112.26,
      "step": 43515,
      "train_speed(iter/s)": 1.129057
    },
    {
      "acc": 0.74000759,
      "epoch": 1.1040081177067478,
      "grad_norm": 3.671875,
      "learning_rate": 4.554089251493115e-06,
      "loss": 1.09351749,
      "memory(GiB)": 112.26,
      "step": 43520,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.74626255,
      "epoch": 1.104134956874683,
      "grad_norm": 4.09375,
      "learning_rate": 4.553044816043796e-06,
      "loss": 1.01577873,
      "memory(GiB)": 112.26,
      "step": 43525,
      "train_speed(iter/s)": 1.129088
    },
    {
      "acc": 0.74083929,
      "epoch": 1.104261796042618,
      "grad_norm": 4.4375,
      "learning_rate": 4.552000400253563e-06,
      "loss": 1.06542969,
      "memory(GiB)": 112.26,
      "step": 43530,
      "train_speed(iter/s)": 1.129105
    },
    {
      "acc": 0.74528584,
      "epoch": 1.104388635210553,
      "grad_norm": 3.78125,
      "learning_rate": 4.550956004168352e-06,
      "loss": 1.05487728,
      "memory(GiB)": 112.26,
      "step": 43535,
      "train_speed(iter/s)": 1.129125
    },
    {
      "acc": 0.73895292,
      "epoch": 1.1045154743784882,
      "grad_norm": 3.03125,
      "learning_rate": 4.5499116278341e-06,
      "loss": 1.08891211,
      "memory(GiB)": 112.26,
      "step": 43540,
      "train_speed(iter/s)": 1.129137
    },
    {
      "acc": 0.74121413,
      "epoch": 1.1046423135464232,
      "grad_norm": 5.03125,
      "learning_rate": 4.548867271296745e-06,
      "loss": 1.07656622,
      "memory(GiB)": 112.26,
      "step": 43545,
      "train_speed(iter/s)": 1.129152
    },
    {
      "acc": 0.75945168,
      "epoch": 1.1047691527143582,
      "grad_norm": 3.71875,
      "learning_rate": 4.547822934602222e-06,
      "loss": 1.00141764,
      "memory(GiB)": 112.26,
      "step": 43550,
      "train_speed(iter/s)": 1.12917
    },
    {
      "acc": 0.74802527,
      "epoch": 1.1048959918822931,
      "grad_norm": 3.9375,
      "learning_rate": 4.5467786177964635e-06,
      "loss": 1.04560461,
      "memory(GiB)": 112.26,
      "step": 43555,
      "train_speed(iter/s)": 1.129187
    },
    {
      "acc": 0.73067636,
      "epoch": 1.1050228310502284,
      "grad_norm": 3.78125,
      "learning_rate": 4.545734320925406e-06,
      "loss": 1.08695612,
      "memory(GiB)": 112.26,
      "step": 43560,
      "train_speed(iter/s)": 1.129203
    },
    {
      "acc": 0.75252867,
      "epoch": 1.1051496702181633,
      "grad_norm": 4.125,
      "learning_rate": 4.544690044034981e-06,
      "loss": 1.04842186,
      "memory(GiB)": 112.26,
      "step": 43565,
      "train_speed(iter/s)": 1.129228
    },
    {
      "acc": 0.74348645,
      "epoch": 1.1052765093860983,
      "grad_norm": 3.421875,
      "learning_rate": 4.543645787171122e-06,
      "loss": 1.05901146,
      "memory(GiB)": 112.26,
      "step": 43570,
      "train_speed(iter/s)": 1.129255
    },
    {
      "acc": 0.72803578,
      "epoch": 1.1054033485540335,
      "grad_norm": 3.59375,
      "learning_rate": 4.5426015503797565e-06,
      "loss": 1.08679104,
      "memory(GiB)": 112.26,
      "step": 43575,
      "train_speed(iter/s)": 1.12927
    },
    {
      "acc": 0.73706589,
      "epoch": 1.1055301877219685,
      "grad_norm": 4.15625,
      "learning_rate": 4.5415573337068185e-06,
      "loss": 1.07727623,
      "memory(GiB)": 112.26,
      "step": 43580,
      "train_speed(iter/s)": 1.129286
    },
    {
      "acc": 0.73852205,
      "epoch": 1.1056570268899035,
      "grad_norm": 4.125,
      "learning_rate": 4.540513137198233e-06,
      "loss": 1.09502592,
      "memory(GiB)": 112.26,
      "step": 43585,
      "train_speed(iter/s)": 1.129306
    },
    {
      "acc": 0.74727955,
      "epoch": 1.1057838660578387,
      "grad_norm": 3.640625,
      "learning_rate": 4.539468960899936e-06,
      "loss": 1.01142941,
      "memory(GiB)": 112.26,
      "step": 43590,
      "train_speed(iter/s)": 1.12933
    },
    {
      "acc": 0.72397366,
      "epoch": 1.1059107052257737,
      "grad_norm": 4.8125,
      "learning_rate": 4.538424804857847e-06,
      "loss": 1.11559982,
      "memory(GiB)": 112.26,
      "step": 43595,
      "train_speed(iter/s)": 1.129323
    },
    {
      "acc": 0.74103384,
      "epoch": 1.1060375443937087,
      "grad_norm": 3.46875,
      "learning_rate": 4.537380669117896e-06,
      "loss": 1.08717937,
      "memory(GiB)": 112.26,
      "step": 43600,
      "train_speed(iter/s)": 1.129349
    },
    {
      "acc": 0.74025068,
      "epoch": 1.106164383561644,
      "grad_norm": 4.84375,
      "learning_rate": 4.536336553726008e-06,
      "loss": 1.05088158,
      "memory(GiB)": 112.26,
      "step": 43605,
      "train_speed(iter/s)": 1.129355
    },
    {
      "acc": 0.7470942,
      "epoch": 1.106291222729579,
      "grad_norm": 3.28125,
      "learning_rate": 4.535292458728112e-06,
      "loss": 1.04189072,
      "memory(GiB)": 112.26,
      "step": 43610,
      "train_speed(iter/s)": 1.129374
    },
    {
      "acc": 0.73058467,
      "epoch": 1.106418061897514,
      "grad_norm": 4.0,
      "learning_rate": 4.534248384170126e-06,
      "loss": 1.08794842,
      "memory(GiB)": 112.26,
      "step": 43615,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.73603992,
      "epoch": 1.106544901065449,
      "grad_norm": 3.9375,
      "learning_rate": 4.533204330097974e-06,
      "loss": 1.06635857,
      "memory(GiB)": 112.26,
      "step": 43620,
      "train_speed(iter/s)": 1.129422
    },
    {
      "acc": 0.74296427,
      "epoch": 1.106671740233384,
      "grad_norm": 2.984375,
      "learning_rate": 4.532160296557581e-06,
      "loss": 1.06132889,
      "memory(GiB)": 112.26,
      "step": 43625,
      "train_speed(iter/s)": 1.129445
    },
    {
      "acc": 0.75484767,
      "epoch": 1.106798579401319,
      "grad_norm": 5.34375,
      "learning_rate": 4.531116283594868e-06,
      "loss": 1.02275705,
      "memory(GiB)": 112.26,
      "step": 43630,
      "train_speed(iter/s)": 1.129466
    },
    {
      "acc": 0.76017737,
      "epoch": 1.106925418569254,
      "grad_norm": 4.03125,
      "learning_rate": 4.530072291255753e-06,
      "loss": 1.02314987,
      "memory(GiB)": 112.26,
      "step": 43635,
      "train_speed(iter/s)": 1.12948
    },
    {
      "acc": 0.74669299,
      "epoch": 1.1070522577371893,
      "grad_norm": 3.5,
      "learning_rate": 4.529028319586157e-06,
      "loss": 1.06175642,
      "memory(GiB)": 112.26,
      "step": 43640,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.73789206,
      "epoch": 1.1071790969051243,
      "grad_norm": 4.125,
      "learning_rate": 4.527984368631997e-06,
      "loss": 1.13237991,
      "memory(GiB)": 112.26,
      "step": 43645,
      "train_speed(iter/s)": 1.129514
    },
    {
      "acc": 0.73305802,
      "epoch": 1.1073059360730593,
      "grad_norm": 3.609375,
      "learning_rate": 4.526940438439196e-06,
      "loss": 1.05196991,
      "memory(GiB)": 112.26,
      "step": 43650,
      "train_speed(iter/s)": 1.129523
    },
    {
      "acc": 0.74201498,
      "epoch": 1.1074327752409945,
      "grad_norm": 4.4375,
      "learning_rate": 4.525896529053662e-06,
      "loss": 1.07054272,
      "memory(GiB)": 112.26,
      "step": 43655,
      "train_speed(iter/s)": 1.12954
    },
    {
      "acc": 0.74504747,
      "epoch": 1.1075596144089295,
      "grad_norm": 3.390625,
      "learning_rate": 4.524852640521318e-06,
      "loss": 1.03872547,
      "memory(GiB)": 112.26,
      "step": 43660,
      "train_speed(iter/s)": 1.129562
    },
    {
      "acc": 0.74281478,
      "epoch": 1.1076864535768645,
      "grad_norm": 3.625,
      "learning_rate": 4.523808772888073e-06,
      "loss": 1.01184368,
      "memory(GiB)": 112.26,
      "step": 43665,
      "train_speed(iter/s)": 1.129579
    },
    {
      "acc": 0.74223204,
      "epoch": 1.1078132927447997,
      "grad_norm": 3.234375,
      "learning_rate": 4.522764926199848e-06,
      "loss": 1.05259838,
      "memory(GiB)": 112.26,
      "step": 43670,
      "train_speed(iter/s)": 1.129597
    },
    {
      "acc": 0.738447,
      "epoch": 1.1079401319127347,
      "grad_norm": 3.65625,
      "learning_rate": 4.5217211005025516e-06,
      "loss": 1.04736338,
      "memory(GiB)": 112.26,
      "step": 43675,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.73433971,
      "epoch": 1.1080669710806696,
      "grad_norm": 4.28125,
      "learning_rate": 4.520677295842095e-06,
      "loss": 1.06757298,
      "memory(GiB)": 112.26,
      "step": 43680,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.76273766,
      "epoch": 1.1081938102486049,
      "grad_norm": 4.125,
      "learning_rate": 4.5196335122643915e-06,
      "loss": 0.94871616,
      "memory(GiB)": 112.26,
      "step": 43685,
      "train_speed(iter/s)": 1.129638
    },
    {
      "acc": 0.74965153,
      "epoch": 1.1083206494165398,
      "grad_norm": 3.59375,
      "learning_rate": 4.518589749815352e-06,
      "loss": 1.01153622,
      "memory(GiB)": 112.26,
      "step": 43690,
      "train_speed(iter/s)": 1.129665
    },
    {
      "acc": 0.74216204,
      "epoch": 1.1084474885844748,
      "grad_norm": 3.84375,
      "learning_rate": 4.517546008540884e-06,
      "loss": 1.0396452,
      "memory(GiB)": 112.26,
      "step": 43695,
      "train_speed(iter/s)": 1.129678
    },
    {
      "acc": 0.7360971,
      "epoch": 1.10857432775241,
      "grad_norm": 3.359375,
      "learning_rate": 4.5165022884868946e-06,
      "loss": 1.04793406,
      "memory(GiB)": 112.26,
      "step": 43700,
      "train_speed(iter/s)": 1.1297
    },
    {
      "acc": 0.72395315,
      "epoch": 1.108701166920345,
      "grad_norm": 4.0625,
      "learning_rate": 4.515458589699295e-06,
      "loss": 1.13366737,
      "memory(GiB)": 112.26,
      "step": 43705,
      "train_speed(iter/s)": 1.129722
    },
    {
      "acc": 0.73502202,
      "epoch": 1.10882800608828,
      "grad_norm": 4.25,
      "learning_rate": 4.514414912223991e-06,
      "loss": 1.06471033,
      "memory(GiB)": 112.26,
      "step": 43710,
      "train_speed(iter/s)": 1.129736
    },
    {
      "acc": 0.74560027,
      "epoch": 1.108954845256215,
      "grad_norm": 3.75,
      "learning_rate": 4.513371256106885e-06,
      "loss": 0.99230528,
      "memory(GiB)": 112.26,
      "step": 43715,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.73560166,
      "epoch": 1.1090816844241502,
      "grad_norm": 4.09375,
      "learning_rate": 4.512327621393885e-06,
      "loss": 1.05493202,
      "memory(GiB)": 112.26,
      "step": 43720,
      "train_speed(iter/s)": 1.12978
    },
    {
      "acc": 0.75163293,
      "epoch": 1.1092085235920852,
      "grad_norm": 3.734375,
      "learning_rate": 4.511284008130892e-06,
      "loss": 1.01052475,
      "memory(GiB)": 112.26,
      "step": 43725,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.74053402,
      "epoch": 1.1093353627600202,
      "grad_norm": 3.40625,
      "learning_rate": 4.510240416363813e-06,
      "loss": 1.04708023,
      "memory(GiB)": 112.26,
      "step": 43730,
      "train_speed(iter/s)": 1.12982
    },
    {
      "acc": 0.73422718,
      "epoch": 1.1094622019279554,
      "grad_norm": 3.484375,
      "learning_rate": 4.5091968461385455e-06,
      "loss": 1.10355053,
      "memory(GiB)": 112.26,
      "step": 43735,
      "train_speed(iter/s)": 1.129836
    },
    {
      "acc": 0.73644905,
      "epoch": 1.1095890410958904,
      "grad_norm": 3.5,
      "learning_rate": 4.508153297500993e-06,
      "loss": 1.07084694,
      "memory(GiB)": 112.26,
      "step": 43740,
      "train_speed(iter/s)": 1.129863
    },
    {
      "acc": 0.74358573,
      "epoch": 1.1097158802638254,
      "grad_norm": 3.578125,
      "learning_rate": 4.507109770497052e-06,
      "loss": 1.02075901,
      "memory(GiB)": 112.26,
      "step": 43745,
      "train_speed(iter/s)": 1.129875
    },
    {
      "acc": 0.75109539,
      "epoch": 1.1098427194317606,
      "grad_norm": 3.671875,
      "learning_rate": 4.506066265172626e-06,
      "loss": 1.00186977,
      "memory(GiB)": 112.26,
      "step": 43750,
      "train_speed(iter/s)": 1.129906
    },
    {
      "acc": 0.71751728,
      "epoch": 1.1099695585996956,
      "grad_norm": 3.578125,
      "learning_rate": 4.505022781573611e-06,
      "loss": 1.09957256,
      "memory(GiB)": 112.26,
      "step": 43755,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.75008717,
      "epoch": 1.1100963977676306,
      "grad_norm": 3.578125,
      "learning_rate": 4.503979319745902e-06,
      "loss": 1.0431078,
      "memory(GiB)": 112.26,
      "step": 43760,
      "train_speed(iter/s)": 1.129932
    },
    {
      "acc": 0.75212135,
      "epoch": 1.1102232369355658,
      "grad_norm": 3.5,
      "learning_rate": 4.502935879735398e-06,
      "loss": 1.03613892,
      "memory(GiB)": 112.26,
      "step": 43765,
      "train_speed(iter/s)": 1.129952
    },
    {
      "acc": 0.74376063,
      "epoch": 1.1103500761035008,
      "grad_norm": 3.390625,
      "learning_rate": 4.5018924615879956e-06,
      "loss": 1.07716341,
      "memory(GiB)": 112.26,
      "step": 43770,
      "train_speed(iter/s)": 1.129965
    },
    {
      "acc": 0.74144888,
      "epoch": 1.1104769152714358,
      "grad_norm": 3.453125,
      "learning_rate": 4.500849065349584e-06,
      "loss": 1.05808802,
      "memory(GiB)": 112.26,
      "step": 43775,
      "train_speed(iter/s)": 1.129979
    },
    {
      "acc": 0.73568039,
      "epoch": 1.1106037544393708,
      "grad_norm": 4.0625,
      "learning_rate": 4.499805691066059e-06,
      "loss": 1.04584246,
      "memory(GiB)": 112.26,
      "step": 43780,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.74487495,
      "epoch": 1.110730593607306,
      "grad_norm": 4.53125,
      "learning_rate": 4.498762338783314e-06,
      "loss": 1.04801693,
      "memory(GiB)": 112.26,
      "step": 43785,
      "train_speed(iter/s)": 1.130011
    },
    {
      "acc": 0.75141029,
      "epoch": 1.110857432775241,
      "grad_norm": 4.3125,
      "learning_rate": 4.49771900854724e-06,
      "loss": 1.03419304,
      "memory(GiB)": 112.26,
      "step": 43790,
      "train_speed(iter/s)": 1.130026
    },
    {
      "acc": 0.72854795,
      "epoch": 1.110984271943176,
      "grad_norm": 4.53125,
      "learning_rate": 4.496675700403724e-06,
      "loss": 1.13852596,
      "memory(GiB)": 112.26,
      "step": 43795,
      "train_speed(iter/s)": 1.130029
    },
    {
      "acc": 0.74285631,
      "epoch": 1.1111111111111112,
      "grad_norm": 3.671875,
      "learning_rate": 4.495632414398659e-06,
      "loss": 1.09696379,
      "memory(GiB)": 112.26,
      "step": 43800,
      "train_speed(iter/s)": 1.130049
    },
    {
      "acc": 0.7286983,
      "epoch": 1.1112379502790461,
      "grad_norm": 3.6875,
      "learning_rate": 4.494589150577932e-06,
      "loss": 1.13051052,
      "memory(GiB)": 112.26,
      "step": 43805,
      "train_speed(iter/s)": 1.130068
    },
    {
      "acc": 0.74410324,
      "epoch": 1.1113647894469811,
      "grad_norm": 4.03125,
      "learning_rate": 4.493545908987432e-06,
      "loss": 1.08252649,
      "memory(GiB)": 112.26,
      "step": 43810,
      "train_speed(iter/s)": 1.13009
    },
    {
      "acc": 0.72425699,
      "epoch": 1.1114916286149163,
      "grad_norm": 3.21875,
      "learning_rate": 4.492502689673044e-06,
      "loss": 1.13445282,
      "memory(GiB)": 112.26,
      "step": 43815,
      "train_speed(iter/s)": 1.130109
    },
    {
      "acc": 0.75262547,
      "epoch": 1.1116184677828513,
      "grad_norm": 3.75,
      "learning_rate": 4.491459492680651e-06,
      "loss": 1.03729324,
      "memory(GiB)": 112.26,
      "step": 43820,
      "train_speed(iter/s)": 1.130122
    },
    {
      "acc": 0.74536357,
      "epoch": 1.1117453069507863,
      "grad_norm": 4.09375,
      "learning_rate": 4.4904163180561425e-06,
      "loss": 1.00819263,
      "memory(GiB)": 112.26,
      "step": 43825,
      "train_speed(iter/s)": 1.130145
    },
    {
      "acc": 0.72643328,
      "epoch": 1.1118721461187215,
      "grad_norm": 3.5625,
      "learning_rate": 4.4893731658453996e-06,
      "loss": 1.06867504,
      "memory(GiB)": 112.26,
      "step": 43830,
      "train_speed(iter/s)": 1.130173
    },
    {
      "acc": 0.74246221,
      "epoch": 1.1119989852866565,
      "grad_norm": 3.609375,
      "learning_rate": 4.4883300360943035e-06,
      "loss": 1.04735098,
      "memory(GiB)": 112.26,
      "step": 43835,
      "train_speed(iter/s)": 1.130195
    },
    {
      "acc": 0.73109722,
      "epoch": 1.1121258244545915,
      "grad_norm": 3.703125,
      "learning_rate": 4.4872869288487366e-06,
      "loss": 1.08812981,
      "memory(GiB)": 112.26,
      "step": 43840,
      "train_speed(iter/s)": 1.13021
    },
    {
      "acc": 0.731917,
      "epoch": 1.1122526636225267,
      "grad_norm": 3.15625,
      "learning_rate": 4.48624384415458e-06,
      "loss": 1.01066437,
      "memory(GiB)": 112.26,
      "step": 43845,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.74249005,
      "epoch": 1.1123795027904617,
      "grad_norm": 4.09375,
      "learning_rate": 4.485200782057715e-06,
      "loss": 1.10470409,
      "memory(GiB)": 112.26,
      "step": 43850,
      "train_speed(iter/s)": 1.130251
    },
    {
      "acc": 0.7304903,
      "epoch": 1.1125063419583967,
      "grad_norm": 4.1875,
      "learning_rate": 4.4841577426040145e-06,
      "loss": 1.09693289,
      "memory(GiB)": 112.26,
      "step": 43855,
      "train_speed(iter/s)": 1.130256
    },
    {
      "acc": 0.74900761,
      "epoch": 1.112633181126332,
      "grad_norm": 3.703125,
      "learning_rate": 4.483114725839361e-06,
      "loss": 1.04125319,
      "memory(GiB)": 112.26,
      "step": 43860,
      "train_speed(iter/s)": 1.130282
    },
    {
      "acc": 0.74002657,
      "epoch": 1.112760020294267,
      "grad_norm": 4.0625,
      "learning_rate": 4.482071731809629e-06,
      "loss": 1.09309864,
      "memory(GiB)": 112.26,
      "step": 43865,
      "train_speed(iter/s)": 1.130298
    },
    {
      "acc": 0.72623644,
      "epoch": 1.112886859462202,
      "grad_norm": 4.125,
      "learning_rate": 4.481028760560697e-06,
      "loss": 1.09094448,
      "memory(GiB)": 112.26,
      "step": 43870,
      "train_speed(iter/s)": 1.130302
    },
    {
      "acc": 0.74263687,
      "epoch": 1.1130136986301369,
      "grad_norm": 3.625,
      "learning_rate": 4.479985812138435e-06,
      "loss": 1.0608613,
      "memory(GiB)": 112.26,
      "step": 43875,
      "train_speed(iter/s)": 1.130318
    },
    {
      "acc": 0.73915987,
      "epoch": 1.113140537798072,
      "grad_norm": 3.828125,
      "learning_rate": 4.478942886588719e-06,
      "loss": 1.04588451,
      "memory(GiB)": 112.26,
      "step": 43880,
      "train_speed(iter/s)": 1.130347
    },
    {
      "acc": 0.73713312,
      "epoch": 1.113267376966007,
      "grad_norm": 4.53125,
      "learning_rate": 4.47789998395742e-06,
      "loss": 1.04420328,
      "memory(GiB)": 112.26,
      "step": 43885,
      "train_speed(iter/s)": 1.130363
    },
    {
      "acc": 0.75218921,
      "epoch": 1.113394216133942,
      "grad_norm": 4.3125,
      "learning_rate": 4.476857104290413e-06,
      "loss": 1.04357452,
      "memory(GiB)": 112.26,
      "step": 43890,
      "train_speed(iter/s)": 1.130378
    },
    {
      "acc": 0.75466475,
      "epoch": 1.1135210553018773,
      "grad_norm": 4.0625,
      "learning_rate": 4.4758142476335655e-06,
      "loss": 1.0411746,
      "memory(GiB)": 112.26,
      "step": 43895,
      "train_speed(iter/s)": 1.130392
    },
    {
      "acc": 0.74928236,
      "epoch": 1.1136478944698123,
      "grad_norm": 3.015625,
      "learning_rate": 4.474771414032747e-06,
      "loss": 1.08960762,
      "memory(GiB)": 112.26,
      "step": 43900,
      "train_speed(iter/s)": 1.130406
    },
    {
      "acc": 0.75297813,
      "epoch": 1.1137747336377473,
      "grad_norm": 4.25,
      "learning_rate": 4.473728603533827e-06,
      "loss": 1.06690798,
      "memory(GiB)": 112.26,
      "step": 43905,
      "train_speed(iter/s)": 1.130426
    },
    {
      "acc": 0.73866596,
      "epoch": 1.1139015728056825,
      "grad_norm": 4.09375,
      "learning_rate": 4.472685816182674e-06,
      "loss": 1.0477232,
      "memory(GiB)": 112.26,
      "step": 43910,
      "train_speed(iter/s)": 1.130443
    },
    {
      "acc": 0.74230523,
      "epoch": 1.1140284119736175,
      "grad_norm": 4.71875,
      "learning_rate": 4.471643052025152e-06,
      "loss": 1.10164261,
      "memory(GiB)": 112.26,
      "step": 43915,
      "train_speed(iter/s)": 1.130456
    },
    {
      "acc": 0.73123188,
      "epoch": 1.1141552511415524,
      "grad_norm": 3.625,
      "learning_rate": 4.470600311107127e-06,
      "loss": 1.08545532,
      "memory(GiB)": 112.26,
      "step": 43920,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.73449945,
      "epoch": 1.1142820903094877,
      "grad_norm": 3.75,
      "learning_rate": 4.469557593474464e-06,
      "loss": 1.02297382,
      "memory(GiB)": 112.26,
      "step": 43925,
      "train_speed(iter/s)": 1.130488
    },
    {
      "acc": 0.73479242,
      "epoch": 1.1144089294774226,
      "grad_norm": 3.796875,
      "learning_rate": 4.468514899173027e-06,
      "loss": 1.0933259,
      "memory(GiB)": 112.26,
      "step": 43930,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.74903383,
      "epoch": 1.1145357686453576,
      "grad_norm": 3.671875,
      "learning_rate": 4.4674722282486775e-06,
      "loss": 1.01199427,
      "memory(GiB)": 112.26,
      "step": 43935,
      "train_speed(iter/s)": 1.130514
    },
    {
      "acc": 0.74643154,
      "epoch": 1.1146626078132926,
      "grad_norm": 3.65625,
      "learning_rate": 4.4664295807472765e-06,
      "loss": 1.01832991,
      "memory(GiB)": 112.26,
      "step": 43940,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.73257809,
      "epoch": 1.1147894469812278,
      "grad_norm": 4.46875,
      "learning_rate": 4.465386956714684e-06,
      "loss": 1.05563107,
      "memory(GiB)": 112.26,
      "step": 43945,
      "train_speed(iter/s)": 1.130515
    },
    {
      "acc": 0.74329004,
      "epoch": 1.1149162861491628,
      "grad_norm": 3.75,
      "learning_rate": 4.4643443561967625e-06,
      "loss": 1.04932737,
      "memory(GiB)": 112.26,
      "step": 43950,
      "train_speed(iter/s)": 1.130528
    },
    {
      "acc": 0.74480705,
      "epoch": 1.1150431253170978,
      "grad_norm": 4.15625,
      "learning_rate": 4.463301779239366e-06,
      "loss": 0.97372875,
      "memory(GiB)": 112.26,
      "step": 43955,
      "train_speed(iter/s)": 1.13054
    },
    {
      "acc": 0.75493965,
      "epoch": 1.115169964485033,
      "grad_norm": 3.484375,
      "learning_rate": 4.462259225888354e-06,
      "loss": 1.01248207,
      "memory(GiB)": 112.26,
      "step": 43960,
      "train_speed(iter/s)": 1.130554
    },
    {
      "acc": 0.72819805,
      "epoch": 1.115296803652968,
      "grad_norm": 3.59375,
      "learning_rate": 4.4612166961895805e-06,
      "loss": 1.1156064,
      "memory(GiB)": 112.26,
      "step": 43965,
      "train_speed(iter/s)": 1.130574
    },
    {
      "acc": 0.74243827,
      "epoch": 1.115423642820903,
      "grad_norm": 3.28125,
      "learning_rate": 4.460174190188905e-06,
      "loss": 1.06415138,
      "memory(GiB)": 112.26,
      "step": 43970,
      "train_speed(iter/s)": 1.130593
    },
    {
      "acc": 0.73341398,
      "epoch": 1.1155504819888382,
      "grad_norm": 3.828125,
      "learning_rate": 4.459131707932177e-06,
      "loss": 1.12399731,
      "memory(GiB)": 112.26,
      "step": 43975,
      "train_speed(iter/s)": 1.130614
    },
    {
      "acc": 0.7414362,
      "epoch": 1.1156773211567732,
      "grad_norm": 3.734375,
      "learning_rate": 4.458089249465251e-06,
      "loss": 1.07856045,
      "memory(GiB)": 112.26,
      "step": 43980,
      "train_speed(iter/s)": 1.130631
    },
    {
      "acc": 0.72286816,
      "epoch": 1.1158041603247082,
      "grad_norm": 3.234375,
      "learning_rate": 4.45704681483398e-06,
      "loss": 1.13434353,
      "memory(GiB)": 112.26,
      "step": 43985,
      "train_speed(iter/s)": 1.13065
    },
    {
      "acc": 0.7302278,
      "epoch": 1.1159309994926434,
      "grad_norm": 3.5,
      "learning_rate": 4.456004404084215e-06,
      "loss": 1.06213217,
      "memory(GiB)": 112.26,
      "step": 43990,
      "train_speed(iter/s)": 1.130675
    },
    {
      "acc": 0.72699203,
      "epoch": 1.1160578386605784,
      "grad_norm": 4.3125,
      "learning_rate": 4.454962017261803e-06,
      "loss": 1.13270779,
      "memory(GiB)": 112.26,
      "step": 43995,
      "train_speed(iter/s)": 1.130694
    },
    {
      "acc": 0.73811007,
      "epoch": 1.1161846778285134,
      "grad_norm": 3.9375,
      "learning_rate": 4.453919654412596e-06,
      "loss": 1.04524078,
      "memory(GiB)": 112.26,
      "step": 44000,
      "train_speed(iter/s)": 1.130721
    },
    {
      "epoch": 1.1161846778285134,
      "eval_acc": 0.725507197347016,
      "eval_loss": 1.0454121828079224,
      "eval_runtime": 70.8109,
      "eval_samples_per_second": 89.958,
      "eval_steps_per_second": 22.497,
      "step": 44000
    },
    {
      "acc": 0.74062624,
      "epoch": 1.1163115169964486,
      "grad_norm": 3.515625,
      "learning_rate": 4.45287731558244e-06,
      "loss": 1.02279816,
      "memory(GiB)": 112.26,
      "step": 44005,
      "train_speed(iter/s)": 1.127414
    },
    {
      "acc": 0.74388046,
      "epoch": 1.1164383561643836,
      "grad_norm": 3.140625,
      "learning_rate": 4.451835000817185e-06,
      "loss": 1.03429022,
      "memory(GiB)": 112.26,
      "step": 44010,
      "train_speed(iter/s)": 1.127438
    },
    {
      "acc": 0.74702682,
      "epoch": 1.1165651953323186,
      "grad_norm": 4.375,
      "learning_rate": 4.450792710162672e-06,
      "loss": 1.07341948,
      "memory(GiB)": 112.26,
      "step": 44015,
      "train_speed(iter/s)": 1.127458
    },
    {
      "acc": 0.72884741,
      "epoch": 1.1166920345002538,
      "grad_norm": 3.859375,
      "learning_rate": 4.449750443664747e-06,
      "loss": 1.03328342,
      "memory(GiB)": 112.26,
      "step": 44020,
      "train_speed(iter/s)": 1.127472
    },
    {
      "acc": 0.74445944,
      "epoch": 1.1168188736681888,
      "grad_norm": 3.15625,
      "learning_rate": 4.448708201369254e-06,
      "loss": 1.04931564,
      "memory(GiB)": 112.26,
      "step": 44025,
      "train_speed(iter/s)": 1.127493
    },
    {
      "acc": 0.73411903,
      "epoch": 1.1169457128361238,
      "grad_norm": 3.46875,
      "learning_rate": 4.4476659833220374e-06,
      "loss": 1.06661739,
      "memory(GiB)": 112.26,
      "step": 44030,
      "train_speed(iter/s)": 1.127511
    },
    {
      "acc": 0.74944782,
      "epoch": 1.1170725520040587,
      "grad_norm": 3.859375,
      "learning_rate": 4.4466237895689365e-06,
      "loss": 1.05331917,
      "memory(GiB)": 112.26,
      "step": 44035,
      "train_speed(iter/s)": 1.127522
    },
    {
      "acc": 0.73700747,
      "epoch": 1.117199391171994,
      "grad_norm": 4.28125,
      "learning_rate": 4.44558162015579e-06,
      "loss": 1.05513325,
      "memory(GiB)": 112.26,
      "step": 44040,
      "train_speed(iter/s)": 1.127546
    },
    {
      "acc": 0.73620057,
      "epoch": 1.117326230339929,
      "grad_norm": 4.3125,
      "learning_rate": 4.444539475128441e-06,
      "loss": 1.10372038,
      "memory(GiB)": 112.26,
      "step": 44045,
      "train_speed(iter/s)": 1.127545
    },
    {
      "acc": 0.74332113,
      "epoch": 1.117453069507864,
      "grad_norm": 3.5,
      "learning_rate": 4.443497354532726e-06,
      "loss": 1.06405964,
      "memory(GiB)": 112.26,
      "step": 44050,
      "train_speed(iter/s)": 1.127569
    },
    {
      "acc": 0.74649434,
      "epoch": 1.1175799086757991,
      "grad_norm": 3.78125,
      "learning_rate": 4.442455258414482e-06,
      "loss": 1.00608158,
      "memory(GiB)": 112.26,
      "step": 44055,
      "train_speed(iter/s)": 1.127586
    },
    {
      "acc": 0.73762593,
      "epoch": 1.1177067478437341,
      "grad_norm": 3.71875,
      "learning_rate": 4.441413186819543e-06,
      "loss": 1.03423376,
      "memory(GiB)": 112.26,
      "step": 44060,
      "train_speed(iter/s)": 1.127589
    },
    {
      "acc": 0.74509735,
      "epoch": 1.1178335870116691,
      "grad_norm": 4.21875,
      "learning_rate": 4.440371139793747e-06,
      "loss": 1.00001564,
      "memory(GiB)": 112.26,
      "step": 44065,
      "train_speed(iter/s)": 1.127612
    },
    {
      "acc": 0.73967619,
      "epoch": 1.1179604261796043,
      "grad_norm": 3.3125,
      "learning_rate": 4.43932911738293e-06,
      "loss": 1.03908157,
      "memory(GiB)": 112.26,
      "step": 44070,
      "train_speed(iter/s)": 1.127632
    },
    {
      "acc": 0.73851719,
      "epoch": 1.1180872653475393,
      "grad_norm": 4.4375,
      "learning_rate": 4.438287119632917e-06,
      "loss": 1.0468255,
      "memory(GiB)": 112.26,
      "step": 44075,
      "train_speed(iter/s)": 1.127647
    },
    {
      "acc": 0.73592663,
      "epoch": 1.1182141045154743,
      "grad_norm": 5.90625,
      "learning_rate": 4.4372451465895465e-06,
      "loss": 1.06082897,
      "memory(GiB)": 112.26,
      "step": 44080,
      "train_speed(iter/s)": 1.127669
    },
    {
      "acc": 0.73594289,
      "epoch": 1.1183409436834095,
      "grad_norm": 3.765625,
      "learning_rate": 4.436203198298645e-06,
      "loss": 1.10930758,
      "memory(GiB)": 112.26,
      "step": 44085,
      "train_speed(iter/s)": 1.127696
    },
    {
      "acc": 0.74078321,
      "epoch": 1.1184677828513445,
      "grad_norm": 3.171875,
      "learning_rate": 4.435161274806049e-06,
      "loss": 1.02638588,
      "memory(GiB)": 112.26,
      "step": 44090,
      "train_speed(iter/s)": 1.127716
    },
    {
      "acc": 0.72880297,
      "epoch": 1.1185946220192795,
      "grad_norm": 3.390625,
      "learning_rate": 4.4341193761575765e-06,
      "loss": 1.10338917,
      "memory(GiB)": 112.26,
      "step": 44095,
      "train_speed(iter/s)": 1.127729
    },
    {
      "acc": 0.74835038,
      "epoch": 1.1187214611872145,
      "grad_norm": 4.1875,
      "learning_rate": 4.433077502399063e-06,
      "loss": 1.06234818,
      "memory(GiB)": 112.26,
      "step": 44100,
      "train_speed(iter/s)": 1.127745
    },
    {
      "acc": 0.7452528,
      "epoch": 1.1188483003551497,
      "grad_norm": 3.3125,
      "learning_rate": 4.43203565357633e-06,
      "loss": 0.99777689,
      "memory(GiB)": 112.26,
      "step": 44105,
      "train_speed(iter/s)": 1.127753
    },
    {
      "acc": 0.74616299,
      "epoch": 1.1189751395230847,
      "grad_norm": 4.4375,
      "learning_rate": 4.430993829735208e-06,
      "loss": 1.03934536,
      "memory(GiB)": 112.26,
      "step": 44110,
      "train_speed(iter/s)": 1.12777
    },
    {
      "acc": 0.7437326,
      "epoch": 1.1191019786910197,
      "grad_norm": 3.1875,
      "learning_rate": 4.429952030921516e-06,
      "loss": 1.02662611,
      "memory(GiB)": 112.26,
      "step": 44115,
      "train_speed(iter/s)": 1.127789
    },
    {
      "acc": 0.75614176,
      "epoch": 1.119228817858955,
      "grad_norm": 4.6875,
      "learning_rate": 4.428910257181077e-06,
      "loss": 1.06808414,
      "memory(GiB)": 112.26,
      "step": 44120,
      "train_speed(iter/s)": 1.127811
    },
    {
      "acc": 0.75428553,
      "epoch": 1.1193556570268899,
      "grad_norm": 4.4375,
      "learning_rate": 4.427868508559717e-06,
      "loss": 1.01411524,
      "memory(GiB)": 112.26,
      "step": 44125,
      "train_speed(iter/s)": 1.127828
    },
    {
      "acc": 0.74984374,
      "epoch": 1.1194824961948249,
      "grad_norm": 4.25,
      "learning_rate": 4.426826785103256e-06,
      "loss": 0.99631939,
      "memory(GiB)": 112.26,
      "step": 44130,
      "train_speed(iter/s)": 1.127818
    },
    {
      "acc": 0.73500395,
      "epoch": 1.11960933536276,
      "grad_norm": 4.09375,
      "learning_rate": 4.425785086857509e-06,
      "loss": 1.06241589,
      "memory(GiB)": 112.26,
      "step": 44135,
      "train_speed(iter/s)": 1.127834
    },
    {
      "acc": 0.73257823,
      "epoch": 1.119736174530695,
      "grad_norm": 3.90625,
      "learning_rate": 4.424743413868298e-06,
      "loss": 1.07232189,
      "memory(GiB)": 112.26,
      "step": 44140,
      "train_speed(iter/s)": 1.127854
    },
    {
      "acc": 0.74966302,
      "epoch": 1.11986301369863,
      "grad_norm": 4.1875,
      "learning_rate": 4.42370176618144e-06,
      "loss": 1.01920872,
      "memory(GiB)": 112.26,
      "step": 44145,
      "train_speed(iter/s)": 1.127866
    },
    {
      "acc": 0.72891884,
      "epoch": 1.1199898528665653,
      "grad_norm": 3.4375,
      "learning_rate": 4.422660143842753e-06,
      "loss": 1.05633736,
      "memory(GiB)": 112.26,
      "step": 44150,
      "train_speed(iter/s)": 1.127893
    },
    {
      "acc": 0.73895478,
      "epoch": 1.1201166920345003,
      "grad_norm": 5.09375,
      "learning_rate": 4.421618546898048e-06,
      "loss": 1.08438663,
      "memory(GiB)": 112.26,
      "step": 44155,
      "train_speed(iter/s)": 1.127898
    },
    {
      "acc": 0.74324484,
      "epoch": 1.1202435312024352,
      "grad_norm": 3.90625,
      "learning_rate": 4.420576975393143e-06,
      "loss": 0.99799757,
      "memory(GiB)": 112.26,
      "step": 44160,
      "train_speed(iter/s)": 1.127919
    },
    {
      "acc": 0.75374708,
      "epoch": 1.1203703703703705,
      "grad_norm": 3.53125,
      "learning_rate": 4.4195354293738484e-06,
      "loss": 1.00235443,
      "memory(GiB)": 112.26,
      "step": 44165,
      "train_speed(iter/s)": 1.127935
    },
    {
      "acc": 0.72883201,
      "epoch": 1.1204972095383054,
      "grad_norm": 3.65625,
      "learning_rate": 4.418493908885979e-06,
      "loss": 1.03146381,
      "memory(GiB)": 112.26,
      "step": 44170,
      "train_speed(iter/s)": 1.127955
    },
    {
      "acc": 0.74268599,
      "epoch": 1.1206240487062404,
      "grad_norm": 3.296875,
      "learning_rate": 4.417452413975343e-06,
      "loss": 1.05411139,
      "memory(GiB)": 112.26,
      "step": 44175,
      "train_speed(iter/s)": 1.127975
    },
    {
      "acc": 0.74033961,
      "epoch": 1.1207508878741756,
      "grad_norm": 3.28125,
      "learning_rate": 4.4164109446877514e-06,
      "loss": 1.03791313,
      "memory(GiB)": 112.26,
      "step": 44180,
      "train_speed(iter/s)": 1.127996
    },
    {
      "acc": 0.74878073,
      "epoch": 1.1208777270421106,
      "grad_norm": 3.078125,
      "learning_rate": 4.41536950106901e-06,
      "loss": 1.02856445,
      "memory(GiB)": 112.26,
      "step": 44185,
      "train_speed(iter/s)": 1.128022
    },
    {
      "acc": 0.74791865,
      "epoch": 1.1210045662100456,
      "grad_norm": 4.125,
      "learning_rate": 4.414328083164931e-06,
      "loss": 1.01713219,
      "memory(GiB)": 112.26,
      "step": 44190,
      "train_speed(iter/s)": 1.128021
    },
    {
      "acc": 0.73430943,
      "epoch": 1.1211314053779806,
      "grad_norm": 3.625,
      "learning_rate": 4.4132866910213154e-06,
      "loss": 1.08089981,
      "memory(GiB)": 112.26,
      "step": 44195,
      "train_speed(iter/s)": 1.128044
    },
    {
      "acc": 0.74811835,
      "epoch": 1.1212582445459158,
      "grad_norm": 3.71875,
      "learning_rate": 4.41224532468397e-06,
      "loss": 0.96592274,
      "memory(GiB)": 112.26,
      "step": 44200,
      "train_speed(iter/s)": 1.128062
    },
    {
      "acc": 0.74262142,
      "epoch": 1.1213850837138508,
      "grad_norm": 3.6875,
      "learning_rate": 4.411203984198701e-06,
      "loss": 1.05993052,
      "memory(GiB)": 112.26,
      "step": 44205,
      "train_speed(iter/s)": 1.128074
    },
    {
      "acc": 0.72900453,
      "epoch": 1.1215119228817858,
      "grad_norm": 3.0,
      "learning_rate": 4.41016266961131e-06,
      "loss": 1.07519493,
      "memory(GiB)": 112.26,
      "step": 44210,
      "train_speed(iter/s)": 1.128091
    },
    {
      "acc": 0.74147248,
      "epoch": 1.121638762049721,
      "grad_norm": 5.0,
      "learning_rate": 4.409121380967597e-06,
      "loss": 1.09933834,
      "memory(GiB)": 112.26,
      "step": 44215,
      "train_speed(iter/s)": 1.128104
    },
    {
      "acc": 0.74744735,
      "epoch": 1.121765601217656,
      "grad_norm": 5.9375,
      "learning_rate": 4.408080118313364e-06,
      "loss": 1.06936636,
      "memory(GiB)": 112.26,
      "step": 44220,
      "train_speed(iter/s)": 1.12812
    },
    {
      "acc": 0.74490142,
      "epoch": 1.121892440385591,
      "grad_norm": 4.1875,
      "learning_rate": 4.40703888169441e-06,
      "loss": 1.07115345,
      "memory(GiB)": 112.26,
      "step": 44225,
      "train_speed(iter/s)": 1.128143
    },
    {
      "acc": 0.7507987,
      "epoch": 1.1220192795535262,
      "grad_norm": 5.15625,
      "learning_rate": 4.4059976711565355e-06,
      "loss": 0.9973629,
      "memory(GiB)": 112.26,
      "step": 44230,
      "train_speed(iter/s)": 1.128161
    },
    {
      "acc": 0.74486151,
      "epoch": 1.1221461187214612,
      "grad_norm": 4.0,
      "learning_rate": 4.404956486745532e-06,
      "loss": 1.00423431,
      "memory(GiB)": 112.26,
      "step": 44235,
      "train_speed(iter/s)": 1.128185
    },
    {
      "acc": 0.73396916,
      "epoch": 1.1222729578893962,
      "grad_norm": 4.5,
      "learning_rate": 4.403915328507201e-06,
      "loss": 1.08639669,
      "memory(GiB)": 112.26,
      "step": 44240,
      "train_speed(iter/s)": 1.128212
    },
    {
      "acc": 0.73415098,
      "epoch": 1.1223997970573314,
      "grad_norm": 3.65625,
      "learning_rate": 4.4028741964873334e-06,
      "loss": 1.0347641,
      "memory(GiB)": 112.26,
      "step": 44245,
      "train_speed(iter/s)": 1.128227
    },
    {
      "acc": 0.73029141,
      "epoch": 1.1225266362252664,
      "grad_norm": 4.59375,
      "learning_rate": 4.4018330907317275e-06,
      "loss": 1.06960945,
      "memory(GiB)": 112.26,
      "step": 44250,
      "train_speed(iter/s)": 1.128246
    },
    {
      "acc": 0.72271752,
      "epoch": 1.1226534753932014,
      "grad_norm": 4.0625,
      "learning_rate": 4.400792011286171e-06,
      "loss": 1.15852232,
      "memory(GiB)": 112.26,
      "step": 44255,
      "train_speed(iter/s)": 1.128259
    },
    {
      "acc": 0.75430403,
      "epoch": 1.1227803145611364,
      "grad_norm": 3.5,
      "learning_rate": 4.3997509581964566e-06,
      "loss": 1.02215805,
      "memory(GiB)": 112.26,
      "step": 44260,
      "train_speed(iter/s)": 1.128264
    },
    {
      "acc": 0.7401475,
      "epoch": 1.1229071537290716,
      "grad_norm": 3.75,
      "learning_rate": 4.398709931508376e-06,
      "loss": 1.03453617,
      "memory(GiB)": 112.26,
      "step": 44265,
      "train_speed(iter/s)": 1.128286
    },
    {
      "acc": 0.73816118,
      "epoch": 1.1230339928970066,
      "grad_norm": 4.8125,
      "learning_rate": 4.397668931267718e-06,
      "loss": 1.02785769,
      "memory(GiB)": 112.26,
      "step": 44270,
      "train_speed(iter/s)": 1.12829
    },
    {
      "acc": 0.73698649,
      "epoch": 1.1231608320649416,
      "grad_norm": 3.375,
      "learning_rate": 4.396627957520269e-06,
      "loss": 1.07685633,
      "memory(GiB)": 112.26,
      "step": 44275,
      "train_speed(iter/s)": 1.128308
    },
    {
      "acc": 0.73105187,
      "epoch": 1.1232876712328768,
      "grad_norm": 4.0,
      "learning_rate": 4.395587010311815e-06,
      "loss": 1.06338911,
      "memory(GiB)": 112.26,
      "step": 44280,
      "train_speed(iter/s)": 1.12832
    },
    {
      "acc": 0.74541941,
      "epoch": 1.1234145104008117,
      "grad_norm": 3.9375,
      "learning_rate": 4.394546089688143e-06,
      "loss": 1.03553104,
      "memory(GiB)": 112.26,
      "step": 44285,
      "train_speed(iter/s)": 1.128335
    },
    {
      "acc": 0.7366415,
      "epoch": 1.1235413495687467,
      "grad_norm": 4.28125,
      "learning_rate": 4.3935051956950395e-06,
      "loss": 1.07153406,
      "memory(GiB)": 112.26,
      "step": 44290,
      "train_speed(iter/s)": 1.128366
    },
    {
      "acc": 0.73340564,
      "epoch": 1.123668188736682,
      "grad_norm": 3.609375,
      "learning_rate": 4.3924643283782824e-06,
      "loss": 1.05591726,
      "memory(GiB)": 112.26,
      "step": 44295,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.74476743,
      "epoch": 1.123795027904617,
      "grad_norm": 4.90625,
      "learning_rate": 4.391423487783657e-06,
      "loss": 1.05922565,
      "memory(GiB)": 112.26,
      "step": 44300,
      "train_speed(iter/s)": 1.128414
    },
    {
      "acc": 0.74828081,
      "epoch": 1.123921867072552,
      "grad_norm": 3.96875,
      "learning_rate": 4.3903826739569444e-06,
      "loss": 1.04843407,
      "memory(GiB)": 112.26,
      "step": 44305,
      "train_speed(iter/s)": 1.128436
    },
    {
      "acc": 0.74379835,
      "epoch": 1.1240487062404871,
      "grad_norm": 3.9375,
      "learning_rate": 4.389341886943926e-06,
      "loss": 1.04498148,
      "memory(GiB)": 112.26,
      "step": 44310,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.74517322,
      "epoch": 1.1241755454084221,
      "grad_norm": 4.0625,
      "learning_rate": 4.388301126790374e-06,
      "loss": 1.0680809,
      "memory(GiB)": 112.26,
      "step": 44315,
      "train_speed(iter/s)": 1.128467
    },
    {
      "acc": 0.74346399,
      "epoch": 1.1243023845763571,
      "grad_norm": 3.65625,
      "learning_rate": 4.387260393542071e-06,
      "loss": 1.05489025,
      "memory(GiB)": 112.26,
      "step": 44320,
      "train_speed(iter/s)": 1.12848
    },
    {
      "acc": 0.7293622,
      "epoch": 1.1244292237442923,
      "grad_norm": 3.546875,
      "learning_rate": 4.38621968724479e-06,
      "loss": 1.12639446,
      "memory(GiB)": 112.26,
      "step": 44325,
      "train_speed(iter/s)": 1.128507
    },
    {
      "acc": 0.7392375,
      "epoch": 1.1245560629122273,
      "grad_norm": 3.859375,
      "learning_rate": 4.385179007944311e-06,
      "loss": 1.06559944,
      "memory(GiB)": 112.26,
      "step": 44330,
      "train_speed(iter/s)": 1.128494
    },
    {
      "acc": 0.7395741,
      "epoch": 1.1246829020801623,
      "grad_norm": 5.21875,
      "learning_rate": 4.384138355686402e-06,
      "loss": 1.109266,
      "memory(GiB)": 112.26,
      "step": 44335,
      "train_speed(iter/s)": 1.128515
    },
    {
      "acc": 0.74610987,
      "epoch": 1.1248097412480975,
      "grad_norm": 3.734375,
      "learning_rate": 4.383097730516837e-06,
      "loss": 1.08455238,
      "memory(GiB)": 112.26,
      "step": 44340,
      "train_speed(iter/s)": 1.128531
    },
    {
      "acc": 0.74979119,
      "epoch": 1.1249365804160325,
      "grad_norm": 4.09375,
      "learning_rate": 4.382057132481389e-06,
      "loss": 1.03075962,
      "memory(GiB)": 112.26,
      "step": 44345,
      "train_speed(iter/s)": 1.128553
    },
    {
      "acc": 0.74751186,
      "epoch": 1.1250634195839675,
      "grad_norm": 4.4375,
      "learning_rate": 4.381016561625829e-06,
      "loss": 1.02796421,
      "memory(GiB)": 112.26,
      "step": 44350,
      "train_speed(iter/s)": 1.128564
    },
    {
      "acc": 0.73481989,
      "epoch": 1.1251902587519025,
      "grad_norm": 4.15625,
      "learning_rate": 4.379976017995922e-06,
      "loss": 1.11808271,
      "memory(GiB)": 112.26,
      "step": 44355,
      "train_speed(iter/s)": 1.128574
    },
    {
      "acc": 0.73954434,
      "epoch": 1.1253170979198377,
      "grad_norm": 4.5,
      "learning_rate": 4.378935501637438e-06,
      "loss": 1.09891405,
      "memory(GiB)": 112.26,
      "step": 44360,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.7376399,
      "epoch": 1.1254439370877727,
      "grad_norm": 4.1875,
      "learning_rate": 4.377895012596144e-06,
      "loss": 1.04590054,
      "memory(GiB)": 112.26,
      "step": 44365,
      "train_speed(iter/s)": 1.128616
    },
    {
      "acc": 0.73842239,
      "epoch": 1.1255707762557077,
      "grad_norm": 3.453125,
      "learning_rate": 4.376854550917805e-06,
      "loss": 1.07520332,
      "memory(GiB)": 112.26,
      "step": 44370,
      "train_speed(iter/s)": 1.128635
    },
    {
      "acc": 0.74189453,
      "epoch": 1.1256976154236429,
      "grad_norm": 3.46875,
      "learning_rate": 4.375814116648184e-06,
      "loss": 1.08777304,
      "memory(GiB)": 112.26,
      "step": 44375,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.74084291,
      "epoch": 1.1258244545915779,
      "grad_norm": 3.15625,
      "learning_rate": 4.374773709833045e-06,
      "loss": 1.05021601,
      "memory(GiB)": 112.26,
      "step": 44380,
      "train_speed(iter/s)": 1.128658
    },
    {
      "acc": 0.73959541,
      "epoch": 1.1259512937595129,
      "grad_norm": 4.71875,
      "learning_rate": 4.37373333051815e-06,
      "loss": 1.03566837,
      "memory(GiB)": 112.26,
      "step": 44385,
      "train_speed(iter/s)": 1.12866
    },
    {
      "acc": 0.72593613,
      "epoch": 1.126078132927448,
      "grad_norm": 3.59375,
      "learning_rate": 4.37269297874926e-06,
      "loss": 1.12167139,
      "memory(GiB)": 112.26,
      "step": 44390,
      "train_speed(iter/s)": 1.128685
    },
    {
      "acc": 0.727563,
      "epoch": 1.126204972095383,
      "grad_norm": 3.5625,
      "learning_rate": 4.371652654572134e-06,
      "loss": 1.10805607,
      "memory(GiB)": 112.26,
      "step": 44395,
      "train_speed(iter/s)": 1.128699
    },
    {
      "acc": 0.74867811,
      "epoch": 1.126331811263318,
      "grad_norm": 4.1875,
      "learning_rate": 4.370612358032529e-06,
      "loss": 1.00735226,
      "memory(GiB)": 112.26,
      "step": 44400,
      "train_speed(iter/s)": 1.128722
    },
    {
      "acc": 0.74083738,
      "epoch": 1.1264586504312533,
      "grad_norm": 4.46875,
      "learning_rate": 4.369572089176201e-06,
      "loss": 1.03744154,
      "memory(GiB)": 112.26,
      "step": 44405,
      "train_speed(iter/s)": 1.128735
    },
    {
      "acc": 0.73850079,
      "epoch": 1.1265854895991883,
      "grad_norm": 4.21875,
      "learning_rate": 4.3685318480489095e-06,
      "loss": 1.04424133,
      "memory(GiB)": 112.26,
      "step": 44410,
      "train_speed(iter/s)": 1.128746
    },
    {
      "acc": 0.7494174,
      "epoch": 1.1267123287671232,
      "grad_norm": 4.09375,
      "learning_rate": 4.367491634696405e-06,
      "loss": 1.02745571,
      "memory(GiB)": 112.26,
      "step": 44415,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.73984623,
      "epoch": 1.1268391679350582,
      "grad_norm": 4.09375,
      "learning_rate": 4.366451449164442e-06,
      "loss": 1.01089916,
      "memory(GiB)": 112.26,
      "step": 44420,
      "train_speed(iter/s)": 1.12878
    },
    {
      "acc": 0.74272928,
      "epoch": 1.1269660071029934,
      "grad_norm": 3.375,
      "learning_rate": 4.365411291498774e-06,
      "loss": 1.03188171,
      "memory(GiB)": 112.26,
      "step": 44425,
      "train_speed(iter/s)": 1.128804
    },
    {
      "acc": 0.73361859,
      "epoch": 1.1270928462709284,
      "grad_norm": 3.84375,
      "learning_rate": 4.364371161745151e-06,
      "loss": 1.06467476,
      "memory(GiB)": 112.26,
      "step": 44430,
      "train_speed(iter/s)": 1.128833
    },
    {
      "acc": 0.74043255,
      "epoch": 1.1272196854388636,
      "grad_norm": 3.5625,
      "learning_rate": 4.363331059949321e-06,
      "loss": 1.02657299,
      "memory(GiB)": 112.26,
      "step": 44435,
      "train_speed(iter/s)": 1.128853
    },
    {
      "acc": 0.73833394,
      "epoch": 1.1273465246067986,
      "grad_norm": 3.265625,
      "learning_rate": 4.362290986157034e-06,
      "loss": 1.04952869,
      "memory(GiB)": 112.26,
      "step": 44440,
      "train_speed(iter/s)": 1.128875
    },
    {
      "acc": 0.74247317,
      "epoch": 1.1274733637747336,
      "grad_norm": 3.875,
      "learning_rate": 4.361250940414036e-06,
      "loss": 1.04670277,
      "memory(GiB)": 112.26,
      "step": 44445,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.74200592,
      "epoch": 1.1276002029426686,
      "grad_norm": 4.3125,
      "learning_rate": 4.360210922766076e-06,
      "loss": 1.06503792,
      "memory(GiB)": 112.26,
      "step": 44450,
      "train_speed(iter/s)": 1.128905
    },
    {
      "acc": 0.71957092,
      "epoch": 1.1277270421106038,
      "grad_norm": 3.671875,
      "learning_rate": 4.359170933258893e-06,
      "loss": 1.14458904,
      "memory(GiB)": 112.26,
      "step": 44455,
      "train_speed(iter/s)": 1.128923
    },
    {
      "acc": 0.75348148,
      "epoch": 1.1278538812785388,
      "grad_norm": 3.859375,
      "learning_rate": 4.358130971938235e-06,
      "loss": 1.02798443,
      "memory(GiB)": 112.26,
      "step": 44460,
      "train_speed(iter/s)": 1.128946
    },
    {
      "acc": 0.73075633,
      "epoch": 1.1279807204464738,
      "grad_norm": 3.375,
      "learning_rate": 4.357091038849841e-06,
      "loss": 1.09035463,
      "memory(GiB)": 112.26,
      "step": 44465,
      "train_speed(iter/s)": 1.128966
    },
    {
      "acc": 0.75374751,
      "epoch": 1.128107559614409,
      "grad_norm": 3.75,
      "learning_rate": 4.356051134039455e-06,
      "loss": 1.03588171,
      "memory(GiB)": 112.26,
      "step": 44470,
      "train_speed(iter/s)": 1.128985
    },
    {
      "acc": 0.74577007,
      "epoch": 1.128234398782344,
      "grad_norm": 3.28125,
      "learning_rate": 4.3550112575528155e-06,
      "loss": 1.01964664,
      "memory(GiB)": 112.26,
      "step": 44475,
      "train_speed(iter/s)": 1.129008
    },
    {
      "acc": 0.75708838,
      "epoch": 1.128361237950279,
      "grad_norm": 3.421875,
      "learning_rate": 4.353971409435659e-06,
      "loss": 0.95821457,
      "memory(GiB)": 112.26,
      "step": 44480,
      "train_speed(iter/s)": 1.129025
    },
    {
      "acc": 0.7470511,
      "epoch": 1.1284880771182142,
      "grad_norm": 4.25,
      "learning_rate": 4.352931589733725e-06,
      "loss": 1.00592871,
      "memory(GiB)": 112.26,
      "step": 44485,
      "train_speed(iter/s)": 1.129037
    },
    {
      "acc": 0.7395648,
      "epoch": 1.1286149162861492,
      "grad_norm": 4.53125,
      "learning_rate": 4.35189179849275e-06,
      "loss": 1.09122534,
      "memory(GiB)": 112.26,
      "step": 44490,
      "train_speed(iter/s)": 1.129054
    },
    {
      "acc": 0.74199476,
      "epoch": 1.1287417554540842,
      "grad_norm": 4.03125,
      "learning_rate": 4.350852035758466e-06,
      "loss": 1.11857452,
      "memory(GiB)": 112.26,
      "step": 44495,
      "train_speed(iter/s)": 1.129071
    },
    {
      "acc": 0.73859243,
      "epoch": 1.1288685946220194,
      "grad_norm": 3.0625,
      "learning_rate": 4.3498123015766066e-06,
      "loss": 1.03914537,
      "memory(GiB)": 112.26,
      "step": 44500,
      "train_speed(iter/s)": 1.129096
    },
    {
      "acc": 0.75287213,
      "epoch": 1.1289954337899544,
      "grad_norm": 4.78125,
      "learning_rate": 4.348772595992906e-06,
      "loss": 1.05058727,
      "memory(GiB)": 112.26,
      "step": 44505,
      "train_speed(iter/s)": 1.129112
    },
    {
      "acc": 0.74273448,
      "epoch": 1.1291222729578894,
      "grad_norm": 3.953125,
      "learning_rate": 4.347732919053096e-06,
      "loss": 1.05371876,
      "memory(GiB)": 112.26,
      "step": 44510,
      "train_speed(iter/s)": 1.129136
    },
    {
      "acc": 0.7358407,
      "epoch": 1.1292491121258244,
      "grad_norm": 3.5,
      "learning_rate": 4.346693270802902e-06,
      "loss": 1.07752533,
      "memory(GiB)": 112.26,
      "step": 44515,
      "train_speed(iter/s)": 1.129158
    },
    {
      "acc": 0.74288993,
      "epoch": 1.1293759512937596,
      "grad_norm": 3.5,
      "learning_rate": 4.345653651288055e-06,
      "loss": 1.0199955,
      "memory(GiB)": 112.26,
      "step": 44520,
      "train_speed(iter/s)": 1.129176
    },
    {
      "acc": 0.73784952,
      "epoch": 1.1295027904616946,
      "grad_norm": 4.90625,
      "learning_rate": 4.344614060554281e-06,
      "loss": 1.02865849,
      "memory(GiB)": 112.26,
      "step": 44525,
      "train_speed(iter/s)": 1.129204
    },
    {
      "acc": 0.74188395,
      "epoch": 1.1296296296296295,
      "grad_norm": 3.75,
      "learning_rate": 4.343574498647311e-06,
      "loss": 1.05813217,
      "memory(GiB)": 112.26,
      "step": 44530,
      "train_speed(iter/s)": 1.129216
    },
    {
      "acc": 0.74604425,
      "epoch": 1.1297564687975648,
      "grad_norm": 3.359375,
      "learning_rate": 4.342534965612861e-06,
      "loss": 0.99879532,
      "memory(GiB)": 112.26,
      "step": 44535,
      "train_speed(iter/s)": 1.129244
    },
    {
      "acc": 0.73858209,
      "epoch": 1.1298833079654997,
      "grad_norm": 3.921875,
      "learning_rate": 4.34149546149666e-06,
      "loss": 1.05626869,
      "memory(GiB)": 112.26,
      "step": 44540,
      "train_speed(iter/s)": 1.129259
    },
    {
      "acc": 0.73677368,
      "epoch": 1.1300101471334347,
      "grad_norm": 3.671875,
      "learning_rate": 4.340455986344428e-06,
      "loss": 1.12455044,
      "memory(GiB)": 112.26,
      "step": 44545,
      "train_speed(iter/s)": 1.129287
    },
    {
      "acc": 0.745509,
      "epoch": 1.13013698630137,
      "grad_norm": 3.703125,
      "learning_rate": 4.3394165402018875e-06,
      "loss": 1.09121628,
      "memory(GiB)": 112.26,
      "step": 44550,
      "train_speed(iter/s)": 1.129309
    },
    {
      "acc": 0.74562931,
      "epoch": 1.130263825469305,
      "grad_norm": 3.6875,
      "learning_rate": 4.338377123114757e-06,
      "loss": 1.03754301,
      "memory(GiB)": 112.26,
      "step": 44555,
      "train_speed(iter/s)": 1.129319
    },
    {
      "acc": 0.72604065,
      "epoch": 1.13039066463724,
      "grad_norm": 3.28125,
      "learning_rate": 4.337337735128752e-06,
      "loss": 1.11294956,
      "memory(GiB)": 112.26,
      "step": 44560,
      "train_speed(iter/s)": 1.129333
    },
    {
      "acc": 0.74009266,
      "epoch": 1.1305175038051751,
      "grad_norm": 2.78125,
      "learning_rate": 4.336298376289594e-06,
      "loss": 1.07776051,
      "memory(GiB)": 112.26,
      "step": 44565,
      "train_speed(iter/s)": 1.129347
    },
    {
      "acc": 0.72205191,
      "epoch": 1.1306443429731101,
      "grad_norm": 5.09375,
      "learning_rate": 4.335259046642998e-06,
      "loss": 1.10906096,
      "memory(GiB)": 112.26,
      "step": 44570,
      "train_speed(iter/s)": 1.12937
    },
    {
      "acc": 0.73861465,
      "epoch": 1.130771182141045,
      "grad_norm": 3.28125,
      "learning_rate": 4.334219746234675e-06,
      "loss": 1.06717167,
      "memory(GiB)": 112.26,
      "step": 44575,
      "train_speed(iter/s)": 1.129397
    },
    {
      "acc": 0.73600345,
      "epoch": 1.13089802130898,
      "grad_norm": 3.734375,
      "learning_rate": 4.3331804751103395e-06,
      "loss": 1.05511999,
      "memory(GiB)": 112.26,
      "step": 44580,
      "train_speed(iter/s)": 1.129411
    },
    {
      "acc": 0.74440794,
      "epoch": 1.1310248604769153,
      "grad_norm": 4.78125,
      "learning_rate": 4.332141233315705e-06,
      "loss": 1.05639544,
      "memory(GiB)": 112.26,
      "step": 44585,
      "train_speed(iter/s)": 1.129432
    },
    {
      "acc": 0.75073614,
      "epoch": 1.1311516996448503,
      "grad_norm": 3.8125,
      "learning_rate": 4.331102020896482e-06,
      "loss": 1.04593229,
      "memory(GiB)": 112.26,
      "step": 44590,
      "train_speed(iter/s)": 1.129456
    },
    {
      "acc": 0.75398846,
      "epoch": 1.1312785388127855,
      "grad_norm": 3.828125,
      "learning_rate": 4.330062837898376e-06,
      "loss": 0.98412838,
      "memory(GiB)": 112.26,
      "step": 44595,
      "train_speed(iter/s)": 1.129466
    },
    {
      "acc": 0.74043198,
      "epoch": 1.1314053779807205,
      "grad_norm": 3.625,
      "learning_rate": 4.3290236843670985e-06,
      "loss": 1.07405901,
      "memory(GiB)": 112.26,
      "step": 44600,
      "train_speed(iter/s)": 1.129491
    },
    {
      "acc": 0.74203606,
      "epoch": 1.1315322171486555,
      "grad_norm": 3.453125,
      "learning_rate": 4.327984560348354e-06,
      "loss": 1.06117544,
      "memory(GiB)": 112.26,
      "step": 44605,
      "train_speed(iter/s)": 1.129516
    },
    {
      "acc": 0.74954371,
      "epoch": 1.1316590563165905,
      "grad_norm": 3.3125,
      "learning_rate": 4.3269454658878516e-06,
      "loss": 1.03165665,
      "memory(GiB)": 112.26,
      "step": 44610,
      "train_speed(iter/s)": 1.129526
    },
    {
      "acc": 0.74696169,
      "epoch": 1.1317858954845257,
      "grad_norm": 3.328125,
      "learning_rate": 4.325906401031291e-06,
      "loss": 1.05672007,
      "memory(GiB)": 112.26,
      "step": 44615,
      "train_speed(iter/s)": 1.129534
    },
    {
      "acc": 0.74339442,
      "epoch": 1.1319127346524607,
      "grad_norm": 3.953125,
      "learning_rate": 4.324867365824376e-06,
      "loss": 1.02807732,
      "memory(GiB)": 112.26,
      "step": 44620,
      "train_speed(iter/s)": 1.129559
    },
    {
      "acc": 0.74534855,
      "epoch": 1.1320395738203957,
      "grad_norm": 4.1875,
      "learning_rate": 4.323828360312809e-06,
      "loss": 1.03956909,
      "memory(GiB)": 112.26,
      "step": 44625,
      "train_speed(iter/s)": 1.129577
    },
    {
      "acc": 0.74200897,
      "epoch": 1.1321664129883309,
      "grad_norm": 3.625,
      "learning_rate": 4.32278938454229e-06,
      "loss": 1.03316946,
      "memory(GiB)": 112.26,
      "step": 44630,
      "train_speed(iter/s)": 1.1296
    },
    {
      "acc": 0.7468133,
      "epoch": 1.1322932521562659,
      "grad_norm": 4.78125,
      "learning_rate": 4.321750438558517e-06,
      "loss": 1.00268993,
      "memory(GiB)": 112.26,
      "step": 44635,
      "train_speed(iter/s)": 1.129614
    },
    {
      "acc": 0.73568764,
      "epoch": 1.1324200913242009,
      "grad_norm": 3.40625,
      "learning_rate": 4.3207115224071874e-06,
      "loss": 1.00253363,
      "memory(GiB)": 112.26,
      "step": 44640,
      "train_speed(iter/s)": 1.129634
    },
    {
      "acc": 0.732305,
      "epoch": 1.132546930492136,
      "grad_norm": 3.53125,
      "learning_rate": 4.319672636133998e-06,
      "loss": 1.10065155,
      "memory(GiB)": 112.26,
      "step": 44645,
      "train_speed(iter/s)": 1.129657
    },
    {
      "acc": 0.74875512,
      "epoch": 1.132673769660071,
      "grad_norm": 4.375,
      "learning_rate": 4.318633779784646e-06,
      "loss": 1.0772356,
      "memory(GiB)": 112.26,
      "step": 44650,
      "train_speed(iter/s)": 1.129679
    },
    {
      "acc": 0.73024912,
      "epoch": 1.132800608828006,
      "grad_norm": 3.828125,
      "learning_rate": 4.317594953404818e-06,
      "loss": 1.11170893,
      "memory(GiB)": 112.26,
      "step": 44655,
      "train_speed(iter/s)": 1.129688
    },
    {
      "acc": 0.7430872,
      "epoch": 1.1329274479959413,
      "grad_norm": 2.8125,
      "learning_rate": 4.316556157040213e-06,
      "loss": 1.01293917,
      "memory(GiB)": 112.26,
      "step": 44660,
      "train_speed(iter/s)": 1.129715
    },
    {
      "acc": 0.7233798,
      "epoch": 1.1330542871638762,
      "grad_norm": 3.734375,
      "learning_rate": 4.315517390736519e-06,
      "loss": 1.11342707,
      "memory(GiB)": 112.26,
      "step": 44665,
      "train_speed(iter/s)": 1.129742
    },
    {
      "acc": 0.72555075,
      "epoch": 1.1331811263318112,
      "grad_norm": 2.859375,
      "learning_rate": 4.314478654539429e-06,
      "loss": 1.07307873,
      "memory(GiB)": 112.26,
      "step": 44670,
      "train_speed(iter/s)": 1.12975
    },
    {
      "acc": 0.73516827,
      "epoch": 1.1333079654997462,
      "grad_norm": 3.375,
      "learning_rate": 4.313439948494625e-06,
      "loss": 1.08524828,
      "memory(GiB)": 112.26,
      "step": 44675,
      "train_speed(iter/s)": 1.129769
    },
    {
      "acc": 0.74306226,
      "epoch": 1.1334348046676814,
      "grad_norm": 4.34375,
      "learning_rate": 4.312401272647799e-06,
      "loss": 1.04188232,
      "memory(GiB)": 112.26,
      "step": 44680,
      "train_speed(iter/s)": 1.129768
    },
    {
      "acc": 0.73655767,
      "epoch": 1.1335616438356164,
      "grad_norm": 3.53125,
      "learning_rate": 4.311362627044633e-06,
      "loss": 1.05991287,
      "memory(GiB)": 112.26,
      "step": 44685,
      "train_speed(iter/s)": 1.129784
    },
    {
      "acc": 0.73582916,
      "epoch": 1.1336884830035514,
      "grad_norm": 3.90625,
      "learning_rate": 4.310324011730816e-06,
      "loss": 1.09907093,
      "memory(GiB)": 112.26,
      "step": 44690,
      "train_speed(iter/s)": 1.129803
    },
    {
      "acc": 0.73389435,
      "epoch": 1.1338153221714866,
      "grad_norm": 3.6875,
      "learning_rate": 4.309285426752027e-06,
      "loss": 1.09242668,
      "memory(GiB)": 112.26,
      "step": 44695,
      "train_speed(iter/s)": 1.129822
    },
    {
      "acc": 0.73766046,
      "epoch": 1.1339421613394216,
      "grad_norm": 3.65625,
      "learning_rate": 4.308246872153947e-06,
      "loss": 1.06826963,
      "memory(GiB)": 112.26,
      "step": 44700,
      "train_speed(iter/s)": 1.129848
    },
    {
      "acc": 0.74765239,
      "epoch": 1.1340690005073566,
      "grad_norm": 3.265625,
      "learning_rate": 4.307208347982259e-06,
      "loss": 0.98100281,
      "memory(GiB)": 112.26,
      "step": 44705,
      "train_speed(iter/s)": 1.12987
    },
    {
      "acc": 0.75440464,
      "epoch": 1.1341958396752918,
      "grad_norm": 3.765625,
      "learning_rate": 4.306169854282643e-06,
      "loss": 0.99749823,
      "memory(GiB)": 112.26,
      "step": 44710,
      "train_speed(iter/s)": 1.12989
    },
    {
      "acc": 0.7465766,
      "epoch": 1.1343226788432268,
      "grad_norm": 4.4375,
      "learning_rate": 4.305131391100773e-06,
      "loss": 1.06810923,
      "memory(GiB)": 112.26,
      "step": 44715,
      "train_speed(iter/s)": 1.129895
    },
    {
      "acc": 0.74923286,
      "epoch": 1.1344495180111618,
      "grad_norm": 3.453125,
      "learning_rate": 4.304092958482325e-06,
      "loss": 1.040131,
      "memory(GiB)": 112.26,
      "step": 44720,
      "train_speed(iter/s)": 1.129905
    },
    {
      "acc": 0.74430695,
      "epoch": 1.134576357179097,
      "grad_norm": 4.75,
      "learning_rate": 4.303054556472978e-06,
      "loss": 1.02142134,
      "memory(GiB)": 112.26,
      "step": 44725,
      "train_speed(iter/s)": 1.129922
    },
    {
      "acc": 0.7360199,
      "epoch": 1.134703196347032,
      "grad_norm": 3.59375,
      "learning_rate": 4.3020161851184036e-06,
      "loss": 1.08412323,
      "memory(GiB)": 112.26,
      "step": 44730,
      "train_speed(iter/s)": 1.129936
    },
    {
      "acc": 0.73216238,
      "epoch": 1.134830035514967,
      "grad_norm": 4.5,
      "learning_rate": 4.300977844464273e-06,
      "loss": 1.08177729,
      "memory(GiB)": 112.26,
      "step": 44735,
      "train_speed(iter/s)": 1.129955
    },
    {
      "acc": 0.74213815,
      "epoch": 1.134956874682902,
      "grad_norm": 3.9375,
      "learning_rate": 4.2999395345562564e-06,
      "loss": 1.01307144,
      "memory(GiB)": 112.26,
      "step": 44740,
      "train_speed(iter/s)": 1.129967
    },
    {
      "acc": 0.73245254,
      "epoch": 1.1350837138508372,
      "grad_norm": 5.71875,
      "learning_rate": 4.298901255440025e-06,
      "loss": 1.07062778,
      "memory(GiB)": 112.26,
      "step": 44745,
      "train_speed(iter/s)": 1.129987
    },
    {
      "acc": 0.73340464,
      "epoch": 1.1352105530187722,
      "grad_norm": 5.09375,
      "learning_rate": 4.297863007161249e-06,
      "loss": 1.07046947,
      "memory(GiB)": 112.26,
      "step": 44750,
      "train_speed(iter/s)": 1.130006
    },
    {
      "acc": 0.74087095,
      "epoch": 1.1353373921867074,
      "grad_norm": 3.21875,
      "learning_rate": 4.29682478976559e-06,
      "loss": 1.03566322,
      "memory(GiB)": 112.26,
      "step": 44755,
      "train_speed(iter/s)": 1.130028
    },
    {
      "acc": 0.73606358,
      "epoch": 1.1354642313546424,
      "grad_norm": 3.984375,
      "learning_rate": 4.295786603298717e-06,
      "loss": 1.04231949,
      "memory(GiB)": 112.26,
      "step": 44760,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.74000101,
      "epoch": 1.1355910705225774,
      "grad_norm": 3.203125,
      "learning_rate": 4.294748447806293e-06,
      "loss": 1.01356201,
      "memory(GiB)": 112.26,
      "step": 44765,
      "train_speed(iter/s)": 1.130072
    },
    {
      "acc": 0.73740244,
      "epoch": 1.1357179096905123,
      "grad_norm": 4.0625,
      "learning_rate": 4.293710323333983e-06,
      "loss": 1.06490021,
      "memory(GiB)": 112.26,
      "step": 44770,
      "train_speed(iter/s)": 1.130089
    },
    {
      "acc": 0.74592543,
      "epoch": 1.1358447488584476,
      "grad_norm": 3.671875,
      "learning_rate": 4.292672229927445e-06,
      "loss": 1.03788166,
      "memory(GiB)": 112.26,
      "step": 44775,
      "train_speed(iter/s)": 1.130104
    },
    {
      "acc": 0.75021667,
      "epoch": 1.1359715880263825,
      "grad_norm": 3.5625,
      "learning_rate": 4.2916341676323386e-06,
      "loss": 1.03064594,
      "memory(GiB)": 112.26,
      "step": 44780,
      "train_speed(iter/s)": 1.130112
    },
    {
      "acc": 0.75307455,
      "epoch": 1.1360984271943175,
      "grad_norm": 3.640625,
      "learning_rate": 4.290596136494326e-06,
      "loss": 0.99151859,
      "memory(GiB)": 112.26,
      "step": 44785,
      "train_speed(iter/s)": 1.130134
    },
    {
      "acc": 0.72837381,
      "epoch": 1.1362252663622527,
      "grad_norm": 4.59375,
      "learning_rate": 4.289558136559063e-06,
      "loss": 1.12614498,
      "memory(GiB)": 112.26,
      "step": 44790,
      "train_speed(iter/s)": 1.130152
    },
    {
      "acc": 0.74365449,
      "epoch": 1.1363521055301877,
      "grad_norm": 3.53125,
      "learning_rate": 4.288520167872203e-06,
      "loss": 1.03707113,
      "memory(GiB)": 112.26,
      "step": 44795,
      "train_speed(iter/s)": 1.130173
    },
    {
      "acc": 0.72972813,
      "epoch": 1.1364789446981227,
      "grad_norm": 3.453125,
      "learning_rate": 4.287482230479404e-06,
      "loss": 1.14096298,
      "memory(GiB)": 112.26,
      "step": 44800,
      "train_speed(iter/s)": 1.130195
    },
    {
      "acc": 0.73456764,
      "epoch": 1.136605783866058,
      "grad_norm": 4.125,
      "learning_rate": 4.286444324426318e-06,
      "loss": 1.08724041,
      "memory(GiB)": 112.26,
      "step": 44805,
      "train_speed(iter/s)": 1.130213
    },
    {
      "acc": 0.73872223,
      "epoch": 1.136732623033993,
      "grad_norm": 3.390625,
      "learning_rate": 4.2854064497585964e-06,
      "loss": 1.0354579,
      "memory(GiB)": 112.26,
      "step": 44810,
      "train_speed(iter/s)": 1.130221
    },
    {
      "acc": 0.73276515,
      "epoch": 1.136859462201928,
      "grad_norm": 3.765625,
      "learning_rate": 4.284368606521888e-06,
      "loss": 1.10870295,
      "memory(GiB)": 112.26,
      "step": 44815,
      "train_speed(iter/s)": 1.130243
    },
    {
      "acc": 0.7518117,
      "epoch": 1.1369863013698631,
      "grad_norm": 3.171875,
      "learning_rate": 4.283330794761845e-06,
      "loss": 1.06602411,
      "memory(GiB)": 112.26,
      "step": 44820,
      "train_speed(iter/s)": 1.130266
    },
    {
      "acc": 0.74475765,
      "epoch": 1.137113140537798,
      "grad_norm": 3.84375,
      "learning_rate": 4.282293014524112e-06,
      "loss": 1.05203438,
      "memory(GiB)": 112.26,
      "step": 44825,
      "train_speed(iter/s)": 1.130263
    },
    {
      "acc": 0.73913612,
      "epoch": 1.137239979705733,
      "grad_norm": 3.703125,
      "learning_rate": 4.281255265854338e-06,
      "loss": 1.05702066,
      "memory(GiB)": 112.26,
      "step": 44830,
      "train_speed(iter/s)": 1.130282
    },
    {
      "acc": 0.74512024,
      "epoch": 1.137366818873668,
      "grad_norm": 3.265625,
      "learning_rate": 4.280217548798166e-06,
      "loss": 1.01307974,
      "memory(GiB)": 112.26,
      "step": 44835,
      "train_speed(iter/s)": 1.130301
    },
    {
      "acc": 0.74048777,
      "epoch": 1.1374936580416033,
      "grad_norm": 4.5,
      "learning_rate": 4.279179863401239e-06,
      "loss": 1.03964014,
      "memory(GiB)": 112.26,
      "step": 44840,
      "train_speed(iter/s)": 1.130313
    },
    {
      "acc": 0.75590601,
      "epoch": 1.1376204972095383,
      "grad_norm": 4.125,
      "learning_rate": 4.278142209709199e-06,
      "loss": 0.99110937,
      "memory(GiB)": 112.26,
      "step": 44845,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.73941445,
      "epoch": 1.1377473363774733,
      "grad_norm": 4.1875,
      "learning_rate": 4.277104587767691e-06,
      "loss": 1.09025993,
      "memory(GiB)": 112.26,
      "step": 44850,
      "train_speed(iter/s)": 1.130337
    },
    {
      "acc": 0.73955522,
      "epoch": 1.1378741755454085,
      "grad_norm": 5.09375,
      "learning_rate": 4.276066997622348e-06,
      "loss": 1.06334257,
      "memory(GiB)": 112.26,
      "step": 44855,
      "train_speed(iter/s)": 1.13036
    },
    {
      "acc": 0.75524225,
      "epoch": 1.1380010147133435,
      "grad_norm": 4.0,
      "learning_rate": 4.27502943931881e-06,
      "loss": 1.00498533,
      "memory(GiB)": 112.26,
      "step": 44860,
      "train_speed(iter/s)": 1.130373
    },
    {
      "acc": 0.72978377,
      "epoch": 1.1381278538812785,
      "grad_norm": 3.296875,
      "learning_rate": 4.273991912902716e-06,
      "loss": 1.08841591,
      "memory(GiB)": 112.26,
      "step": 44865,
      "train_speed(iter/s)": 1.130398
    },
    {
      "acc": 0.73208938,
      "epoch": 1.1382546930492137,
      "grad_norm": 3.71875,
      "learning_rate": 4.272954418419699e-06,
      "loss": 1.07398205,
      "memory(GiB)": 112.26,
      "step": 44870,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.75324049,
      "epoch": 1.1383815322171487,
      "grad_norm": 3.578125,
      "learning_rate": 4.2719169559153905e-06,
      "loss": 1.00015335,
      "memory(GiB)": 112.26,
      "step": 44875,
      "train_speed(iter/s)": 1.130453
    },
    {
      "acc": 0.75465951,
      "epoch": 1.1385083713850837,
      "grad_norm": 3.234375,
      "learning_rate": 4.270879525435426e-06,
      "loss": 1.03754234,
      "memory(GiB)": 112.26,
      "step": 44880,
      "train_speed(iter/s)": 1.13046
    },
    {
      "acc": 0.74092693,
      "epoch": 1.1386352105530189,
      "grad_norm": 3.171875,
      "learning_rate": 4.269842127025435e-06,
      "loss": 1.08177261,
      "memory(GiB)": 112.26,
      "step": 44885,
      "train_speed(iter/s)": 1.130479
    },
    {
      "acc": 0.73827195,
      "epoch": 1.1387620497209539,
      "grad_norm": 3.78125,
      "learning_rate": 4.2688047607310504e-06,
      "loss": 1.07381592,
      "memory(GiB)": 112.26,
      "step": 44890,
      "train_speed(iter/s)": 1.130499
    },
    {
      "acc": 0.72689323,
      "epoch": 1.1388888888888888,
      "grad_norm": 3.6875,
      "learning_rate": 4.267767426597893e-06,
      "loss": 1.09286051,
      "memory(GiB)": 112.26,
      "step": 44895,
      "train_speed(iter/s)": 1.130523
    },
    {
      "acc": 0.73869367,
      "epoch": 1.1390157280568238,
      "grad_norm": 3.15625,
      "learning_rate": 4.266730124671594e-06,
      "loss": 1.05378571,
      "memory(GiB)": 112.26,
      "step": 44900,
      "train_speed(iter/s)": 1.13053
    },
    {
      "acc": 0.7489728,
      "epoch": 1.139142567224759,
      "grad_norm": 3.71875,
      "learning_rate": 4.265692854997778e-06,
      "loss": 1.02438622,
      "memory(GiB)": 112.26,
      "step": 44905,
      "train_speed(iter/s)": 1.13055
    },
    {
      "acc": 0.77098951,
      "epoch": 1.139269406392694,
      "grad_norm": 3.390625,
      "learning_rate": 4.2646556176220714e-06,
      "loss": 1.01037035,
      "memory(GiB)": 112.26,
      "step": 44910,
      "train_speed(iter/s)": 1.130574
    },
    {
      "acc": 0.7455411,
      "epoch": 1.1393962455606292,
      "grad_norm": 3.46875,
      "learning_rate": 4.263618412590092e-06,
      "loss": 1.03346586,
      "memory(GiB)": 112.26,
      "step": 44915,
      "train_speed(iter/s)": 1.130585
    },
    {
      "acc": 0.73285093,
      "epoch": 1.1395230847285642,
      "grad_norm": 3.6875,
      "learning_rate": 4.2625812399474604e-06,
      "loss": 1.08182402,
      "memory(GiB)": 112.26,
      "step": 44920,
      "train_speed(iter/s)": 1.130593
    },
    {
      "acc": 0.74251699,
      "epoch": 1.1396499238964992,
      "grad_norm": 3.484375,
      "learning_rate": 4.2615440997398e-06,
      "loss": 1.06151199,
      "memory(GiB)": 112.26,
      "step": 44925,
      "train_speed(iter/s)": 1.130607
    },
    {
      "acc": 0.75536518,
      "epoch": 1.1397767630644342,
      "grad_norm": 3.734375,
      "learning_rate": 4.2605069920127284e-06,
      "loss": 0.98887215,
      "memory(GiB)": 112.26,
      "step": 44930,
      "train_speed(iter/s)": 1.130624
    },
    {
      "acc": 0.74516697,
      "epoch": 1.1399036022323694,
      "grad_norm": 3.875,
      "learning_rate": 4.25946991681186e-06,
      "loss": 1.05925674,
      "memory(GiB)": 112.26,
      "step": 44935,
      "train_speed(iter/s)": 1.13065
    },
    {
      "acc": 0.741574,
      "epoch": 1.1400304414003044,
      "grad_norm": 3.484375,
      "learning_rate": 4.258432874182809e-06,
      "loss": 1.06032581,
      "memory(GiB)": 112.26,
      "step": 44940,
      "train_speed(iter/s)": 1.130667
    },
    {
      "acc": 0.74087973,
      "epoch": 1.1401572805682394,
      "grad_norm": 3.671875,
      "learning_rate": 4.2573958641711925e-06,
      "loss": 1.06599236,
      "memory(GiB)": 112.26,
      "step": 44945,
      "train_speed(iter/s)": 1.130689
    },
    {
      "acc": 0.74494748,
      "epoch": 1.1402841197361746,
      "grad_norm": 3.03125,
      "learning_rate": 4.256358886822622e-06,
      "loss": 0.99895535,
      "memory(GiB)": 112.26,
      "step": 44950,
      "train_speed(iter/s)": 1.1307
    },
    {
      "acc": 0.74598818,
      "epoch": 1.1404109589041096,
      "grad_norm": 4.0625,
      "learning_rate": 4.255321942182707e-06,
      "loss": 1.03829174,
      "memory(GiB)": 112.26,
      "step": 44955,
      "train_speed(iter/s)": 1.130716
    },
    {
      "acc": 0.73605766,
      "epoch": 1.1405377980720446,
      "grad_norm": 3.421875,
      "learning_rate": 4.254285030297058e-06,
      "loss": 1.06131525,
      "memory(GiB)": 112.26,
      "step": 44960,
      "train_speed(iter/s)": 1.130726
    },
    {
      "acc": 0.7473485,
      "epoch": 1.1406646372399798,
      "grad_norm": 3.234375,
      "learning_rate": 4.2532481512112814e-06,
      "loss": 1.06795607,
      "memory(GiB)": 112.26,
      "step": 44965,
      "train_speed(iter/s)": 1.130748
    },
    {
      "acc": 0.73732414,
      "epoch": 1.1407914764079148,
      "grad_norm": 5.40625,
      "learning_rate": 4.252211304970988e-06,
      "loss": 1.07318611,
      "memory(GiB)": 112.26,
      "step": 44970,
      "train_speed(iter/s)": 1.130774
    },
    {
      "acc": 0.74270577,
      "epoch": 1.1409183155758498,
      "grad_norm": 4.125,
      "learning_rate": 4.251174491621778e-06,
      "loss": 1.05520544,
      "memory(GiB)": 112.26,
      "step": 44975,
      "train_speed(iter/s)": 1.130776
    },
    {
      "acc": 0.73803062,
      "epoch": 1.141045154743785,
      "grad_norm": 3.34375,
      "learning_rate": 4.250137711209258e-06,
      "loss": 1.08312311,
      "memory(GiB)": 112.26,
      "step": 44980,
      "train_speed(iter/s)": 1.130799
    },
    {
      "acc": 0.73672976,
      "epoch": 1.14117199391172,
      "grad_norm": 3.84375,
      "learning_rate": 4.249100963779028e-06,
      "loss": 1.13931046,
      "memory(GiB)": 112.26,
      "step": 44985,
      "train_speed(iter/s)": 1.130824
    },
    {
      "acc": 0.74895325,
      "epoch": 1.141298833079655,
      "grad_norm": 4.09375,
      "learning_rate": 4.248064249376692e-06,
      "loss": 1.06361504,
      "memory(GiB)": 112.26,
      "step": 44990,
      "train_speed(iter/s)": 1.130834
    },
    {
      "acc": 0.73588781,
      "epoch": 1.14142567224759,
      "grad_norm": 3.265625,
      "learning_rate": 4.2470275680478466e-06,
      "loss": 1.04462461,
      "memory(GiB)": 112.26,
      "step": 44995,
      "train_speed(iter/s)": 1.130845
    },
    {
      "acc": 0.74375877,
      "epoch": 1.1415525114155252,
      "grad_norm": 3.921875,
      "learning_rate": 4.2459909198380886e-06,
      "loss": 1.00416965,
      "memory(GiB)": 112.26,
      "step": 45000,
      "train_speed(iter/s)": 1.13086
    },
    {
      "epoch": 1.1415525114155252,
      "eval_acc": 0.7256350016810864,
      "eval_loss": 1.0450845956802368,
      "eval_runtime": 70.9245,
      "eval_samples_per_second": 89.814,
      "eval_steps_per_second": 22.46,
      "step": 45000
    },
    {
      "acc": 0.74694576,
      "epoch": 1.1416793505834602,
      "grad_norm": 3.71875,
      "learning_rate": 4.244954304793019e-06,
      "loss": 1.04099655,
      "memory(GiB)": 112.26,
      "step": 45005,
      "train_speed(iter/s)": 1.127609
    },
    {
      "acc": 0.73601665,
      "epoch": 1.1418061897513951,
      "grad_norm": 3.4375,
      "learning_rate": 4.2439177229582304e-06,
      "loss": 1.07651253,
      "memory(GiB)": 112.26,
      "step": 45010,
      "train_speed(iter/s)": 1.127629
    },
    {
      "acc": 0.74339418,
      "epoch": 1.1419330289193304,
      "grad_norm": 3.625,
      "learning_rate": 4.242881174379313e-06,
      "loss": 1.05020275,
      "memory(GiB)": 112.26,
      "step": 45015,
      "train_speed(iter/s)": 1.12763
    },
    {
      "acc": 0.73059878,
      "epoch": 1.1420598680872653,
      "grad_norm": 3.53125,
      "learning_rate": 4.241844659101865e-06,
      "loss": 1.03703575,
      "memory(GiB)": 112.26,
      "step": 45020,
      "train_speed(iter/s)": 1.127651
    },
    {
      "acc": 0.7257782,
      "epoch": 1.1421867072552003,
      "grad_norm": 3.1875,
      "learning_rate": 4.240808177171472e-06,
      "loss": 1.1648859,
      "memory(GiB)": 112.26,
      "step": 45025,
      "train_speed(iter/s)": 1.127657
    },
    {
      "acc": 0.73775091,
      "epoch": 1.1423135464231355,
      "grad_norm": 3.546875,
      "learning_rate": 4.239771728633727e-06,
      "loss": 1.02340908,
      "memory(GiB)": 112.26,
      "step": 45030,
      "train_speed(iter/s)": 1.127675
    },
    {
      "acc": 0.70513301,
      "epoch": 1.1424403855910705,
      "grad_norm": 3.203125,
      "learning_rate": 4.238735313534213e-06,
      "loss": 1.14397326,
      "memory(GiB)": 112.26,
      "step": 45035,
      "train_speed(iter/s)": 1.127699
    },
    {
      "acc": 0.73918157,
      "epoch": 1.1425672247590055,
      "grad_norm": 4.125,
      "learning_rate": 4.23769893191852e-06,
      "loss": 1.09535351,
      "memory(GiB)": 112.26,
      "step": 45040,
      "train_speed(iter/s)": 1.127722
    },
    {
      "acc": 0.74369035,
      "epoch": 1.1426940639269407,
      "grad_norm": 3.203125,
      "learning_rate": 4.236662583832229e-06,
      "loss": 0.99238882,
      "memory(GiB)": 112.26,
      "step": 45045,
      "train_speed(iter/s)": 1.127737
    },
    {
      "acc": 0.74045529,
      "epoch": 1.1428209030948757,
      "grad_norm": 3.53125,
      "learning_rate": 4.23562626932093e-06,
      "loss": 1.15712061,
      "memory(GiB)": 112.26,
      "step": 45050,
      "train_speed(iter/s)": 1.127763
    },
    {
      "acc": 0.73491116,
      "epoch": 1.1429477422628107,
      "grad_norm": 3.6875,
      "learning_rate": 4.234589988430198e-06,
      "loss": 1.09973717,
      "memory(GiB)": 112.26,
      "step": 45055,
      "train_speed(iter/s)": 1.127775
    },
    {
      "acc": 0.73959937,
      "epoch": 1.1430745814307457,
      "grad_norm": 3.75,
      "learning_rate": 4.233553741205615e-06,
      "loss": 1.08877773,
      "memory(GiB)": 112.26,
      "step": 45060,
      "train_speed(iter/s)": 1.127783
    },
    {
      "acc": 0.72858281,
      "epoch": 1.143201420598681,
      "grad_norm": 3.8125,
      "learning_rate": 4.2325175276927614e-06,
      "loss": 1.06133013,
      "memory(GiB)": 112.26,
      "step": 45065,
      "train_speed(iter/s)": 1.127805
    },
    {
      "acc": 0.74251966,
      "epoch": 1.143328259766616,
      "grad_norm": 3.53125,
      "learning_rate": 4.231481347937214e-06,
      "loss": 1.03941517,
      "memory(GiB)": 112.26,
      "step": 45070,
      "train_speed(iter/s)": 1.127811
    },
    {
      "acc": 0.74377179,
      "epoch": 1.143455098934551,
      "grad_norm": 3.5625,
      "learning_rate": 4.230445201984547e-06,
      "loss": 1.03456459,
      "memory(GiB)": 112.26,
      "step": 45075,
      "train_speed(iter/s)": 1.127828
    },
    {
      "acc": 0.74691401,
      "epoch": 1.143581938102486,
      "grad_norm": 3.234375,
      "learning_rate": 4.229409089880336e-06,
      "loss": 1.0559576,
      "memory(GiB)": 112.26,
      "step": 45080,
      "train_speed(iter/s)": 1.127855
    },
    {
      "acc": 0.73856668,
      "epoch": 1.143708777270421,
      "grad_norm": 3.90625,
      "learning_rate": 4.2283730116701535e-06,
      "loss": 1.07117157,
      "memory(GiB)": 112.26,
      "step": 45085,
      "train_speed(iter/s)": 1.12788
    },
    {
      "acc": 0.7406209,
      "epoch": 1.143835616438356,
      "grad_norm": 4.5,
      "learning_rate": 4.227336967399573e-06,
      "loss": 1.06497078,
      "memory(GiB)": 112.26,
      "step": 45090,
      "train_speed(iter/s)": 1.127899
    },
    {
      "acc": 0.74735947,
      "epoch": 1.1439624556062913,
      "grad_norm": 3.578125,
      "learning_rate": 4.2263009571141585e-06,
      "loss": 1.03584938,
      "memory(GiB)": 112.26,
      "step": 45095,
      "train_speed(iter/s)": 1.127924
    },
    {
      "acc": 0.74501853,
      "epoch": 1.1440892947742263,
      "grad_norm": 3.46875,
      "learning_rate": 4.225264980859485e-06,
      "loss": 1.04316235,
      "memory(GiB)": 112.26,
      "step": 45100,
      "train_speed(iter/s)": 1.127944
    },
    {
      "acc": 0.73523622,
      "epoch": 1.1442161339421613,
      "grad_norm": 3.671875,
      "learning_rate": 4.224229038681115e-06,
      "loss": 1.08699665,
      "memory(GiB)": 112.26,
      "step": 45105,
      "train_speed(iter/s)": 1.127968
    },
    {
      "acc": 0.73826594,
      "epoch": 1.1443429731100965,
      "grad_norm": 3.40625,
      "learning_rate": 4.223193130624619e-06,
      "loss": 1.07146606,
      "memory(GiB)": 112.26,
      "step": 45110,
      "train_speed(iter/s)": 1.127983
    },
    {
      "acc": 0.7516839,
      "epoch": 1.1444698122780315,
      "grad_norm": 3.453125,
      "learning_rate": 4.222157256735553e-06,
      "loss": 0.9956995,
      "memory(GiB)": 112.26,
      "step": 45115,
      "train_speed(iter/s)": 1.127992
    },
    {
      "acc": 0.75144682,
      "epoch": 1.1445966514459665,
      "grad_norm": 4.03125,
      "learning_rate": 4.2211214170594865e-06,
      "loss": 1.05816174,
      "memory(GiB)": 112.26,
      "step": 45120,
      "train_speed(iter/s)": 1.127997
    },
    {
      "acc": 0.73019781,
      "epoch": 1.1447234906139017,
      "grad_norm": 4.8125,
      "learning_rate": 4.220085611641976e-06,
      "loss": 1.07774105,
      "memory(GiB)": 112.26,
      "step": 45125,
      "train_speed(iter/s)": 1.128016
    },
    {
      "acc": 0.73780003,
      "epoch": 1.1448503297818367,
      "grad_norm": 3.28125,
      "learning_rate": 4.2190498405285826e-06,
      "loss": 1.09119091,
      "memory(GiB)": 112.26,
      "step": 45130,
      "train_speed(iter/s)": 1.128036
    },
    {
      "acc": 0.74309607,
      "epoch": 1.1449771689497716,
      "grad_norm": 3.734375,
      "learning_rate": 4.218014103764865e-06,
      "loss": 1.04817066,
      "memory(GiB)": 112.26,
      "step": 45135,
      "train_speed(iter/s)": 1.128058
    },
    {
      "acc": 0.72198081,
      "epoch": 1.1451040081177069,
      "grad_norm": 3.625,
      "learning_rate": 4.216978401396376e-06,
      "loss": 1.09647951,
      "memory(GiB)": 112.26,
      "step": 45140,
      "train_speed(iter/s)": 1.128061
    },
    {
      "acc": 0.73528919,
      "epoch": 1.1452308472856418,
      "grad_norm": 4.125,
      "learning_rate": 4.215942733468675e-06,
      "loss": 1.11003628,
      "memory(GiB)": 112.26,
      "step": 45145,
      "train_speed(iter/s)": 1.128086
    },
    {
      "acc": 0.75961003,
      "epoch": 1.1453576864535768,
      "grad_norm": 4.0,
      "learning_rate": 4.2149071000273134e-06,
      "loss": 0.96064796,
      "memory(GiB)": 112.26,
      "step": 45150,
      "train_speed(iter/s)": 1.128106
    },
    {
      "acc": 0.7488039,
      "epoch": 1.1454845256215118,
      "grad_norm": 4.6875,
      "learning_rate": 4.213871501117842e-06,
      "loss": 1.00966091,
      "memory(GiB)": 112.26,
      "step": 45155,
      "train_speed(iter/s)": 1.128122
    },
    {
      "acc": 0.72429776,
      "epoch": 1.145611364789447,
      "grad_norm": 3.796875,
      "learning_rate": 4.212835936785811e-06,
      "loss": 1.1588623,
      "memory(GiB)": 112.26,
      "step": 45160,
      "train_speed(iter/s)": 1.128147
    },
    {
      "acc": 0.74724436,
      "epoch": 1.145738203957382,
      "grad_norm": 3.75,
      "learning_rate": 4.21180040707677e-06,
      "loss": 1.00479774,
      "memory(GiB)": 112.26,
      "step": 45165,
      "train_speed(iter/s)": 1.128169
    },
    {
      "acc": 0.74584551,
      "epoch": 1.145865043125317,
      "grad_norm": 3.625,
      "learning_rate": 4.2107649120362684e-06,
      "loss": 1.09361801,
      "memory(GiB)": 112.26,
      "step": 45170,
      "train_speed(iter/s)": 1.128183
    },
    {
      "acc": 0.72987423,
      "epoch": 1.1459918822932522,
      "grad_norm": 3.0625,
      "learning_rate": 4.2097294517098465e-06,
      "loss": 1.09020281,
      "memory(GiB)": 112.26,
      "step": 45175,
      "train_speed(iter/s)": 1.128203
    },
    {
      "acc": 0.73933773,
      "epoch": 1.1461187214611872,
      "grad_norm": 4.46875,
      "learning_rate": 4.208694026143054e-06,
      "loss": 1.11259098,
      "memory(GiB)": 112.26,
      "step": 45180,
      "train_speed(iter/s)": 1.128203
    },
    {
      "acc": 0.74049273,
      "epoch": 1.1462455606291222,
      "grad_norm": 4.4375,
      "learning_rate": 4.2076586353814295e-06,
      "loss": 1.15898352,
      "memory(GiB)": 112.26,
      "step": 45185,
      "train_speed(iter/s)": 1.128222
    },
    {
      "acc": 0.73916502,
      "epoch": 1.1463723997970574,
      "grad_norm": 3.40625,
      "learning_rate": 4.2066232794705174e-06,
      "loss": 1.06388063,
      "memory(GiB)": 112.26,
      "step": 45190,
      "train_speed(iter/s)": 1.128232
    },
    {
      "acc": 0.73792896,
      "epoch": 1.1464992389649924,
      "grad_norm": 3.640625,
      "learning_rate": 4.205587958455854e-06,
      "loss": 1.06048727,
      "memory(GiB)": 112.26,
      "step": 45195,
      "train_speed(iter/s)": 1.128251
    },
    {
      "acc": 0.74415069,
      "epoch": 1.1466260781329274,
      "grad_norm": 3.359375,
      "learning_rate": 4.204552672382981e-06,
      "loss": 1.07837381,
      "memory(GiB)": 112.26,
      "step": 45200,
      "train_speed(iter/s)": 1.128274
    },
    {
      "acc": 0.73423729,
      "epoch": 1.1467529173008626,
      "grad_norm": 3.453125,
      "learning_rate": 4.203517421297431e-06,
      "loss": 1.05325375,
      "memory(GiB)": 112.26,
      "step": 45205,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.74127941,
      "epoch": 1.1468797564687976,
      "grad_norm": 3.546875,
      "learning_rate": 4.202482205244742e-06,
      "loss": 1.02768097,
      "memory(GiB)": 112.26,
      "step": 45210,
      "train_speed(iter/s)": 1.128327
    },
    {
      "acc": 0.75755959,
      "epoch": 1.1470065956367326,
      "grad_norm": 4.4375,
      "learning_rate": 4.201447024270446e-06,
      "loss": 1.04685669,
      "memory(GiB)": 112.26,
      "step": 45215,
      "train_speed(iter/s)": 1.128355
    },
    {
      "acc": 0.72929974,
      "epoch": 1.1471334348046676,
      "grad_norm": 3.578125,
      "learning_rate": 4.200411878420074e-06,
      "loss": 1.1267251,
      "memory(GiB)": 112.26,
      "step": 45220,
      "train_speed(iter/s)": 1.128375
    },
    {
      "acc": 0.7399745,
      "epoch": 1.1472602739726028,
      "grad_norm": 4.65625,
      "learning_rate": 4.199376767739158e-06,
      "loss": 1.03298206,
      "memory(GiB)": 112.26,
      "step": 45225,
      "train_speed(iter/s)": 1.128381
    },
    {
      "acc": 0.74938593,
      "epoch": 1.1473871131405378,
      "grad_norm": 3.96875,
      "learning_rate": 4.1983416922732276e-06,
      "loss": 1.02771034,
      "memory(GiB)": 112.26,
      "step": 45230,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.75055661,
      "epoch": 1.147513952308473,
      "grad_norm": 3.375,
      "learning_rate": 4.197306652067807e-06,
      "loss": 1.00403967,
      "memory(GiB)": 112.26,
      "step": 45235,
      "train_speed(iter/s)": 1.128419
    },
    {
      "acc": 0.7536602,
      "epoch": 1.147640791476408,
      "grad_norm": 4.09375,
      "learning_rate": 4.196271647168425e-06,
      "loss": 1.00732918,
      "memory(GiB)": 112.26,
      "step": 45240,
      "train_speed(iter/s)": 1.128429
    },
    {
      "acc": 0.73741274,
      "epoch": 1.147767630644343,
      "grad_norm": 3.84375,
      "learning_rate": 4.195236677620604e-06,
      "loss": 1.14175205,
      "memory(GiB)": 112.26,
      "step": 45245,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.75577211,
      "epoch": 1.147894469812278,
      "grad_norm": 4.46875,
      "learning_rate": 4.1942017434698675e-06,
      "loss": 0.96754093,
      "memory(GiB)": 112.26,
      "step": 45250,
      "train_speed(iter/s)": 1.128464
    },
    {
      "acc": 0.74176817,
      "epoch": 1.1480213089802132,
      "grad_norm": 3.25,
      "learning_rate": 4.1931668447617346e-06,
      "loss": 1.03778572,
      "memory(GiB)": 112.26,
      "step": 45255,
      "train_speed(iter/s)": 1.128488
    },
    {
      "acc": 0.74256115,
      "epoch": 1.1481481481481481,
      "grad_norm": 3.96875,
      "learning_rate": 4.192131981541727e-06,
      "loss": 1.13036013,
      "memory(GiB)": 112.26,
      "step": 45260,
      "train_speed(iter/s)": 1.128503
    },
    {
      "acc": 0.74448624,
      "epoch": 1.1482749873160831,
      "grad_norm": 4.40625,
      "learning_rate": 4.19109715385536e-06,
      "loss": 1.03334103,
      "memory(GiB)": 112.26,
      "step": 45265,
      "train_speed(iter/s)": 1.128523
    },
    {
      "acc": 0.72765093,
      "epoch": 1.1484018264840183,
      "grad_norm": 3.3125,
      "learning_rate": 4.190062361748154e-06,
      "loss": 1.06845903,
      "memory(GiB)": 112.26,
      "step": 45270,
      "train_speed(iter/s)": 1.128542
    },
    {
      "acc": 0.73411155,
      "epoch": 1.1485286656519533,
      "grad_norm": 4.71875,
      "learning_rate": 4.189027605265621e-06,
      "loss": 1.06533566,
      "memory(GiB)": 112.26,
      "step": 45275,
      "train_speed(iter/s)": 1.128552
    },
    {
      "acc": 0.74079614,
      "epoch": 1.1486555048198883,
      "grad_norm": 4.59375,
      "learning_rate": 4.187992884453273e-06,
      "loss": 1.07306728,
      "memory(GiB)": 112.26,
      "step": 45280,
      "train_speed(iter/s)": 1.128573
    },
    {
      "acc": 0.73937521,
      "epoch": 1.1487823439878235,
      "grad_norm": 3.328125,
      "learning_rate": 4.186958199356624e-06,
      "loss": 1.071488,
      "memory(GiB)": 112.26,
      "step": 45285,
      "train_speed(iter/s)": 1.12858
    },
    {
      "acc": 0.73707213,
      "epoch": 1.1489091831557585,
      "grad_norm": 4.4375,
      "learning_rate": 4.185923550021185e-06,
      "loss": 1.07833958,
      "memory(GiB)": 112.26,
      "step": 45290,
      "train_speed(iter/s)": 1.128601
    },
    {
      "acc": 0.74498944,
      "epoch": 1.1490360223236935,
      "grad_norm": 3.109375,
      "learning_rate": 4.1848889364924625e-06,
      "loss": 1.04738274,
      "memory(GiB)": 112.26,
      "step": 45295,
      "train_speed(iter/s)": 1.12861
    },
    {
      "acc": 0.72764921,
      "epoch": 1.1491628614916287,
      "grad_norm": 4.3125,
      "learning_rate": 4.183854358815962e-06,
      "loss": 1.13483953,
      "memory(GiB)": 112.26,
      "step": 45300,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.74188409,
      "epoch": 1.1492897006595637,
      "grad_norm": 3.921875,
      "learning_rate": 4.182819817037192e-06,
      "loss": 1.03907232,
      "memory(GiB)": 112.26,
      "step": 45305,
      "train_speed(iter/s)": 1.128643
    },
    {
      "acc": 0.73637333,
      "epoch": 1.1494165398274987,
      "grad_norm": 3.96875,
      "learning_rate": 4.181785311201655e-06,
      "loss": 1.06860352,
      "memory(GiB)": 112.26,
      "step": 45310,
      "train_speed(iter/s)": 1.128666
    },
    {
      "acc": 0.73802795,
      "epoch": 1.1495433789954337,
      "grad_norm": 3.5,
      "learning_rate": 4.1807508413548515e-06,
      "loss": 1.11177711,
      "memory(GiB)": 112.26,
      "step": 45315,
      "train_speed(iter/s)": 1.128674
    },
    {
      "acc": 0.75571127,
      "epoch": 1.149670218163369,
      "grad_norm": 4.3125,
      "learning_rate": 4.179716407542285e-06,
      "loss": 0.99820385,
      "memory(GiB)": 112.26,
      "step": 45320,
      "train_speed(iter/s)": 1.128692
    },
    {
      "acc": 0.72819963,
      "epoch": 1.1497970573313039,
      "grad_norm": 3.734375,
      "learning_rate": 4.178682009809452e-06,
      "loss": 1.11219425,
      "memory(GiB)": 112.26,
      "step": 45325,
      "train_speed(iter/s)": 1.128721
    },
    {
      "acc": 0.73981876,
      "epoch": 1.1499238964992389,
      "grad_norm": 3.0,
      "learning_rate": 4.177647648201854e-06,
      "loss": 1.04151363,
      "memory(GiB)": 112.26,
      "step": 45330,
      "train_speed(iter/s)": 1.128748
    },
    {
      "acc": 0.74007444,
      "epoch": 1.150050735667174,
      "grad_norm": 3.53125,
      "learning_rate": 4.1766133227649815e-06,
      "loss": 1.02765722,
      "memory(GiB)": 112.26,
      "step": 45335,
      "train_speed(iter/s)": 1.128767
    },
    {
      "acc": 0.75004959,
      "epoch": 1.150177574835109,
      "grad_norm": 3.453125,
      "learning_rate": 4.175579033544332e-06,
      "loss": 1.02449303,
      "memory(GiB)": 112.26,
      "step": 45340,
      "train_speed(iter/s)": 1.128786
    },
    {
      "acc": 0.72839236,
      "epoch": 1.150304414003044,
      "grad_norm": 3.734375,
      "learning_rate": 4.174544780585395e-06,
      "loss": 1.06823063,
      "memory(GiB)": 112.26,
      "step": 45345,
      "train_speed(iter/s)": 1.128815
    },
    {
      "acc": 0.73693528,
      "epoch": 1.1504312531709793,
      "grad_norm": 6.34375,
      "learning_rate": 4.1735105639336686e-06,
      "loss": 1.12486057,
      "memory(GiB)": 112.26,
      "step": 45350,
      "train_speed(iter/s)": 1.128834
    },
    {
      "acc": 0.73641253,
      "epoch": 1.1505580923389143,
      "grad_norm": 3.328125,
      "learning_rate": 4.172476383634635e-06,
      "loss": 1.06987762,
      "memory(GiB)": 112.26,
      "step": 45355,
      "train_speed(iter/s)": 1.128846
    },
    {
      "acc": 0.74215298,
      "epoch": 1.1506849315068493,
      "grad_norm": 3.828125,
      "learning_rate": 4.171442239733783e-06,
      "loss": 1.11655359,
      "memory(GiB)": 112.26,
      "step": 45360,
      "train_speed(iter/s)": 1.128854
    },
    {
      "acc": 0.7308938,
      "epoch": 1.1508117706747845,
      "grad_norm": 3.734375,
      "learning_rate": 4.170408132276603e-06,
      "loss": 1.12841625,
      "memory(GiB)": 112.26,
      "step": 45365,
      "train_speed(iter/s)": 1.12887
    },
    {
      "acc": 0.73264899,
      "epoch": 1.1509386098427195,
      "grad_norm": 5.03125,
      "learning_rate": 4.1693740613085776e-06,
      "loss": 1.09167213,
      "memory(GiB)": 112.26,
      "step": 45370,
      "train_speed(iter/s)": 1.12889
    },
    {
      "acc": 0.75198059,
      "epoch": 1.1510654490106544,
      "grad_norm": 3.671875,
      "learning_rate": 4.168340026875188e-06,
      "loss": 1.02105732,
      "memory(GiB)": 112.26,
      "step": 45375,
      "train_speed(iter/s)": 1.12892
    },
    {
      "acc": 0.74908476,
      "epoch": 1.1511922881785894,
      "grad_norm": 3.234375,
      "learning_rate": 4.167306029021917e-06,
      "loss": 1.04293003,
      "memory(GiB)": 112.26,
      "step": 45380,
      "train_speed(iter/s)": 1.128944
    },
    {
      "acc": 0.73375454,
      "epoch": 1.1513191273465246,
      "grad_norm": 4.09375,
      "learning_rate": 4.166272067794246e-06,
      "loss": 1.08669109,
      "memory(GiB)": 112.26,
      "step": 45385,
      "train_speed(iter/s)": 1.128961
    },
    {
      "acc": 0.73156919,
      "epoch": 1.1514459665144596,
      "grad_norm": 3.453125,
      "learning_rate": 4.165238143237651e-06,
      "loss": 1.09215755,
      "memory(GiB)": 112.26,
      "step": 45390,
      "train_speed(iter/s)": 1.128983
    },
    {
      "acc": 0.72976522,
      "epoch": 1.1515728056823948,
      "grad_norm": 3.125,
      "learning_rate": 4.164204255397608e-06,
      "loss": 1.05582151,
      "memory(GiB)": 112.26,
      "step": 45395,
      "train_speed(iter/s)": 1.129003
    },
    {
      "acc": 0.73090291,
      "epoch": 1.1516996448503298,
      "grad_norm": 3.109375,
      "learning_rate": 4.163170404319596e-06,
      "loss": 1.06456079,
      "memory(GiB)": 112.26,
      "step": 45400,
      "train_speed(iter/s)": 1.129022
    },
    {
      "acc": 0.7416204,
      "epoch": 1.1518264840182648,
      "grad_norm": 3.609375,
      "learning_rate": 4.1621365900490825e-06,
      "loss": 1.0554471,
      "memory(GiB)": 112.26,
      "step": 45405,
      "train_speed(iter/s)": 1.129044
    },
    {
      "acc": 0.74881344,
      "epoch": 1.1519533231861998,
      "grad_norm": 3.890625,
      "learning_rate": 4.1611028126315455e-06,
      "loss": 1.04999819,
      "memory(GiB)": 112.26,
      "step": 45410,
      "train_speed(iter/s)": 1.12906
    },
    {
      "acc": 0.73627834,
      "epoch": 1.152080162354135,
      "grad_norm": 3.390625,
      "learning_rate": 4.160069072112451e-06,
      "loss": 1.0588316,
      "memory(GiB)": 112.26,
      "step": 45415,
      "train_speed(iter/s)": 1.129067
    },
    {
      "acc": 0.75193939,
      "epoch": 1.15220700152207,
      "grad_norm": 3.0625,
      "learning_rate": 4.1590353685372695e-06,
      "loss": 1.0095891,
      "memory(GiB)": 112.26,
      "step": 45420,
      "train_speed(iter/s)": 1.129083
    },
    {
      "acc": 0.74870038,
      "epoch": 1.152333840690005,
      "grad_norm": 3.90625,
      "learning_rate": 4.158001701951465e-06,
      "loss": 0.97457809,
      "memory(GiB)": 112.26,
      "step": 45425,
      "train_speed(iter/s)": 1.129097
    },
    {
      "acc": 0.73972163,
      "epoch": 1.1524606798579402,
      "grad_norm": 4.03125,
      "learning_rate": 4.156968072400508e-06,
      "loss": 1.08455238,
      "memory(GiB)": 112.26,
      "step": 45430,
      "train_speed(iter/s)": 1.129111
    },
    {
      "acc": 0.73345971,
      "epoch": 1.1525875190258752,
      "grad_norm": 4.09375,
      "learning_rate": 4.155934479929858e-06,
      "loss": 1.07013235,
      "memory(GiB)": 112.26,
      "step": 45435,
      "train_speed(iter/s)": 1.129129
    },
    {
      "acc": 0.76644111,
      "epoch": 1.1527143581938102,
      "grad_norm": 5.8125,
      "learning_rate": 4.154900924584976e-06,
      "loss": 0.93490114,
      "memory(GiB)": 112.26,
      "step": 45440,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.72965813,
      "epoch": 1.1528411973617454,
      "grad_norm": 3.46875,
      "learning_rate": 4.153867406411327e-06,
      "loss": 1.12045135,
      "memory(GiB)": 112.26,
      "step": 45445,
      "train_speed(iter/s)": 1.129166
    },
    {
      "acc": 0.74842272,
      "epoch": 1.1529680365296804,
      "grad_norm": 4.21875,
      "learning_rate": 4.152833925454367e-06,
      "loss": 1.00604763,
      "memory(GiB)": 112.26,
      "step": 45450,
      "train_speed(iter/s)": 1.129172
    },
    {
      "acc": 0.74405551,
      "epoch": 1.1530948756976154,
      "grad_norm": 3.53125,
      "learning_rate": 4.1518004817595515e-06,
      "loss": 1.01282101,
      "memory(GiB)": 112.26,
      "step": 45455,
      "train_speed(iter/s)": 1.129163
    },
    {
      "acc": 0.72084794,
      "epoch": 1.1532217148655506,
      "grad_norm": 4.75,
      "learning_rate": 4.150767075372338e-06,
      "loss": 1.12314796,
      "memory(GiB)": 112.26,
      "step": 45460,
      "train_speed(iter/s)": 1.129186
    },
    {
      "acc": 0.74032197,
      "epoch": 1.1533485540334856,
      "grad_norm": 3.765625,
      "learning_rate": 4.149733706338182e-06,
      "loss": 1.02182636,
      "memory(GiB)": 112.26,
      "step": 45465,
      "train_speed(iter/s)": 1.129199
    },
    {
      "acc": 0.74351535,
      "epoch": 1.1534753932014206,
      "grad_norm": 3.578125,
      "learning_rate": 4.148700374702533e-06,
      "loss": 1.04638357,
      "memory(GiB)": 112.26,
      "step": 45470,
      "train_speed(iter/s)": 1.129201
    },
    {
      "acc": 0.7456912,
      "epoch": 1.1536022323693556,
      "grad_norm": 3.390625,
      "learning_rate": 4.147667080510841e-06,
      "loss": 1.05896893,
      "memory(GiB)": 112.26,
      "step": 45475,
      "train_speed(iter/s)": 1.129209
    },
    {
      "acc": 0.74906588,
      "epoch": 1.1537290715372908,
      "grad_norm": 3.375,
      "learning_rate": 4.146633823808557e-06,
      "loss": 1.03752136,
      "memory(GiB)": 112.26,
      "step": 45480,
      "train_speed(iter/s)": 1.129221
    },
    {
      "acc": 0.7277184,
      "epoch": 1.1538559107052258,
      "grad_norm": 3.859375,
      "learning_rate": 4.145600604641127e-06,
      "loss": 1.08109846,
      "memory(GiB)": 112.26,
      "step": 45485,
      "train_speed(iter/s)": 1.129234
    },
    {
      "acc": 0.74331436,
      "epoch": 1.1539827498731607,
      "grad_norm": 4.15625,
      "learning_rate": 4.1445674230539985e-06,
      "loss": 1.03728962,
      "memory(GiB)": 112.26,
      "step": 45490,
      "train_speed(iter/s)": 1.129251
    },
    {
      "acc": 0.74496436,
      "epoch": 1.154109589041096,
      "grad_norm": 4.0625,
      "learning_rate": 4.143534279092613e-06,
      "loss": 1.04366474,
      "memory(GiB)": 112.26,
      "step": 45495,
      "train_speed(iter/s)": 1.129265
    },
    {
      "acc": 0.73349996,
      "epoch": 1.154236428209031,
      "grad_norm": 4.03125,
      "learning_rate": 4.142501172802412e-06,
      "loss": 1.13359928,
      "memory(GiB)": 112.26,
      "step": 45500,
      "train_speed(iter/s)": 1.129267
    },
    {
      "acc": 0.73420424,
      "epoch": 1.154363267376966,
      "grad_norm": 3.890625,
      "learning_rate": 4.14146810422884e-06,
      "loss": 1.0967638,
      "memory(GiB)": 112.26,
      "step": 45505,
      "train_speed(iter/s)": 1.129272
    },
    {
      "acc": 0.74026923,
      "epoch": 1.1544901065449011,
      "grad_norm": 4.5625,
      "learning_rate": 4.140435073417335e-06,
      "loss": 1.01939344,
      "memory(GiB)": 112.26,
      "step": 45510,
      "train_speed(iter/s)": 1.129286
    },
    {
      "acc": 0.74052763,
      "epoch": 1.1546169457128361,
      "grad_norm": 3.5,
      "learning_rate": 4.139402080413331e-06,
      "loss": 1.05562744,
      "memory(GiB)": 112.26,
      "step": 45515,
      "train_speed(iter/s)": 1.129292
    },
    {
      "acc": 0.74129133,
      "epoch": 1.1547437848807711,
      "grad_norm": 3.671875,
      "learning_rate": 4.138369125262266e-06,
      "loss": 1.05975723,
      "memory(GiB)": 112.26,
      "step": 45520,
      "train_speed(iter/s)": 1.129308
    },
    {
      "acc": 0.73428731,
      "epoch": 1.1548706240487063,
      "grad_norm": 3.65625,
      "learning_rate": 4.137336208009574e-06,
      "loss": 1.07809763,
      "memory(GiB)": 112.26,
      "step": 45525,
      "train_speed(iter/s)": 1.12932
    },
    {
      "acc": 0.7401711,
      "epoch": 1.1549974632166413,
      "grad_norm": 3.5625,
      "learning_rate": 4.136303328700688e-06,
      "loss": 1.0880991,
      "memory(GiB)": 112.26,
      "step": 45530,
      "train_speed(iter/s)": 1.12934
    },
    {
      "acc": 0.72913675,
      "epoch": 1.1551243023845763,
      "grad_norm": 3.703125,
      "learning_rate": 4.135270487381037e-06,
      "loss": 1.10450459,
      "memory(GiB)": 112.26,
      "step": 45535,
      "train_speed(iter/s)": 1.129352
    },
    {
      "acc": 0.75098724,
      "epoch": 1.1552511415525113,
      "grad_norm": 3.296875,
      "learning_rate": 4.13423768409605e-06,
      "loss": 1.03409939,
      "memory(GiB)": 112.26,
      "step": 45540,
      "train_speed(iter/s)": 1.129376
    },
    {
      "acc": 0.73970118,
      "epoch": 1.1553779807204465,
      "grad_norm": 3.390625,
      "learning_rate": 4.133204918891155e-06,
      "loss": 1.06018772,
      "memory(GiB)": 112.26,
      "step": 45545,
      "train_speed(iter/s)": 1.129396
    },
    {
      "acc": 0.74232049,
      "epoch": 1.1555048198883815,
      "grad_norm": 4.0625,
      "learning_rate": 4.132172191811781e-06,
      "loss": 1.06175194,
      "memory(GiB)": 112.26,
      "step": 45550,
      "train_speed(iter/s)": 1.129419
    },
    {
      "acc": 0.74020414,
      "epoch": 1.1556316590563167,
      "grad_norm": 3.25,
      "learning_rate": 4.131139502903345e-06,
      "loss": 1.0582551,
      "memory(GiB)": 112.26,
      "step": 45555,
      "train_speed(iter/s)": 1.129436
    },
    {
      "acc": 0.73429356,
      "epoch": 1.1557584982242517,
      "grad_norm": 3.390625,
      "learning_rate": 4.130106852211273e-06,
      "loss": 1.08461084,
      "memory(GiB)": 112.26,
      "step": 45560,
      "train_speed(iter/s)": 1.129457
    },
    {
      "acc": 0.74753351,
      "epoch": 1.1558853373921867,
      "grad_norm": 3.609375,
      "learning_rate": 4.129074239780986e-06,
      "loss": 1.01506033,
      "memory(GiB)": 112.26,
      "step": 45565,
      "train_speed(iter/s)": 1.12947
    },
    {
      "acc": 0.75114541,
      "epoch": 1.1560121765601217,
      "grad_norm": 3.890625,
      "learning_rate": 4.128041665657903e-06,
      "loss": 1.06663952,
      "memory(GiB)": 112.26,
      "step": 45570,
      "train_speed(iter/s)": 1.129493
    },
    {
      "acc": 0.74160805,
      "epoch": 1.1561390157280569,
      "grad_norm": 3.734375,
      "learning_rate": 4.127009129887441e-06,
      "loss": 1.06342916,
      "memory(GiB)": 112.26,
      "step": 45575,
      "train_speed(iter/s)": 1.129521
    },
    {
      "acc": 0.73557472,
      "epoch": 1.1562658548959919,
      "grad_norm": 3.734375,
      "learning_rate": 4.125976632515013e-06,
      "loss": 1.08235655,
      "memory(GiB)": 112.26,
      "step": 45580,
      "train_speed(iter/s)": 1.129544
    },
    {
      "acc": 0.7364677,
      "epoch": 1.1563926940639269,
      "grad_norm": 3.390625,
      "learning_rate": 4.124944173586036e-06,
      "loss": 1.06758184,
      "memory(GiB)": 112.26,
      "step": 45585,
      "train_speed(iter/s)": 1.129564
    },
    {
      "acc": 0.72831311,
      "epoch": 1.156519533231862,
      "grad_norm": 3.84375,
      "learning_rate": 4.123911753145922e-06,
      "loss": 1.09242153,
      "memory(GiB)": 112.26,
      "step": 45590,
      "train_speed(iter/s)": 1.129579
    },
    {
      "acc": 0.73962793,
      "epoch": 1.156646372399797,
      "grad_norm": 4.78125,
      "learning_rate": 4.12287937124008e-06,
      "loss": 1.09433537,
      "memory(GiB)": 112.26,
      "step": 45595,
      "train_speed(iter/s)": 1.1296
    },
    {
      "acc": 0.73265495,
      "epoch": 1.156773211567732,
      "grad_norm": 4.5625,
      "learning_rate": 4.121847027913918e-06,
      "loss": 1.10267162,
      "memory(GiB)": 112.26,
      "step": 45600,
      "train_speed(iter/s)": 1.129615
    },
    {
      "acc": 0.74287105,
      "epoch": 1.1569000507356673,
      "grad_norm": 3.921875,
      "learning_rate": 4.1208147232128456e-06,
      "loss": 1.05351601,
      "memory(GiB)": 112.26,
      "step": 45605,
      "train_speed(iter/s)": 1.129632
    },
    {
      "acc": 0.72944293,
      "epoch": 1.1570268899036023,
      "grad_norm": 3.609375,
      "learning_rate": 4.119782457182267e-06,
      "loss": 1.0778203,
      "memory(GiB)": 112.26,
      "step": 45610,
      "train_speed(iter/s)": 1.129637
    },
    {
      "acc": 0.75427794,
      "epoch": 1.1571537290715372,
      "grad_norm": 3.5625,
      "learning_rate": 4.118750229867585e-06,
      "loss": 1.02925186,
      "memory(GiB)": 112.26,
      "step": 45615,
      "train_speed(iter/s)": 1.12965
    },
    {
      "acc": 0.73142366,
      "epoch": 1.1572805682394725,
      "grad_norm": 4.03125,
      "learning_rate": 4.117718041314204e-06,
      "loss": 1.07402363,
      "memory(GiB)": 112.26,
      "step": 45620,
      "train_speed(iter/s)": 1.129677
    },
    {
      "acc": 0.73224854,
      "epoch": 1.1574074074074074,
      "grad_norm": 3.421875,
      "learning_rate": 4.11668589156752e-06,
      "loss": 1.08447094,
      "memory(GiB)": 112.26,
      "step": 45625,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.7591877,
      "epoch": 1.1575342465753424,
      "grad_norm": 3.671875,
      "learning_rate": 4.115653780672937e-06,
      "loss": 0.99140301,
      "memory(GiB)": 112.26,
      "step": 45630,
      "train_speed(iter/s)": 1.12971
    },
    {
      "acc": 0.74293556,
      "epoch": 1.1576610857432774,
      "grad_norm": 4.03125,
      "learning_rate": 4.1146217086758475e-06,
      "loss": 1.07093086,
      "memory(GiB)": 112.26,
      "step": 45635,
      "train_speed(iter/s)": 1.129725
    },
    {
      "acc": 0.75765967,
      "epoch": 1.1577879249112126,
      "grad_norm": 3.734375,
      "learning_rate": 4.113589675621649e-06,
      "loss": 0.97178793,
      "memory(GiB)": 112.26,
      "step": 45640,
      "train_speed(iter/s)": 1.129742
    },
    {
      "acc": 0.74796162,
      "epoch": 1.1579147640791476,
      "grad_norm": 3.078125,
      "learning_rate": 4.112557681555733e-06,
      "loss": 1.01752663,
      "memory(GiB)": 112.26,
      "step": 45645,
      "train_speed(iter/s)": 1.129764
    },
    {
      "acc": 0.74407187,
      "epoch": 1.1580416032470826,
      "grad_norm": 3.625,
      "learning_rate": 4.111525726523494e-06,
      "loss": 1.0679018,
      "memory(GiB)": 112.26,
      "step": 45650,
      "train_speed(iter/s)": 1.129788
    },
    {
      "acc": 0.74839621,
      "epoch": 1.1581684424150178,
      "grad_norm": 3.203125,
      "learning_rate": 4.110493810570319e-06,
      "loss": 0.99133463,
      "memory(GiB)": 112.26,
      "step": 45655,
      "train_speed(iter/s)": 1.129813
    },
    {
      "acc": 0.73931427,
      "epoch": 1.1582952815829528,
      "grad_norm": 3.875,
      "learning_rate": 4.109461933741598e-06,
      "loss": 1.07514038,
      "memory(GiB)": 112.26,
      "step": 45660,
      "train_speed(iter/s)": 1.12983
    },
    {
      "acc": 0.73153658,
      "epoch": 1.1584221207508878,
      "grad_norm": 4.53125,
      "learning_rate": 4.108430096082716e-06,
      "loss": 1.09784718,
      "memory(GiB)": 112.26,
      "step": 45665,
      "train_speed(iter/s)": 1.12985
    },
    {
      "acc": 0.73310204,
      "epoch": 1.158548959918823,
      "grad_norm": 3.515625,
      "learning_rate": 4.107398297639062e-06,
      "loss": 1.09578867,
      "memory(GiB)": 112.26,
      "step": 45670,
      "train_speed(iter/s)": 1.129853
    },
    {
      "acc": 0.73923879,
      "epoch": 1.158675799086758,
      "grad_norm": 3.65625,
      "learning_rate": 4.106366538456013e-06,
      "loss": 1.07176456,
      "memory(GiB)": 112.26,
      "step": 45675,
      "train_speed(iter/s)": 1.129881
    },
    {
      "acc": 0.74773798,
      "epoch": 1.158802638254693,
      "grad_norm": 3.640625,
      "learning_rate": 4.105334818578954e-06,
      "loss": 1.00632019,
      "memory(GiB)": 112.26,
      "step": 45680,
      "train_speed(iter/s)": 1.129907
    },
    {
      "acc": 0.74036326,
      "epoch": 1.1589294774226282,
      "grad_norm": 3.625,
      "learning_rate": 4.104303138053265e-06,
      "loss": 1.11524506,
      "memory(GiB)": 112.26,
      "step": 45685,
      "train_speed(iter/s)": 1.129937
    },
    {
      "acc": 0.75538902,
      "epoch": 1.1590563165905632,
      "grad_norm": 4.15625,
      "learning_rate": 4.103271496924323e-06,
      "loss": 0.99057636,
      "memory(GiB)": 112.26,
      "step": 45690,
      "train_speed(iter/s)": 1.129956
    },
    {
      "acc": 0.7474401,
      "epoch": 1.1591831557584982,
      "grad_norm": 4.75,
      "learning_rate": 4.102239895237503e-06,
      "loss": 1.0801651,
      "memory(GiB)": 112.26,
      "step": 45695,
      "train_speed(iter/s)": 1.129977
    },
    {
      "acc": 0.75528498,
      "epoch": 1.1593099949264332,
      "grad_norm": 3.5625,
      "learning_rate": 4.101208333038181e-06,
      "loss": 0.99739199,
      "memory(GiB)": 112.26,
      "step": 45700,
      "train_speed(iter/s)": 1.129994
    },
    {
      "acc": 0.73325233,
      "epoch": 1.1594368340943684,
      "grad_norm": 4.5,
      "learning_rate": 4.1001768103717285e-06,
      "loss": 1.10059223,
      "memory(GiB)": 112.26,
      "step": 45705,
      "train_speed(iter/s)": 1.130013
    },
    {
      "acc": 0.7402235,
      "epoch": 1.1595636732623034,
      "grad_norm": 3.859375,
      "learning_rate": 4.09914532728352e-06,
      "loss": 0.99738169,
      "memory(GiB)": 112.26,
      "step": 45710,
      "train_speed(iter/s)": 1.130028
    },
    {
      "acc": 0.73186946,
      "epoch": 1.1596905124302386,
      "grad_norm": 4.09375,
      "learning_rate": 4.09811388381892e-06,
      "loss": 1.10089111,
      "memory(GiB)": 112.26,
      "step": 45715,
      "train_speed(iter/s)": 1.130039
    },
    {
      "acc": 0.75283079,
      "epoch": 1.1598173515981736,
      "grad_norm": 4.0,
      "learning_rate": 4.097082480023298e-06,
      "loss": 1.04571419,
      "memory(GiB)": 112.26,
      "step": 45720,
      "train_speed(iter/s)": 1.130064
    },
    {
      "acc": 0.72904043,
      "epoch": 1.1599441907661086,
      "grad_norm": 3.609375,
      "learning_rate": 4.09605111594202e-06,
      "loss": 1.11980076,
      "memory(GiB)": 112.26,
      "step": 45725,
      "train_speed(iter/s)": 1.13008
    },
    {
      "acc": 0.73487635,
      "epoch": 1.1600710299340435,
      "grad_norm": 3.46875,
      "learning_rate": 4.095019791620451e-06,
      "loss": 1.0626235,
      "memory(GiB)": 112.26,
      "step": 45730,
      "train_speed(iter/s)": 1.130094
    },
    {
      "acc": 0.74156342,
      "epoch": 1.1601978691019788,
      "grad_norm": 3.46875,
      "learning_rate": 4.093988507103951e-06,
      "loss": 1.00774107,
      "memory(GiB)": 112.26,
      "step": 45735,
      "train_speed(iter/s)": 1.130111
    },
    {
      "acc": 0.75070705,
      "epoch": 1.1603247082699137,
      "grad_norm": 4.15625,
      "learning_rate": 4.09295726243788e-06,
      "loss": 1.00444317,
      "memory(GiB)": 112.26,
      "step": 45740,
      "train_speed(iter/s)": 1.130122
    },
    {
      "acc": 0.75207977,
      "epoch": 1.1604515474378487,
      "grad_norm": 4.9375,
      "learning_rate": 4.091926057667601e-06,
      "loss": 1.08693972,
      "memory(GiB)": 112.26,
      "step": 45745,
      "train_speed(iter/s)": 1.130149
    },
    {
      "acc": 0.73312554,
      "epoch": 1.160578386605784,
      "grad_norm": 4.125,
      "learning_rate": 4.0908948928384675e-06,
      "loss": 1.03983812,
      "memory(GiB)": 112.26,
      "step": 45750,
      "train_speed(iter/s)": 1.130171
    },
    {
      "acc": 0.74298263,
      "epoch": 1.160705225773719,
      "grad_norm": 4.34375,
      "learning_rate": 4.089863767995835e-06,
      "loss": 1.0920392,
      "memory(GiB)": 112.26,
      "step": 45755,
      "train_speed(iter/s)": 1.130194
    },
    {
      "acc": 0.73101516,
      "epoch": 1.160832064941654,
      "grad_norm": 3.75,
      "learning_rate": 4.088832683185057e-06,
      "loss": 1.05669136,
      "memory(GiB)": 112.26,
      "step": 45760,
      "train_speed(iter/s)": 1.130209
    },
    {
      "acc": 0.72640014,
      "epoch": 1.1609589041095891,
      "grad_norm": 4.34375,
      "learning_rate": 4.087801638451485e-06,
      "loss": 1.11143923,
      "memory(GiB)": 112.26,
      "step": 45765,
      "train_speed(iter/s)": 1.130224
    },
    {
      "acc": 0.73431816,
      "epoch": 1.1610857432775241,
      "grad_norm": 3.484375,
      "learning_rate": 4.086770633840472e-06,
      "loss": 1.07983303,
      "memory(GiB)": 112.26,
      "step": 45770,
      "train_speed(iter/s)": 1.130231
    },
    {
      "acc": 0.74310489,
      "epoch": 1.161212582445459,
      "grad_norm": 4.15625,
      "learning_rate": 4.085739669397362e-06,
      "loss": 1.05399113,
      "memory(GiB)": 112.26,
      "step": 45775,
      "train_speed(iter/s)": 1.130251
    },
    {
      "acc": 0.74283824,
      "epoch": 1.1613394216133943,
      "grad_norm": 2.875,
      "learning_rate": 4.084708745167504e-06,
      "loss": 1.00249577,
      "memory(GiB)": 112.26,
      "step": 45780,
      "train_speed(iter/s)": 1.130272
    },
    {
      "acc": 0.72304745,
      "epoch": 1.1614662607813293,
      "grad_norm": 3.9375,
      "learning_rate": 4.08367786119624e-06,
      "loss": 1.16066284,
      "memory(GiB)": 112.26,
      "step": 45785,
      "train_speed(iter/s)": 1.130286
    },
    {
      "acc": 0.74938622,
      "epoch": 1.1615930999492643,
      "grad_norm": 4.25,
      "learning_rate": 4.082647017528918e-06,
      "loss": 1.03656788,
      "memory(GiB)": 112.26,
      "step": 45790,
      "train_speed(iter/s)": 1.130296
    },
    {
      "acc": 0.74069548,
      "epoch": 1.1617199391171993,
      "grad_norm": 4.5625,
      "learning_rate": 4.081616214210874e-06,
      "loss": 1.05180111,
      "memory(GiB)": 112.26,
      "step": 45795,
      "train_speed(iter/s)": 1.130309
    },
    {
      "acc": 0.74117002,
      "epoch": 1.1618467782851345,
      "grad_norm": 3.328125,
      "learning_rate": 4.0805854512874485e-06,
      "loss": 1.04903088,
      "memory(GiB)": 112.26,
      "step": 45800,
      "train_speed(iter/s)": 1.130334
    },
    {
      "acc": 0.74339886,
      "epoch": 1.1619736174530695,
      "grad_norm": 3.328125,
      "learning_rate": 4.079554728803981e-06,
      "loss": 1.04226665,
      "memory(GiB)": 112.26,
      "step": 45805,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.7481452,
      "epoch": 1.1621004566210045,
      "grad_norm": 4.40625,
      "learning_rate": 4.078524046805806e-06,
      "loss": 1.04512987,
      "memory(GiB)": 112.26,
      "step": 45810,
      "train_speed(iter/s)": 1.130366
    },
    {
      "acc": 0.7368041,
      "epoch": 1.1622272957889397,
      "grad_norm": 4.1875,
      "learning_rate": 4.0774934053382576e-06,
      "loss": 1.03749161,
      "memory(GiB)": 112.26,
      "step": 45815,
      "train_speed(iter/s)": 1.130381
    },
    {
      "acc": 0.75058413,
      "epoch": 1.1623541349568747,
      "grad_norm": 3.796875,
      "learning_rate": 4.076462804446667e-06,
      "loss": 1.05549068,
      "memory(GiB)": 112.26,
      "step": 45820,
      "train_speed(iter/s)": 1.130399
    },
    {
      "acc": 0.74021773,
      "epoch": 1.1624809741248097,
      "grad_norm": 4.3125,
      "learning_rate": 4.0754322441763654e-06,
      "loss": 1.07831621,
      "memory(GiB)": 112.26,
      "step": 45825,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.73298573,
      "epoch": 1.1626078132927449,
      "grad_norm": 3.3125,
      "learning_rate": 4.0744017245726834e-06,
      "loss": 1.08151493,
      "memory(GiB)": 112.26,
      "step": 45830,
      "train_speed(iter/s)": 1.130425
    },
    {
      "acc": 0.73754435,
      "epoch": 1.1627346524606799,
      "grad_norm": 3.984375,
      "learning_rate": 4.073371245680944e-06,
      "loss": 1.0871069,
      "memory(GiB)": 112.26,
      "step": 45835,
      "train_speed(iter/s)": 1.130424
    },
    {
      "acc": 0.72934608,
      "epoch": 1.1628614916286149,
      "grad_norm": 3.453125,
      "learning_rate": 4.0723408075464754e-06,
      "loss": 1.11409388,
      "memory(GiB)": 112.26,
      "step": 45840,
      "train_speed(iter/s)": 1.130451
    },
    {
      "acc": 0.72900825,
      "epoch": 1.16298833079655,
      "grad_norm": 3.671875,
      "learning_rate": 4.071310410214598e-06,
      "loss": 1.09482136,
      "memory(GiB)": 112.26,
      "step": 45845,
      "train_speed(iter/s)": 1.130466
    },
    {
      "acc": 0.73736548,
      "epoch": 1.163115169964485,
      "grad_norm": 2.984375,
      "learning_rate": 4.070280053730639e-06,
      "loss": 1.13250523,
      "memory(GiB)": 112.26,
      "step": 45850,
      "train_speed(iter/s)": 1.130477
    },
    {
      "acc": 0.74174871,
      "epoch": 1.16324200913242,
      "grad_norm": 3.875,
      "learning_rate": 4.069249738139911e-06,
      "loss": 1.07530594,
      "memory(GiB)": 112.26,
      "step": 45855,
      "train_speed(iter/s)": 1.1305
    },
    {
      "acc": 0.74296389,
      "epoch": 1.163368848300355,
      "grad_norm": 4.5625,
      "learning_rate": 4.068219463487736e-06,
      "loss": 1.05370884,
      "memory(GiB)": 112.26,
      "step": 45860,
      "train_speed(iter/s)": 1.130503
    },
    {
      "acc": 0.74816751,
      "epoch": 1.1634956874682902,
      "grad_norm": 3.5625,
      "learning_rate": 4.0671892298194286e-06,
      "loss": 1.06845198,
      "memory(GiB)": 112.26,
      "step": 45865,
      "train_speed(iter/s)": 1.130509
    },
    {
      "acc": 0.74010839,
      "epoch": 1.1636225266362252,
      "grad_norm": 3.234375,
      "learning_rate": 4.066159037180304e-06,
      "loss": 1.05791416,
      "memory(GiB)": 112.26,
      "step": 45870,
      "train_speed(iter/s)": 1.130521
    },
    {
      "acc": 0.74146824,
      "epoch": 1.1637493658041604,
      "grad_norm": 3.625,
      "learning_rate": 4.065128885615674e-06,
      "loss": 1.08853569,
      "memory(GiB)": 112.26,
      "step": 45875,
      "train_speed(iter/s)": 1.130546
    },
    {
      "acc": 0.72237492,
      "epoch": 1.1638762049720954,
      "grad_norm": 3.578125,
      "learning_rate": 4.064098775170849e-06,
      "loss": 1.09225178,
      "memory(GiB)": 112.26,
      "step": 45880,
      "train_speed(iter/s)": 1.130564
    },
    {
      "acc": 0.73862658,
      "epoch": 1.1640030441400304,
      "grad_norm": 3.640625,
      "learning_rate": 4.063068705891139e-06,
      "loss": 1.09036274,
      "memory(GiB)": 112.26,
      "step": 45885,
      "train_speed(iter/s)": 1.130575
    },
    {
      "acc": 0.74336061,
      "epoch": 1.1641298833079654,
      "grad_norm": 3.140625,
      "learning_rate": 4.062038677821852e-06,
      "loss": 1.08731976,
      "memory(GiB)": 112.26,
      "step": 45890,
      "train_speed(iter/s)": 1.130575
    },
    {
      "acc": 0.74610729,
      "epoch": 1.1642567224759006,
      "grad_norm": 3.671875,
      "learning_rate": 4.061008691008289e-06,
      "loss": 1.05819712,
      "memory(GiB)": 112.26,
      "step": 45895,
      "train_speed(iter/s)": 1.130592
    },
    {
      "acc": 0.75042844,
      "epoch": 1.1643835616438356,
      "grad_norm": 3.34375,
      "learning_rate": 4.059978745495757e-06,
      "loss": 1.02147102,
      "memory(GiB)": 112.26,
      "step": 45900,
      "train_speed(iter/s)": 1.130608
    },
    {
      "acc": 0.74022293,
      "epoch": 1.1645104008117706,
      "grad_norm": 3.0625,
      "learning_rate": 4.058948841329557e-06,
      "loss": 1.05133562,
      "memory(GiB)": 112.26,
      "step": 45905,
      "train_speed(iter/s)": 1.130612
    },
    {
      "acc": 0.73451962,
      "epoch": 1.1646372399797058,
      "grad_norm": 3.546875,
      "learning_rate": 4.057918978554989e-06,
      "loss": 1.1075984,
      "memory(GiB)": 112.26,
      "step": 45910,
      "train_speed(iter/s)": 1.130605
    },
    {
      "acc": 0.74361939,
      "epoch": 1.1647640791476408,
      "grad_norm": 3.828125,
      "learning_rate": 4.056889157217348e-06,
      "loss": 1.04335594,
      "memory(GiB)": 112.26,
      "step": 45915,
      "train_speed(iter/s)": 1.130619
    },
    {
      "acc": 0.72361364,
      "epoch": 1.1648909183155758,
      "grad_norm": 3.890625,
      "learning_rate": 4.0558593773619346e-06,
      "loss": 1.13475838,
      "memory(GiB)": 112.26,
      "step": 45920,
      "train_speed(iter/s)": 1.130643
    },
    {
      "acc": 0.73753157,
      "epoch": 1.165017757483511,
      "grad_norm": 4.03125,
      "learning_rate": 4.05482963903404e-06,
      "loss": 1.05185413,
      "memory(GiB)": 112.26,
      "step": 45925,
      "train_speed(iter/s)": 1.130662
    },
    {
      "acc": 0.72803926,
      "epoch": 1.165144596651446,
      "grad_norm": 3.265625,
      "learning_rate": 4.05379994227896e-06,
      "loss": 1.12875757,
      "memory(GiB)": 112.26,
      "step": 45930,
      "train_speed(iter/s)": 1.130683
    },
    {
      "acc": 0.72451091,
      "epoch": 1.165271435819381,
      "grad_norm": 4.59375,
      "learning_rate": 4.052770287141981e-06,
      "loss": 1.09617367,
      "memory(GiB)": 112.26,
      "step": 45935,
      "train_speed(iter/s)": 1.130697
    },
    {
      "acc": 0.74688001,
      "epoch": 1.1653982749873162,
      "grad_norm": 3.90625,
      "learning_rate": 4.051740673668393e-06,
      "loss": 0.98799629,
      "memory(GiB)": 112.26,
      "step": 45940,
      "train_speed(iter/s)": 1.130717
    },
    {
      "acc": 0.73877697,
      "epoch": 1.1655251141552512,
      "grad_norm": 3.796875,
      "learning_rate": 4.0507111019034855e-06,
      "loss": 1.05006027,
      "memory(GiB)": 112.26,
      "step": 45945,
      "train_speed(iter/s)": 1.130734
    },
    {
      "acc": 0.74017229,
      "epoch": 1.1656519533231862,
      "grad_norm": 3.828125,
      "learning_rate": 4.049681571892543e-06,
      "loss": 1.05188255,
      "memory(GiB)": 112.26,
      "step": 45950,
      "train_speed(iter/s)": 1.130737
    },
    {
      "acc": 0.73809166,
      "epoch": 1.1657787924911212,
      "grad_norm": 3.5625,
      "learning_rate": 4.048652083680847e-06,
      "loss": 1.04511509,
      "memory(GiB)": 112.26,
      "step": 45955,
      "train_speed(iter/s)": 1.130754
    },
    {
      "acc": 0.72093096,
      "epoch": 1.1659056316590564,
      "grad_norm": 3.34375,
      "learning_rate": 4.047622637313678e-06,
      "loss": 1.18349056,
      "memory(GiB)": 112.26,
      "step": 45960,
      "train_speed(iter/s)": 1.130772
    },
    {
      "acc": 0.75248613,
      "epoch": 1.1660324708269914,
      "grad_norm": 3.46875,
      "learning_rate": 4.046593232836319e-06,
      "loss": 1.01113329,
      "memory(GiB)": 112.26,
      "step": 45965,
      "train_speed(iter/s)": 1.130788
    },
    {
      "acc": 0.74482665,
      "epoch": 1.1661593099949263,
      "grad_norm": 3.71875,
      "learning_rate": 4.045563870294047e-06,
      "loss": 1.08174171,
      "memory(GiB)": 112.26,
      "step": 45970,
      "train_speed(iter/s)": 1.130812
    },
    {
      "acc": 0.74737997,
      "epoch": 1.1662861491628616,
      "grad_norm": 3.859375,
      "learning_rate": 4.044534549732135e-06,
      "loss": 0.99995708,
      "memory(GiB)": 112.26,
      "step": 45975,
      "train_speed(iter/s)": 1.130825
    },
    {
      "acc": 0.75115166,
      "epoch": 1.1664129883307965,
      "grad_norm": 3.8125,
      "learning_rate": 4.043505271195861e-06,
      "loss": 0.98554201,
      "memory(GiB)": 112.26,
      "step": 45980,
      "train_speed(iter/s)": 1.13084
    },
    {
      "acc": 0.74095392,
      "epoch": 1.1665398274987315,
      "grad_norm": 4.40625,
      "learning_rate": 4.042476034730494e-06,
      "loss": 1.10694847,
      "memory(GiB)": 112.26,
      "step": 45985,
      "train_speed(iter/s)": 1.130856
    },
    {
      "acc": 0.73388553,
      "epoch": 1.1666666666666667,
      "grad_norm": 3.796875,
      "learning_rate": 4.041446840381309e-06,
      "loss": 1.09438887,
      "memory(GiB)": 112.26,
      "step": 45990,
      "train_speed(iter/s)": 1.130877
    },
    {
      "acc": 0.75183687,
      "epoch": 1.1667935058346017,
      "grad_norm": 3.75,
      "learning_rate": 4.040417688193569e-06,
      "loss": 1.02003441,
      "memory(GiB)": 112.26,
      "step": 45995,
      "train_speed(iter/s)": 1.130883
    },
    {
      "acc": 0.74187765,
      "epoch": 1.1669203450025367,
      "grad_norm": 3.625,
      "learning_rate": 4.039388578212545e-06,
      "loss": 1.03610268,
      "memory(GiB)": 112.26,
      "step": 46000,
      "train_speed(iter/s)": 1.1309
    },
    {
      "epoch": 1.1669203450025367,
      "eval_acc": 0.7256725911911072,
      "eval_loss": 1.0448243618011475,
      "eval_runtime": 70.8078,
      "eval_samples_per_second": 89.962,
      "eval_steps_per_second": 22.498,
      "step": 46000
    },
    {
      "acc": 0.74240603,
      "epoch": 1.167047184170472,
      "grad_norm": 4.21875,
      "learning_rate": 4.0383595104834975e-06,
      "loss": 1.04547882,
      "memory(GiB)": 112.26,
      "step": 46005,
      "train_speed(iter/s)": 1.127726
    },
    {
      "acc": 0.73969746,
      "epoch": 1.167174023338407,
      "grad_norm": 5.375,
      "learning_rate": 4.037330485051695e-06,
      "loss": 1.06470318,
      "memory(GiB)": 112.26,
      "step": 46010,
      "train_speed(iter/s)": 1.127749
    },
    {
      "acc": 0.73129053,
      "epoch": 1.167300862506342,
      "grad_norm": 3.125,
      "learning_rate": 4.0363015019623955e-06,
      "loss": 1.0979744,
      "memory(GiB)": 112.26,
      "step": 46015,
      "train_speed(iter/s)": 1.127775
    },
    {
      "acc": 0.7551867,
      "epoch": 1.167427701674277,
      "grad_norm": 3.375,
      "learning_rate": 4.0352725612608565e-06,
      "loss": 1.01525412,
      "memory(GiB)": 112.26,
      "step": 46020,
      "train_speed(iter/s)": 1.127797
    },
    {
      "acc": 0.74204316,
      "epoch": 1.167554540842212,
      "grad_norm": 4.28125,
      "learning_rate": 4.0342436629923385e-06,
      "loss": 1.08494673,
      "memory(GiB)": 112.26,
      "step": 46025,
      "train_speed(iter/s)": 1.127818
    },
    {
      "acc": 0.73993382,
      "epoch": 1.167681380010147,
      "grad_norm": 3.71875,
      "learning_rate": 4.033214807202098e-06,
      "loss": 1.05620604,
      "memory(GiB)": 112.26,
      "step": 46030,
      "train_speed(iter/s)": 1.127831
    },
    {
      "acc": 0.73754473,
      "epoch": 1.1678082191780823,
      "grad_norm": 3.875,
      "learning_rate": 4.032185993935385e-06,
      "loss": 1.07547264,
      "memory(GiB)": 112.26,
      "step": 46035,
      "train_speed(iter/s)": 1.127852
    },
    {
      "acc": 0.74571514,
      "epoch": 1.1679350583460173,
      "grad_norm": 3.859375,
      "learning_rate": 4.031157223237452e-06,
      "loss": 0.99415426,
      "memory(GiB)": 112.26,
      "step": 46040,
      "train_speed(iter/s)": 1.127867
    },
    {
      "acc": 0.75384197,
      "epoch": 1.1680618975139523,
      "grad_norm": 3.53125,
      "learning_rate": 4.0301284951535504e-06,
      "loss": 1.009375,
      "memory(GiB)": 112.26,
      "step": 46045,
      "train_speed(iter/s)": 1.127874
    },
    {
      "acc": 0.75420289,
      "epoch": 1.1681887366818873,
      "grad_norm": 3.328125,
      "learning_rate": 4.029099809728929e-06,
      "loss": 1.06052456,
      "memory(GiB)": 112.26,
      "step": 46050,
      "train_speed(iter/s)": 1.127889
    },
    {
      "acc": 0.7440413,
      "epoch": 1.1683155758498225,
      "grad_norm": 4.03125,
      "learning_rate": 4.028071167008831e-06,
      "loss": 1.10757656,
      "memory(GiB)": 112.26,
      "step": 46055,
      "train_speed(iter/s)": 1.12791
    },
    {
      "acc": 0.74208431,
      "epoch": 1.1684424150177575,
      "grad_norm": 4.09375,
      "learning_rate": 4.027042567038503e-06,
      "loss": 1.00526199,
      "memory(GiB)": 112.26,
      "step": 46060,
      "train_speed(iter/s)": 1.127938
    },
    {
      "acc": 0.7393743,
      "epoch": 1.1685692541856925,
      "grad_norm": 3.28125,
      "learning_rate": 4.026014009863186e-06,
      "loss": 1.0918417,
      "memory(GiB)": 112.26,
      "step": 46065,
      "train_speed(iter/s)": 1.127952
    },
    {
      "acc": 0.74163098,
      "epoch": 1.1686960933536277,
      "grad_norm": 3.875,
      "learning_rate": 4.024985495528124e-06,
      "loss": 1.04501009,
      "memory(GiB)": 112.26,
      "step": 46070,
      "train_speed(iter/s)": 1.127964
    },
    {
      "acc": 0.74130282,
      "epoch": 1.1688229325215627,
      "grad_norm": 3.828125,
      "learning_rate": 4.023957024078552e-06,
      "loss": 1.05451317,
      "memory(GiB)": 112.26,
      "step": 46075,
      "train_speed(iter/s)": 1.127976
    },
    {
      "acc": 0.74180708,
      "epoch": 1.1689497716894977,
      "grad_norm": 3.828125,
      "learning_rate": 4.022928595559707e-06,
      "loss": 1.03597755,
      "memory(GiB)": 112.26,
      "step": 46080,
      "train_speed(iter/s)": 1.12799
    },
    {
      "acc": 0.74132767,
      "epoch": 1.1690766108574329,
      "grad_norm": 3.265625,
      "learning_rate": 4.021900210016824e-06,
      "loss": 1.05362825,
      "memory(GiB)": 112.26,
      "step": 46085,
      "train_speed(iter/s)": 1.127989
    },
    {
      "acc": 0.74969606,
      "epoch": 1.1692034500253679,
      "grad_norm": 3.65625,
      "learning_rate": 4.020871867495139e-06,
      "loss": 0.98597469,
      "memory(GiB)": 112.26,
      "step": 46090,
      "train_speed(iter/s)": 1.128008
    },
    {
      "acc": 0.74865952,
      "epoch": 1.1693302891933028,
      "grad_norm": 3.84375,
      "learning_rate": 4.01984356803988e-06,
      "loss": 1.04047976,
      "memory(GiB)": 112.26,
      "step": 46095,
      "train_speed(iter/s)": 1.128024
    },
    {
      "acc": 0.74993811,
      "epoch": 1.169457128361238,
      "grad_norm": 3.296875,
      "learning_rate": 4.018815311696274e-06,
      "loss": 1.05932817,
      "memory(GiB)": 112.26,
      "step": 46100,
      "train_speed(iter/s)": 1.12805
    },
    {
      "acc": 0.72993011,
      "epoch": 1.169583967529173,
      "grad_norm": 4.0625,
      "learning_rate": 4.017787098509555e-06,
      "loss": 1.08970604,
      "memory(GiB)": 112.26,
      "step": 46105,
      "train_speed(iter/s)": 1.128064
    },
    {
      "acc": 0.73218822,
      "epoch": 1.169710806697108,
      "grad_norm": 4.15625,
      "learning_rate": 4.016758928524944e-06,
      "loss": 1.04687977,
      "memory(GiB)": 112.26,
      "step": 46110,
      "train_speed(iter/s)": 1.128077
    },
    {
      "acc": 0.74801455,
      "epoch": 1.169837645865043,
      "grad_norm": 3.90625,
      "learning_rate": 4.015730801787663e-06,
      "loss": 1.00612125,
      "memory(GiB)": 112.26,
      "step": 46115,
      "train_speed(iter/s)": 1.128097
    },
    {
      "acc": 0.73436956,
      "epoch": 1.1699644850329782,
      "grad_norm": 3.515625,
      "learning_rate": 4.014702718342938e-06,
      "loss": 1.08694096,
      "memory(GiB)": 112.26,
      "step": 46120,
      "train_speed(iter/s)": 1.128119
    },
    {
      "acc": 0.7244545,
      "epoch": 1.1700913242009132,
      "grad_norm": 3.359375,
      "learning_rate": 4.013674678235985e-06,
      "loss": 1.09075851,
      "memory(GiB)": 112.26,
      "step": 46125,
      "train_speed(iter/s)": 1.128132
    },
    {
      "acc": 0.73239212,
      "epoch": 1.1702181633688482,
      "grad_norm": 3.421875,
      "learning_rate": 4.012646681512026e-06,
      "loss": 1.04575787,
      "memory(GiB)": 112.26,
      "step": 46130,
      "train_speed(iter/s)": 1.128148
    },
    {
      "acc": 0.73746676,
      "epoch": 1.1703450025367834,
      "grad_norm": 3.703125,
      "learning_rate": 4.011618728216271e-06,
      "loss": 1.10195427,
      "memory(GiB)": 112.26,
      "step": 46135,
      "train_speed(iter/s)": 1.128167
    },
    {
      "acc": 0.73806696,
      "epoch": 1.1704718417047184,
      "grad_norm": 3.859375,
      "learning_rate": 4.010590818393938e-06,
      "loss": 1.08805151,
      "memory(GiB)": 112.26,
      "step": 46140,
      "train_speed(iter/s)": 1.128188
    },
    {
      "acc": 0.75475368,
      "epoch": 1.1705986808726534,
      "grad_norm": 3.90625,
      "learning_rate": 4.009562952090238e-06,
      "loss": 1.03611326,
      "memory(GiB)": 112.26,
      "step": 46145,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.74066205,
      "epoch": 1.1707255200405886,
      "grad_norm": 5.90625,
      "learning_rate": 4.0085351293503825e-06,
      "loss": 1.01822529,
      "memory(GiB)": 112.26,
      "step": 46150,
      "train_speed(iter/s)": 1.128227
    },
    {
      "acc": 0.72790451,
      "epoch": 1.1708523592085236,
      "grad_norm": 3.0,
      "learning_rate": 4.007507350219578e-06,
      "loss": 1.12960129,
      "memory(GiB)": 112.26,
      "step": 46155,
      "train_speed(iter/s)": 1.128241
    },
    {
      "acc": 0.74798574,
      "epoch": 1.1709791983764586,
      "grad_norm": 3.609375,
      "learning_rate": 4.0064796147430305e-06,
      "loss": 1.00617685,
      "memory(GiB)": 112.26,
      "step": 46160,
      "train_speed(iter/s)": 1.128258
    },
    {
      "acc": 0.75220823,
      "epoch": 1.1711060375443938,
      "grad_norm": 3.4375,
      "learning_rate": 4.005451922965946e-06,
      "loss": 1.05594234,
      "memory(GiB)": 112.26,
      "step": 46165,
      "train_speed(iter/s)": 1.128281
    },
    {
      "acc": 0.74303761,
      "epoch": 1.1712328767123288,
      "grad_norm": 3.40625,
      "learning_rate": 4.0044242749335285e-06,
      "loss": 1.04513874,
      "memory(GiB)": 112.26,
      "step": 46170,
      "train_speed(iter/s)": 1.128303
    },
    {
      "acc": 0.73291774,
      "epoch": 1.1713597158802638,
      "grad_norm": 3.921875,
      "learning_rate": 4.0033966706909735e-06,
      "loss": 1.13006573,
      "memory(GiB)": 112.26,
      "step": 46175,
      "train_speed(iter/s)": 1.12832
    },
    {
      "acc": 0.74206896,
      "epoch": 1.1714865550481988,
      "grad_norm": 3.4375,
      "learning_rate": 4.002369110283482e-06,
      "loss": 1.0304533,
      "memory(GiB)": 112.26,
      "step": 46180,
      "train_speed(iter/s)": 1.128319
    },
    {
      "acc": 0.72218351,
      "epoch": 1.171613394216134,
      "grad_norm": 3.40625,
      "learning_rate": 4.001341593756253e-06,
      "loss": 1.07949286,
      "memory(GiB)": 112.26,
      "step": 46185,
      "train_speed(iter/s)": 1.128337
    },
    {
      "acc": 0.74260821,
      "epoch": 1.171740233384069,
      "grad_norm": 4.78125,
      "learning_rate": 4.00031412115448e-06,
      "loss": 1.08024492,
      "memory(GiB)": 112.26,
      "step": 46190,
      "train_speed(iter/s)": 1.128357
    },
    {
      "acc": 0.74620409,
      "epoch": 1.1718670725520042,
      "grad_norm": 3.890625,
      "learning_rate": 3.999286692523352e-06,
      "loss": 0.98464785,
      "memory(GiB)": 112.26,
      "step": 46195,
      "train_speed(iter/s)": 1.128384
    },
    {
      "acc": 0.75177784,
      "epoch": 1.1719939117199392,
      "grad_norm": 3.28125,
      "learning_rate": 3.998259307908065e-06,
      "loss": 1.00511885,
      "memory(GiB)": 112.26,
      "step": 46200,
      "train_speed(iter/s)": 1.128404
    },
    {
      "acc": 0.73418694,
      "epoch": 1.1721207508878742,
      "grad_norm": 4.34375,
      "learning_rate": 3.997231967353806e-06,
      "loss": 1.04756613,
      "memory(GiB)": 112.26,
      "step": 46205,
      "train_speed(iter/s)": 1.128432
    },
    {
      "acc": 0.75002398,
      "epoch": 1.1722475900558091,
      "grad_norm": 3.328125,
      "learning_rate": 3.996204670905765e-06,
      "loss": 1.03808422,
      "memory(GiB)": 112.26,
      "step": 46210,
      "train_speed(iter/s)": 1.128452
    },
    {
      "acc": 0.75030069,
      "epoch": 1.1723744292237444,
      "grad_norm": 3.609375,
      "learning_rate": 3.9951774186091195e-06,
      "loss": 1.04773521,
      "memory(GiB)": 112.26,
      "step": 46215,
      "train_speed(iter/s)": 1.128477
    },
    {
      "acc": 0.76279402,
      "epoch": 1.1725012683916793,
      "grad_norm": 4.4375,
      "learning_rate": 3.9941502105090594e-06,
      "loss": 1.0177866,
      "memory(GiB)": 112.26,
      "step": 46220,
      "train_speed(iter/s)": 1.128488
    },
    {
      "acc": 0.75594006,
      "epoch": 1.1726281075596143,
      "grad_norm": 3.65625,
      "learning_rate": 3.9931230466507634e-06,
      "loss": 0.98161621,
      "memory(GiB)": 112.26,
      "step": 46225,
      "train_speed(iter/s)": 1.128499
    },
    {
      "acc": 0.74399176,
      "epoch": 1.1727549467275495,
      "grad_norm": 3.453125,
      "learning_rate": 3.992095927079412e-06,
      "loss": 1.1067627,
      "memory(GiB)": 112.26,
      "step": 46230,
      "train_speed(iter/s)": 1.128518
    },
    {
      "acc": 0.74798622,
      "epoch": 1.1728817858954845,
      "grad_norm": 4.28125,
      "learning_rate": 3.991068851840182e-06,
      "loss": 1.01279497,
      "memory(GiB)": 112.26,
      "step": 46235,
      "train_speed(iter/s)": 1.128538
    },
    {
      "acc": 0.75792732,
      "epoch": 1.1730086250634195,
      "grad_norm": 3.953125,
      "learning_rate": 3.990041820978246e-06,
      "loss": 0.97396832,
      "memory(GiB)": 112.26,
      "step": 46240,
      "train_speed(iter/s)": 1.128549
    },
    {
      "acc": 0.75392966,
      "epoch": 1.1731354642313547,
      "grad_norm": 4.125,
      "learning_rate": 3.989014834538782e-06,
      "loss": 1.01060505,
      "memory(GiB)": 112.26,
      "step": 46245,
      "train_speed(iter/s)": 1.128559
    },
    {
      "acc": 0.75305328,
      "epoch": 1.1732623033992897,
      "grad_norm": 4.5,
      "learning_rate": 3.987987892566959e-06,
      "loss": 1.00137682,
      "memory(GiB)": 112.26,
      "step": 46250,
      "train_speed(iter/s)": 1.128575
    },
    {
      "acc": 0.75492926,
      "epoch": 1.1733891425672247,
      "grad_norm": 3.203125,
      "learning_rate": 3.986960995107948e-06,
      "loss": 1.03701649,
      "memory(GiB)": 112.26,
      "step": 46255,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.75225954,
      "epoch": 1.17351598173516,
      "grad_norm": 3.4375,
      "learning_rate": 3.985934142206912e-06,
      "loss": 1.02458801,
      "memory(GiB)": 112.26,
      "step": 46260,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.74801664,
      "epoch": 1.173642820903095,
      "grad_norm": 3.453125,
      "learning_rate": 3.984907333909022e-06,
      "loss": 1.06101913,
      "memory(GiB)": 112.26,
      "step": 46265,
      "train_speed(iter/s)": 1.128609
    },
    {
      "acc": 0.73452034,
      "epoch": 1.17376966007103,
      "grad_norm": 4.1875,
      "learning_rate": 3.983880570259441e-06,
      "loss": 1.07531118,
      "memory(GiB)": 112.26,
      "step": 46270,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.74106965,
      "epoch": 1.1738964992389649,
      "grad_norm": 3.671875,
      "learning_rate": 3.982853851303327e-06,
      "loss": 1.04799709,
      "memory(GiB)": 112.26,
      "step": 46275,
      "train_speed(iter/s)": 1.128632
    },
    {
      "acc": 0.73062983,
      "epoch": 1.1740233384069,
      "grad_norm": 4.3125,
      "learning_rate": 3.981827177085842e-06,
      "loss": 1.09607668,
      "memory(GiB)": 112.26,
      "step": 46280,
      "train_speed(iter/s)": 1.128641
    },
    {
      "acc": 0.74513197,
      "epoch": 1.174150177574835,
      "grad_norm": 4.0,
      "learning_rate": 3.980800547652143e-06,
      "loss": 1.0508913,
      "memory(GiB)": 112.26,
      "step": 46285,
      "train_speed(iter/s)": 1.128668
    },
    {
      "acc": 0.72241273,
      "epoch": 1.17427701674277,
      "grad_norm": 3.46875,
      "learning_rate": 3.979773963047388e-06,
      "loss": 1.16337109,
      "memory(GiB)": 112.26,
      "step": 46290,
      "train_speed(iter/s)": 1.128696
    },
    {
      "acc": 0.73907042,
      "epoch": 1.1744038559107053,
      "grad_norm": 3.546875,
      "learning_rate": 3.978747423316729e-06,
      "loss": 1.03379421,
      "memory(GiB)": 112.26,
      "step": 46295,
      "train_speed(iter/s)": 1.12871
    },
    {
      "acc": 0.7334178,
      "epoch": 1.1745306950786403,
      "grad_norm": 3.28125,
      "learning_rate": 3.977720928505317e-06,
      "loss": 1.11975117,
      "memory(GiB)": 112.26,
      "step": 46300,
      "train_speed(iter/s)": 1.12873
    },
    {
      "acc": 0.73691072,
      "epoch": 1.1746575342465753,
      "grad_norm": 4.6875,
      "learning_rate": 3.976694478658301e-06,
      "loss": 1.10942554,
      "memory(GiB)": 112.26,
      "step": 46305,
      "train_speed(iter/s)": 1.128737
    },
    {
      "acc": 0.74257908,
      "epoch": 1.1747843734145105,
      "grad_norm": 3.671875,
      "learning_rate": 3.975668073820834e-06,
      "loss": 1.01657982,
      "memory(GiB)": 112.26,
      "step": 46310,
      "train_speed(iter/s)": 1.128755
    },
    {
      "acc": 0.76799984,
      "epoch": 1.1749112125824455,
      "grad_norm": 4.40625,
      "learning_rate": 3.9746417140380576e-06,
      "loss": 0.96226664,
      "memory(GiB)": 112.26,
      "step": 46315,
      "train_speed(iter/s)": 1.128778
    },
    {
      "acc": 0.73531246,
      "epoch": 1.1750380517503805,
      "grad_norm": 4.3125,
      "learning_rate": 3.973615399355114e-06,
      "loss": 1.0726923,
      "memory(GiB)": 112.26,
      "step": 46320,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.74003448,
      "epoch": 1.1751648909183157,
      "grad_norm": 3.515625,
      "learning_rate": 3.97258912981715e-06,
      "loss": 1.10819016,
      "memory(GiB)": 112.26,
      "step": 46325,
      "train_speed(iter/s)": 1.128797
    },
    {
      "acc": 0.74565468,
      "epoch": 1.1752917300862507,
      "grad_norm": 3.828125,
      "learning_rate": 3.9715629054693035e-06,
      "loss": 1.03368568,
      "memory(GiB)": 112.26,
      "step": 46330,
      "train_speed(iter/s)": 1.128818
    },
    {
      "acc": 0.74819193,
      "epoch": 1.1754185692541856,
      "grad_norm": 3.796875,
      "learning_rate": 3.970536726356711e-06,
      "loss": 1.03699684,
      "memory(GiB)": 112.26,
      "step": 46335,
      "train_speed(iter/s)": 1.128837
    },
    {
      "acc": 0.74015751,
      "epoch": 1.1755454084221206,
      "grad_norm": 3.421875,
      "learning_rate": 3.969510592524509e-06,
      "loss": 1.07250147,
      "memory(GiB)": 112.26,
      "step": 46340,
      "train_speed(iter/s)": 1.128853
    },
    {
      "acc": 0.7425621,
      "epoch": 1.1756722475900558,
      "grad_norm": 3.25,
      "learning_rate": 3.968484504017833e-06,
      "loss": 1.08596916,
      "memory(GiB)": 112.26,
      "step": 46345,
      "train_speed(iter/s)": 1.128861
    },
    {
      "acc": 0.7516223,
      "epoch": 1.1757990867579908,
      "grad_norm": 4.59375,
      "learning_rate": 3.967458460881815e-06,
      "loss": 0.9895256,
      "memory(GiB)": 112.26,
      "step": 46350,
      "train_speed(iter/s)": 1.12888
    },
    {
      "acc": 0.75014067,
      "epoch": 1.175925925925926,
      "grad_norm": 3.546875,
      "learning_rate": 3.96643246316158e-06,
      "loss": 1.02531118,
      "memory(GiB)": 112.26,
      "step": 46355,
      "train_speed(iter/s)": 1.128891
    },
    {
      "acc": 0.74926195,
      "epoch": 1.176052765093861,
      "grad_norm": 3.265625,
      "learning_rate": 3.965406510902263e-06,
      "loss": 1.00477295,
      "memory(GiB)": 112.26,
      "step": 46360,
      "train_speed(iter/s)": 1.128899
    },
    {
      "acc": 0.75327225,
      "epoch": 1.176179604261796,
      "grad_norm": 4.4375,
      "learning_rate": 3.9643806041489855e-06,
      "loss": 1.02386465,
      "memory(GiB)": 112.26,
      "step": 46365,
      "train_speed(iter/s)": 1.128917
    },
    {
      "acc": 0.73517303,
      "epoch": 1.176306443429731,
      "grad_norm": 3.796875,
      "learning_rate": 3.963354742946874e-06,
      "loss": 1.05485315,
      "memory(GiB)": 112.26,
      "step": 46370,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.73578053,
      "epoch": 1.1764332825976662,
      "grad_norm": 3.0,
      "learning_rate": 3.962328927341048e-06,
      "loss": 1.08368826,
      "memory(GiB)": 112.26,
      "step": 46375,
      "train_speed(iter/s)": 1.128947
    },
    {
      "acc": 0.75658007,
      "epoch": 1.1765601217656012,
      "grad_norm": 4.25,
      "learning_rate": 3.961303157376628e-06,
      "loss": 1.00850544,
      "memory(GiB)": 112.26,
      "step": 46380,
      "train_speed(iter/s)": 1.128974
    },
    {
      "acc": 0.74505315,
      "epoch": 1.1766869609335362,
      "grad_norm": 5.1875,
      "learning_rate": 3.960277433098734e-06,
      "loss": 1.02486677,
      "memory(GiB)": 112.26,
      "step": 46385,
      "train_speed(iter/s)": 1.129004
    },
    {
      "acc": 0.73202415,
      "epoch": 1.1768138001014714,
      "grad_norm": 4.28125,
      "learning_rate": 3.959251754552481e-06,
      "loss": 1.11595688,
      "memory(GiB)": 112.26,
      "step": 46390,
      "train_speed(iter/s)": 1.129024
    },
    {
      "acc": 0.72577324,
      "epoch": 1.1769406392694064,
      "grad_norm": 3.125,
      "learning_rate": 3.958226121782982e-06,
      "loss": 1.09547768,
      "memory(GiB)": 112.26,
      "step": 46395,
      "train_speed(iter/s)": 1.129042
    },
    {
      "acc": 0.73962936,
      "epoch": 1.1770674784373414,
      "grad_norm": 3.90625,
      "learning_rate": 3.9572005348353486e-06,
      "loss": 1.03097353,
      "memory(GiB)": 112.26,
      "step": 46400,
      "train_speed(iter/s)": 1.129039
    },
    {
      "acc": 0.7266046,
      "epoch": 1.1771943176052766,
      "grad_norm": 4.59375,
      "learning_rate": 3.956174993754691e-06,
      "loss": 1.07889061,
      "memory(GiB)": 112.26,
      "step": 46405,
      "train_speed(iter/s)": 1.129068
    },
    {
      "acc": 0.76490364,
      "epoch": 1.1773211567732116,
      "grad_norm": 3.09375,
      "learning_rate": 3.955149498586119e-06,
      "loss": 0.94351139,
      "memory(GiB)": 112.26,
      "step": 46410,
      "train_speed(iter/s)": 1.129085
    },
    {
      "acc": 0.7362102,
      "epoch": 1.1774479959411466,
      "grad_norm": 4.96875,
      "learning_rate": 3.954124049374736e-06,
      "loss": 1.0739089,
      "memory(GiB)": 112.26,
      "step": 46415,
      "train_speed(iter/s)": 1.129107
    },
    {
      "acc": 0.74601727,
      "epoch": 1.1775748351090818,
      "grad_norm": 3.140625,
      "learning_rate": 3.9530986461656465e-06,
      "loss": 1.03379211,
      "memory(GiB)": 112.26,
      "step": 46420,
      "train_speed(iter/s)": 1.129111
    },
    {
      "acc": 0.74120474,
      "epoch": 1.1777016742770168,
      "grad_norm": 3.859375,
      "learning_rate": 3.952073289003953e-06,
      "loss": 1.04682093,
      "memory(GiB)": 112.26,
      "step": 46425,
      "train_speed(iter/s)": 1.129121
    },
    {
      "acc": 0.75321999,
      "epoch": 1.1778285134449518,
      "grad_norm": 3.796875,
      "learning_rate": 3.9510479779347566e-06,
      "loss": 0.9629961,
      "memory(GiB)": 112.26,
      "step": 46430,
      "train_speed(iter/s)": 1.129142
    },
    {
      "acc": 0.7420188,
      "epoch": 1.1779553526128868,
      "grad_norm": 3.90625,
      "learning_rate": 3.950022713003151e-06,
      "loss": 1.06784611,
      "memory(GiB)": 112.26,
      "step": 46435,
      "train_speed(iter/s)": 1.129167
    },
    {
      "acc": 0.73411827,
      "epoch": 1.178082191780822,
      "grad_norm": 3.71875,
      "learning_rate": 3.9489974942542355e-06,
      "loss": 1.05701504,
      "memory(GiB)": 112.26,
      "step": 46440,
      "train_speed(iter/s)": 1.129186
    },
    {
      "acc": 0.73913617,
      "epoch": 1.178209030948757,
      "grad_norm": 3.84375,
      "learning_rate": 3.947972321733101e-06,
      "loss": 1.06061344,
      "memory(GiB)": 112.26,
      "step": 46445,
      "train_speed(iter/s)": 1.129197
    },
    {
      "acc": 0.74237323,
      "epoch": 1.178335870116692,
      "grad_norm": 3.296875,
      "learning_rate": 3.946947195484843e-06,
      "loss": 1.04525166,
      "memory(GiB)": 112.26,
      "step": 46450,
      "train_speed(iter/s)": 1.12922
    },
    {
      "acc": 0.73882456,
      "epoch": 1.1784627092846272,
      "grad_norm": 3.921875,
      "learning_rate": 3.945922115554548e-06,
      "loss": 1.06987553,
      "memory(GiB)": 112.26,
      "step": 46455,
      "train_speed(iter/s)": 1.129237
    },
    {
      "acc": 0.7484848,
      "epoch": 1.1785895484525621,
      "grad_norm": 3.171875,
      "learning_rate": 3.944897081987303e-06,
      "loss": 1.09212818,
      "memory(GiB)": 112.26,
      "step": 46460,
      "train_speed(iter/s)": 1.129261
    },
    {
      "acc": 0.73823023,
      "epoch": 1.1787163876204971,
      "grad_norm": 4.9375,
      "learning_rate": 3.943872094828197e-06,
      "loss": 1.08279591,
      "memory(GiB)": 112.26,
      "step": 46465,
      "train_speed(iter/s)": 1.129281
    },
    {
      "acc": 0.75386143,
      "epoch": 1.1788432267884323,
      "grad_norm": 3.359375,
      "learning_rate": 3.942847154122312e-06,
      "loss": 0.99464169,
      "memory(GiB)": 112.26,
      "step": 46470,
      "train_speed(iter/s)": 1.129302
    },
    {
      "acc": 0.75092926,
      "epoch": 1.1789700659563673,
      "grad_norm": 3.96875,
      "learning_rate": 3.941822259914728e-06,
      "loss": 1.00272961,
      "memory(GiB)": 112.26,
      "step": 46475,
      "train_speed(iter/s)": 1.129324
    },
    {
      "acc": 0.74773045,
      "epoch": 1.1790969051243023,
      "grad_norm": 3.15625,
      "learning_rate": 3.940797412250524e-06,
      "loss": 1.05479689,
      "memory(GiB)": 112.26,
      "step": 46480,
      "train_speed(iter/s)": 1.129345
    },
    {
      "acc": 0.74633522,
      "epoch": 1.1792237442922375,
      "grad_norm": 3.03125,
      "learning_rate": 3.93977261117478e-06,
      "loss": 1.06084299,
      "memory(GiB)": 112.26,
      "step": 46485,
      "train_speed(iter/s)": 1.129368
    },
    {
      "acc": 0.7335772,
      "epoch": 1.1793505834601725,
      "grad_norm": 3.40625,
      "learning_rate": 3.938747856732572e-06,
      "loss": 1.0574688,
      "memory(GiB)": 112.26,
      "step": 46490,
      "train_speed(iter/s)": 1.129386
    },
    {
      "acc": 0.74975982,
      "epoch": 1.1794774226281075,
      "grad_norm": 3.703125,
      "learning_rate": 3.9377231489689685e-06,
      "loss": 1.10153894,
      "memory(GiB)": 112.26,
      "step": 46495,
      "train_speed(iter/s)": 1.129403
    },
    {
      "acc": 0.73695164,
      "epoch": 1.1796042617960425,
      "grad_norm": 3.625,
      "learning_rate": 3.936698487929045e-06,
      "loss": 1.06450329,
      "memory(GiB)": 112.26,
      "step": 46500,
      "train_speed(iter/s)": 1.129421
    },
    {
      "acc": 0.75286198,
      "epoch": 1.1797311009639777,
      "grad_norm": 3.3125,
      "learning_rate": 3.935673873657868e-06,
      "loss": 1.01871719,
      "memory(GiB)": 112.26,
      "step": 46505,
      "train_speed(iter/s)": 1.129436
    },
    {
      "acc": 0.7389678,
      "epoch": 1.1798579401319127,
      "grad_norm": 4.375,
      "learning_rate": 3.934649306200508e-06,
      "loss": 1.09867344,
      "memory(GiB)": 112.26,
      "step": 46510,
      "train_speed(iter/s)": 1.129445
    },
    {
      "acc": 0.74555449,
      "epoch": 1.179984779299848,
      "grad_norm": 3.703125,
      "learning_rate": 3.933624785602027e-06,
      "loss": 1.0383194,
      "memory(GiB)": 112.26,
      "step": 46515,
      "train_speed(iter/s)": 1.129462
    },
    {
      "acc": 0.7353178,
      "epoch": 1.180111618467783,
      "grad_norm": 3.34375,
      "learning_rate": 3.932600311907489e-06,
      "loss": 1.04605694,
      "memory(GiB)": 112.26,
      "step": 46520,
      "train_speed(iter/s)": 1.12949
    },
    {
      "acc": 0.73527131,
      "epoch": 1.1802384576357179,
      "grad_norm": 3.203125,
      "learning_rate": 3.931575885161955e-06,
      "loss": 1.09353943,
      "memory(GiB)": 112.26,
      "step": 46525,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.73764391,
      "epoch": 1.1803652968036529,
      "grad_norm": 3.5625,
      "learning_rate": 3.930551505410484e-06,
      "loss": 1.04439783,
      "memory(GiB)": 112.26,
      "step": 46530,
      "train_speed(iter/s)": 1.129516
    },
    {
      "acc": 0.73776531,
      "epoch": 1.180492135971588,
      "grad_norm": 3.5625,
      "learning_rate": 3.929527172698132e-06,
      "loss": 1.0577898,
      "memory(GiB)": 112.26,
      "step": 46535,
      "train_speed(iter/s)": 1.12954
    },
    {
      "acc": 0.73451653,
      "epoch": 1.180618975139523,
      "grad_norm": 3.328125,
      "learning_rate": 3.928502887069954e-06,
      "loss": 1.07414169,
      "memory(GiB)": 112.26,
      "step": 46540,
      "train_speed(iter/s)": 1.12955
    },
    {
      "acc": 0.75658798,
      "epoch": 1.180745814307458,
      "grad_norm": 4.28125,
      "learning_rate": 3.927478648571003e-06,
      "loss": 0.96512642,
      "memory(GiB)": 112.26,
      "step": 46545,
      "train_speed(iter/s)": 1.129553
    },
    {
      "acc": 0.74121366,
      "epoch": 1.1808726534753933,
      "grad_norm": 4.25,
      "learning_rate": 3.926454457246331e-06,
      "loss": 1.04630604,
      "memory(GiB)": 112.26,
      "step": 46550,
      "train_speed(iter/s)": 1.12956
    },
    {
      "acc": 0.73590899,
      "epoch": 1.1809994926433283,
      "grad_norm": 3.984375,
      "learning_rate": 3.9254303131409834e-06,
      "loss": 1.07061424,
      "memory(GiB)": 112.26,
      "step": 46555,
      "train_speed(iter/s)": 1.129582
    },
    {
      "acc": 0.74949512,
      "epoch": 1.1811263318112633,
      "grad_norm": 4.15625,
      "learning_rate": 3.924406216300009e-06,
      "loss": 1.01850166,
      "memory(GiB)": 112.26,
      "step": 46560,
      "train_speed(iter/s)": 1.129603
    },
    {
      "acc": 0.75234537,
      "epoch": 1.1812531709791985,
      "grad_norm": 3.421875,
      "learning_rate": 3.92338216676845e-06,
      "loss": 1.02484951,
      "memory(GiB)": 112.26,
      "step": 46565,
      "train_speed(iter/s)": 1.129603
    },
    {
      "acc": 0.73681469,
      "epoch": 1.1813800101471335,
      "grad_norm": 4.09375,
      "learning_rate": 3.922358164591353e-06,
      "loss": 1.09494638,
      "memory(GiB)": 112.26,
      "step": 46570,
      "train_speed(iter/s)": 1.129619
    },
    {
      "acc": 0.7430687,
      "epoch": 1.1815068493150684,
      "grad_norm": 3.359375,
      "learning_rate": 3.921334209813752e-06,
      "loss": 1.08394938,
      "memory(GiB)": 112.26,
      "step": 46575,
      "train_speed(iter/s)": 1.129633
    },
    {
      "acc": 0.73271565,
      "epoch": 1.1816336884830037,
      "grad_norm": 3.4375,
      "learning_rate": 3.92031030248069e-06,
      "loss": 1.09019766,
      "memory(GiB)": 112.26,
      "step": 46580,
      "train_speed(iter/s)": 1.129643
    },
    {
      "acc": 0.73348513,
      "epoch": 1.1817605276509386,
      "grad_norm": 3.53125,
      "learning_rate": 3.9192864426372e-06,
      "loss": 1.11218643,
      "memory(GiB)": 112.26,
      "step": 46585,
      "train_speed(iter/s)": 1.129668
    },
    {
      "acc": 0.75538993,
      "epoch": 1.1818873668188736,
      "grad_norm": 3.5625,
      "learning_rate": 3.918262630328319e-06,
      "loss": 1.01455269,
      "memory(GiB)": 112.26,
      "step": 46590,
      "train_speed(iter/s)": 1.129683
    },
    {
      "acc": 0.7432622,
      "epoch": 1.1820142059868086,
      "grad_norm": 3.171875,
      "learning_rate": 3.917238865599077e-06,
      "loss": 1.05980053,
      "memory(GiB)": 112.26,
      "step": 46595,
      "train_speed(iter/s)": 1.129697
    },
    {
      "acc": 0.75996103,
      "epoch": 1.1821410451547438,
      "grad_norm": 3.3125,
      "learning_rate": 3.916215148494502e-06,
      "loss": 0.98259592,
      "memory(GiB)": 112.26,
      "step": 46600,
      "train_speed(iter/s)": 1.129703
    },
    {
      "acc": 0.72546568,
      "epoch": 1.1822678843226788,
      "grad_norm": 4.46875,
      "learning_rate": 3.9151914790596255e-06,
      "loss": 1.10579796,
      "memory(GiB)": 112.26,
      "step": 46605,
      "train_speed(iter/s)": 1.129726
    },
    {
      "acc": 0.74249439,
      "epoch": 1.1823947234906138,
      "grad_norm": 4.21875,
      "learning_rate": 3.914167857339472e-06,
      "loss": 1.04928322,
      "memory(GiB)": 112.26,
      "step": 46610,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.73469391,
      "epoch": 1.182521562658549,
      "grad_norm": 3.8125,
      "learning_rate": 3.913144283379061e-06,
      "loss": 1.07657614,
      "memory(GiB)": 112.26,
      "step": 46615,
      "train_speed(iter/s)": 1.129762
    },
    {
      "acc": 0.73505363,
      "epoch": 1.182648401826484,
      "grad_norm": 4.1875,
      "learning_rate": 3.912120757223418e-06,
      "loss": 1.12396221,
      "memory(GiB)": 112.26,
      "step": 46620,
      "train_speed(iter/s)": 1.129773
    },
    {
      "acc": 0.74487224,
      "epoch": 1.182775240994419,
      "grad_norm": 4.3125,
      "learning_rate": 3.911097278917561e-06,
      "loss": 1.08679581,
      "memory(GiB)": 112.26,
      "step": 46625,
      "train_speed(iter/s)": 1.129793
    },
    {
      "acc": 0.74705153,
      "epoch": 1.1829020801623542,
      "grad_norm": 3.59375,
      "learning_rate": 3.91007384850651e-06,
      "loss": 1.03375301,
      "memory(GiB)": 112.26,
      "step": 46630,
      "train_speed(iter/s)": 1.129778
    },
    {
      "acc": 0.7515481,
      "epoch": 1.1830289193302892,
      "grad_norm": 3.1875,
      "learning_rate": 3.909050466035274e-06,
      "loss": 0.98250198,
      "memory(GiB)": 112.26,
      "step": 46635,
      "train_speed(iter/s)": 1.129797
    },
    {
      "acc": 0.74544601,
      "epoch": 1.1831557584982242,
      "grad_norm": 4.40625,
      "learning_rate": 3.90802713154887e-06,
      "loss": 1.05856333,
      "memory(GiB)": 112.26,
      "step": 46640,
      "train_speed(iter/s)": 1.129815
    },
    {
      "acc": 0.7560915,
      "epoch": 1.1832825976661594,
      "grad_norm": 3.578125,
      "learning_rate": 3.9070038450923074e-06,
      "loss": 0.9693882,
      "memory(GiB)": 112.26,
      "step": 46645,
      "train_speed(iter/s)": 1.12983
    },
    {
      "acc": 0.72800546,
      "epoch": 1.1834094368340944,
      "grad_norm": 4.21875,
      "learning_rate": 3.9059806067105985e-06,
      "loss": 1.08779545,
      "memory(GiB)": 112.26,
      "step": 46650,
      "train_speed(iter/s)": 1.12985
    },
    {
      "acc": 0.73737826,
      "epoch": 1.1835362760020294,
      "grad_norm": 4.34375,
      "learning_rate": 3.904957416448744e-06,
      "loss": 1.0799757,
      "memory(GiB)": 112.26,
      "step": 46655,
      "train_speed(iter/s)": 1.129876
    },
    {
      "acc": 0.75286674,
      "epoch": 1.1836631151699644,
      "grad_norm": 4.1875,
      "learning_rate": 3.903934274351753e-06,
      "loss": 1.02264585,
      "memory(GiB)": 112.26,
      "step": 46660,
      "train_speed(iter/s)": 1.129897
    },
    {
      "acc": 0.74428616,
      "epoch": 1.1837899543378996,
      "grad_norm": 3.734375,
      "learning_rate": 3.9029111804646245e-06,
      "loss": 1.04664326,
      "memory(GiB)": 112.26,
      "step": 46665,
      "train_speed(iter/s)": 1.129909
    },
    {
      "acc": 0.74355278,
      "epoch": 1.1839167935058346,
      "grad_norm": 3.890625,
      "learning_rate": 3.9018881348323626e-06,
      "loss": 1.04985743,
      "memory(GiB)": 112.26,
      "step": 46670,
      "train_speed(iter/s)": 1.129936
    },
    {
      "acc": 0.75164051,
      "epoch": 1.1840436326737698,
      "grad_norm": 3.109375,
      "learning_rate": 3.9008651374999615e-06,
      "loss": 1.02672358,
      "memory(GiB)": 112.26,
      "step": 46675,
      "train_speed(iter/s)": 1.129953
    },
    {
      "acc": 0.74714732,
      "epoch": 1.1841704718417048,
      "grad_norm": 3.40625,
      "learning_rate": 3.899842188512419e-06,
      "loss": 1.03253088,
      "memory(GiB)": 112.26,
      "step": 46680,
      "train_speed(iter/s)": 1.129967
    },
    {
      "acc": 0.74361706,
      "epoch": 1.1842973110096398,
      "grad_norm": 2.9375,
      "learning_rate": 3.898819287914729e-06,
      "loss": 1.00114117,
      "memory(GiB)": 112.26,
      "step": 46685,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.7322813,
      "epoch": 1.1844241501775747,
      "grad_norm": 3.984375,
      "learning_rate": 3.897796435751885e-06,
      "loss": 1.07477713,
      "memory(GiB)": 112.26,
      "step": 46690,
      "train_speed(iter/s)": 1.130002
    },
    {
      "acc": 0.72367334,
      "epoch": 1.18455098934551,
      "grad_norm": 3.9375,
      "learning_rate": 3.896773632068873e-06,
      "loss": 1.11356688,
      "memory(GiB)": 112.26,
      "step": 46695,
      "train_speed(iter/s)": 1.13001
    },
    {
      "acc": 0.73128939,
      "epoch": 1.184677828513445,
      "grad_norm": 3.734375,
      "learning_rate": 3.8957508769106825e-06,
      "loss": 1.07814808,
      "memory(GiB)": 112.26,
      "step": 46700,
      "train_speed(iter/s)": 1.13003
    },
    {
      "acc": 0.73728657,
      "epoch": 1.18480466768138,
      "grad_norm": 3.140625,
      "learning_rate": 3.894728170322298e-06,
      "loss": 1.09014416,
      "memory(GiB)": 112.26,
      "step": 46705,
      "train_speed(iter/s)": 1.130047
    },
    {
      "acc": 0.75597649,
      "epoch": 1.1849315068493151,
      "grad_norm": 3.484375,
      "learning_rate": 3.893705512348705e-06,
      "loss": 0.99222898,
      "memory(GiB)": 112.26,
      "step": 46710,
      "train_speed(iter/s)": 1.130063
    },
    {
      "acc": 0.74989014,
      "epoch": 1.1850583460172501,
      "grad_norm": 3.171875,
      "learning_rate": 3.89268290303488e-06,
      "loss": 1.07054234,
      "memory(GiB)": 112.26,
      "step": 46715,
      "train_speed(iter/s)": 1.130061
    },
    {
      "acc": 0.75033121,
      "epoch": 1.1851851851851851,
      "grad_norm": 3.3125,
      "learning_rate": 3.891660342425807e-06,
      "loss": 0.98361683,
      "memory(GiB)": 112.26,
      "step": 46720,
      "train_speed(iter/s)": 1.130079
    },
    {
      "acc": 0.75612769,
      "epoch": 1.1853120243531203,
      "grad_norm": 4.34375,
      "learning_rate": 3.890637830566459e-06,
      "loss": 0.99043026,
      "memory(GiB)": 112.26,
      "step": 46725,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.74193311,
      "epoch": 1.1854388635210553,
      "grad_norm": 4.84375,
      "learning_rate": 3.889615367501815e-06,
      "loss": 1.08128119,
      "memory(GiB)": 112.26,
      "step": 46730,
      "train_speed(iter/s)": 1.130098
    },
    {
      "acc": 0.74410019,
      "epoch": 1.1855657026889903,
      "grad_norm": 3.03125,
      "learning_rate": 3.888592953276842e-06,
      "loss": 1.05074778,
      "memory(GiB)": 112.26,
      "step": 46735,
      "train_speed(iter/s)": 1.130109
    },
    {
      "acc": 0.75486889,
      "epoch": 1.1856925418569255,
      "grad_norm": 3.265625,
      "learning_rate": 3.8875705879365135e-06,
      "loss": 0.96388741,
      "memory(GiB)": 112.26,
      "step": 46740,
      "train_speed(iter/s)": 1.130123
    },
    {
      "acc": 0.7487556,
      "epoch": 1.1858193810248605,
      "grad_norm": 3.96875,
      "learning_rate": 3.886548271525797e-06,
      "loss": 1.01827269,
      "memory(GiB)": 112.26,
      "step": 46745,
      "train_speed(iter/s)": 1.130143
    },
    {
      "acc": 0.75427303,
      "epoch": 1.1859462201927955,
      "grad_norm": 4.0625,
      "learning_rate": 3.88552600408966e-06,
      "loss": 0.9939621,
      "memory(GiB)": 112.26,
      "step": 46750,
      "train_speed(iter/s)": 1.130168
    },
    {
      "acc": 0.73194866,
      "epoch": 1.1860730593607305,
      "grad_norm": 4.03125,
      "learning_rate": 3.8845037856730646e-06,
      "loss": 1.10807171,
      "memory(GiB)": 112.26,
      "step": 46755,
      "train_speed(iter/s)": 1.130187
    },
    {
      "acc": 0.74335299,
      "epoch": 1.1861998985286657,
      "grad_norm": 3.578125,
      "learning_rate": 3.883481616320972e-06,
      "loss": 1.08635788,
      "memory(GiB)": 112.26,
      "step": 46760,
      "train_speed(iter/s)": 1.13021
    },
    {
      "acc": 0.75050302,
      "epoch": 1.1863267376966007,
      "grad_norm": 3.765625,
      "learning_rate": 3.882459496078343e-06,
      "loss": 1.04966831,
      "memory(GiB)": 112.26,
      "step": 46765,
      "train_speed(iter/s)": 1.13023
    },
    {
      "acc": 0.73977189,
      "epoch": 1.1864535768645357,
      "grad_norm": 4.65625,
      "learning_rate": 3.881437424990137e-06,
      "loss": 1.01836576,
      "memory(GiB)": 112.26,
      "step": 46770,
      "train_speed(iter/s)": 1.130243
    },
    {
      "acc": 0.74032412,
      "epoch": 1.1865804160324709,
      "grad_norm": 3.828125,
      "learning_rate": 3.880415403101304e-06,
      "loss": 1.06521368,
      "memory(GiB)": 112.26,
      "step": 46775,
      "train_speed(iter/s)": 1.130267
    },
    {
      "acc": 0.75291119,
      "epoch": 1.1867072552004059,
      "grad_norm": 3.640625,
      "learning_rate": 3.879393430456801e-06,
      "loss": 0.98289022,
      "memory(GiB)": 112.26,
      "step": 46780,
      "train_speed(iter/s)": 1.130272
    },
    {
      "acc": 0.73377156,
      "epoch": 1.1868340943683409,
      "grad_norm": 3.53125,
      "learning_rate": 3.87837150710158e-06,
      "loss": 1.09181261,
      "memory(GiB)": 112.26,
      "step": 46785,
      "train_speed(iter/s)": 1.130297
    },
    {
      "acc": 0.74975061,
      "epoch": 1.186960933536276,
      "grad_norm": 4.3125,
      "learning_rate": 3.877349633080587e-06,
      "loss": 0.97333193,
      "memory(GiB)": 112.26,
      "step": 46790,
      "train_speed(iter/s)": 1.130315
    },
    {
      "acc": 0.74193258,
      "epoch": 1.187087772704211,
      "grad_norm": 3.765625,
      "learning_rate": 3.876327808438767e-06,
      "loss": 1.0654418,
      "memory(GiB)": 112.26,
      "step": 46795,
      "train_speed(iter/s)": 1.130333
    },
    {
      "acc": 0.73945355,
      "epoch": 1.187214611872146,
      "grad_norm": 3.890625,
      "learning_rate": 3.875306033221069e-06,
      "loss": 1.04299202,
      "memory(GiB)": 112.26,
      "step": 46800,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.72902865,
      "epoch": 1.1873414510400813,
      "grad_norm": 3.90625,
      "learning_rate": 3.874284307472432e-06,
      "loss": 1.11652794,
      "memory(GiB)": 112.26,
      "step": 46805,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.73533993,
      "epoch": 1.1874682902080163,
      "grad_norm": 3.578125,
      "learning_rate": 3.873262631237799e-06,
      "loss": 1.09902515,
      "memory(GiB)": 112.26,
      "step": 46810,
      "train_speed(iter/s)": 1.130355
    },
    {
      "acc": 0.72733006,
      "epoch": 1.1875951293759512,
      "grad_norm": 3.703125,
      "learning_rate": 3.872241004562105e-06,
      "loss": 1.11063538,
      "memory(GiB)": 112.26,
      "step": 46815,
      "train_speed(iter/s)": 1.130381
    },
    {
      "acc": 0.74954586,
      "epoch": 1.1877219685438862,
      "grad_norm": 5.09375,
      "learning_rate": 3.871219427490285e-06,
      "loss": 1.02316608,
      "memory(GiB)": 112.26,
      "step": 46820,
      "train_speed(iter/s)": 1.130402
    },
    {
      "acc": 0.74030495,
      "epoch": 1.1878488077118214,
      "grad_norm": 4.59375,
      "learning_rate": 3.870197900067276e-06,
      "loss": 1.10200806,
      "memory(GiB)": 112.26,
      "step": 46825,
      "train_speed(iter/s)": 1.130425
    },
    {
      "acc": 0.7457983,
      "epoch": 1.1879756468797564,
      "grad_norm": 3.515625,
      "learning_rate": 3.869176422338009e-06,
      "loss": 1.00258579,
      "memory(GiB)": 112.26,
      "step": 46830,
      "train_speed(iter/s)": 1.130448
    },
    {
      "acc": 0.75044594,
      "epoch": 1.1881024860476916,
      "grad_norm": 4.6875,
      "learning_rate": 3.868154994347409e-06,
      "loss": 1.0240778,
      "memory(GiB)": 112.26,
      "step": 46835,
      "train_speed(iter/s)": 1.130471
    },
    {
      "acc": 0.7461226,
      "epoch": 1.1882293252156266,
      "grad_norm": 4.46875,
      "learning_rate": 3.867133616140406e-06,
      "loss": 1.00442905,
      "memory(GiB)": 112.26,
      "step": 46840,
      "train_speed(iter/s)": 1.130481
    },
    {
      "acc": 0.74594998,
      "epoch": 1.1883561643835616,
      "grad_norm": 3.859375,
      "learning_rate": 3.866112287761926e-06,
      "loss": 1.09463911,
      "memory(GiB)": 112.26,
      "step": 46845,
      "train_speed(iter/s)": 1.13048
    },
    {
      "acc": 0.73171735,
      "epoch": 1.1884830035514966,
      "grad_norm": 4.4375,
      "learning_rate": 3.86509100925689e-06,
      "loss": 1.09167252,
      "memory(GiB)": 112.26,
      "step": 46850,
      "train_speed(iter/s)": 1.130497
    },
    {
      "acc": 0.73210602,
      "epoch": 1.1886098427194318,
      "grad_norm": 3.3125,
      "learning_rate": 3.8640697806702166e-06,
      "loss": 1.04711475,
      "memory(GiB)": 112.26,
      "step": 46855,
      "train_speed(iter/s)": 1.13051
    },
    {
      "acc": 0.74091411,
      "epoch": 1.1887366818873668,
      "grad_norm": 4.21875,
      "learning_rate": 3.8630486020468265e-06,
      "loss": 1.09069157,
      "memory(GiB)": 112.26,
      "step": 46860,
      "train_speed(iter/s)": 1.130529
    },
    {
      "acc": 0.73922758,
      "epoch": 1.1888635210553018,
      "grad_norm": 3.9375,
      "learning_rate": 3.862027473431634e-06,
      "loss": 1.06077356,
      "memory(GiB)": 112.26,
      "step": 46865,
      "train_speed(iter/s)": 1.130549
    },
    {
      "acc": 0.75015659,
      "epoch": 1.188990360223237,
      "grad_norm": 4.8125,
      "learning_rate": 3.861006394869558e-06,
      "loss": 1.00727463,
      "memory(GiB)": 112.26,
      "step": 46870,
      "train_speed(iter/s)": 1.130576
    },
    {
      "acc": 0.73653994,
      "epoch": 1.189117199391172,
      "grad_norm": 3.40625,
      "learning_rate": 3.859985366405502e-06,
      "loss": 1.05198965,
      "memory(GiB)": 112.26,
      "step": 46875,
      "train_speed(iter/s)": 1.130596
    },
    {
      "acc": 0.73874655,
      "epoch": 1.189244038559107,
      "grad_norm": 2.9375,
      "learning_rate": 3.85896438808438e-06,
      "loss": 1.05067158,
      "memory(GiB)": 112.26,
      "step": 46880,
      "train_speed(iter/s)": 1.130609
    },
    {
      "acc": 0.72995439,
      "epoch": 1.1893708777270422,
      "grad_norm": 3.828125,
      "learning_rate": 3.857943459951099e-06,
      "loss": 1.06110821,
      "memory(GiB)": 112.26,
      "step": 46885,
      "train_speed(iter/s)": 1.130626
    },
    {
      "acc": 0.73216009,
      "epoch": 1.1894977168949772,
      "grad_norm": 4.0,
      "learning_rate": 3.856922582050565e-06,
      "loss": 1.06376057,
      "memory(GiB)": 112.26,
      "step": 46890,
      "train_speed(iter/s)": 1.130642
    },
    {
      "acc": 0.76140666,
      "epoch": 1.1896245560629122,
      "grad_norm": 3.515625,
      "learning_rate": 3.855901754427678e-06,
      "loss": 0.98445053,
      "memory(GiB)": 112.26,
      "step": 46895,
      "train_speed(iter/s)": 1.130644
    },
    {
      "acc": 0.72942033,
      "epoch": 1.1897513952308474,
      "grad_norm": 4.125,
      "learning_rate": 3.854880977127339e-06,
      "loss": 1.12066994,
      "memory(GiB)": 112.26,
      "step": 46900,
      "train_speed(iter/s)": 1.130649
    },
    {
      "acc": 0.73897996,
      "epoch": 1.1898782343987824,
      "grad_norm": 3.765625,
      "learning_rate": 3.8538602501944475e-06,
      "loss": 1.03925505,
      "memory(GiB)": 112.26,
      "step": 46905,
      "train_speed(iter/s)": 1.130663
    },
    {
      "acc": 0.74508839,
      "epoch": 1.1900050735667174,
      "grad_norm": 4.28125,
      "learning_rate": 3.852839573673902e-06,
      "loss": 1.02686548,
      "memory(GiB)": 112.26,
      "step": 46910,
      "train_speed(iter/s)": 1.130675
    },
    {
      "acc": 0.74067335,
      "epoch": 1.1901319127346524,
      "grad_norm": 3.40625,
      "learning_rate": 3.851818947610591e-06,
      "loss": 1.03863487,
      "memory(GiB)": 112.26,
      "step": 46915,
      "train_speed(iter/s)": 1.130697
    },
    {
      "acc": 0.74943566,
      "epoch": 1.1902587519025876,
      "grad_norm": 3.984375,
      "learning_rate": 3.850798372049409e-06,
      "loss": 1.03198166,
      "memory(GiB)": 112.26,
      "step": 46920,
      "train_speed(iter/s)": 1.130709
    },
    {
      "acc": 0.74160557,
      "epoch": 1.1903855910705226,
      "grad_norm": 3.546875,
      "learning_rate": 3.849777847035246e-06,
      "loss": 1.03834133,
      "memory(GiB)": 112.26,
      "step": 46925,
      "train_speed(iter/s)": 1.130735
    },
    {
      "acc": 0.7511539,
      "epoch": 1.1905124302384575,
      "grad_norm": 3.90625,
      "learning_rate": 3.84875737261299e-06,
      "loss": 0.98440456,
      "memory(GiB)": 112.26,
      "step": 46930,
      "train_speed(iter/s)": 1.130757
    },
    {
      "acc": 0.73588877,
      "epoch": 1.1906392694063928,
      "grad_norm": 5.3125,
      "learning_rate": 3.847736948827523e-06,
      "loss": 1.07578793,
      "memory(GiB)": 112.26,
      "step": 46935,
      "train_speed(iter/s)": 1.13077
    },
    {
      "acc": 0.7588356,
      "epoch": 1.1907661085743277,
      "grad_norm": 4.0625,
      "learning_rate": 3.846716575723729e-06,
      "loss": 1.00202179,
      "memory(GiB)": 112.26,
      "step": 46940,
      "train_speed(iter/s)": 1.130798
    },
    {
      "acc": 0.74112272,
      "epoch": 1.1908929477422627,
      "grad_norm": 3.046875,
      "learning_rate": 3.845696253346489e-06,
      "loss": 1.09091768,
      "memory(GiB)": 112.26,
      "step": 46945,
      "train_speed(iter/s)": 1.130814
    },
    {
      "acc": 0.74106603,
      "epoch": 1.191019786910198,
      "grad_norm": 3.6875,
      "learning_rate": 3.8446759817406835e-06,
      "loss": 1.05282688,
      "memory(GiB)": 112.26,
      "step": 46950,
      "train_speed(iter/s)": 1.130819
    },
    {
      "acc": 0.73992224,
      "epoch": 1.191146626078133,
      "grad_norm": 3.25,
      "learning_rate": 3.8436557609511856e-06,
      "loss": 1.07974243,
      "memory(GiB)": 112.26,
      "step": 46955,
      "train_speed(iter/s)": 1.130837
    },
    {
      "acc": 0.7599473,
      "epoch": 1.191273465246068,
      "grad_norm": 3.5,
      "learning_rate": 3.842635591022869e-06,
      "loss": 0.92683783,
      "memory(GiB)": 112.26,
      "step": 46960,
      "train_speed(iter/s)": 1.130849
    },
    {
      "acc": 0.74607468,
      "epoch": 1.1914003044140031,
      "grad_norm": 4.125,
      "learning_rate": 3.8416154720006065e-06,
      "loss": 1.04649286,
      "memory(GiB)": 112.26,
      "step": 46965,
      "train_speed(iter/s)": 1.130859
    },
    {
      "acc": 0.740378,
      "epoch": 1.1915271435819381,
      "grad_norm": 3.21875,
      "learning_rate": 3.840595403929269e-06,
      "loss": 1.0669199,
      "memory(GiB)": 112.26,
      "step": 46970,
      "train_speed(iter/s)": 1.130879
    },
    {
      "acc": 0.73626604,
      "epoch": 1.191653982749873,
      "grad_norm": 3.8125,
      "learning_rate": 3.839575386853721e-06,
      "loss": 1.01488466,
      "memory(GiB)": 112.26,
      "step": 46975,
      "train_speed(iter/s)": 1.130896
    },
    {
      "acc": 0.73765693,
      "epoch": 1.191780821917808,
      "grad_norm": 3.34375,
      "learning_rate": 3.838555420818827e-06,
      "loss": 1.04124594,
      "memory(GiB)": 112.26,
      "step": 46980,
      "train_speed(iter/s)": 1.130919
    },
    {
      "acc": 0.74279556,
      "epoch": 1.1919076610857433,
      "grad_norm": 4.0,
      "learning_rate": 3.837535505869453e-06,
      "loss": 1.06473179,
      "memory(GiB)": 112.26,
      "step": 46985,
      "train_speed(iter/s)": 1.130942
    },
    {
      "acc": 0.7439096,
      "epoch": 1.1920345002536783,
      "grad_norm": 3.59375,
      "learning_rate": 3.836515642050458e-06,
      "loss": 1.03900843,
      "memory(GiB)": 112.26,
      "step": 46990,
      "train_speed(iter/s)": 1.130961
    },
    {
      "acc": 0.7286829,
      "epoch": 1.1921613394216135,
      "grad_norm": 3.09375,
      "learning_rate": 3.835495829406698e-06,
      "loss": 1.0601367,
      "memory(GiB)": 112.26,
      "step": 46995,
      "train_speed(iter/s)": 1.130983
    },
    {
      "acc": 0.74696717,
      "epoch": 1.1922881785895485,
      "grad_norm": 3.96875,
      "learning_rate": 3.834476067983031e-06,
      "loss": 1.07517405,
      "memory(GiB)": 112.26,
      "step": 47000,
      "train_speed(iter/s)": 1.130984
    },
    {
      "epoch": 1.1922881785895485,
      "eval_acc": 0.7257122690072402,
      "eval_loss": 1.044896125793457,
      "eval_runtime": 70.9859,
      "eval_samples_per_second": 89.736,
      "eval_steps_per_second": 22.441,
      "step": 47000
    },
    {
      "acc": 0.73909883,
      "epoch": 1.1924150177574835,
      "grad_norm": 3.421875,
      "learning_rate": 3.83345635782431e-06,
      "loss": 1.10856199,
      "memory(GiB)": 112.26,
      "step": 47005,
      "train_speed(iter/s)": 1.127876
    },
    {
      "acc": 0.73710833,
      "epoch": 1.1925418569254185,
      "grad_norm": 4.28125,
      "learning_rate": 3.832436698975388e-06,
      "loss": 1.0672245,
      "memory(GiB)": 112.26,
      "step": 47010,
      "train_speed(iter/s)": 1.127893
    },
    {
      "acc": 0.76067142,
      "epoch": 1.1926686960933537,
      "grad_norm": 3.703125,
      "learning_rate": 3.831417091481111e-06,
      "loss": 0.98096142,
      "memory(GiB)": 112.26,
      "step": 47015,
      "train_speed(iter/s)": 1.127912
    },
    {
      "acc": 0.7549613,
      "epoch": 1.1927955352612887,
      "grad_norm": 3.421875,
      "learning_rate": 3.830397535386328e-06,
      "loss": 1.03006306,
      "memory(GiB)": 112.26,
      "step": 47020,
      "train_speed(iter/s)": 1.127922
    },
    {
      "acc": 0.73512115,
      "epoch": 1.1929223744292237,
      "grad_norm": 4.25,
      "learning_rate": 3.829378030735883e-06,
      "loss": 1.10672169,
      "memory(GiB)": 112.26,
      "step": 47025,
      "train_speed(iter/s)": 1.127938
    },
    {
      "acc": 0.74874458,
      "epoch": 1.1930492135971589,
      "grad_norm": 3.515625,
      "learning_rate": 3.82835857757462e-06,
      "loss": 1.04684563,
      "memory(GiB)": 112.26,
      "step": 47030,
      "train_speed(iter/s)": 1.127955
    },
    {
      "acc": 0.74277954,
      "epoch": 1.1931760527650939,
      "grad_norm": 3.046875,
      "learning_rate": 3.827339175947378e-06,
      "loss": 1.06621475,
      "memory(GiB)": 112.26,
      "step": 47035,
      "train_speed(iter/s)": 1.127968
    },
    {
      "acc": 0.73472209,
      "epoch": 1.1933028919330289,
      "grad_norm": 4.15625,
      "learning_rate": 3.826319825898992e-06,
      "loss": 1.0252656,
      "memory(GiB)": 112.26,
      "step": 47040,
      "train_speed(iter/s)": 1.127963
    },
    {
      "acc": 0.75107708,
      "epoch": 1.193429731100964,
      "grad_norm": 3.75,
      "learning_rate": 3.825300527474302e-06,
      "loss": 1.055445,
      "memory(GiB)": 112.26,
      "step": 47045,
      "train_speed(iter/s)": 1.127983
    },
    {
      "acc": 0.73403168,
      "epoch": 1.193556570268899,
      "grad_norm": 4.09375,
      "learning_rate": 3.824281280718141e-06,
      "loss": 1.09511671,
      "memory(GiB)": 112.26,
      "step": 47050,
      "train_speed(iter/s)": 1.12799
    },
    {
      "acc": 0.74122128,
      "epoch": 1.193683409436834,
      "grad_norm": 4.59375,
      "learning_rate": 3.823262085675337e-06,
      "loss": 1.05573797,
      "memory(GiB)": 112.26,
      "step": 47055,
      "train_speed(iter/s)": 1.128007
    },
    {
      "acc": 0.73552155,
      "epoch": 1.1938102486047693,
      "grad_norm": 3.90625,
      "learning_rate": 3.822242942390718e-06,
      "loss": 1.0749444,
      "memory(GiB)": 112.26,
      "step": 47060,
      "train_speed(iter/s)": 1.128021
    },
    {
      "acc": 0.73826103,
      "epoch": 1.1939370877727042,
      "grad_norm": 3.875,
      "learning_rate": 3.821223850909115e-06,
      "loss": 1.06994829,
      "memory(GiB)": 112.26,
      "step": 47065,
      "train_speed(iter/s)": 1.128034
    },
    {
      "acc": 0.73523054,
      "epoch": 1.1940639269406392,
      "grad_norm": 4.125,
      "learning_rate": 3.820204811275351e-06,
      "loss": 1.08003578,
      "memory(GiB)": 112.26,
      "step": 47070,
      "train_speed(iter/s)": 1.128046
    },
    {
      "acc": 0.74736042,
      "epoch": 1.1941907661085742,
      "grad_norm": 3.3125,
      "learning_rate": 3.8191858235342446e-06,
      "loss": 1.08786488,
      "memory(GiB)": 112.26,
      "step": 47075,
      "train_speed(iter/s)": 1.128056
    },
    {
      "acc": 0.72577991,
      "epoch": 1.1943176052765094,
      "grad_norm": 4.5,
      "learning_rate": 3.818166887730618e-06,
      "loss": 1.08953228,
      "memory(GiB)": 112.26,
      "step": 47080,
      "train_speed(iter/s)": 1.12808
    },
    {
      "acc": 0.72858291,
      "epoch": 1.1944444444444444,
      "grad_norm": 3.375,
      "learning_rate": 3.817148003909288e-06,
      "loss": 1.13177013,
      "memory(GiB)": 112.26,
      "step": 47085,
      "train_speed(iter/s)": 1.128105
    },
    {
      "acc": 0.73885202,
      "epoch": 1.1945712836123794,
      "grad_norm": 3.28125,
      "learning_rate": 3.816129172115073e-06,
      "loss": 1.03004456,
      "memory(GiB)": 112.26,
      "step": 47090,
      "train_speed(iter/s)": 1.128127
    },
    {
      "acc": 0.72799187,
      "epoch": 1.1946981227803146,
      "grad_norm": 3.828125,
      "learning_rate": 3.815110392392778e-06,
      "loss": 1.07798738,
      "memory(GiB)": 112.26,
      "step": 47095,
      "train_speed(iter/s)": 1.128139
    },
    {
      "acc": 0.74161115,
      "epoch": 1.1948249619482496,
      "grad_norm": 3.484375,
      "learning_rate": 3.8140916647872204e-06,
      "loss": 1.05253372,
      "memory(GiB)": 112.26,
      "step": 47100,
      "train_speed(iter/s)": 1.128156
    },
    {
      "acc": 0.7280097,
      "epoch": 1.1949518011161846,
      "grad_norm": 3.890625,
      "learning_rate": 3.813072989343205e-06,
      "loss": 1.10582762,
      "memory(GiB)": 112.26,
      "step": 47105,
      "train_speed(iter/s)": 1.128162
    },
    {
      "acc": 0.74345174,
      "epoch": 1.1950786402841198,
      "grad_norm": 3.28125,
      "learning_rate": 3.812054366105541e-06,
      "loss": 1.07576761,
      "memory(GiB)": 112.26,
      "step": 47110,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.74624615,
      "epoch": 1.1952054794520548,
      "grad_norm": 3.765625,
      "learning_rate": 3.8110357951190284e-06,
      "loss": 0.97468796,
      "memory(GiB)": 112.26,
      "step": 47115,
      "train_speed(iter/s)": 1.128181
    },
    {
      "acc": 0.71197505,
      "epoch": 1.1953323186199898,
      "grad_norm": 3.40625,
      "learning_rate": 3.8100172764284694e-06,
      "loss": 1.13831329,
      "memory(GiB)": 112.26,
      "step": 47120,
      "train_speed(iter/s)": 1.128186
    },
    {
      "acc": 0.75309038,
      "epoch": 1.195459157787925,
      "grad_norm": 3.484375,
      "learning_rate": 3.8089988100786635e-06,
      "loss": 1.02852535,
      "memory(GiB)": 112.26,
      "step": 47125,
      "train_speed(iter/s)": 1.128202
    },
    {
      "acc": 0.7391613,
      "epoch": 1.19558599695586,
      "grad_norm": 4.3125,
      "learning_rate": 3.807980396114409e-06,
      "loss": 1.0167387,
      "memory(GiB)": 112.26,
      "step": 47130,
      "train_speed(iter/s)": 1.128227
    },
    {
      "acc": 0.73732557,
      "epoch": 1.195712836123795,
      "grad_norm": 3.390625,
      "learning_rate": 3.8069620345804974e-06,
      "loss": 1.03623095,
      "memory(GiB)": 112.26,
      "step": 47135,
      "train_speed(iter/s)": 1.128248
    },
    {
      "acc": 0.73109503,
      "epoch": 1.19583967529173,
      "grad_norm": 3.5,
      "learning_rate": 3.8059437255217214e-06,
      "loss": 1.12188034,
      "memory(GiB)": 112.26,
      "step": 47140,
      "train_speed(iter/s)": 1.12827
    },
    {
      "acc": 0.75233841,
      "epoch": 1.1959665144596652,
      "grad_norm": 3.703125,
      "learning_rate": 3.8049254689828723e-06,
      "loss": 1.03874989,
      "memory(GiB)": 112.26,
      "step": 47145,
      "train_speed(iter/s)": 1.128274
    },
    {
      "acc": 0.74040999,
      "epoch": 1.1960933536276002,
      "grad_norm": 4.1875,
      "learning_rate": 3.8039072650087377e-06,
      "loss": 1.05494881,
      "memory(GiB)": 112.26,
      "step": 47150,
      "train_speed(iter/s)": 1.128297
    },
    {
      "acc": 0.74421301,
      "epoch": 1.1962201927955354,
      "grad_norm": 3.140625,
      "learning_rate": 3.8028891136440994e-06,
      "loss": 1.01546612,
      "memory(GiB)": 112.26,
      "step": 47155,
      "train_speed(iter/s)": 1.128317
    },
    {
      "acc": 0.73254738,
      "epoch": 1.1963470319634704,
      "grad_norm": 3.203125,
      "learning_rate": 3.801871014933744e-06,
      "loss": 1.04673281,
      "memory(GiB)": 112.26,
      "step": 47160,
      "train_speed(iter/s)": 1.128321
    },
    {
      "acc": 0.73643355,
      "epoch": 1.1964738711314054,
      "grad_norm": 4.1875,
      "learning_rate": 3.8008529689224493e-06,
      "loss": 1.05695629,
      "memory(GiB)": 112.26,
      "step": 47165,
      "train_speed(iter/s)": 1.128333
    },
    {
      "acc": 0.73998537,
      "epoch": 1.1966007102993403,
      "grad_norm": 4.03125,
      "learning_rate": 3.7998349756549974e-06,
      "loss": 1.03777466,
      "memory(GiB)": 112.26,
      "step": 47170,
      "train_speed(iter/s)": 1.128352
    },
    {
      "acc": 0.72100229,
      "epoch": 1.1967275494672756,
      "grad_norm": 3.5,
      "learning_rate": 3.79881703517616e-06,
      "loss": 1.18661499,
      "memory(GiB)": 112.26,
      "step": 47175,
      "train_speed(iter/s)": 1.128373
    },
    {
      "acc": 0.74287486,
      "epoch": 1.1968543886352105,
      "grad_norm": 4.4375,
      "learning_rate": 3.797799147530713e-06,
      "loss": 1.07956791,
      "memory(GiB)": 112.26,
      "step": 47180,
      "train_speed(iter/s)": 1.128378
    },
    {
      "acc": 0.74169111,
      "epoch": 1.1969812278031455,
      "grad_norm": 3.953125,
      "learning_rate": 3.796781312763425e-06,
      "loss": 1.04629364,
      "memory(GiB)": 112.26,
      "step": 47185,
      "train_speed(iter/s)": 1.128399
    },
    {
      "acc": 0.74289851,
      "epoch": 1.1971080669710807,
      "grad_norm": 3.421875,
      "learning_rate": 3.79576353091907e-06,
      "loss": 0.98477831,
      "memory(GiB)": 112.26,
      "step": 47190,
      "train_speed(iter/s)": 1.128415
    },
    {
      "acc": 0.75315614,
      "epoch": 1.1972349061390157,
      "grad_norm": 4.03125,
      "learning_rate": 3.7947458020424094e-06,
      "loss": 1.05862436,
      "memory(GiB)": 112.26,
      "step": 47195,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.74510679,
      "epoch": 1.1973617453069507,
      "grad_norm": 3.34375,
      "learning_rate": 3.793728126178209e-06,
      "loss": 1.06945019,
      "memory(GiB)": 112.26,
      "step": 47200,
      "train_speed(iter/s)": 1.128464
    },
    {
      "acc": 0.74210062,
      "epoch": 1.197488584474886,
      "grad_norm": 4.03125,
      "learning_rate": 3.792710503371232e-06,
      "loss": 0.98219919,
      "memory(GiB)": 112.26,
      "step": 47205,
      "train_speed(iter/s)": 1.128469
    },
    {
      "acc": 0.73108606,
      "epoch": 1.197615423642821,
      "grad_norm": 3.859375,
      "learning_rate": 3.7916929336662386e-06,
      "loss": 1.141924,
      "memory(GiB)": 112.26,
      "step": 47210,
      "train_speed(iter/s)": 1.12849
    },
    {
      "acc": 0.74243851,
      "epoch": 1.197742262810756,
      "grad_norm": 3.828125,
      "learning_rate": 3.790675417107982e-06,
      "loss": 1.0333847,
      "memory(GiB)": 112.26,
      "step": 47215,
      "train_speed(iter/s)": 1.128499
    },
    {
      "acc": 0.74680376,
      "epoch": 1.1978691019786911,
      "grad_norm": 3.765625,
      "learning_rate": 3.7896579537412213e-06,
      "loss": 1.02335348,
      "memory(GiB)": 112.26,
      "step": 47220,
      "train_speed(iter/s)": 1.128525
    },
    {
      "acc": 0.72254877,
      "epoch": 1.197995941146626,
      "grad_norm": 3.78125,
      "learning_rate": 3.7886405436107076e-06,
      "loss": 1.13939743,
      "memory(GiB)": 112.26,
      "step": 47225,
      "train_speed(iter/s)": 1.128552
    },
    {
      "acc": 0.74319968,
      "epoch": 1.198122780314561,
      "grad_norm": 3.78125,
      "learning_rate": 3.7876231867611917e-06,
      "loss": 1.02732058,
      "memory(GiB)": 112.26,
      "step": 47230,
      "train_speed(iter/s)": 1.128566
    },
    {
      "acc": 0.73047757,
      "epoch": 1.198249619482496,
      "grad_norm": 4.1875,
      "learning_rate": 3.7866058832374197e-06,
      "loss": 1.10357847,
      "memory(GiB)": 112.26,
      "step": 47235,
      "train_speed(iter/s)": 1.128575
    },
    {
      "acc": 0.73299465,
      "epoch": 1.1983764586504313,
      "grad_norm": 3.78125,
      "learning_rate": 3.7855886330841383e-06,
      "loss": 1.10071497,
      "memory(GiB)": 112.26,
      "step": 47240,
      "train_speed(iter/s)": 1.128593
    },
    {
      "acc": 0.74319372,
      "epoch": 1.1985032978183663,
      "grad_norm": 4.1875,
      "learning_rate": 3.7845714363460908e-06,
      "loss": 1.05933619,
      "memory(GiB)": 112.26,
      "step": 47245,
      "train_speed(iter/s)": 1.128616
    },
    {
      "acc": 0.74510221,
      "epoch": 1.1986301369863013,
      "grad_norm": 3.5,
      "learning_rate": 3.78355429306802e-06,
      "loss": 1.06157169,
      "memory(GiB)": 112.26,
      "step": 47250,
      "train_speed(iter/s)": 1.128625
    },
    {
      "acc": 0.74734125,
      "epoch": 1.1987569761542365,
      "grad_norm": 3.765625,
      "learning_rate": 3.7825372032946605e-06,
      "loss": 1.0007493,
      "memory(GiB)": 112.26,
      "step": 47255,
      "train_speed(iter/s)": 1.12864
    },
    {
      "acc": 0.74747133,
      "epoch": 1.1988838153221715,
      "grad_norm": 3.65625,
      "learning_rate": 3.7815201670707502e-06,
      "loss": 1.04210443,
      "memory(GiB)": 112.26,
      "step": 47260,
      "train_speed(iter/s)": 1.128655
    },
    {
      "acc": 0.73720331,
      "epoch": 1.1990106544901065,
      "grad_norm": 3.75,
      "learning_rate": 3.7805031844410235e-06,
      "loss": 1.12050257,
      "memory(GiB)": 112.26,
      "step": 47265,
      "train_speed(iter/s)": 1.12867
    },
    {
      "acc": 0.74387922,
      "epoch": 1.1991374936580417,
      "grad_norm": 3.46875,
      "learning_rate": 3.7794862554502126e-06,
      "loss": 1.01325512,
      "memory(GiB)": 112.26,
      "step": 47270,
      "train_speed(iter/s)": 1.128696
    },
    {
      "acc": 0.73896303,
      "epoch": 1.1992643328259767,
      "grad_norm": 4.09375,
      "learning_rate": 3.778469380143045e-06,
      "loss": 1.05013847,
      "memory(GiB)": 112.26,
      "step": 47275,
      "train_speed(iter/s)": 1.128717
    },
    {
      "acc": 0.75013847,
      "epoch": 1.1993911719939117,
      "grad_norm": 3.375,
      "learning_rate": 3.777452558564246e-06,
      "loss": 1.02480927,
      "memory(GiB)": 112.26,
      "step": 47280,
      "train_speed(iter/s)": 1.128729
    },
    {
      "acc": 0.7469645,
      "epoch": 1.1995180111618469,
      "grad_norm": 3.71875,
      "learning_rate": 3.776435790758543e-06,
      "loss": 1.0105835,
      "memory(GiB)": 112.26,
      "step": 47285,
      "train_speed(iter/s)": 1.128749
    },
    {
      "acc": 0.75438991,
      "epoch": 1.1996448503297819,
      "grad_norm": 5.0625,
      "learning_rate": 3.7754190767706577e-06,
      "loss": 0.96803074,
      "memory(GiB)": 112.26,
      "step": 47290,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.73946867,
      "epoch": 1.1997716894977168,
      "grad_norm": 3.953125,
      "learning_rate": 3.774402416645307e-06,
      "loss": 1.07356253,
      "memory(GiB)": 112.26,
      "step": 47295,
      "train_speed(iter/s)": 1.12877
    },
    {
      "acc": 0.74076071,
      "epoch": 1.1998985286656518,
      "grad_norm": 3.578125,
      "learning_rate": 3.77338581042721e-06,
      "loss": 1.05690708,
      "memory(GiB)": 112.26,
      "step": 47300,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.75308204,
      "epoch": 1.200025367833587,
      "grad_norm": 4.375,
      "learning_rate": 3.7723692581610817e-06,
      "loss": 1.06726351,
      "memory(GiB)": 112.26,
      "step": 47305,
      "train_speed(iter/s)": 1.12881
    },
    {
      "acc": 0.73966579,
      "epoch": 1.200152207001522,
      "grad_norm": 4.21875,
      "learning_rate": 3.771352759891637e-06,
      "loss": 1.12549782,
      "memory(GiB)": 112.26,
      "step": 47310,
      "train_speed(iter/s)": 1.128821
    },
    {
      "acc": 0.73883486,
      "epoch": 1.2002790461694572,
      "grad_norm": 3.703125,
      "learning_rate": 3.7703363156635807e-06,
      "loss": 1.11096802,
      "memory(GiB)": 112.26,
      "step": 47315,
      "train_speed(iter/s)": 1.128838
    },
    {
      "acc": 0.75091162,
      "epoch": 1.2004058853373922,
      "grad_norm": 3.65625,
      "learning_rate": 3.769319925521624e-06,
      "loss": 1.06158924,
      "memory(GiB)": 112.26,
      "step": 47320,
      "train_speed(iter/s)": 1.128868
    },
    {
      "acc": 0.75353546,
      "epoch": 1.2005327245053272,
      "grad_norm": 4.03125,
      "learning_rate": 3.76830358951047e-06,
      "loss": 1.03842621,
      "memory(GiB)": 112.26,
      "step": 47325,
      "train_speed(iter/s)": 1.128892
    },
    {
      "acc": 0.73314562,
      "epoch": 1.2006595636732622,
      "grad_norm": 4.46875,
      "learning_rate": 3.767287307674826e-06,
      "loss": 1.01365499,
      "memory(GiB)": 112.26,
      "step": 47330,
      "train_speed(iter/s)": 1.128914
    },
    {
      "acc": 0.74368238,
      "epoch": 1.2007864028411974,
      "grad_norm": 3.96875,
      "learning_rate": 3.766271080059389e-06,
      "loss": 1.02756481,
      "memory(GiB)": 112.26,
      "step": 47335,
      "train_speed(iter/s)": 1.128933
    },
    {
      "acc": 0.74813571,
      "epoch": 1.2009132420091324,
      "grad_norm": 4.46875,
      "learning_rate": 3.7652549067088568e-06,
      "loss": 1.02642879,
      "memory(GiB)": 112.26,
      "step": 47340,
      "train_speed(iter/s)": 1.128943
    },
    {
      "acc": 0.74640598,
      "epoch": 1.2010400811770674,
      "grad_norm": 4.3125,
      "learning_rate": 3.7642387876679275e-06,
      "loss": 1.04944897,
      "memory(GiB)": 112.26,
      "step": 47345,
      "train_speed(iter/s)": 1.128956
    },
    {
      "acc": 0.73286886,
      "epoch": 1.2011669203450026,
      "grad_norm": 2.96875,
      "learning_rate": 3.7632227229812947e-06,
      "loss": 1.05868235,
      "memory(GiB)": 112.26,
      "step": 47350,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.7361753,
      "epoch": 1.2012937595129376,
      "grad_norm": 4.28125,
      "learning_rate": 3.7622067126936475e-06,
      "loss": 1.088027,
      "memory(GiB)": 112.26,
      "step": 47355,
      "train_speed(iter/s)": 1.128978
    },
    {
      "acc": 0.75179472,
      "epoch": 1.2014205986808726,
      "grad_norm": 3.625,
      "learning_rate": 3.761190756849674e-06,
      "loss": 0.98900433,
      "memory(GiB)": 112.26,
      "step": 47360,
      "train_speed(iter/s)": 1.129
    },
    {
      "acc": 0.74660521,
      "epoch": 1.2015474378488078,
      "grad_norm": 3.78125,
      "learning_rate": 3.7601748554940633e-06,
      "loss": 1.05100193,
      "memory(GiB)": 112.26,
      "step": 47365,
      "train_speed(iter/s)": 1.129016
    },
    {
      "acc": 0.74636488,
      "epoch": 1.2016742770167428,
      "grad_norm": 3.34375,
      "learning_rate": 3.7591590086714984e-06,
      "loss": 0.99813499,
      "memory(GiB)": 112.26,
      "step": 47370,
      "train_speed(iter/s)": 1.129028
    },
    {
      "acc": 0.73763447,
      "epoch": 1.2018011161846778,
      "grad_norm": 5.0,
      "learning_rate": 3.7581432164266587e-06,
      "loss": 1.0314826,
      "memory(GiB)": 112.26,
      "step": 47375,
      "train_speed(iter/s)": 1.12903
    },
    {
      "acc": 0.74172397,
      "epoch": 1.201927955352613,
      "grad_norm": 3.703125,
      "learning_rate": 3.7571274788042255e-06,
      "loss": 1.0550972,
      "memory(GiB)": 112.26,
      "step": 47380,
      "train_speed(iter/s)": 1.12905
    },
    {
      "acc": 0.7457541,
      "epoch": 1.202054794520548,
      "grad_norm": 3.875,
      "learning_rate": 3.756111795848874e-06,
      "loss": 1.07217398,
      "memory(GiB)": 112.26,
      "step": 47385,
      "train_speed(iter/s)": 1.129063
    },
    {
      "acc": 0.73742952,
      "epoch": 1.202181633688483,
      "grad_norm": 3.671875,
      "learning_rate": 3.755096167605281e-06,
      "loss": 1.1085371,
      "memory(GiB)": 112.26,
      "step": 47390,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.74609294,
      "epoch": 1.202308472856418,
      "grad_norm": 3.4375,
      "learning_rate": 3.7540805941181165e-06,
      "loss": 1.0133934,
      "memory(GiB)": 112.26,
      "step": 47395,
      "train_speed(iter/s)": 1.1291
    },
    {
      "acc": 0.74414158,
      "epoch": 1.2024353120243532,
      "grad_norm": 3.578125,
      "learning_rate": 3.7530650754320492e-06,
      "loss": 1.09376221,
      "memory(GiB)": 112.26,
      "step": 47400,
      "train_speed(iter/s)": 1.129121
    },
    {
      "acc": 0.75579138,
      "epoch": 1.2025621511922882,
      "grad_norm": 3.15625,
      "learning_rate": 3.752049611591746e-06,
      "loss": 0.9879303,
      "memory(GiB)": 112.26,
      "step": 47405,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.74153795,
      "epoch": 1.2026889903602231,
      "grad_norm": 3.75,
      "learning_rate": 3.7510342026418756e-06,
      "loss": 1.07960844,
      "memory(GiB)": 112.26,
      "step": 47410,
      "train_speed(iter/s)": 1.129156
    },
    {
      "acc": 0.74041262,
      "epoch": 1.2028158295281584,
      "grad_norm": 4.15625,
      "learning_rate": 3.7500188486270948e-06,
      "loss": 1.06056767,
      "memory(GiB)": 112.26,
      "step": 47415,
      "train_speed(iter/s)": 1.129164
    },
    {
      "acc": 0.72619867,
      "epoch": 1.2029426686960933,
      "grad_norm": 4.0,
      "learning_rate": 3.7490035495920664e-06,
      "loss": 1.13518305,
      "memory(GiB)": 112.26,
      "step": 47420,
      "train_speed(iter/s)": 1.129189
    },
    {
      "acc": 0.75808306,
      "epoch": 1.2030695078640283,
      "grad_norm": 3.375,
      "learning_rate": 3.747988305581447e-06,
      "loss": 0.99023323,
      "memory(GiB)": 112.26,
      "step": 47425,
      "train_speed(iter/s)": 1.12921
    },
    {
      "acc": 0.74111776,
      "epoch": 1.2031963470319635,
      "grad_norm": 3.921875,
      "learning_rate": 3.7469731166398933e-06,
      "loss": 1.06206446,
      "memory(GiB)": 112.26,
      "step": 47430,
      "train_speed(iter/s)": 1.129221
    },
    {
      "acc": 0.73449297,
      "epoch": 1.2033231861998985,
      "grad_norm": 3.453125,
      "learning_rate": 3.745957982812054e-06,
      "loss": 1.08526945,
      "memory(GiB)": 112.26,
      "step": 47435,
      "train_speed(iter/s)": 1.129236
    },
    {
      "acc": 0.73402252,
      "epoch": 1.2034500253678335,
      "grad_norm": 3.546875,
      "learning_rate": 3.744942904142582e-06,
      "loss": 1.07112856,
      "memory(GiB)": 112.26,
      "step": 47440,
      "train_speed(iter/s)": 1.129247
    },
    {
      "acc": 0.75035996,
      "epoch": 1.2035768645357687,
      "grad_norm": 3.265625,
      "learning_rate": 3.743927880676125e-06,
      "loss": 1.00102482,
      "memory(GiB)": 112.26,
      "step": 47445,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.75091829,
      "epoch": 1.2037037037037037,
      "grad_norm": 3.0625,
      "learning_rate": 3.742912912457329e-06,
      "loss": 0.9967411,
      "memory(GiB)": 112.26,
      "step": 47450,
      "train_speed(iter/s)": 1.129274
    },
    {
      "acc": 0.73681602,
      "epoch": 1.2038305428716387,
      "grad_norm": 3.609375,
      "learning_rate": 3.7418979995308336e-06,
      "loss": 1.04705935,
      "memory(GiB)": 112.26,
      "step": 47455,
      "train_speed(iter/s)": 1.129293
    },
    {
      "acc": 0.73944988,
      "epoch": 1.2039573820395737,
      "grad_norm": 3.3125,
      "learning_rate": 3.740883141941282e-06,
      "loss": 1.01731777,
      "memory(GiB)": 112.26,
      "step": 47460,
      "train_speed(iter/s)": 1.129297
    },
    {
      "acc": 0.75014429,
      "epoch": 1.204084221207509,
      "grad_norm": 3.5,
      "learning_rate": 3.7398683397333103e-06,
      "loss": 1.05241909,
      "memory(GiB)": 112.26,
      "step": 47465,
      "train_speed(iter/s)": 1.129186
    },
    {
      "acc": 0.74178581,
      "epoch": 1.204211060375444,
      "grad_norm": 3.0625,
      "learning_rate": 3.7388535929515573e-06,
      "loss": 1.02518702,
      "memory(GiB)": 112.26,
      "step": 47470,
      "train_speed(iter/s)": 1.129213
    },
    {
      "acc": 0.75091558,
      "epoch": 1.204337899543379,
      "grad_norm": 4.0625,
      "learning_rate": 3.737838901640653e-06,
      "loss": 0.99291363,
      "memory(GiB)": 112.26,
      "step": 47475,
      "train_speed(iter/s)": 1.129223
    },
    {
      "acc": 0.74834766,
      "epoch": 1.204464738711314,
      "grad_norm": 4.78125,
      "learning_rate": 3.736824265845228e-06,
      "loss": 1.03501492,
      "memory(GiB)": 112.26,
      "step": 47480,
      "train_speed(iter/s)": 1.129244
    },
    {
      "acc": 0.74795814,
      "epoch": 1.204591577879249,
      "grad_norm": 3.640625,
      "learning_rate": 3.7358096856099118e-06,
      "loss": 1.04129066,
      "memory(GiB)": 112.26,
      "step": 47485,
      "train_speed(iter/s)": 1.129266
    },
    {
      "acc": 0.73745089,
      "epoch": 1.204718417047184,
      "grad_norm": 3.75,
      "learning_rate": 3.7347951609793315e-06,
      "loss": 1.0249218,
      "memory(GiB)": 112.26,
      "step": 47490,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.7437808,
      "epoch": 1.2048452562151193,
      "grad_norm": 4.09375,
      "learning_rate": 3.7337806919981077e-06,
      "loss": 1.06118317,
      "memory(GiB)": 112.26,
      "step": 47495,
      "train_speed(iter/s)": 1.129289
    },
    {
      "acc": 0.74173107,
      "epoch": 1.2049720953830543,
      "grad_norm": 3.734375,
      "learning_rate": 3.732766278710861e-06,
      "loss": 1.03382492,
      "memory(GiB)": 112.26,
      "step": 47500,
      "train_speed(iter/s)": 1.129309
    },
    {
      "acc": 0.74459448,
      "epoch": 1.2050989345509893,
      "grad_norm": 3.5,
      "learning_rate": 3.7317519211622123e-06,
      "loss": 1.03865814,
      "memory(GiB)": 112.26,
      "step": 47505,
      "train_speed(iter/s)": 1.129323
    },
    {
      "acc": 0.73611445,
      "epoch": 1.2052257737189245,
      "grad_norm": 3.59375,
      "learning_rate": 3.7307376193967772e-06,
      "loss": 1.07945843,
      "memory(GiB)": 112.26,
      "step": 47510,
      "train_speed(iter/s)": 1.129338
    },
    {
      "acc": 0.74309411,
      "epoch": 1.2053526128868595,
      "grad_norm": 3.671875,
      "learning_rate": 3.7297233734591664e-06,
      "loss": 1.04190845,
      "memory(GiB)": 112.26,
      "step": 47515,
      "train_speed(iter/s)": 1.129333
    },
    {
      "acc": 0.73747816,
      "epoch": 1.2054794520547945,
      "grad_norm": 4.1875,
      "learning_rate": 3.7287091833939948e-06,
      "loss": 1.10245838,
      "memory(GiB)": 112.26,
      "step": 47520,
      "train_speed(iter/s)": 1.129341
    },
    {
      "acc": 0.75519719,
      "epoch": 1.2056062912227297,
      "grad_norm": 3.25,
      "learning_rate": 3.7276950492458675e-06,
      "loss": 0.99736042,
      "memory(GiB)": 112.26,
      "step": 47525,
      "train_speed(iter/s)": 1.129365
    },
    {
      "acc": 0.73234701,
      "epoch": 1.2057331303906647,
      "grad_norm": 3.40625,
      "learning_rate": 3.7266809710593956e-06,
      "loss": 1.08132839,
      "memory(GiB)": 112.26,
      "step": 47530,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.75063696,
      "epoch": 1.2058599695585996,
      "grad_norm": 4.21875,
      "learning_rate": 3.7256669488791763e-06,
      "loss": 1.02383785,
      "memory(GiB)": 112.26,
      "step": 47535,
      "train_speed(iter/s)": 1.129404
    },
    {
      "acc": 0.74903126,
      "epoch": 1.2059868087265349,
      "grad_norm": 3.578125,
      "learning_rate": 3.7246529827498156e-06,
      "loss": 0.99020329,
      "memory(GiB)": 112.26,
      "step": 47540,
      "train_speed(iter/s)": 1.129412
    },
    {
      "acc": 0.74495182,
      "epoch": 1.2061136478944698,
      "grad_norm": 3.59375,
      "learning_rate": 3.7236390727159094e-06,
      "loss": 1.05190773,
      "memory(GiB)": 112.26,
      "step": 47545,
      "train_speed(iter/s)": 1.129424
    },
    {
      "acc": 0.75561762,
      "epoch": 1.2062404870624048,
      "grad_norm": 3.28125,
      "learning_rate": 3.7226252188220573e-06,
      "loss": 0.99294758,
      "memory(GiB)": 112.26,
      "step": 47550,
      "train_speed(iter/s)": 1.129441
    },
    {
      "acc": 0.74237928,
      "epoch": 1.2063673262303398,
      "grad_norm": 4.0625,
      "learning_rate": 3.7216114211128505e-06,
      "loss": 1.06321955,
      "memory(GiB)": 112.26,
      "step": 47555,
      "train_speed(iter/s)": 1.129463
    },
    {
      "acc": 0.74474883,
      "epoch": 1.206494165398275,
      "grad_norm": 3.78125,
      "learning_rate": 3.720597679632879e-06,
      "loss": 1.03153381,
      "memory(GiB)": 112.26,
      "step": 47560,
      "train_speed(iter/s)": 1.129477
    },
    {
      "acc": 0.73954363,
      "epoch": 1.20662100456621,
      "grad_norm": 4.84375,
      "learning_rate": 3.7195839944267357e-06,
      "loss": 1.12262468,
      "memory(GiB)": 112.26,
      "step": 47565,
      "train_speed(iter/s)": 1.129501
    },
    {
      "acc": 0.75536165,
      "epoch": 1.206747843734145,
      "grad_norm": 3.078125,
      "learning_rate": 3.718570365539006e-06,
      "loss": 0.99312706,
      "memory(GiB)": 112.26,
      "step": 47570,
      "train_speed(iter/s)": 1.129512
    },
    {
      "acc": 0.74652252,
      "epoch": 1.2068746829020802,
      "grad_norm": 4.125,
      "learning_rate": 3.717556793014271e-06,
      "loss": 1.03748093,
      "memory(GiB)": 112.26,
      "step": 47575,
      "train_speed(iter/s)": 1.129528
    },
    {
      "acc": 0.73598685,
      "epoch": 1.2070015220700152,
      "grad_norm": 3.5,
      "learning_rate": 3.716543276897113e-06,
      "loss": 1.10948486,
      "memory(GiB)": 112.26,
      "step": 47580,
      "train_speed(iter/s)": 1.129549
    },
    {
      "acc": 0.7324234,
      "epoch": 1.2071283612379502,
      "grad_norm": 3.328125,
      "learning_rate": 3.715529817232114e-06,
      "loss": 1.02939444,
      "memory(GiB)": 112.26,
      "step": 47585,
      "train_speed(iter/s)": 1.129559
    },
    {
      "acc": 0.74018149,
      "epoch": 1.2072552004058854,
      "grad_norm": 4.65625,
      "learning_rate": 3.7145164140638483e-06,
      "loss": 1.07619648,
      "memory(GiB)": 112.26,
      "step": 47590,
      "train_speed(iter/s)": 1.129581
    },
    {
      "acc": 0.73651338,
      "epoch": 1.2073820395738204,
      "grad_norm": 3.5625,
      "learning_rate": 3.713503067436889e-06,
      "loss": 1.08108158,
      "memory(GiB)": 112.26,
      "step": 47595,
      "train_speed(iter/s)": 1.129593
    },
    {
      "acc": 0.74235668,
      "epoch": 1.2075088787417554,
      "grad_norm": 4.03125,
      "learning_rate": 3.7124897773958084e-06,
      "loss": 1.01715097,
      "memory(GiB)": 112.26,
      "step": 47600,
      "train_speed(iter/s)": 1.129606
    },
    {
      "acc": 0.74179797,
      "epoch": 1.2076357179096906,
      "grad_norm": 3.859375,
      "learning_rate": 3.7114765439851752e-06,
      "loss": 1.11906452,
      "memory(GiB)": 112.26,
      "step": 47605,
      "train_speed(iter/s)": 1.129631
    },
    {
      "acc": 0.74487028,
      "epoch": 1.2077625570776256,
      "grad_norm": 3.203125,
      "learning_rate": 3.7104633672495584e-06,
      "loss": 1.01395521,
      "memory(GiB)": 112.26,
      "step": 47610,
      "train_speed(iter/s)": 1.129638
    },
    {
      "acc": 0.75598798,
      "epoch": 1.2078893962455606,
      "grad_norm": 5.0625,
      "learning_rate": 3.709450247233519e-06,
      "loss": 1.00012226,
      "memory(GiB)": 112.26,
      "step": 47615,
      "train_speed(iter/s)": 1.129662
    },
    {
      "acc": 0.72227802,
      "epoch": 1.2080162354134956,
      "grad_norm": 6.0,
      "learning_rate": 3.7084371839816204e-06,
      "loss": 1.11117649,
      "memory(GiB)": 112.26,
      "step": 47620,
      "train_speed(iter/s)": 1.129682
    },
    {
      "acc": 0.75122557,
      "epoch": 1.2081430745814308,
      "grad_norm": 2.953125,
      "learning_rate": 3.707424177538419e-06,
      "loss": 1.01046524,
      "memory(GiB)": 112.26,
      "step": 47625,
      "train_speed(iter/s)": 1.129696
    },
    {
      "acc": 0.73905001,
      "epoch": 1.2082699137493658,
      "grad_norm": 3.6875,
      "learning_rate": 3.7064112279484753e-06,
      "loss": 1.03551521,
      "memory(GiB)": 112.26,
      "step": 47630,
      "train_speed(iter/s)": 1.129708
    },
    {
      "acc": 0.74839506,
      "epoch": 1.208396752917301,
      "grad_norm": 4.125,
      "learning_rate": 3.7053983352563407e-06,
      "loss": 1.03166447,
      "memory(GiB)": 112.26,
      "step": 47635,
      "train_speed(iter/s)": 1.129726
    },
    {
      "acc": 0.74377651,
      "epoch": 1.208523592085236,
      "grad_norm": 3.078125,
      "learning_rate": 3.704385499506565e-06,
      "loss": 1.0196744,
      "memory(GiB)": 112.26,
      "step": 47640,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.73250351,
      "epoch": 1.208650431253171,
      "grad_norm": 3.5,
      "learning_rate": 3.703372720743702e-06,
      "loss": 1.08451118,
      "memory(GiB)": 112.26,
      "step": 47645,
      "train_speed(iter/s)": 1.129755
    },
    {
      "acc": 0.74382906,
      "epoch": 1.208777270421106,
      "grad_norm": 3.96875,
      "learning_rate": 3.7023599990122966e-06,
      "loss": 1.03041821,
      "memory(GiB)": 112.26,
      "step": 47650,
      "train_speed(iter/s)": 1.129767
    },
    {
      "acc": 0.73602934,
      "epoch": 1.2089041095890412,
      "grad_norm": 3.765625,
      "learning_rate": 3.7013473343568897e-06,
      "loss": 1.07757607,
      "memory(GiB)": 112.26,
      "step": 47655,
      "train_speed(iter/s)": 1.129786
    },
    {
      "acc": 0.74674492,
      "epoch": 1.2090309487569761,
      "grad_norm": 4.125,
      "learning_rate": 3.700334726822026e-06,
      "loss": 1.03441868,
      "memory(GiB)": 112.26,
      "step": 47660,
      "train_speed(iter/s)": 1.129808
    },
    {
      "acc": 0.75920877,
      "epoch": 1.2091577879249111,
      "grad_norm": 4.09375,
      "learning_rate": 3.6993221764522435e-06,
      "loss": 0.97515488,
      "memory(GiB)": 112.26,
      "step": 47665,
      "train_speed(iter/s)": 1.129834
    },
    {
      "acc": 0.74364462,
      "epoch": 1.2092846270928463,
      "grad_norm": 3.453125,
      "learning_rate": 3.6983096832920806e-06,
      "loss": 1.05610733,
      "memory(GiB)": 112.26,
      "step": 47670,
      "train_speed(iter/s)": 1.129844
    },
    {
      "acc": 0.74943867,
      "epoch": 1.2094114662607813,
      "grad_norm": 3.71875,
      "learning_rate": 3.697297247386066e-06,
      "loss": 1.06600056,
      "memory(GiB)": 112.26,
      "step": 47675,
      "train_speed(iter/s)": 1.129858
    },
    {
      "acc": 0.73758879,
      "epoch": 1.2095383054287163,
      "grad_norm": 4.25,
      "learning_rate": 3.6962848687787365e-06,
      "loss": 1.11904354,
      "memory(GiB)": 112.26,
      "step": 47680,
      "train_speed(iter/s)": 1.129868
    },
    {
      "acc": 0.74395957,
      "epoch": 1.2096651445966515,
      "grad_norm": 3.25,
      "learning_rate": 3.6952725475146183e-06,
      "loss": 1.02206469,
      "memory(GiB)": 112.26,
      "step": 47685,
      "train_speed(iter/s)": 1.129865
    },
    {
      "acc": 0.74180565,
      "epoch": 1.2097919837645865,
      "grad_norm": 4.3125,
      "learning_rate": 3.69426028363824e-06,
      "loss": 1.03321295,
      "memory(GiB)": 112.26,
      "step": 47690,
      "train_speed(iter/s)": 1.129877
    },
    {
      "acc": 0.75132875,
      "epoch": 1.2099188229325215,
      "grad_norm": 4.21875,
      "learning_rate": 3.6932480771941237e-06,
      "loss": 0.99952545,
      "memory(GiB)": 112.26,
      "step": 47695,
      "train_speed(iter/s)": 1.129875
    },
    {
      "acc": 0.74790659,
      "epoch": 1.2100456621004567,
      "grad_norm": 3.671875,
      "learning_rate": 3.6922359282267904e-06,
      "loss": 1.02713833,
      "memory(GiB)": 112.26,
      "step": 47700,
      "train_speed(iter/s)": 1.129892
    },
    {
      "acc": 0.74812551,
      "epoch": 1.2101725012683917,
      "grad_norm": 3.5,
      "learning_rate": 3.6912238367807606e-06,
      "loss": 1.04246426,
      "memory(GiB)": 112.26,
      "step": 47705,
      "train_speed(iter/s)": 1.129908
    },
    {
      "acc": 0.73498058,
      "epoch": 1.2102993404363267,
      "grad_norm": 4.4375,
      "learning_rate": 3.6902118029005507e-06,
      "loss": 1.0995368,
      "memory(GiB)": 112.26,
      "step": 47710,
      "train_speed(iter/s)": 1.129934
    },
    {
      "acc": 0.7450552,
      "epoch": 1.2104261796042617,
      "grad_norm": 3.703125,
      "learning_rate": 3.6891998266306717e-06,
      "loss": 1.07795477,
      "memory(GiB)": 112.26,
      "step": 47715,
      "train_speed(iter/s)": 1.129949
    },
    {
      "acc": 0.74539223,
      "epoch": 1.210553018772197,
      "grad_norm": 3.765625,
      "learning_rate": 3.688187908015636e-06,
      "loss": 1.03474464,
      "memory(GiB)": 112.26,
      "step": 47720,
      "train_speed(iter/s)": 1.129961
    },
    {
      "acc": 0.75234556,
      "epoch": 1.2106798579401319,
      "grad_norm": 4.71875,
      "learning_rate": 3.6871760470999546e-06,
      "loss": 1.07229128,
      "memory(GiB)": 112.26,
      "step": 47725,
      "train_speed(iter/s)": 1.129975
    },
    {
      "acc": 0.74378161,
      "epoch": 1.2108066971080669,
      "grad_norm": 3.453125,
      "learning_rate": 3.6861642439281325e-06,
      "loss": 1.02364922,
      "memory(GiB)": 112.26,
      "step": 47730,
      "train_speed(iter/s)": 1.129994
    },
    {
      "acc": 0.73935118,
      "epoch": 1.210933536276002,
      "grad_norm": 3.375,
      "learning_rate": 3.6851524985446707e-06,
      "loss": 1.09745646,
      "memory(GiB)": 112.26,
      "step": 47735,
      "train_speed(iter/s)": 1.130017
    },
    {
      "acc": 0.73619523,
      "epoch": 1.211060375443937,
      "grad_norm": 4.0625,
      "learning_rate": 3.6841408109940737e-06,
      "loss": 1.02998981,
      "memory(GiB)": 112.26,
      "step": 47740,
      "train_speed(iter/s)": 1.130044
    },
    {
      "acc": 0.7384428,
      "epoch": 1.211187214611872,
      "grad_norm": 4.53125,
      "learning_rate": 3.6831291813208377e-06,
      "loss": 1.08708105,
      "memory(GiB)": 112.26,
      "step": 47745,
      "train_speed(iter/s)": 1.130048
    },
    {
      "acc": 0.72351322,
      "epoch": 1.2113140537798073,
      "grad_norm": 4.125,
      "learning_rate": 3.682117609569462e-06,
      "loss": 1.13972349,
      "memory(GiB)": 112.26,
      "step": 47750,
      "train_speed(iter/s)": 1.130057
    },
    {
      "acc": 0.72862582,
      "epoch": 1.2114408929477423,
      "grad_norm": 3.3125,
      "learning_rate": 3.681106095784436e-06,
      "loss": 1.09854212,
      "memory(GiB)": 112.26,
      "step": 47755,
      "train_speed(iter/s)": 1.130072
    },
    {
      "acc": 0.7662612,
      "epoch": 1.2115677321156773,
      "grad_norm": 2.828125,
      "learning_rate": 3.6800946400102522e-06,
      "loss": 0.9663661,
      "memory(GiB)": 112.26,
      "step": 47760,
      "train_speed(iter/s)": 1.130076
    },
    {
      "acc": 0.74603405,
      "epoch": 1.2116945712836125,
      "grad_norm": 3.859375,
      "learning_rate": 3.6790832422913984e-06,
      "loss": 1.06747599,
      "memory(GiB)": 112.26,
      "step": 47765,
      "train_speed(iter/s)": 1.13009
    },
    {
      "acc": 0.74723196,
      "epoch": 1.2118214104515475,
      "grad_norm": 5.4375,
      "learning_rate": 3.6780719026723632e-06,
      "loss": 1.04839764,
      "memory(GiB)": 112.26,
      "step": 47770,
      "train_speed(iter/s)": 1.130115
    },
    {
      "acc": 0.73122597,
      "epoch": 1.2119482496194824,
      "grad_norm": 3.796875,
      "learning_rate": 3.677060621197627e-06,
      "loss": 1.12266369,
      "memory(GiB)": 112.26,
      "step": 47775,
      "train_speed(iter/s)": 1.13014
    },
    {
      "acc": 0.74016113,
      "epoch": 1.2120750887874174,
      "grad_norm": 3.0625,
      "learning_rate": 3.6760493979116696e-06,
      "loss": 1.0538311,
      "memory(GiB)": 112.26,
      "step": 47780,
      "train_speed(iter/s)": 1.130152
    },
    {
      "acc": 0.75130024,
      "epoch": 1.2122019279553526,
      "grad_norm": 3.34375,
      "learning_rate": 3.6750382328589725e-06,
      "loss": 1.05269623,
      "memory(GiB)": 112.26,
      "step": 47785,
      "train_speed(iter/s)": 1.130167
    },
    {
      "acc": 0.74056368,
      "epoch": 1.2123287671232876,
      "grad_norm": 5.03125,
      "learning_rate": 3.67402712608401e-06,
      "loss": 1.09134035,
      "memory(GiB)": 112.26,
      "step": 47790,
      "train_speed(iter/s)": 1.130188
    },
    {
      "acc": 0.74303269,
      "epoch": 1.2124556062912228,
      "grad_norm": 3.6875,
      "learning_rate": 3.673016077631253e-06,
      "loss": 1.08274574,
      "memory(GiB)": 112.26,
      "step": 47795,
      "train_speed(iter/s)": 1.130207
    },
    {
      "acc": 0.73583527,
      "epoch": 1.2125824454591578,
      "grad_norm": 4.03125,
      "learning_rate": 3.672005087545173e-06,
      "loss": 1.08332644,
      "memory(GiB)": 112.26,
      "step": 47800,
      "train_speed(iter/s)": 1.13022
    },
    {
      "acc": 0.74819508,
      "epoch": 1.2127092846270928,
      "grad_norm": 3.421875,
      "learning_rate": 3.6709941558702393e-06,
      "loss": 1.04860382,
      "memory(GiB)": 112.26,
      "step": 47805,
      "train_speed(iter/s)": 1.130235
    },
    {
      "acc": 0.73603482,
      "epoch": 1.2128361237950278,
      "grad_norm": 3.703125,
      "learning_rate": 3.6699832826509174e-06,
      "loss": 1.10377884,
      "memory(GiB)": 112.26,
      "step": 47810,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.73086586,
      "epoch": 1.212962962962963,
      "grad_norm": 3.625,
      "learning_rate": 3.6689724679316665e-06,
      "loss": 1.12183237,
      "memory(GiB)": 112.26,
      "step": 47815,
      "train_speed(iter/s)": 1.130263
    },
    {
      "acc": 0.73309765,
      "epoch": 1.213089802130898,
      "grad_norm": 3.953125,
      "learning_rate": 3.66796171175695e-06,
      "loss": 1.07648401,
      "memory(GiB)": 112.26,
      "step": 47820,
      "train_speed(iter/s)": 1.130278
    },
    {
      "acc": 0.74940653,
      "epoch": 1.213216641298833,
      "grad_norm": 3.4375,
      "learning_rate": 3.666951014171224e-06,
      "loss": 1.05132599,
      "memory(GiB)": 112.26,
      "step": 47825,
      "train_speed(iter/s)": 1.130304
    },
    {
      "acc": 0.73086309,
      "epoch": 1.2133434804667682,
      "grad_norm": 3.375,
      "learning_rate": 3.6659403752189453e-06,
      "loss": 1.03528194,
      "memory(GiB)": 112.26,
      "step": 47830,
      "train_speed(iter/s)": 1.130324
    },
    {
      "acc": 0.7469595,
      "epoch": 1.2134703196347032,
      "grad_norm": 3.59375,
      "learning_rate": 3.664929794944565e-06,
      "loss": 1.00585861,
      "memory(GiB)": 112.26,
      "step": 47835,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.74665012,
      "epoch": 1.2135971588026382,
      "grad_norm": 3.796875,
      "learning_rate": 3.663919273392532e-06,
      "loss": 1.01554527,
      "memory(GiB)": 112.26,
      "step": 47840,
      "train_speed(iter/s)": 1.130346
    },
    {
      "acc": 0.75822053,
      "epoch": 1.2137239979705734,
      "grad_norm": 3.015625,
      "learning_rate": 3.662908810607294e-06,
      "loss": 0.95216379,
      "memory(GiB)": 112.26,
      "step": 47845,
      "train_speed(iter/s)": 1.130359
    },
    {
      "acc": 0.74798951,
      "epoch": 1.2138508371385084,
      "grad_norm": 3.46875,
      "learning_rate": 3.6618984066332986e-06,
      "loss": 1.09644251,
      "memory(GiB)": 112.26,
      "step": 47850,
      "train_speed(iter/s)": 1.130366
    },
    {
      "acc": 0.75149765,
      "epoch": 1.2139776763064434,
      "grad_norm": 4.4375,
      "learning_rate": 3.660888061514984e-06,
      "loss": 1.02758217,
      "memory(GiB)": 112.26,
      "step": 47855,
      "train_speed(iter/s)": 1.130374
    },
    {
      "acc": 0.74659228,
      "epoch": 1.2141045154743786,
      "grad_norm": 4.09375,
      "learning_rate": 3.6598777752967896e-06,
      "loss": 1.08369522,
      "memory(GiB)": 112.26,
      "step": 47860,
      "train_speed(iter/s)": 1.13038
    },
    {
      "acc": 0.74815345,
      "epoch": 1.2142313546423136,
      "grad_norm": 3.828125,
      "learning_rate": 3.658867548023156e-06,
      "loss": 1.04073067,
      "memory(GiB)": 112.26,
      "step": 47865,
      "train_speed(iter/s)": 1.130401
    },
    {
      "acc": 0.74205923,
      "epoch": 1.2143581938102486,
      "grad_norm": 4.25,
      "learning_rate": 3.657857379738515e-06,
      "loss": 1.08877659,
      "memory(GiB)": 112.26,
      "step": 47870,
      "train_speed(iter/s)": 1.130407
    },
    {
      "acc": 0.73221965,
      "epoch": 1.2144850329781836,
      "grad_norm": 4.21875,
      "learning_rate": 3.656847270487298e-06,
      "loss": 1.10331917,
      "memory(GiB)": 112.26,
      "step": 47875,
      "train_speed(iter/s)": 1.130428
    },
    {
      "acc": 0.73226228,
      "epoch": 1.2146118721461188,
      "grad_norm": 3.671875,
      "learning_rate": 3.655837220313936e-06,
      "loss": 1.05668488,
      "memory(GiB)": 112.26,
      "step": 47880,
      "train_speed(iter/s)": 1.130442
    },
    {
      "acc": 0.72926178,
      "epoch": 1.2147387113140538,
      "grad_norm": 2.78125,
      "learning_rate": 3.654827229262852e-06,
      "loss": 1.08135033,
      "memory(GiB)": 112.26,
      "step": 47885,
      "train_speed(iter/s)": 1.130454
    },
    {
      "acc": 0.75224361,
      "epoch": 1.2148655504819887,
      "grad_norm": 3.59375,
      "learning_rate": 3.653817297378476e-06,
      "loss": 0.99142914,
      "memory(GiB)": 112.26,
      "step": 47890,
      "train_speed(iter/s)": 1.130468
    },
    {
      "acc": 0.7481761,
      "epoch": 1.214992389649924,
      "grad_norm": 3.78125,
      "learning_rate": 3.6528074247052225e-06,
      "loss": 1.01458225,
      "memory(GiB)": 112.26,
      "step": 47895,
      "train_speed(iter/s)": 1.130488
    },
    {
      "acc": 0.74656324,
      "epoch": 1.215119228817859,
      "grad_norm": 2.875,
      "learning_rate": 3.651797611287514e-06,
      "loss": 1.00521784,
      "memory(GiB)": 112.26,
      "step": 47900,
      "train_speed(iter/s)": 1.130504
    },
    {
      "acc": 0.75919371,
      "epoch": 1.215246067985794,
      "grad_norm": 4.84375,
      "learning_rate": 3.6507878571697646e-06,
      "loss": 1.00736046,
      "memory(GiB)": 112.26,
      "step": 47905,
      "train_speed(iter/s)": 1.130523
    },
    {
      "acc": 0.74441433,
      "epoch": 1.2153729071537291,
      "grad_norm": 3.90625,
      "learning_rate": 3.6497781623963915e-06,
      "loss": 1.0644907,
      "memory(GiB)": 112.26,
      "step": 47910,
      "train_speed(iter/s)": 1.130541
    },
    {
      "acc": 0.73686838,
      "epoch": 1.2154997463216641,
      "grad_norm": 3.4375,
      "learning_rate": 3.648768527011802e-06,
      "loss": 1.07681541,
      "memory(GiB)": 112.26,
      "step": 47915,
      "train_speed(iter/s)": 1.130548
    },
    {
      "acc": 0.73749847,
      "epoch": 1.2156265854895991,
      "grad_norm": 3.6875,
      "learning_rate": 3.6477589510604044e-06,
      "loss": 1.08436842,
      "memory(GiB)": 112.26,
      "step": 47920,
      "train_speed(iter/s)": 1.130573
    },
    {
      "acc": 0.73665605,
      "epoch": 1.2157534246575343,
      "grad_norm": 3.109375,
      "learning_rate": 3.646749434586607e-06,
      "loss": 1.06292095,
      "memory(GiB)": 112.26,
      "step": 47925,
      "train_speed(iter/s)": 1.13059
    },
    {
      "acc": 0.75514708,
      "epoch": 1.2158802638254693,
      "grad_norm": 4.5625,
      "learning_rate": 3.645739977634811e-06,
      "loss": 1.00561552,
      "memory(GiB)": 112.26,
      "step": 47930,
      "train_speed(iter/s)": 1.130607
    },
    {
      "acc": 0.74438581,
      "epoch": 1.2160071029934043,
      "grad_norm": 3.609375,
      "learning_rate": 3.6447305802494177e-06,
      "loss": 1.03853693,
      "memory(GiB)": 112.26,
      "step": 47935,
      "train_speed(iter/s)": 1.130626
    },
    {
      "acc": 0.7403995,
      "epoch": 1.2161339421613393,
      "grad_norm": 3.96875,
      "learning_rate": 3.6437212424748227e-06,
      "loss": 1.09123526,
      "memory(GiB)": 112.26,
      "step": 47940,
      "train_speed(iter/s)": 1.13065
    },
    {
      "acc": 0.74214458,
      "epoch": 1.2162607813292745,
      "grad_norm": 4.28125,
      "learning_rate": 3.642711964355423e-06,
      "loss": 1.07695351,
      "memory(GiB)": 112.26,
      "step": 47945,
      "train_speed(iter/s)": 1.130655
    },
    {
      "acc": 0.72952752,
      "epoch": 1.2163876204972095,
      "grad_norm": 4.5625,
      "learning_rate": 3.6417027459356134e-06,
      "loss": 1.09301777,
      "memory(GiB)": 112.26,
      "step": 47950,
      "train_speed(iter/s)": 1.130665
    },
    {
      "acc": 0.72445049,
      "epoch": 1.2165144596651447,
      "grad_norm": 3.5625,
      "learning_rate": 3.640693587259778e-06,
      "loss": 1.14716864,
      "memory(GiB)": 112.26,
      "step": 47955,
      "train_speed(iter/s)": 1.130677
    },
    {
      "acc": 0.72660336,
      "epoch": 1.2166412988330797,
      "grad_norm": 3.046875,
      "learning_rate": 3.6396844883723092e-06,
      "loss": 1.12047091,
      "memory(GiB)": 112.26,
      "step": 47960,
      "train_speed(iter/s)": 1.130693
    },
    {
      "acc": 0.74490261,
      "epoch": 1.2167681380010147,
      "grad_norm": 3.71875,
      "learning_rate": 3.6386754493175893e-06,
      "loss": 1.10898314,
      "memory(GiB)": 112.26,
      "step": 47965,
      "train_speed(iter/s)": 1.130709
    },
    {
      "acc": 0.73757811,
      "epoch": 1.2168949771689497,
      "grad_norm": 2.984375,
      "learning_rate": 3.637666470140003e-06,
      "loss": 1.05373287,
      "memory(GiB)": 112.26,
      "step": 47970,
      "train_speed(iter/s)": 1.130719
    },
    {
      "acc": 0.74406242,
      "epoch": 1.2170218163368849,
      "grad_norm": 3.609375,
      "learning_rate": 3.6366575508839265e-06,
      "loss": 1.05199394,
      "memory(GiB)": 112.26,
      "step": 47975,
      "train_speed(iter/s)": 1.130737
    },
    {
      "acc": 0.73867664,
      "epoch": 1.2171486555048199,
      "grad_norm": 4.0,
      "learning_rate": 3.635648691593737e-06,
      "loss": 1.12526245,
      "memory(GiB)": 112.26,
      "step": 47980,
      "train_speed(iter/s)": 1.130745
    },
    {
      "acc": 0.74084511,
      "epoch": 1.2172754946727549,
      "grad_norm": 3.484375,
      "learning_rate": 3.6346398923138094e-06,
      "loss": 1.05754118,
      "memory(GiB)": 112.26,
      "step": 47985,
      "train_speed(iter/s)": 1.13076
    },
    {
      "acc": 0.73894567,
      "epoch": 1.21740233384069,
      "grad_norm": 3.328125,
      "learning_rate": 3.633631153088517e-06,
      "loss": 1.05119152,
      "memory(GiB)": 112.26,
      "step": 47990,
      "train_speed(iter/s)": 1.130775
    },
    {
      "acc": 0.73475027,
      "epoch": 1.217529173008625,
      "grad_norm": 3.96875,
      "learning_rate": 3.6326224739622255e-06,
      "loss": 1.13307133,
      "memory(GiB)": 112.26,
      "step": 47995,
      "train_speed(iter/s)": 1.130788
    },
    {
      "acc": 0.73369112,
      "epoch": 1.21765601217656,
      "grad_norm": 4.375,
      "learning_rate": 3.6316138549793024e-06,
      "loss": 1.06445274,
      "memory(GiB)": 112.26,
      "step": 48000,
      "train_speed(iter/s)": 1.130801
    },
    {
      "epoch": 1.21765601217656,
      "eval_acc": 0.725718533925577,
      "eval_loss": 1.0447882413864136,
      "eval_runtime": 70.9465,
      "eval_samples_per_second": 89.786,
      "eval_steps_per_second": 22.454,
      "step": 48000
    },
    {
      "acc": 0.74493346,
      "epoch": 1.2177828513444953,
      "grad_norm": 3.90625,
      "learning_rate": 3.630605296184111e-06,
      "loss": 1.00640354,
      "memory(GiB)": 112.26,
      "step": 48005,
      "train_speed(iter/s)": 1.127745
    },
    {
      "acc": 0.73213692,
      "epoch": 1.2179096905124303,
      "grad_norm": 3.765625,
      "learning_rate": 3.6295967976210146e-06,
      "loss": 1.10627365,
      "memory(GiB)": 112.26,
      "step": 48010,
      "train_speed(iter/s)": 1.127758
    },
    {
      "acc": 0.72848754,
      "epoch": 1.2180365296803652,
      "grad_norm": 3.84375,
      "learning_rate": 3.6285883593343685e-06,
      "loss": 1.12382584,
      "memory(GiB)": 112.26,
      "step": 48015,
      "train_speed(iter/s)": 1.127775
    },
    {
      "acc": 0.74271173,
      "epoch": 1.2181633688483005,
      "grad_norm": 3.734375,
      "learning_rate": 3.6275799813685274e-06,
      "loss": 1.06569347,
      "memory(GiB)": 112.26,
      "step": 48020,
      "train_speed(iter/s)": 1.127793
    },
    {
      "acc": 0.73433652,
      "epoch": 1.2182902080162354,
      "grad_norm": 3.5,
      "learning_rate": 3.6265716637678484e-06,
      "loss": 1.06932726,
      "memory(GiB)": 112.26,
      "step": 48025,
      "train_speed(iter/s)": 1.127813
    },
    {
      "acc": 0.74245596,
      "epoch": 1.2184170471841704,
      "grad_norm": 4.3125,
      "learning_rate": 3.62556340657668e-06,
      "loss": 1.04233236,
      "memory(GiB)": 112.26,
      "step": 48030,
      "train_speed(iter/s)": 1.127831
    },
    {
      "acc": 0.74367557,
      "epoch": 1.2185438863521054,
      "grad_norm": 3.65625,
      "learning_rate": 3.6245552098393665e-06,
      "loss": 1.1025836,
      "memory(GiB)": 112.26,
      "step": 48035,
      "train_speed(iter/s)": 1.127852
    },
    {
      "acc": 0.74275889,
      "epoch": 1.2186707255200406,
      "grad_norm": 3.546875,
      "learning_rate": 3.6235470736002576e-06,
      "loss": 1.02811337,
      "memory(GiB)": 112.26,
      "step": 48040,
      "train_speed(iter/s)": 1.12787
    },
    {
      "acc": 0.74833713,
      "epoch": 1.2187975646879756,
      "grad_norm": 3.28125,
      "learning_rate": 3.622538997903693e-06,
      "loss": 1.05354605,
      "memory(GiB)": 112.26,
      "step": 48045,
      "train_speed(iter/s)": 1.127886
    },
    {
      "acc": 0.7404685,
      "epoch": 1.2189244038559106,
      "grad_norm": 3.96875,
      "learning_rate": 3.621530982794015e-06,
      "loss": 1.06912098,
      "memory(GiB)": 112.26,
      "step": 48050,
      "train_speed(iter/s)": 1.127899
    },
    {
      "acc": 0.73073721,
      "epoch": 1.2190512430238458,
      "grad_norm": 3.9375,
      "learning_rate": 3.620523028315558e-06,
      "loss": 1.09500427,
      "memory(GiB)": 112.26,
      "step": 48055,
      "train_speed(iter/s)": 1.12791
    },
    {
      "acc": 0.73608103,
      "epoch": 1.2191780821917808,
      "grad_norm": 3.90625,
      "learning_rate": 3.6195151345126556e-06,
      "loss": 1.11886368,
      "memory(GiB)": 112.26,
      "step": 48060,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.75189848,
      "epoch": 1.2193049213597158,
      "grad_norm": 3.1875,
      "learning_rate": 3.6185073014296425e-06,
      "loss": 1.01834393,
      "memory(GiB)": 112.26,
      "step": 48065,
      "train_speed(iter/s)": 1.127937
    },
    {
      "acc": 0.74424133,
      "epoch": 1.219431760527651,
      "grad_norm": 4.125,
      "learning_rate": 3.6174995291108474e-06,
      "loss": 1.01613131,
      "memory(GiB)": 112.26,
      "step": 48070,
      "train_speed(iter/s)": 1.127951
    },
    {
      "acc": 0.73081322,
      "epoch": 1.219558599695586,
      "grad_norm": 3.90625,
      "learning_rate": 3.6164918176005937e-06,
      "loss": 1.07472343,
      "memory(GiB)": 112.26,
      "step": 48075,
      "train_speed(iter/s)": 1.127963
    },
    {
      "acc": 0.73008785,
      "epoch": 1.219685438863521,
      "grad_norm": 3.40625,
      "learning_rate": 3.6154841669432062e-06,
      "loss": 1.0520051,
      "memory(GiB)": 112.26,
      "step": 48080,
      "train_speed(iter/s)": 1.127967
    },
    {
      "acc": 0.74582844,
      "epoch": 1.2198122780314562,
      "grad_norm": 3.59375,
      "learning_rate": 3.614476577183007e-06,
      "loss": 1.02306862,
      "memory(GiB)": 112.26,
      "step": 48085,
      "train_speed(iter/s)": 1.12799
    },
    {
      "acc": 0.74213657,
      "epoch": 1.2199391171993912,
      "grad_norm": 3.078125,
      "learning_rate": 3.6134690483643154e-06,
      "loss": 1.03296814,
      "memory(GiB)": 112.26,
      "step": 48090,
      "train_speed(iter/s)": 1.128006
    },
    {
      "acc": 0.73267446,
      "epoch": 1.2200659563673262,
      "grad_norm": 3.875,
      "learning_rate": 3.6124615805314434e-06,
      "loss": 1.0759738,
      "memory(GiB)": 112.26,
      "step": 48095,
      "train_speed(iter/s)": 1.128023
    },
    {
      "acc": 0.72880325,
      "epoch": 1.2201927955352612,
      "grad_norm": 3.609375,
      "learning_rate": 3.611454173728707e-06,
      "loss": 1.07624779,
      "memory(GiB)": 112.26,
      "step": 48100,
      "train_speed(iter/s)": 1.128041
    },
    {
      "acc": 0.74661889,
      "epoch": 1.2203196347031964,
      "grad_norm": 3.515625,
      "learning_rate": 3.610446828000414e-06,
      "loss": 1.041401,
      "memory(GiB)": 112.26,
      "step": 48105,
      "train_speed(iter/s)": 1.128062
    },
    {
      "acc": 0.73884363,
      "epoch": 1.2204464738711314,
      "grad_norm": 3.34375,
      "learning_rate": 3.609439543390877e-06,
      "loss": 1.06830988,
      "memory(GiB)": 112.26,
      "step": 48110,
      "train_speed(iter/s)": 1.128089
    },
    {
      "acc": 0.73641,
      "epoch": 1.2205733130390666,
      "grad_norm": 4.21875,
      "learning_rate": 3.608432319944394e-06,
      "loss": 1.08424473,
      "memory(GiB)": 112.26,
      "step": 48115,
      "train_speed(iter/s)": 1.128105
    },
    {
      "acc": 0.73845854,
      "epoch": 1.2207001522070016,
      "grad_norm": 4.625,
      "learning_rate": 3.607425157705271e-06,
      "loss": 1.03557777,
      "memory(GiB)": 112.26,
      "step": 48120,
      "train_speed(iter/s)": 1.128122
    },
    {
      "acc": 0.74134073,
      "epoch": 1.2208269913749366,
      "grad_norm": 3.296875,
      "learning_rate": 3.6064180567178064e-06,
      "loss": 1.06341143,
      "memory(GiB)": 112.26,
      "step": 48125,
      "train_speed(iter/s)": 1.128144
    },
    {
      "acc": 0.74482975,
      "epoch": 1.2209538305428715,
      "grad_norm": 3.453125,
      "learning_rate": 3.6054110170263002e-06,
      "loss": 1.04716129,
      "memory(GiB)": 112.26,
      "step": 48130,
      "train_speed(iter/s)": 1.128147
    },
    {
      "acc": 0.74476833,
      "epoch": 1.2210806697108068,
      "grad_norm": 4.8125,
      "learning_rate": 3.6044040386750423e-06,
      "loss": 1.03860626,
      "memory(GiB)": 112.26,
      "step": 48135,
      "train_speed(iter/s)": 1.128168
    },
    {
      "acc": 0.75122752,
      "epoch": 1.2212075088787417,
      "grad_norm": 4.25,
      "learning_rate": 3.6033971217083242e-06,
      "loss": 1.01860542,
      "memory(GiB)": 112.26,
      "step": 48140,
      "train_speed(iter/s)": 1.12818
    },
    {
      "acc": 0.74772272,
      "epoch": 1.2213343480466767,
      "grad_norm": 3.359375,
      "learning_rate": 3.602390266170438e-06,
      "loss": 1.01340036,
      "memory(GiB)": 112.26,
      "step": 48145,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.74154043,
      "epoch": 1.221461187214612,
      "grad_norm": 4.625,
      "learning_rate": 3.6013834721056683e-06,
      "loss": 1.05065231,
      "memory(GiB)": 112.26,
      "step": 48150,
      "train_speed(iter/s)": 1.128222
    },
    {
      "acc": 0.75382118,
      "epoch": 1.221588026382547,
      "grad_norm": 3.921875,
      "learning_rate": 3.6003767395582967e-06,
      "loss": 0.93503809,
      "memory(GiB)": 112.26,
      "step": 48155,
      "train_speed(iter/s)": 1.128242
    },
    {
      "acc": 0.7432189,
      "epoch": 1.221714865550482,
      "grad_norm": 4.25,
      "learning_rate": 3.599370068572604e-06,
      "loss": 0.99569778,
      "memory(GiB)": 112.26,
      "step": 48160,
      "train_speed(iter/s)": 1.128249
    },
    {
      "acc": 0.7390729,
      "epoch": 1.2218417047184171,
      "grad_norm": 3.78125,
      "learning_rate": 3.5983634591928705e-06,
      "loss": 1.06230831,
      "memory(GiB)": 112.26,
      "step": 48165,
      "train_speed(iter/s)": 1.128261
    },
    {
      "acc": 0.74627562,
      "epoch": 1.2219685438863521,
      "grad_norm": 3.546875,
      "learning_rate": 3.5973569114633704e-06,
      "loss": 1.04459352,
      "memory(GiB)": 112.26,
      "step": 48170,
      "train_speed(iter/s)": 1.128274
    },
    {
      "acc": 0.74527454,
      "epoch": 1.222095383054287,
      "grad_norm": 3.921875,
      "learning_rate": 3.5963504254283743e-06,
      "loss": 1.07076588,
      "memory(GiB)": 112.26,
      "step": 48175,
      "train_speed(iter/s)": 1.128286
    },
    {
      "acc": 0.74159703,
      "epoch": 1.2222222222222223,
      "grad_norm": 3.5,
      "learning_rate": 3.595344001132154e-06,
      "loss": 1.02762585,
      "memory(GiB)": 112.26,
      "step": 48180,
      "train_speed(iter/s)": 1.12831
    },
    {
      "acc": 0.73821983,
      "epoch": 1.2223490613901573,
      "grad_norm": 3.484375,
      "learning_rate": 3.5943376386189744e-06,
      "loss": 1.04407635,
      "memory(GiB)": 112.26,
      "step": 48185,
      "train_speed(iter/s)": 1.128321
    },
    {
      "acc": 0.75126791,
      "epoch": 1.2224759005580923,
      "grad_norm": 3.875,
      "learning_rate": 3.5933313379331047e-06,
      "loss": 1.03639889,
      "memory(GiB)": 112.26,
      "step": 48190,
      "train_speed(iter/s)": 1.128331
    },
    {
      "acc": 0.73569083,
      "epoch": 1.2226027397260273,
      "grad_norm": 3.390625,
      "learning_rate": 3.5923250991188e-06,
      "loss": 1.10693913,
      "memory(GiB)": 112.26,
      "step": 48195,
      "train_speed(iter/s)": 1.128333
    },
    {
      "acc": 0.7294961,
      "epoch": 1.2227295788939625,
      "grad_norm": 4.0,
      "learning_rate": 3.591318922220324e-06,
      "loss": 1.08411837,
      "memory(GiB)": 112.26,
      "step": 48200,
      "train_speed(iter/s)": 1.128343
    },
    {
      "acc": 0.74498997,
      "epoch": 1.2228564180618975,
      "grad_norm": 4.53125,
      "learning_rate": 3.5903128072819287e-06,
      "loss": 1.06914148,
      "memory(GiB)": 112.26,
      "step": 48205,
      "train_speed(iter/s)": 1.128359
    },
    {
      "acc": 0.73829436,
      "epoch": 1.2229832572298325,
      "grad_norm": 3.96875,
      "learning_rate": 3.5893067543478733e-06,
      "loss": 1.07236557,
      "memory(GiB)": 112.26,
      "step": 48210,
      "train_speed(iter/s)": 1.128382
    },
    {
      "acc": 0.7249928,
      "epoch": 1.2231100963977677,
      "grad_norm": 3.859375,
      "learning_rate": 3.5883007634624033e-06,
      "loss": 1.12663498,
      "memory(GiB)": 112.26,
      "step": 48215,
      "train_speed(iter/s)": 1.12839
    },
    {
      "acc": 0.73869314,
      "epoch": 1.2232369355657027,
      "grad_norm": 3.3125,
      "learning_rate": 3.5872948346697676e-06,
      "loss": 1.02125063,
      "memory(GiB)": 112.26,
      "step": 48220,
      "train_speed(iter/s)": 1.128413
    },
    {
      "acc": 0.7627192,
      "epoch": 1.2233637747336377,
      "grad_norm": 3.71875,
      "learning_rate": 3.5862889680142133e-06,
      "loss": 1.01820784,
      "memory(GiB)": 112.26,
      "step": 48225,
      "train_speed(iter/s)": 1.128423
    },
    {
      "acc": 0.73914967,
      "epoch": 1.2234906139015729,
      "grad_norm": 3.609375,
      "learning_rate": 3.5852831635399833e-06,
      "loss": 1.07382584,
      "memory(GiB)": 112.26,
      "step": 48230,
      "train_speed(iter/s)": 1.128315
    },
    {
      "acc": 0.74200382,
      "epoch": 1.2236174530695079,
      "grad_norm": 3.78125,
      "learning_rate": 3.5842774212913144e-06,
      "loss": 1.07747307,
      "memory(GiB)": 112.26,
      "step": 48235,
      "train_speed(iter/s)": 1.128331
    },
    {
      "acc": 0.74278693,
      "epoch": 1.2237442922374429,
      "grad_norm": 3.9375,
      "learning_rate": 3.583271741312445e-06,
      "loss": 1.05820398,
      "memory(GiB)": 112.26,
      "step": 48240,
      "train_speed(iter/s)": 1.12835
    },
    {
      "acc": 0.74216094,
      "epoch": 1.223871131405378,
      "grad_norm": 4.75,
      "learning_rate": 3.58226612364761e-06,
      "loss": 1.04410105,
      "memory(GiB)": 112.26,
      "step": 48245,
      "train_speed(iter/s)": 1.128372
    },
    {
      "acc": 0.74802608,
      "epoch": 1.223997970573313,
      "grad_norm": 3.546875,
      "learning_rate": 3.581260568341042e-06,
      "loss": 1.0191781,
      "memory(GiB)": 112.26,
      "step": 48250,
      "train_speed(iter/s)": 1.128396
    },
    {
      "acc": 0.73132544,
      "epoch": 1.224124809741248,
      "grad_norm": 3.765625,
      "learning_rate": 3.580255075436967e-06,
      "loss": 1.10849743,
      "memory(GiB)": 112.26,
      "step": 48255,
      "train_speed(iter/s)": 1.12842
    },
    {
      "acc": 0.73531718,
      "epoch": 1.224251648909183,
      "grad_norm": 3.15625,
      "learning_rate": 3.5792496449796127e-06,
      "loss": 1.05001631,
      "memory(GiB)": 112.26,
      "step": 48260,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.75075431,
      "epoch": 1.2243784880771182,
      "grad_norm": 3.375,
      "learning_rate": 3.578244277013201e-06,
      "loss": 1.03464479,
      "memory(GiB)": 112.26,
      "step": 48265,
      "train_speed(iter/s)": 1.128443
    },
    {
      "acc": 0.74429293,
      "epoch": 1.2245053272450532,
      "grad_norm": 3.0,
      "learning_rate": 3.5772389715819568e-06,
      "loss": 1.07897892,
      "memory(GiB)": 112.26,
      "step": 48270,
      "train_speed(iter/s)": 1.128453
    },
    {
      "acc": 0.75063987,
      "epoch": 1.2246321664129884,
      "grad_norm": 3.828125,
      "learning_rate": 3.5762337287300925e-06,
      "loss": 1.04159679,
      "memory(GiB)": 112.26,
      "step": 48275,
      "train_speed(iter/s)": 1.12848
    },
    {
      "acc": 0.73484697,
      "epoch": 1.2247590055809234,
      "grad_norm": 3.5,
      "learning_rate": 3.575228548501825e-06,
      "loss": 1.05940514,
      "memory(GiB)": 112.26,
      "step": 48280,
      "train_speed(iter/s)": 1.128501
    },
    {
      "acc": 0.73581057,
      "epoch": 1.2248858447488584,
      "grad_norm": 3.953125,
      "learning_rate": 3.574223430941368e-06,
      "loss": 1.05761223,
      "memory(GiB)": 112.26,
      "step": 48285,
      "train_speed(iter/s)": 1.128515
    },
    {
      "acc": 0.72758574,
      "epoch": 1.2250126839167934,
      "grad_norm": 4.28125,
      "learning_rate": 3.573218376092932e-06,
      "loss": 1.14195518,
      "memory(GiB)": 112.26,
      "step": 48290,
      "train_speed(iter/s)": 1.12854
    },
    {
      "acc": 0.74451141,
      "epoch": 1.2251395230847286,
      "grad_norm": 4.375,
      "learning_rate": 3.5722133840007197e-06,
      "loss": 1.05486088,
      "memory(GiB)": 112.26,
      "step": 48295,
      "train_speed(iter/s)": 1.128563
    },
    {
      "acc": 0.7377862,
      "epoch": 1.2252663622526636,
      "grad_norm": 4.375,
      "learning_rate": 3.5712084547089367e-06,
      "loss": 1.01145763,
      "memory(GiB)": 112.26,
      "step": 48300,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.75134683,
      "epoch": 1.2253932014205986,
      "grad_norm": 4.03125,
      "learning_rate": 3.5702035882617857e-06,
      "loss": 1.03865528,
      "memory(GiB)": 112.26,
      "step": 48305,
      "train_speed(iter/s)": 1.128597
    },
    {
      "acc": 0.73519487,
      "epoch": 1.2255200405885338,
      "grad_norm": 4.09375,
      "learning_rate": 3.5691987847034667e-06,
      "loss": 1.09767008,
      "memory(GiB)": 112.26,
      "step": 48310,
      "train_speed(iter/s)": 1.128597
    },
    {
      "acc": 0.73893652,
      "epoch": 1.2256468797564688,
      "grad_norm": 4.21875,
      "learning_rate": 3.5681940440781705e-06,
      "loss": 1.07172194,
      "memory(GiB)": 112.26,
      "step": 48315,
      "train_speed(iter/s)": 1.128604
    },
    {
      "acc": 0.74449296,
      "epoch": 1.2257737189244038,
      "grad_norm": 3.59375,
      "learning_rate": 3.5671893664300934e-06,
      "loss": 1.03056755,
      "memory(GiB)": 112.26,
      "step": 48320,
      "train_speed(iter/s)": 1.128616
    },
    {
      "acc": 0.75955424,
      "epoch": 1.225900558092339,
      "grad_norm": 3.375,
      "learning_rate": 3.5661847518034244e-06,
      "loss": 0.95654049,
      "memory(GiB)": 112.26,
      "step": 48325,
      "train_speed(iter/s)": 1.128636
    },
    {
      "acc": 0.72672968,
      "epoch": 1.226027397260274,
      "grad_norm": 3.46875,
      "learning_rate": 3.5651802002423543e-06,
      "loss": 1.0887043,
      "memory(GiB)": 112.26,
      "step": 48330,
      "train_speed(iter/s)": 1.128649
    },
    {
      "acc": 0.75017114,
      "epoch": 1.226154236428209,
      "grad_norm": 4.1875,
      "learning_rate": 3.5641757117910625e-06,
      "loss": 1.02875309,
      "memory(GiB)": 112.26,
      "step": 48335,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.72803407,
      "epoch": 1.2262810755961442,
      "grad_norm": 3.6875,
      "learning_rate": 3.563171286493734e-06,
      "loss": 1.09628954,
      "memory(GiB)": 112.26,
      "step": 48340,
      "train_speed(iter/s)": 1.128666
    },
    {
      "acc": 0.72503643,
      "epoch": 1.2264079147640792,
      "grad_norm": 3.875,
      "learning_rate": 3.5621669243945457e-06,
      "loss": 1.09303055,
      "memory(GiB)": 112.26,
      "step": 48345,
      "train_speed(iter/s)": 1.128672
    },
    {
      "acc": 0.73594337,
      "epoch": 1.2265347539320142,
      "grad_norm": 3.34375,
      "learning_rate": 3.5611626255376785e-06,
      "loss": 1.05293503,
      "memory(GiB)": 112.26,
      "step": 48350,
      "train_speed(iter/s)": 1.128692
    },
    {
      "acc": 0.7522583,
      "epoch": 1.2266615930999492,
      "grad_norm": 3.46875,
      "learning_rate": 3.560158389967302e-06,
      "loss": 1.06961727,
      "memory(GiB)": 112.26,
      "step": 48355,
      "train_speed(iter/s)": 1.12871
    },
    {
      "acc": 0.73923025,
      "epoch": 1.2267884322678844,
      "grad_norm": 5.0625,
      "learning_rate": 3.559154217727586e-06,
      "loss": 1.09647007,
      "memory(GiB)": 112.26,
      "step": 48360,
      "train_speed(iter/s)": 1.128721
    },
    {
      "acc": 0.73286381,
      "epoch": 1.2269152714358194,
      "grad_norm": 3.765625,
      "learning_rate": 3.5581501088627026e-06,
      "loss": 1.11977291,
      "memory(GiB)": 112.26,
      "step": 48365,
      "train_speed(iter/s)": 1.128743
    },
    {
      "acc": 0.74181542,
      "epoch": 1.2270421106037543,
      "grad_norm": 3.921875,
      "learning_rate": 3.557146063416815e-06,
      "loss": 1.06381197,
      "memory(GiB)": 112.26,
      "step": 48370,
      "train_speed(iter/s)": 1.128752
    },
    {
      "acc": 0.73658481,
      "epoch": 1.2271689497716896,
      "grad_norm": 3.78125,
      "learning_rate": 3.5561420814340843e-06,
      "loss": 1.09898777,
      "memory(GiB)": 112.26,
      "step": 48375,
      "train_speed(iter/s)": 1.128775
    },
    {
      "acc": 0.72587142,
      "epoch": 1.2272957889396245,
      "grad_norm": 4.1875,
      "learning_rate": 3.555138162958671e-06,
      "loss": 1.1248208,
      "memory(GiB)": 112.26,
      "step": 48380,
      "train_speed(iter/s)": 1.12878
    },
    {
      "acc": 0.74489632,
      "epoch": 1.2274226281075595,
      "grad_norm": 4.125,
      "learning_rate": 3.5541343080347325e-06,
      "loss": 1.01003838,
      "memory(GiB)": 112.26,
      "step": 48385,
      "train_speed(iter/s)": 1.128801
    },
    {
      "acc": 0.73616762,
      "epoch": 1.2275494672754947,
      "grad_norm": 3.59375,
      "learning_rate": 3.5531305167064234e-06,
      "loss": 1.06653166,
      "memory(GiB)": 112.26,
      "step": 48390,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.74761086,
      "epoch": 1.2276763064434297,
      "grad_norm": 3.84375,
      "learning_rate": 3.5521267890178922e-06,
      "loss": 1.04270115,
      "memory(GiB)": 112.26,
      "step": 48395,
      "train_speed(iter/s)": 1.128816
    },
    {
      "acc": 0.73849635,
      "epoch": 1.2278031456113647,
      "grad_norm": 3.203125,
      "learning_rate": 3.5511231250132905e-06,
      "loss": 1.03416615,
      "memory(GiB)": 112.26,
      "step": 48400,
      "train_speed(iter/s)": 1.128826
    },
    {
      "acc": 0.74562736,
      "epoch": 1.2279299847793,
      "grad_norm": 3.21875,
      "learning_rate": 3.550119524736761e-06,
      "loss": 1.07674122,
      "memory(GiB)": 112.26,
      "step": 48405,
      "train_speed(iter/s)": 1.128839
    },
    {
      "acc": 0.73037434,
      "epoch": 1.228056823947235,
      "grad_norm": 4.25,
      "learning_rate": 3.5491159882324513e-06,
      "loss": 1.04975243,
      "memory(GiB)": 112.26,
      "step": 48410,
      "train_speed(iter/s)": 1.128843
    },
    {
      "acc": 0.73748655,
      "epoch": 1.22818366311517,
      "grad_norm": 3.421875,
      "learning_rate": 3.548112515544495e-06,
      "loss": 1.04499302,
      "memory(GiB)": 112.26,
      "step": 48415,
      "train_speed(iter/s)": 1.128863
    },
    {
      "acc": 0.7509481,
      "epoch": 1.228310502283105,
      "grad_norm": 4.5625,
      "learning_rate": 3.547109106717034e-06,
      "loss": 1.05038261,
      "memory(GiB)": 112.26,
      "step": 48420,
      "train_speed(iter/s)": 1.128879
    },
    {
      "acc": 0.73776102,
      "epoch": 1.22843734145104,
      "grad_norm": 3.65625,
      "learning_rate": 3.546105761794199e-06,
      "loss": 1.0723217,
      "memory(GiB)": 112.26,
      "step": 48425,
      "train_speed(iter/s)": 1.128896
    },
    {
      "acc": 0.74339805,
      "epoch": 1.228564180618975,
      "grad_norm": 3.4375,
      "learning_rate": 3.5451024808201268e-06,
      "loss": 1.04721909,
      "memory(GiB)": 112.26,
      "step": 48430,
      "train_speed(iter/s)": 1.128922
    },
    {
      "acc": 0.72009525,
      "epoch": 1.2286910197869103,
      "grad_norm": 3.59375,
      "learning_rate": 3.5440992638389417e-06,
      "loss": 1.12088737,
      "memory(GiB)": 112.26,
      "step": 48435,
      "train_speed(iter/s)": 1.12892
    },
    {
      "acc": 0.74533401,
      "epoch": 1.2288178589548453,
      "grad_norm": 3.859375,
      "learning_rate": 3.5430961108947705e-06,
      "loss": 1.06928425,
      "memory(GiB)": 112.26,
      "step": 48440,
      "train_speed(iter/s)": 1.128937
    },
    {
      "acc": 0.72519794,
      "epoch": 1.2289446981227803,
      "grad_norm": 3.21875,
      "learning_rate": 3.5420930220317373e-06,
      "loss": 1.06412907,
      "memory(GiB)": 112.26,
      "step": 48445,
      "train_speed(iter/s)": 1.128832
    },
    {
      "acc": 0.75574412,
      "epoch": 1.2290715372907153,
      "grad_norm": 3.703125,
      "learning_rate": 3.541089997293964e-06,
      "loss": 0.99033527,
      "memory(GiB)": 112.26,
      "step": 48450,
      "train_speed(iter/s)": 1.128852
    },
    {
      "acc": 0.74993024,
      "epoch": 1.2291983764586505,
      "grad_norm": 4.21875,
      "learning_rate": 3.5400870367255635e-06,
      "loss": 1.00907478,
      "memory(GiB)": 112.26,
      "step": 48455,
      "train_speed(iter/s)": 1.128875
    },
    {
      "acc": 0.73573189,
      "epoch": 1.2293252156265855,
      "grad_norm": 4.4375,
      "learning_rate": 3.539084140370654e-06,
      "loss": 1.02381124,
      "memory(GiB)": 112.26,
      "step": 48460,
      "train_speed(iter/s)": 1.128892
    },
    {
      "acc": 0.74255714,
      "epoch": 1.2294520547945205,
      "grad_norm": 3.546875,
      "learning_rate": 3.538081308273347e-06,
      "loss": 1.08936672,
      "memory(GiB)": 112.26,
      "step": 48465,
      "train_speed(iter/s)": 1.128905
    },
    {
      "acc": 0.7453135,
      "epoch": 1.2295788939624557,
      "grad_norm": 4.3125,
      "learning_rate": 3.537078540477752e-06,
      "loss": 1.02870102,
      "memory(GiB)": 112.26,
      "step": 48470,
      "train_speed(iter/s)": 1.128919
    },
    {
      "acc": 0.72324896,
      "epoch": 1.2297057331303907,
      "grad_norm": 3.640625,
      "learning_rate": 3.5360758370279722e-06,
      "loss": 1.09748859,
      "memory(GiB)": 112.26,
      "step": 48475,
      "train_speed(iter/s)": 1.128938
    },
    {
      "acc": 0.7551755,
      "epoch": 1.2298325722983257,
      "grad_norm": 3.484375,
      "learning_rate": 3.535073197968114e-06,
      "loss": 1.00035915,
      "memory(GiB)": 112.26,
      "step": 48480,
      "train_speed(iter/s)": 1.128956
    },
    {
      "acc": 0.73796062,
      "epoch": 1.2299594114662609,
      "grad_norm": 3.9375,
      "learning_rate": 3.5340706233422763e-06,
      "loss": 1.09914112,
      "memory(GiB)": 112.26,
      "step": 48485,
      "train_speed(iter/s)": 1.128971
    },
    {
      "acc": 0.73491826,
      "epoch": 1.2300862506341959,
      "grad_norm": 4.03125,
      "learning_rate": 3.5330681131945588e-06,
      "loss": 1.09071598,
      "memory(GiB)": 112.26,
      "step": 48490,
      "train_speed(iter/s)": 1.128993
    },
    {
      "acc": 0.73197174,
      "epoch": 1.2302130898021308,
      "grad_norm": 3.390625,
      "learning_rate": 3.5320656675690546e-06,
      "loss": 1.040481,
      "memory(GiB)": 112.26,
      "step": 48495,
      "train_speed(iter/s)": 1.129003
    },
    {
      "acc": 0.74155264,
      "epoch": 1.230339928970066,
      "grad_norm": 3.859375,
      "learning_rate": 3.531063286509855e-06,
      "loss": 1.03614502,
      "memory(GiB)": 112.26,
      "step": 48500,
      "train_speed(iter/s)": 1.129004
    },
    {
      "acc": 0.74386621,
      "epoch": 1.230466768138001,
      "grad_norm": 4.0,
      "learning_rate": 3.530060970061051e-06,
      "loss": 1.06662722,
      "memory(GiB)": 112.26,
      "step": 48505,
      "train_speed(iter/s)": 1.129025
    },
    {
      "acc": 0.73400097,
      "epoch": 1.230593607305936,
      "grad_norm": 3.578125,
      "learning_rate": 3.52905871826673e-06,
      "loss": 1.11464939,
      "memory(GiB)": 112.26,
      "step": 48510,
      "train_speed(iter/s)": 1.129036
    },
    {
      "acc": 0.73739796,
      "epoch": 1.230720446473871,
      "grad_norm": 3.4375,
      "learning_rate": 3.5280565311709725e-06,
      "loss": 1.01829891,
      "memory(GiB)": 112.26,
      "step": 48515,
      "train_speed(iter/s)": 1.129053
    },
    {
      "acc": 0.73920779,
      "epoch": 1.2308472856418062,
      "grad_norm": 4.125,
      "learning_rate": 3.5270544088178597e-06,
      "loss": 1.07922401,
      "memory(GiB)": 112.26,
      "step": 48520,
      "train_speed(iter/s)": 1.129062
    },
    {
      "acc": 0.73403335,
      "epoch": 1.2309741248097412,
      "grad_norm": 3.5,
      "learning_rate": 3.526052351251471e-06,
      "loss": 1.09113655,
      "memory(GiB)": 112.26,
      "step": 48525,
      "train_speed(iter/s)": 1.12908
    },
    {
      "acc": 0.74398632,
      "epoch": 1.2311009639776762,
      "grad_norm": 4.09375,
      "learning_rate": 3.5250503585158825e-06,
      "loss": 1.0588665,
      "memory(GiB)": 112.26,
      "step": 48530,
      "train_speed(iter/s)": 1.128976
    },
    {
      "acc": 0.74378529,
      "epoch": 1.2312278031456114,
      "grad_norm": 3.71875,
      "learning_rate": 3.5240484306551615e-06,
      "loss": 1.03195496,
      "memory(GiB)": 112.26,
      "step": 48535,
      "train_speed(iter/s)": 1.128979
    },
    {
      "acc": 0.73845916,
      "epoch": 1.2313546423135464,
      "grad_norm": 4.34375,
      "learning_rate": 3.5230465677133813e-06,
      "loss": 1.08224173,
      "memory(GiB)": 112.26,
      "step": 48540,
      "train_speed(iter/s)": 1.128995
    },
    {
      "acc": 0.72805233,
      "epoch": 1.2314814814814814,
      "grad_norm": 3.875,
      "learning_rate": 3.5220447697346063e-06,
      "loss": 1.09967175,
      "memory(GiB)": 112.26,
      "step": 48545,
      "train_speed(iter/s)": 1.129009
    },
    {
      "acc": 0.72860599,
      "epoch": 1.2316083206494166,
      "grad_norm": 4.59375,
      "learning_rate": 3.521043036762903e-06,
      "loss": 1.1272356,
      "memory(GiB)": 112.26,
      "step": 48550,
      "train_speed(iter/s)": 1.129024
    },
    {
      "acc": 0.73569126,
      "epoch": 1.2317351598173516,
      "grad_norm": 3.25,
      "learning_rate": 3.5200413688423284e-06,
      "loss": 1.07075977,
      "memory(GiB)": 112.26,
      "step": 48555,
      "train_speed(iter/s)": 1.129042
    },
    {
      "acc": 0.73216267,
      "epoch": 1.2318619989852866,
      "grad_norm": 4.15625,
      "learning_rate": 3.519039766016943e-06,
      "loss": 1.11364832,
      "memory(GiB)": 112.26,
      "step": 48560,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.73269157,
      "epoch": 1.2319888381532218,
      "grad_norm": 3.78125,
      "learning_rate": 3.5180382283307983e-06,
      "loss": 1.15728645,
      "memory(GiB)": 112.26,
      "step": 48565,
      "train_speed(iter/s)": 1.129057
    },
    {
      "acc": 0.75432568,
      "epoch": 1.2321156773211568,
      "grad_norm": 3.109375,
      "learning_rate": 3.517036755827952e-06,
      "loss": 1.00004253,
      "memory(GiB)": 112.26,
      "step": 48570,
      "train_speed(iter/s)": 1.129069
    },
    {
      "acc": 0.74678478,
      "epoch": 1.2322425164890918,
      "grad_norm": 3.4375,
      "learning_rate": 3.516035348552449e-06,
      "loss": 1.07880096,
      "memory(GiB)": 112.26,
      "step": 48575,
      "train_speed(iter/s)": 1.129091
    },
    {
      "acc": 0.74252286,
      "epoch": 1.2323693556570268,
      "grad_norm": 3.734375,
      "learning_rate": 3.515034006548335e-06,
      "loss": 1.04708748,
      "memory(GiB)": 112.26,
      "step": 48580,
      "train_speed(iter/s)": 1.129112
    },
    {
      "acc": 0.75262394,
      "epoch": 1.232496194824962,
      "grad_norm": 4.125,
      "learning_rate": 3.5140327298596565e-06,
      "loss": 1.02675753,
      "memory(GiB)": 112.26,
      "step": 48585,
      "train_speed(iter/s)": 1.12913
    },
    {
      "acc": 0.7416996,
      "epoch": 1.232623033992897,
      "grad_norm": 3.21875,
      "learning_rate": 3.5130315185304547e-06,
      "loss": 1.0196744,
      "memory(GiB)": 112.26,
      "step": 48590,
      "train_speed(iter/s)": 1.12915
    },
    {
      "acc": 0.73859582,
      "epoch": 1.2327498731608322,
      "grad_norm": 3.5,
      "learning_rate": 3.5120303726047642e-06,
      "loss": 1.04808693,
      "memory(GiB)": 112.26,
      "step": 48595,
      "train_speed(iter/s)": 1.129167
    },
    {
      "acc": 0.72976027,
      "epoch": 1.2328767123287672,
      "grad_norm": 3.421875,
      "learning_rate": 3.51102929212662e-06,
      "loss": 1.14371004,
      "memory(GiB)": 112.26,
      "step": 48600,
      "train_speed(iter/s)": 1.12919
    },
    {
      "acc": 0.7354588,
      "epoch": 1.2330035514967022,
      "grad_norm": 3.625,
      "learning_rate": 3.5100282771400563e-06,
      "loss": 1.13591919,
      "memory(GiB)": 112.26,
      "step": 48605,
      "train_speed(iter/s)": 1.12921
    },
    {
      "acc": 0.73657246,
      "epoch": 1.2331303906646371,
      "grad_norm": 3.171875,
      "learning_rate": 3.5090273276891023e-06,
      "loss": 1.04833221,
      "memory(GiB)": 112.26,
      "step": 48610,
      "train_speed(iter/s)": 1.129228
    },
    {
      "acc": 0.74273148,
      "epoch": 1.2332572298325724,
      "grad_norm": 3.46875,
      "learning_rate": 3.5080264438177815e-06,
      "loss": 1.0196063,
      "memory(GiB)": 112.26,
      "step": 48615,
      "train_speed(iter/s)": 1.129244
    },
    {
      "acc": 0.73297215,
      "epoch": 1.2333840690005073,
      "grad_norm": 3.234375,
      "learning_rate": 3.50702562557012e-06,
      "loss": 1.11238861,
      "memory(GiB)": 112.26,
      "step": 48620,
      "train_speed(iter/s)": 1.129264
    },
    {
      "acc": 0.7354754,
      "epoch": 1.2335109081684423,
      "grad_norm": 3.0,
      "learning_rate": 3.506024872990135e-06,
      "loss": 1.08319969,
      "memory(GiB)": 112.26,
      "step": 48625,
      "train_speed(iter/s)": 1.129284
    },
    {
      "acc": 0.73909516,
      "epoch": 1.2336377473363775,
      "grad_norm": 3.796875,
      "learning_rate": 3.5050241861218493e-06,
      "loss": 1.04329987,
      "memory(GiB)": 112.26,
      "step": 48630,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.74792356,
      "epoch": 1.2337645865043125,
      "grad_norm": 3.890625,
      "learning_rate": 3.5040235650092725e-06,
      "loss": 1.03101463,
      "memory(GiB)": 112.26,
      "step": 48635,
      "train_speed(iter/s)": 1.129304
    },
    {
      "acc": 0.76613946,
      "epoch": 1.2338914256722475,
      "grad_norm": 4.46875,
      "learning_rate": 3.503023009696419e-06,
      "loss": 0.94301586,
      "memory(GiB)": 112.26,
      "step": 48640,
      "train_speed(iter/s)": 1.129321
    },
    {
      "acc": 0.73912344,
      "epoch": 1.2340182648401827,
      "grad_norm": 3.71875,
      "learning_rate": 3.5020225202272963e-06,
      "loss": 1.07781677,
      "memory(GiB)": 112.26,
      "step": 48645,
      "train_speed(iter/s)": 1.129333
    },
    {
      "acc": 0.72356815,
      "epoch": 1.2341451040081177,
      "grad_norm": 3.546875,
      "learning_rate": 3.501022096645913e-06,
      "loss": 1.11183662,
      "memory(GiB)": 112.26,
      "step": 48650,
      "train_speed(iter/s)": 1.129337
    },
    {
      "acc": 0.73536043,
      "epoch": 1.2342719431760527,
      "grad_norm": 4.03125,
      "learning_rate": 3.5000217389962685e-06,
      "loss": 1.06767683,
      "memory(GiB)": 112.26,
      "step": 48655,
      "train_speed(iter/s)": 1.129361
    },
    {
      "acc": 0.73634739,
      "epoch": 1.234398782343988,
      "grad_norm": 3.28125,
      "learning_rate": 3.499021447322365e-06,
      "loss": 1.10729399,
      "memory(GiB)": 112.26,
      "step": 48660,
      "train_speed(iter/s)": 1.129386
    },
    {
      "acc": 0.7361218,
      "epoch": 1.234525621511923,
      "grad_norm": 3.234375,
      "learning_rate": 3.4980212216681997e-06,
      "loss": 1.05684633,
      "memory(GiB)": 112.26,
      "step": 48665,
      "train_speed(iter/s)": 1.12941
    },
    {
      "acc": 0.74931479,
      "epoch": 1.234652460679858,
      "grad_norm": 3.09375,
      "learning_rate": 3.4970210620777687e-06,
      "loss": 1.03274221,
      "memory(GiB)": 112.26,
      "step": 48670,
      "train_speed(iter/s)": 1.129426
    },
    {
      "acc": 0.74659262,
      "epoch": 1.2347792998477929,
      "grad_norm": 3.265625,
      "learning_rate": 3.496020968595059e-06,
      "loss": 1.08222055,
      "memory(GiB)": 112.26,
      "step": 48675,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.74994745,
      "epoch": 1.234906139015728,
      "grad_norm": 3.09375,
      "learning_rate": 3.4950209412640634e-06,
      "loss": 1.03596621,
      "memory(GiB)": 112.26,
      "step": 48680,
      "train_speed(iter/s)": 1.12947
    },
    {
      "acc": 0.75291262,
      "epoch": 1.235032978183663,
      "grad_norm": 3.421875,
      "learning_rate": 3.494020980128766e-06,
      "loss": 0.98768349,
      "memory(GiB)": 112.26,
      "step": 48685,
      "train_speed(iter/s)": 1.129486
    },
    {
      "acc": 0.7495904,
      "epoch": 1.235159817351598,
      "grad_norm": 4.0625,
      "learning_rate": 3.4930210852331505e-06,
      "loss": 1.00293026,
      "memory(GiB)": 112.26,
      "step": 48690,
      "train_speed(iter/s)": 1.129511
    },
    {
      "acc": 0.73863053,
      "epoch": 1.2352866565195333,
      "grad_norm": 4.3125,
      "learning_rate": 3.4920212566211943e-06,
      "loss": 0.99740105,
      "memory(GiB)": 112.26,
      "step": 48695,
      "train_speed(iter/s)": 1.129527
    },
    {
      "acc": 0.73939714,
      "epoch": 1.2354134956874683,
      "grad_norm": 3.671875,
      "learning_rate": 3.491021494336876e-06,
      "loss": 1.08169346,
      "memory(GiB)": 112.26,
      "step": 48700,
      "train_speed(iter/s)": 1.129542
    },
    {
      "acc": 0.73452897,
      "epoch": 1.2355403348554033,
      "grad_norm": 3.640625,
      "learning_rate": 3.4900217984241692e-06,
      "loss": 1.05093174,
      "memory(GiB)": 112.26,
      "step": 48705,
      "train_speed(iter/s)": 1.129557
    },
    {
      "acc": 0.73693347,
      "epoch": 1.2356671740233385,
      "grad_norm": 5.03125,
      "learning_rate": 3.4890221689270466e-06,
      "loss": 1.03052425,
      "memory(GiB)": 112.26,
      "step": 48710,
      "train_speed(iter/s)": 1.129559
    },
    {
      "acc": 0.7473403,
      "epoch": 1.2357940131912735,
      "grad_norm": 3.875,
      "learning_rate": 3.488022605889475e-06,
      "loss": 1.04443245,
      "memory(GiB)": 112.26,
      "step": 48715,
      "train_speed(iter/s)": 1.129578
    },
    {
      "acc": 0.74538555,
      "epoch": 1.2359208523592085,
      "grad_norm": 4.375,
      "learning_rate": 3.4870231093554172e-06,
      "loss": 1.01328144,
      "memory(GiB)": 112.26,
      "step": 48720,
      "train_speed(iter/s)": 1.129587
    },
    {
      "acc": 0.73562851,
      "epoch": 1.2360476915271437,
      "grad_norm": 3.484375,
      "learning_rate": 3.4860236793688407e-06,
      "loss": 1.08085651,
      "memory(GiB)": 112.26,
      "step": 48725,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.73447251,
      "epoch": 1.2361745306950787,
      "grad_norm": 3.78125,
      "learning_rate": 3.4850243159737024e-06,
      "loss": 1.0367672,
      "memory(GiB)": 112.26,
      "step": 48730,
      "train_speed(iter/s)": 1.129634
    },
    {
      "acc": 0.7365036,
      "epoch": 1.2363013698630136,
      "grad_norm": 3.671875,
      "learning_rate": 3.4840250192139574e-06,
      "loss": 1.07905674,
      "memory(GiB)": 112.26,
      "step": 48735,
      "train_speed(iter/s)": 1.129644
    },
    {
      "acc": 0.73967876,
      "epoch": 1.2364282090309486,
      "grad_norm": 4.125,
      "learning_rate": 3.4830257891335595e-06,
      "loss": 1.01407938,
      "memory(GiB)": 112.26,
      "step": 48740,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.74263334,
      "epoch": 1.2365550481988838,
      "grad_norm": 3.234375,
      "learning_rate": 3.4820266257764613e-06,
      "loss": 0.97495556,
      "memory(GiB)": 112.26,
      "step": 48745,
      "train_speed(iter/s)": 1.12969
    },
    {
      "acc": 0.75462732,
      "epoch": 1.2366818873668188,
      "grad_norm": 3.125,
      "learning_rate": 3.4810275291866103e-06,
      "loss": 1.00527668,
      "memory(GiB)": 112.26,
      "step": 48750,
      "train_speed(iter/s)": 1.129695
    },
    {
      "acc": 0.74142528,
      "epoch": 1.236808726534754,
      "grad_norm": 3.984375,
      "learning_rate": 3.4800284994079487e-06,
      "loss": 1.02401104,
      "memory(GiB)": 112.26,
      "step": 48755,
      "train_speed(iter/s)": 1.129717
    },
    {
      "acc": 0.73014922,
      "epoch": 1.236935565702689,
      "grad_norm": 3.546875,
      "learning_rate": 3.4790295364844207e-06,
      "loss": 1.07192497,
      "memory(GiB)": 112.26,
      "step": 48760,
      "train_speed(iter/s)": 1.129743
    },
    {
      "acc": 0.73271561,
      "epoch": 1.237062404870624,
      "grad_norm": 4.21875,
      "learning_rate": 3.4780306404599628e-06,
      "loss": 1.03503809,
      "memory(GiB)": 112.26,
      "step": 48765,
      "train_speed(iter/s)": 1.129756
    },
    {
      "acc": 0.73042378,
      "epoch": 1.237189244038559,
      "grad_norm": 4.65625,
      "learning_rate": 3.4770318113785164e-06,
      "loss": 1.11566381,
      "memory(GiB)": 112.26,
      "step": 48770,
      "train_speed(iter/s)": 1.129779
    },
    {
      "acc": 0.73532572,
      "epoch": 1.2373160832064942,
      "grad_norm": 4.25,
      "learning_rate": 3.4760330492840065e-06,
      "loss": 1.10295811,
      "memory(GiB)": 112.26,
      "step": 48775,
      "train_speed(iter/s)": 1.129796
    },
    {
      "acc": 0.73610177,
      "epoch": 1.2374429223744292,
      "grad_norm": 3.921875,
      "learning_rate": 3.4750343542203684e-06,
      "loss": 1.08518066,
      "memory(GiB)": 112.26,
      "step": 48780,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.72862678,
      "epoch": 1.2375697615423642,
      "grad_norm": 3.515625,
      "learning_rate": 3.474035726231527e-06,
      "loss": 1.0847044,
      "memory(GiB)": 112.26,
      "step": 48785,
      "train_speed(iter/s)": 1.129825
    },
    {
      "acc": 0.73968964,
      "epoch": 1.2376966007102994,
      "grad_norm": 3.5,
      "learning_rate": 3.473037165361409e-06,
      "loss": 1.08938217,
      "memory(GiB)": 112.26,
      "step": 48790,
      "train_speed(iter/s)": 1.129836
    },
    {
      "acc": 0.74467793,
      "epoch": 1.2378234398782344,
      "grad_norm": 3.875,
      "learning_rate": 3.4720386716539333e-06,
      "loss": 1.03364468,
      "memory(GiB)": 112.26,
      "step": 48795,
      "train_speed(iter/s)": 1.129849
    },
    {
      "acc": 0.73681374,
      "epoch": 1.2379502790461694,
      "grad_norm": 3.34375,
      "learning_rate": 3.471040245153018e-06,
      "loss": 1.046241,
      "memory(GiB)": 112.26,
      "step": 48800,
      "train_speed(iter/s)": 1.129875
    },
    {
      "acc": 0.73340392,
      "epoch": 1.2380771182141046,
      "grad_norm": 3.375,
      "learning_rate": 3.4700418859025793e-06,
      "loss": 1.0795599,
      "memory(GiB)": 112.26,
      "step": 48805,
      "train_speed(iter/s)": 1.129888
    },
    {
      "acc": 0.74961963,
      "epoch": 1.2382039573820396,
      "grad_norm": 4.40625,
      "learning_rate": 3.4690435939465307e-06,
      "loss": 1.0426219,
      "memory(GiB)": 112.26,
      "step": 48810,
      "train_speed(iter/s)": 1.129911
    },
    {
      "acc": 0.74053006,
      "epoch": 1.2383307965499746,
      "grad_norm": 3.203125,
      "learning_rate": 3.4680453693287786e-06,
      "loss": 1.00687599,
      "memory(GiB)": 112.26,
      "step": 48815,
      "train_speed(iter/s)": 1.129918
    },
    {
      "acc": 0.73868833,
      "epoch": 1.2384576357179098,
      "grad_norm": 4.3125,
      "learning_rate": 3.4670472120932297e-06,
      "loss": 1.08816414,
      "memory(GiB)": 112.26,
      "step": 48820,
      "train_speed(iter/s)": 1.129917
    },
    {
      "acc": 0.73637466,
      "epoch": 1.2385844748858448,
      "grad_norm": 4.4375,
      "learning_rate": 3.46604912228379e-06,
      "loss": 1.10207062,
      "memory(GiB)": 112.26,
      "step": 48825,
      "train_speed(iter/s)": 1.12993
    },
    {
      "acc": 0.74061699,
      "epoch": 1.2387113140537798,
      "grad_norm": 3.984375,
      "learning_rate": 3.46505109994436e-06,
      "loss": 1.0481863,
      "memory(GiB)": 112.26,
      "step": 48830,
      "train_speed(iter/s)": 1.129951
    },
    {
      "acc": 0.73890867,
      "epoch": 1.2388381532217148,
      "grad_norm": 3.375,
      "learning_rate": 3.464053145118833e-06,
      "loss": 0.99855289,
      "memory(GiB)": 112.26,
      "step": 48835,
      "train_speed(iter/s)": 1.129941
    },
    {
      "acc": 0.74531984,
      "epoch": 1.23896499238965,
      "grad_norm": 4.8125,
      "learning_rate": 3.4630552578511073e-06,
      "loss": 1.07370739,
      "memory(GiB)": 112.26,
      "step": 48840,
      "train_speed(iter/s)": 1.129964
    },
    {
      "acc": 0.73063555,
      "epoch": 1.239091831557585,
      "grad_norm": 3.96875,
      "learning_rate": 3.4620574381850723e-06,
      "loss": 1.0727932,
      "memory(GiB)": 112.26,
      "step": 48845,
      "train_speed(iter/s)": 1.129976
    },
    {
      "acc": 0.73870616,
      "epoch": 1.23921867072552,
      "grad_norm": 3.796875,
      "learning_rate": 3.4610596861646194e-06,
      "loss": 1.06912956,
      "memory(GiB)": 112.26,
      "step": 48850,
      "train_speed(iter/s)": 1.129979
    },
    {
      "acc": 0.75056825,
      "epoch": 1.2393455098934552,
      "grad_norm": 3.5625,
      "learning_rate": 3.460062001833632e-06,
      "loss": 1.02203331,
      "memory(GiB)": 112.26,
      "step": 48855,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.75965552,
      "epoch": 1.2394723490613901,
      "grad_norm": 4.09375,
      "learning_rate": 3.459064385235993e-06,
      "loss": 1.01460791,
      "memory(GiB)": 112.26,
      "step": 48860,
      "train_speed(iter/s)": 1.130004
    },
    {
      "acc": 0.73687811,
      "epoch": 1.2395991882293251,
      "grad_norm": 3.890625,
      "learning_rate": 3.45806683641558e-06,
      "loss": 1.07270145,
      "memory(GiB)": 112.26,
      "step": 48865,
      "train_speed(iter/s)": 1.130009
    },
    {
      "acc": 0.74727678,
      "epoch": 1.2397260273972603,
      "grad_norm": 3.53125,
      "learning_rate": 3.457069355416275e-06,
      "loss": 0.99074039,
      "memory(GiB)": 112.26,
      "step": 48870,
      "train_speed(iter/s)": 1.13003
    },
    {
      "acc": 0.73539495,
      "epoch": 1.2398528665651953,
      "grad_norm": 3.875,
      "learning_rate": 3.456071942281947e-06,
      "loss": 1.08935328,
      "memory(GiB)": 112.26,
      "step": 48875,
      "train_speed(iter/s)": 1.130053
    },
    {
      "acc": 0.73103151,
      "epoch": 1.2399797057331303,
      "grad_norm": 3.703125,
      "learning_rate": 3.455074597056467e-06,
      "loss": 1.10644855,
      "memory(GiB)": 112.26,
      "step": 48880,
      "train_speed(iter/s)": 1.130064
    },
    {
      "acc": 0.74161773,
      "epoch": 1.2401065449010655,
      "grad_norm": 3.6875,
      "learning_rate": 3.454077319783705e-06,
      "loss": 0.98523207,
      "memory(GiB)": 112.26,
      "step": 48885,
      "train_speed(iter/s)": 1.130078
    },
    {
      "acc": 0.72410107,
      "epoch": 1.2402333840690005,
      "grad_norm": 3.40625,
      "learning_rate": 3.4530801105075257e-06,
      "loss": 1.11093845,
      "memory(GiB)": 112.26,
      "step": 48890,
      "train_speed(iter/s)": 1.13009
    },
    {
      "acc": 0.73946214,
      "epoch": 1.2403602232369355,
      "grad_norm": 3.859375,
      "learning_rate": 3.4520829692717874e-06,
      "loss": 1.08512774,
      "memory(GiB)": 112.26,
      "step": 48895,
      "train_speed(iter/s)": 1.130099
    },
    {
      "acc": 0.73559456,
      "epoch": 1.2404870624048705,
      "grad_norm": 3.265625,
      "learning_rate": 3.451085896120352e-06,
      "loss": 1.07604151,
      "memory(GiB)": 112.26,
      "step": 48900,
      "train_speed(iter/s)": 1.130108
    },
    {
      "acc": 0.73633595,
      "epoch": 1.2406139015728057,
      "grad_norm": 3.390625,
      "learning_rate": 3.450088891097074e-06,
      "loss": 1.06503801,
      "memory(GiB)": 112.26,
      "step": 48905,
      "train_speed(iter/s)": 1.130123
    },
    {
      "acc": 0.73619251,
      "epoch": 1.2407407407407407,
      "grad_norm": 3.859375,
      "learning_rate": 3.4490919542458085e-06,
      "loss": 1.04990635,
      "memory(GiB)": 112.26,
      "step": 48910,
      "train_speed(iter/s)": 1.13014
    },
    {
      "acc": 0.72813826,
      "epoch": 1.240867579908676,
      "grad_norm": 3.390625,
      "learning_rate": 3.4480950856104002e-06,
      "loss": 1.10807657,
      "memory(GiB)": 112.26,
      "step": 48915,
      "train_speed(iter/s)": 1.130162
    },
    {
      "acc": 0.7382925,
      "epoch": 1.240994419076611,
      "grad_norm": 3.625,
      "learning_rate": 3.4470982852347e-06,
      "loss": 1.04670477,
      "memory(GiB)": 112.26,
      "step": 48920,
      "train_speed(iter/s)": 1.130173
    },
    {
      "acc": 0.7248497,
      "epoch": 1.2411212582445459,
      "grad_norm": 3.75,
      "learning_rate": 3.44610155316255e-06,
      "loss": 1.11069422,
      "memory(GiB)": 112.26,
      "step": 48925,
      "train_speed(iter/s)": 1.130192
    },
    {
      "acc": 0.74861555,
      "epoch": 1.2412480974124809,
      "grad_norm": 3.578125,
      "learning_rate": 3.4451048894377925e-06,
      "loss": 1.02663679,
      "memory(GiB)": 112.26,
      "step": 48930,
      "train_speed(iter/s)": 1.130209
    },
    {
      "acc": 0.74541268,
      "epoch": 1.241374936580416,
      "grad_norm": 3.75,
      "learning_rate": 3.444108294104264e-06,
      "loss": 1.02902012,
      "memory(GiB)": 112.26,
      "step": 48935,
      "train_speed(iter/s)": 1.130231
    },
    {
      "acc": 0.74624796,
      "epoch": 1.241501775748351,
      "grad_norm": 3.390625,
      "learning_rate": 3.443111767205797e-06,
      "loss": 1.09258862,
      "memory(GiB)": 112.26,
      "step": 48940,
      "train_speed(iter/s)": 1.130237
    },
    {
      "acc": 0.73421106,
      "epoch": 1.241628614916286,
      "grad_norm": 4.25,
      "learning_rate": 3.442115308786227e-06,
      "loss": 1.06217594,
      "memory(GiB)": 112.26,
      "step": 48945,
      "train_speed(iter/s)": 1.130263
    },
    {
      "acc": 0.737392,
      "epoch": 1.2417554540842213,
      "grad_norm": 4.09375,
      "learning_rate": 3.4411189188893822e-06,
      "loss": 1.09985266,
      "memory(GiB)": 112.26,
      "step": 48950,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.73876314,
      "epoch": 1.2418822932521563,
      "grad_norm": 3.375,
      "learning_rate": 3.4401225975590867e-06,
      "loss": 1.100842,
      "memory(GiB)": 112.26,
      "step": 48955,
      "train_speed(iter/s)": 1.130301
    },
    {
      "acc": 0.72528615,
      "epoch": 1.2420091324200913,
      "grad_norm": 3.046875,
      "learning_rate": 3.439126344839163e-06,
      "loss": 1.05497742,
      "memory(GiB)": 112.26,
      "step": 48960,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.74222946,
      "epoch": 1.2421359715880265,
      "grad_norm": 4.03125,
      "learning_rate": 3.438130160773431e-06,
      "loss": 1.04877682,
      "memory(GiB)": 112.26,
      "step": 48965,
      "train_speed(iter/s)": 1.130336
    },
    {
      "acc": 0.73416233,
      "epoch": 1.2422628107559615,
      "grad_norm": 3.0625,
      "learning_rate": 3.43713404540571e-06,
      "loss": 1.12719488,
      "memory(GiB)": 112.26,
      "step": 48970,
      "train_speed(iter/s)": 1.130354
    },
    {
      "acc": 0.73860087,
      "epoch": 1.2423896499238964,
      "grad_norm": 3.5,
      "learning_rate": 3.4361379987798094e-06,
      "loss": 1.08413696,
      "memory(GiB)": 112.26,
      "step": 48975,
      "train_speed(iter/s)": 1.130366
    },
    {
      "acc": 0.74932685,
      "epoch": 1.2425164890918317,
      "grad_norm": 3.84375,
      "learning_rate": 3.435142020939542e-06,
      "loss": 1.02856941,
      "memory(GiB)": 112.26,
      "step": 48980,
      "train_speed(iter/s)": 1.130367
    },
    {
      "acc": 0.74826922,
      "epoch": 1.2426433282597666,
      "grad_norm": 4.0,
      "learning_rate": 3.4341461119287144e-06,
      "loss": 1.01532688,
      "memory(GiB)": 112.26,
      "step": 48985,
      "train_speed(iter/s)": 1.130377
    },
    {
      "acc": 0.75024157,
      "epoch": 1.2427701674277016,
      "grad_norm": 4.71875,
      "learning_rate": 3.433150271791135e-06,
      "loss": 1.05554838,
      "memory(GiB)": 112.26,
      "step": 48990,
      "train_speed(iter/s)": 1.130394
    },
    {
      "acc": 0.74230185,
      "epoch": 1.2428970065956366,
      "grad_norm": 4.0,
      "learning_rate": 3.432154500570599e-06,
      "loss": 1.02007103,
      "memory(GiB)": 112.26,
      "step": 48995,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.74909925,
      "epoch": 1.2430238457635718,
      "grad_norm": 3.09375,
      "learning_rate": 3.431158798310909e-06,
      "loss": 1.0301897,
      "memory(GiB)": 112.26,
      "step": 49000,
      "train_speed(iter/s)": 1.130438
    },
    {
      "epoch": 1.2430238457635718,
      "eval_acc": 0.7257816007701673,
      "eval_loss": 1.0446853637695312,
      "eval_runtime": 70.9208,
      "eval_samples_per_second": 89.818,
      "eval_steps_per_second": 22.462,
      "step": 49000
    },
    {
      "acc": 0.73249297,
      "epoch": 1.2431506849315068,
      "grad_norm": 3.8125,
      "learning_rate": 3.4301631650558588e-06,
      "loss": 1.08675785,
      "memory(GiB)": 112.26,
      "step": 49005,
      "train_speed(iter/s)": 1.127449
    },
    {
      "acc": 0.72967315,
      "epoch": 1.2432775240994418,
      "grad_norm": 3.84375,
      "learning_rate": 3.4291676008492424e-06,
      "loss": 1.0407547,
      "memory(GiB)": 112.26,
      "step": 49010,
      "train_speed(iter/s)": 1.12747
    },
    {
      "acc": 0.75637646,
      "epoch": 1.243404363267377,
      "grad_norm": 3.4375,
      "learning_rate": 3.428172105734848e-06,
      "loss": 1.02025108,
      "memory(GiB)": 112.26,
      "step": 49015,
      "train_speed(iter/s)": 1.127491
    },
    {
      "acc": 0.74406538,
      "epoch": 1.243531202435312,
      "grad_norm": 3.546875,
      "learning_rate": 3.4271766797564608e-06,
      "loss": 1.05819702,
      "memory(GiB)": 112.26,
      "step": 49020,
      "train_speed(iter/s)": 1.127504
    },
    {
      "acc": 0.7382062,
      "epoch": 1.243658041603247,
      "grad_norm": 4.28125,
      "learning_rate": 3.4261813229578665e-06,
      "loss": 1.0776454,
      "memory(GiB)": 112.26,
      "step": 49025,
      "train_speed(iter/s)": 1.127524
    },
    {
      "acc": 0.74517851,
      "epoch": 1.2437848807711822,
      "grad_norm": 3.921875,
      "learning_rate": 3.425186035382846e-06,
      "loss": 1.03409605,
      "memory(GiB)": 112.26,
      "step": 49030,
      "train_speed(iter/s)": 1.127534
    },
    {
      "acc": 0.74163232,
      "epoch": 1.2439117199391172,
      "grad_norm": 3.859375,
      "learning_rate": 3.4241908170751727e-06,
      "loss": 1.03721581,
      "memory(GiB)": 112.26,
      "step": 49035,
      "train_speed(iter/s)": 1.127547
    },
    {
      "acc": 0.73769932,
      "epoch": 1.2440385591070522,
      "grad_norm": 3.609375,
      "learning_rate": 3.4231956680786217e-06,
      "loss": 1.04621382,
      "memory(GiB)": 112.26,
      "step": 49040,
      "train_speed(iter/s)": 1.127564
    },
    {
      "acc": 0.73891382,
      "epoch": 1.2441653982749874,
      "grad_norm": 3.390625,
      "learning_rate": 3.422200588436967e-06,
      "loss": 1.07284012,
      "memory(GiB)": 112.26,
      "step": 49045,
      "train_speed(iter/s)": 1.127571
    },
    {
      "acc": 0.73033323,
      "epoch": 1.2442922374429224,
      "grad_norm": 3.0,
      "learning_rate": 3.4212055781939744e-06,
      "loss": 1.09496613,
      "memory(GiB)": 112.26,
      "step": 49050,
      "train_speed(iter/s)": 1.127592
    },
    {
      "acc": 0.73400688,
      "epoch": 1.2444190766108574,
      "grad_norm": 4.25,
      "learning_rate": 3.4202106373934085e-06,
      "loss": 1.13106279,
      "memory(GiB)": 112.26,
      "step": 49055,
      "train_speed(iter/s)": 1.127614
    },
    {
      "acc": 0.74422908,
      "epoch": 1.2445459157787924,
      "grad_norm": 3.96875,
      "learning_rate": 3.4192157660790324e-06,
      "loss": 1.0949213,
      "memory(GiB)": 112.26,
      "step": 49060,
      "train_speed(iter/s)": 1.127614
    },
    {
      "acc": 0.73274822,
      "epoch": 1.2446727549467276,
      "grad_norm": 3.734375,
      "learning_rate": 3.418220964294604e-06,
      "loss": 1.07933903,
      "memory(GiB)": 112.26,
      "step": 49065,
      "train_speed(iter/s)": 1.127628
    },
    {
      "acc": 0.730023,
      "epoch": 1.2447995941146626,
      "grad_norm": 3.609375,
      "learning_rate": 3.417226232083881e-06,
      "loss": 1.08034058,
      "memory(GiB)": 112.26,
      "step": 49070,
      "train_speed(iter/s)": 1.127643
    },
    {
      "acc": 0.73382697,
      "epoch": 1.2449264332825978,
      "grad_norm": 4.15625,
      "learning_rate": 3.416231569490615e-06,
      "loss": 1.10057487,
      "memory(GiB)": 112.26,
      "step": 49075,
      "train_speed(iter/s)": 1.127649
    },
    {
      "acc": 0.76757336,
      "epoch": 1.2450532724505328,
      "grad_norm": 4.0625,
      "learning_rate": 3.4152369765585545e-06,
      "loss": 0.9070858,
      "memory(GiB)": 112.26,
      "step": 49080,
      "train_speed(iter/s)": 1.127666
    },
    {
      "acc": 0.74102087,
      "epoch": 1.2451801116184678,
      "grad_norm": 3.90625,
      "learning_rate": 3.4142424533314474e-06,
      "loss": 1.04416828,
      "memory(GiB)": 112.26,
      "step": 49085,
      "train_speed(iter/s)": 1.127686
    },
    {
      "acc": 0.73086839,
      "epoch": 1.2453069507864027,
      "grad_norm": 4.03125,
      "learning_rate": 3.4132479998530383e-06,
      "loss": 1.09357605,
      "memory(GiB)": 112.26,
      "step": 49090,
      "train_speed(iter/s)": 1.127697
    },
    {
      "acc": 0.73873711,
      "epoch": 1.245433789954338,
      "grad_norm": 3.53125,
      "learning_rate": 3.4122536161670656e-06,
      "loss": 1.04279032,
      "memory(GiB)": 112.26,
      "step": 49095,
      "train_speed(iter/s)": 1.127717
    },
    {
      "acc": 0.74831462,
      "epoch": 1.245560629122273,
      "grad_norm": 4.5625,
      "learning_rate": 3.411259302317267e-06,
      "loss": 1.02170391,
      "memory(GiB)": 112.26,
      "step": 49100,
      "train_speed(iter/s)": 1.127727
    },
    {
      "acc": 0.73385344,
      "epoch": 1.245687468290208,
      "grad_norm": 3.4375,
      "learning_rate": 3.410265058347378e-06,
      "loss": 1.00912991,
      "memory(GiB)": 112.26,
      "step": 49105,
      "train_speed(iter/s)": 1.127734
    },
    {
      "acc": 0.75070043,
      "epoch": 1.2458143074581431,
      "grad_norm": 4.53125,
      "learning_rate": 3.4092708843011303e-06,
      "loss": 1.0212491,
      "memory(GiB)": 112.26,
      "step": 49110,
      "train_speed(iter/s)": 1.127744
    },
    {
      "acc": 0.73554115,
      "epoch": 1.2459411466260781,
      "grad_norm": 3.921875,
      "learning_rate": 3.4082767802222493e-06,
      "loss": 1.0980854,
      "memory(GiB)": 112.26,
      "step": 49115,
      "train_speed(iter/s)": 1.127763
    },
    {
      "acc": 0.73940783,
      "epoch": 1.2460679857940131,
      "grad_norm": 4.3125,
      "learning_rate": 3.4072827461544635e-06,
      "loss": 1.0705184,
      "memory(GiB)": 112.26,
      "step": 49120,
      "train_speed(iter/s)": 1.127774
    },
    {
      "acc": 0.74048848,
      "epoch": 1.2461948249619483,
      "grad_norm": 3.640625,
      "learning_rate": 3.4062887821414935e-06,
      "loss": 1.04429855,
      "memory(GiB)": 112.26,
      "step": 49125,
      "train_speed(iter/s)": 1.127785
    },
    {
      "acc": 0.74281807,
      "epoch": 1.2463216641298833,
      "grad_norm": 3.390625,
      "learning_rate": 3.4052948882270585e-06,
      "loss": 1.07707958,
      "memory(GiB)": 112.26,
      "step": 49130,
      "train_speed(iter/s)": 1.127799
    },
    {
      "acc": 0.73668776,
      "epoch": 1.2464485032978183,
      "grad_norm": 4.71875,
      "learning_rate": 3.404301064454873e-06,
      "loss": 1.14674454,
      "memory(GiB)": 112.26,
      "step": 49135,
      "train_speed(iter/s)": 1.127801
    },
    {
      "acc": 0.74546547,
      "epoch": 1.2465753424657535,
      "grad_norm": 3.640625,
      "learning_rate": 3.4033073108686515e-06,
      "loss": 1.03827209,
      "memory(GiB)": 112.26,
      "step": 49140,
      "train_speed(iter/s)": 1.127821
    },
    {
      "acc": 0.73115201,
      "epoch": 1.2467021816336885,
      "grad_norm": 3.421875,
      "learning_rate": 3.4023136275121026e-06,
      "loss": 1.09498301,
      "memory(GiB)": 112.26,
      "step": 49145,
      "train_speed(iter/s)": 1.127841
    },
    {
      "acc": 0.72118921,
      "epoch": 1.2468290208016235,
      "grad_norm": 4.40625,
      "learning_rate": 3.401320014428935e-06,
      "loss": 1.14899511,
      "memory(GiB)": 112.26,
      "step": 49150,
      "train_speed(iter/s)": 1.127866
    },
    {
      "acc": 0.73979897,
      "epoch": 1.2469558599695585,
      "grad_norm": 3.359375,
      "learning_rate": 3.40032647166285e-06,
      "loss": 1.04431381,
      "memory(GiB)": 112.26,
      "step": 49155,
      "train_speed(iter/s)": 1.127882
    },
    {
      "acc": 0.75483084,
      "epoch": 1.2470826991374937,
      "grad_norm": 3.640625,
      "learning_rate": 3.3993329992575473e-06,
      "loss": 1.02308493,
      "memory(GiB)": 112.26,
      "step": 49160,
      "train_speed(iter/s)": 1.127893
    },
    {
      "acc": 0.73304386,
      "epoch": 1.2472095383054287,
      "grad_norm": 3.5625,
      "learning_rate": 3.3983395972567277e-06,
      "loss": 1.07415829,
      "memory(GiB)": 112.26,
      "step": 49165,
      "train_speed(iter/s)": 1.127912
    },
    {
      "acc": 0.74559274,
      "epoch": 1.2473363774733637,
      "grad_norm": 4.15625,
      "learning_rate": 3.397346265704084e-06,
      "loss": 1.03066177,
      "memory(GiB)": 112.26,
      "step": 49170,
      "train_speed(iter/s)": 1.127927
    },
    {
      "acc": 0.75868311,
      "epoch": 1.2474632166412989,
      "grad_norm": 4.0,
      "learning_rate": 3.396353004643306e-06,
      "loss": 1.01012478,
      "memory(GiB)": 112.26,
      "step": 49175,
      "train_speed(iter/s)": 1.127955
    },
    {
      "acc": 0.74083719,
      "epoch": 1.2475900558092339,
      "grad_norm": 3.390625,
      "learning_rate": 3.3953598141180817e-06,
      "loss": 1.05455141,
      "memory(GiB)": 112.26,
      "step": 49180,
      "train_speed(iter/s)": 1.127974
    },
    {
      "acc": 0.7477129,
      "epoch": 1.2477168949771689,
      "grad_norm": 5.34375,
      "learning_rate": 3.3943666941720978e-06,
      "loss": 1.02722702,
      "memory(GiB)": 112.26,
      "step": 49185,
      "train_speed(iter/s)": 1.127981
    },
    {
      "acc": 0.73993235,
      "epoch": 1.247843734145104,
      "grad_norm": 3.3125,
      "learning_rate": 3.3933736448490363e-06,
      "loss": 1.0485611,
      "memory(GiB)": 112.26,
      "step": 49190,
      "train_speed(iter/s)": 1.127997
    },
    {
      "acc": 0.74156704,
      "epoch": 1.247970573313039,
      "grad_norm": 4.875,
      "learning_rate": 3.392380666192573e-06,
      "loss": 1.06255121,
      "memory(GiB)": 112.26,
      "step": 49195,
      "train_speed(iter/s)": 1.128012
    },
    {
      "acc": 0.7359036,
      "epoch": 1.248097412480974,
      "grad_norm": 3.3125,
      "learning_rate": 3.391387758246386e-06,
      "loss": 1.13444138,
      "memory(GiB)": 112.26,
      "step": 49200,
      "train_speed(iter/s)": 1.128033
    },
    {
      "acc": 0.75849943,
      "epoch": 1.2482242516489093,
      "grad_norm": 3.609375,
      "learning_rate": 3.3903949210541477e-06,
      "loss": 0.97281494,
      "memory(GiB)": 112.26,
      "step": 49205,
      "train_speed(iter/s)": 1.128049
    },
    {
      "acc": 0.73623819,
      "epoch": 1.2483510908168443,
      "grad_norm": 3.171875,
      "learning_rate": 3.389402154659529e-06,
      "loss": 1.07708321,
      "memory(GiB)": 112.26,
      "step": 49210,
      "train_speed(iter/s)": 1.128056
    },
    {
      "acc": 0.73549666,
      "epoch": 1.2484779299847792,
      "grad_norm": 4.0625,
      "learning_rate": 3.388409459106192e-06,
      "loss": 1.10987968,
      "memory(GiB)": 112.26,
      "step": 49215,
      "train_speed(iter/s)": 1.128072
    },
    {
      "acc": 0.74180508,
      "epoch": 1.2486047691527142,
      "grad_norm": 3.375,
      "learning_rate": 3.3874168344378024e-06,
      "loss": 1.02665472,
      "memory(GiB)": 112.26,
      "step": 49220,
      "train_speed(iter/s)": 1.128088
    },
    {
      "acc": 0.73728476,
      "epoch": 1.2487316083206494,
      "grad_norm": 4.15625,
      "learning_rate": 3.38642428069802e-06,
      "loss": 1.03933353,
      "memory(GiB)": 112.26,
      "step": 49225,
      "train_speed(iter/s)": 1.128109
    },
    {
      "acc": 0.74289412,
      "epoch": 1.2488584474885844,
      "grad_norm": 4.46875,
      "learning_rate": 3.385431797930503e-06,
      "loss": 1.06678104,
      "memory(GiB)": 112.26,
      "step": 49230,
      "train_speed(iter/s)": 1.12812
    },
    {
      "acc": 0.73075542,
      "epoch": 1.2489852866565196,
      "grad_norm": 3.421875,
      "learning_rate": 3.3844393861789036e-06,
      "loss": 1.12446518,
      "memory(GiB)": 112.26,
      "step": 49235,
      "train_speed(iter/s)": 1.128129
    },
    {
      "acc": 0.73932209,
      "epoch": 1.2491121258244546,
      "grad_norm": 4.46875,
      "learning_rate": 3.383447045486872e-06,
      "loss": 1.08800964,
      "memory(GiB)": 112.26,
      "step": 49240,
      "train_speed(iter/s)": 1.128139
    },
    {
      "acc": 0.72477083,
      "epoch": 1.2492389649923896,
      "grad_norm": 3.484375,
      "learning_rate": 3.382454775898057e-06,
      "loss": 1.12203054,
      "memory(GiB)": 112.26,
      "step": 49245,
      "train_speed(iter/s)": 1.128159
    },
    {
      "acc": 0.74780927,
      "epoch": 1.2493658041603246,
      "grad_norm": 4.40625,
      "learning_rate": 3.381462577456104e-06,
      "loss": 1.05425644,
      "memory(GiB)": 112.26,
      "step": 49250,
      "train_speed(iter/s)": 1.12817
    },
    {
      "acc": 0.74283562,
      "epoch": 1.2494926433282598,
      "grad_norm": 3.84375,
      "learning_rate": 3.3804704502046527e-06,
      "loss": 1.0475769,
      "memory(GiB)": 112.26,
      "step": 49255,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.75255404,
      "epoch": 1.2496194824961948,
      "grad_norm": 3.421875,
      "learning_rate": 3.3794783941873406e-06,
      "loss": 1.0159194,
      "memory(GiB)": 112.26,
      "step": 49260,
      "train_speed(iter/s)": 1.128191
    },
    {
      "acc": 0.74937563,
      "epoch": 1.2497463216641298,
      "grad_norm": 4.78125,
      "learning_rate": 3.3784864094478044e-06,
      "loss": 1.05930824,
      "memory(GiB)": 112.26,
      "step": 49265,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.73351974,
      "epoch": 1.249873160832065,
      "grad_norm": 3.5,
      "learning_rate": 3.377494496029677e-06,
      "loss": 1.04978161,
      "memory(GiB)": 112.26,
      "step": 49270,
      "train_speed(iter/s)": 1.128192
    },
    {
      "acc": 0.74849572,
      "epoch": 1.25,
      "grad_norm": 3.921875,
      "learning_rate": 3.3765026539765832e-06,
      "loss": 1.05612879,
      "memory(GiB)": 112.26,
      "step": 49275,
      "train_speed(iter/s)": 1.128215
    },
    {
      "acc": 0.73288746,
      "epoch": 1.250126839167935,
      "grad_norm": 4.1875,
      "learning_rate": 3.375510883332152e-06,
      "loss": 1.11452122,
      "memory(GiB)": 112.26,
      "step": 49280,
      "train_speed(iter/s)": 1.128234
    },
    {
      "acc": 0.72976141,
      "epoch": 1.2502536783358702,
      "grad_norm": 3.25,
      "learning_rate": 3.3745191841400037e-06,
      "loss": 1.07343292,
      "memory(GiB)": 112.26,
      "step": 49285,
      "train_speed(iter/s)": 1.128247
    },
    {
      "acc": 0.7288589,
      "epoch": 1.2503805175038052,
      "grad_norm": 3.203125,
      "learning_rate": 3.373527556443762e-06,
      "loss": 1.10461769,
      "memory(GiB)": 112.26,
      "step": 49290,
      "train_speed(iter/s)": 1.128255
    },
    {
      "acc": 0.73764172,
      "epoch": 1.2505073566717402,
      "grad_norm": 3.484375,
      "learning_rate": 3.372536000287038e-06,
      "loss": 1.05900621,
      "memory(GiB)": 112.26,
      "step": 49295,
      "train_speed(iter/s)": 1.128264
    },
    {
      "acc": 0.75051608,
      "epoch": 1.2506341958396754,
      "grad_norm": 4.4375,
      "learning_rate": 3.3715445157134474e-06,
      "loss": 1.02095528,
      "memory(GiB)": 112.26,
      "step": 49300,
      "train_speed(iter/s)": 1.128284
    },
    {
      "acc": 0.73314085,
      "epoch": 1.2507610350076104,
      "grad_norm": 3.578125,
      "learning_rate": 3.370553102766598e-06,
      "loss": 1.02805367,
      "memory(GiB)": 112.26,
      "step": 49305,
      "train_speed(iter/s)": 1.128283
    },
    {
      "acc": 0.7346806,
      "epoch": 1.2508878741755454,
      "grad_norm": 3.515625,
      "learning_rate": 3.369561761490101e-06,
      "loss": 1.07638655,
      "memory(GiB)": 112.26,
      "step": 49310,
      "train_speed(iter/s)": 1.128298
    },
    {
      "acc": 0.74204798,
      "epoch": 1.2510147133434804,
      "grad_norm": 4.625,
      "learning_rate": 3.3685704919275553e-06,
      "loss": 1.12957783,
      "memory(GiB)": 112.26,
      "step": 49315,
      "train_speed(iter/s)": 1.128306
    },
    {
      "acc": 0.75180492,
      "epoch": 1.2511415525114156,
      "grad_norm": 3.6875,
      "learning_rate": 3.3675792941225625e-06,
      "loss": 0.98800507,
      "memory(GiB)": 112.26,
      "step": 49320,
      "train_speed(iter/s)": 1.12831
    },
    {
      "acc": 0.74987679,
      "epoch": 1.2512683916793506,
      "grad_norm": 3.953125,
      "learning_rate": 3.3665881681187214e-06,
      "loss": 1.06881771,
      "memory(GiB)": 112.26,
      "step": 49325,
      "train_speed(iter/s)": 1.128312
    },
    {
      "acc": 0.74971509,
      "epoch": 1.2513952308472858,
      "grad_norm": 4.28125,
      "learning_rate": 3.3655971139596265e-06,
      "loss": 1.04261208,
      "memory(GiB)": 112.26,
      "step": 49330,
      "train_speed(iter/s)": 1.128331
    },
    {
      "acc": 0.72707558,
      "epoch": 1.2515220700152208,
      "grad_norm": 3.484375,
      "learning_rate": 3.3646061316888655e-06,
      "loss": 1.09615326,
      "memory(GiB)": 112.26,
      "step": 49335,
      "train_speed(iter/s)": 1.128352
    },
    {
      "acc": 0.73526964,
      "epoch": 1.2516489091831557,
      "grad_norm": 4.53125,
      "learning_rate": 3.3636152213500295e-06,
      "loss": 1.10982695,
      "memory(GiB)": 112.26,
      "step": 49340,
      "train_speed(iter/s)": 1.128363
    },
    {
      "acc": 0.73594909,
      "epoch": 1.2517757483510907,
      "grad_norm": 4.0625,
      "learning_rate": 3.362624382986702e-06,
      "loss": 1.08642235,
      "memory(GiB)": 112.26,
      "step": 49345,
      "train_speed(iter/s)": 1.128376
    },
    {
      "acc": 0.74445276,
      "epoch": 1.251902587519026,
      "grad_norm": 3.234375,
      "learning_rate": 3.3616336166424653e-06,
      "loss": 1.04813309,
      "memory(GiB)": 112.26,
      "step": 49350,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.74676886,
      "epoch": 1.252029426686961,
      "grad_norm": 3.8125,
      "learning_rate": 3.360642922360895e-06,
      "loss": 1.00196199,
      "memory(GiB)": 112.26,
      "step": 49355,
      "train_speed(iter/s)": 1.128402
    },
    {
      "acc": 0.73109503,
      "epoch": 1.252156265854896,
      "grad_norm": 3.859375,
      "learning_rate": 3.3596523001855684e-06,
      "loss": 1.15542107,
      "memory(GiB)": 112.26,
      "step": 49360,
      "train_speed(iter/s)": 1.128408
    },
    {
      "acc": 0.76377058,
      "epoch": 1.2522831050228311,
      "grad_norm": 3.46875,
      "learning_rate": 3.358661750160057e-06,
      "loss": 0.97701283,
      "memory(GiB)": 112.26,
      "step": 49365,
      "train_speed(iter/s)": 1.12842
    },
    {
      "acc": 0.74136801,
      "epoch": 1.2524099441907661,
      "grad_norm": 3.140625,
      "learning_rate": 3.3576712723279326e-06,
      "loss": 1.0528264,
      "memory(GiB)": 112.26,
      "step": 49370,
      "train_speed(iter/s)": 1.128442
    },
    {
      "acc": 0.73209014,
      "epoch": 1.2525367833587011,
      "grad_norm": 3.546875,
      "learning_rate": 3.3566808667327566e-06,
      "loss": 1.14849186,
      "memory(GiB)": 112.26,
      "step": 49375,
      "train_speed(iter/s)": 1.128463
    },
    {
      "acc": 0.75563231,
      "epoch": 1.252663622526636,
      "grad_norm": 3.953125,
      "learning_rate": 3.355690533418091e-06,
      "loss": 1.04169827,
      "memory(GiB)": 112.26,
      "step": 49380,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.72826605,
      "epoch": 1.2527904616945713,
      "grad_norm": 3.265625,
      "learning_rate": 3.354700272427499e-06,
      "loss": 1.09046383,
      "memory(GiB)": 112.26,
      "step": 49385,
      "train_speed(iter/s)": 1.128508
    },
    {
      "acc": 0.74220223,
      "epoch": 1.2529173008625063,
      "grad_norm": 4.1875,
      "learning_rate": 3.3537100838045356e-06,
      "loss": 1.12333908,
      "memory(GiB)": 112.26,
      "step": 49390,
      "train_speed(iter/s)": 1.128516
    },
    {
      "acc": 0.73890982,
      "epoch": 1.2530441400304415,
      "grad_norm": 4.0625,
      "learning_rate": 3.3527199675927526e-06,
      "loss": 1.0957509,
      "memory(GiB)": 112.26,
      "step": 49395,
      "train_speed(iter/s)": 1.128534
    },
    {
      "acc": 0.72917728,
      "epoch": 1.2531709791983765,
      "grad_norm": 3.9375,
      "learning_rate": 3.3517299238356982e-06,
      "loss": 1.10969219,
      "memory(GiB)": 112.26,
      "step": 49400,
      "train_speed(iter/s)": 1.128558
    },
    {
      "acc": 0.74135089,
      "epoch": 1.2532978183663115,
      "grad_norm": 3.375,
      "learning_rate": 3.3507399525769214e-06,
      "loss": 1.05052519,
      "memory(GiB)": 112.26,
      "step": 49405,
      "train_speed(iter/s)": 1.128565
    },
    {
      "acc": 0.7254735,
      "epoch": 1.2534246575342465,
      "grad_norm": 4.28125,
      "learning_rate": 3.3497500538599664e-06,
      "loss": 1.11243343,
      "memory(GiB)": 112.26,
      "step": 49410,
      "train_speed(iter/s)": 1.128582
    },
    {
      "acc": 0.73988075,
      "epoch": 1.2535514967021817,
      "grad_norm": 3.328125,
      "learning_rate": 3.34876022772837e-06,
      "loss": 1.10293093,
      "memory(GiB)": 112.26,
      "step": 49415,
      "train_speed(iter/s)": 1.128602
    },
    {
      "acc": 0.73776536,
      "epoch": 1.2536783358701167,
      "grad_norm": 3.59375,
      "learning_rate": 3.347770474225672e-06,
      "loss": 1.12946148,
      "memory(GiB)": 112.26,
      "step": 49420,
      "train_speed(iter/s)": 1.12861
    },
    {
      "acc": 0.74066114,
      "epoch": 1.2538051750380519,
      "grad_norm": 3.609375,
      "learning_rate": 3.3467807933954034e-06,
      "loss": 1.04914474,
      "memory(GiB)": 112.26,
      "step": 49425,
      "train_speed(iter/s)": 1.128632
    },
    {
      "acc": 0.73477716,
      "epoch": 1.2539320142059869,
      "grad_norm": 3.078125,
      "learning_rate": 3.345791185281101e-06,
      "loss": 1.06026525,
      "memory(GiB)": 112.26,
      "step": 49430,
      "train_speed(iter/s)": 1.128658
    },
    {
      "acc": 0.75101247,
      "epoch": 1.2540588533739219,
      "grad_norm": 3.484375,
      "learning_rate": 3.3448016499262836e-06,
      "loss": 1.04763107,
      "memory(GiB)": 112.26,
      "step": 49435,
      "train_speed(iter/s)": 1.128674
    },
    {
      "acc": 0.74077396,
      "epoch": 1.2541856925418569,
      "grad_norm": 3.515625,
      "learning_rate": 3.3438121873744812e-06,
      "loss": 1.08920479,
      "memory(GiB)": 112.26,
      "step": 49440,
      "train_speed(iter/s)": 1.128688
    },
    {
      "acc": 0.73874941,
      "epoch": 1.254312531709792,
      "grad_norm": 3.359375,
      "learning_rate": 3.342822797669212e-06,
      "loss": 1.0574584,
      "memory(GiB)": 112.26,
      "step": 49445,
      "train_speed(iter/s)": 1.128703
    },
    {
      "acc": 0.73087645,
      "epoch": 1.254439370877727,
      "grad_norm": 3.875,
      "learning_rate": 3.3418334808539966e-06,
      "loss": 1.11270523,
      "memory(GiB)": 112.26,
      "step": 49450,
      "train_speed(iter/s)": 1.128715
    },
    {
      "acc": 0.72817307,
      "epoch": 1.254566210045662,
      "grad_norm": 3.28125,
      "learning_rate": 3.340844236972347e-06,
      "loss": 1.11787691,
      "memory(GiB)": 112.26,
      "step": 49455,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.75298004,
      "epoch": 1.2546930492135973,
      "grad_norm": 4.09375,
      "learning_rate": 3.3398550660677748e-06,
      "loss": 1.04248142,
      "memory(GiB)": 112.26,
      "step": 49460,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.73323832,
      "epoch": 1.2548198883815322,
      "grad_norm": 4.65625,
      "learning_rate": 3.3388659681837898e-06,
      "loss": 1.07812157,
      "memory(GiB)": 112.26,
      "step": 49465,
      "train_speed(iter/s)": 1.128767
    },
    {
      "acc": 0.72428608,
      "epoch": 1.2549467275494672,
      "grad_norm": 4.90625,
      "learning_rate": 3.3378769433638965e-06,
      "loss": 1.11029081,
      "memory(GiB)": 112.26,
      "step": 49470,
      "train_speed(iter/s)": 1.128785
    },
    {
      "acc": 0.73731213,
      "epoch": 1.2550735667174022,
      "grad_norm": 4.15625,
      "learning_rate": 3.336887991651595e-06,
      "loss": 1.083004,
      "memory(GiB)": 112.26,
      "step": 49475,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.7356245,
      "epoch": 1.2552004058853374,
      "grad_norm": 3.203125,
      "learning_rate": 3.3358991130903845e-06,
      "loss": 1.05995064,
      "memory(GiB)": 112.26,
      "step": 49480,
      "train_speed(iter/s)": 1.128816
    },
    {
      "acc": 0.76351476,
      "epoch": 1.2553272450532724,
      "grad_norm": 4.0625,
      "learning_rate": 3.334910307723761e-06,
      "loss": 0.99595013,
      "memory(GiB)": 112.26,
      "step": 49485,
      "train_speed(iter/s)": 1.128837
    },
    {
      "acc": 0.75425653,
      "epoch": 1.2554540842212076,
      "grad_norm": 4.25,
      "learning_rate": 3.333921575595218e-06,
      "loss": 1.04319477,
      "memory(GiB)": 112.26,
      "step": 49490,
      "train_speed(iter/s)": 1.128861
    },
    {
      "acc": 0.72431827,
      "epoch": 1.2555809233891426,
      "grad_norm": 3.578125,
      "learning_rate": 3.3329329167482404e-06,
      "loss": 1.08401976,
      "memory(GiB)": 112.26,
      "step": 49495,
      "train_speed(iter/s)": 1.128879
    },
    {
      "acc": 0.75627127,
      "epoch": 1.2557077625570776,
      "grad_norm": 3.796875,
      "learning_rate": 3.331944331226317e-06,
      "loss": 1.04220591,
      "memory(GiB)": 112.26,
      "step": 49500,
      "train_speed(iter/s)": 1.128899
    },
    {
      "acc": 0.75034633,
      "epoch": 1.2558346017250126,
      "grad_norm": 3.25,
      "learning_rate": 3.330955819072928e-06,
      "loss": 1.06224251,
      "memory(GiB)": 112.26,
      "step": 49505,
      "train_speed(iter/s)": 1.12892
    },
    {
      "acc": 0.76840415,
      "epoch": 1.2559614408929478,
      "grad_norm": 3.984375,
      "learning_rate": 3.329967380331556e-06,
      "loss": 0.9645606,
      "memory(GiB)": 112.26,
      "step": 49510,
      "train_speed(iter/s)": 1.128942
    },
    {
      "acc": 0.73486061,
      "epoch": 1.2560882800608828,
      "grad_norm": 5.5625,
      "learning_rate": 3.3289790150456737e-06,
      "loss": 1.05491066,
      "memory(GiB)": 112.26,
      "step": 49515,
      "train_speed(iter/s)": 1.128959
    },
    {
      "acc": 0.74153166,
      "epoch": 1.2562151192288178,
      "grad_norm": 3.265625,
      "learning_rate": 3.327990723258755e-06,
      "loss": 1.04746647,
      "memory(GiB)": 112.26,
      "step": 49520,
      "train_speed(iter/s)": 1.128982
    },
    {
      "acc": 0.73256578,
      "epoch": 1.256341958396753,
      "grad_norm": 3.203125,
      "learning_rate": 3.3270025050142684e-06,
      "loss": 1.02720375,
      "memory(GiB)": 112.26,
      "step": 49525,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.73955631,
      "epoch": 1.256468797564688,
      "grad_norm": 3.203125,
      "learning_rate": 3.3260143603556827e-06,
      "loss": 1.04678068,
      "memory(GiB)": 112.26,
      "step": 49530,
      "train_speed(iter/s)": 1.129019
    },
    {
      "acc": 0.73305111,
      "epoch": 1.256595636732623,
      "grad_norm": 3.875,
      "learning_rate": 3.3250262893264583e-06,
      "loss": 1.05667763,
      "memory(GiB)": 112.26,
      "step": 49535,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.73260107,
      "epoch": 1.256722475900558,
      "grad_norm": 3.984375,
      "learning_rate": 3.3240382919700555e-06,
      "loss": 1.06869698,
      "memory(GiB)": 112.26,
      "step": 49540,
      "train_speed(iter/s)": 1.129058
    },
    {
      "acc": 0.73668118,
      "epoch": 1.2568493150684932,
      "grad_norm": 3.84375,
      "learning_rate": 3.3230503683299316e-06,
      "loss": 1.04861317,
      "memory(GiB)": 112.26,
      "step": 49545,
      "train_speed(iter/s)": 1.129071
    },
    {
      "acc": 0.7476469,
      "epoch": 1.2569761542364282,
      "grad_norm": 4.5,
      "learning_rate": 3.3220625184495404e-06,
      "loss": 1.07133465,
      "memory(GiB)": 112.26,
      "step": 49550,
      "train_speed(iter/s)": 1.129091
    },
    {
      "acc": 0.73453169,
      "epoch": 1.2571029934043634,
      "grad_norm": 4.0625,
      "learning_rate": 3.3210747423723293e-06,
      "loss": 1.08001137,
      "memory(GiB)": 112.26,
      "step": 49555,
      "train_speed(iter/s)": 1.129103
    },
    {
      "acc": 0.73906069,
      "epoch": 1.2572298325722984,
      "grad_norm": 3.6875,
      "learning_rate": 3.3200870401417486e-06,
      "loss": 1.09548721,
      "memory(GiB)": 112.26,
      "step": 49560,
      "train_speed(iter/s)": 1.129122
    },
    {
      "acc": 0.74453492,
      "epoch": 1.2573566717402334,
      "grad_norm": 3.296875,
      "learning_rate": 3.3190994118012387e-06,
      "loss": 1.0816762,
      "memory(GiB)": 112.26,
      "step": 49565,
      "train_speed(iter/s)": 1.12914
    },
    {
      "acc": 0.73627825,
      "epoch": 1.2574835109081683,
      "grad_norm": 4.4375,
      "learning_rate": 3.318111857394244e-06,
      "loss": 1.10393085,
      "memory(GiB)": 112.26,
      "step": 49570,
      "train_speed(iter/s)": 1.129152
    },
    {
      "acc": 0.7556819,
      "epoch": 1.2576103500761036,
      "grad_norm": 3.796875,
      "learning_rate": 3.3171243769641957e-06,
      "loss": 1.00923853,
      "memory(GiB)": 112.26,
      "step": 49575,
      "train_speed(iter/s)": 1.12917
    },
    {
      "acc": 0.73628421,
      "epoch": 1.2577371892440385,
      "grad_norm": 4.1875,
      "learning_rate": 3.316136970554532e-06,
      "loss": 1.08040314,
      "memory(GiB)": 112.26,
      "step": 49580,
      "train_speed(iter/s)": 1.129185
    },
    {
      "acc": 0.74564352,
      "epoch": 1.2578640284119738,
      "grad_norm": 3.890625,
      "learning_rate": 3.315149638208681e-06,
      "loss": 1.0585187,
      "memory(GiB)": 112.26,
      "step": 49585,
      "train_speed(iter/s)": 1.129198
    },
    {
      "acc": 0.74967813,
      "epoch": 1.2579908675799087,
      "grad_norm": 4.28125,
      "learning_rate": 3.3141623799700738e-06,
      "loss": 1.04511814,
      "memory(GiB)": 112.26,
      "step": 49590,
      "train_speed(iter/s)": 1.12922
    },
    {
      "acc": 0.7288929,
      "epoch": 1.2581177067478437,
      "grad_norm": 4.34375,
      "learning_rate": 3.3131751958821313e-06,
      "loss": 1.13205194,
      "memory(GiB)": 112.26,
      "step": 49595,
      "train_speed(iter/s)": 1.129236
    },
    {
      "acc": 0.74590831,
      "epoch": 1.2582445459157787,
      "grad_norm": 3.96875,
      "learning_rate": 3.312188085988273e-06,
      "loss": 1.02293129,
      "memory(GiB)": 112.26,
      "step": 49600,
      "train_speed(iter/s)": 1.129249
    },
    {
      "acc": 0.7518672,
      "epoch": 1.258371385083714,
      "grad_norm": 3.625,
      "learning_rate": 3.311201050331919e-06,
      "loss": 1.07152872,
      "memory(GiB)": 112.26,
      "step": 49605,
      "train_speed(iter/s)": 1.129269
    },
    {
      "acc": 0.74808006,
      "epoch": 1.258498224251649,
      "grad_norm": 3.421875,
      "learning_rate": 3.310214088956485e-06,
      "loss": 1.03032866,
      "memory(GiB)": 112.26,
      "step": 49610,
      "train_speed(iter/s)": 1.129285
    },
    {
      "acc": 0.75948377,
      "epoch": 1.258625063419584,
      "grad_norm": 3.671875,
      "learning_rate": 3.3092272019053773e-06,
      "loss": 0.94445419,
      "memory(GiB)": 112.26,
      "step": 49615,
      "train_speed(iter/s)": 1.129297
    },
    {
      "acc": 0.75481844,
      "epoch": 1.2587519025875191,
      "grad_norm": 2.984375,
      "learning_rate": 3.308240389222006e-06,
      "loss": 0.96801262,
      "memory(GiB)": 112.26,
      "step": 49620,
      "train_speed(iter/s)": 1.129297
    },
    {
      "acc": 0.74866676,
      "epoch": 1.2588787417554541,
      "grad_norm": 3.453125,
      "learning_rate": 3.3072536509497762e-06,
      "loss": 1.01316299,
      "memory(GiB)": 112.26,
      "step": 49625,
      "train_speed(iter/s)": 1.129313
    },
    {
      "acc": 0.74622998,
      "epoch": 1.259005580923389,
      "grad_norm": 3.421875,
      "learning_rate": 3.306266987132089e-06,
      "loss": 1.0304285,
      "memory(GiB)": 112.26,
      "step": 49630,
      "train_speed(iter/s)": 1.129333
    },
    {
      "acc": 0.75180502,
      "epoch": 1.259132420091324,
      "grad_norm": 4.53125,
      "learning_rate": 3.3052803978123405e-06,
      "loss": 0.99760094,
      "memory(GiB)": 112.26,
      "step": 49635,
      "train_speed(iter/s)": 1.129349
    },
    {
      "acc": 0.7448144,
      "epoch": 1.2592592592592593,
      "grad_norm": 2.9375,
      "learning_rate": 3.3042938830339264e-06,
      "loss": 1.02014675,
      "memory(GiB)": 112.26,
      "step": 49640,
      "train_speed(iter/s)": 1.129369
    },
    {
      "acc": 0.74998851,
      "epoch": 1.2593860984271943,
      "grad_norm": 3.578125,
      "learning_rate": 3.303307442840238e-06,
      "loss": 0.99415731,
      "memory(GiB)": 112.26,
      "step": 49645,
      "train_speed(iter/s)": 1.12939
    },
    {
      "acc": 0.75102568,
      "epoch": 1.2595129375951295,
      "grad_norm": 3.5625,
      "learning_rate": 3.302321077274666e-06,
      "loss": 1.00383492,
      "memory(GiB)": 112.26,
      "step": 49650,
      "train_speed(iter/s)": 1.129402
    },
    {
      "acc": 0.72552748,
      "epoch": 1.2596397767630645,
      "grad_norm": 3.25,
      "learning_rate": 3.30133478638059e-06,
      "loss": 1.15109158,
      "memory(GiB)": 112.26,
      "step": 49655,
      "train_speed(iter/s)": 1.129419
    },
    {
      "acc": 0.73999214,
      "epoch": 1.2597666159309995,
      "grad_norm": 3.046875,
      "learning_rate": 3.300348570201395e-06,
      "loss": 1.02847042,
      "memory(GiB)": 112.26,
      "step": 49660,
      "train_speed(iter/s)": 1.12943
    },
    {
      "acc": 0.73625875,
      "epoch": 1.2598934550989345,
      "grad_norm": 3.46875,
      "learning_rate": 3.299362428780457e-06,
      "loss": 1.07185764,
      "memory(GiB)": 112.26,
      "step": 49665,
      "train_speed(iter/s)": 1.129439
    },
    {
      "acc": 0.74687834,
      "epoch": 1.2600202942668697,
      "grad_norm": 3.9375,
      "learning_rate": 3.298376362161154e-06,
      "loss": 0.93457813,
      "memory(GiB)": 112.26,
      "step": 49670,
      "train_speed(iter/s)": 1.129456
    },
    {
      "acc": 0.75082483,
      "epoch": 1.2601471334348047,
      "grad_norm": 4.0625,
      "learning_rate": 3.297390370386856e-06,
      "loss": 1.05365868,
      "memory(GiB)": 112.26,
      "step": 49675,
      "train_speed(iter/s)": 1.12946
    },
    {
      "acc": 0.72577877,
      "epoch": 1.2602739726027397,
      "grad_norm": 3.515625,
      "learning_rate": 3.2964044535009288e-06,
      "loss": 1.12013683,
      "memory(GiB)": 112.26,
      "step": 49680,
      "train_speed(iter/s)": 1.129461
    },
    {
      "acc": 0.74130483,
      "epoch": 1.2604008117706749,
      "grad_norm": 3.671875,
      "learning_rate": 3.2954186115467412e-06,
      "loss": 1.03941689,
      "memory(GiB)": 112.26,
      "step": 49685,
      "train_speed(iter/s)": 1.129473
    },
    {
      "acc": 0.73028107,
      "epoch": 1.2605276509386099,
      "grad_norm": 3.9375,
      "learning_rate": 3.2944328445676543e-06,
      "loss": 1.08105698,
      "memory(GiB)": 112.26,
      "step": 49690,
      "train_speed(iter/s)": 1.129489
    },
    {
      "acc": 0.733426,
      "epoch": 1.2606544901065448,
      "grad_norm": 3.84375,
      "learning_rate": 3.2934471526070254e-06,
      "loss": 1.10523062,
      "memory(GiB)": 112.26,
      "step": 49695,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.75267143,
      "epoch": 1.2607813292744798,
      "grad_norm": 4.34375,
      "learning_rate": 3.2924615357082078e-06,
      "loss": 1.01963253,
      "memory(GiB)": 112.26,
      "step": 49700,
      "train_speed(iter/s)": 1.129524
    },
    {
      "acc": 0.72584867,
      "epoch": 1.260908168442415,
      "grad_norm": 4.125,
      "learning_rate": 3.2914759939145574e-06,
      "loss": 1.11032982,
      "memory(GiB)": 112.26,
      "step": 49705,
      "train_speed(iter/s)": 1.129534
    },
    {
      "acc": 0.73035526,
      "epoch": 1.26103500761035,
      "grad_norm": 4.1875,
      "learning_rate": 3.2904905272694214e-06,
      "loss": 1.0715683,
      "memory(GiB)": 112.26,
      "step": 49710,
      "train_speed(iter/s)": 1.129552
    },
    {
      "acc": 0.7421277,
      "epoch": 1.2611618467782852,
      "grad_norm": 3.359375,
      "learning_rate": 3.289505135816142e-06,
      "loss": 1.03711567,
      "memory(GiB)": 112.26,
      "step": 49715,
      "train_speed(iter/s)": 1.129565
    },
    {
      "acc": 0.73225722,
      "epoch": 1.2612886859462202,
      "grad_norm": 3.671875,
      "learning_rate": 3.2885198195980653e-06,
      "loss": 1.06672573,
      "memory(GiB)": 112.26,
      "step": 49720,
      "train_speed(iter/s)": 1.129582
    },
    {
      "acc": 0.7397644,
      "epoch": 1.2614155251141552,
      "grad_norm": 3.640625,
      "learning_rate": 3.287534578658527e-06,
      "loss": 1.05839605,
      "memory(GiB)": 112.26,
      "step": 49725,
      "train_speed(iter/s)": 1.129599
    },
    {
      "acc": 0.73694468,
      "epoch": 1.2615423642820902,
      "grad_norm": 3.640625,
      "learning_rate": 3.2865494130408657e-06,
      "loss": 1.05318937,
      "memory(GiB)": 112.26,
      "step": 49730,
      "train_speed(iter/s)": 1.129621
    },
    {
      "acc": 0.74024787,
      "epoch": 1.2616692034500254,
      "grad_norm": 4.6875,
      "learning_rate": 3.2855643227884097e-06,
      "loss": 1.08999939,
      "memory(GiB)": 112.26,
      "step": 49735,
      "train_speed(iter/s)": 1.129632
    },
    {
      "acc": 0.74982662,
      "epoch": 1.2617960426179604,
      "grad_norm": 3.359375,
      "learning_rate": 3.28457930794449e-06,
      "loss": 1.0141592,
      "memory(GiB)": 112.26,
      "step": 49740,
      "train_speed(iter/s)": 1.129637
    },
    {
      "acc": 0.75985069,
      "epoch": 1.2619228817858956,
      "grad_norm": 4.84375,
      "learning_rate": 3.283594368552429e-06,
      "loss": 1.00217257,
      "memory(GiB)": 112.26,
      "step": 49745,
      "train_speed(iter/s)": 1.129659
    },
    {
      "acc": 0.73128991,
      "epoch": 1.2620497209538306,
      "grad_norm": 4.28125,
      "learning_rate": 3.282609504655554e-06,
      "loss": 1.07910643,
      "memory(GiB)": 112.26,
      "step": 49750,
      "train_speed(iter/s)": 1.129667
    },
    {
      "acc": 0.73987942,
      "epoch": 1.2621765601217656,
      "grad_norm": 4.78125,
      "learning_rate": 3.281624716297179e-06,
      "loss": 1.03916578,
      "memory(GiB)": 112.26,
      "step": 49755,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.73863516,
      "epoch": 1.2623033992897006,
      "grad_norm": 5.1875,
      "learning_rate": 3.28064000352062e-06,
      "loss": 1.06777267,
      "memory(GiB)": 112.26,
      "step": 49760,
      "train_speed(iter/s)": 1.129705
    },
    {
      "acc": 0.73769116,
      "epoch": 1.2624302384576358,
      "grad_norm": 3.421875,
      "learning_rate": 3.279655366369191e-06,
      "loss": 1.046737,
      "memory(GiB)": 112.26,
      "step": 49765,
      "train_speed(iter/s)": 1.129709
    },
    {
      "acc": 0.73096213,
      "epoch": 1.2625570776255708,
      "grad_norm": 3.625,
      "learning_rate": 3.2786708048862e-06,
      "loss": 1.09193764,
      "memory(GiB)": 112.26,
      "step": 49770,
      "train_speed(iter/s)": 1.129727
    },
    {
      "acc": 0.74339266,
      "epoch": 1.2626839167935058,
      "grad_norm": 4.6875,
      "learning_rate": 3.2776863191149517e-06,
      "loss": 1.06134281,
      "memory(GiB)": 112.26,
      "step": 49775,
      "train_speed(iter/s)": 1.129749
    },
    {
      "acc": 0.74439545,
      "epoch": 1.262810755961441,
      "grad_norm": 4.28125,
      "learning_rate": 3.2767019090987483e-06,
      "loss": 1.07115717,
      "memory(GiB)": 112.26,
      "step": 49780,
      "train_speed(iter/s)": 1.129759
    },
    {
      "acc": 0.72457213,
      "epoch": 1.262937595129376,
      "grad_norm": 3.0625,
      "learning_rate": 3.27571757488089e-06,
      "loss": 1.14648733,
      "memory(GiB)": 112.26,
      "step": 49785,
      "train_speed(iter/s)": 1.129772
    },
    {
      "acc": 0.74090767,
      "epoch": 1.263064434297311,
      "grad_norm": 3.734375,
      "learning_rate": 3.274733316504672e-06,
      "loss": 1.03537254,
      "memory(GiB)": 112.26,
      "step": 49790,
      "train_speed(iter/s)": 1.129778
    },
    {
      "acc": 0.74747219,
      "epoch": 1.263191273465246,
      "grad_norm": 3.109375,
      "learning_rate": 3.273749134013383e-06,
      "loss": 0.99545975,
      "memory(GiB)": 112.26,
      "step": 49795,
      "train_speed(iter/s)": 1.129793
    },
    {
      "acc": 0.7459784,
      "epoch": 1.2633181126331812,
      "grad_norm": 3.390625,
      "learning_rate": 3.2727650274503154e-06,
      "loss": 1.0371623,
      "memory(GiB)": 112.26,
      "step": 49800,
      "train_speed(iter/s)": 1.12981
    },
    {
      "acc": 0.73935928,
      "epoch": 1.2634449518011162,
      "grad_norm": 4.3125,
      "learning_rate": 3.2717809968587523e-06,
      "loss": 1.03940992,
      "memory(GiB)": 112.26,
      "step": 49805,
      "train_speed(iter/s)": 1.129835
    },
    {
      "acc": 0.7460463,
      "epoch": 1.2635717909690514,
      "grad_norm": 3.890625,
      "learning_rate": 3.270797042281979e-06,
      "loss": 1.02792568,
      "memory(GiB)": 112.26,
      "step": 49810,
      "train_speed(iter/s)": 1.129846
    },
    {
      "acc": 0.73218145,
      "epoch": 1.2636986301369864,
      "grad_norm": 3.28125,
      "learning_rate": 3.269813163763271e-06,
      "loss": 1.13585663,
      "memory(GiB)": 112.26,
      "step": 49815,
      "train_speed(iter/s)": 1.129865
    },
    {
      "acc": 0.74667335,
      "epoch": 1.2638254693049213,
      "grad_norm": 3.734375,
      "learning_rate": 3.268829361345904e-06,
      "loss": 1.05346966,
      "memory(GiB)": 112.26,
      "step": 49820,
      "train_speed(iter/s)": 1.129861
    },
    {
      "acc": 0.74612007,
      "epoch": 1.2639523084728563,
      "grad_norm": 3.984375,
      "learning_rate": 3.2678456350731526e-06,
      "loss": 1.01163292,
      "memory(GiB)": 112.26,
      "step": 49825,
      "train_speed(iter/s)": 1.12988
    },
    {
      "acc": 0.75707111,
      "epoch": 1.2640791476407915,
      "grad_norm": 4.25,
      "learning_rate": 3.266861984988283e-06,
      "loss": 0.98684349,
      "memory(GiB)": 112.26,
      "step": 49830,
      "train_speed(iter/s)": 1.129898
    },
    {
      "acc": 0.75173216,
      "epoch": 1.2642059868087265,
      "grad_norm": 4.40625,
      "learning_rate": 3.2658784111345614e-06,
      "loss": 1.07631912,
      "memory(GiB)": 112.26,
      "step": 49835,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.74185071,
      "epoch": 1.2643328259766615,
      "grad_norm": 3.75,
      "learning_rate": 3.2648949135552482e-06,
      "loss": 1.00263882,
      "memory(GiB)": 112.26,
      "step": 49840,
      "train_speed(iter/s)": 1.129936
    },
    {
      "acc": 0.73532553,
      "epoch": 1.2644596651445967,
      "grad_norm": 5.25,
      "learning_rate": 3.2639114922936045e-06,
      "loss": 1.07327404,
      "memory(GiB)": 112.26,
      "step": 49845,
      "train_speed(iter/s)": 1.129946
    },
    {
      "acc": 0.75100551,
      "epoch": 1.2645865043125317,
      "grad_norm": 4.0625,
      "learning_rate": 3.2629281473928855e-06,
      "loss": 0.97644033,
      "memory(GiB)": 112.26,
      "step": 49850,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.7444941,
      "epoch": 1.2647133434804667,
      "grad_norm": 3.1875,
      "learning_rate": 3.26194487889634e-06,
      "loss": 1.04361515,
      "memory(GiB)": 112.26,
      "step": 49855,
      "train_speed(iter/s)": 1.12999
    },
    {
      "acc": 0.75422106,
      "epoch": 1.2648401826484017,
      "grad_norm": 3.984375,
      "learning_rate": 3.2609616868472192e-06,
      "loss": 0.99428558,
      "memory(GiB)": 112.26,
      "step": 49860,
      "train_speed(iter/s)": 1.130011
    },
    {
      "acc": 0.74386315,
      "epoch": 1.264967021816337,
      "grad_norm": 4.5,
      "learning_rate": 3.259978571288767e-06,
      "loss": 1.00972443,
      "memory(GiB)": 112.26,
      "step": 49865,
      "train_speed(iter/s)": 1.130028
    },
    {
      "acc": 0.73214817,
      "epoch": 1.265093860984272,
      "grad_norm": 3.421875,
      "learning_rate": 3.2589955322642293e-06,
      "loss": 1.13485928,
      "memory(GiB)": 112.26,
      "step": 49870,
      "train_speed(iter/s)": 1.130046
    },
    {
      "acc": 0.73951278,
      "epoch": 1.2652207001522071,
      "grad_norm": 2.828125,
      "learning_rate": 3.2580125698168376e-06,
      "loss": 1.03571129,
      "memory(GiB)": 112.26,
      "step": 49875,
      "train_speed(iter/s)": 1.130058
    },
    {
      "acc": 0.73048296,
      "epoch": 1.265347539320142,
      "grad_norm": 3.640625,
      "learning_rate": 3.2570296839898314e-06,
      "loss": 1.10603848,
      "memory(GiB)": 112.26,
      "step": 49880,
      "train_speed(iter/s)": 1.130069
    },
    {
      "acc": 0.74353333,
      "epoch": 1.265474378488077,
      "grad_norm": 4.53125,
      "learning_rate": 3.2560468748264405e-06,
      "loss": 1.02087784,
      "memory(GiB)": 112.26,
      "step": 49885,
      "train_speed(iter/s)": 1.130091
    },
    {
      "acc": 0.7351697,
      "epoch": 1.265601217656012,
      "grad_norm": 3.46875,
      "learning_rate": 3.2550641423698965e-06,
      "loss": 1.05900402,
      "memory(GiB)": 112.26,
      "step": 49890,
      "train_speed(iter/s)": 1.13011
    },
    {
      "acc": 0.72273073,
      "epoch": 1.2657280568239473,
      "grad_norm": 3.328125,
      "learning_rate": 3.2540814866634206e-06,
      "loss": 1.10079193,
      "memory(GiB)": 112.26,
      "step": 49895,
      "train_speed(iter/s)": 1.130124
    },
    {
      "acc": 0.73066382,
      "epoch": 1.2658548959918823,
      "grad_norm": 3.515625,
      "learning_rate": 3.2530989077502355e-06,
      "loss": 1.04771061,
      "memory(GiB)": 112.26,
      "step": 49900,
      "train_speed(iter/s)": 1.130127
    },
    {
      "acc": 0.75195251,
      "epoch": 1.2659817351598175,
      "grad_norm": 4.59375,
      "learning_rate": 3.252116405673561e-06,
      "loss": 0.97576656,
      "memory(GiB)": 112.26,
      "step": 49905,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.75025978,
      "epoch": 1.2661085743277525,
      "grad_norm": 4.25,
      "learning_rate": 3.2511339804766107e-06,
      "loss": 1.01183062,
      "memory(GiB)": 112.26,
      "step": 49910,
      "train_speed(iter/s)": 1.13015
    },
    {
      "acc": 0.75701909,
      "epoch": 1.2662354134956875,
      "grad_norm": 4.0,
      "learning_rate": 3.250151632202596e-06,
      "loss": 1.02559338,
      "memory(GiB)": 112.26,
      "step": 49915,
      "train_speed(iter/s)": 1.130159
    },
    {
      "acc": 0.74783792,
      "epoch": 1.2663622526636225,
      "grad_norm": 4.5625,
      "learning_rate": 3.249169360894724e-06,
      "loss": 1.05012722,
      "memory(GiB)": 112.26,
      "step": 49920,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.73681545,
      "epoch": 1.2664890918315577,
      "grad_norm": 5.28125,
      "learning_rate": 3.2481871665962006e-06,
      "loss": 1.12777538,
      "memory(GiB)": 112.26,
      "step": 49925,
      "train_speed(iter/s)": 1.130194
    },
    {
      "acc": 0.75159264,
      "epoch": 1.2666159309994927,
      "grad_norm": 3.828125,
      "learning_rate": 3.2472050493502282e-06,
      "loss": 0.99333096,
      "memory(GiB)": 112.26,
      "step": 49930,
      "train_speed(iter/s)": 1.13021
    },
    {
      "acc": 0.74945631,
      "epoch": 1.2667427701674276,
      "grad_norm": 4.34375,
      "learning_rate": 3.2462230092000017e-06,
      "loss": 1.00570011,
      "memory(GiB)": 112.26,
      "step": 49935,
      "train_speed(iter/s)": 1.13022
    },
    {
      "acc": 0.74241805,
      "epoch": 1.2668696093353629,
      "grad_norm": 3.671875,
      "learning_rate": 3.2452410461887184e-06,
      "loss": 1.02848339,
      "memory(GiB)": 112.26,
      "step": 49940,
      "train_speed(iter/s)": 1.130228
    },
    {
      "acc": 0.75315933,
      "epoch": 1.2669964485032978,
      "grad_norm": 3.5,
      "learning_rate": 3.244259160359567e-06,
      "loss": 1.00237474,
      "memory(GiB)": 112.26,
      "step": 49945,
      "train_speed(iter/s)": 1.130244
    },
    {
      "acc": 0.74175773,
      "epoch": 1.2671232876712328,
      "grad_norm": 3.578125,
      "learning_rate": 3.2432773517557385e-06,
      "loss": 1.06298943,
      "memory(GiB)": 112.26,
      "step": 49950,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.7479322,
      "epoch": 1.2672501268391678,
      "grad_norm": 3.125,
      "learning_rate": 3.2422956204204147e-06,
      "loss": 1.03576145,
      "memory(GiB)": 112.26,
      "step": 49955,
      "train_speed(iter/s)": 1.130258
    },
    {
      "acc": 0.73944235,
      "epoch": 1.267376966007103,
      "grad_norm": 3.8125,
      "learning_rate": 3.2413139663967763e-06,
      "loss": 1.09371758,
      "memory(GiB)": 112.26,
      "step": 49960,
      "train_speed(iter/s)": 1.130277
    },
    {
      "acc": 0.75540428,
      "epoch": 1.267503805175038,
      "grad_norm": 3.515625,
      "learning_rate": 3.2403323897280013e-06,
      "loss": 0.97635965,
      "memory(GiB)": 112.26,
      "step": 49965,
      "train_speed(iter/s)": 1.130293
    },
    {
      "acc": 0.74518127,
      "epoch": 1.2676306443429732,
      "grad_norm": 4.03125,
      "learning_rate": 3.2393508904572663e-06,
      "loss": 0.99563179,
      "memory(GiB)": 112.26,
      "step": 49970,
      "train_speed(iter/s)": 1.130316
    },
    {
      "acc": 0.73175755,
      "epoch": 1.2677574835109082,
      "grad_norm": 2.921875,
      "learning_rate": 3.2383694686277382e-06,
      "loss": 1.08617525,
      "memory(GiB)": 112.26,
      "step": 49975,
      "train_speed(iter/s)": 1.130328
    },
    {
      "acc": 0.73232141,
      "epoch": 1.2678843226788432,
      "grad_norm": 3.453125,
      "learning_rate": 3.2373881242825857e-06,
      "loss": 1.06483154,
      "memory(GiB)": 112.26,
      "step": 49980,
      "train_speed(iter/s)": 1.130345
    },
    {
      "acc": 0.73952589,
      "epoch": 1.2680111618467782,
      "grad_norm": 3.296875,
      "learning_rate": 3.236406857464973e-06,
      "loss": 1.02945356,
      "memory(GiB)": 112.26,
      "step": 49985,
      "train_speed(iter/s)": 1.130361
    },
    {
      "acc": 0.73550849,
      "epoch": 1.2681380010147134,
      "grad_norm": 3.359375,
      "learning_rate": 3.235425668218063e-06,
      "loss": 1.05322189,
      "memory(GiB)": 112.26,
      "step": 49990,
      "train_speed(iter/s)": 1.130379
    },
    {
      "acc": 0.73387265,
      "epoch": 1.2682648401826484,
      "grad_norm": 3.28125,
      "learning_rate": 3.234444556585007e-06,
      "loss": 1.06275558,
      "memory(GiB)": 112.26,
      "step": 49995,
      "train_speed(iter/s)": 1.130398
    },
    {
      "acc": 0.73441992,
      "epoch": 1.2683916793505834,
      "grad_norm": 3.25,
      "learning_rate": 3.233463522608964e-06,
      "loss": 1.0428463,
      "memory(GiB)": 112.26,
      "step": 50000,
      "train_speed(iter/s)": 1.130416
    },
    {
      "epoch": 1.2683916793505834,
      "eval_acc": 0.725748187872371,
      "eval_loss": 1.044524073600769,
      "eval_runtime": 70.8141,
      "eval_samples_per_second": 89.954,
      "eval_steps_per_second": 22.496,
      "step": 50000
    },
    {
      "acc": 0.7514668,
      "epoch": 1.2685185185185186,
      "grad_norm": 3.96875,
      "learning_rate": 3.2324825663330818e-06,
      "loss": 1.05618887,
      "memory(GiB)": 112.26,
      "step": 50005,
      "train_speed(iter/s)": 1.127489
    },
    {
      "acc": 0.74845142,
      "epoch": 1.2686453576864536,
      "grad_norm": 4.21875,
      "learning_rate": 3.231501687800509e-06,
      "loss": 0.99507561,
      "memory(GiB)": 112.26,
      "step": 50010,
      "train_speed(iter/s)": 1.127504
    },
    {
      "acc": 0.74289284,
      "epoch": 1.2687721968543886,
      "grad_norm": 3.640625,
      "learning_rate": 3.2305208870543857e-06,
      "loss": 1.04999819,
      "memory(GiB)": 112.26,
      "step": 50015,
      "train_speed(iter/s)": 1.127523
    },
    {
      "acc": 0.74453659,
      "epoch": 1.2688990360223236,
      "grad_norm": 4.125,
      "learning_rate": 3.2295401641378544e-06,
      "loss": 1.04799414,
      "memory(GiB)": 112.26,
      "step": 50020,
      "train_speed(iter/s)": 1.127539
    },
    {
      "acc": 0.74101019,
      "epoch": 1.2690258751902588,
      "grad_norm": 3.90625,
      "learning_rate": 3.2285595190940513e-06,
      "loss": 1.04812527,
      "memory(GiB)": 112.26,
      "step": 50025,
      "train_speed(iter/s)": 1.127556
    },
    {
      "acc": 0.73564811,
      "epoch": 1.2691527143581938,
      "grad_norm": 3.890625,
      "learning_rate": 3.2275789519661103e-06,
      "loss": 1.14671354,
      "memory(GiB)": 112.26,
      "step": 50030,
      "train_speed(iter/s)": 1.12758
    },
    {
      "acc": 0.74227762,
      "epoch": 1.269279553526129,
      "grad_norm": 3.921875,
      "learning_rate": 3.2265984627971595e-06,
      "loss": 1.09859695,
      "memory(GiB)": 112.26,
      "step": 50035,
      "train_speed(iter/s)": 1.127592
    },
    {
      "acc": 0.73140373,
      "epoch": 1.269406392694064,
      "grad_norm": 3.53125,
      "learning_rate": 3.225618051630326e-06,
      "loss": 1.11285744,
      "memory(GiB)": 112.26,
      "step": 50040,
      "train_speed(iter/s)": 1.127612
    },
    {
      "acc": 0.74977455,
      "epoch": 1.269533231861999,
      "grad_norm": 3.375,
      "learning_rate": 3.2246377185087325e-06,
      "loss": 1.06139269,
      "memory(GiB)": 112.26,
      "step": 50045,
      "train_speed(iter/s)": 1.127628
    },
    {
      "acc": 0.73466311,
      "epoch": 1.269660071029934,
      "grad_norm": 4.53125,
      "learning_rate": 3.2236574634755003e-06,
      "loss": 1.09277325,
      "memory(GiB)": 112.26,
      "step": 50050,
      "train_speed(iter/s)": 1.127646
    },
    {
      "acc": 0.72132177,
      "epoch": 1.2697869101978692,
      "grad_norm": 3.265625,
      "learning_rate": 3.222677286573742e-06,
      "loss": 1.14861774,
      "memory(GiB)": 112.26,
      "step": 50055,
      "train_speed(iter/s)": 1.127663
    },
    {
      "acc": 0.73626137,
      "epoch": 1.2699137493658041,
      "grad_norm": 3.859375,
      "learning_rate": 3.221697187846571e-06,
      "loss": 1.07681055,
      "memory(GiB)": 112.26,
      "step": 50060,
      "train_speed(iter/s)": 1.127677
    },
    {
      "acc": 0.75022783,
      "epoch": 1.2700405885337394,
      "grad_norm": 4.28125,
      "learning_rate": 3.2207171673370984e-06,
      "loss": 1.0699255,
      "memory(GiB)": 112.26,
      "step": 50065,
      "train_speed(iter/s)": 1.127687
    },
    {
      "acc": 0.73999672,
      "epoch": 1.2701674277016743,
      "grad_norm": 3.4375,
      "learning_rate": 3.2197372250884295e-06,
      "loss": 1.0606328,
      "memory(GiB)": 112.26,
      "step": 50070,
      "train_speed(iter/s)": 1.127704
    },
    {
      "acc": 0.74242783,
      "epoch": 1.2702942668696093,
      "grad_norm": 3.78125,
      "learning_rate": 3.218757361143664e-06,
      "loss": 1.07168293,
      "memory(GiB)": 112.26,
      "step": 50075,
      "train_speed(iter/s)": 1.127711
    },
    {
      "acc": 0.74615107,
      "epoch": 1.2704211060375443,
      "grad_norm": 4.03125,
      "learning_rate": 3.2177775755459034e-06,
      "loss": 1.07142258,
      "memory(GiB)": 112.26,
      "step": 50080,
      "train_speed(iter/s)": 1.127727
    },
    {
      "acc": 0.73371172,
      "epoch": 1.2705479452054795,
      "grad_norm": 3.609375,
      "learning_rate": 3.216797868338241e-06,
      "loss": 1.06026745,
      "memory(GiB)": 112.26,
      "step": 50085,
      "train_speed(iter/s)": 1.127744
    },
    {
      "acc": 0.74386044,
      "epoch": 1.2706747843734145,
      "grad_norm": 3.359375,
      "learning_rate": 3.215818239563773e-06,
      "loss": 1.04789543,
      "memory(GiB)": 112.26,
      "step": 50090,
      "train_speed(iter/s)": 1.127758
    },
    {
      "acc": 0.7456202,
      "epoch": 1.2708016235413495,
      "grad_norm": 3.453125,
      "learning_rate": 3.2148386892655814e-06,
      "loss": 0.988309,
      "memory(GiB)": 112.26,
      "step": 50095,
      "train_speed(iter/s)": 1.127782
    },
    {
      "acc": 0.73301501,
      "epoch": 1.2709284627092847,
      "grad_norm": 3.984375,
      "learning_rate": 3.2138592174867556e-06,
      "loss": 1.10659418,
      "memory(GiB)": 112.26,
      "step": 50100,
      "train_speed(iter/s)": 1.12779
    },
    {
      "acc": 0.75092459,
      "epoch": 1.2710553018772197,
      "grad_norm": 4.4375,
      "learning_rate": 3.2128798242703745e-06,
      "loss": 1.04646578,
      "memory(GiB)": 112.26,
      "step": 50105,
      "train_speed(iter/s)": 1.127799
    },
    {
      "acc": 0.74307895,
      "epoch": 1.2711821410451547,
      "grad_norm": 3.5,
      "learning_rate": 3.2119005096595203e-06,
      "loss": 1.04957085,
      "memory(GiB)": 112.26,
      "step": 50110,
      "train_speed(iter/s)": 1.127815
    },
    {
      "acc": 0.74568396,
      "epoch": 1.2713089802130897,
      "grad_norm": 3.25,
      "learning_rate": 3.2109212736972636e-06,
      "loss": 1.05065403,
      "memory(GiB)": 112.26,
      "step": 50115,
      "train_speed(iter/s)": 1.127837
    },
    {
      "acc": 0.7438199,
      "epoch": 1.271435819381025,
      "grad_norm": 3.453125,
      "learning_rate": 3.2099421164266758e-06,
      "loss": 1.00161533,
      "memory(GiB)": 112.26,
      "step": 50120,
      "train_speed(iter/s)": 1.12785
    },
    {
      "acc": 0.7417614,
      "epoch": 1.27156265854896,
      "grad_norm": 4.84375,
      "learning_rate": 3.2089630378908264e-06,
      "loss": 1.06032829,
      "memory(GiB)": 112.26,
      "step": 50125,
      "train_speed(iter/s)": 1.127869
    },
    {
      "acc": 0.75153036,
      "epoch": 1.271689497716895,
      "grad_norm": 2.875,
      "learning_rate": 3.207984038132781e-06,
      "loss": 1.02352829,
      "memory(GiB)": 112.26,
      "step": 50130,
      "train_speed(iter/s)": 1.127895
    },
    {
      "acc": 0.73799248,
      "epoch": 1.27181633688483,
      "grad_norm": 3.921875,
      "learning_rate": 3.2070051171955966e-06,
      "loss": 1.08213596,
      "memory(GiB)": 112.26,
      "step": 50135,
      "train_speed(iter/s)": 1.127911
    },
    {
      "acc": 0.75656829,
      "epoch": 1.271943176052765,
      "grad_norm": 3.1875,
      "learning_rate": 3.206026275122332e-06,
      "loss": 0.97845964,
      "memory(GiB)": 112.26,
      "step": 50140,
      "train_speed(iter/s)": 1.127927
    },
    {
      "acc": 0.76109085,
      "epoch": 1.2720700152207,
      "grad_norm": 3.71875,
      "learning_rate": 3.205047511956042e-06,
      "loss": 0.98996143,
      "memory(GiB)": 112.26,
      "step": 50145,
      "train_speed(iter/s)": 1.127945
    },
    {
      "acc": 0.73549862,
      "epoch": 1.2721968543886353,
      "grad_norm": 3.828125,
      "learning_rate": 3.204068827739777e-06,
      "loss": 1.14329319,
      "memory(GiB)": 112.26,
      "step": 50150,
      "train_speed(iter/s)": 1.127966
    },
    {
      "acc": 0.74271126,
      "epoch": 1.2723236935565703,
      "grad_norm": 3.8125,
      "learning_rate": 3.2030902225165814e-06,
      "loss": 1.06252918,
      "memory(GiB)": 112.26,
      "step": 50155,
      "train_speed(iter/s)": 1.127986
    },
    {
      "acc": 0.74737992,
      "epoch": 1.2724505327245053,
      "grad_norm": 2.921875,
      "learning_rate": 3.2021116963295016e-06,
      "loss": 1.02516174,
      "memory(GiB)": 112.26,
      "step": 50160,
      "train_speed(iter/s)": 1.127999
    },
    {
      "acc": 0.73825593,
      "epoch": 1.2725773718924405,
      "grad_norm": 3.140625,
      "learning_rate": 3.2011332492215753e-06,
      "loss": 1.05386391,
      "memory(GiB)": 112.26,
      "step": 50165,
      "train_speed(iter/s)": 1.128022
    },
    {
      "acc": 0.74641447,
      "epoch": 1.2727042110603755,
      "grad_norm": 3.703125,
      "learning_rate": 3.200154881235842e-06,
      "loss": 1.06086693,
      "memory(GiB)": 112.26,
      "step": 50170,
      "train_speed(iter/s)": 1.128038
    },
    {
      "acc": 0.74716902,
      "epoch": 1.2728310502283104,
      "grad_norm": 3.671875,
      "learning_rate": 3.1991765924153316e-06,
      "loss": 1.05050678,
      "memory(GiB)": 112.26,
      "step": 50175,
      "train_speed(iter/s)": 1.128051
    },
    {
      "acc": 0.7383337,
      "epoch": 1.2729578893962454,
      "grad_norm": 3.40625,
      "learning_rate": 3.198198382803075e-06,
      "loss": 1.03720436,
      "memory(GiB)": 112.26,
      "step": 50180,
      "train_speed(iter/s)": 1.128068
    },
    {
      "acc": 0.72628856,
      "epoch": 1.2730847285641806,
      "grad_norm": 4.15625,
      "learning_rate": 3.197220252442097e-06,
      "loss": 1.06050587,
      "memory(GiB)": 112.26,
      "step": 50185,
      "train_speed(iter/s)": 1.128089
    },
    {
      "acc": 0.73726444,
      "epoch": 1.2732115677321156,
      "grad_norm": 3.46875,
      "learning_rate": 3.1962422013754237e-06,
      "loss": 1.06460609,
      "memory(GiB)": 112.26,
      "step": 50190,
      "train_speed(iter/s)": 1.12811
    },
    {
      "acc": 0.75521832,
      "epoch": 1.2733384069000508,
      "grad_norm": 4.28125,
      "learning_rate": 3.1952642296460696e-06,
      "loss": 1.01263561,
      "memory(GiB)": 112.26,
      "step": 50195,
      "train_speed(iter/s)": 1.128125
    },
    {
      "acc": 0.72839909,
      "epoch": 1.2734652460679858,
      "grad_norm": 3.671875,
      "learning_rate": 3.194286337297051e-06,
      "loss": 1.1262557,
      "memory(GiB)": 112.26,
      "step": 50200,
      "train_speed(iter/s)": 1.128142
    },
    {
      "acc": 0.73951378,
      "epoch": 1.2735920852359208,
      "grad_norm": 5.28125,
      "learning_rate": 3.1933085243713837e-06,
      "loss": 0.99761753,
      "memory(GiB)": 112.26,
      "step": 50205,
      "train_speed(iter/s)": 1.128163
    },
    {
      "acc": 0.74774723,
      "epoch": 1.2737189244038558,
      "grad_norm": 3.796875,
      "learning_rate": 3.1923307909120736e-06,
      "loss": 1.10692453,
      "memory(GiB)": 112.26,
      "step": 50210,
      "train_speed(iter/s)": 1.128182
    },
    {
      "acc": 0.74451141,
      "epoch": 1.273845763571791,
      "grad_norm": 3.453125,
      "learning_rate": 3.1913531369621243e-06,
      "loss": 1.03897381,
      "memory(GiB)": 112.26,
      "step": 50215,
      "train_speed(iter/s)": 1.128192
    },
    {
      "acc": 0.74169831,
      "epoch": 1.273972602739726,
      "grad_norm": 3.859375,
      "learning_rate": 3.19037556256454e-06,
      "loss": 1.05443001,
      "memory(GiB)": 112.26,
      "step": 50220,
      "train_speed(iter/s)": 1.128216
    },
    {
      "acc": 0.73419037,
      "epoch": 1.2740994419076612,
      "grad_norm": 4.03125,
      "learning_rate": 3.189398067762318e-06,
      "loss": 1.08106499,
      "memory(GiB)": 112.26,
      "step": 50225,
      "train_speed(iter/s)": 1.128233
    },
    {
      "acc": 0.74310322,
      "epoch": 1.2742262810755962,
      "grad_norm": 4.28125,
      "learning_rate": 3.1884206525984535e-06,
      "loss": 1.07625456,
      "memory(GiB)": 112.26,
      "step": 50230,
      "train_speed(iter/s)": 1.128247
    },
    {
      "acc": 0.73973165,
      "epoch": 1.2743531202435312,
      "grad_norm": 3.515625,
      "learning_rate": 3.1874433171159348e-06,
      "loss": 1.08735924,
      "memory(GiB)": 112.26,
      "step": 50235,
      "train_speed(iter/s)": 1.128272
    },
    {
      "acc": 0.7403852,
      "epoch": 1.2744799594114662,
      "grad_norm": 3.15625,
      "learning_rate": 3.1864660613577523e-06,
      "loss": 1.07830362,
      "memory(GiB)": 112.26,
      "step": 50240,
      "train_speed(iter/s)": 1.128281
    },
    {
      "acc": 0.74600654,
      "epoch": 1.2746067985794014,
      "grad_norm": 4.3125,
      "learning_rate": 3.185488885366889e-06,
      "loss": 1.02441444,
      "memory(GiB)": 112.26,
      "step": 50245,
      "train_speed(iter/s)": 1.128283
    },
    {
      "acc": 0.74333286,
      "epoch": 1.2747336377473364,
      "grad_norm": 3.03125,
      "learning_rate": 3.1845117891863274e-06,
      "loss": 1.02233858,
      "memory(GiB)": 112.26,
      "step": 50250,
      "train_speed(iter/s)": 1.128294
    },
    {
      "acc": 0.73325801,
      "epoch": 1.2748604769152714,
      "grad_norm": 3.34375,
      "learning_rate": 3.1835347728590414e-06,
      "loss": 1.05813036,
      "memory(GiB)": 112.26,
      "step": 50255,
      "train_speed(iter/s)": 1.128291
    },
    {
      "acc": 0.7316165,
      "epoch": 1.2749873160832066,
      "grad_norm": 3.6875,
      "learning_rate": 3.1825578364280064e-06,
      "loss": 1.023246,
      "memory(GiB)": 112.26,
      "step": 50260,
      "train_speed(iter/s)": 1.128313
    },
    {
      "acc": 0.75052977,
      "epoch": 1.2751141552511416,
      "grad_norm": 3.84375,
      "learning_rate": 3.181580979936192e-06,
      "loss": 1.04848442,
      "memory(GiB)": 112.26,
      "step": 50265,
      "train_speed(iter/s)": 1.128332
    },
    {
      "acc": 0.73635635,
      "epoch": 1.2752409944190766,
      "grad_norm": 3.4375,
      "learning_rate": 3.1806042034265656e-06,
      "loss": 1.0802681,
      "memory(GiB)": 112.26,
      "step": 50270,
      "train_speed(iter/s)": 1.128352
    },
    {
      "acc": 0.73477459,
      "epoch": 1.2753678335870116,
      "grad_norm": 3.71875,
      "learning_rate": 3.179627506942089e-06,
      "loss": 1.06146164,
      "memory(GiB)": 112.26,
      "step": 50275,
      "train_speed(iter/s)": 1.128371
    },
    {
      "acc": 0.75181584,
      "epoch": 1.2754946727549468,
      "grad_norm": 3.53125,
      "learning_rate": 3.17865089052572e-06,
      "loss": 1.07510386,
      "memory(GiB)": 112.26,
      "step": 50280,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.75101166,
      "epoch": 1.2756215119228818,
      "grad_norm": 3.15625,
      "learning_rate": 3.177674354220418e-06,
      "loss": 1.01611071,
      "memory(GiB)": 112.26,
      "step": 50285,
      "train_speed(iter/s)": 1.128411
    },
    {
      "acc": 0.74901943,
      "epoch": 1.275748351090817,
      "grad_norm": 3.734375,
      "learning_rate": 3.1766978980691355e-06,
      "loss": 1.03964071,
      "memory(GiB)": 112.26,
      "step": 50290,
      "train_speed(iter/s)": 1.128429
    },
    {
      "acc": 0.74372463,
      "epoch": 1.275875190258752,
      "grad_norm": 3.28125,
      "learning_rate": 3.1757215221148173e-06,
      "loss": 1.08009577,
      "memory(GiB)": 112.26,
      "step": 50295,
      "train_speed(iter/s)": 1.128447
    },
    {
      "acc": 0.73780193,
      "epoch": 1.276002029426687,
      "grad_norm": 3.359375,
      "learning_rate": 3.174745226400413e-06,
      "loss": 1.06096821,
      "memory(GiB)": 112.26,
      "step": 50300,
      "train_speed(iter/s)": 1.128463
    },
    {
      "acc": 0.74960527,
      "epoch": 1.276128868594622,
      "grad_norm": 3.609375,
      "learning_rate": 3.1737690109688613e-06,
      "loss": 1.03331261,
      "memory(GiB)": 112.26,
      "step": 50305,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.74345198,
      "epoch": 1.2762557077625571,
      "grad_norm": 3.734375,
      "learning_rate": 3.1727928758631054e-06,
      "loss": 1.02220592,
      "memory(GiB)": 112.26,
      "step": 50310,
      "train_speed(iter/s)": 1.128504
    },
    {
      "acc": 0.73728943,
      "epoch": 1.2763825469304921,
      "grad_norm": 3.515625,
      "learning_rate": 3.1718168211260734e-06,
      "loss": 1.09698391,
      "memory(GiB)": 112.26,
      "step": 50315,
      "train_speed(iter/s)": 1.128515
    },
    {
      "acc": 0.72998056,
      "epoch": 1.2765093860984271,
      "grad_norm": 4.625,
      "learning_rate": 3.1708408468007014e-06,
      "loss": 1.11272688,
      "memory(GiB)": 112.26,
      "step": 50320,
      "train_speed(iter/s)": 1.128527
    },
    {
      "acc": 0.73907361,
      "epoch": 1.2766362252663623,
      "grad_norm": 3.5,
      "learning_rate": 3.169864952929914e-06,
      "loss": 1.07838087,
      "memory(GiB)": 112.26,
      "step": 50325,
      "train_speed(iter/s)": 1.128545
    },
    {
      "acc": 0.74389868,
      "epoch": 1.2767630644342973,
      "grad_norm": 3.15625,
      "learning_rate": 3.168889139556639e-06,
      "loss": 1.04199066,
      "memory(GiB)": 112.26,
      "step": 50330,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.74899201,
      "epoch": 1.2768899036022323,
      "grad_norm": 3.046875,
      "learning_rate": 3.1679134067237942e-06,
      "loss": 1.0567585,
      "memory(GiB)": 112.26,
      "step": 50335,
      "train_speed(iter/s)": 1.12858
    },
    {
      "acc": 0.74869089,
      "epoch": 1.2770167427701673,
      "grad_norm": 3.65625,
      "learning_rate": 3.166937754474296e-06,
      "loss": 1.03778019,
      "memory(GiB)": 112.26,
      "step": 50340,
      "train_speed(iter/s)": 1.128594
    },
    {
      "acc": 0.75238647,
      "epoch": 1.2771435819381025,
      "grad_norm": 3.515625,
      "learning_rate": 3.165962182851061e-06,
      "loss": 1.0153595,
      "memory(GiB)": 112.26,
      "step": 50345,
      "train_speed(iter/s)": 1.128614
    },
    {
      "acc": 0.74664087,
      "epoch": 1.2772704211060375,
      "grad_norm": 4.0,
      "learning_rate": 3.1649866918969984e-06,
      "loss": 1.02299633,
      "memory(GiB)": 112.26,
      "step": 50350,
      "train_speed(iter/s)": 1.128623
    },
    {
      "acc": 0.73792992,
      "epoch": 1.2773972602739727,
      "grad_norm": 4.0625,
      "learning_rate": 3.164011281655013e-06,
      "loss": 1.04927444,
      "memory(GiB)": 112.26,
      "step": 50355,
      "train_speed(iter/s)": 1.128626
    },
    {
      "acc": 0.7313612,
      "epoch": 1.2775240994419077,
      "grad_norm": 3.578125,
      "learning_rate": 3.163035952168007e-06,
      "loss": 1.11434078,
      "memory(GiB)": 112.26,
      "step": 50360,
      "train_speed(iter/s)": 1.128636
    },
    {
      "acc": 0.74551334,
      "epoch": 1.2776509386098427,
      "grad_norm": 5.125,
      "learning_rate": 3.1620607034788832e-06,
      "loss": 1.11293678,
      "memory(GiB)": 112.26,
      "step": 50365,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.73394332,
      "epoch": 1.2777777777777777,
      "grad_norm": 3.25,
      "learning_rate": 3.1610855356305354e-06,
      "loss": 1.10647726,
      "memory(GiB)": 112.26,
      "step": 50370,
      "train_speed(iter/s)": 1.128661
    },
    {
      "acc": 0.7376503,
      "epoch": 1.277904616945713,
      "grad_norm": 3.796875,
      "learning_rate": 3.160110448665854e-06,
      "loss": 1.05790777,
      "memory(GiB)": 112.26,
      "step": 50375,
      "train_speed(iter/s)": 1.128671
    },
    {
      "acc": 0.74859419,
      "epoch": 1.2780314561136479,
      "grad_norm": 3.09375,
      "learning_rate": 3.159135442627731e-06,
      "loss": 1.01693411,
      "memory(GiB)": 112.26,
      "step": 50380,
      "train_speed(iter/s)": 1.128673
    },
    {
      "acc": 0.74992604,
      "epoch": 1.278158295281583,
      "grad_norm": 3.453125,
      "learning_rate": 3.158160517559049e-06,
      "loss": 1.06419458,
      "memory(GiB)": 112.26,
      "step": 50385,
      "train_speed(iter/s)": 1.128677
    },
    {
      "acc": 0.73623695,
      "epoch": 1.278285134449518,
      "grad_norm": 3.5625,
      "learning_rate": 3.157185673502693e-06,
      "loss": 1.09588041,
      "memory(GiB)": 112.26,
      "step": 50390,
      "train_speed(iter/s)": 1.128673
    },
    {
      "acc": 0.73802028,
      "epoch": 1.278411973617453,
      "grad_norm": 4.28125,
      "learning_rate": 3.156210910501537e-06,
      "loss": 1.05875587,
      "memory(GiB)": 112.26,
      "step": 50395,
      "train_speed(iter/s)": 1.128687
    },
    {
      "acc": 0.73692751,
      "epoch": 1.278538812785388,
      "grad_norm": 3.140625,
      "learning_rate": 3.155236228598457e-06,
      "loss": 1.06282578,
      "memory(GiB)": 112.26,
      "step": 50400,
      "train_speed(iter/s)": 1.128707
    },
    {
      "acc": 0.73330388,
      "epoch": 1.2786656519533233,
      "grad_norm": 4.0,
      "learning_rate": 3.1542616278363238e-06,
      "loss": 1.0793684,
      "memory(GiB)": 112.26,
      "step": 50405,
      "train_speed(iter/s)": 1.128718
    },
    {
      "acc": 0.7266376,
      "epoch": 1.2787924911212583,
      "grad_norm": 3.75,
      "learning_rate": 3.1532871082580064e-06,
      "loss": 1.11115885,
      "memory(GiB)": 112.26,
      "step": 50410,
      "train_speed(iter/s)": 1.12873
    },
    {
      "acc": 0.74429736,
      "epoch": 1.2789193302891932,
      "grad_norm": 3.578125,
      "learning_rate": 3.152312669906366e-06,
      "loss": 1.04885349,
      "memory(GiB)": 112.26,
      "step": 50415,
      "train_speed(iter/s)": 1.128748
    },
    {
      "acc": 0.75760088,
      "epoch": 1.2790461694571285,
      "grad_norm": 3.671875,
      "learning_rate": 3.1513383128242624e-06,
      "loss": 1.00232115,
      "memory(GiB)": 112.26,
      "step": 50420,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.74495654,
      "epoch": 1.2791730086250634,
      "grad_norm": 4.53125,
      "learning_rate": 3.150364037054555e-06,
      "loss": 1.08195057,
      "memory(GiB)": 112.26,
      "step": 50425,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.73741775,
      "epoch": 1.2792998477929984,
      "grad_norm": 3.484375,
      "learning_rate": 3.149389842640096e-06,
      "loss": 1.02340965,
      "memory(GiB)": 112.26,
      "step": 50430,
      "train_speed(iter/s)": 1.128779
    },
    {
      "acc": 0.74886384,
      "epoch": 1.2794266869609334,
      "grad_norm": 4.28125,
      "learning_rate": 3.148415729623732e-06,
      "loss": 1.04368725,
      "memory(GiB)": 112.26,
      "step": 50435,
      "train_speed(iter/s)": 1.128794
    },
    {
      "acc": 0.74189472,
      "epoch": 1.2795535261288686,
      "grad_norm": 2.96875,
      "learning_rate": 3.1474416980483126e-06,
      "loss": 1.08984795,
      "memory(GiB)": 112.26,
      "step": 50440,
      "train_speed(iter/s)": 1.128814
    },
    {
      "acc": 0.74966359,
      "epoch": 1.2796803652968036,
      "grad_norm": 4.125,
      "learning_rate": 3.1464677479566774e-06,
      "loss": 1.0519887,
      "memory(GiB)": 112.26,
      "step": 50445,
      "train_speed(iter/s)": 1.128823
    },
    {
      "acc": 0.7396481,
      "epoch": 1.2798072044647388,
      "grad_norm": 3.734375,
      "learning_rate": 3.1454938793916677e-06,
      "loss": 1.09307976,
      "memory(GiB)": 112.26,
      "step": 50450,
      "train_speed(iter/s)": 1.128844
    },
    {
      "acc": 0.73328199,
      "epoch": 1.2799340436326738,
      "grad_norm": 3.640625,
      "learning_rate": 3.144520092396115e-06,
      "loss": 1.07029343,
      "memory(GiB)": 112.26,
      "step": 50455,
      "train_speed(iter/s)": 1.128864
    },
    {
      "acc": 0.74115357,
      "epoch": 1.2800608828006088,
      "grad_norm": 3.140625,
      "learning_rate": 3.1435463870128536e-06,
      "loss": 1.04645977,
      "memory(GiB)": 112.26,
      "step": 50460,
      "train_speed(iter/s)": 1.128878
    },
    {
      "acc": 0.75994906,
      "epoch": 1.2801877219685438,
      "grad_norm": 3.921875,
      "learning_rate": 3.142572763284709e-06,
      "loss": 1.00242748,
      "memory(GiB)": 112.26,
      "step": 50465,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.73699636,
      "epoch": 1.280314561136479,
      "grad_norm": 3.828125,
      "learning_rate": 3.14159922125451e-06,
      "loss": 1.06930943,
      "memory(GiB)": 112.26,
      "step": 50470,
      "train_speed(iter/s)": 1.128916
    },
    {
      "acc": 0.73907218,
      "epoch": 1.280441400304414,
      "grad_norm": 3.078125,
      "learning_rate": 3.1406257609650724e-06,
      "loss": 1.06053629,
      "memory(GiB)": 112.26,
      "step": 50475,
      "train_speed(iter/s)": 1.128922
    },
    {
      "acc": 0.74775181,
      "epoch": 1.280568239472349,
      "grad_norm": 4.875,
      "learning_rate": 3.139652382459215e-06,
      "loss": 1.07822819,
      "memory(GiB)": 112.26,
      "step": 50480,
      "train_speed(iter/s)": 1.128943
    },
    {
      "acc": 0.73051624,
      "epoch": 1.2806950786402842,
      "grad_norm": 3.796875,
      "learning_rate": 3.1386790857797535e-06,
      "loss": 1.10054817,
      "memory(GiB)": 112.26,
      "step": 50485,
      "train_speed(iter/s)": 1.12897
    },
    {
      "acc": 0.76458855,
      "epoch": 1.2808219178082192,
      "grad_norm": 4.46875,
      "learning_rate": 3.1377058709694957e-06,
      "loss": 1.00443916,
      "memory(GiB)": 112.26,
      "step": 50490,
      "train_speed(iter/s)": 1.128986
    },
    {
      "acc": 0.74017234,
      "epoch": 1.2809487569761542,
      "grad_norm": 3.265625,
      "learning_rate": 3.1367327380712477e-06,
      "loss": 0.9961133,
      "memory(GiB)": 112.26,
      "step": 50495,
      "train_speed(iter/s)": 1.128992
    },
    {
      "acc": 0.73536243,
      "epoch": 1.2810755961440892,
      "grad_norm": 3.34375,
      "learning_rate": 3.135759687127812e-06,
      "loss": 1.04272585,
      "memory(GiB)": 112.26,
      "step": 50500,
      "train_speed(iter/s)": 1.129012
    },
    {
      "acc": 0.7394166,
      "epoch": 1.2812024353120244,
      "grad_norm": 2.984375,
      "learning_rate": 3.134786718181989e-06,
      "loss": 1.06249428,
      "memory(GiB)": 112.26,
      "step": 50505,
      "train_speed(iter/s)": 1.129023
    },
    {
      "acc": 0.73867512,
      "epoch": 1.2813292744799594,
      "grad_norm": 3.578125,
      "learning_rate": 3.133813831276575e-06,
      "loss": 1.04856749,
      "memory(GiB)": 112.26,
      "step": 50510,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.74843431,
      "epoch": 1.2814561136478946,
      "grad_norm": 4.46875,
      "learning_rate": 3.1328410264543585e-06,
      "loss": 1.06946211,
      "memory(GiB)": 112.26,
      "step": 50515,
      "train_speed(iter/s)": 1.129049
    },
    {
      "acc": 0.7463666,
      "epoch": 1.2815829528158296,
      "grad_norm": 3.703125,
      "learning_rate": 3.131868303758131e-06,
      "loss": 1.00167122,
      "memory(GiB)": 112.26,
      "step": 50520,
      "train_speed(iter/s)": 1.129059
    },
    {
      "acc": 0.74305258,
      "epoch": 1.2817097919837646,
      "grad_norm": 4.03125,
      "learning_rate": 3.1308956632306754e-06,
      "loss": 1.01931019,
      "memory(GiB)": 112.26,
      "step": 50525,
      "train_speed(iter/s)": 1.129083
    },
    {
      "acc": 0.73730783,
      "epoch": 1.2818366311516995,
      "grad_norm": 3.65625,
      "learning_rate": 3.129923104914776e-06,
      "loss": 1.10199051,
      "memory(GiB)": 112.26,
      "step": 50530,
      "train_speed(iter/s)": 1.129088
    },
    {
      "acc": 0.74697151,
      "epoch": 1.2819634703196348,
      "grad_norm": 4.09375,
      "learning_rate": 3.1289506288532045e-06,
      "loss": 0.98339977,
      "memory(GiB)": 112.26,
      "step": 50535,
      "train_speed(iter/s)": 1.1291
    },
    {
      "acc": 0.7253602,
      "epoch": 1.2820903094875697,
      "grad_norm": 3.609375,
      "learning_rate": 3.12797823508874e-06,
      "loss": 1.09573574,
      "memory(GiB)": 112.26,
      "step": 50540,
      "train_speed(iter/s)": 1.129108
    },
    {
      "acc": 0.7433713,
      "epoch": 1.282217148655505,
      "grad_norm": 3.421875,
      "learning_rate": 3.127005923664149e-06,
      "loss": 1.03442097,
      "memory(GiB)": 112.26,
      "step": 50545,
      "train_speed(iter/s)": 1.129129
    },
    {
      "acc": 0.74156561,
      "epoch": 1.28234398782344,
      "grad_norm": 3.390625,
      "learning_rate": 3.1260336946222014e-06,
      "loss": 1.02353868,
      "memory(GiB)": 112.26,
      "step": 50550,
      "train_speed(iter/s)": 1.129133
    },
    {
      "acc": 0.75345726,
      "epoch": 1.282470826991375,
      "grad_norm": 3.90625,
      "learning_rate": 3.1250615480056584e-06,
      "loss": 0.96986399,
      "memory(GiB)": 112.26,
      "step": 50555,
      "train_speed(iter/s)": 1.12915
    },
    {
      "acc": 0.75115337,
      "epoch": 1.28259766615931,
      "grad_norm": 3.1875,
      "learning_rate": 3.124089483857278e-06,
      "loss": 0.99076138,
      "memory(GiB)": 112.26,
      "step": 50560,
      "train_speed(iter/s)": 1.129163
    },
    {
      "acc": 0.7389143,
      "epoch": 1.2827245053272451,
      "grad_norm": 5.09375,
      "learning_rate": 3.123117502219819e-06,
      "loss": 1.06417704,
      "memory(GiB)": 112.26,
      "step": 50565,
      "train_speed(iter/s)": 1.129181
    },
    {
      "acc": 0.74208179,
      "epoch": 1.2828513444951801,
      "grad_norm": 3.984375,
      "learning_rate": 3.122145603136032e-06,
      "loss": 1.05853596,
      "memory(GiB)": 112.26,
      "step": 50570,
      "train_speed(iter/s)": 1.12919
    },
    {
      "acc": 0.74858956,
      "epoch": 1.2829781836631151,
      "grad_norm": 4.34375,
      "learning_rate": 3.1211737866486653e-06,
      "loss": 1.06949539,
      "memory(GiB)": 112.26,
      "step": 50575,
      "train_speed(iter/s)": 1.129196
    },
    {
      "acc": 0.74071445,
      "epoch": 1.2831050228310503,
      "grad_norm": 3.171875,
      "learning_rate": 3.1202020528004627e-06,
      "loss": 1.03724298,
      "memory(GiB)": 112.26,
      "step": 50580,
      "train_speed(iter/s)": 1.129205
    },
    {
      "acc": 0.74006562,
      "epoch": 1.2832318619989853,
      "grad_norm": 3.4375,
      "learning_rate": 3.119230401634167e-06,
      "loss": 1.05988064,
      "memory(GiB)": 112.26,
      "step": 50585,
      "train_speed(iter/s)": 1.129211
    },
    {
      "acc": 0.74568968,
      "epoch": 1.2833587011669203,
      "grad_norm": 3.375,
      "learning_rate": 3.118258833192517e-06,
      "loss": 1.01846352,
      "memory(GiB)": 112.26,
      "step": 50590,
      "train_speed(iter/s)": 1.129238
    },
    {
      "acc": 0.73226519,
      "epoch": 1.2834855403348553,
      "grad_norm": 4.40625,
      "learning_rate": 3.117287347518242e-06,
      "loss": 1.04035015,
      "memory(GiB)": 112.26,
      "step": 50595,
      "train_speed(iter/s)": 1.129257
    },
    {
      "acc": 0.73579683,
      "epoch": 1.2836123795027905,
      "grad_norm": 4.40625,
      "learning_rate": 3.116315944654077e-06,
      "loss": 1.12798529,
      "memory(GiB)": 112.26,
      "step": 50600,
      "train_speed(iter/s)": 1.129274
    },
    {
      "acc": 0.73716288,
      "epoch": 1.2837392186707255,
      "grad_norm": 3.828125,
      "learning_rate": 3.115344624642745e-06,
      "loss": 1.07034225,
      "memory(GiB)": 112.26,
      "step": 50605,
      "train_speed(iter/s)": 1.129276
    },
    {
      "acc": 0.75078373,
      "epoch": 1.2838660578386607,
      "grad_norm": 4.5,
      "learning_rate": 3.1143733875269734e-06,
      "loss": 1.05198421,
      "memory(GiB)": 112.26,
      "step": 50610,
      "train_speed(iter/s)": 1.12929
    },
    {
      "acc": 0.76230903,
      "epoch": 1.2839928970065957,
      "grad_norm": 3.703125,
      "learning_rate": 3.1134022333494774e-06,
      "loss": 0.98476715,
      "memory(GiB)": 112.26,
      "step": 50615,
      "train_speed(iter/s)": 1.129291
    },
    {
      "acc": 0.75253992,
      "epoch": 1.2841197361745307,
      "grad_norm": 3.375,
      "learning_rate": 3.1124311621529744e-06,
      "loss": 0.98632164,
      "memory(GiB)": 112.26,
      "step": 50620,
      "train_speed(iter/s)": 1.129314
    },
    {
      "acc": 0.74405837,
      "epoch": 1.2842465753424657,
      "grad_norm": 3.96875,
      "learning_rate": 3.111460173980175e-06,
      "loss": 1.06022243,
      "memory(GiB)": 112.26,
      "step": 50625,
      "train_speed(iter/s)": 1.129331
    },
    {
      "acc": 0.73975487,
      "epoch": 1.2843734145104009,
      "grad_norm": 3.1875,
      "learning_rate": 3.110489268873792e-06,
      "loss": 1.02489357,
      "memory(GiB)": 112.26,
      "step": 50630,
      "train_speed(iter/s)": 1.129348
    },
    {
      "acc": 0.7516881,
      "epoch": 1.2845002536783359,
      "grad_norm": 4.1875,
      "learning_rate": 3.1095184468765248e-06,
      "loss": 1.05723438,
      "memory(GiB)": 112.26,
      "step": 50635,
      "train_speed(iter/s)": 1.129373
    },
    {
      "acc": 0.74029355,
      "epoch": 1.2846270928462709,
      "grad_norm": 3.03125,
      "learning_rate": 3.1085477080310766e-06,
      "loss": 1.06832962,
      "memory(GiB)": 112.26,
      "step": 50640,
      "train_speed(iter/s)": 1.129392
    },
    {
      "acc": 0.74242697,
      "epoch": 1.284753932014206,
      "grad_norm": 3.875,
      "learning_rate": 3.1075770523801453e-06,
      "loss": 1.03928318,
      "memory(GiB)": 112.26,
      "step": 50645,
      "train_speed(iter/s)": 1.129412
    },
    {
      "acc": 0.74640408,
      "epoch": 1.284880771182141,
      "grad_norm": 3.25,
      "learning_rate": 3.106606479966426e-06,
      "loss": 1.03606586,
      "memory(GiB)": 112.26,
      "step": 50650,
      "train_speed(iter/s)": 1.129431
    },
    {
      "acc": 0.76053109,
      "epoch": 1.285007610350076,
      "grad_norm": 3.828125,
      "learning_rate": 3.1056359908326044e-06,
      "loss": 1.05446262,
      "memory(GiB)": 112.26,
      "step": 50655,
      "train_speed(iter/s)": 1.129442
    },
    {
      "acc": 0.7334166,
      "epoch": 1.285134449518011,
      "grad_norm": 4.34375,
      "learning_rate": 3.1046655850213707e-06,
      "loss": 1.02329874,
      "memory(GiB)": 112.26,
      "step": 50660,
      "train_speed(iter/s)": 1.129463
    },
    {
      "acc": 0.74390235,
      "epoch": 1.2852612886859462,
      "grad_norm": 3.890625,
      "learning_rate": 3.103695262575407e-06,
      "loss": 1.06977272,
      "memory(GiB)": 112.26,
      "step": 50665,
      "train_speed(iter/s)": 1.129478
    },
    {
      "acc": 0.73759599,
      "epoch": 1.2853881278538812,
      "grad_norm": 3.515625,
      "learning_rate": 3.102725023537393e-06,
      "loss": 1.07600756,
      "memory(GiB)": 112.26,
      "step": 50670,
      "train_speed(iter/s)": 1.129506
    },
    {
      "acc": 0.74460993,
      "epoch": 1.2855149670218164,
      "grad_norm": 3.546875,
      "learning_rate": 3.1017548679500008e-06,
      "loss": 0.98205185,
      "memory(GiB)": 112.26,
      "step": 50675,
      "train_speed(iter/s)": 1.129522
    },
    {
      "acc": 0.73075228,
      "epoch": 1.2856418061897514,
      "grad_norm": 5.0625,
      "learning_rate": 3.1007847958559057e-06,
      "loss": 1.05329466,
      "memory(GiB)": 112.26,
      "step": 50680,
      "train_speed(iter/s)": 1.129538
    },
    {
      "acc": 0.73203669,
      "epoch": 1.2857686453576864,
      "grad_norm": 3.828125,
      "learning_rate": 3.099814807297774e-06,
      "loss": 1.07907906,
      "memory(GiB)": 112.26,
      "step": 50685,
      "train_speed(iter/s)": 1.129555
    },
    {
      "acc": 0.7560307,
      "epoch": 1.2858954845256214,
      "grad_norm": 3.40625,
      "learning_rate": 3.098844902318272e-06,
      "loss": 1.00499897,
      "memory(GiB)": 112.26,
      "step": 50690,
      "train_speed(iter/s)": 1.129557
    },
    {
      "acc": 0.74750757,
      "epoch": 1.2860223236935566,
      "grad_norm": 3.828125,
      "learning_rate": 3.0978750809600596e-06,
      "loss": 1.08363447,
      "memory(GiB)": 112.26,
      "step": 50695,
      "train_speed(iter/s)": 1.129572
    },
    {
      "acc": 0.75067644,
      "epoch": 1.2861491628614916,
      "grad_norm": 3.921875,
      "learning_rate": 3.0969053432657913e-06,
      "loss": 1.03982935,
      "memory(GiB)": 112.26,
      "step": 50700,
      "train_speed(iter/s)": 1.129576
    },
    {
      "acc": 0.74235339,
      "epoch": 1.2862760020294268,
      "grad_norm": 3.625,
      "learning_rate": 3.0959356892781246e-06,
      "loss": 1.02826538,
      "memory(GiB)": 112.26,
      "step": 50705,
      "train_speed(iter/s)": 1.129594
    },
    {
      "acc": 0.74434509,
      "epoch": 1.2864028411973618,
      "grad_norm": 4.25,
      "learning_rate": 3.0949661190397072e-06,
      "loss": 1.05845671,
      "memory(GiB)": 112.26,
      "step": 50710,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.74025869,
      "epoch": 1.2865296803652968,
      "grad_norm": 3.796875,
      "learning_rate": 3.0939966325931852e-06,
      "loss": 1.10808296,
      "memory(GiB)": 112.26,
      "step": 50715,
      "train_speed(iter/s)": 1.129635
    },
    {
      "acc": 0.72640109,
      "epoch": 1.2866565195332318,
      "grad_norm": 3.375,
      "learning_rate": 3.0930272299812e-06,
      "loss": 1.11874619,
      "memory(GiB)": 112.26,
      "step": 50720,
      "train_speed(iter/s)": 1.129657
    },
    {
      "acc": 0.7401473,
      "epoch": 1.286783358701167,
      "grad_norm": 3.53125,
      "learning_rate": 3.0920579112463916e-06,
      "loss": 1.03922911,
      "memory(GiB)": 112.26,
      "step": 50725,
      "train_speed(iter/s)": 1.12968
    },
    {
      "acc": 0.73550205,
      "epoch": 1.286910197869102,
      "grad_norm": 3.484375,
      "learning_rate": 3.0910886764313964e-06,
      "loss": 1.10689945,
      "memory(GiB)": 112.26,
      "step": 50730,
      "train_speed(iter/s)": 1.129701
    },
    {
      "acc": 0.75176144,
      "epoch": 1.287037037037037,
      "grad_norm": 3.546875,
      "learning_rate": 3.0901195255788406e-06,
      "loss": 1.01304626,
      "memory(GiB)": 112.26,
      "step": 50735,
      "train_speed(iter/s)": 1.129716
    },
    {
      "acc": 0.75816803,
      "epoch": 1.2871638762049722,
      "grad_norm": 3.6875,
      "learning_rate": 3.089150458731357e-06,
      "loss": 0.98693781,
      "memory(GiB)": 112.26,
      "step": 50740,
      "train_speed(iter/s)": 1.129731
    },
    {
      "acc": 0.75521555,
      "epoch": 1.2872907153729072,
      "grad_norm": 3.59375,
      "learning_rate": 3.0881814759315666e-06,
      "loss": 1.01612835,
      "memory(GiB)": 112.26,
      "step": 50745,
      "train_speed(iter/s)": 1.129744
    },
    {
      "acc": 0.74078941,
      "epoch": 1.2874175545408422,
      "grad_norm": 3.578125,
      "learning_rate": 3.0872125772220934e-06,
      "loss": 1.07931881,
      "memory(GiB)": 112.26,
      "step": 50750,
      "train_speed(iter/s)": 1.129746
    },
    {
      "acc": 0.7421669,
      "epoch": 1.2875443937087772,
      "grad_norm": 4.1875,
      "learning_rate": 3.0862437626455483e-06,
      "loss": 1.09561691,
      "memory(GiB)": 112.26,
      "step": 50755,
      "train_speed(iter/s)": 1.129756
    },
    {
      "acc": 0.75406857,
      "epoch": 1.2876712328767124,
      "grad_norm": 4.03125,
      "learning_rate": 3.0852750322445473e-06,
      "loss": 0.97565098,
      "memory(GiB)": 112.26,
      "step": 50760,
      "train_speed(iter/s)": 1.129776
    },
    {
      "acc": 0.7520782,
      "epoch": 1.2877980720446474,
      "grad_norm": 3.625,
      "learning_rate": 3.0843063860616982e-06,
      "loss": 1.05913773,
      "memory(GiB)": 112.26,
      "step": 50765,
      "train_speed(iter/s)": 1.129777
    },
    {
      "acc": 0.74597354,
      "epoch": 1.2879249112125826,
      "grad_norm": 3.5625,
      "learning_rate": 3.0833378241396094e-06,
      "loss": 1.05051842,
      "memory(GiB)": 112.26,
      "step": 50770,
      "train_speed(iter/s)": 1.129793
    },
    {
      "acc": 0.72943697,
      "epoch": 1.2880517503805176,
      "grad_norm": 3.203125,
      "learning_rate": 3.0823693465208794e-06,
      "loss": 1.06653032,
      "memory(GiB)": 112.26,
      "step": 50775,
      "train_speed(iter/s)": 1.129809
    },
    {
      "acc": 0.74329729,
      "epoch": 1.2881785895484525,
      "grad_norm": 4.71875,
      "learning_rate": 3.081400953248106e-06,
      "loss": 1.0486145,
      "memory(GiB)": 112.26,
      "step": 50780,
      "train_speed(iter/s)": 1.129826
    },
    {
      "acc": 0.73240151,
      "epoch": 1.2883054287163875,
      "grad_norm": 4.9375,
      "learning_rate": 3.0804326443638854e-06,
      "loss": 1.06227579,
      "memory(GiB)": 112.26,
      "step": 50785,
      "train_speed(iter/s)": 1.129846
    },
    {
      "acc": 0.73038898,
      "epoch": 1.2884322678843227,
      "grad_norm": 4.53125,
      "learning_rate": 3.0794644199108087e-06,
      "loss": 1.12858639,
      "memory(GiB)": 112.26,
      "step": 50790,
      "train_speed(iter/s)": 1.129864
    },
    {
      "acc": 0.73366842,
      "epoch": 1.2885591070522577,
      "grad_norm": 3.84375,
      "learning_rate": 3.07849627993146e-06,
      "loss": 1.08118382,
      "memory(GiB)": 112.26,
      "step": 50795,
      "train_speed(iter/s)": 1.129879
    },
    {
      "acc": 0.73920546,
      "epoch": 1.2886859462201927,
      "grad_norm": 3.171875,
      "learning_rate": 3.0775282244684233e-06,
      "loss": 1.01054745,
      "memory(GiB)": 112.26,
      "step": 50800,
      "train_speed(iter/s)": 1.1299
    },
    {
      "acc": 0.7315896,
      "epoch": 1.288812785388128,
      "grad_norm": 4.875,
      "learning_rate": 3.076560253564279e-06,
      "loss": 1.08671169,
      "memory(GiB)": 112.26,
      "step": 50805,
      "train_speed(iter/s)": 1.129917
    },
    {
      "acc": 0.74112401,
      "epoch": 1.288939624556063,
      "grad_norm": 4.65625,
      "learning_rate": 3.0755923672616038e-06,
      "loss": 1.07951469,
      "memory(GiB)": 112.26,
      "step": 50810,
      "train_speed(iter/s)": 1.129928
    },
    {
      "acc": 0.73356781,
      "epoch": 1.289066463723998,
      "grad_norm": 4.15625,
      "learning_rate": 3.074624565602966e-06,
      "loss": 1.11584873,
      "memory(GiB)": 112.26,
      "step": 50815,
      "train_speed(iter/s)": 1.129942
    },
    {
      "acc": 0.72988453,
      "epoch": 1.289193302891933,
      "grad_norm": 3.734375,
      "learning_rate": 3.073656848630937e-06,
      "loss": 1.05028496,
      "memory(GiB)": 112.26,
      "step": 50820,
      "train_speed(iter/s)": 1.129956
    },
    {
      "acc": 0.7347465,
      "epoch": 1.2893201420598681,
      "grad_norm": 3.875,
      "learning_rate": 3.0726892163880784e-06,
      "loss": 1.08157997,
      "memory(GiB)": 112.26,
      "step": 50825,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.72791605,
      "epoch": 1.289446981227803,
      "grad_norm": 3.21875,
      "learning_rate": 3.071721668916956e-06,
      "loss": 1.08978777,
      "memory(GiB)": 112.26,
      "step": 50830,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.75203786,
      "epoch": 1.2895738203957383,
      "grad_norm": 4.3125,
      "learning_rate": 3.0707542062601225e-06,
      "loss": 0.99840345,
      "memory(GiB)": 112.26,
      "step": 50835,
      "train_speed(iter/s)": 1.129975
    },
    {
      "acc": 0.72938294,
      "epoch": 1.2897006595636733,
      "grad_norm": 3.3125,
      "learning_rate": 3.0697868284601323e-06,
      "loss": 1.06382504,
      "memory(GiB)": 112.26,
      "step": 50840,
      "train_speed(iter/s)": 1.12999
    },
    {
      "acc": 0.75885463,
      "epoch": 1.2898274987316083,
      "grad_norm": 4.0625,
      "learning_rate": 3.068819535559534e-06,
      "loss": 0.98991032,
      "memory(GiB)": 112.26,
      "step": 50845,
      "train_speed(iter/s)": 1.129998
    },
    {
      "acc": 0.74686546,
      "epoch": 1.2899543378995433,
      "grad_norm": 3.578125,
      "learning_rate": 3.0678523276008774e-06,
      "loss": 0.97949743,
      "memory(GiB)": 112.26,
      "step": 50850,
      "train_speed(iter/s)": 1.130019
    },
    {
      "acc": 0.75093298,
      "epoch": 1.2900811770674785,
      "grad_norm": 4.15625,
      "learning_rate": 3.0668852046267e-06,
      "loss": 1.00222397,
      "memory(GiB)": 112.26,
      "step": 50855,
      "train_speed(iter/s)": 1.130037
    },
    {
      "acc": 0.7419497,
      "epoch": 1.2902080162354135,
      "grad_norm": 3.796875,
      "learning_rate": 3.0659181666795413e-06,
      "loss": 1.04531231,
      "memory(GiB)": 112.26,
      "step": 50860,
      "train_speed(iter/s)": 1.130053
    },
    {
      "acc": 0.73098669,
      "epoch": 1.2903348554033487,
      "grad_norm": 3.78125,
      "learning_rate": 3.0649512138019376e-06,
      "loss": 1.0662631,
      "memory(GiB)": 112.26,
      "step": 50865,
      "train_speed(iter/s)": 1.130073
    },
    {
      "acc": 0.74867315,
      "epoch": 1.2904616945712837,
      "grad_norm": 3.796875,
      "learning_rate": 3.0639843460364203e-06,
      "loss": 1.02520332,
      "memory(GiB)": 112.26,
      "step": 50870,
      "train_speed(iter/s)": 1.130092
    },
    {
      "acc": 0.73245707,
      "epoch": 1.2905885337392187,
      "grad_norm": 3.875,
      "learning_rate": 3.0630175634255134e-06,
      "loss": 1.09152975,
      "memory(GiB)": 112.26,
      "step": 50875,
      "train_speed(iter/s)": 1.130099
    },
    {
      "acc": 0.72972903,
      "epoch": 1.2907153729071537,
      "grad_norm": 3.421875,
      "learning_rate": 3.062050866011742e-06,
      "loss": 1.09850664,
      "memory(GiB)": 112.26,
      "step": 50880,
      "train_speed(iter/s)": 1.130111
    },
    {
      "acc": 0.73094378,
      "epoch": 1.2908422120750889,
      "grad_norm": 4.90625,
      "learning_rate": 3.0610842538376264e-06,
      "loss": 1.14224567,
      "memory(GiB)": 112.26,
      "step": 50885,
      "train_speed(iter/s)": 1.130112
    },
    {
      "acc": 0.74568801,
      "epoch": 1.2909690512430239,
      "grad_norm": 3.5,
      "learning_rate": 3.060117726945683e-06,
      "loss": 1.08295374,
      "memory(GiB)": 112.26,
      "step": 50890,
      "train_speed(iter/s)": 1.130128
    },
    {
      "acc": 0.71676974,
      "epoch": 1.2910958904109588,
      "grad_norm": 3.421875,
      "learning_rate": 3.059151285378421e-06,
      "loss": 1.1347086,
      "memory(GiB)": 112.26,
      "step": 50895,
      "train_speed(iter/s)": 1.130147
    },
    {
      "acc": 0.74744444,
      "epoch": 1.291222729578894,
      "grad_norm": 3.9375,
      "learning_rate": 3.0581849291783518e-06,
      "loss": 1.01629763,
      "memory(GiB)": 112.26,
      "step": 50900,
      "train_speed(iter/s)": 1.130169
    },
    {
      "acc": 0.74431729,
      "epoch": 1.291349568746829,
      "grad_norm": 3.5625,
      "learning_rate": 3.057218658387977e-06,
      "loss": 1.03209705,
      "memory(GiB)": 112.26,
      "step": 50905,
      "train_speed(iter/s)": 1.130186
    },
    {
      "acc": 0.74937572,
      "epoch": 1.291476407914764,
      "grad_norm": 4.6875,
      "learning_rate": 3.0562524730498023e-06,
      "loss": 1.08307447,
      "memory(GiB)": 112.26,
      "step": 50910,
      "train_speed(iter/s)": 1.130206
    },
    {
      "acc": 0.73530359,
      "epoch": 1.291603247082699,
      "grad_norm": 3.9375,
      "learning_rate": 3.055286373206321e-06,
      "loss": 1.08819199,
      "memory(GiB)": 112.26,
      "step": 50915,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.74657049,
      "epoch": 1.2917300862506342,
      "grad_norm": 3.328125,
      "learning_rate": 3.054320358900027e-06,
      "loss": 1.09019833,
      "memory(GiB)": 112.26,
      "step": 50920,
      "train_speed(iter/s)": 1.130244
    },
    {
      "acc": 0.73144488,
      "epoch": 1.2918569254185692,
      "grad_norm": 3.921875,
      "learning_rate": 3.053354430173411e-06,
      "loss": 1.09883022,
      "memory(GiB)": 112.26,
      "step": 50925,
      "train_speed(iter/s)": 1.130251
    },
    {
      "acc": 0.75996027,
      "epoch": 1.2919837645865044,
      "grad_norm": 4.5625,
      "learning_rate": 3.0523885870689595e-06,
      "loss": 0.99760551,
      "memory(GiB)": 112.26,
      "step": 50930,
      "train_speed(iter/s)": 1.130273
    },
    {
      "acc": 0.75408993,
      "epoch": 1.2921106037544394,
      "grad_norm": 3.96875,
      "learning_rate": 3.051422829629152e-06,
      "loss": 0.97542496,
      "memory(GiB)": 112.26,
      "step": 50935,
      "train_speed(iter/s)": 1.130271
    },
    {
      "acc": 0.74124365,
      "epoch": 1.2922374429223744,
      "grad_norm": 3.0625,
      "learning_rate": 3.050457157896467e-06,
      "loss": 1.05500927,
      "memory(GiB)": 112.26,
      "step": 50940,
      "train_speed(iter/s)": 1.130293
    },
    {
      "acc": 0.7488811,
      "epoch": 1.2923642820903094,
      "grad_norm": 3.078125,
      "learning_rate": 3.049491571913382e-06,
      "loss": 1.03713093,
      "memory(GiB)": 112.26,
      "step": 50945,
      "train_speed(iter/s)": 1.130302
    },
    {
      "acc": 0.72852888,
      "epoch": 1.2924911212582446,
      "grad_norm": 3.484375,
      "learning_rate": 3.048526071722367e-06,
      "loss": 1.06810341,
      "memory(GiB)": 112.26,
      "step": 50950,
      "train_speed(iter/s)": 1.130324
    },
    {
      "acc": 0.73772202,
      "epoch": 1.2926179604261796,
      "grad_norm": 3.96875,
      "learning_rate": 3.047560657365886e-06,
      "loss": 1.04126186,
      "memory(GiB)": 112.26,
      "step": 50955,
      "train_speed(iter/s)": 1.130345
    },
    {
      "acc": 0.72765923,
      "epoch": 1.2927447995941146,
      "grad_norm": 3.796875,
      "learning_rate": 3.046595328886405e-06,
      "loss": 1.11721134,
      "memory(GiB)": 112.26,
      "step": 50960,
      "train_speed(iter/s)": 1.130368
    },
    {
      "acc": 0.74075227,
      "epoch": 1.2928716387620498,
      "grad_norm": 3.5,
      "learning_rate": 3.0456300863263815e-06,
      "loss": 1.03596344,
      "memory(GiB)": 112.26,
      "step": 50965,
      "train_speed(iter/s)": 1.130379
    },
    {
      "acc": 0.74488082,
      "epoch": 1.2929984779299848,
      "grad_norm": 3.28125,
      "learning_rate": 3.044664929728276e-06,
      "loss": 1.01167812,
      "memory(GiB)": 112.26,
      "step": 50970,
      "train_speed(iter/s)": 1.130403
    },
    {
      "acc": 0.74876657,
      "epoch": 1.2931253170979198,
      "grad_norm": 3.890625,
      "learning_rate": 3.0436998591345336e-06,
      "loss": 0.99409494,
      "memory(GiB)": 112.26,
      "step": 50975,
      "train_speed(iter/s)": 1.130419
    },
    {
      "acc": 0.73497992,
      "epoch": 1.2932521562658548,
      "grad_norm": 5.21875,
      "learning_rate": 3.042734874587607e-06,
      "loss": 1.0834404,
      "memory(GiB)": 112.26,
      "step": 50980,
      "train_speed(iter/s)": 1.130437
    },
    {
      "acc": 0.72623949,
      "epoch": 1.29337899543379,
      "grad_norm": 3.609375,
      "learning_rate": 3.041769976129938e-06,
      "loss": 1.0551405,
      "memory(GiB)": 112.26,
      "step": 50985,
      "train_speed(iter/s)": 1.130453
    },
    {
      "acc": 0.74828968,
      "epoch": 1.293505834601725,
      "grad_norm": 3.484375,
      "learning_rate": 3.0408051638039697e-06,
      "loss": 1.0516921,
      "memory(GiB)": 112.26,
      "step": 50990,
      "train_speed(iter/s)": 1.130458
    },
    {
      "acc": 0.72303877,
      "epoch": 1.2936326737696602,
      "grad_norm": 6.1875,
      "learning_rate": 3.039840437652137e-06,
      "loss": 1.13896055,
      "memory(GiB)": 112.26,
      "step": 50995,
      "train_speed(iter/s)": 1.130474
    },
    {
      "acc": 0.73805447,
      "epoch": 1.2937595129375952,
      "grad_norm": 3.9375,
      "learning_rate": 3.0388757977168724e-06,
      "loss": 1.05796137,
      "memory(GiB)": 112.26,
      "step": 51000,
      "train_speed(iter/s)": 1.130481
    },
    {
      "epoch": 1.2937595129375952,
      "eval_acc": 0.7257807654477224,
      "eval_loss": 1.0446032285690308,
      "eval_runtime": 70.8051,
      "eval_samples_per_second": 89.965,
      "eval_steps_per_second": 22.498,
      "step": 51000
    },
    {
      "acc": 0.74325266,
      "epoch": 1.2938863521055302,
      "grad_norm": 4.1875,
      "learning_rate": 3.0379112440406066e-06,
      "loss": 1.02841978,
      "memory(GiB)": 112.26,
      "step": 51005,
      "train_speed(iter/s)": 1.127623
    },
    {
      "acc": 0.74106274,
      "epoch": 1.2940131912734651,
      "grad_norm": 3.25,
      "learning_rate": 3.036946776665766e-06,
      "loss": 1.0625061,
      "memory(GiB)": 112.26,
      "step": 51010,
      "train_speed(iter/s)": 1.12764
    },
    {
      "acc": 0.7407825,
      "epoch": 1.2941400304414004,
      "grad_norm": 3.9375,
      "learning_rate": 3.0359823956347695e-06,
      "loss": 1.02336016,
      "memory(GiB)": 112.26,
      "step": 51015,
      "train_speed(iter/s)": 1.127656
    },
    {
      "acc": 0.7442955,
      "epoch": 1.2942668696093353,
      "grad_norm": 3.0625,
      "learning_rate": 3.0350181009900347e-06,
      "loss": 1.1379118,
      "memory(GiB)": 112.26,
      "step": 51020,
      "train_speed(iter/s)": 1.127677
    },
    {
      "acc": 0.75151858,
      "epoch": 1.2943937087772706,
      "grad_norm": 3.5,
      "learning_rate": 3.0340538927739784e-06,
      "loss": 0.99727345,
      "memory(GiB)": 112.26,
      "step": 51025,
      "train_speed(iter/s)": 1.127689
    },
    {
      "acc": 0.75589828,
      "epoch": 1.2945205479452055,
      "grad_norm": 3.40625,
      "learning_rate": 3.0330897710290093e-06,
      "loss": 1.05027981,
      "memory(GiB)": 112.26,
      "step": 51030,
      "train_speed(iter/s)": 1.127708
    },
    {
      "acc": 0.72689681,
      "epoch": 1.2946473871131405,
      "grad_norm": 3.59375,
      "learning_rate": 3.032125735797532e-06,
      "loss": 1.07432137,
      "memory(GiB)": 112.26,
      "step": 51035,
      "train_speed(iter/s)": 1.127721
    },
    {
      "acc": 0.72386642,
      "epoch": 1.2947742262810755,
      "grad_norm": 4.375,
      "learning_rate": 3.031161787121952e-06,
      "loss": 1.14047241,
      "memory(GiB)": 112.26,
      "step": 51040,
      "train_speed(iter/s)": 1.12774
    },
    {
      "acc": 0.74814062,
      "epoch": 1.2949010654490107,
      "grad_norm": 3.0625,
      "learning_rate": 3.0301979250446655e-06,
      "loss": 1.09586782,
      "memory(GiB)": 112.26,
      "step": 51045,
      "train_speed(iter/s)": 1.12775
    },
    {
      "acc": 0.76313348,
      "epoch": 1.2950279046169457,
      "grad_norm": 5.40625,
      "learning_rate": 3.029234149608071e-06,
      "loss": 0.97891331,
      "memory(GiB)": 112.26,
      "step": 51050,
      "train_speed(iter/s)": 1.127766
    },
    {
      "acc": 0.75368357,
      "epoch": 1.2951547437848807,
      "grad_norm": 3.921875,
      "learning_rate": 3.0282704608545566e-06,
      "loss": 1.03178988,
      "memory(GiB)": 112.26,
      "step": 51055,
      "train_speed(iter/s)": 1.127788
    },
    {
      "acc": 0.74764099,
      "epoch": 1.295281582952816,
      "grad_norm": 3.5,
      "learning_rate": 3.0273068588265097e-06,
      "loss": 1.04989395,
      "memory(GiB)": 112.26,
      "step": 51060,
      "train_speed(iter/s)": 1.127801
    },
    {
      "acc": 0.73344727,
      "epoch": 1.295408422120751,
      "grad_norm": 3.171875,
      "learning_rate": 3.0263433435663143e-06,
      "loss": 1.09380436,
      "memory(GiB)": 112.26,
      "step": 51065,
      "train_speed(iter/s)": 1.127816
    },
    {
      "acc": 0.73726053,
      "epoch": 1.295535261288686,
      "grad_norm": 3.21875,
      "learning_rate": 3.0253799151163522e-06,
      "loss": 1.08756056,
      "memory(GiB)": 112.26,
      "step": 51070,
      "train_speed(iter/s)": 1.127831
    },
    {
      "acc": 0.73180757,
      "epoch": 1.295662100456621,
      "grad_norm": 3.515625,
      "learning_rate": 3.0244165735189967e-06,
      "loss": 1.05569954,
      "memory(GiB)": 112.26,
      "step": 51075,
      "train_speed(iter/s)": 1.127846
    },
    {
      "acc": 0.72750549,
      "epoch": 1.295788939624556,
      "grad_norm": 3.8125,
      "learning_rate": 3.023453318816619e-06,
      "loss": 1.11927681,
      "memory(GiB)": 112.26,
      "step": 51080,
      "train_speed(iter/s)": 1.127853
    },
    {
      "acc": 0.73499498,
      "epoch": 1.295915778792491,
      "grad_norm": 4.28125,
      "learning_rate": 3.022490151051591e-06,
      "loss": 1.02075958,
      "memory(GiB)": 112.26,
      "step": 51085,
      "train_speed(iter/s)": 1.12786
    },
    {
      "acc": 0.74226618,
      "epoch": 1.2960426179604263,
      "grad_norm": 5.34375,
      "learning_rate": 3.0215270702662753e-06,
      "loss": 1.0879405,
      "memory(GiB)": 112.26,
      "step": 51090,
      "train_speed(iter/s)": 1.127875
    },
    {
      "acc": 0.75697813,
      "epoch": 1.2961694571283613,
      "grad_norm": 3.78125,
      "learning_rate": 3.020564076503031e-06,
      "loss": 0.98756123,
      "memory(GiB)": 112.26,
      "step": 51095,
      "train_speed(iter/s)": 1.127883
    },
    {
      "acc": 0.73163686,
      "epoch": 1.2962962962962963,
      "grad_norm": 3.015625,
      "learning_rate": 3.019601169804216e-06,
      "loss": 1.09905987,
      "memory(GiB)": 112.26,
      "step": 51100,
      "train_speed(iter/s)": 1.127897
    },
    {
      "acc": 0.74483137,
      "epoch": 1.2964231354642313,
      "grad_norm": 2.90625,
      "learning_rate": 3.018638350212184e-06,
      "loss": 1.0782321,
      "memory(GiB)": 112.26,
      "step": 51105,
      "train_speed(iter/s)": 1.127917
    },
    {
      "acc": 0.74102316,
      "epoch": 1.2965499746321665,
      "grad_norm": 3.265625,
      "learning_rate": 3.0176756177692845e-06,
      "loss": 1.04367161,
      "memory(GiB)": 112.26,
      "step": 51110,
      "train_speed(iter/s)": 1.12793
    },
    {
      "acc": 0.73272505,
      "epoch": 1.2966768138001015,
      "grad_norm": 3.609375,
      "learning_rate": 3.01671297251786e-06,
      "loss": 1.09536171,
      "memory(GiB)": 112.26,
      "step": 51115,
      "train_speed(iter/s)": 1.127944
    },
    {
      "acc": 0.74113474,
      "epoch": 1.2968036529680365,
      "grad_norm": 3.5,
      "learning_rate": 3.0157504145002546e-06,
      "loss": 1.03918905,
      "memory(GiB)": 112.26,
      "step": 51120,
      "train_speed(iter/s)": 1.127961
    },
    {
      "acc": 0.72987614,
      "epoch": 1.2969304921359717,
      "grad_norm": 3.53125,
      "learning_rate": 3.0147879437588046e-06,
      "loss": 1.05278778,
      "memory(GiB)": 112.26,
      "step": 51125,
      "train_speed(iter/s)": 1.127973
    },
    {
      "acc": 0.74242883,
      "epoch": 1.2970573313039067,
      "grad_norm": 4.8125,
      "learning_rate": 3.013825560335845e-06,
      "loss": 1.0310358,
      "memory(GiB)": 112.26,
      "step": 51130,
      "train_speed(iter/s)": 1.127988
    },
    {
      "acc": 0.74970007,
      "epoch": 1.2971841704718416,
      "grad_norm": 4.5,
      "learning_rate": 3.0128632642737044e-06,
      "loss": 1.00577488,
      "memory(GiB)": 112.26,
      "step": 51135,
      "train_speed(iter/s)": 1.128007
    },
    {
      "acc": 0.75525827,
      "epoch": 1.2973110096397766,
      "grad_norm": 4.53125,
      "learning_rate": 3.0119010556147088e-06,
      "loss": 1.0215498,
      "memory(GiB)": 112.26,
      "step": 51140,
      "train_speed(iter/s)": 1.128018
    },
    {
      "acc": 0.74476519,
      "epoch": 1.2974378488077118,
      "grad_norm": 3.4375,
      "learning_rate": 3.0109389344011813e-06,
      "loss": 1.06433878,
      "memory(GiB)": 112.26,
      "step": 51145,
      "train_speed(iter/s)": 1.128036
    },
    {
      "acc": 0.74121084,
      "epoch": 1.2975646879756468,
      "grad_norm": 3.59375,
      "learning_rate": 3.0099769006754415e-06,
      "loss": 1.04807482,
      "memory(GiB)": 112.26,
      "step": 51150,
      "train_speed(iter/s)": 1.12805
    },
    {
      "acc": 0.736133,
      "epoch": 1.297691527143582,
      "grad_norm": 3.578125,
      "learning_rate": 3.0090149544798007e-06,
      "loss": 1.04391661,
      "memory(GiB)": 112.26,
      "step": 51155,
      "train_speed(iter/s)": 1.12806
    },
    {
      "acc": 0.72372112,
      "epoch": 1.297818366311517,
      "grad_norm": 4.5625,
      "learning_rate": 3.0080530958565712e-06,
      "loss": 1.08865061,
      "memory(GiB)": 112.26,
      "step": 51160,
      "train_speed(iter/s)": 1.128072
    },
    {
      "acc": 0.74076438,
      "epoch": 1.297945205479452,
      "grad_norm": 4.28125,
      "learning_rate": 3.0070913248480602e-06,
      "loss": 1.05534983,
      "memory(GiB)": 112.26,
      "step": 51165,
      "train_speed(iter/s)": 1.128091
    },
    {
      "acc": 0.74750643,
      "epoch": 1.298072044647387,
      "grad_norm": 3.265625,
      "learning_rate": 3.0061296414965724e-06,
      "loss": 1.04263992,
      "memory(GiB)": 112.26,
      "step": 51170,
      "train_speed(iter/s)": 1.128104
    },
    {
      "acc": 0.74763694,
      "epoch": 1.2981988838153222,
      "grad_norm": 3.09375,
      "learning_rate": 3.005168045844402e-06,
      "loss": 1.06526279,
      "memory(GiB)": 112.26,
      "step": 51175,
      "train_speed(iter/s)": 1.128123
    },
    {
      "acc": 0.74521713,
      "epoch": 1.2983257229832572,
      "grad_norm": 4.0,
      "learning_rate": 3.0042065379338486e-06,
      "loss": 1.0518836,
      "memory(GiB)": 112.26,
      "step": 51180,
      "train_speed(iter/s)": 1.128142
    },
    {
      "acc": 0.74186983,
      "epoch": 1.2984525621511924,
      "grad_norm": 3.921875,
      "learning_rate": 3.003245117807201e-06,
      "loss": 1.05063906,
      "memory(GiB)": 112.26,
      "step": 51185,
      "train_speed(iter/s)": 1.128161
    },
    {
      "acc": 0.75130033,
      "epoch": 1.2985794013191274,
      "grad_norm": 3.484375,
      "learning_rate": 3.0022837855067514e-06,
      "loss": 1.01234083,
      "memory(GiB)": 112.26,
      "step": 51190,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.75618095,
      "epoch": 1.2987062404870624,
      "grad_norm": 3.25,
      "learning_rate": 3.0013225410747772e-06,
      "loss": 0.98600769,
      "memory(GiB)": 112.26,
      "step": 51195,
      "train_speed(iter/s)": 1.128191
    },
    {
      "acc": 0.72541599,
      "epoch": 1.2988330796549974,
      "grad_norm": 3.890625,
      "learning_rate": 3.0003613845535617e-06,
      "loss": 1.07732515,
      "memory(GiB)": 112.26,
      "step": 51200,
      "train_speed(iter/s)": 1.128216
    },
    {
      "acc": 0.74506655,
      "epoch": 1.2989599188229326,
      "grad_norm": 4.15625,
      "learning_rate": 2.9994003159853793e-06,
      "loss": 1.05414429,
      "memory(GiB)": 112.26,
      "step": 51205,
      "train_speed(iter/s)": 1.128233
    },
    {
      "acc": 0.74752588,
      "epoch": 1.2990867579908676,
      "grad_norm": 3.78125,
      "learning_rate": 2.998439335412505e-06,
      "loss": 1.00641146,
      "memory(GiB)": 112.26,
      "step": 51210,
      "train_speed(iter/s)": 1.128257
    },
    {
      "acc": 0.75019226,
      "epoch": 1.2992135971588026,
      "grad_norm": 2.90625,
      "learning_rate": 2.9974784428772043e-06,
      "loss": 1.02290955,
      "memory(GiB)": 112.26,
      "step": 51215,
      "train_speed(iter/s)": 1.12827
    },
    {
      "acc": 0.74035916,
      "epoch": 1.2993404363267378,
      "grad_norm": 3.34375,
      "learning_rate": 2.996517638421741e-06,
      "loss": 1.07341824,
      "memory(GiB)": 112.26,
      "step": 51220,
      "train_speed(iter/s)": 1.12828
    },
    {
      "acc": 0.74906735,
      "epoch": 1.2994672754946728,
      "grad_norm": 3.390625,
      "learning_rate": 2.9955569220883777e-06,
      "loss": 1.0518322,
      "memory(GiB)": 112.26,
      "step": 51225,
      "train_speed(iter/s)": 1.128294
    },
    {
      "acc": 0.73588428,
      "epoch": 1.2995941146626078,
      "grad_norm": 4.03125,
      "learning_rate": 2.9945962939193718e-06,
      "loss": 1.10021706,
      "memory(GiB)": 112.26,
      "step": 51230,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.75108004,
      "epoch": 1.2997209538305428,
      "grad_norm": 3.140625,
      "learning_rate": 2.9936357539569728e-06,
      "loss": 1.0197979,
      "memory(GiB)": 112.26,
      "step": 51235,
      "train_speed(iter/s)": 1.128322
    },
    {
      "acc": 0.74855981,
      "epoch": 1.299847792998478,
      "grad_norm": 3.9375,
      "learning_rate": 2.9926753022434306e-06,
      "loss": 1.00897694,
      "memory(GiB)": 112.26,
      "step": 51240,
      "train_speed(iter/s)": 1.12834
    },
    {
      "acc": 0.75175743,
      "epoch": 1.299974632166413,
      "grad_norm": 3.359375,
      "learning_rate": 2.9917149388209908e-06,
      "loss": 1.02326431,
      "memory(GiB)": 112.26,
      "step": 51245,
      "train_speed(iter/s)": 1.128351
    },
    {
      "acc": 0.74139495,
      "epoch": 1.3001014713343482,
      "grad_norm": 3.453125,
      "learning_rate": 2.9907546637318964e-06,
      "loss": 1.06762486,
      "memory(GiB)": 112.26,
      "step": 51250,
      "train_speed(iter/s)": 1.128369
    },
    {
      "acc": 0.74739256,
      "epoch": 1.3002283105022832,
      "grad_norm": 5.125,
      "learning_rate": 2.98979447701838e-06,
      "loss": 1.06346931,
      "memory(GiB)": 112.26,
      "step": 51255,
      "train_speed(iter/s)": 1.128389
    },
    {
      "acc": 0.75071125,
      "epoch": 1.3003551496702181,
      "grad_norm": 5.75,
      "learning_rate": 2.988834378722679e-06,
      "loss": 1.06185589,
      "memory(GiB)": 112.26,
      "step": 51260,
      "train_speed(iter/s)": 1.128396
    },
    {
      "acc": 0.73847237,
      "epoch": 1.3004819888381531,
      "grad_norm": 3.359375,
      "learning_rate": 2.9878743688870193e-06,
      "loss": 1.06101637,
      "memory(GiB)": 112.26,
      "step": 51265,
      "train_speed(iter/s)": 1.128417
    },
    {
      "acc": 0.73578825,
      "epoch": 1.3006088280060883,
      "grad_norm": 3.1875,
      "learning_rate": 2.9869144475536306e-06,
      "loss": 1.06256008,
      "memory(GiB)": 112.26,
      "step": 51270,
      "train_speed(iter/s)": 1.128434
    },
    {
      "acc": 0.72636204,
      "epoch": 1.3007356671740233,
      "grad_norm": 3.3125,
      "learning_rate": 2.9859546147647316e-06,
      "loss": 1.14005384,
      "memory(GiB)": 112.26,
      "step": 51275,
      "train_speed(iter/s)": 1.12845
    },
    {
      "acc": 0.73332739,
      "epoch": 1.3008625063419583,
      "grad_norm": 3.421875,
      "learning_rate": 2.984994870562541e-06,
      "loss": 1.10600815,
      "memory(GiB)": 112.26,
      "step": 51280,
      "train_speed(iter/s)": 1.128456
    },
    {
      "acc": 0.73545189,
      "epoch": 1.3009893455098935,
      "grad_norm": 3.484375,
      "learning_rate": 2.9840352149892703e-06,
      "loss": 1.05530605,
      "memory(GiB)": 112.26,
      "step": 51285,
      "train_speed(iter/s)": 1.128466
    },
    {
      "acc": 0.74957113,
      "epoch": 1.3011161846778285,
      "grad_norm": 3.828125,
      "learning_rate": 2.9830756480871343e-06,
      "loss": 1.07461119,
      "memory(GiB)": 112.26,
      "step": 51290,
      "train_speed(iter/s)": 1.128486
    },
    {
      "acc": 0.745541,
      "epoch": 1.3012430238457635,
      "grad_norm": 3.640625,
      "learning_rate": 2.9821161698983347e-06,
      "loss": 1.07409286,
      "memory(GiB)": 112.26,
      "step": 51295,
      "train_speed(iter/s)": 1.128497
    },
    {
      "acc": 0.73681698,
      "epoch": 1.3013698630136985,
      "grad_norm": 3.84375,
      "learning_rate": 2.9811567804650747e-06,
      "loss": 1.02514,
      "memory(GiB)": 112.26,
      "step": 51300,
      "train_speed(iter/s)": 1.128523
    },
    {
      "acc": 0.73578253,
      "epoch": 1.3014967021816337,
      "grad_norm": 3.765625,
      "learning_rate": 2.980197479829554e-06,
      "loss": 1.06835575,
      "memory(GiB)": 112.26,
      "step": 51305,
      "train_speed(iter/s)": 1.128527
    },
    {
      "acc": 0.74971452,
      "epoch": 1.3016235413495687,
      "grad_norm": 3.875,
      "learning_rate": 2.9792382680339666e-06,
      "loss": 1.01517582,
      "memory(GiB)": 112.26,
      "step": 51310,
      "train_speed(iter/s)": 1.128546
    },
    {
      "acc": 0.73105922,
      "epoch": 1.301750380517504,
      "grad_norm": 3.8125,
      "learning_rate": 2.9782791451205e-06,
      "loss": 1.06495476,
      "memory(GiB)": 112.26,
      "step": 51315,
      "train_speed(iter/s)": 1.128565
    },
    {
      "acc": 0.72365208,
      "epoch": 1.301877219685439,
      "grad_norm": 4.28125,
      "learning_rate": 2.9773201111313444e-06,
      "loss": 1.12197342,
      "memory(GiB)": 112.26,
      "step": 51320,
      "train_speed(iter/s)": 1.128578
    },
    {
      "acc": 0.74921236,
      "epoch": 1.302004058853374,
      "grad_norm": 3.84375,
      "learning_rate": 2.9763611661086806e-06,
      "loss": 1.04865971,
      "memory(GiB)": 112.26,
      "step": 51325,
      "train_speed(iter/s)": 1.128588
    },
    {
      "acc": 0.75713186,
      "epoch": 1.3021308980213089,
      "grad_norm": 3.890625,
      "learning_rate": 2.975402310094689e-06,
      "loss": 1.00622215,
      "memory(GiB)": 112.26,
      "step": 51330,
      "train_speed(iter/s)": 1.128605
    },
    {
      "acc": 0.73503761,
      "epoch": 1.302257737189244,
      "grad_norm": 3.09375,
      "learning_rate": 2.9744435431315403e-06,
      "loss": 1.07020626,
      "memory(GiB)": 112.26,
      "step": 51335,
      "train_speed(iter/s)": 1.128619
    },
    {
      "acc": 0.72670298,
      "epoch": 1.302384576357179,
      "grad_norm": 5.0,
      "learning_rate": 2.9734848652614097e-06,
      "loss": 1.11582155,
      "memory(GiB)": 112.26,
      "step": 51340,
      "train_speed(iter/s)": 1.128636
    },
    {
      "acc": 0.75036879,
      "epoch": 1.3025114155251143,
      "grad_norm": 4.15625,
      "learning_rate": 2.972526276526461e-06,
      "loss": 1.0635685,
      "memory(GiB)": 112.26,
      "step": 51345,
      "train_speed(iter/s)": 1.128655
    },
    {
      "acc": 0.7460916,
      "epoch": 1.3026382546930493,
      "grad_norm": 3.984375,
      "learning_rate": 2.971567776968861e-06,
      "loss": 1.02150822,
      "memory(GiB)": 112.26,
      "step": 51350,
      "train_speed(iter/s)": 1.128671
    },
    {
      "acc": 0.75335035,
      "epoch": 1.3027650938609843,
      "grad_norm": 3.59375,
      "learning_rate": 2.9706093666307654e-06,
      "loss": 1.03887634,
      "memory(GiB)": 112.26,
      "step": 51355,
      "train_speed(iter/s)": 1.12868
    },
    {
      "acc": 0.73482885,
      "epoch": 1.3028919330289193,
      "grad_norm": 3.421875,
      "learning_rate": 2.969651045554329e-06,
      "loss": 1.04576263,
      "memory(GiB)": 112.26,
      "step": 51360,
      "train_speed(iter/s)": 1.128693
    },
    {
      "acc": 0.73974295,
      "epoch": 1.3030187721968545,
      "grad_norm": 3.359375,
      "learning_rate": 2.968692813781706e-06,
      "loss": 1.05788612,
      "memory(GiB)": 112.26,
      "step": 51365,
      "train_speed(iter/s)": 1.128706
    },
    {
      "acc": 0.7324769,
      "epoch": 1.3031456113647895,
      "grad_norm": 3.828125,
      "learning_rate": 2.9677346713550437e-06,
      "loss": 1.05783758,
      "memory(GiB)": 112.26,
      "step": 51370,
      "train_speed(iter/s)": 1.12872
    },
    {
      "acc": 0.75674324,
      "epoch": 1.3032724505327244,
      "grad_norm": 2.671875,
      "learning_rate": 2.966776618316482e-06,
      "loss": 1.0039135,
      "memory(GiB)": 112.26,
      "step": 51375,
      "train_speed(iter/s)": 1.128741
    },
    {
      "acc": 0.7350297,
      "epoch": 1.3033992897006597,
      "grad_norm": 3.46875,
      "learning_rate": 2.9658186547081612e-06,
      "loss": 1.08003101,
      "memory(GiB)": 112.26,
      "step": 51380,
      "train_speed(iter/s)": 1.128754
    },
    {
      "acc": 0.75244389,
      "epoch": 1.3035261288685946,
      "grad_norm": 3.875,
      "learning_rate": 2.9648607805722197e-06,
      "loss": 1.01298561,
      "memory(GiB)": 112.26,
      "step": 51385,
      "train_speed(iter/s)": 1.128768
    },
    {
      "acc": 0.75195937,
      "epoch": 1.3036529680365296,
      "grad_norm": 3.640625,
      "learning_rate": 2.963902995950788e-06,
      "loss": 1.00981293,
      "memory(GiB)": 112.26,
      "step": 51390,
      "train_speed(iter/s)": 1.128783
    },
    {
      "acc": 0.73135004,
      "epoch": 1.3037798072044646,
      "grad_norm": 4.21875,
      "learning_rate": 2.962945300885991e-06,
      "loss": 1.09266558,
      "memory(GiB)": 112.26,
      "step": 51395,
      "train_speed(iter/s)": 1.128802
    },
    {
      "acc": 0.73316693,
      "epoch": 1.3039066463723998,
      "grad_norm": 4.21875,
      "learning_rate": 2.9619876954199557e-06,
      "loss": 1.04825888,
      "memory(GiB)": 112.26,
      "step": 51400,
      "train_speed(iter/s)": 1.128803
    },
    {
      "acc": 0.74888601,
      "epoch": 1.3040334855403348,
      "grad_norm": 3.15625,
      "learning_rate": 2.9610301795947992e-06,
      "loss": 1.01501608,
      "memory(GiB)": 112.26,
      "step": 51405,
      "train_speed(iter/s)": 1.128815
    },
    {
      "acc": 0.73599081,
      "epoch": 1.30416032470827,
      "grad_norm": 4.3125,
      "learning_rate": 2.9600727534526417e-06,
      "loss": 1.1007412,
      "memory(GiB)": 112.26,
      "step": 51410,
      "train_speed(iter/s)": 1.128833
    },
    {
      "acc": 0.73829298,
      "epoch": 1.304287163876205,
      "grad_norm": 3.96875,
      "learning_rate": 2.9591154170355895e-06,
      "loss": 1.13719425,
      "memory(GiB)": 112.26,
      "step": 51415,
      "train_speed(iter/s)": 1.128847
    },
    {
      "acc": 0.72858229,
      "epoch": 1.30441400304414,
      "grad_norm": 3.328125,
      "learning_rate": 2.9581581703857545e-06,
      "loss": 1.09627905,
      "memory(GiB)": 112.26,
      "step": 51420,
      "train_speed(iter/s)": 1.12886
    },
    {
      "acc": 0.74019623,
      "epoch": 1.304540842212075,
      "grad_norm": 3.921875,
      "learning_rate": 2.9572010135452377e-06,
      "loss": 1.02683601,
      "memory(GiB)": 112.26,
      "step": 51425,
      "train_speed(iter/s)": 1.12888
    },
    {
      "acc": 0.74756451,
      "epoch": 1.3046676813800102,
      "grad_norm": 4.84375,
      "learning_rate": 2.9562439465561425e-06,
      "loss": 1.07391739,
      "memory(GiB)": 112.26,
      "step": 51430,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.74572182,
      "epoch": 1.3047945205479452,
      "grad_norm": 4.03125,
      "learning_rate": 2.955286969460563e-06,
      "loss": 1.02448435,
      "memory(GiB)": 112.26,
      "step": 51435,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.73856745,
      "epoch": 1.3049213597158802,
      "grad_norm": 4.4375,
      "learning_rate": 2.9543300823005903e-06,
      "loss": 1.09907532,
      "memory(GiB)": 112.26,
      "step": 51440,
      "train_speed(iter/s)": 1.128931
    },
    {
      "acc": 0.73452625,
      "epoch": 1.3050481988838154,
      "grad_norm": 3.59375,
      "learning_rate": 2.953373285118315e-06,
      "loss": 1.0522913,
      "memory(GiB)": 112.26,
      "step": 51445,
      "train_speed(iter/s)": 1.12895
    },
    {
      "acc": 0.73385162,
      "epoch": 1.3051750380517504,
      "grad_norm": 4.09375,
      "learning_rate": 2.9524165779558206e-06,
      "loss": 1.0817049,
      "memory(GiB)": 112.26,
      "step": 51450,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.74216266,
      "epoch": 1.3053018772196854,
      "grad_norm": 3.875,
      "learning_rate": 2.9514599608551865e-06,
      "loss": 1.03763924,
      "memory(GiB)": 112.26,
      "step": 51455,
      "train_speed(iter/s)": 1.128984
    },
    {
      "acc": 0.73781176,
      "epoch": 1.3054287163876204,
      "grad_norm": 3.5625,
      "learning_rate": 2.9505034338584882e-06,
      "loss": 1.13290796,
      "memory(GiB)": 112.26,
      "step": 51460,
      "train_speed(iter/s)": 1.128994
    },
    {
      "acc": 0.75896721,
      "epoch": 1.3055555555555556,
      "grad_norm": 3.734375,
      "learning_rate": 2.9495469970078e-06,
      "loss": 1.05041103,
      "memory(GiB)": 112.26,
      "step": 51465,
      "train_speed(iter/s)": 1.129014
    },
    {
      "acc": 0.7361165,
      "epoch": 1.3056823947234906,
      "grad_norm": 3.875,
      "learning_rate": 2.9485906503451907e-06,
      "loss": 1.11474543,
      "memory(GiB)": 112.26,
      "step": 51470,
      "train_speed(iter/s)": 1.129031
    },
    {
      "acc": 0.72808208,
      "epoch": 1.3058092338914258,
      "grad_norm": 3.46875,
      "learning_rate": 2.9476343939127217e-06,
      "loss": 1.06436443,
      "memory(GiB)": 112.26,
      "step": 51475,
      "train_speed(iter/s)": 1.12905
    },
    {
      "acc": 0.74922838,
      "epoch": 1.3059360730593608,
      "grad_norm": 3.53125,
      "learning_rate": 2.9466782277524554e-06,
      "loss": 0.99098434,
      "memory(GiB)": 112.26,
      "step": 51480,
      "train_speed(iter/s)": 1.129068
    },
    {
      "acc": 0.73995028,
      "epoch": 1.3060629122272958,
      "grad_norm": 5.4375,
      "learning_rate": 2.9457221519064477e-06,
      "loss": 1.10886307,
      "memory(GiB)": 112.26,
      "step": 51485,
      "train_speed(iter/s)": 1.12909
    },
    {
      "acc": 0.73849583,
      "epoch": 1.3061897513952307,
      "grad_norm": 3.890625,
      "learning_rate": 2.944766166416754e-06,
      "loss": 1.05295601,
      "memory(GiB)": 112.26,
      "step": 51490,
      "train_speed(iter/s)": 1.1291
    },
    {
      "acc": 0.74024963,
      "epoch": 1.306316590563166,
      "grad_norm": 3.296875,
      "learning_rate": 2.943810271325418e-06,
      "loss": 1.06212044,
      "memory(GiB)": 112.26,
      "step": 51495,
      "train_speed(iter/s)": 1.129114
    },
    {
      "acc": 0.73614216,
      "epoch": 1.306443429731101,
      "grad_norm": 3.6875,
      "learning_rate": 2.9428544666744873e-06,
      "loss": 1.03634567,
      "memory(GiB)": 112.26,
      "step": 51500,
      "train_speed(iter/s)": 1.129133
    },
    {
      "acc": 0.73257694,
      "epoch": 1.3065702688990362,
      "grad_norm": 3.875,
      "learning_rate": 2.9418987525060004e-06,
      "loss": 1.13514328,
      "memory(GiB)": 112.26,
      "step": 51505,
      "train_speed(iter/s)": 1.129142
    },
    {
      "acc": 0.75271044,
      "epoch": 1.3066971080669711,
      "grad_norm": 4.4375,
      "learning_rate": 2.9409431288619973e-06,
      "loss": 1.07968616,
      "memory(GiB)": 112.26,
      "step": 51510,
      "train_speed(iter/s)": 1.129158
    },
    {
      "acc": 0.72652369,
      "epoch": 1.3068239472349061,
      "grad_norm": 3.734375,
      "learning_rate": 2.939987595784507e-06,
      "loss": 1.10447578,
      "memory(GiB)": 112.26,
      "step": 51515,
      "train_speed(iter/s)": 1.129169
    },
    {
      "acc": 0.73408432,
      "epoch": 1.3069507864028411,
      "grad_norm": 3.625,
      "learning_rate": 2.9390321533155585e-06,
      "loss": 1.13036194,
      "memory(GiB)": 112.26,
      "step": 51520,
      "train_speed(iter/s)": 1.129171
    },
    {
      "acc": 0.7462585,
      "epoch": 1.3070776255707763,
      "grad_norm": 3.5,
      "learning_rate": 2.9380768014971794e-06,
      "loss": 1.07162724,
      "memory(GiB)": 112.26,
      "step": 51525,
      "train_speed(iter/s)": 1.129194
    },
    {
      "acc": 0.75202346,
      "epoch": 1.3072044647387113,
      "grad_norm": 3.6875,
      "learning_rate": 2.937121540371389e-06,
      "loss": 0.98719387,
      "memory(GiB)": 112.26,
      "step": 51530,
      "train_speed(iter/s)": 1.12921
    },
    {
      "acc": 0.74625821,
      "epoch": 1.3073313039066463,
      "grad_norm": 4.4375,
      "learning_rate": 2.9361663699802007e-06,
      "loss": 1.0813055,
      "memory(GiB)": 112.26,
      "step": 51535,
      "train_speed(iter/s)": 1.129214
    },
    {
      "acc": 0.73420973,
      "epoch": 1.3074581430745815,
      "grad_norm": 3.828125,
      "learning_rate": 2.9352112903656315e-06,
      "loss": 1.04300404,
      "memory(GiB)": 112.26,
      "step": 51540,
      "train_speed(iter/s)": 1.129225
    },
    {
      "acc": 0.73251591,
      "epoch": 1.3075849822425165,
      "grad_norm": 3.484375,
      "learning_rate": 2.9342563015696866e-06,
      "loss": 1.1511879,
      "memory(GiB)": 112.26,
      "step": 51545,
      "train_speed(iter/s)": 1.129234
    },
    {
      "acc": 0.75385976,
      "epoch": 1.3077118214104515,
      "grad_norm": 3.84375,
      "learning_rate": 2.9333014036343765e-06,
      "loss": 0.99614563,
      "memory(GiB)": 112.26,
      "step": 51550,
      "train_speed(iter/s)": 1.129251
    },
    {
      "acc": 0.74027338,
      "epoch": 1.3078386605783865,
      "grad_norm": 3.375,
      "learning_rate": 2.932346596601694e-06,
      "loss": 1.02827606,
      "memory(GiB)": 112.26,
      "step": 51555,
      "train_speed(iter/s)": 1.129255
    },
    {
      "acc": 0.7307435,
      "epoch": 1.3079654997463217,
      "grad_norm": 3.328125,
      "learning_rate": 2.931391880513641e-06,
      "loss": 1.05311136,
      "memory(GiB)": 112.26,
      "step": 51560,
      "train_speed(iter/s)": 1.129274
    },
    {
      "acc": 0.72978144,
      "epoch": 1.3080923389142567,
      "grad_norm": 4.25,
      "learning_rate": 2.9304372554122074e-06,
      "loss": 1.12433195,
      "memory(GiB)": 112.26,
      "step": 51565,
      "train_speed(iter/s)": 1.129289
    },
    {
      "acc": 0.73514843,
      "epoch": 1.308219178082192,
      "grad_norm": 3.90625,
      "learning_rate": 2.9294827213393857e-06,
      "loss": 1.07276564,
      "memory(GiB)": 112.26,
      "step": 51570,
      "train_speed(iter/s)": 1.129308
    },
    {
      "acc": 0.75229025,
      "epoch": 1.308346017250127,
      "grad_norm": 3.5,
      "learning_rate": 2.9285282783371567e-06,
      "loss": 0.99031487,
      "memory(GiB)": 112.26,
      "step": 51575,
      "train_speed(iter/s)": 1.129321
    },
    {
      "acc": 0.7410584,
      "epoch": 1.3084728564180619,
      "grad_norm": 3.953125,
      "learning_rate": 2.9275739264475013e-06,
      "loss": 1.03872013,
      "memory(GiB)": 112.26,
      "step": 51580,
      "train_speed(iter/s)": 1.12934
    },
    {
      "acc": 0.73394642,
      "epoch": 1.3085996955859969,
      "grad_norm": 3.671875,
      "learning_rate": 2.926619665712399e-06,
      "loss": 1.03401365,
      "memory(GiB)": 112.26,
      "step": 51585,
      "train_speed(iter/s)": 1.129353
    },
    {
      "acc": 0.72970839,
      "epoch": 1.308726534753932,
      "grad_norm": 5.25,
      "learning_rate": 2.9256654961738217e-06,
      "loss": 1.08389435,
      "memory(GiB)": 112.26,
      "step": 51590,
      "train_speed(iter/s)": 1.129377
    },
    {
      "acc": 0.75250692,
      "epoch": 1.308853373921867,
      "grad_norm": 3.265625,
      "learning_rate": 2.9247114178737356e-06,
      "loss": 0.98519173,
      "memory(GiB)": 112.26,
      "step": 51595,
      "train_speed(iter/s)": 1.129395
    },
    {
      "acc": 0.73770752,
      "epoch": 1.308980213089802,
      "grad_norm": 3.28125,
      "learning_rate": 2.9237574308541063e-06,
      "loss": 1.07688608,
      "memory(GiB)": 112.26,
      "step": 51600,
      "train_speed(iter/s)": 1.129416
    },
    {
      "acc": 0.73582215,
      "epoch": 1.3091070522577373,
      "grad_norm": 3.265625,
      "learning_rate": 2.9228035351568955e-06,
      "loss": 1.08020821,
      "memory(GiB)": 112.26,
      "step": 51605,
      "train_speed(iter/s)": 1.129431
    },
    {
      "acc": 0.75468287,
      "epoch": 1.3092338914256723,
      "grad_norm": 4.46875,
      "learning_rate": 2.92184973082406e-06,
      "loss": 0.96371765,
      "memory(GiB)": 112.26,
      "step": 51610,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.73908725,
      "epoch": 1.3093607305936072,
      "grad_norm": 3.796875,
      "learning_rate": 2.920896017897551e-06,
      "loss": 1.01847553,
      "memory(GiB)": 112.26,
      "step": 51615,
      "train_speed(iter/s)": 1.129467
    },
    {
      "acc": 0.73170977,
      "epoch": 1.3094875697615422,
      "grad_norm": 3.125,
      "learning_rate": 2.9199423964193176e-06,
      "loss": 1.08063755,
      "memory(GiB)": 112.26,
      "step": 51620,
      "train_speed(iter/s)": 1.129488
    },
    {
      "acc": 0.74106889,
      "epoch": 1.3096144089294774,
      "grad_norm": 3.6875,
      "learning_rate": 2.9189888664313045e-06,
      "loss": 1.04694843,
      "memory(GiB)": 112.26,
      "step": 51625,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.73219814,
      "epoch": 1.3097412480974124,
      "grad_norm": 3.578125,
      "learning_rate": 2.9180354279754517e-06,
      "loss": 1.07733612,
      "memory(GiB)": 112.26,
      "step": 51630,
      "train_speed(iter/s)": 1.129523
    },
    {
      "acc": 0.74492564,
      "epoch": 1.3098680872653476,
      "grad_norm": 4.90625,
      "learning_rate": 2.9170820810936968e-06,
      "loss": 1.05283537,
      "memory(GiB)": 112.26,
      "step": 51635,
      "train_speed(iter/s)": 1.129536
    },
    {
      "acc": 0.73551731,
      "epoch": 1.3099949264332826,
      "grad_norm": 3.640625,
      "learning_rate": 2.9161288258279715e-06,
      "loss": 1.05416565,
      "memory(GiB)": 112.26,
      "step": 51640,
      "train_speed(iter/s)": 1.129554
    },
    {
      "acc": 0.73329363,
      "epoch": 1.3101217656012176,
      "grad_norm": 3.875,
      "learning_rate": 2.9151756622202037e-06,
      "loss": 1.06321278,
      "memory(GiB)": 112.26,
      "step": 51645,
      "train_speed(iter/s)": 1.12957
    },
    {
      "acc": 0.73627925,
      "epoch": 1.3102486047691526,
      "grad_norm": 5.59375,
      "learning_rate": 2.914222590312319e-06,
      "loss": 1.07221203,
      "memory(GiB)": 112.26,
      "step": 51650,
      "train_speed(iter/s)": 1.129583
    },
    {
      "acc": 0.73405933,
      "epoch": 1.3103754439370878,
      "grad_norm": 4.84375,
      "learning_rate": 2.9132696101462366e-06,
      "loss": 1.05967808,
      "memory(GiB)": 112.26,
      "step": 51655,
      "train_speed(iter/s)": 1.129597
    },
    {
      "acc": 0.72596207,
      "epoch": 1.3105022831050228,
      "grad_norm": 3.984375,
      "learning_rate": 2.912316721763874e-06,
      "loss": 1.14071226,
      "memory(GiB)": 112.26,
      "step": 51660,
      "train_speed(iter/s)": 1.129617
    },
    {
      "acc": 0.7625246,
      "epoch": 1.310629122272958,
      "grad_norm": 3.828125,
      "learning_rate": 2.9113639252071395e-06,
      "loss": 0.96146984,
      "memory(GiB)": 112.26,
      "step": 51665,
      "train_speed(iter/s)": 1.129638
    },
    {
      "acc": 0.73673458,
      "epoch": 1.310755961440893,
      "grad_norm": 4.03125,
      "learning_rate": 2.91041122051795e-06,
      "loss": 1.0579958,
      "memory(GiB)": 112.26,
      "step": 51670,
      "train_speed(iter/s)": 1.129656
    },
    {
      "acc": 0.725951,
      "epoch": 1.310882800608828,
      "grad_norm": 3.21875,
      "learning_rate": 2.9094586077382016e-06,
      "loss": 1.09878778,
      "memory(GiB)": 112.26,
      "step": 51675,
      "train_speed(iter/s)": 1.129671
    },
    {
      "acc": 0.73304262,
      "epoch": 1.311009639776763,
      "grad_norm": 4.375,
      "learning_rate": 2.9085060869097977e-06,
      "loss": 1.05257292,
      "memory(GiB)": 112.26,
      "step": 51680,
      "train_speed(iter/s)": 1.12969
    },
    {
      "acc": 0.74535809,
      "epoch": 1.3111364789446982,
      "grad_norm": 3.375,
      "learning_rate": 2.907553658074631e-06,
      "loss": 0.98614922,
      "memory(GiB)": 112.26,
      "step": 51685,
      "train_speed(iter/s)": 1.129698
    },
    {
      "acc": 0.73058228,
      "epoch": 1.3112633181126332,
      "grad_norm": 3.5,
      "learning_rate": 2.906601321274601e-06,
      "loss": 1.07979326,
      "memory(GiB)": 112.26,
      "step": 51690,
      "train_speed(iter/s)": 1.129716
    },
    {
      "acc": 0.74478016,
      "epoch": 1.3113901572805682,
      "grad_norm": 3.25,
      "learning_rate": 2.90564907655159e-06,
      "loss": 1.09559402,
      "memory(GiB)": 112.26,
      "step": 51695,
      "train_speed(iter/s)": 1.129735
    },
    {
      "acc": 0.74931173,
      "epoch": 1.3115169964485034,
      "grad_norm": 3.4375,
      "learning_rate": 2.9046969239474808e-06,
      "loss": 0.99620972,
      "memory(GiB)": 112.26,
      "step": 51700,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.7364532,
      "epoch": 1.3116438356164384,
      "grad_norm": 3.484375,
      "learning_rate": 2.9037448635041574e-06,
      "loss": 1.06029778,
      "memory(GiB)": 112.26,
      "step": 51705,
      "train_speed(iter/s)": 1.129763
    },
    {
      "acc": 0.73799858,
      "epoch": 1.3117706747843734,
      "grad_norm": 3.609375,
      "learning_rate": 2.9027928952634964e-06,
      "loss": 1.03514309,
      "memory(GiB)": 112.26,
      "step": 51710,
      "train_speed(iter/s)": 1.129784
    },
    {
      "acc": 0.74589238,
      "epoch": 1.3118975139523084,
      "grad_norm": 3.515625,
      "learning_rate": 2.901841019267363e-06,
      "loss": 0.99227543,
      "memory(GiB)": 112.26,
      "step": 51715,
      "train_speed(iter/s)": 1.129799
    },
    {
      "acc": 0.74721484,
      "epoch": 1.3120243531202436,
      "grad_norm": 3.640625,
      "learning_rate": 2.900889235557631e-06,
      "loss": 1.06685677,
      "memory(GiB)": 112.26,
      "step": 51720,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.75675631,
      "epoch": 1.3121511922881786,
      "grad_norm": 3.484375,
      "learning_rate": 2.8999375441761627e-06,
      "loss": 1.009515,
      "memory(GiB)": 112.26,
      "step": 51725,
      "train_speed(iter/s)": 1.129843
    },
    {
      "acc": 0.74655619,
      "epoch": 1.3122780314561138,
      "grad_norm": 3.390625,
      "learning_rate": 2.8989859451648193e-06,
      "loss": 1.01863403,
      "memory(GiB)": 112.26,
      "step": 51730,
      "train_speed(iter/s)": 1.129863
    },
    {
      "acc": 0.75009604,
      "epoch": 1.3124048706240488,
      "grad_norm": 4.40625,
      "learning_rate": 2.89803443856545e-06,
      "loss": 0.99160757,
      "memory(GiB)": 112.26,
      "step": 51735,
      "train_speed(iter/s)": 1.129869
    },
    {
      "acc": 0.7418087,
      "epoch": 1.3125317097919837,
      "grad_norm": 3.359375,
      "learning_rate": 2.897083024419913e-06,
      "loss": 1.07131691,
      "memory(GiB)": 112.26,
      "step": 51740,
      "train_speed(iter/s)": 1.129888
    },
    {
      "acc": 0.74401703,
      "epoch": 1.3126585489599187,
      "grad_norm": 4.21875,
      "learning_rate": 2.8961317027700534e-06,
      "loss": 1.03278799,
      "memory(GiB)": 112.26,
      "step": 51745,
      "train_speed(iter/s)": 1.129902
    },
    {
      "acc": 0.7352211,
      "epoch": 1.312785388127854,
      "grad_norm": 4.28125,
      "learning_rate": 2.8951804736577148e-06,
      "loss": 1.0573204,
      "memory(GiB)": 112.26,
      "step": 51750,
      "train_speed(iter/s)": 1.12991
    },
    {
      "acc": 0.75231485,
      "epoch": 1.312912227295789,
      "grad_norm": 4.09375,
      "learning_rate": 2.894229337124736e-06,
      "loss": 1.06605444,
      "memory(GiB)": 112.26,
      "step": 51755,
      "train_speed(iter/s)": 1.129922
    },
    {
      "acc": 0.72695761,
      "epoch": 1.313039066463724,
      "grad_norm": 3.65625,
      "learning_rate": 2.8932782932129524e-06,
      "loss": 1.08833561,
      "memory(GiB)": 112.26,
      "step": 51760,
      "train_speed(iter/s)": 1.129938
    },
    {
      "acc": 0.74258156,
      "epoch": 1.3131659056316591,
      "grad_norm": 3.75,
      "learning_rate": 2.8923273419641956e-06,
      "loss": 0.9931284,
      "memory(GiB)": 112.26,
      "step": 51765,
      "train_speed(iter/s)": 1.129951
    },
    {
      "acc": 0.74395328,
      "epoch": 1.3132927447995941,
      "grad_norm": 4.0,
      "learning_rate": 2.891376483420292e-06,
      "loss": 1.04610958,
      "memory(GiB)": 112.26,
      "step": 51770,
      "train_speed(iter/s)": 1.129957
    },
    {
      "acc": 0.74400425,
      "epoch": 1.3134195839675291,
      "grad_norm": 3.90625,
      "learning_rate": 2.8904257176230655e-06,
      "loss": 1.03469782,
      "memory(GiB)": 112.26,
      "step": 51775,
      "train_speed(iter/s)": 1.129974
    },
    {
      "acc": 0.74914412,
      "epoch": 1.313546423135464,
      "grad_norm": 3.515625,
      "learning_rate": 2.8894750446143345e-06,
      "loss": 1.00317192,
      "memory(GiB)": 112.26,
      "step": 51780,
      "train_speed(iter/s)": 1.129985
    },
    {
      "acc": 0.7336525,
      "epoch": 1.3136732623033993,
      "grad_norm": 4.3125,
      "learning_rate": 2.8885244644359134e-06,
      "loss": 1.06204185,
      "memory(GiB)": 112.26,
      "step": 51785,
      "train_speed(iter/s)": 1.130008
    },
    {
      "acc": 0.73620667,
      "epoch": 1.3138001014713343,
      "grad_norm": 3.84375,
      "learning_rate": 2.887573977129614e-06,
      "loss": 1.08982306,
      "memory(GiB)": 112.26,
      "step": 51790,
      "train_speed(iter/s)": 1.130021
    },
    {
      "acc": 0.75204096,
      "epoch": 1.3139269406392695,
      "grad_norm": 4.03125,
      "learning_rate": 2.886623582737242e-06,
      "loss": 1.03906937,
      "memory(GiB)": 112.26,
      "step": 51795,
      "train_speed(iter/s)": 1.130029
    },
    {
      "acc": 0.74139514,
      "epoch": 1.3140537798072045,
      "grad_norm": 3.484375,
      "learning_rate": 2.8856732813006007e-06,
      "loss": 1.10549898,
      "memory(GiB)": 112.26,
      "step": 51800,
      "train_speed(iter/s)": 1.130044
    },
    {
      "acc": 0.73407111,
      "epoch": 1.3141806189751395,
      "grad_norm": 3.5625,
      "learning_rate": 2.8847230728614854e-06,
      "loss": 1.14145718,
      "memory(GiB)": 112.26,
      "step": 51805,
      "train_speed(iter/s)": 1.130061
    },
    {
      "acc": 0.75446396,
      "epoch": 1.3143074581430745,
      "grad_norm": 3.578125,
      "learning_rate": 2.883772957461698e-06,
      "loss": 0.97945175,
      "memory(GiB)": 112.26,
      "step": 51810,
      "train_speed(iter/s)": 1.130061
    },
    {
      "acc": 0.73385949,
      "epoch": 1.3144342973110097,
      "grad_norm": 4.8125,
      "learning_rate": 2.8828229351430224e-06,
      "loss": 1.12374868,
      "memory(GiB)": 112.26,
      "step": 51815,
      "train_speed(iter/s)": 1.130085
    },
    {
      "acc": 0.74409366,
      "epoch": 1.3145611364789447,
      "grad_norm": 4.03125,
      "learning_rate": 2.881873005947247e-06,
      "loss": 1.03632374,
      "memory(GiB)": 112.26,
      "step": 51820,
      "train_speed(iter/s)": 1.130099
    },
    {
      "acc": 0.73176394,
      "epoch": 1.31468797564688,
      "grad_norm": 3.296875,
      "learning_rate": 2.88092316991615e-06,
      "loss": 1.07010603,
      "memory(GiB)": 112.26,
      "step": 51825,
      "train_speed(iter/s)": 1.130121
    },
    {
      "acc": 0.74682593,
      "epoch": 1.3148148148148149,
      "grad_norm": 3.828125,
      "learning_rate": 2.879973427091518e-06,
      "loss": 1.0221139,
      "memory(GiB)": 112.26,
      "step": 51830,
      "train_speed(iter/s)": 1.130141
    },
    {
      "acc": 0.75117688,
      "epoch": 1.3149416539827499,
      "grad_norm": 4.40625,
      "learning_rate": 2.879023777515118e-06,
      "loss": 1.02123947,
      "memory(GiB)": 112.26,
      "step": 51835,
      "train_speed(iter/s)": 1.130162
    },
    {
      "acc": 0.73480358,
      "epoch": 1.3150684931506849,
      "grad_norm": 3.1875,
      "learning_rate": 2.8780742212287192e-06,
      "loss": 1.03691301,
      "memory(GiB)": 112.26,
      "step": 51840,
      "train_speed(iter/s)": 1.130182
    },
    {
      "acc": 0.73151636,
      "epoch": 1.31519533231862,
      "grad_norm": 3.765625,
      "learning_rate": 2.8771247582740924e-06,
      "loss": 1.08615551,
      "memory(GiB)": 112.26,
      "step": 51845,
      "train_speed(iter/s)": 1.130204
    },
    {
      "acc": 0.74253039,
      "epoch": 1.315322171486555,
      "grad_norm": 3.609375,
      "learning_rate": 2.876175388692999e-06,
      "loss": 1.04971733,
      "memory(GiB)": 112.26,
      "step": 51850,
      "train_speed(iter/s)": 1.130223
    },
    {
      "acc": 0.72991061,
      "epoch": 1.31544901065449,
      "grad_norm": 4.25,
      "learning_rate": 2.875226112527192e-06,
      "loss": 1.1156683,
      "memory(GiB)": 112.26,
      "step": 51855,
      "train_speed(iter/s)": 1.130244
    },
    {
      "acc": 0.740201,
      "epoch": 1.3155758498224253,
      "grad_norm": 3.578125,
      "learning_rate": 2.8742769298184246e-06,
      "loss": 1.07857265,
      "memory(GiB)": 112.26,
      "step": 51860,
      "train_speed(iter/s)": 1.130263
    },
    {
      "acc": 0.74447446,
      "epoch": 1.3157026889903602,
      "grad_norm": 3.21875,
      "learning_rate": 2.8733278406084507e-06,
      "loss": 1.06919537,
      "memory(GiB)": 112.26,
      "step": 51865,
      "train_speed(iter/s)": 1.130276
    },
    {
      "acc": 0.74642005,
      "epoch": 1.3158295281582952,
      "grad_norm": 3.78125,
      "learning_rate": 2.872378844939015e-06,
      "loss": 1.06010056,
      "memory(GiB)": 112.26,
      "step": 51870,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.74053011,
      "epoch": 1.3159563673262302,
      "grad_norm": 3.5625,
      "learning_rate": 2.871429942851853e-06,
      "loss": 1.09330378,
      "memory(GiB)": 112.26,
      "step": 51875,
      "train_speed(iter/s)": 1.130304
    },
    {
      "acc": 0.76115789,
      "epoch": 1.3160832064941654,
      "grad_norm": 4.5,
      "learning_rate": 2.8704811343887075e-06,
      "loss": 0.95511389,
      "memory(GiB)": 112.26,
      "step": 51880,
      "train_speed(iter/s)": 1.130318
    },
    {
      "acc": 0.74729328,
      "epoch": 1.3162100456621004,
      "grad_norm": 4.125,
      "learning_rate": 2.86953241959131e-06,
      "loss": 1.04976006,
      "memory(GiB)": 112.26,
      "step": 51885,
      "train_speed(iter/s)": 1.130337
    },
    {
      "acc": 0.74505949,
      "epoch": 1.3163368848300356,
      "grad_norm": 3.453125,
      "learning_rate": 2.8685837985013874e-06,
      "loss": 1.02727194,
      "memory(GiB)": 112.26,
      "step": 51890,
      "train_speed(iter/s)": 1.130352
    },
    {
      "acc": 0.75089693,
      "epoch": 1.3164637239979706,
      "grad_norm": 3.765625,
      "learning_rate": 2.867635271160666e-06,
      "loss": 1.00829353,
      "memory(GiB)": 112.26,
      "step": 51895,
      "train_speed(iter/s)": 1.13037
    },
    {
      "acc": 0.73111229,
      "epoch": 1.3165905631659056,
      "grad_norm": 3.84375,
      "learning_rate": 2.8666868376108658e-06,
      "loss": 1.16176186,
      "memory(GiB)": 112.26,
      "step": 51900,
      "train_speed(iter/s)": 1.130393
    },
    {
      "acc": 0.73520288,
      "epoch": 1.3167174023338406,
      "grad_norm": 4.09375,
      "learning_rate": 2.865738497893703e-06,
      "loss": 1.03380375,
      "memory(GiB)": 112.26,
      "step": 51905,
      "train_speed(iter/s)": 1.130394
    },
    {
      "acc": 0.73717303,
      "epoch": 1.3168442415017758,
      "grad_norm": 3.734375,
      "learning_rate": 2.8647902520508896e-06,
      "loss": 1.0540225,
      "memory(GiB)": 112.26,
      "step": 51910,
      "train_speed(iter/s)": 1.130399
    },
    {
      "acc": 0.7317698,
      "epoch": 1.3169710806697108,
      "grad_norm": 3.546875,
      "learning_rate": 2.8638421001241346e-06,
      "loss": 1.09071541,
      "memory(GiB)": 112.26,
      "step": 51915,
      "train_speed(iter/s)": 1.130417
    },
    {
      "acc": 0.73802762,
      "epoch": 1.3170979198376458,
      "grad_norm": 4.09375,
      "learning_rate": 2.8628940421551404e-06,
      "loss": 1.07152309,
      "memory(GiB)": 112.26,
      "step": 51920,
      "train_speed(iter/s)": 1.130429
    },
    {
      "acc": 0.72895627,
      "epoch": 1.317224759005581,
      "grad_norm": 3.953125,
      "learning_rate": 2.861946078185608e-06,
      "loss": 1.11593132,
      "memory(GiB)": 112.26,
      "step": 51925,
      "train_speed(iter/s)": 1.130432
    },
    {
      "acc": 0.74345551,
      "epoch": 1.317351598173516,
      "grad_norm": 3.46875,
      "learning_rate": 2.860998208257233e-06,
      "loss": 1.03566399,
      "memory(GiB)": 112.26,
      "step": 51930,
      "train_speed(iter/s)": 1.130442
    },
    {
      "acc": 0.73347564,
      "epoch": 1.317478437341451,
      "grad_norm": 3.65625,
      "learning_rate": 2.860050432411707e-06,
      "loss": 1.10234489,
      "memory(GiB)": 112.26,
      "step": 51935,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.73557549,
      "epoch": 1.317605276509386,
      "grad_norm": 3.265625,
      "learning_rate": 2.8591027506907167e-06,
      "loss": 1.09658928,
      "memory(GiB)": 112.26,
      "step": 51940,
      "train_speed(iter/s)": 1.130466
    },
    {
      "acc": 0.74618688,
      "epoch": 1.3177321156773212,
      "grad_norm": 3.296875,
      "learning_rate": 2.858155163135946e-06,
      "loss": 1.07316589,
      "memory(GiB)": 112.26,
      "step": 51945,
      "train_speed(iter/s)": 1.130482
    },
    {
      "acc": 0.72831793,
      "epoch": 1.3178589548452562,
      "grad_norm": 3.34375,
      "learning_rate": 2.857207669789074e-06,
      "loss": 1.10067921,
      "memory(GiB)": 112.26,
      "step": 51950,
      "train_speed(iter/s)": 1.130503
    },
    {
      "acc": 0.72451053,
      "epoch": 1.3179857940131914,
      "grad_norm": 3.609375,
      "learning_rate": 2.8562602706917754e-06,
      "loss": 1.08498192,
      "memory(GiB)": 112.26,
      "step": 51955,
      "train_speed(iter/s)": 1.130511
    },
    {
      "acc": 0.74386406,
      "epoch": 1.3181126331811264,
      "grad_norm": 3.3125,
      "learning_rate": 2.8553129658857215e-06,
      "loss": 1.04907103,
      "memory(GiB)": 112.26,
      "step": 51960,
      "train_speed(iter/s)": 1.130519
    },
    {
      "acc": 0.72657204,
      "epoch": 1.3182394723490614,
      "grad_norm": 3.640625,
      "learning_rate": 2.854365755412576e-06,
      "loss": 1.05388584,
      "memory(GiB)": 112.26,
      "step": 51965,
      "train_speed(iter/s)": 1.13052
    },
    {
      "acc": 0.74872642,
      "epoch": 1.3183663115169963,
      "grad_norm": 4.15625,
      "learning_rate": 2.8534186393140083e-06,
      "loss": 0.98616734,
      "memory(GiB)": 112.26,
      "step": 51970,
      "train_speed(iter/s)": 1.130535
    },
    {
      "acc": 0.74702911,
      "epoch": 1.3184931506849316,
      "grad_norm": 3.421875,
      "learning_rate": 2.8524716176316715e-06,
      "loss": 1.03683329,
      "memory(GiB)": 112.26,
      "step": 51975,
      "train_speed(iter/s)": 1.130532
    },
    {
      "acc": 0.72084007,
      "epoch": 1.3186199898528665,
      "grad_norm": 4.53125,
      "learning_rate": 2.851524690407218e-06,
      "loss": 1.15693216,
      "memory(GiB)": 112.26,
      "step": 51980,
      "train_speed(iter/s)": 1.130553
    },
    {
      "acc": 0.74725528,
      "epoch": 1.3187468290208018,
      "grad_norm": 3.09375,
      "learning_rate": 2.8505778576823036e-06,
      "loss": 1.06483574,
      "memory(GiB)": 112.26,
      "step": 51985,
      "train_speed(iter/s)": 1.130559
    },
    {
      "acc": 0.73331871,
      "epoch": 1.3188736681887367,
      "grad_norm": 4.1875,
      "learning_rate": 2.849631119498573e-06,
      "loss": 1.11323223,
      "memory(GiB)": 112.26,
      "step": 51990,
      "train_speed(iter/s)": 1.130573
    },
    {
      "acc": 0.72659211,
      "epoch": 1.3190005073566717,
      "grad_norm": 3.375,
      "learning_rate": 2.8486844758976652e-06,
      "loss": 1.08390045,
      "memory(GiB)": 112.26,
      "step": 51995,
      "train_speed(iter/s)": 1.13059
    },
    {
      "acc": 0.74813681,
      "epoch": 1.3191273465246067,
      "grad_norm": 3.875,
      "learning_rate": 2.8477379269212157e-06,
      "loss": 1.01811514,
      "memory(GiB)": 112.26,
      "step": 52000,
      "train_speed(iter/s)": 1.130609
    },
    {
      "epoch": 1.3191273465246067,
      "eval_acc": 0.7257473525499262,
      "eval_loss": 1.0444974899291992,
      "eval_runtime": 70.8845,
      "eval_samples_per_second": 89.865,
      "eval_steps_per_second": 22.473,
      "step": 52000
    },
    {
      "acc": 0.74580593,
      "epoch": 1.319254185692542,
      "grad_norm": 3.40625,
      "learning_rate": 2.846791472610865e-06,
      "loss": 1.05111046,
      "memory(GiB)": 112.26,
      "step": 52005,
      "train_speed(iter/s)": 1.127807
    },
    {
      "acc": 0.73800349,
      "epoch": 1.319381024860477,
      "grad_norm": 3.796875,
      "learning_rate": 2.845845113008239e-06,
      "loss": 1.10161896,
      "memory(GiB)": 112.26,
      "step": 52010,
      "train_speed(iter/s)": 1.127833
    },
    {
      "acc": 0.73855772,
      "epoch": 1.319507864028412,
      "grad_norm": 3.578125,
      "learning_rate": 2.84489884815496e-06,
      "loss": 1.06496286,
      "memory(GiB)": 112.26,
      "step": 52015,
      "train_speed(iter/s)": 1.127855
    },
    {
      "acc": 0.72578692,
      "epoch": 1.3196347031963471,
      "grad_norm": 3.328125,
      "learning_rate": 2.843952678092653e-06,
      "loss": 1.04407597,
      "memory(GiB)": 112.26,
      "step": 52020,
      "train_speed(iter/s)": 1.12787
    },
    {
      "acc": 0.73510828,
      "epoch": 1.3197615423642821,
      "grad_norm": 3.953125,
      "learning_rate": 2.8430066028629328e-06,
      "loss": 1.07630453,
      "memory(GiB)": 112.26,
      "step": 52025,
      "train_speed(iter/s)": 1.127889
    },
    {
      "acc": 0.74466968,
      "epoch": 1.319888381532217,
      "grad_norm": 3.421875,
      "learning_rate": 2.842060622507415e-06,
      "loss": 1.01706114,
      "memory(GiB)": 112.26,
      "step": 52030,
      "train_speed(iter/s)": 1.127909
    },
    {
      "acc": 0.75152259,
      "epoch": 1.320015220700152,
      "grad_norm": 3.359375,
      "learning_rate": 2.841114737067702e-06,
      "loss": 1.00620689,
      "memory(GiB)": 112.26,
      "step": 52035,
      "train_speed(iter/s)": 1.127925
    },
    {
      "acc": 0.75991449,
      "epoch": 1.3201420598680873,
      "grad_norm": 3.359375,
      "learning_rate": 2.840168946585402e-06,
      "loss": 0.98650665,
      "memory(GiB)": 112.26,
      "step": 52040,
      "train_speed(iter/s)": 1.127944
    },
    {
      "acc": 0.75365224,
      "epoch": 1.3202688990360223,
      "grad_norm": 3.875,
      "learning_rate": 2.8392232511021158e-06,
      "loss": 1.00871906,
      "memory(GiB)": 112.26,
      "step": 52045,
      "train_speed(iter/s)": 1.127953
    },
    {
      "acc": 0.73598909,
      "epoch": 1.3203957382039575,
      "grad_norm": 4.0,
      "learning_rate": 2.8382776506594385e-06,
      "loss": 1.10254574,
      "memory(GiB)": 112.26,
      "step": 52050,
      "train_speed(iter/s)": 1.127971
    },
    {
      "acc": 0.74238024,
      "epoch": 1.3205225773718925,
      "grad_norm": 3.71875,
      "learning_rate": 2.837332145298961e-06,
      "loss": 1.04839535,
      "memory(GiB)": 112.26,
      "step": 52055,
      "train_speed(iter/s)": 1.127993
    },
    {
      "acc": 0.73670101,
      "epoch": 1.3206494165398275,
      "grad_norm": 4.6875,
      "learning_rate": 2.836386735062271e-06,
      "loss": 1.08118496,
      "memory(GiB)": 112.26,
      "step": 52060,
      "train_speed(iter/s)": 1.128014
    },
    {
      "acc": 0.7545085,
      "epoch": 1.3207762557077625,
      "grad_norm": 3.828125,
      "learning_rate": 2.835441419990953e-06,
      "loss": 1.0198143,
      "memory(GiB)": 112.26,
      "step": 52065,
      "train_speed(iter/s)": 1.128025
    },
    {
      "acc": 0.7305119,
      "epoch": 1.3209030948756977,
      "grad_norm": 3.328125,
      "learning_rate": 2.834496200126585e-06,
      "loss": 1.0640976,
      "memory(GiB)": 112.26,
      "step": 52070,
      "train_speed(iter/s)": 1.128044
    },
    {
      "acc": 0.72985187,
      "epoch": 1.3210299340436327,
      "grad_norm": 4.28125,
      "learning_rate": 2.8335510755107426e-06,
      "loss": 1.13256598,
      "memory(GiB)": 112.26,
      "step": 52075,
      "train_speed(iter/s)": 1.128066
    },
    {
      "acc": 0.74529858,
      "epoch": 1.3211567732115677,
      "grad_norm": 4.5,
      "learning_rate": 2.8326060461849966e-06,
      "loss": 1.06988945,
      "memory(GiB)": 112.26,
      "step": 52080,
      "train_speed(iter/s)": 1.128077
    },
    {
      "acc": 0.74618092,
      "epoch": 1.3212836123795029,
      "grad_norm": 4.9375,
      "learning_rate": 2.8316611121909126e-06,
      "loss": 1.03964243,
      "memory(GiB)": 112.26,
      "step": 52085,
      "train_speed(iter/s)": 1.128081
    },
    {
      "acc": 0.73893986,
      "epoch": 1.3214104515474379,
      "grad_norm": 3.546875,
      "learning_rate": 2.8307162735700544e-06,
      "loss": 1.13626776,
      "memory(GiB)": 112.26,
      "step": 52090,
      "train_speed(iter/s)": 1.128103
    },
    {
      "acc": 0.74985142,
      "epoch": 1.3215372907153728,
      "grad_norm": 3.71875,
      "learning_rate": 2.8297715303639796e-06,
      "loss": 0.98981228,
      "memory(GiB)": 112.26,
      "step": 52095,
      "train_speed(iter/s)": 1.128108
    },
    {
      "acc": 0.72305331,
      "epoch": 1.3216641298833078,
      "grad_norm": 3.390625,
      "learning_rate": 2.8288268826142423e-06,
      "loss": 1.10421028,
      "memory(GiB)": 112.26,
      "step": 52100,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.73969121,
      "epoch": 1.321790969051243,
      "grad_norm": 4.5625,
      "learning_rate": 2.8278823303623905e-06,
      "loss": 1.07045221,
      "memory(GiB)": 112.26,
      "step": 52105,
      "train_speed(iter/s)": 1.128134
    },
    {
      "acc": 0.73152795,
      "epoch": 1.321917808219178,
      "grad_norm": 3.59375,
      "learning_rate": 2.8269378736499754e-06,
      "loss": 1.10891342,
      "memory(GiB)": 112.26,
      "step": 52110,
      "train_speed(iter/s)": 1.128151
    },
    {
      "acc": 0.74477539,
      "epoch": 1.3220446473871132,
      "grad_norm": 3.84375,
      "learning_rate": 2.8259935125185323e-06,
      "loss": 1.12452898,
      "memory(GiB)": 112.26,
      "step": 52115,
      "train_speed(iter/s)": 1.128167
    },
    {
      "acc": 0.73036919,
      "epoch": 1.3221714865550482,
      "grad_norm": 4.40625,
      "learning_rate": 2.8250492470096008e-06,
      "loss": 1.1499527,
      "memory(GiB)": 112.26,
      "step": 52120,
      "train_speed(iter/s)": 1.128181
    },
    {
      "acc": 0.74846869,
      "epoch": 1.3222983257229832,
      "grad_norm": 4.84375,
      "learning_rate": 2.824105077164712e-06,
      "loss": 1.01709099,
      "memory(GiB)": 112.26,
      "step": 52125,
      "train_speed(iter/s)": 1.128191
    },
    {
      "acc": 0.73236299,
      "epoch": 1.3224251648909182,
      "grad_norm": 3.171875,
      "learning_rate": 2.823161003025401e-06,
      "loss": 1.07498703,
      "memory(GiB)": 112.26,
      "step": 52130,
      "train_speed(iter/s)": 1.128205
    },
    {
      "acc": 0.73785019,
      "epoch": 1.3225520040588534,
      "grad_norm": 5.96875,
      "learning_rate": 2.822217024633186e-06,
      "loss": 1.11401043,
      "memory(GiB)": 112.26,
      "step": 52135,
      "train_speed(iter/s)": 1.128219
    },
    {
      "acc": 0.74429636,
      "epoch": 1.3226788432267884,
      "grad_norm": 3.46875,
      "learning_rate": 2.821273142029587e-06,
      "loss": 1.06167793,
      "memory(GiB)": 112.26,
      "step": 52140,
      "train_speed(iter/s)": 1.128238
    },
    {
      "acc": 0.72542257,
      "epoch": 1.3228056823947236,
      "grad_norm": 4.03125,
      "learning_rate": 2.820329355256124e-06,
      "loss": 1.07617502,
      "memory(GiB)": 112.26,
      "step": 52145,
      "train_speed(iter/s)": 1.128257
    },
    {
      "acc": 0.74601159,
      "epoch": 1.3229325215626586,
      "grad_norm": 3.78125,
      "learning_rate": 2.8193856643543106e-06,
      "loss": 1.04411411,
      "memory(GiB)": 112.26,
      "step": 52150,
      "train_speed(iter/s)": 1.128266
    },
    {
      "acc": 0.73995271,
      "epoch": 1.3230593607305936,
      "grad_norm": 4.46875,
      "learning_rate": 2.8184420693656468e-06,
      "loss": 1.05995674,
      "memory(GiB)": 112.26,
      "step": 52155,
      "train_speed(iter/s)": 1.128283
    },
    {
      "acc": 0.74748688,
      "epoch": 1.3231861998985286,
      "grad_norm": 3.265625,
      "learning_rate": 2.817498570331643e-06,
      "loss": 1.00780621,
      "memory(GiB)": 112.26,
      "step": 52160,
      "train_speed(iter/s)": 1.128295
    },
    {
      "acc": 0.74792833,
      "epoch": 1.3233130390664638,
      "grad_norm": 3.28125,
      "learning_rate": 2.816555167293795e-06,
      "loss": 1.00663652,
      "memory(GiB)": 112.26,
      "step": 52165,
      "train_speed(iter/s)": 1.128314
    },
    {
      "acc": 0.74166059,
      "epoch": 1.3234398782343988,
      "grad_norm": 3.390625,
      "learning_rate": 2.815611860293603e-06,
      "loss": 1.09901953,
      "memory(GiB)": 112.26,
      "step": 52170,
      "train_speed(iter/s)": 1.128322
    },
    {
      "acc": 0.74859171,
      "epoch": 1.3235667174023338,
      "grad_norm": 3.578125,
      "learning_rate": 2.814668649372549e-06,
      "loss": 1.04044104,
      "memory(GiB)": 112.26,
      "step": 52175,
      "train_speed(iter/s)": 1.128339
    },
    {
      "acc": 0.73800592,
      "epoch": 1.323693556570269,
      "grad_norm": 4.0,
      "learning_rate": 2.8137255345721266e-06,
      "loss": 1.09107552,
      "memory(GiB)": 112.26,
      "step": 52180,
      "train_speed(iter/s)": 1.128349
    },
    {
      "acc": 0.74385056,
      "epoch": 1.323820395738204,
      "grad_norm": 4.4375,
      "learning_rate": 2.8127825159338163e-06,
      "loss": 1.07178888,
      "memory(GiB)": 112.26,
      "step": 52185,
      "train_speed(iter/s)": 1.128357
    },
    {
      "acc": 0.73278913,
      "epoch": 1.323947234906139,
      "grad_norm": 3.921875,
      "learning_rate": 2.8118395934990962e-06,
      "loss": 1.11387043,
      "memory(GiB)": 112.26,
      "step": 52190,
      "train_speed(iter/s)": 1.128371
    },
    {
      "acc": 0.73400965,
      "epoch": 1.324074074074074,
      "grad_norm": 3.84375,
      "learning_rate": 2.81089676730944e-06,
      "loss": 1.07370586,
      "memory(GiB)": 112.26,
      "step": 52195,
      "train_speed(iter/s)": 1.128388
    },
    {
      "acc": 0.74519234,
      "epoch": 1.3242009132420092,
      "grad_norm": 3.078125,
      "learning_rate": 2.8099540374063185e-06,
      "loss": 1.0145237,
      "memory(GiB)": 112.26,
      "step": 52200,
      "train_speed(iter/s)": 1.128399
    },
    {
      "acc": 0.73351202,
      "epoch": 1.3243277524099442,
      "grad_norm": 3.03125,
      "learning_rate": 2.8090114038311956e-06,
      "loss": 1.0841732,
      "memory(GiB)": 112.26,
      "step": 52205,
      "train_speed(iter/s)": 1.128424
    },
    {
      "acc": 0.74736824,
      "epoch": 1.3244545915778794,
      "grad_norm": 3.953125,
      "learning_rate": 2.8080688666255328e-06,
      "loss": 1.02189989,
      "memory(GiB)": 112.26,
      "step": 52210,
      "train_speed(iter/s)": 1.12842
    },
    {
      "acc": 0.74014421,
      "epoch": 1.3245814307458144,
      "grad_norm": 3.4375,
      "learning_rate": 2.8071264258307884e-06,
      "loss": 1.03783693,
      "memory(GiB)": 112.26,
      "step": 52215,
      "train_speed(iter/s)": 1.128422
    },
    {
      "acc": 0.73956838,
      "epoch": 1.3247082699137493,
      "grad_norm": 3.484375,
      "learning_rate": 2.8061840814884133e-06,
      "loss": 1.02797232,
      "memory(GiB)": 112.26,
      "step": 52220,
      "train_speed(iter/s)": 1.128431
    },
    {
      "acc": 0.75763483,
      "epoch": 1.3248351090816843,
      "grad_norm": 3.203125,
      "learning_rate": 2.805241833639858e-06,
      "loss": 1.03774204,
      "memory(GiB)": 112.26,
      "step": 52225,
      "train_speed(iter/s)": 1.128454
    },
    {
      "acc": 0.7326623,
      "epoch": 1.3249619482496195,
      "grad_norm": 3.25,
      "learning_rate": 2.804299682326565e-06,
      "loss": 1.09148979,
      "memory(GiB)": 112.26,
      "step": 52230,
      "train_speed(iter/s)": 1.128465
    },
    {
      "acc": 0.74308167,
      "epoch": 1.3250887874175545,
      "grad_norm": 3.625,
      "learning_rate": 2.8033576275899752e-06,
      "loss": 1.09074192,
      "memory(GiB)": 112.26,
      "step": 52235,
      "train_speed(iter/s)": 1.128474
    },
    {
      "acc": 0.73480988,
      "epoch": 1.3252156265854895,
      "grad_norm": 3.375,
      "learning_rate": 2.8024156694715242e-06,
      "loss": 1.08179436,
      "memory(GiB)": 112.26,
      "step": 52240,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.73748112,
      "epoch": 1.3253424657534247,
      "grad_norm": 6.21875,
      "learning_rate": 2.8014738080126424e-06,
      "loss": 1.06257038,
      "memory(GiB)": 112.26,
      "step": 52245,
      "train_speed(iter/s)": 1.128496
    },
    {
      "acc": 0.74823308,
      "epoch": 1.3254693049213597,
      "grad_norm": 2.84375,
      "learning_rate": 2.8005320432547612e-06,
      "loss": 1.03713083,
      "memory(GiB)": 112.26,
      "step": 52250,
      "train_speed(iter/s)": 1.128515
    },
    {
      "acc": 0.72881069,
      "epoch": 1.3255961440892947,
      "grad_norm": 4.03125,
      "learning_rate": 2.7995903752392993e-06,
      "loss": 1.09021206,
      "memory(GiB)": 112.26,
      "step": 52255,
      "train_speed(iter/s)": 1.128527
    },
    {
      "acc": 0.76040506,
      "epoch": 1.3257229832572297,
      "grad_norm": 4.75,
      "learning_rate": 2.7986488040076764e-06,
      "loss": 0.98132572,
      "memory(GiB)": 112.26,
      "step": 52260,
      "train_speed(iter/s)": 1.128544
    },
    {
      "acc": 0.73807111,
      "epoch": 1.325849822425165,
      "grad_norm": 4.78125,
      "learning_rate": 2.797707329601306e-06,
      "loss": 1.11430683,
      "memory(GiB)": 112.26,
      "step": 52265,
      "train_speed(iter/s)": 1.128562
    },
    {
      "acc": 0.73683906,
      "epoch": 1.3259766615931,
      "grad_norm": 4.65625,
      "learning_rate": 2.7967659520616032e-06,
      "loss": 1.07749481,
      "memory(GiB)": 112.26,
      "step": 52270,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.73972783,
      "epoch": 1.3261035007610351,
      "grad_norm": 3.15625,
      "learning_rate": 2.7958246714299685e-06,
      "loss": 0.96451445,
      "memory(GiB)": 112.26,
      "step": 52275,
      "train_speed(iter/s)": 1.12859
    },
    {
      "acc": 0.73459897,
      "epoch": 1.32623033992897,
      "grad_norm": 3.15625,
      "learning_rate": 2.7948834877478035e-06,
      "loss": 1.09630814,
      "memory(GiB)": 112.26,
      "step": 52280,
      "train_speed(iter/s)": 1.128609
    },
    {
      "acc": 0.72543464,
      "epoch": 1.326357179096905,
      "grad_norm": 4.25,
      "learning_rate": 2.7939424010565107e-06,
      "loss": 1.12431946,
      "memory(GiB)": 112.26,
      "step": 52285,
      "train_speed(iter/s)": 1.12863
    },
    {
      "acc": 0.74361548,
      "epoch": 1.32648401826484,
      "grad_norm": 3.578125,
      "learning_rate": 2.793001411397482e-06,
      "loss": 1.07539482,
      "memory(GiB)": 112.26,
      "step": 52290,
      "train_speed(iter/s)": 1.128653
    },
    {
      "acc": 0.74428735,
      "epoch": 1.3266108574327753,
      "grad_norm": 4.5,
      "learning_rate": 2.792060518812103e-06,
      "loss": 1.0730834,
      "memory(GiB)": 112.26,
      "step": 52295,
      "train_speed(iter/s)": 1.12867
    },
    {
      "acc": 0.74480085,
      "epoch": 1.3267376966007103,
      "grad_norm": 3.984375,
      "learning_rate": 2.7911197233417574e-06,
      "loss": 1.05534506,
      "memory(GiB)": 112.26,
      "step": 52300,
      "train_speed(iter/s)": 1.128674
    },
    {
      "acc": 0.74060698,
      "epoch": 1.3268645357686455,
      "grad_norm": 3.75,
      "learning_rate": 2.790179025027831e-06,
      "loss": 1.0809701,
      "memory(GiB)": 112.26,
      "step": 52305,
      "train_speed(iter/s)": 1.128686
    },
    {
      "acc": 0.72593412,
      "epoch": 1.3269913749365805,
      "grad_norm": 4.3125,
      "learning_rate": 2.789238423911699e-06,
      "loss": 1.08483381,
      "memory(GiB)": 112.26,
      "step": 52310,
      "train_speed(iter/s)": 1.128706
    },
    {
      "acc": 0.74895277,
      "epoch": 1.3271182141045155,
      "grad_norm": 3.796875,
      "learning_rate": 2.788297920034727e-06,
      "loss": 1.00544033,
      "memory(GiB)": 112.26,
      "step": 52315,
      "train_speed(iter/s)": 1.128717
    },
    {
      "acc": 0.74344234,
      "epoch": 1.3272450532724505,
      "grad_norm": 4.28125,
      "learning_rate": 2.78735751343829e-06,
      "loss": 1.06666737,
      "memory(GiB)": 112.26,
      "step": 52320,
      "train_speed(iter/s)": 1.128734
    },
    {
      "acc": 0.73327703,
      "epoch": 1.3273718924403857,
      "grad_norm": 4.15625,
      "learning_rate": 2.786417204163748e-06,
      "loss": 1.0721117,
      "memory(GiB)": 112.26,
      "step": 52325,
      "train_speed(iter/s)": 1.128754
    },
    {
      "acc": 0.73269105,
      "epoch": 1.3274987316083207,
      "grad_norm": 3.21875,
      "learning_rate": 2.7854769922524593e-06,
      "loss": 1.06037102,
      "memory(GiB)": 112.26,
      "step": 52330,
      "train_speed(iter/s)": 1.12877
    },
    {
      "acc": 0.74562745,
      "epoch": 1.3276255707762556,
      "grad_norm": 3.640625,
      "learning_rate": 2.7845368777457803e-06,
      "loss": 1.03911533,
      "memory(GiB)": 112.26,
      "step": 52335,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.73814158,
      "epoch": 1.3277524099441909,
      "grad_norm": 3.390625,
      "learning_rate": 2.7835968606850616e-06,
      "loss": 1.0778574,
      "memory(GiB)": 112.26,
      "step": 52340,
      "train_speed(iter/s)": 1.128791
    },
    {
      "acc": 0.73036995,
      "epoch": 1.3278792491121258,
      "grad_norm": 4.40625,
      "learning_rate": 2.782656941111648e-06,
      "loss": 1.05129509,
      "memory(GiB)": 112.26,
      "step": 52345,
      "train_speed(iter/s)": 1.128813
    },
    {
      "acc": 0.7556612,
      "epoch": 1.3280060882800608,
      "grad_norm": 4.75,
      "learning_rate": 2.7817171190668812e-06,
      "loss": 0.9857954,
      "memory(GiB)": 112.26,
      "step": 52350,
      "train_speed(iter/s)": 1.128822
    },
    {
      "acc": 0.73612142,
      "epoch": 1.3281329274479958,
      "grad_norm": 4.1875,
      "learning_rate": 2.7807773945921e-06,
      "loss": 1.08407116,
      "memory(GiB)": 112.26,
      "step": 52355,
      "train_speed(iter/s)": 1.128835
    },
    {
      "acc": 0.75269985,
      "epoch": 1.328259766615931,
      "grad_norm": 3.28125,
      "learning_rate": 2.7798377677286363e-06,
      "loss": 1.02326069,
      "memory(GiB)": 112.26,
      "step": 52360,
      "train_speed(iter/s)": 1.128853
    },
    {
      "acc": 0.74429789,
      "epoch": 1.328386605783866,
      "grad_norm": 3.578125,
      "learning_rate": 2.778898238517821e-06,
      "loss": 1.01876287,
      "memory(GiB)": 112.26,
      "step": 52365,
      "train_speed(iter/s)": 1.128858
    },
    {
      "acc": 0.7339756,
      "epoch": 1.3285134449518012,
      "grad_norm": 3.515625,
      "learning_rate": 2.7779588070009767e-06,
      "loss": 1.06305313,
      "memory(GiB)": 112.26,
      "step": 52370,
      "train_speed(iter/s)": 1.128878
    },
    {
      "acc": 0.74004655,
      "epoch": 1.3286402841197362,
      "grad_norm": 3.640625,
      "learning_rate": 2.7770194732194256e-06,
      "loss": 1.05843029,
      "memory(GiB)": 112.26,
      "step": 52375,
      "train_speed(iter/s)": 1.128889
    },
    {
      "acc": 0.73987141,
      "epoch": 1.3287671232876712,
      "grad_norm": 3.203125,
      "learning_rate": 2.7760802372144825e-06,
      "loss": 1.09906254,
      "memory(GiB)": 112.26,
      "step": 52380,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.75154176,
      "epoch": 1.3288939624556062,
      "grad_norm": 4.21875,
      "learning_rate": 2.7751410990274596e-06,
      "loss": 1.0364399,
      "memory(GiB)": 112.26,
      "step": 52385,
      "train_speed(iter/s)": 1.128926
    },
    {
      "acc": 0.75041108,
      "epoch": 1.3290208016235414,
      "grad_norm": 4.25,
      "learning_rate": 2.774202058699664e-06,
      "loss": 0.98474331,
      "memory(GiB)": 112.26,
      "step": 52390,
      "train_speed(iter/s)": 1.128939
    },
    {
      "acc": 0.73628445,
      "epoch": 1.3291476407914764,
      "grad_norm": 3.296875,
      "learning_rate": 2.7732631162724005e-06,
      "loss": 1.0490139,
      "memory(GiB)": 112.26,
      "step": 52395,
      "train_speed(iter/s)": 1.128955
    },
    {
      "acc": 0.74333506,
      "epoch": 1.3292744799594114,
      "grad_norm": 2.875,
      "learning_rate": 2.772324271786966e-06,
      "loss": 1.04757824,
      "memory(GiB)": 112.26,
      "step": 52400,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.7521471,
      "epoch": 1.3294013191273466,
      "grad_norm": 3.671875,
      "learning_rate": 2.7713855252846545e-06,
      "loss": 1.05884075,
      "memory(GiB)": 112.26,
      "step": 52405,
      "train_speed(iter/s)": 1.128991
    },
    {
      "acc": 0.74725018,
      "epoch": 1.3295281582952816,
      "grad_norm": 4.3125,
      "learning_rate": 2.7704468768067616e-06,
      "loss": 0.99910755,
      "memory(GiB)": 112.26,
      "step": 52410,
      "train_speed(iter/s)": 1.128998
    },
    {
      "acc": 0.7297122,
      "epoch": 1.3296549974632166,
      "grad_norm": 4.5,
      "learning_rate": 2.7695083263945664e-06,
      "loss": 1.11471748,
      "memory(GiB)": 112.26,
      "step": 52415,
      "train_speed(iter/s)": 1.129013
    },
    {
      "acc": 0.7282793,
      "epoch": 1.3297818366311516,
      "grad_norm": 3.953125,
      "learning_rate": 2.7685698740893516e-06,
      "loss": 1.12392597,
      "memory(GiB)": 112.26,
      "step": 52420,
      "train_speed(iter/s)": 1.129025
    },
    {
      "acc": 0.74085751,
      "epoch": 1.3299086757990868,
      "grad_norm": 4.0625,
      "learning_rate": 2.7676315199323995e-06,
      "loss": 1.02485886,
      "memory(GiB)": 112.26,
      "step": 52425,
      "train_speed(iter/s)": 1.129044
    },
    {
      "acc": 0.76025543,
      "epoch": 1.3300355149670218,
      "grad_norm": 3.921875,
      "learning_rate": 2.7666932639649814e-06,
      "loss": 0.9677947,
      "memory(GiB)": 112.26,
      "step": 52430,
      "train_speed(iter/s)": 1.129064
    },
    {
      "acc": 0.72886496,
      "epoch": 1.330162354134957,
      "grad_norm": 3.453125,
      "learning_rate": 2.765755106228362e-06,
      "loss": 1.07193518,
      "memory(GiB)": 112.26,
      "step": 52435,
      "train_speed(iter/s)": 1.129081
    },
    {
      "acc": 0.73993945,
      "epoch": 1.330289193302892,
      "grad_norm": 3.625,
      "learning_rate": 2.764817046763807e-06,
      "loss": 1.0205946,
      "memory(GiB)": 112.26,
      "step": 52440,
      "train_speed(iter/s)": 1.1291
    },
    {
      "acc": 0.74396086,
      "epoch": 1.330416032470827,
      "grad_norm": 3.65625,
      "learning_rate": 2.7638790856125786e-06,
      "loss": 1.08973694,
      "memory(GiB)": 112.26,
      "step": 52445,
      "train_speed(iter/s)": 1.129115
    },
    {
      "acc": 0.73166733,
      "epoch": 1.330542871638762,
      "grad_norm": 3.6875,
      "learning_rate": 2.7629412228159346e-06,
      "loss": 1.08998375,
      "memory(GiB)": 112.26,
      "step": 52450,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.7314187,
      "epoch": 1.3306697108066972,
      "grad_norm": 4.3125,
      "learning_rate": 2.762003458415119e-06,
      "loss": 1.07665377,
      "memory(GiB)": 112.26,
      "step": 52455,
      "train_speed(iter/s)": 1.129141
    },
    {
      "acc": 0.74657602,
      "epoch": 1.3307965499746321,
      "grad_norm": 3.421875,
      "learning_rate": 2.7610657924513853e-06,
      "loss": 1.02102709,
      "memory(GiB)": 112.26,
      "step": 52460,
      "train_speed(iter/s)": 1.129159
    },
    {
      "acc": 0.73961725,
      "epoch": 1.3309233891425674,
      "grad_norm": 3.6875,
      "learning_rate": 2.7601282249659737e-06,
      "loss": 1.08517056,
      "memory(GiB)": 112.26,
      "step": 52465,
      "train_speed(iter/s)": 1.129173
    },
    {
      "acc": 0.73309016,
      "epoch": 1.3310502283105023,
      "grad_norm": 3.8125,
      "learning_rate": 2.759190756000126e-06,
      "loss": 1.10679932,
      "memory(GiB)": 112.26,
      "step": 52470,
      "train_speed(iter/s)": 1.129184
    },
    {
      "acc": 0.72496033,
      "epoch": 1.3311770674784373,
      "grad_norm": 4.4375,
      "learning_rate": 2.7582533855950687e-06,
      "loss": 1.09523506,
      "memory(GiB)": 112.26,
      "step": 52475,
      "train_speed(iter/s)": 1.129202
    },
    {
      "acc": 0.74090433,
      "epoch": 1.3313039066463723,
      "grad_norm": 3.3125,
      "learning_rate": 2.757316113792038e-06,
      "loss": 1.07640724,
      "memory(GiB)": 112.26,
      "step": 52480,
      "train_speed(iter/s)": 1.129216
    },
    {
      "acc": 0.73176231,
      "epoch": 1.3314307458143075,
      "grad_norm": 3.171875,
      "learning_rate": 2.756378940632258e-06,
      "loss": 1.0941678,
      "memory(GiB)": 112.26,
      "step": 52485,
      "train_speed(iter/s)": 1.129232
    },
    {
      "acc": 0.73864298,
      "epoch": 1.3315575849822425,
      "grad_norm": 4.46875,
      "learning_rate": 2.755441866156949e-06,
      "loss": 1.07188244,
      "memory(GiB)": 112.26,
      "step": 52490,
      "train_speed(iter/s)": 1.129251
    },
    {
      "acc": 0.73841972,
      "epoch": 1.3316844241501775,
      "grad_norm": 3.4375,
      "learning_rate": 2.7545048904073278e-06,
      "loss": 1.09109716,
      "memory(GiB)": 112.26,
      "step": 52495,
      "train_speed(iter/s)": 1.129264
    },
    {
      "acc": 0.74505472,
      "epoch": 1.3318112633181127,
      "grad_norm": 3.453125,
      "learning_rate": 2.7535680134246067e-06,
      "loss": 1.02835236,
      "memory(GiB)": 112.26,
      "step": 52500,
      "train_speed(iter/s)": 1.129282
    },
    {
      "acc": 0.75658455,
      "epoch": 1.3319381024860477,
      "grad_norm": 3.453125,
      "learning_rate": 2.752631235249995e-06,
      "loss": 1.06780939,
      "memory(GiB)": 112.26,
      "step": 52505,
      "train_speed(iter/s)": 1.129285
    },
    {
      "acc": 0.75092268,
      "epoch": 1.3320649416539827,
      "grad_norm": 4.6875,
      "learning_rate": 2.7516945559246945e-06,
      "loss": 0.97760162,
      "memory(GiB)": 112.26,
      "step": 52510,
      "train_speed(iter/s)": 1.129301
    },
    {
      "acc": 0.74225035,
      "epoch": 1.3321917808219177,
      "grad_norm": 3.546875,
      "learning_rate": 2.7507579754899053e-06,
      "loss": 1.02797432,
      "memory(GiB)": 112.26,
      "step": 52515,
      "train_speed(iter/s)": 1.129309
    },
    {
      "acc": 0.75109148,
      "epoch": 1.332318619989853,
      "grad_norm": 3.890625,
      "learning_rate": 2.749821493986823e-06,
      "loss": 0.97952442,
      "memory(GiB)": 112.26,
      "step": 52520,
      "train_speed(iter/s)": 1.129326
    },
    {
      "acc": 0.74707394,
      "epoch": 1.332445459157788,
      "grad_norm": 4.21875,
      "learning_rate": 2.748885111456637e-06,
      "loss": 1.06764164,
      "memory(GiB)": 112.26,
      "step": 52525,
      "train_speed(iter/s)": 1.129338
    },
    {
      "acc": 0.75059967,
      "epoch": 1.332572298325723,
      "grad_norm": 4.03125,
      "learning_rate": 2.7479488279405354e-06,
      "loss": 1.04777756,
      "memory(GiB)": 112.26,
      "step": 52530,
      "train_speed(iter/s)": 1.129363
    },
    {
      "acc": 0.74706926,
      "epoch": 1.332699137493658,
      "grad_norm": 4.0,
      "learning_rate": 2.7470126434796984e-06,
      "loss": 1.01609459,
      "memory(GiB)": 112.26,
      "step": 52535,
      "train_speed(iter/s)": 1.129383
    },
    {
      "acc": 0.73969193,
      "epoch": 1.332825976661593,
      "grad_norm": 3.59375,
      "learning_rate": 2.746076558115304e-06,
      "loss": 1.03025694,
      "memory(GiB)": 112.26,
      "step": 52540,
      "train_speed(iter/s)": 1.129392
    },
    {
      "acc": 0.74579735,
      "epoch": 1.332952815829528,
      "grad_norm": 3.46875,
      "learning_rate": 2.7451405718885237e-06,
      "loss": 1.03363781,
      "memory(GiB)": 112.26,
      "step": 52545,
      "train_speed(iter/s)": 1.129404
    },
    {
      "acc": 0.73555017,
      "epoch": 1.3330796549974633,
      "grad_norm": 3.734375,
      "learning_rate": 2.7442046848405328e-06,
      "loss": 1.05713291,
      "memory(GiB)": 112.26,
      "step": 52550,
      "train_speed(iter/s)": 1.129419
    },
    {
      "acc": 0.74993792,
      "epoch": 1.3332064941653983,
      "grad_norm": 3.1875,
      "learning_rate": 2.743268897012489e-06,
      "loss": 1.029216,
      "memory(GiB)": 112.26,
      "step": 52555,
      "train_speed(iter/s)": 1.129422
    },
    {
      "acc": 0.73266358,
      "epoch": 1.3333333333333333,
      "grad_norm": 4.15625,
      "learning_rate": 2.7423332084455543e-06,
      "loss": 1.06667118,
      "memory(GiB)": 112.26,
      "step": 52560,
      "train_speed(iter/s)": 1.129443
    },
    {
      "acc": 0.75864658,
      "epoch": 1.3334601725012685,
      "grad_norm": 3.8125,
      "learning_rate": 2.741397619180883e-06,
      "loss": 0.9890974,
      "memory(GiB)": 112.26,
      "step": 52565,
      "train_speed(iter/s)": 1.129454
    },
    {
      "acc": 0.74582376,
      "epoch": 1.3335870116692035,
      "grad_norm": 3.515625,
      "learning_rate": 2.740462129259633e-06,
      "loss": 1.07115564,
      "memory(GiB)": 112.26,
      "step": 52570,
      "train_speed(iter/s)": 1.129475
    },
    {
      "acc": 0.74356976,
      "epoch": 1.3337138508371384,
      "grad_norm": 3.421875,
      "learning_rate": 2.739526738722944e-06,
      "loss": 1.10050297,
      "memory(GiB)": 112.26,
      "step": 52575,
      "train_speed(iter/s)": 1.129491
    },
    {
      "acc": 0.74469662,
      "epoch": 1.3338406900050734,
      "grad_norm": 3.1875,
      "learning_rate": 2.738591447611959e-06,
      "loss": 1.02230072,
      "memory(GiB)": 112.26,
      "step": 52580,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.72830734,
      "epoch": 1.3339675291730086,
      "grad_norm": 3.734375,
      "learning_rate": 2.7376562559678214e-06,
      "loss": 1.07237053,
      "memory(GiB)": 112.26,
      "step": 52585,
      "train_speed(iter/s)": 1.12952
    },
    {
      "acc": 0.73998861,
      "epoch": 1.3340943683409436,
      "grad_norm": 4.25,
      "learning_rate": 2.7367211638316637e-06,
      "loss": 1.10711079,
      "memory(GiB)": 112.26,
      "step": 52590,
      "train_speed(iter/s)": 1.129536
    },
    {
      "acc": 0.74408956,
      "epoch": 1.3342212075088788,
      "grad_norm": 3.25,
      "learning_rate": 2.735786171244611e-06,
      "loss": 1.05191288,
      "memory(GiB)": 112.26,
      "step": 52595,
      "train_speed(iter/s)": 1.129551
    },
    {
      "acc": 0.73064446,
      "epoch": 1.3343480466768138,
      "grad_norm": 3.46875,
      "learning_rate": 2.7348512782477922e-06,
      "loss": 1.07050085,
      "memory(GiB)": 112.26,
      "step": 52600,
      "train_speed(iter/s)": 1.129558
    },
    {
      "acc": 0.74995155,
      "epoch": 1.3344748858447488,
      "grad_norm": 4.375,
      "learning_rate": 2.7339164848823287e-06,
      "loss": 1.04530649,
      "memory(GiB)": 112.26,
      "step": 52605,
      "train_speed(iter/s)": 1.129569
    },
    {
      "acc": 0.73684483,
      "epoch": 1.3346017250126838,
      "grad_norm": 3.734375,
      "learning_rate": 2.7329817911893365e-06,
      "loss": 1.06304846,
      "memory(GiB)": 112.26,
      "step": 52610,
      "train_speed(iter/s)": 1.129582
    },
    {
      "acc": 0.73869057,
      "epoch": 1.334728564180619,
      "grad_norm": 3.765625,
      "learning_rate": 2.7320471972099226e-06,
      "loss": 1.05421677,
      "memory(GiB)": 112.26,
      "step": 52615,
      "train_speed(iter/s)": 1.129592
    },
    {
      "acc": 0.73705606,
      "epoch": 1.334855403348554,
      "grad_norm": 3.484375,
      "learning_rate": 2.7311127029852007e-06,
      "loss": 1.03558369,
      "memory(GiB)": 112.26,
      "step": 52620,
      "train_speed(iter/s)": 1.129612
    },
    {
      "acc": 0.72469244,
      "epoch": 1.3349822425164892,
      "grad_norm": 3.609375,
      "learning_rate": 2.7301783085562726e-06,
      "loss": 1.12588282,
      "memory(GiB)": 112.26,
      "step": 52625,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.73981786,
      "epoch": 1.3351090816844242,
      "grad_norm": 3.5,
      "learning_rate": 2.7292440139642364e-06,
      "loss": 1.05208521,
      "memory(GiB)": 112.26,
      "step": 52630,
      "train_speed(iter/s)": 1.129636
    },
    {
      "acc": 0.73676991,
      "epoch": 1.3352359208523592,
      "grad_norm": 3.78125,
      "learning_rate": 2.7283098192501855e-06,
      "loss": 1.05512772,
      "memory(GiB)": 112.26,
      "step": 52635,
      "train_speed(iter/s)": 1.129658
    },
    {
      "acc": 0.74102254,
      "epoch": 1.3353627600202942,
      "grad_norm": 3.59375,
      "learning_rate": 2.7273757244552124e-06,
      "loss": 1.0069313,
      "memory(GiB)": 112.26,
      "step": 52640,
      "train_speed(iter/s)": 1.129679
    },
    {
      "acc": 0.74260402,
      "epoch": 1.3354895991882294,
      "grad_norm": 3.578125,
      "learning_rate": 2.726441729620401e-06,
      "loss": 1.03497038,
      "memory(GiB)": 112.26,
      "step": 52645,
      "train_speed(iter/s)": 1.129694
    },
    {
      "acc": 0.74068632,
      "epoch": 1.3356164383561644,
      "grad_norm": 3.578125,
      "learning_rate": 2.725507834786833e-06,
      "loss": 1.10498409,
      "memory(GiB)": 112.26,
      "step": 52650,
      "train_speed(iter/s)": 1.129713
    },
    {
      "acc": 0.75200558,
      "epoch": 1.3357432775240994,
      "grad_norm": 4.5,
      "learning_rate": 2.7245740399955857e-06,
      "loss": 1.03719702,
      "memory(GiB)": 112.26,
      "step": 52655,
      "train_speed(iter/s)": 1.12973
    },
    {
      "acc": 0.75027595,
      "epoch": 1.3358701166920346,
      "grad_norm": 3.5,
      "learning_rate": 2.72364034528773e-06,
      "loss": 1.03547878,
      "memory(GiB)": 112.26,
      "step": 52660,
      "train_speed(iter/s)": 1.129748
    },
    {
      "acc": 0.74654074,
      "epoch": 1.3359969558599696,
      "grad_norm": 3.640625,
      "learning_rate": 2.722706750704337e-06,
      "loss": 1.05017929,
      "memory(GiB)": 112.26,
      "step": 52665,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.73537302,
      "epoch": 1.3361237950279046,
      "grad_norm": 4.5625,
      "learning_rate": 2.7217732562864673e-06,
      "loss": 1.07277966,
      "memory(GiB)": 112.26,
      "step": 52670,
      "train_speed(iter/s)": 1.129784
    },
    {
      "acc": 0.72388749,
      "epoch": 1.3362506341958396,
      "grad_norm": 4.625,
      "learning_rate": 2.720839862075181e-06,
      "loss": 1.11725912,
      "memory(GiB)": 112.26,
      "step": 52675,
      "train_speed(iter/s)": 1.129801
    },
    {
      "acc": 0.73802137,
      "epoch": 1.3363774733637748,
      "grad_norm": 3.234375,
      "learning_rate": 2.7199065681115344e-06,
      "loss": 1.07994576,
      "memory(GiB)": 112.26,
      "step": 52680,
      "train_speed(iter/s)": 1.12981
    },
    {
      "acc": 0.74346948,
      "epoch": 1.3365043125317098,
      "grad_norm": 4.09375,
      "learning_rate": 2.7189733744365742e-06,
      "loss": 1.06375713,
      "memory(GiB)": 112.26,
      "step": 52685,
      "train_speed(iter/s)": 1.12983
    },
    {
      "acc": 0.74781089,
      "epoch": 1.336631151699645,
      "grad_norm": 3.5,
      "learning_rate": 2.718040281091353e-06,
      "loss": 0.99770184,
      "memory(GiB)": 112.26,
      "step": 52690,
      "train_speed(iter/s)": 1.129848
    },
    {
      "acc": 0.74868741,
      "epoch": 1.33675799086758,
      "grad_norm": 3.625,
      "learning_rate": 2.717107288116906e-06,
      "loss": 1.00230122,
      "memory(GiB)": 112.26,
      "step": 52695,
      "train_speed(iter/s)": 1.129867
    },
    {
      "acc": 0.73440857,
      "epoch": 1.336884830035515,
      "grad_norm": 4.03125,
      "learning_rate": 2.716174395554274e-06,
      "loss": 1.09604349,
      "memory(GiB)": 112.26,
      "step": 52700,
      "train_speed(iter/s)": 1.129884
    },
    {
      "acc": 0.74150805,
      "epoch": 1.33701166920345,
      "grad_norm": 3.421875,
      "learning_rate": 2.715241603444486e-06,
      "loss": 1.09364443,
      "memory(GiB)": 112.26,
      "step": 52705,
      "train_speed(iter/s)": 1.129902
    },
    {
      "acc": 0.74471159,
      "epoch": 1.3371385083713851,
      "grad_norm": 4.21875,
      "learning_rate": 2.714308911828577e-06,
      "loss": 1.02499266,
      "memory(GiB)": 112.26,
      "step": 52710,
      "train_speed(iter/s)": 1.129909
    },
    {
      "acc": 0.73095102,
      "epoch": 1.3372653475393201,
      "grad_norm": 3.859375,
      "learning_rate": 2.713376320747565e-06,
      "loss": 1.10354004,
      "memory(GiB)": 112.26,
      "step": 52715,
      "train_speed(iter/s)": 1.129927
    },
    {
      "acc": 0.73691525,
      "epoch": 1.3373921867072551,
      "grad_norm": 3.53125,
      "learning_rate": 2.7124438302424696e-06,
      "loss": 1.03454885,
      "memory(GiB)": 112.26,
      "step": 52720,
      "train_speed(iter/s)": 1.12994
    },
    {
      "acc": 0.72825823,
      "epoch": 1.3375190258751903,
      "grad_norm": 4.375,
      "learning_rate": 2.711511440354309e-06,
      "loss": 1.09886332,
      "memory(GiB)": 112.26,
      "step": 52725,
      "train_speed(iter/s)": 1.129957
    },
    {
      "acc": 0.73899937,
      "epoch": 1.3376458650431253,
      "grad_norm": 4.21875,
      "learning_rate": 2.710579151124095e-06,
      "loss": 1.06790752,
      "memory(GiB)": 112.26,
      "step": 52730,
      "train_speed(iter/s)": 1.129972
    },
    {
      "acc": 0.74583712,
      "epoch": 1.3377727042110603,
      "grad_norm": 3.71875,
      "learning_rate": 2.70964696259283e-06,
      "loss": 1.00133963,
      "memory(GiB)": 112.26,
      "step": 52735,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.74063954,
      "epoch": 1.3378995433789953,
      "grad_norm": 3.53125,
      "learning_rate": 2.7087148748015146e-06,
      "loss": 1.0270092,
      "memory(GiB)": 112.26,
      "step": 52740,
      "train_speed(iter/s)": 1.130002
    },
    {
      "acc": 0.72244101,
      "epoch": 1.3380263825469305,
      "grad_norm": 3.515625,
      "learning_rate": 2.7077828877911517e-06,
      "loss": 1.17449179,
      "memory(GiB)": 112.26,
      "step": 52745,
      "train_speed(iter/s)": 1.130015
    },
    {
      "acc": 0.74276915,
      "epoch": 1.3381532217148655,
      "grad_norm": 4.21875,
      "learning_rate": 2.706851001602733e-06,
      "loss": 0.99497662,
      "memory(GiB)": 112.26,
      "step": 52750,
      "train_speed(iter/s)": 1.130031
    },
    {
      "acc": 0.74753146,
      "epoch": 1.3382800608828007,
      "grad_norm": 3.28125,
      "learning_rate": 2.7059192162772407e-06,
      "loss": 1.03684196,
      "memory(GiB)": 112.26,
      "step": 52755,
      "train_speed(iter/s)": 1.130043
    },
    {
      "acc": 0.7384131,
      "epoch": 1.3384069000507357,
      "grad_norm": 3.9375,
      "learning_rate": 2.704987531855666e-06,
      "loss": 1.0774642,
      "memory(GiB)": 112.26,
      "step": 52760,
      "train_speed(iter/s)": 1.13006
    },
    {
      "acc": 0.74819775,
      "epoch": 1.3385337392186707,
      "grad_norm": 3.328125,
      "learning_rate": 2.704055948378986e-06,
      "loss": 1.03847246,
      "memory(GiB)": 112.26,
      "step": 52765,
      "train_speed(iter/s)": 1.130076
    },
    {
      "acc": 0.74088087,
      "epoch": 1.3386605783866057,
      "grad_norm": 3.8125,
      "learning_rate": 2.7031244658881773e-06,
      "loss": 1.01145086,
      "memory(GiB)": 112.26,
      "step": 52770,
      "train_speed(iter/s)": 1.130091
    },
    {
      "acc": 0.74584537,
      "epoch": 1.338787417554541,
      "grad_norm": 5.40625,
      "learning_rate": 2.7021930844242085e-06,
      "loss": 1.0702013,
      "memory(GiB)": 112.26,
      "step": 52775,
      "train_speed(iter/s)": 1.13011
    },
    {
      "acc": 0.74947786,
      "epoch": 1.3389142567224759,
      "grad_norm": 4.28125,
      "learning_rate": 2.7012618040280463e-06,
      "loss": 1.04881916,
      "memory(GiB)": 112.26,
      "step": 52780,
      "train_speed(iter/s)": 1.130121
    },
    {
      "acc": 0.75506277,
      "epoch": 1.339041095890411,
      "grad_norm": 3.875,
      "learning_rate": 2.7003306247406536e-06,
      "loss": 1.0370388,
      "memory(GiB)": 112.26,
      "step": 52785,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.73098783,
      "epoch": 1.339167935058346,
      "grad_norm": 3.640625,
      "learning_rate": 2.6993995466029877e-06,
      "loss": 1.14246206,
      "memory(GiB)": 112.26,
      "step": 52790,
      "train_speed(iter/s)": 1.130155
    },
    {
      "acc": 0.73033838,
      "epoch": 1.339294774226281,
      "grad_norm": 3.265625,
      "learning_rate": 2.6984685696560002e-06,
      "loss": 1.07507896,
      "memory(GiB)": 112.26,
      "step": 52795,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.74183855,
      "epoch": 1.339421613394216,
      "grad_norm": 3.0,
      "learning_rate": 2.6975376939406418e-06,
      "loss": 1.02884121,
      "memory(GiB)": 112.26,
      "step": 52800,
      "train_speed(iter/s)": 1.130188
    },
    {
      "acc": 0.74368095,
      "epoch": 1.3395484525621513,
      "grad_norm": 3.171875,
      "learning_rate": 2.6966069194978537e-06,
      "loss": 1.02978897,
      "memory(GiB)": 112.26,
      "step": 52805,
      "train_speed(iter/s)": 1.130208
    },
    {
      "acc": 0.72703323,
      "epoch": 1.3396752917300863,
      "grad_norm": 3.75,
      "learning_rate": 2.6956762463685787e-06,
      "loss": 1.11395636,
      "memory(GiB)": 112.26,
      "step": 52810,
      "train_speed(iter/s)": 1.130205
    },
    {
      "acc": 0.73836055,
      "epoch": 1.3398021308980212,
      "grad_norm": 3.515625,
      "learning_rate": 2.69474567459375e-06,
      "loss": 1.09444838,
      "memory(GiB)": 112.26,
      "step": 52815,
      "train_speed(iter/s)": 1.130217
    },
    {
      "acc": 0.74465442,
      "epoch": 1.3399289700659565,
      "grad_norm": 4.03125,
      "learning_rate": 2.693815204214299e-06,
      "loss": 1.08104954,
      "memory(GiB)": 112.26,
      "step": 52820,
      "train_speed(iter/s)": 1.130237
    },
    {
      "acc": 0.74113088,
      "epoch": 1.3400558092338914,
      "grad_norm": 3.578125,
      "learning_rate": 2.692884835271151e-06,
      "loss": 1.06285973,
      "memory(GiB)": 112.26,
      "step": 52825,
      "train_speed(iter/s)": 1.130254
    },
    {
      "acc": 0.75084906,
      "epoch": 1.3401826484018264,
      "grad_norm": 4.59375,
      "learning_rate": 2.6919545678052296e-06,
      "loss": 1.05941219,
      "memory(GiB)": 112.26,
      "step": 52830,
      "train_speed(iter/s)": 1.13027
    },
    {
      "acc": 0.7560307,
      "epoch": 1.3403094875697614,
      "grad_norm": 4.4375,
      "learning_rate": 2.69102440185745e-06,
      "loss": 0.98134708,
      "memory(GiB)": 112.26,
      "step": 52835,
      "train_speed(iter/s)": 1.130284
    },
    {
      "acc": 0.72457533,
      "epoch": 1.3404363267376966,
      "grad_norm": 3.328125,
      "learning_rate": 2.690094337468726e-06,
      "loss": 1.16043453,
      "memory(GiB)": 112.26,
      "step": 52840,
      "train_speed(iter/s)": 1.130303
    },
    {
      "acc": 0.72866106,
      "epoch": 1.3405631659056316,
      "grad_norm": 4.5625,
      "learning_rate": 2.6891643746799643e-06,
      "loss": 1.07389164,
      "memory(GiB)": 112.26,
      "step": 52845,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.71348009,
      "epoch": 1.3406900050735668,
      "grad_norm": 3.34375,
      "learning_rate": 2.6882345135320753e-06,
      "loss": 1.1063343,
      "memory(GiB)": 112.26,
      "step": 52850,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.74828167,
      "epoch": 1.3408168442415018,
      "grad_norm": 3.34375,
      "learning_rate": 2.68730475406595e-06,
      "loss": 1.09515839,
      "memory(GiB)": 112.26,
      "step": 52855,
      "train_speed(iter/s)": 1.130337
    },
    {
      "acc": 0.72655325,
      "epoch": 1.3409436834094368,
      "grad_norm": 3.53125,
      "learning_rate": 2.6863750963224867e-06,
      "loss": 1.10812016,
      "memory(GiB)": 112.26,
      "step": 52860,
      "train_speed(iter/s)": 1.130355
    },
    {
      "acc": 0.73210783,
      "epoch": 1.3410705225773718,
      "grad_norm": 3.78125,
      "learning_rate": 2.685445540342577e-06,
      "loss": 1.09534416,
      "memory(GiB)": 112.26,
      "step": 52865,
      "train_speed(iter/s)": 1.130365
    },
    {
      "acc": 0.72305756,
      "epoch": 1.341197361745307,
      "grad_norm": 4.0625,
      "learning_rate": 2.6845160861671094e-06,
      "loss": 1.15476217,
      "memory(GiB)": 112.26,
      "step": 52870,
      "train_speed(iter/s)": 1.130375
    },
    {
      "acc": 0.74224191,
      "epoch": 1.341324200913242,
      "grad_norm": 3.9375,
      "learning_rate": 2.6835867338369593e-06,
      "loss": 1.00544453,
      "memory(GiB)": 112.26,
      "step": 52875,
      "train_speed(iter/s)": 1.130392
    },
    {
      "acc": 0.73996592,
      "epoch": 1.341451040081177,
      "grad_norm": 3.484375,
      "learning_rate": 2.6826574833930053e-06,
      "loss": 1.00442562,
      "memory(GiB)": 112.26,
      "step": 52880,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.73730035,
      "epoch": 1.3415778792491122,
      "grad_norm": 4.3125,
      "learning_rate": 2.681728334876123e-06,
      "loss": 1.06355076,
      "memory(GiB)": 112.26,
      "step": 52885,
      "train_speed(iter/s)": 1.130435
    },
    {
      "acc": 0.75480752,
      "epoch": 1.3417047184170472,
      "grad_norm": 4.03125,
      "learning_rate": 2.6807992883271806e-06,
      "loss": 0.97521362,
      "memory(GiB)": 112.26,
      "step": 52890,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.74756708,
      "epoch": 1.3418315575849822,
      "grad_norm": 3.90625,
      "learning_rate": 2.6798703437870364e-06,
      "loss": 1.00604811,
      "memory(GiB)": 112.26,
      "step": 52895,
      "train_speed(iter/s)": 1.130467
    },
    {
      "acc": 0.74740028,
      "epoch": 1.3419583967529172,
      "grad_norm": 3.84375,
      "learning_rate": 2.678941501296555e-06,
      "loss": 1.05545225,
      "memory(GiB)": 112.26,
      "step": 52900,
      "train_speed(iter/s)": 1.130492
    },
    {
      "acc": 0.75116711,
      "epoch": 1.3420852359208524,
      "grad_norm": 3.609375,
      "learning_rate": 2.6780127608965896e-06,
      "loss": 1.05323458,
      "memory(GiB)": 112.26,
      "step": 52905,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.74782143,
      "epoch": 1.3422120750887874,
      "grad_norm": 3.9375,
      "learning_rate": 2.677084122627991e-06,
      "loss": 1.05458279,
      "memory(GiB)": 112.26,
      "step": 52910,
      "train_speed(iter/s)": 1.130524
    },
    {
      "acc": 0.73316383,
      "epoch": 1.3423389142567226,
      "grad_norm": 2.828125,
      "learning_rate": 2.6761555865316003e-06,
      "loss": 1.10706654,
      "memory(GiB)": 112.26,
      "step": 52915,
      "train_speed(iter/s)": 1.130545
    },
    {
      "acc": 0.74811525,
      "epoch": 1.3424657534246576,
      "grad_norm": 4.28125,
      "learning_rate": 2.6752271526482644e-06,
      "loss": 1.06001205,
      "memory(GiB)": 112.26,
      "step": 52920,
      "train_speed(iter/s)": 1.130566
    },
    {
      "acc": 0.73430471,
      "epoch": 1.3425925925925926,
      "grad_norm": 3.734375,
      "learning_rate": 2.674298821018817e-06,
      "loss": 1.07396526,
      "memory(GiB)": 112.26,
      "step": 52925,
      "train_speed(iter/s)": 1.130586
    },
    {
      "acc": 0.73420815,
      "epoch": 1.3427194317605275,
      "grad_norm": 4.75,
      "learning_rate": 2.673370591684091e-06,
      "loss": 1.12022562,
      "memory(GiB)": 112.26,
      "step": 52930,
      "train_speed(iter/s)": 1.130599
    },
    {
      "acc": 0.72940683,
      "epoch": 1.3428462709284628,
      "grad_norm": 3.6875,
      "learning_rate": 2.672442464684915e-06,
      "loss": 1.11227951,
      "memory(GiB)": 112.26,
      "step": 52935,
      "train_speed(iter/s)": 1.130615
    },
    {
      "acc": 0.74541054,
      "epoch": 1.3429731100963977,
      "grad_norm": 3.140625,
      "learning_rate": 2.671514440062111e-06,
      "loss": 1.02970572,
      "memory(GiB)": 112.26,
      "step": 52940,
      "train_speed(iter/s)": 1.130635
    },
    {
      "acc": 0.74355664,
      "epoch": 1.343099949264333,
      "grad_norm": 3.671875,
      "learning_rate": 2.6705865178564973e-06,
      "loss": 1.06958408,
      "memory(GiB)": 112.26,
      "step": 52945,
      "train_speed(iter/s)": 1.13065
    },
    {
      "acc": 0.74116297,
      "epoch": 1.343226788432268,
      "grad_norm": 3.65625,
      "learning_rate": 2.6696586981088886e-06,
      "loss": 1.09071064,
      "memory(GiB)": 112.26,
      "step": 52950,
      "train_speed(iter/s)": 1.130654
    },
    {
      "acc": 0.72867393,
      "epoch": 1.343353627600203,
      "grad_norm": 4.5,
      "learning_rate": 2.6687309808600947e-06,
      "loss": 1.09745197,
      "memory(GiB)": 112.26,
      "step": 52955,
      "train_speed(iter/s)": 1.130667
    },
    {
      "acc": 0.73184161,
      "epoch": 1.343480466768138,
      "grad_norm": 4.15625,
      "learning_rate": 2.6678033661509208e-06,
      "loss": 1.08672867,
      "memory(GiB)": 112.26,
      "step": 52960,
      "train_speed(iter/s)": 1.130688
    },
    {
      "acc": 0.73279009,
      "epoch": 1.3436073059360731,
      "grad_norm": 3.65625,
      "learning_rate": 2.6668758540221665e-06,
      "loss": 1.11785851,
      "memory(GiB)": 112.26,
      "step": 52965,
      "train_speed(iter/s)": 1.130705
    },
    {
      "acc": 0.73923788,
      "epoch": 1.3437341451040081,
      "grad_norm": 4.125,
      "learning_rate": 2.66594844451463e-06,
      "loss": 1.00591927,
      "memory(GiB)": 112.26,
      "step": 52970,
      "train_speed(iter/s)": 1.130712
    },
    {
      "acc": 0.7314321,
      "epoch": 1.3438609842719431,
      "grad_norm": 4.8125,
      "learning_rate": 2.6650211376691008e-06,
      "loss": 1.1597744,
      "memory(GiB)": 112.26,
      "step": 52975,
      "train_speed(iter/s)": 1.130727
    },
    {
      "acc": 0.74197559,
      "epoch": 1.3439878234398783,
      "grad_norm": 3.21875,
      "learning_rate": 2.664093933526368e-06,
      "loss": 1.06075764,
      "memory(GiB)": 112.26,
      "step": 52980,
      "train_speed(iter/s)": 1.130737
    },
    {
      "acc": 0.7301743,
      "epoch": 1.3441146626078133,
      "grad_norm": 3.78125,
      "learning_rate": 2.6631668321272097e-06,
      "loss": 1.09128761,
      "memory(GiB)": 112.26,
      "step": 52985,
      "train_speed(iter/s)": 1.130755
    },
    {
      "acc": 0.7297317,
      "epoch": 1.3442415017757483,
      "grad_norm": 4.4375,
      "learning_rate": 2.6622398335124122e-06,
      "loss": 1.0615325,
      "memory(GiB)": 112.26,
      "step": 52990,
      "train_speed(iter/s)": 1.130772
    },
    {
      "acc": 0.7355607,
      "epoch": 1.3443683409436833,
      "grad_norm": 3.453125,
      "learning_rate": 2.661312937722742e-06,
      "loss": 1.09013233,
      "memory(GiB)": 112.26,
      "step": 52995,
      "train_speed(iter/s)": 1.130785
    },
    {
      "acc": 0.74398699,
      "epoch": 1.3444951801116185,
      "grad_norm": 3.328125,
      "learning_rate": 2.6603861447989703e-06,
      "loss": 1.0345932,
      "memory(GiB)": 112.26,
      "step": 53000,
      "train_speed(iter/s)": 1.130797
    },
    {
      "epoch": 1.3444951801116185,
      "eval_acc": 0.7257640589988242,
      "eval_loss": 1.044353723526001,
      "eval_runtime": 70.7633,
      "eval_samples_per_second": 90.018,
      "eval_steps_per_second": 22.512,
      "step": 53000
    },
    {
      "acc": 0.74670362,
      "epoch": 1.3446220192795535,
      "grad_norm": 3.640625,
      "learning_rate": 2.65945945478186e-06,
      "loss": 1.00860634,
      "memory(GiB)": 112.26,
      "step": 53005,
      "train_speed(iter/s)": 1.128034
    },
    {
      "acc": 0.75241246,
      "epoch": 1.3447488584474887,
      "grad_norm": 3.40625,
      "learning_rate": 2.658532867712176e-06,
      "loss": 1.01568928,
      "memory(GiB)": 112.26,
      "step": 53010,
      "train_speed(iter/s)": 1.128054
    },
    {
      "acc": 0.74007959,
      "epoch": 1.3448756976154237,
      "grad_norm": 3.734375,
      "learning_rate": 2.6576063836306687e-06,
      "loss": 0.99306459,
      "memory(GiB)": 112.26,
      "step": 53015,
      "train_speed(iter/s)": 1.128067
    },
    {
      "acc": 0.74216824,
      "epoch": 1.3450025367833587,
      "grad_norm": 4.40625,
      "learning_rate": 2.656680002578088e-06,
      "loss": 1.02937393,
      "memory(GiB)": 112.26,
      "step": 53020,
      "train_speed(iter/s)": 1.128089
    },
    {
      "acc": 0.74463224,
      "epoch": 1.3451293759512937,
      "grad_norm": 3.4375,
      "learning_rate": 2.655753724595186e-06,
      "loss": 1.04465714,
      "memory(GiB)": 112.26,
      "step": 53025,
      "train_speed(iter/s)": 1.12811
    },
    {
      "acc": 0.736551,
      "epoch": 1.3452562151192289,
      "grad_norm": 3.796875,
      "learning_rate": 2.6548275497227028e-06,
      "loss": 1.0424058,
      "memory(GiB)": 112.26,
      "step": 53030,
      "train_speed(iter/s)": 1.128118
    },
    {
      "acc": 0.74883556,
      "epoch": 1.3453830542871639,
      "grad_norm": 3.25,
      "learning_rate": 2.6539014780013707e-06,
      "loss": 1.04768448,
      "memory(GiB)": 112.26,
      "step": 53035,
      "train_speed(iter/s)": 1.128128
    },
    {
      "acc": 0.73782272,
      "epoch": 1.3455098934550989,
      "grad_norm": 3.96875,
      "learning_rate": 2.6529755094719276e-06,
      "loss": 1.10414677,
      "memory(GiB)": 112.26,
      "step": 53040,
      "train_speed(iter/s)": 1.128138
    },
    {
      "acc": 0.72918787,
      "epoch": 1.345636732623034,
      "grad_norm": 4.1875,
      "learning_rate": 2.652049644175101e-06,
      "loss": 1.08871012,
      "memory(GiB)": 112.26,
      "step": 53045,
      "train_speed(iter/s)": 1.12815
    },
    {
      "acc": 0.74217601,
      "epoch": 1.345763571790969,
      "grad_norm": 3.171875,
      "learning_rate": 2.6511238821516154e-06,
      "loss": 1.04760618,
      "memory(GiB)": 112.26,
      "step": 53050,
      "train_speed(iter/s)": 1.128161
    },
    {
      "acc": 0.73985701,
      "epoch": 1.345890410958904,
      "grad_norm": 3.59375,
      "learning_rate": 2.650198223442185e-06,
      "loss": 1.03501177,
      "memory(GiB)": 112.26,
      "step": 53055,
      "train_speed(iter/s)": 1.128173
    },
    {
      "acc": 0.73779531,
      "epoch": 1.346017250126839,
      "grad_norm": 3.515625,
      "learning_rate": 2.6492726680875296e-06,
      "loss": 1.0623455,
      "memory(GiB)": 112.26,
      "step": 53060,
      "train_speed(iter/s)": 1.128186
    },
    {
      "acc": 0.75300584,
      "epoch": 1.3461440892947742,
      "grad_norm": 4.125,
      "learning_rate": 2.6483472161283576e-06,
      "loss": 1.04806461,
      "memory(GiB)": 112.26,
      "step": 53065,
      "train_speed(iter/s)": 1.128199
    },
    {
      "acc": 0.73313332,
      "epoch": 1.3462709284627092,
      "grad_norm": 4.03125,
      "learning_rate": 2.647421867605374e-06,
      "loss": 1.04688187,
      "memory(GiB)": 112.26,
      "step": 53070,
      "train_speed(iter/s)": 1.128218
    },
    {
      "acc": 0.74424276,
      "epoch": 1.3463977676306444,
      "grad_norm": 3.96875,
      "learning_rate": 2.6464966225592804e-06,
      "loss": 1.06077337,
      "memory(GiB)": 112.26,
      "step": 53075,
      "train_speed(iter/s)": 1.128229
    },
    {
      "acc": 0.73985415,
      "epoch": 1.3465246067985794,
      "grad_norm": 4.125,
      "learning_rate": 2.645571481030773e-06,
      "loss": 1.08351669,
      "memory(GiB)": 112.26,
      "step": 53080,
      "train_speed(iter/s)": 1.128245
    },
    {
      "acc": 0.7450489,
      "epoch": 1.3466514459665144,
      "grad_norm": 4.6875,
      "learning_rate": 2.6446464430605434e-06,
      "loss": 1.05407009,
      "memory(GiB)": 112.26,
      "step": 53085,
      "train_speed(iter/s)": 1.128259
    },
    {
      "acc": 0.74177761,
      "epoch": 1.3467782851344494,
      "grad_norm": 3.4375,
      "learning_rate": 2.6437215086892797e-06,
      "loss": 1.0444993,
      "memory(GiB)": 112.26,
      "step": 53090,
      "train_speed(iter/s)": 1.128275
    },
    {
      "acc": 0.75322623,
      "epoch": 1.3469051243023846,
      "grad_norm": 4.03125,
      "learning_rate": 2.642796677957664e-06,
      "loss": 1.01338243,
      "memory(GiB)": 112.26,
      "step": 53095,
      "train_speed(iter/s)": 1.128279
    },
    {
      "acc": 0.73080864,
      "epoch": 1.3470319634703196,
      "grad_norm": 3.359375,
      "learning_rate": 2.641871950906374e-06,
      "loss": 1.0992466,
      "memory(GiB)": 112.26,
      "step": 53100,
      "train_speed(iter/s)": 1.1283
    },
    {
      "acc": 0.73945684,
      "epoch": 1.3471588026382548,
      "grad_norm": 3.453125,
      "learning_rate": 2.6409473275760843e-06,
      "loss": 1.05767536,
      "memory(GiB)": 112.26,
      "step": 53105,
      "train_speed(iter/s)": 1.128312
    },
    {
      "acc": 0.73966417,
      "epoch": 1.3472856418061898,
      "grad_norm": 3.90625,
      "learning_rate": 2.640022808007463e-06,
      "loss": 1.1145195,
      "memory(GiB)": 112.26,
      "step": 53110,
      "train_speed(iter/s)": 1.128331
    },
    {
      "acc": 0.73315201,
      "epoch": 1.3474124809741248,
      "grad_norm": 3.859375,
      "learning_rate": 2.639098392241176e-06,
      "loss": 1.09502106,
      "memory(GiB)": 112.26,
      "step": 53115,
      "train_speed(iter/s)": 1.128348
    },
    {
      "acc": 0.72492266,
      "epoch": 1.3475393201420598,
      "grad_norm": 3.734375,
      "learning_rate": 2.6381740803178826e-06,
      "loss": 1.05863132,
      "memory(GiB)": 112.26,
      "step": 53120,
      "train_speed(iter/s)": 1.128359
    },
    {
      "acc": 0.73601213,
      "epoch": 1.347666159309995,
      "grad_norm": 3.578125,
      "learning_rate": 2.6372498722782346e-06,
      "loss": 1.03779297,
      "memory(GiB)": 112.26,
      "step": 53125,
      "train_speed(iter/s)": 1.128378
    },
    {
      "acc": 0.72964306,
      "epoch": 1.34779299847793,
      "grad_norm": 3.421875,
      "learning_rate": 2.6363257681628907e-06,
      "loss": 1.09725037,
      "memory(GiB)": 112.26,
      "step": 53130,
      "train_speed(iter/s)": 1.12839
    },
    {
      "acc": 0.75223722,
      "epoch": 1.347919837645865,
      "grad_norm": 5.0625,
      "learning_rate": 2.635401768012491e-06,
      "loss": 0.99876652,
      "memory(GiB)": 112.26,
      "step": 53135,
      "train_speed(iter/s)": 1.128409
    },
    {
      "acc": 0.74366159,
      "epoch": 1.3480466768138002,
      "grad_norm": 4.21875,
      "learning_rate": 2.6344778718676783e-06,
      "loss": 1.0445962,
      "memory(GiB)": 112.26,
      "step": 53140,
      "train_speed(iter/s)": 1.128408
    },
    {
      "acc": 0.728825,
      "epoch": 1.3481735159817352,
      "grad_norm": 4.28125,
      "learning_rate": 2.6335540797690886e-06,
      "loss": 1.07751398,
      "memory(GiB)": 112.26,
      "step": 53145,
      "train_speed(iter/s)": 1.128431
    },
    {
      "acc": 0.75410357,
      "epoch": 1.3483003551496702,
      "grad_norm": 3.21875,
      "learning_rate": 2.632630391757359e-06,
      "loss": 1.00587425,
      "memory(GiB)": 112.26,
      "step": 53150,
      "train_speed(iter/s)": 1.128445
    },
    {
      "acc": 0.73032379,
      "epoch": 1.3484271943176052,
      "grad_norm": 3.890625,
      "learning_rate": 2.6317068078731126e-06,
      "loss": 1.01036739,
      "memory(GiB)": 112.26,
      "step": 53155,
      "train_speed(iter/s)": 1.128455
    },
    {
      "acc": 0.75274496,
      "epoch": 1.3485540334855404,
      "grad_norm": 3.609375,
      "learning_rate": 2.630783328156973e-06,
      "loss": 0.97199411,
      "memory(GiB)": 112.26,
      "step": 53160,
      "train_speed(iter/s)": 1.128477
    },
    {
      "acc": 0.7334465,
      "epoch": 1.3486808726534754,
      "grad_norm": 3.90625,
      "learning_rate": 2.629859952649562e-06,
      "loss": 1.03475008,
      "memory(GiB)": 112.26,
      "step": 53165,
      "train_speed(iter/s)": 1.128499
    },
    {
      "acc": 0.75619926,
      "epoch": 1.3488077118214106,
      "grad_norm": 3.828125,
      "learning_rate": 2.628936681391494e-06,
      "loss": 0.99510422,
      "memory(GiB)": 112.26,
      "step": 53170,
      "train_speed(iter/s)": 1.128511
    },
    {
      "acc": 0.73757129,
      "epoch": 1.3489345509893456,
      "grad_norm": 3.96875,
      "learning_rate": 2.628013514423375e-06,
      "loss": 1.13069086,
      "memory(GiB)": 112.26,
      "step": 53175,
      "train_speed(iter/s)": 1.128523
    },
    {
      "acc": 0.73311639,
      "epoch": 1.3490613901572805,
      "grad_norm": 3.765625,
      "learning_rate": 2.6270904517858102e-06,
      "loss": 1.08856831,
      "memory(GiB)": 112.26,
      "step": 53180,
      "train_speed(iter/s)": 1.128524
    },
    {
      "acc": 0.74376574,
      "epoch": 1.3491882293252155,
      "grad_norm": 4.125,
      "learning_rate": 2.6261674935194036e-06,
      "loss": 1.08288212,
      "memory(GiB)": 112.26,
      "step": 53185,
      "train_speed(iter/s)": 1.128536
    },
    {
      "acc": 0.75179901,
      "epoch": 1.3493150684931507,
      "grad_norm": 3.96875,
      "learning_rate": 2.6252446396647503e-06,
      "loss": 1.00312977,
      "memory(GiB)": 112.26,
      "step": 53190,
      "train_speed(iter/s)": 1.128552
    },
    {
      "acc": 0.7307559,
      "epoch": 1.3494419076610857,
      "grad_norm": 3.609375,
      "learning_rate": 2.6243218902624367e-06,
      "loss": 1.10126476,
      "memory(GiB)": 112.26,
      "step": 53195,
      "train_speed(iter/s)": 1.128559
    },
    {
      "acc": 0.74158463,
      "epoch": 1.3495687468290207,
      "grad_norm": 3.625,
      "learning_rate": 2.6233992453530555e-06,
      "loss": 1.01988993,
      "memory(GiB)": 112.26,
      "step": 53200,
      "train_speed(iter/s)": 1.128574
    },
    {
      "acc": 0.74839201,
      "epoch": 1.349695585996956,
      "grad_norm": 3.25,
      "learning_rate": 2.6224767049771856e-06,
      "loss": 1.0092392,
      "memory(GiB)": 112.26,
      "step": 53205,
      "train_speed(iter/s)": 1.128588
    },
    {
      "acc": 0.7217804,
      "epoch": 1.349822425164891,
      "grad_norm": 4.53125,
      "learning_rate": 2.621554269175405e-06,
      "loss": 1.1155056,
      "memory(GiB)": 112.26,
      "step": 53210,
      "train_speed(iter/s)": 1.128602
    },
    {
      "acc": 0.72486544,
      "epoch": 1.349949264332826,
      "grad_norm": 3.78125,
      "learning_rate": 2.620631937988287e-06,
      "loss": 1.11371326,
      "memory(GiB)": 112.26,
      "step": 53215,
      "train_speed(iter/s)": 1.128607
    },
    {
      "acc": 0.73039584,
      "epoch": 1.350076103500761,
      "grad_norm": 3.9375,
      "learning_rate": 2.6197097114564e-06,
      "loss": 1.07547913,
      "memory(GiB)": 112.26,
      "step": 53220,
      "train_speed(iter/s)": 1.128622
    },
    {
      "acc": 0.73026676,
      "epoch": 1.3502029426686961,
      "grad_norm": 3.65625,
      "learning_rate": 2.618787589620306e-06,
      "loss": 1.11545467,
      "memory(GiB)": 112.26,
      "step": 53225,
      "train_speed(iter/s)": 1.128637
    },
    {
      "acc": 0.75410209,
      "epoch": 1.350329781836631,
      "grad_norm": 4.125,
      "learning_rate": 2.6178655725205653e-06,
      "loss": 1.02590103,
      "memory(GiB)": 112.26,
      "step": 53230,
      "train_speed(iter/s)": 1.128653
    },
    {
      "acc": 0.75216384,
      "epoch": 1.3504566210045663,
      "grad_norm": 4.1875,
      "learning_rate": 2.6169436601977325e-06,
      "loss": 1.0325017,
      "memory(GiB)": 112.26,
      "step": 53235,
      "train_speed(iter/s)": 1.128664
    },
    {
      "acc": 0.73803716,
      "epoch": 1.3505834601725013,
      "grad_norm": 3.21875,
      "learning_rate": 2.6160218526923576e-06,
      "loss": 1.08547888,
      "memory(GiB)": 112.26,
      "step": 53240,
      "train_speed(iter/s)": 1.128685
    },
    {
      "acc": 0.72670665,
      "epoch": 1.3507102993404363,
      "grad_norm": 4.4375,
      "learning_rate": 2.6151001500449847e-06,
      "loss": 1.13506479,
      "memory(GiB)": 112.26,
      "step": 53245,
      "train_speed(iter/s)": 1.1287
    },
    {
      "acc": 0.74323621,
      "epoch": 1.3508371385083713,
      "grad_norm": 3.21875,
      "learning_rate": 2.614178552296155e-06,
      "loss": 1.09789896,
      "memory(GiB)": 112.26,
      "step": 53250,
      "train_speed(iter/s)": 1.128713
    },
    {
      "acc": 0.7413929,
      "epoch": 1.3509639776763065,
      "grad_norm": 3.78125,
      "learning_rate": 2.6132570594864047e-06,
      "loss": 1.06628284,
      "memory(GiB)": 112.26,
      "step": 53255,
      "train_speed(iter/s)": 1.128728
    },
    {
      "acc": 0.7524807,
      "epoch": 1.3510908168442415,
      "grad_norm": 3.3125,
      "learning_rate": 2.612335671656265e-06,
      "loss": 1.07724991,
      "memory(GiB)": 112.26,
      "step": 53260,
      "train_speed(iter/s)": 1.128745
    },
    {
      "acc": 0.76108675,
      "epoch": 1.3512176560121767,
      "grad_norm": 3.640625,
      "learning_rate": 2.6114143888462607e-06,
      "loss": 1.00584755,
      "memory(GiB)": 112.26,
      "step": 53265,
      "train_speed(iter/s)": 1.128763
    },
    {
      "acc": 0.74351292,
      "epoch": 1.3513444951801117,
      "grad_norm": 4.15625,
      "learning_rate": 2.6104932110969195e-06,
      "loss": 1.0706357,
      "memory(GiB)": 112.26,
      "step": 53270,
      "train_speed(iter/s)": 1.128775
    },
    {
      "acc": 0.74547281,
      "epoch": 1.3514713343480467,
      "grad_norm": 3.390625,
      "learning_rate": 2.609572138448753e-06,
      "loss": 1.03214474,
      "memory(GiB)": 112.26,
      "step": 53275,
      "train_speed(iter/s)": 1.128789
    },
    {
      "acc": 0.73870707,
      "epoch": 1.3515981735159817,
      "grad_norm": 3.546875,
      "learning_rate": 2.608651170942277e-06,
      "loss": 1.08811741,
      "memory(GiB)": 112.26,
      "step": 53280,
      "train_speed(iter/s)": 1.128807
    },
    {
      "acc": 0.74592056,
      "epoch": 1.3517250126839169,
      "grad_norm": 3.359375,
      "learning_rate": 2.607730308617997e-06,
      "loss": 1.04102726,
      "memory(GiB)": 112.26,
      "step": 53285,
      "train_speed(iter/s)": 1.128823
    },
    {
      "acc": 0.75342493,
      "epoch": 1.3518518518518519,
      "grad_norm": 4.15625,
      "learning_rate": 2.6068095515164226e-06,
      "loss": 1.0044446,
      "memory(GiB)": 112.26,
      "step": 53290,
      "train_speed(iter/s)": 1.12883
    },
    {
      "acc": 0.7284111,
      "epoch": 1.3519786910197868,
      "grad_norm": 3.703125,
      "learning_rate": 2.605888899678047e-06,
      "loss": 1.08376942,
      "memory(GiB)": 112.26,
      "step": 53295,
      "train_speed(iter/s)": 1.128844
    },
    {
      "acc": 0.74672556,
      "epoch": 1.352105530187722,
      "grad_norm": 4.59375,
      "learning_rate": 2.6049683531433645e-06,
      "loss": 1.04890471,
      "memory(GiB)": 112.26,
      "step": 53300,
      "train_speed(iter/s)": 1.128863
    },
    {
      "acc": 0.74456129,
      "epoch": 1.352232369355657,
      "grad_norm": 4.78125,
      "learning_rate": 2.6040479119528683e-06,
      "loss": 1.0823719,
      "memory(GiB)": 112.26,
      "step": 53305,
      "train_speed(iter/s)": 1.128876
    },
    {
      "acc": 0.74508204,
      "epoch": 1.352359208523592,
      "grad_norm": 3.671875,
      "learning_rate": 2.6031275761470447e-06,
      "loss": 1.08831005,
      "memory(GiB)": 112.26,
      "step": 53310,
      "train_speed(iter/s)": 1.128889
    },
    {
      "acc": 0.72432661,
      "epoch": 1.352486047691527,
      "grad_norm": 3.8125,
      "learning_rate": 2.60220734576637e-06,
      "loss": 1.09072313,
      "memory(GiB)": 112.26,
      "step": 53315,
      "train_speed(iter/s)": 1.128912
    },
    {
      "acc": 0.71874447,
      "epoch": 1.3526128868594622,
      "grad_norm": 3.796875,
      "learning_rate": 2.601287220851319e-06,
      "loss": 1.17928753,
      "memory(GiB)": 112.26,
      "step": 53320,
      "train_speed(iter/s)": 1.128911
    },
    {
      "acc": 0.75519876,
      "epoch": 1.3527397260273972,
      "grad_norm": 5.6875,
      "learning_rate": 2.6003672014423677e-06,
      "loss": 1.06227484,
      "memory(GiB)": 112.26,
      "step": 53325,
      "train_speed(iter/s)": 1.128929
    },
    {
      "acc": 0.74049401,
      "epoch": 1.3528665651953324,
      "grad_norm": 3.390625,
      "learning_rate": 2.5994472875799827e-06,
      "loss": 1.03655357,
      "memory(GiB)": 112.26,
      "step": 53330,
      "train_speed(iter/s)": 1.128949
    },
    {
      "acc": 0.73991661,
      "epoch": 1.3529934043632674,
      "grad_norm": 3.015625,
      "learning_rate": 2.598527479304619e-06,
      "loss": 1.05491362,
      "memory(GiB)": 112.26,
      "step": 53335,
      "train_speed(iter/s)": 1.128961
    },
    {
      "acc": 0.7544795,
      "epoch": 1.3531202435312024,
      "grad_norm": 3.421875,
      "learning_rate": 2.597607776656741e-06,
      "loss": 1.03051815,
      "memory(GiB)": 112.26,
      "step": 53340,
      "train_speed(iter/s)": 1.12898
    },
    {
      "acc": 0.74645405,
      "epoch": 1.3532470826991374,
      "grad_norm": 3.9375,
      "learning_rate": 2.5966881796767984e-06,
      "loss": 1.05365257,
      "memory(GiB)": 112.26,
      "step": 53345,
      "train_speed(iter/s)": 1.128991
    },
    {
      "acc": 0.73393154,
      "epoch": 1.3533739218670726,
      "grad_norm": 5.71875,
      "learning_rate": 2.5957686884052423e-06,
      "loss": 1.09140997,
      "memory(GiB)": 112.26,
      "step": 53350,
      "train_speed(iter/s)": 1.129001
    },
    {
      "acc": 0.73341436,
      "epoch": 1.3535007610350076,
      "grad_norm": 5.125,
      "learning_rate": 2.5948493028825093e-06,
      "loss": 1.09484358,
      "memory(GiB)": 112.26,
      "step": 53355,
      "train_speed(iter/s)": 1.129025
    },
    {
      "acc": 0.73935566,
      "epoch": 1.3536276002029426,
      "grad_norm": 3.890625,
      "learning_rate": 2.593930023149044e-06,
      "loss": 1.05824471,
      "memory(GiB)": 112.26,
      "step": 53360,
      "train_speed(iter/s)": 1.129018
    },
    {
      "acc": 0.74042015,
      "epoch": 1.3537544393708778,
      "grad_norm": 3.625,
      "learning_rate": 2.593010849245279e-06,
      "loss": 1.0215661,
      "memory(GiB)": 112.26,
      "step": 53365,
      "train_speed(iter/s)": 1.129033
    },
    {
      "acc": 0.73965006,
      "epoch": 1.3538812785388128,
      "grad_norm": 3.703125,
      "learning_rate": 2.592091781211643e-06,
      "loss": 1.05238895,
      "memory(GiB)": 112.26,
      "step": 53370,
      "train_speed(iter/s)": 1.129038
    },
    {
      "acc": 0.76058354,
      "epoch": 1.3540081177067478,
      "grad_norm": 4.0,
      "learning_rate": 2.591172819088561e-06,
      "loss": 0.96191072,
      "memory(GiB)": 112.26,
      "step": 53375,
      "train_speed(iter/s)": 1.129051
    },
    {
      "acc": 0.73055673,
      "epoch": 1.3541349568746828,
      "grad_norm": 2.9375,
      "learning_rate": 2.590253962916453e-06,
      "loss": 1.08203936,
      "memory(GiB)": 112.26,
      "step": 53380,
      "train_speed(iter/s)": 1.129061
    },
    {
      "acc": 0.7416882,
      "epoch": 1.354261796042618,
      "grad_norm": 3.390625,
      "learning_rate": 2.5893352127357347e-06,
      "loss": 1.03055716,
      "memory(GiB)": 112.26,
      "step": 53385,
      "train_speed(iter/s)": 1.129078
    },
    {
      "acc": 0.74619489,
      "epoch": 1.354388635210553,
      "grad_norm": 3.4375,
      "learning_rate": 2.5884165685868164e-06,
      "loss": 1.01832905,
      "memory(GiB)": 112.26,
      "step": 53390,
      "train_speed(iter/s)": 1.129094
    },
    {
      "acc": 0.73014383,
      "epoch": 1.3545154743784882,
      "grad_norm": 3.78125,
      "learning_rate": 2.5874980305101045e-06,
      "loss": 1.10301647,
      "memory(GiB)": 112.26,
      "step": 53395,
      "train_speed(iter/s)": 1.129114
    },
    {
      "acc": 0.73614407,
      "epoch": 1.3546423135464232,
      "grad_norm": 3.90625,
      "learning_rate": 2.586579598546e-06,
      "loss": 1.08472805,
      "memory(GiB)": 112.26,
      "step": 53400,
      "train_speed(iter/s)": 1.129129
    },
    {
      "acc": 0.75562081,
      "epoch": 1.3547691527143582,
      "grad_norm": 4.25,
      "learning_rate": 2.5856612727348995e-06,
      "loss": 0.9938055,
      "memory(GiB)": 112.26,
      "step": 53405,
      "train_speed(iter/s)": 1.129141
    },
    {
      "acc": 0.74769192,
      "epoch": 1.3548959918822931,
      "grad_norm": 3.828125,
      "learning_rate": 2.584743053117196e-06,
      "loss": 1.02687721,
      "memory(GiB)": 112.26,
      "step": 53410,
      "train_speed(iter/s)": 1.129154
    },
    {
      "acc": 0.7461678,
      "epoch": 1.3550228310502284,
      "grad_norm": 3.265625,
      "learning_rate": 2.583824939733277e-06,
      "loss": 0.98654823,
      "memory(GiB)": 112.26,
      "step": 53415,
      "train_speed(iter/s)": 1.129168
    },
    {
      "acc": 0.72673473,
      "epoch": 1.3551496702181633,
      "grad_norm": 3.671875,
      "learning_rate": 2.5829069326235234e-06,
      "loss": 1.11135445,
      "memory(GiB)": 112.26,
      "step": 53420,
      "train_speed(iter/s)": 1.129185
    },
    {
      "acc": 0.7321867,
      "epoch": 1.3552765093860986,
      "grad_norm": 3.765625,
      "learning_rate": 2.5819890318283137e-06,
      "loss": 1.03829803,
      "memory(GiB)": 112.26,
      "step": 53425,
      "train_speed(iter/s)": 1.129205
    },
    {
      "acc": 0.74305358,
      "epoch": 1.3554033485540335,
      "grad_norm": 3.828125,
      "learning_rate": 2.5810712373880253e-06,
      "loss": 1.08819561,
      "memory(GiB)": 112.26,
      "step": 53430,
      "train_speed(iter/s)": 1.129231
    },
    {
      "acc": 0.74983754,
      "epoch": 1.3555301877219685,
      "grad_norm": 3.125,
      "learning_rate": 2.5801535493430215e-06,
      "loss": 1.02453127,
      "memory(GiB)": 112.26,
      "step": 53435,
      "train_speed(iter/s)": 1.129239
    },
    {
      "acc": 0.75917535,
      "epoch": 1.3556570268899035,
      "grad_norm": 3.578125,
      "learning_rate": 2.5792359677336685e-06,
      "loss": 1.00057287,
      "memory(GiB)": 112.26,
      "step": 53440,
      "train_speed(iter/s)": 1.129247
    },
    {
      "acc": 0.74494863,
      "epoch": 1.3557838660578387,
      "grad_norm": 3.78125,
      "learning_rate": 2.5783184926003237e-06,
      "loss": 1.02762661,
      "memory(GiB)": 112.26,
      "step": 53445,
      "train_speed(iter/s)": 1.129265
    },
    {
      "acc": 0.72808733,
      "epoch": 1.3559107052257737,
      "grad_norm": 4.25,
      "learning_rate": 2.5774011239833473e-06,
      "loss": 1.09424562,
      "memory(GiB)": 112.26,
      "step": 53450,
      "train_speed(iter/s)": 1.129278
    },
    {
      "acc": 0.74307404,
      "epoch": 1.3560375443937087,
      "grad_norm": 4.15625,
      "learning_rate": 2.5764838619230843e-06,
      "loss": 1.0623024,
      "memory(GiB)": 112.26,
      "step": 53455,
      "train_speed(iter/s)": 1.129297
    },
    {
      "acc": 0.75293331,
      "epoch": 1.356164383561644,
      "grad_norm": 4.65625,
      "learning_rate": 2.575566706459879e-06,
      "loss": 1.00784798,
      "memory(GiB)": 112.26,
      "step": 53460,
      "train_speed(iter/s)": 1.12931
    },
    {
      "acc": 0.73669562,
      "epoch": 1.356291222729579,
      "grad_norm": 3.90625,
      "learning_rate": 2.574649657634076e-06,
      "loss": 1.08488293,
      "memory(GiB)": 112.26,
      "step": 53465,
      "train_speed(iter/s)": 1.129322
    },
    {
      "acc": 0.74737887,
      "epoch": 1.356418061897514,
      "grad_norm": 4.1875,
      "learning_rate": 2.5737327154860116e-06,
      "loss": 1.06661053,
      "memory(GiB)": 112.26,
      "step": 53470,
      "train_speed(iter/s)": 1.129339
    },
    {
      "acc": 0.72956872,
      "epoch": 1.356544901065449,
      "grad_norm": 3.9375,
      "learning_rate": 2.572815880056011e-06,
      "loss": 1.14544039,
      "memory(GiB)": 112.26,
      "step": 53475,
      "train_speed(iter/s)": 1.129356
    },
    {
      "acc": 0.74621849,
      "epoch": 1.356671740233384,
      "grad_norm": 3.859375,
      "learning_rate": 2.571899151384406e-06,
      "loss": 1.01795139,
      "memory(GiB)": 112.26,
      "step": 53480,
      "train_speed(iter/s)": 1.129364
    },
    {
      "acc": 0.74039745,
      "epoch": 1.356798579401319,
      "grad_norm": 3.46875,
      "learning_rate": 2.5709825295115178e-06,
      "loss": 1.07273045,
      "memory(GiB)": 112.26,
      "step": 53485,
      "train_speed(iter/s)": 1.129377
    },
    {
      "acc": 0.7358696,
      "epoch": 1.3569254185692543,
      "grad_norm": 3.6875,
      "learning_rate": 2.5700660144776647e-06,
      "loss": 1.121385,
      "memory(GiB)": 112.26,
      "step": 53490,
      "train_speed(iter/s)": 1.129398
    },
    {
      "acc": 0.73326941,
      "epoch": 1.3570522577371893,
      "grad_norm": 4.1875,
      "learning_rate": 2.5691496063231527e-06,
      "loss": 1.09025106,
      "memory(GiB)": 112.26,
      "step": 53495,
      "train_speed(iter/s)": 1.129418
    },
    {
      "acc": 0.7442956,
      "epoch": 1.3571790969051243,
      "grad_norm": 4.8125,
      "learning_rate": 2.568233305088296e-06,
      "loss": 0.99552498,
      "memory(GiB)": 112.26,
      "step": 53500,
      "train_speed(iter/s)": 1.129425
    },
    {
      "acc": 0.7445169,
      "epoch": 1.3573059360730593,
      "grad_norm": 3.484375,
      "learning_rate": 2.5673171108133956e-06,
      "loss": 1.06741114,
      "memory(GiB)": 112.26,
      "step": 53505,
      "train_speed(iter/s)": 1.129434
    },
    {
      "acc": 0.73096309,
      "epoch": 1.3574327752409945,
      "grad_norm": 3.265625,
      "learning_rate": 2.5664010235387503e-06,
      "loss": 1.0622261,
      "memory(GiB)": 112.26,
      "step": 53510,
      "train_speed(iter/s)": 1.129449
    },
    {
      "acc": 0.74814196,
      "epoch": 1.3575596144089295,
      "grad_norm": 4.65625,
      "learning_rate": 2.565485043304653e-06,
      "loss": 1.03623486,
      "memory(GiB)": 112.26,
      "step": 53515,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.73166595,
      "epoch": 1.3576864535768645,
      "grad_norm": 3.875,
      "learning_rate": 2.564569170151392e-06,
      "loss": 1.05103579,
      "memory(GiB)": 112.26,
      "step": 53520,
      "train_speed(iter/s)": 1.129485
    },
    {
      "acc": 0.74350839,
      "epoch": 1.3578132927447997,
      "grad_norm": 3.390625,
      "learning_rate": 2.5636534041192534e-06,
      "loss": 0.9835186,
      "memory(GiB)": 112.26,
      "step": 53525,
      "train_speed(iter/s)": 1.129498
    },
    {
      "acc": 0.73769393,
      "epoch": 1.3579401319127347,
      "grad_norm": 3.40625,
      "learning_rate": 2.5627377452485153e-06,
      "loss": 1.06841631,
      "memory(GiB)": 112.26,
      "step": 53530,
      "train_speed(iter/s)": 1.129516
    },
    {
      "acc": 0.74802494,
      "epoch": 1.3580669710806696,
      "grad_norm": 3.1875,
      "learning_rate": 2.561822193579453e-06,
      "loss": 1.00122156,
      "memory(GiB)": 112.26,
      "step": 53535,
      "train_speed(iter/s)": 1.12953
    },
    {
      "acc": 0.75358782,
      "epoch": 1.3581938102486046,
      "grad_norm": 3.703125,
      "learning_rate": 2.560906749152335e-06,
      "loss": 1.06492128,
      "memory(GiB)": 112.26,
      "step": 53540,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.73654723,
      "epoch": 1.3583206494165398,
      "grad_norm": 3.75,
      "learning_rate": 2.55999141200743e-06,
      "loss": 1.03991394,
      "memory(GiB)": 112.26,
      "step": 53545,
      "train_speed(iter/s)": 1.129556
    },
    {
      "acc": 0.74602523,
      "epoch": 1.3584474885844748,
      "grad_norm": 3.21875,
      "learning_rate": 2.5590761821849954e-06,
      "loss": 0.97261744,
      "memory(GiB)": 112.26,
      "step": 53550,
      "train_speed(iter/s)": 1.129553
    },
    {
      "acc": 0.75119181,
      "epoch": 1.35857432775241,
      "grad_norm": 4.125,
      "learning_rate": 2.5581610597252883e-06,
      "loss": 1.03425598,
      "memory(GiB)": 112.26,
      "step": 53555,
      "train_speed(iter/s)": 1.129573
    },
    {
      "acc": 0.73975873,
      "epoch": 1.358701166920345,
      "grad_norm": 3.40625,
      "learning_rate": 2.5572460446685593e-06,
      "loss": 0.99898529,
      "memory(GiB)": 112.26,
      "step": 53560,
      "train_speed(iter/s)": 1.12959
    },
    {
      "acc": 0.73375545,
      "epoch": 1.35882800608828,
      "grad_norm": 3.703125,
      "learning_rate": 2.5563311370550535e-06,
      "loss": 1.05317173,
      "memory(GiB)": 112.26,
      "step": 53565,
      "train_speed(iter/s)": 1.129599
    },
    {
      "acc": 0.73443642,
      "epoch": 1.358954845256215,
      "grad_norm": 4.09375,
      "learning_rate": 2.5554163369250194e-06,
      "loss": 1.13279762,
      "memory(GiB)": 112.26,
      "step": 53570,
      "train_speed(iter/s)": 1.129603
    },
    {
      "acc": 0.75250463,
      "epoch": 1.3590816844241502,
      "grad_norm": 3.828125,
      "learning_rate": 2.5545016443186867e-06,
      "loss": 1.01820412,
      "memory(GiB)": 112.26,
      "step": 53575,
      "train_speed(iter/s)": 1.129622
    },
    {
      "acc": 0.73726521,
      "epoch": 1.3592085235920852,
      "grad_norm": 3.78125,
      "learning_rate": 2.55358705927629e-06,
      "loss": 1.04148045,
      "memory(GiB)": 112.26,
      "step": 53580,
      "train_speed(iter/s)": 1.129628
    },
    {
      "acc": 0.7364831,
      "epoch": 1.3593353627600204,
      "grad_norm": 3.375,
      "learning_rate": 2.552672581838055e-06,
      "loss": 1.07151833,
      "memory(GiB)": 112.26,
      "step": 53585,
      "train_speed(iter/s)": 1.129637
    },
    {
      "acc": 0.76062388,
      "epoch": 1.3594622019279554,
      "grad_norm": 4.3125,
      "learning_rate": 2.5517582120442095e-06,
      "loss": 1.00615921,
      "memory(GiB)": 112.26,
      "step": 53590,
      "train_speed(iter/s)": 1.129651
    },
    {
      "acc": 0.73220434,
      "epoch": 1.3595890410958904,
      "grad_norm": 3.6875,
      "learning_rate": 2.5508439499349675e-06,
      "loss": 1.07433357,
      "memory(GiB)": 112.26,
      "step": 53595,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.72375412,
      "epoch": 1.3597158802638254,
      "grad_norm": 3.578125,
      "learning_rate": 2.549929795550541e-06,
      "loss": 1.07761135,
      "memory(GiB)": 112.26,
      "step": 53600,
      "train_speed(iter/s)": 1.129682
    },
    {
      "acc": 0.75568109,
      "epoch": 1.3598427194317606,
      "grad_norm": 4.4375,
      "learning_rate": 2.549015748931143e-06,
      "loss": 1.02944317,
      "memory(GiB)": 112.26,
      "step": 53605,
      "train_speed(iter/s)": 1.1297
    },
    {
      "acc": 0.74174542,
      "epoch": 1.3599695585996956,
      "grad_norm": 3.625,
      "learning_rate": 2.5481018101169763e-06,
      "loss": 1.0567749,
      "memory(GiB)": 112.26,
      "step": 53610,
      "train_speed(iter/s)": 1.129721
    },
    {
      "acc": 0.74802961,
      "epoch": 1.3600963977676306,
      "grad_norm": 3.890625,
      "learning_rate": 2.547187979148238e-06,
      "loss": 1.01129875,
      "memory(GiB)": 112.26,
      "step": 53615,
      "train_speed(iter/s)": 1.129738
    },
    {
      "acc": 0.75555468,
      "epoch": 1.3602232369355658,
      "grad_norm": 2.984375,
      "learning_rate": 2.546274256065121e-06,
      "loss": 1.04643803,
      "memory(GiB)": 112.26,
      "step": 53620,
      "train_speed(iter/s)": 1.129755
    },
    {
      "acc": 0.742272,
      "epoch": 1.3603500761035008,
      "grad_norm": 3.71875,
      "learning_rate": 2.545360640907819e-06,
      "loss": 1.03311415,
      "memory(GiB)": 112.26,
      "step": 53625,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.73116808,
      "epoch": 1.3604769152714358,
      "grad_norm": 3.75,
      "learning_rate": 2.544447133716518e-06,
      "loss": 1.03317299,
      "memory(GiB)": 112.26,
      "step": 53630,
      "train_speed(iter/s)": 1.129776
    },
    {
      "acc": 0.72402687,
      "epoch": 1.3606037544393708,
      "grad_norm": 3.390625,
      "learning_rate": 2.5435337345313904e-06,
      "loss": 1.08172483,
      "memory(GiB)": 112.26,
      "step": 53635,
      "train_speed(iter/s)": 1.129794
    },
    {
      "acc": 0.73419876,
      "epoch": 1.360730593607306,
      "grad_norm": 4.125,
      "learning_rate": 2.5426204433926194e-06,
      "loss": 1.04315224,
      "memory(GiB)": 112.26,
      "step": 53640,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.73441095,
      "epoch": 1.360857432775241,
      "grad_norm": 3.515625,
      "learning_rate": 2.541707260340372e-06,
      "loss": 1.09313269,
      "memory(GiB)": 112.26,
      "step": 53645,
      "train_speed(iter/s)": 1.129819
    },
    {
      "acc": 0.74347773,
      "epoch": 1.3609842719431762,
      "grad_norm": 3.265625,
      "learning_rate": 2.5407941854148156e-06,
      "loss": 1.07197456,
      "memory(GiB)": 112.26,
      "step": 53650,
      "train_speed(iter/s)": 1.12983
    },
    {
      "acc": 0.72721834,
      "epoch": 1.3611111111111112,
      "grad_norm": 3.78125,
      "learning_rate": 2.5398812186561095e-06,
      "loss": 1.11422739,
      "memory(GiB)": 112.26,
      "step": 53655,
      "train_speed(iter/s)": 1.129849
    },
    {
      "acc": 0.72922835,
      "epoch": 1.3612379502790461,
      "grad_norm": 3.15625,
      "learning_rate": 2.5389683601044114e-06,
      "loss": 1.07179327,
      "memory(GiB)": 112.26,
      "step": 53660,
      "train_speed(iter/s)": 1.129855
    },
    {
      "acc": 0.74489017,
      "epoch": 1.3613647894469811,
      "grad_norm": 4.25,
      "learning_rate": 2.538055609799873e-06,
      "loss": 1.04928465,
      "memory(GiB)": 112.26,
      "step": 53665,
      "train_speed(iter/s)": 1.129877
    },
    {
      "acc": 0.74064174,
      "epoch": 1.3614916286149163,
      "grad_norm": 3.78125,
      "learning_rate": 2.5371429677826397e-06,
      "loss": 1.03097477,
      "memory(GiB)": 112.26,
      "step": 53670,
      "train_speed(iter/s)": 1.129895
    },
    {
      "acc": 0.75473566,
      "epoch": 1.3616184677828513,
      "grad_norm": 4.09375,
      "learning_rate": 2.5362304340928556e-06,
      "loss": 1.01877871,
      "memory(GiB)": 112.26,
      "step": 53675,
      "train_speed(iter/s)": 1.129909
    },
    {
      "acc": 0.72562399,
      "epoch": 1.3617453069507863,
      "grad_norm": 4.03125,
      "learning_rate": 2.535318008770656e-06,
      "loss": 1.10773811,
      "memory(GiB)": 112.26,
      "step": 53680,
      "train_speed(iter/s)": 1.129927
    },
    {
      "acc": 0.74204979,
      "epoch": 1.3618721461187215,
      "grad_norm": 3.484375,
      "learning_rate": 2.534405691856175e-06,
      "loss": 1.04135141,
      "memory(GiB)": 112.26,
      "step": 53685,
      "train_speed(iter/s)": 1.129935
    },
    {
      "acc": 0.74934263,
      "epoch": 1.3619989852866565,
      "grad_norm": 3.296875,
      "learning_rate": 2.5334934833895396e-06,
      "loss": 1.00714321,
      "memory(GiB)": 112.26,
      "step": 53690,
      "train_speed(iter/s)": 1.129949
    },
    {
      "acc": 0.7400352,
      "epoch": 1.3621258244545915,
      "grad_norm": 3.40625,
      "learning_rate": 2.5325813834108724e-06,
      "loss": 1.07259216,
      "memory(GiB)": 112.26,
      "step": 53695,
      "train_speed(iter/s)": 1.12996
    },
    {
      "acc": 0.7494545,
      "epoch": 1.3622526636225265,
      "grad_norm": 3.71875,
      "learning_rate": 2.531669391960293e-06,
      "loss": 1.03910046,
      "memory(GiB)": 112.26,
      "step": 53700,
      "train_speed(iter/s)": 1.129964
    },
    {
      "acc": 0.73991909,
      "epoch": 1.3623795027904617,
      "grad_norm": 3.265625,
      "learning_rate": 2.5307575090779125e-06,
      "loss": 1.08529406,
      "memory(GiB)": 112.26,
      "step": 53705,
      "train_speed(iter/s)": 1.129971
    },
    {
      "acc": 0.73957272,
      "epoch": 1.3625063419583967,
      "grad_norm": 4.0625,
      "learning_rate": 2.529845734803844e-06,
      "loss": 1.0505784,
      "memory(GiB)": 112.26,
      "step": 53710,
      "train_speed(iter/s)": 1.129981
    },
    {
      "acc": 0.73926125,
      "epoch": 1.362633181126332,
      "grad_norm": 3.859375,
      "learning_rate": 2.5289340691781872e-06,
      "loss": 1.11444025,
      "memory(GiB)": 112.26,
      "step": 53715,
      "train_speed(iter/s)": 1.130005
    },
    {
      "acc": 0.74721165,
      "epoch": 1.362760020294267,
      "grad_norm": 3.6875,
      "learning_rate": 2.528022512241042e-06,
      "loss": 1.03660202,
      "memory(GiB)": 112.26,
      "step": 53720,
      "train_speed(iter/s)": 1.130024
    },
    {
      "acc": 0.7531105,
      "epoch": 1.362886859462202,
      "grad_norm": 3.625,
      "learning_rate": 2.5271110640325013e-06,
      "loss": 1.03269167,
      "memory(GiB)": 112.26,
      "step": 53725,
      "train_speed(iter/s)": 1.130041
    },
    {
      "acc": 0.73889523,
      "epoch": 1.3630136986301369,
      "grad_norm": 3.265625,
      "learning_rate": 2.5261997245926612e-06,
      "loss": 1.05994606,
      "memory(GiB)": 112.26,
      "step": 53730,
      "train_speed(iter/s)": 1.130053
    },
    {
      "acc": 0.73797321,
      "epoch": 1.363140537798072,
      "grad_norm": 3.8125,
      "learning_rate": 2.5252884939615995e-06,
      "loss": 1.07061262,
      "memory(GiB)": 112.26,
      "step": 53735,
      "train_speed(iter/s)": 1.130064
    },
    {
      "acc": 0.74054613,
      "epoch": 1.363267376966007,
      "grad_norm": 3.0625,
      "learning_rate": 2.5243773721793973e-06,
      "loss": 1.05041122,
      "memory(GiB)": 112.26,
      "step": 53740,
      "train_speed(iter/s)": 1.130076
    },
    {
      "acc": 0.74931574,
      "epoch": 1.3633942161339423,
      "grad_norm": 4.4375,
      "learning_rate": 2.5234663592861325e-06,
      "loss": 1.00702152,
      "memory(GiB)": 112.26,
      "step": 53745,
      "train_speed(iter/s)": 1.130087
    },
    {
      "acc": 0.73975525,
      "epoch": 1.3635210553018773,
      "grad_norm": 3.765625,
      "learning_rate": 2.522555455321876e-06,
      "loss": 1.03204422,
      "memory(GiB)": 112.26,
      "step": 53750,
      "train_speed(iter/s)": 1.130103
    },
    {
      "acc": 0.73992352,
      "epoch": 1.3636478944698123,
      "grad_norm": 4.15625,
      "learning_rate": 2.52164466032669e-06,
      "loss": 1.03464651,
      "memory(GiB)": 112.26,
      "step": 53755,
      "train_speed(iter/s)": 1.130117
    },
    {
      "acc": 0.74506016,
      "epoch": 1.3637747336377473,
      "grad_norm": 3.109375,
      "learning_rate": 2.5207339743406344e-06,
      "loss": 1.06086063,
      "memory(GiB)": 112.26,
      "step": 53760,
      "train_speed(iter/s)": 1.130136
    },
    {
      "acc": 0.7274333,
      "epoch": 1.3639015728056825,
      "grad_norm": 2.703125,
      "learning_rate": 2.5198233974037705e-06,
      "loss": 1.0651123,
      "memory(GiB)": 112.26,
      "step": 53765,
      "train_speed(iter/s)": 1.13015
    },
    {
      "acc": 0.73803411,
      "epoch": 1.3640284119736175,
      "grad_norm": 4.21875,
      "learning_rate": 2.5189129295561486e-06,
      "loss": 1.06804008,
      "memory(GiB)": 112.26,
      "step": 53770,
      "train_speed(iter/s)": 1.130156
    },
    {
      "acc": 0.74185925,
      "epoch": 1.3641552511415524,
      "grad_norm": 3.296875,
      "learning_rate": 2.518002570837809e-06,
      "loss": 1.04134979,
      "memory(GiB)": 112.26,
      "step": 53775,
      "train_speed(iter/s)": 1.130175
    },
    {
      "acc": 0.72971487,
      "epoch": 1.3642820903094877,
      "grad_norm": 4.375,
      "learning_rate": 2.5170923212887997e-06,
      "loss": 1.1370038,
      "memory(GiB)": 112.26,
      "step": 53780,
      "train_speed(iter/s)": 1.130197
    },
    {
      "acc": 0.75647378,
      "epoch": 1.3644089294774226,
      "grad_norm": 3.921875,
      "learning_rate": 2.5161821809491554e-06,
      "loss": 1.02031555,
      "memory(GiB)": 112.26,
      "step": 53785,
      "train_speed(iter/s)": 1.130218
    },
    {
      "acc": 0.73887539,
      "epoch": 1.3645357686453576,
      "grad_norm": 3.4375,
      "learning_rate": 2.5152721498589104e-06,
      "loss": 1.03796377,
      "memory(GiB)": 112.26,
      "step": 53790,
      "train_speed(iter/s)": 1.130236
    },
    {
      "acc": 0.73632355,
      "epoch": 1.3646626078132926,
      "grad_norm": 5.0,
      "learning_rate": 2.514362228058086e-06,
      "loss": 1.08620377,
      "memory(GiB)": 112.26,
      "step": 53795,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.73665733,
      "epoch": 1.3647894469812278,
      "grad_norm": 4.15625,
      "learning_rate": 2.51345241558671e-06,
      "loss": 1.11210899,
      "memory(GiB)": 112.26,
      "step": 53800,
      "train_speed(iter/s)": 1.130264
    },
    {
      "acc": 0.73542137,
      "epoch": 1.3649162861491628,
      "grad_norm": 3.90625,
      "learning_rate": 2.5125427124847985e-06,
      "loss": 1.08590698,
      "memory(GiB)": 112.26,
      "step": 53805,
      "train_speed(iter/s)": 1.130281
    },
    {
      "acc": 0.7421793,
      "epoch": 1.365043125317098,
      "grad_norm": 3.8125,
      "learning_rate": 2.5116331187923645e-06,
      "loss": 1.01964054,
      "memory(GiB)": 112.26,
      "step": 53810,
      "train_speed(iter/s)": 1.130275
    },
    {
      "acc": 0.74620705,
      "epoch": 1.365169964485033,
      "grad_norm": 3.84375,
      "learning_rate": 2.510723634549415e-06,
      "loss": 1.03441,
      "memory(GiB)": 112.26,
      "step": 53815,
      "train_speed(iter/s)": 1.130293
    },
    {
      "acc": 0.74811277,
      "epoch": 1.365296803652968,
      "grad_norm": 3.859375,
      "learning_rate": 2.509814259795954e-06,
      "loss": 1.04239511,
      "memory(GiB)": 112.26,
      "step": 53820,
      "train_speed(iter/s)": 1.130306
    },
    {
      "acc": 0.74866557,
      "epoch": 1.365423642820903,
      "grad_norm": 3.859375,
      "learning_rate": 2.50890499457198e-06,
      "loss": 1.0578558,
      "memory(GiB)": 112.26,
      "step": 53825,
      "train_speed(iter/s)": 1.130321
    },
    {
      "acc": 0.75556879,
      "epoch": 1.3655504819888382,
      "grad_norm": 3.4375,
      "learning_rate": 2.5079958389174865e-06,
      "loss": 0.98905783,
      "memory(GiB)": 112.26,
      "step": 53830,
      "train_speed(iter/s)": 1.130327
    },
    {
      "acc": 0.73366132,
      "epoch": 1.3656773211567732,
      "grad_norm": 4.03125,
      "learning_rate": 2.5070867928724618e-06,
      "loss": 1.11031294,
      "memory(GiB)": 112.26,
      "step": 53835,
      "train_speed(iter/s)": 1.130341
    },
    {
      "acc": 0.74320955,
      "epoch": 1.3658041603247082,
      "grad_norm": 3.71875,
      "learning_rate": 2.50617785647689e-06,
      "loss": 1.00590134,
      "memory(GiB)": 112.26,
      "step": 53840,
      "train_speed(iter/s)": 1.130364
    },
    {
      "acc": 0.73105736,
      "epoch": 1.3659309994926434,
      "grad_norm": 4.5625,
      "learning_rate": 2.5052690297707506e-06,
      "loss": 1.05978699,
      "memory(GiB)": 112.26,
      "step": 53845,
      "train_speed(iter/s)": 1.130368
    },
    {
      "acc": 0.74617777,
      "epoch": 1.3660578386605784,
      "grad_norm": 3.6875,
      "learning_rate": 2.5043603127940164e-06,
      "loss": 0.97747459,
      "memory(GiB)": 112.26,
      "step": 53850,
      "train_speed(iter/s)": 1.130382
    },
    {
      "acc": 0.73482442,
      "epoch": 1.3661846778285134,
      "grad_norm": 4.21875,
      "learning_rate": 2.503451705586659e-06,
      "loss": 1.06536541,
      "memory(GiB)": 112.26,
      "step": 53855,
      "train_speed(iter/s)": 1.130398
    },
    {
      "acc": 0.75657158,
      "epoch": 1.3663115169964484,
      "grad_norm": 3.515625,
      "learning_rate": 2.5025432081886412e-06,
      "loss": 1.02718029,
      "memory(GiB)": 112.26,
      "step": 53860,
      "train_speed(iter/s)": 1.130405
    },
    {
      "acc": 0.73915224,
      "epoch": 1.3664383561643836,
      "grad_norm": 3.984375,
      "learning_rate": 2.5016348206399215e-06,
      "loss": 1.01542625,
      "memory(GiB)": 112.26,
      "step": 53865,
      "train_speed(iter/s)": 1.130422
    },
    {
      "acc": 0.74221916,
      "epoch": 1.3665651953323186,
      "grad_norm": 4.5625,
      "learning_rate": 2.500726542980461e-06,
      "loss": 1.10214596,
      "memory(GiB)": 112.26,
      "step": 53870,
      "train_speed(iter/s)": 1.130438
    },
    {
      "acc": 0.7321909,
      "epoch": 1.3666920345002538,
      "grad_norm": 3.390625,
      "learning_rate": 2.499818375250204e-06,
      "loss": 1.06840181,
      "memory(GiB)": 112.26,
      "step": 53875,
      "train_speed(iter/s)": 1.130451
    },
    {
      "acc": 0.73629546,
      "epoch": 1.3668188736681888,
      "grad_norm": 4.5625,
      "learning_rate": 2.4989103174890946e-06,
      "loss": 1.08088398,
      "memory(GiB)": 112.26,
      "step": 53880,
      "train_speed(iter/s)": 1.130456
    },
    {
      "acc": 0.73650656,
      "epoch": 1.3669457128361238,
      "grad_norm": 3.25,
      "learning_rate": 2.498002369737078e-06,
      "loss": 1.08812447,
      "memory(GiB)": 112.26,
      "step": 53885,
      "train_speed(iter/s)": 1.130469
    },
    {
      "acc": 0.74747839,
      "epoch": 1.3670725520040587,
      "grad_norm": 4.46875,
      "learning_rate": 2.49709453203409e-06,
      "loss": 1.03347893,
      "memory(GiB)": 112.26,
      "step": 53890,
      "train_speed(iter/s)": 1.130487
    },
    {
      "acc": 0.73957443,
      "epoch": 1.367199391171994,
      "grad_norm": 3.265625,
      "learning_rate": 2.496186804420057e-06,
      "loss": 1.08116388,
      "memory(GiB)": 112.26,
      "step": 53895,
      "train_speed(iter/s)": 1.1305
    },
    {
      "acc": 0.74377298,
      "epoch": 1.367326230339929,
      "grad_norm": 3.078125,
      "learning_rate": 2.4952791869349056e-06,
      "loss": 1.05001211,
      "memory(GiB)": 112.26,
      "step": 53900,
      "train_speed(iter/s)": 1.130512
    },
    {
      "acc": 0.74233007,
      "epoch": 1.3674530695078642,
      "grad_norm": 5.34375,
      "learning_rate": 2.4943716796185603e-06,
      "loss": 1.06941376,
      "memory(GiB)": 112.26,
      "step": 53905,
      "train_speed(iter/s)": 1.130527
    },
    {
      "acc": 0.73834229,
      "epoch": 1.3675799086757991,
      "grad_norm": 4.09375,
      "learning_rate": 2.493464282510937e-06,
      "loss": 1.12646914,
      "memory(GiB)": 112.26,
      "step": 53910,
      "train_speed(iter/s)": 1.130547
    },
    {
      "acc": 0.75870991,
      "epoch": 1.3677067478437341,
      "grad_norm": 3.609375,
      "learning_rate": 2.4925569956519414e-06,
      "loss": 1.0074338,
      "memory(GiB)": 112.26,
      "step": 53915,
      "train_speed(iter/s)": 1.130558
    },
    {
      "acc": 0.73373818,
      "epoch": 1.3678335870116691,
      "grad_norm": 3.484375,
      "learning_rate": 2.491649819081486e-06,
      "loss": 1.09979706,
      "memory(GiB)": 112.26,
      "step": 53920,
      "train_speed(iter/s)": 1.130571
    },
    {
      "acc": 0.75161777,
      "epoch": 1.3679604261796043,
      "grad_norm": 3.5,
      "learning_rate": 2.490742752839471e-06,
      "loss": 1.0776536,
      "memory(GiB)": 112.26,
      "step": 53925,
      "train_speed(iter/s)": 1.130582
    },
    {
      "acc": 0.74722776,
      "epoch": 1.3680872653475393,
      "grad_norm": 4.46875,
      "learning_rate": 2.4898357969657943e-06,
      "loss": 1.02320862,
      "memory(GiB)": 112.26,
      "step": 53930,
      "train_speed(iter/s)": 1.130597
    },
    {
      "acc": 0.74726696,
      "epoch": 1.3682141045154743,
      "grad_norm": 3.484375,
      "learning_rate": 2.4889289515003425e-06,
      "loss": 1.06357603,
      "memory(GiB)": 112.26,
      "step": 53935,
      "train_speed(iter/s)": 1.130611
    },
    {
      "acc": 0.75523419,
      "epoch": 1.3683409436834095,
      "grad_norm": 4.6875,
      "learning_rate": 2.4880222164830085e-06,
      "loss": 1.04674606,
      "memory(GiB)": 112.26,
      "step": 53940,
      "train_speed(iter/s)": 1.130628
    },
    {
      "acc": 0.74518929,
      "epoch": 1.3684677828513445,
      "grad_norm": 3.265625,
      "learning_rate": 2.4871155919536725e-06,
      "loss": 1.03832855,
      "memory(GiB)": 112.26,
      "step": 53945,
      "train_speed(iter/s)": 1.13064
    },
    {
      "acc": 0.75039091,
      "epoch": 1.3685946220192795,
      "grad_norm": 4.78125,
      "learning_rate": 2.486209077952212e-06,
      "loss": 1.04418459,
      "memory(GiB)": 112.26,
      "step": 53950,
      "train_speed(iter/s)": 1.13064
    },
    {
      "acc": 0.74859524,
      "epoch": 1.3687214611872145,
      "grad_norm": 4.9375,
      "learning_rate": 2.4853026745185e-06,
      "loss": 1.05458937,
      "memory(GiB)": 112.26,
      "step": 53955,
      "train_speed(iter/s)": 1.130652
    },
    {
      "acc": 0.7454227,
      "epoch": 1.3688483003551497,
      "grad_norm": 3.3125,
      "learning_rate": 2.4843963816924035e-06,
      "loss": 1.03144045,
      "memory(GiB)": 112.26,
      "step": 53960,
      "train_speed(iter/s)": 1.130667
    },
    {
      "acc": 0.74783831,
      "epoch": 1.3689751395230847,
      "grad_norm": 3.25,
      "learning_rate": 2.483490199513785e-06,
      "loss": 1.01625156,
      "memory(GiB)": 112.26,
      "step": 53965,
      "train_speed(iter/s)": 1.130672
    },
    {
      "acc": 0.75117407,
      "epoch": 1.36910197869102,
      "grad_norm": 4.59375,
      "learning_rate": 2.4825841280225033e-06,
      "loss": 1.06340456,
      "memory(GiB)": 112.26,
      "step": 53970,
      "train_speed(iter/s)": 1.130689
    },
    {
      "acc": 0.73455501,
      "epoch": 1.369228817858955,
      "grad_norm": 3.765625,
      "learning_rate": 2.4816781672584107e-06,
      "loss": 1.07325726,
      "memory(GiB)": 112.26,
      "step": 53975,
      "train_speed(iter/s)": 1.130706
    },
    {
      "acc": 0.73266649,
      "epoch": 1.3693556570268899,
      "grad_norm": 3.640625,
      "learning_rate": 2.480772317261356e-06,
      "loss": 1.08864098,
      "memory(GiB)": 112.26,
      "step": 53980,
      "train_speed(iter/s)": 1.130716
    },
    {
      "acc": 0.74783821,
      "epoch": 1.3694824961948249,
      "grad_norm": 3.984375,
      "learning_rate": 2.479866578071183e-06,
      "loss": 1.05565052,
      "memory(GiB)": 112.26,
      "step": 53985,
      "train_speed(iter/s)": 1.130724
    },
    {
      "acc": 0.73728623,
      "epoch": 1.36960933536276,
      "grad_norm": 5.0,
      "learning_rate": 2.4789609497277284e-06,
      "loss": 1.04308891,
      "memory(GiB)": 112.26,
      "step": 53990,
      "train_speed(iter/s)": 1.130746
    },
    {
      "acc": 0.75430412,
      "epoch": 1.369736174530695,
      "grad_norm": 4.0625,
      "learning_rate": 2.478055432270828e-06,
      "loss": 1.04798679,
      "memory(GiB)": 112.26,
      "step": 53995,
      "train_speed(iter/s)": 1.13076
    },
    {
      "acc": 0.76592207,
      "epoch": 1.36986301369863,
      "grad_norm": 2.984375,
      "learning_rate": 2.4771500257403086e-06,
      "loss": 0.93402195,
      "memory(GiB)": 112.26,
      "step": 54000,
      "train_speed(iter/s)": 1.130759
    },
    {
      "epoch": 1.36986301369863,
      "eval_acc": 0.7258049897986246,
      "eval_loss": 1.044254183769226,
      "eval_runtime": 70.9966,
      "eval_samples_per_second": 89.723,
      "eval_steps_per_second": 22.438,
      "step": 54000
    },
    {
      "acc": 0.7406867,
      "epoch": 1.3699898528665653,
      "grad_norm": 3.265625,
      "learning_rate": 2.476244730175993e-06,
      "loss": 1.03136978,
      "memory(GiB)": 112.26,
      "step": 54005,
      "train_speed(iter/s)": 1.128058
    },
    {
      "acc": 0.74493971,
      "epoch": 1.3701166920345003,
      "grad_norm": 3.671875,
      "learning_rate": 2.4753395456177056e-06,
      "loss": 1.06341038,
      "memory(GiB)": 112.26,
      "step": 54010,
      "train_speed(iter/s)": 1.12808
    },
    {
      "acc": 0.73568468,
      "epoch": 1.3702435312024352,
      "grad_norm": 3.28125,
      "learning_rate": 2.474434472105255e-06,
      "loss": 1.07355013,
      "memory(GiB)": 112.26,
      "step": 54015,
      "train_speed(iter/s)": 1.128095
    },
    {
      "acc": 0.73889046,
      "epoch": 1.3703703703703702,
      "grad_norm": 4.09375,
      "learning_rate": 2.473529509678452e-06,
      "loss": 1.02104921,
      "memory(GiB)": 112.26,
      "step": 54020,
      "train_speed(iter/s)": 1.128111
    },
    {
      "acc": 0.7305584,
      "epoch": 1.3704972095383054,
      "grad_norm": 3.859375,
      "learning_rate": 2.4726246583770996e-06,
      "loss": 1.13188753,
      "memory(GiB)": 112.26,
      "step": 54025,
      "train_speed(iter/s)": 1.128125
    },
    {
      "acc": 0.73862753,
      "epoch": 1.3706240487062404,
      "grad_norm": 3.203125,
      "learning_rate": 2.4717199182410025e-06,
      "loss": 1.01464081,
      "memory(GiB)": 112.26,
      "step": 54030,
      "train_speed(iter/s)": 1.128139
    },
    {
      "acc": 0.75274658,
      "epoch": 1.3707508878741756,
      "grad_norm": 4.96875,
      "learning_rate": 2.4708152893099493e-06,
      "loss": 1.0422637,
      "memory(GiB)": 112.26,
      "step": 54035,
      "train_speed(iter/s)": 1.128154
    },
    {
      "acc": 0.74866905,
      "epoch": 1.3708777270421106,
      "grad_norm": 5.0,
      "learning_rate": 2.4699107716237293e-06,
      "loss": 1.01787262,
      "memory(GiB)": 112.26,
      "step": 54040,
      "train_speed(iter/s)": 1.128164
    },
    {
      "acc": 0.74030952,
      "epoch": 1.3710045662100456,
      "grad_norm": 3.234375,
      "learning_rate": 2.469006365222132e-06,
      "loss": 1.01413832,
      "memory(GiB)": 112.26,
      "step": 54045,
      "train_speed(iter/s)": 1.128173
    },
    {
      "acc": 0.73267808,
      "epoch": 1.3711314053779806,
      "grad_norm": 3.703125,
      "learning_rate": 2.4681020701449365e-06,
      "loss": 1.06938572,
      "memory(GiB)": 112.26,
      "step": 54050,
      "train_speed(iter/s)": 1.12819
    },
    {
      "acc": 0.73419051,
      "epoch": 1.3712582445459158,
      "grad_norm": 3.640625,
      "learning_rate": 2.4671978864319123e-06,
      "loss": 1.07203941,
      "memory(GiB)": 112.26,
      "step": 54055,
      "train_speed(iter/s)": 1.128209
    },
    {
      "acc": 0.74261465,
      "epoch": 1.3713850837138508,
      "grad_norm": 4.125,
      "learning_rate": 2.466293814122835e-06,
      "loss": 1.08574409,
      "memory(GiB)": 112.26,
      "step": 54060,
      "train_speed(iter/s)": 1.128226
    },
    {
      "acc": 0.74698234,
      "epoch": 1.371511922881786,
      "grad_norm": 4.53125,
      "learning_rate": 2.4653898532574684e-06,
      "loss": 1.01791649,
      "memory(GiB)": 112.26,
      "step": 54065,
      "train_speed(iter/s)": 1.128242
    },
    {
      "acc": 0.74292431,
      "epoch": 1.371638762049721,
      "grad_norm": 3.625,
      "learning_rate": 2.4644860038755737e-06,
      "loss": 1.04759159,
      "memory(GiB)": 112.26,
      "step": 54070,
      "train_speed(iter/s)": 1.128249
    },
    {
      "acc": 0.73447142,
      "epoch": 1.371765601217656,
      "grad_norm": 4.65625,
      "learning_rate": 2.4635822660169007e-06,
      "loss": 1.09447708,
      "memory(GiB)": 112.26,
      "step": 54075,
      "train_speed(iter/s)": 1.12827
    },
    {
      "acc": 0.72900372,
      "epoch": 1.371892440385591,
      "grad_norm": 4.40625,
      "learning_rate": 2.4626786397212065e-06,
      "loss": 1.13183804,
      "memory(GiB)": 112.26,
      "step": 54080,
      "train_speed(iter/s)": 1.128285
    },
    {
      "acc": 0.75501175,
      "epoch": 1.3720192795535262,
      "grad_norm": 4.5625,
      "learning_rate": 2.461775125028234e-06,
      "loss": 1.06387634,
      "memory(GiB)": 112.26,
      "step": 54085,
      "train_speed(iter/s)": 1.128292
    },
    {
      "acc": 0.72785559,
      "epoch": 1.3721461187214612,
      "grad_norm": 5.09375,
      "learning_rate": 2.4608717219777236e-06,
      "loss": 1.09964142,
      "memory(GiB)": 112.26,
      "step": 54090,
      "train_speed(iter/s)": 1.128304
    },
    {
      "acc": 0.74405298,
      "epoch": 1.3722729578893962,
      "grad_norm": 3.53125,
      "learning_rate": 2.459968430609411e-06,
      "loss": 1.02016687,
      "memory(GiB)": 112.26,
      "step": 54095,
      "train_speed(iter/s)": 1.128325
    },
    {
      "acc": 0.74187889,
      "epoch": 1.3723997970573314,
      "grad_norm": 3.734375,
      "learning_rate": 2.459065250963028e-06,
      "loss": 1.02570496,
      "memory(GiB)": 112.26,
      "step": 54100,
      "train_speed(iter/s)": 1.128343
    },
    {
      "acc": 0.75995331,
      "epoch": 1.3725266362252664,
      "grad_norm": 3.765625,
      "learning_rate": 2.458162183078299e-06,
      "loss": 1.02109098,
      "memory(GiB)": 112.26,
      "step": 54105,
      "train_speed(iter/s)": 1.128353
    },
    {
      "acc": 0.75370531,
      "epoch": 1.3726534753932014,
      "grad_norm": 3.65625,
      "learning_rate": 2.4572592269949464e-06,
      "loss": 0.98623238,
      "memory(GiB)": 112.26,
      "step": 54110,
      "train_speed(iter/s)": 1.128368
    },
    {
      "acc": 0.74399686,
      "epoch": 1.3727803145611364,
      "grad_norm": 3.6875,
      "learning_rate": 2.4563563827526848e-06,
      "loss": 1.06134338,
      "memory(GiB)": 112.26,
      "step": 54115,
      "train_speed(iter/s)": 1.12837
    },
    {
      "acc": 0.73504543,
      "epoch": 1.3729071537290716,
      "grad_norm": 4.0625,
      "learning_rate": 2.455453650391226e-06,
      "loss": 1.05359821,
      "memory(GiB)": 112.26,
      "step": 54120,
      "train_speed(iter/s)": 1.128387
    },
    {
      "acc": 0.74500332,
      "epoch": 1.3730339928970066,
      "grad_norm": 3.8125,
      "learning_rate": 2.454551029950277e-06,
      "loss": 1.06280537,
      "memory(GiB)": 112.26,
      "step": 54125,
      "train_speed(iter/s)": 1.128401
    },
    {
      "acc": 0.75905485,
      "epoch": 1.3731608320649418,
      "grad_norm": 3.609375,
      "learning_rate": 2.4536485214695377e-06,
      "loss": 0.96727839,
      "memory(GiB)": 112.26,
      "step": 54130,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.74004393,
      "epoch": 1.3732876712328768,
      "grad_norm": 3.0,
      "learning_rate": 2.4527461249887054e-06,
      "loss": 1.04164772,
      "memory(GiB)": 112.26,
      "step": 54135,
      "train_speed(iter/s)": 1.128425
    },
    {
      "acc": 0.74369197,
      "epoch": 1.3734145104008117,
      "grad_norm": 3.59375,
      "learning_rate": 2.451843840547471e-06,
      "loss": 1.02616806,
      "memory(GiB)": 112.26,
      "step": 54140,
      "train_speed(iter/s)": 1.128442
    },
    {
      "acc": 0.7400991,
      "epoch": 1.3735413495687467,
      "grad_norm": 3.578125,
      "learning_rate": 2.4509416681855193e-06,
      "loss": 1.07726269,
      "memory(GiB)": 112.26,
      "step": 54145,
      "train_speed(iter/s)": 1.128459
    },
    {
      "acc": 0.74167295,
      "epoch": 1.373668188736682,
      "grad_norm": 4.03125,
      "learning_rate": 2.4500396079425377e-06,
      "loss": 1.09588175,
      "memory(GiB)": 112.26,
      "step": 54150,
      "train_speed(iter/s)": 1.128483
    },
    {
      "acc": 0.74306245,
      "epoch": 1.373795027904617,
      "grad_norm": 4.65625,
      "learning_rate": 2.4491376598581967e-06,
      "loss": 1.08157749,
      "memory(GiB)": 112.26,
      "step": 54155,
      "train_speed(iter/s)": 1.1285
    },
    {
      "acc": 0.74147234,
      "epoch": 1.373921867072552,
      "grad_norm": 4.28125,
      "learning_rate": 2.4482358239721704e-06,
      "loss": 1.06323977,
      "memory(GiB)": 112.26,
      "step": 54160,
      "train_speed(iter/s)": 1.128514
    },
    {
      "acc": 0.74184985,
      "epoch": 1.3740487062404871,
      "grad_norm": 3.796875,
      "learning_rate": 2.4473341003241234e-06,
      "loss": 1.06211586,
      "memory(GiB)": 112.26,
      "step": 54165,
      "train_speed(iter/s)": 1.128528
    },
    {
      "acc": 0.7518136,
      "epoch": 1.3741755454084221,
      "grad_norm": 3.96875,
      "learning_rate": 2.446432488953724e-06,
      "loss": 0.95692062,
      "memory(GiB)": 112.26,
      "step": 54170,
      "train_speed(iter/s)": 1.128544
    },
    {
      "acc": 0.73278098,
      "epoch": 1.3743023845763571,
      "grad_norm": 4.15625,
      "learning_rate": 2.445530989900622e-06,
      "loss": 1.05282984,
      "memory(GiB)": 112.26,
      "step": 54175,
      "train_speed(iter/s)": 1.128548
    },
    {
      "acc": 0.74246383,
      "epoch": 1.374429223744292,
      "grad_norm": 4.21875,
      "learning_rate": 2.4446296032044697e-06,
      "loss": 1.08675718,
      "memory(GiB)": 112.26,
      "step": 54180,
      "train_speed(iter/s)": 1.128565
    },
    {
      "acc": 0.74760571,
      "epoch": 1.3745560629122273,
      "grad_norm": 3.890625,
      "learning_rate": 2.443728328904919e-06,
      "loss": 1.04899931,
      "memory(GiB)": 112.26,
      "step": 54185,
      "train_speed(iter/s)": 1.128584
    },
    {
      "acc": 0.73716097,
      "epoch": 1.3746829020801623,
      "grad_norm": 4.46875,
      "learning_rate": 2.442827167041611e-06,
      "loss": 1.09104137,
      "memory(GiB)": 112.26,
      "step": 54190,
      "train_speed(iter/s)": 1.128593
    },
    {
      "acc": 0.7442987,
      "epoch": 1.3748097412480975,
      "grad_norm": 4.0625,
      "learning_rate": 2.441926117654179e-06,
      "loss": 1.06875181,
      "memory(GiB)": 112.26,
      "step": 54195,
      "train_speed(iter/s)": 1.128604
    },
    {
      "acc": 0.7399848,
      "epoch": 1.3749365804160325,
      "grad_norm": 4.0625,
      "learning_rate": 2.4410251807822555e-06,
      "loss": 1.10330133,
      "memory(GiB)": 112.26,
      "step": 54200,
      "train_speed(iter/s)": 1.128622
    },
    {
      "acc": 0.74249897,
      "epoch": 1.3750634195839675,
      "grad_norm": 3.484375,
      "learning_rate": 2.4401243564654713e-06,
      "loss": 1.05215664,
      "memory(GiB)": 112.26,
      "step": 54205,
      "train_speed(iter/s)": 1.128643
    },
    {
      "acc": 0.75166287,
      "epoch": 1.3751902587519025,
      "grad_norm": 3.46875,
      "learning_rate": 2.4392236447434494e-06,
      "loss": 1.01191998,
      "memory(GiB)": 112.26,
      "step": 54210,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.7437747,
      "epoch": 1.3753170979198377,
      "grad_norm": 3.8125,
      "learning_rate": 2.4383230456558005e-06,
      "loss": 1.02069025,
      "memory(GiB)": 112.26,
      "step": 54215,
      "train_speed(iter/s)": 1.12866
    },
    {
      "acc": 0.73692389,
      "epoch": 1.3754439370877727,
      "grad_norm": 4.15625,
      "learning_rate": 2.437422559242143e-06,
      "loss": 1.0237381,
      "memory(GiB)": 112.26,
      "step": 54220,
      "train_speed(iter/s)": 1.128675
    },
    {
      "acc": 0.74741516,
      "epoch": 1.375570776255708,
      "grad_norm": 3.4375,
      "learning_rate": 2.4365221855420822e-06,
      "loss": 1.09998169,
      "memory(GiB)": 112.26,
      "step": 54225,
      "train_speed(iter/s)": 1.128698
    },
    {
      "acc": 0.73851242,
      "epoch": 1.3756976154236429,
      "grad_norm": 3.46875,
      "learning_rate": 2.435621924595221e-06,
      "loss": 1.00814114,
      "memory(GiB)": 112.26,
      "step": 54230,
      "train_speed(iter/s)": 1.128712
    },
    {
      "acc": 0.75495672,
      "epoch": 1.3758244545915779,
      "grad_norm": 3.734375,
      "learning_rate": 2.4347217764411567e-06,
      "loss": 1.076408,
      "memory(GiB)": 112.26,
      "step": 54235,
      "train_speed(iter/s)": 1.128727
    },
    {
      "acc": 0.74443054,
      "epoch": 1.3759512937595129,
      "grad_norm": 3.8125,
      "learning_rate": 2.433821741119482e-06,
      "loss": 1.03283119,
      "memory(GiB)": 112.26,
      "step": 54240,
      "train_speed(iter/s)": 1.128737
    },
    {
      "acc": 0.72423558,
      "epoch": 1.376078132927448,
      "grad_norm": 4.4375,
      "learning_rate": 2.432921818669784e-06,
      "loss": 1.07642136,
      "memory(GiB)": 112.26,
      "step": 54245,
      "train_speed(iter/s)": 1.12875
    },
    {
      "acc": 0.74528017,
      "epoch": 1.376204972095383,
      "grad_norm": 3.421875,
      "learning_rate": 2.432022009131646e-06,
      "loss": 1.03117447,
      "memory(GiB)": 112.26,
      "step": 54250,
      "train_speed(iter/s)": 1.128762
    },
    {
      "acc": 0.73645515,
      "epoch": 1.376331811263318,
      "grad_norm": 3.703125,
      "learning_rate": 2.4311223125446447e-06,
      "loss": 1.12049551,
      "memory(GiB)": 112.26,
      "step": 54255,
      "train_speed(iter/s)": 1.128778
    },
    {
      "acc": 0.7284627,
      "epoch": 1.3764586504312533,
      "grad_norm": 3.375,
      "learning_rate": 2.4302227289483537e-06,
      "loss": 1.11797771,
      "memory(GiB)": 112.26,
      "step": 54260,
      "train_speed(iter/s)": 1.128791
    },
    {
      "acc": 0.74158096,
      "epoch": 1.3765854895991883,
      "grad_norm": 4.34375,
      "learning_rate": 2.42932325838234e-06,
      "loss": 1.07166576,
      "memory(GiB)": 112.26,
      "step": 54265,
      "train_speed(iter/s)": 1.128803
    },
    {
      "acc": 0.74330692,
      "epoch": 1.3767123287671232,
      "grad_norm": 3.5,
      "learning_rate": 2.4284239008861665e-06,
      "loss": 1.06090374,
      "memory(GiB)": 112.26,
      "step": 54270,
      "train_speed(iter/s)": 1.128712
    },
    {
      "acc": 0.74100418,
      "epoch": 1.3768391679350582,
      "grad_norm": 4.25,
      "learning_rate": 2.4275246564993917e-06,
      "loss": 1.08768187,
      "memory(GiB)": 112.26,
      "step": 54275,
      "train_speed(iter/s)": 1.128724
    },
    {
      "acc": 0.74985275,
      "epoch": 1.3769660071029934,
      "grad_norm": 3.703125,
      "learning_rate": 2.426625525261567e-06,
      "loss": 0.99847775,
      "memory(GiB)": 112.26,
      "step": 54280,
      "train_speed(iter/s)": 1.128729
    },
    {
      "acc": 0.74007754,
      "epoch": 1.3770928462709284,
      "grad_norm": 3.4375,
      "learning_rate": 2.425726507212242e-06,
      "loss": 1.07678986,
      "memory(GiB)": 112.26,
      "step": 54285,
      "train_speed(iter/s)": 1.128747
    },
    {
      "acc": 0.74074297,
      "epoch": 1.3772196854388636,
      "grad_norm": 3.40625,
      "learning_rate": 2.424827602390958e-06,
      "loss": 1.07266636,
      "memory(GiB)": 112.26,
      "step": 54290,
      "train_speed(iter/s)": 1.128766
    },
    {
      "acc": 0.73797102,
      "epoch": 1.3773465246067986,
      "grad_norm": 3.28125,
      "learning_rate": 2.4239288108372534e-06,
      "loss": 1.04232082,
      "memory(GiB)": 112.26,
      "step": 54295,
      "train_speed(iter/s)": 1.128774
    },
    {
      "acc": 0.73752484,
      "epoch": 1.3774733637747336,
      "grad_norm": 4.5625,
      "learning_rate": 2.4230301325906606e-06,
      "loss": 1.08440714,
      "memory(GiB)": 112.26,
      "step": 54300,
      "train_speed(iter/s)": 1.128793
    },
    {
      "acc": 0.73630743,
      "epoch": 1.3776002029426686,
      "grad_norm": 3.765625,
      "learning_rate": 2.4221315676907066e-06,
      "loss": 1.10136948,
      "memory(GiB)": 112.26,
      "step": 54305,
      "train_speed(iter/s)": 1.128811
    },
    {
      "acc": 0.7391995,
      "epoch": 1.3777270421106038,
      "grad_norm": 3.875,
      "learning_rate": 2.4212331161769194e-06,
      "loss": 1.08501778,
      "memory(GiB)": 112.26,
      "step": 54310,
      "train_speed(iter/s)": 1.128831
    },
    {
      "acc": 0.73693504,
      "epoch": 1.3778538812785388,
      "grad_norm": 3.5,
      "learning_rate": 2.420334778088811e-06,
      "loss": 1.05362673,
      "memory(GiB)": 112.26,
      "step": 54315,
      "train_speed(iter/s)": 1.128839
    },
    {
      "acc": 0.74464798,
      "epoch": 1.3779807204464738,
      "grad_norm": 3.484375,
      "learning_rate": 2.4194365534658944e-06,
      "loss": 1.07257996,
      "memory(GiB)": 112.26,
      "step": 54320,
      "train_speed(iter/s)": 1.128852
    },
    {
      "acc": 0.73614511,
      "epoch": 1.378107559614409,
      "grad_norm": 3.640625,
      "learning_rate": 2.4185384423476817e-06,
      "loss": 1.13466654,
      "memory(GiB)": 112.26,
      "step": 54325,
      "train_speed(iter/s)": 1.128866
    },
    {
      "acc": 0.73304806,
      "epoch": 1.378234398782344,
      "grad_norm": 3.921875,
      "learning_rate": 2.4176404447736758e-06,
      "loss": 1.10461082,
      "memory(GiB)": 112.26,
      "step": 54330,
      "train_speed(iter/s)": 1.128875
    },
    {
      "acc": 0.74374342,
      "epoch": 1.378361237950279,
      "grad_norm": 4.15625,
      "learning_rate": 2.41674256078337e-06,
      "loss": 1.08197823,
      "memory(GiB)": 112.26,
      "step": 54335,
      "train_speed(iter/s)": 1.128883
    },
    {
      "acc": 0.7329083,
      "epoch": 1.378488077118214,
      "grad_norm": 3.6875,
      "learning_rate": 2.4158447904162585e-06,
      "loss": 1.11870632,
      "memory(GiB)": 112.26,
      "step": 54340,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.74122353,
      "epoch": 1.3786149162861492,
      "grad_norm": 4.125,
      "learning_rate": 2.414947133711832e-06,
      "loss": 1.06835241,
      "memory(GiB)": 112.26,
      "step": 54345,
      "train_speed(iter/s)": 1.128914
    },
    {
      "acc": 0.73019133,
      "epoch": 1.3787417554540842,
      "grad_norm": 3.28125,
      "learning_rate": 2.414049590709574e-06,
      "loss": 1.07135353,
      "memory(GiB)": 112.26,
      "step": 54350,
      "train_speed(iter/s)": 1.128924
    },
    {
      "acc": 0.72368298,
      "epoch": 1.3788685946220194,
      "grad_norm": 3.6875,
      "learning_rate": 2.4131521614489567e-06,
      "loss": 1.1095314,
      "memory(GiB)": 112.26,
      "step": 54355,
      "train_speed(iter/s)": 1.12894
    },
    {
      "acc": 0.75088964,
      "epoch": 1.3789954337899544,
      "grad_norm": 3.4375,
      "learning_rate": 2.412254845969459e-06,
      "loss": 1.00721855,
      "memory(GiB)": 112.26,
      "step": 54360,
      "train_speed(iter/s)": 1.128956
    },
    {
      "acc": 0.75147376,
      "epoch": 1.3791222729578894,
      "grad_norm": 3.34375,
      "learning_rate": 2.4113576443105464e-06,
      "loss": 1.0221241,
      "memory(GiB)": 112.26,
      "step": 54365,
      "train_speed(iter/s)": 1.128969
    },
    {
      "acc": 0.73179274,
      "epoch": 1.3792491121258244,
      "grad_norm": 3.5625,
      "learning_rate": 2.410460556511684e-06,
      "loss": 1.04394455,
      "memory(GiB)": 112.26,
      "step": 54370,
      "train_speed(iter/s)": 1.128975
    },
    {
      "acc": 0.73737082,
      "epoch": 1.3793759512937596,
      "grad_norm": 3.734375,
      "learning_rate": 2.4095635826123235e-06,
      "loss": 1.03795176,
      "memory(GiB)": 112.26,
      "step": 54375,
      "train_speed(iter/s)": 1.128994
    },
    {
      "acc": 0.74446726,
      "epoch": 1.3795027904616946,
      "grad_norm": 3.34375,
      "learning_rate": 2.4086667226519245e-06,
      "loss": 1.05598927,
      "memory(GiB)": 112.26,
      "step": 54380,
      "train_speed(iter/s)": 1.12901
    },
    {
      "acc": 0.73482361,
      "epoch": 1.3796296296296298,
      "grad_norm": 4.21875,
      "learning_rate": 2.4077699766699323e-06,
      "loss": 1.09843798,
      "memory(GiB)": 112.26,
      "step": 54385,
      "train_speed(iter/s)": 1.129023
    },
    {
      "acc": 0.75458889,
      "epoch": 1.3797564687975648,
      "grad_norm": 3.171875,
      "learning_rate": 2.4068733447057903e-06,
      "loss": 1.02621021,
      "memory(GiB)": 112.26,
      "step": 54390,
      "train_speed(iter/s)": 1.129046
    },
    {
      "acc": 0.72233825,
      "epoch": 1.3798833079654997,
      "grad_norm": 3.578125,
      "learning_rate": 2.405976826798936e-06,
      "loss": 1.11571178,
      "memory(GiB)": 112.26,
      "step": 54395,
      "train_speed(iter/s)": 1.129064
    },
    {
      "acc": 0.74872985,
      "epoch": 1.3800101471334347,
      "grad_norm": 3.09375,
      "learning_rate": 2.405080422988802e-06,
      "loss": 1.0700635,
      "memory(GiB)": 112.26,
      "step": 54400,
      "train_speed(iter/s)": 1.129077
    },
    {
      "acc": 0.74189763,
      "epoch": 1.38013698630137,
      "grad_norm": 3.5625,
      "learning_rate": 2.404184133314817e-06,
      "loss": 1.11673937,
      "memory(GiB)": 112.26,
      "step": 54405,
      "train_speed(iter/s)": 1.129088
    },
    {
      "acc": 0.74719405,
      "epoch": 1.380263825469305,
      "grad_norm": 4.40625,
      "learning_rate": 2.4032879578164027e-06,
      "loss": 1.09161263,
      "memory(GiB)": 112.26,
      "step": 54410,
      "train_speed(iter/s)": 1.129092
    },
    {
      "acc": 0.74298725,
      "epoch": 1.38039066463724,
      "grad_norm": 3.640625,
      "learning_rate": 2.402391896532978e-06,
      "loss": 1.03381214,
      "memory(GiB)": 112.26,
      "step": 54415,
      "train_speed(iter/s)": 1.129101
    },
    {
      "acc": 0.72853451,
      "epoch": 1.3805175038051751,
      "grad_norm": 3.515625,
      "learning_rate": 2.4014959495039548e-06,
      "loss": 1.14597025,
      "memory(GiB)": 112.26,
      "step": 54420,
      "train_speed(iter/s)": 1.129111
    },
    {
      "acc": 0.74305596,
      "epoch": 1.3806443429731101,
      "grad_norm": 3.84375,
      "learning_rate": 2.4006001167687416e-06,
      "loss": 1.0804513,
      "memory(GiB)": 112.26,
      "step": 54425,
      "train_speed(iter/s)": 1.129128
    },
    {
      "acc": 0.74056363,
      "epoch": 1.380771182141045,
      "grad_norm": 3.328125,
      "learning_rate": 2.39970439836674e-06,
      "loss": 1.05843515,
      "memory(GiB)": 112.26,
      "step": 54430,
      "train_speed(iter/s)": 1.129144
    },
    {
      "acc": 0.73367548,
      "epoch": 1.38089802130898,
      "grad_norm": 3.46875,
      "learning_rate": 2.3988087943373497e-06,
      "loss": 1.09044342,
      "memory(GiB)": 112.26,
      "step": 54435,
      "train_speed(iter/s)": 1.129161
    },
    {
      "acc": 0.74892983,
      "epoch": 1.3810248604769153,
      "grad_norm": 3.328125,
      "learning_rate": 2.397913304719961e-06,
      "loss": 1.00544834,
      "memory(GiB)": 112.26,
      "step": 54440,
      "train_speed(iter/s)": 1.129174
    },
    {
      "acc": 0.74071627,
      "epoch": 1.3811516996448503,
      "grad_norm": 3.890625,
      "learning_rate": 2.397017929553961e-06,
      "loss": 1.01855164,
      "memory(GiB)": 112.26,
      "step": 54445,
      "train_speed(iter/s)": 1.129192
    },
    {
      "acc": 0.73735914,
      "epoch": 1.3812785388127855,
      "grad_norm": 3.703125,
      "learning_rate": 2.396122668878738e-06,
      "loss": 1.03435497,
      "memory(GiB)": 112.26,
      "step": 54450,
      "train_speed(iter/s)": 1.129211
    },
    {
      "acc": 0.72074213,
      "epoch": 1.3814053779807205,
      "grad_norm": 3.6875,
      "learning_rate": 2.3952275227336636e-06,
      "loss": 1.17183971,
      "memory(GiB)": 112.26,
      "step": 54455,
      "train_speed(iter/s)": 1.12923
    },
    {
      "acc": 0.74114265,
      "epoch": 1.3815322171486555,
      "grad_norm": 3.59375,
      "learning_rate": 2.3943324911581117e-06,
      "loss": 1.02012739,
      "memory(GiB)": 112.26,
      "step": 54460,
      "train_speed(iter/s)": 1.129248
    },
    {
      "acc": 0.74236741,
      "epoch": 1.3816590563165905,
      "grad_norm": 3.328125,
      "learning_rate": 2.393437574191449e-06,
      "loss": 1.02672558,
      "memory(GiB)": 112.26,
      "step": 54465,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.74202967,
      "epoch": 1.3817858954845257,
      "grad_norm": 3.375,
      "learning_rate": 2.3925427718730426e-06,
      "loss": 1.04151268,
      "memory(GiB)": 112.26,
      "step": 54470,
      "train_speed(iter/s)": 1.129272
    },
    {
      "acc": 0.74986844,
      "epoch": 1.3819127346524607,
      "grad_norm": 4.09375,
      "learning_rate": 2.391648084242245e-06,
      "loss": 0.98832331,
      "memory(GiB)": 112.26,
      "step": 54475,
      "train_speed(iter/s)": 1.12928
    },
    {
      "acc": 0.73615503,
      "epoch": 1.3820395738203957,
      "grad_norm": 3.921875,
      "learning_rate": 2.3907535113384084e-06,
      "loss": 1.12430182,
      "memory(GiB)": 112.26,
      "step": 54480,
      "train_speed(iter/s)": 1.129294
    },
    {
      "acc": 0.74008985,
      "epoch": 1.3821664129883309,
      "grad_norm": 3.8125,
      "learning_rate": 2.389859053200883e-06,
      "loss": 1.06674128,
      "memory(GiB)": 112.26,
      "step": 54485,
      "train_speed(iter/s)": 1.129297
    },
    {
      "acc": 0.74399848,
      "epoch": 1.3822932521562659,
      "grad_norm": 3.875,
      "learning_rate": 2.3889647098690127e-06,
      "loss": 1.06795101,
      "memory(GiB)": 112.26,
      "step": 54490,
      "train_speed(iter/s)": 1.129312
    },
    {
      "acc": 0.73832731,
      "epoch": 1.3824200913242009,
      "grad_norm": 3.4375,
      "learning_rate": 2.3880704813821275e-06,
      "loss": 1.0477541,
      "memory(GiB)": 112.26,
      "step": 54495,
      "train_speed(iter/s)": 1.129323
    },
    {
      "acc": 0.73848858,
      "epoch": 1.3825469304921358,
      "grad_norm": 3.3125,
      "learning_rate": 2.3871763677795656e-06,
      "loss": 1.09808836,
      "memory(GiB)": 112.26,
      "step": 54500,
      "train_speed(iter/s)": 1.129342
    },
    {
      "acc": 0.7389667,
      "epoch": 1.382673769660071,
      "grad_norm": 4.09375,
      "learning_rate": 2.386282369100653e-06,
      "loss": 1.03026123,
      "memory(GiB)": 112.26,
      "step": 54505,
      "train_speed(iter/s)": 1.129361
    },
    {
      "acc": 0.73931689,
      "epoch": 1.382800608828006,
      "grad_norm": 3.59375,
      "learning_rate": 2.385388485384713e-06,
      "loss": 1.11100998,
      "memory(GiB)": 112.26,
      "step": 54510,
      "train_speed(iter/s)": 1.129379
    },
    {
      "acc": 0.75951214,
      "epoch": 1.3829274479959413,
      "grad_norm": 3.703125,
      "learning_rate": 2.384494716671057e-06,
      "loss": 1.04609632,
      "memory(GiB)": 112.26,
      "step": 54515,
      "train_speed(iter/s)": 1.129378
    },
    {
      "acc": 0.75990734,
      "epoch": 1.3830542871638762,
      "grad_norm": 3.78125,
      "learning_rate": 2.3836010629990027e-06,
      "loss": 0.96950054,
      "memory(GiB)": 112.26,
      "step": 54520,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.74405165,
      "epoch": 1.3831811263318112,
      "grad_norm": 4.53125,
      "learning_rate": 2.382707524407855e-06,
      "loss": 1.07726078,
      "memory(GiB)": 112.26,
      "step": 54525,
      "train_speed(iter/s)": 1.129407
    },
    {
      "acc": 0.73838015,
      "epoch": 1.3833079654997462,
      "grad_norm": 3.65625,
      "learning_rate": 2.3818141009369155e-06,
      "loss": 1.07062931,
      "memory(GiB)": 112.26,
      "step": 54530,
      "train_speed(iter/s)": 1.129423
    },
    {
      "acc": 0.74807034,
      "epoch": 1.3834348046676814,
      "grad_norm": 3.34375,
      "learning_rate": 2.3809207926254813e-06,
      "loss": 1.08156137,
      "memory(GiB)": 112.26,
      "step": 54535,
      "train_speed(iter/s)": 1.129443
    },
    {
      "acc": 0.75407705,
      "epoch": 1.3835616438356164,
      "grad_norm": 3.5,
      "learning_rate": 2.380027599512844e-06,
      "loss": 1.04505997,
      "memory(GiB)": 112.26,
      "step": 54540,
      "train_speed(iter/s)": 1.129461
    },
    {
      "acc": 0.73670382,
      "epoch": 1.3836884830035516,
      "grad_norm": 4.5,
      "learning_rate": 2.3791345216382906e-06,
      "loss": 1.04985065,
      "memory(GiB)": 112.26,
      "step": 54545,
      "train_speed(iter/s)": 1.129478
    },
    {
      "acc": 0.73549423,
      "epoch": 1.3838153221714866,
      "grad_norm": 3.859375,
      "learning_rate": 2.378241559041102e-06,
      "loss": 1.09859104,
      "memory(GiB)": 112.26,
      "step": 54550,
      "train_speed(iter/s)": 1.129494
    },
    {
      "acc": 0.73748498,
      "epoch": 1.3839421613394216,
      "grad_norm": 3.8125,
      "learning_rate": 2.377348711760555e-06,
      "loss": 1.10785675,
      "memory(GiB)": 112.26,
      "step": 54555,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.73828707,
      "epoch": 1.3840690005073566,
      "grad_norm": 4.21875,
      "learning_rate": 2.3764559798359204e-06,
      "loss": 1.06106501,
      "memory(GiB)": 112.26,
      "step": 54560,
      "train_speed(iter/s)": 1.129528
    },
    {
      "acc": 0.74646583,
      "epoch": 1.3841958396752918,
      "grad_norm": 3.546875,
      "learning_rate": 2.3755633633064658e-06,
      "loss": 1.0047451,
      "memory(GiB)": 112.26,
      "step": 54565,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.72442446,
      "epoch": 1.3843226788432268,
      "grad_norm": 3.109375,
      "learning_rate": 2.374670862211451e-06,
      "loss": 1.15788727,
      "memory(GiB)": 112.26,
      "step": 54570,
      "train_speed(iter/s)": 1.129556
    },
    {
      "acc": 0.75196581,
      "epoch": 1.3844495180111618,
      "grad_norm": 4.03125,
      "learning_rate": 2.373778476590134e-06,
      "loss": 1.0160593,
      "memory(GiB)": 112.26,
      "step": 54575,
      "train_speed(iter/s)": 1.129576
    },
    {
      "acc": 0.74807434,
      "epoch": 1.384576357179097,
      "grad_norm": 3.578125,
      "learning_rate": 2.372886206481764e-06,
      "loss": 1.01663427,
      "memory(GiB)": 112.26,
      "step": 54580,
      "train_speed(iter/s)": 1.12959
    },
    {
      "acc": 0.73524022,
      "epoch": 1.384703196347032,
      "grad_norm": 2.90625,
      "learning_rate": 2.3719940519255864e-06,
      "loss": 1.08603592,
      "memory(GiB)": 112.26,
      "step": 54585,
      "train_speed(iter/s)": 1.129607
    },
    {
      "acc": 0.73869205,
      "epoch": 1.384830035514967,
      "grad_norm": 4.125,
      "learning_rate": 2.371102012960847e-06,
      "loss": 1.09860191,
      "memory(GiB)": 112.26,
      "step": 54590,
      "train_speed(iter/s)": 1.129621
    },
    {
      "acc": 0.7495904,
      "epoch": 1.384956874682902,
      "grad_norm": 5.03125,
      "learning_rate": 2.3702100896267767e-06,
      "loss": 1.01456623,
      "memory(GiB)": 112.26,
      "step": 54595,
      "train_speed(iter/s)": 1.12964
    },
    {
      "acc": 0.75170145,
      "epoch": 1.3850837138508372,
      "grad_norm": 3.078125,
      "learning_rate": 2.3693182819626077e-06,
      "loss": 1.04605732,
      "memory(GiB)": 112.26,
      "step": 54600,
      "train_speed(iter/s)": 1.129651
    },
    {
      "acc": 0.74086738,
      "epoch": 1.3852105530187722,
      "grad_norm": 3.96875,
      "learning_rate": 2.3684265900075637e-06,
      "loss": 1.05913048,
      "memory(GiB)": 112.26,
      "step": 54605,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.74007664,
      "epoch": 1.3853373921867074,
      "grad_norm": 3.421875,
      "learning_rate": 2.3675350138008714e-06,
      "loss": 1.07230625,
      "memory(GiB)": 112.26,
      "step": 54610,
      "train_speed(iter/s)": 1.129681
    },
    {
      "acc": 0.74442525,
      "epoch": 1.3854642313546424,
      "grad_norm": 3.546875,
      "learning_rate": 2.3666435533817406e-06,
      "loss": 1.09130659,
      "memory(GiB)": 112.26,
      "step": 54615,
      "train_speed(iter/s)": 1.129671
    },
    {
      "acc": 0.74391446,
      "epoch": 1.3855910705225774,
      "grad_norm": 4.4375,
      "learning_rate": 2.3657522087893806e-06,
      "loss": 1.0509429,
      "memory(GiB)": 112.26,
      "step": 54620,
      "train_speed(iter/s)": 1.129688
    },
    {
      "acc": 0.74923773,
      "epoch": 1.3857179096905123,
      "grad_norm": 3.453125,
      "learning_rate": 2.3648609800630022e-06,
      "loss": 1.06071243,
      "memory(GiB)": 112.26,
      "step": 54625,
      "train_speed(iter/s)": 1.129702
    },
    {
      "acc": 0.73640451,
      "epoch": 1.3858447488584476,
      "grad_norm": 3.359375,
      "learning_rate": 2.363969867241805e-06,
      "loss": 1.06649895,
      "memory(GiB)": 112.26,
      "step": 54630,
      "train_speed(iter/s)": 1.129721
    },
    {
      "acc": 0.73241196,
      "epoch": 1.3859715880263825,
      "grad_norm": 3.6875,
      "learning_rate": 2.36307887036498e-06,
      "loss": 1.08974209,
      "memory(GiB)": 112.26,
      "step": 54635,
      "train_speed(iter/s)": 1.129731
    },
    {
      "acc": 0.74642143,
      "epoch": 1.3860984271943175,
      "grad_norm": 3.5625,
      "learning_rate": 2.3621879894717177e-06,
      "loss": 1.02466373,
      "memory(GiB)": 112.26,
      "step": 54640,
      "train_speed(iter/s)": 1.129737
    },
    {
      "acc": 0.76611276,
      "epoch": 1.3862252663622527,
      "grad_norm": 3.828125,
      "learning_rate": 2.361297224601206e-06,
      "loss": 0.99026585,
      "memory(GiB)": 112.26,
      "step": 54645,
      "train_speed(iter/s)": 1.129753
    },
    {
      "acc": 0.75392799,
      "epoch": 1.3863521055301877,
      "grad_norm": 3.546875,
      "learning_rate": 2.360406575792625e-06,
      "loss": 1.01478033,
      "memory(GiB)": 112.26,
      "step": 54650,
      "train_speed(iter/s)": 1.129766
    },
    {
      "acc": 0.75135021,
      "epoch": 1.3864789446981227,
      "grad_norm": 3.21875,
      "learning_rate": 2.3595160430851445e-06,
      "loss": 0.97532158,
      "memory(GiB)": 112.26,
      "step": 54655,
      "train_speed(iter/s)": 1.129781
    },
    {
      "acc": 0.73306155,
      "epoch": 1.3866057838660577,
      "grad_norm": 4.5625,
      "learning_rate": 2.3586256265179392e-06,
      "loss": 1.05590572,
      "memory(GiB)": 112.26,
      "step": 54660,
      "train_speed(iter/s)": 1.129801
    },
    {
      "acc": 0.74979782,
      "epoch": 1.386732623033993,
      "grad_norm": 4.0,
      "learning_rate": 2.3577353261301715e-06,
      "loss": 0.99507666,
      "memory(GiB)": 112.26,
      "step": 54665,
      "train_speed(iter/s)": 1.129794
    },
    {
      "acc": 0.73873339,
      "epoch": 1.386859462201928,
      "grad_norm": 4.15625,
      "learning_rate": 2.356845141961001e-06,
      "loss": 1.10280037,
      "memory(GiB)": 112.26,
      "step": 54670,
      "train_speed(iter/s)": 1.129802
    },
    {
      "acc": 0.73561068,
      "epoch": 1.3869863013698631,
      "grad_norm": 3.65625,
      "learning_rate": 2.355955074049582e-06,
      "loss": 1.02033548,
      "memory(GiB)": 112.26,
      "step": 54675,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.74749994,
      "epoch": 1.387113140537798,
      "grad_norm": 4.125,
      "learning_rate": 2.355065122435064e-06,
      "loss": 1.04628534,
      "memory(GiB)": 112.26,
      "step": 54680,
      "train_speed(iter/s)": 1.129827
    },
    {
      "acc": 0.73652086,
      "epoch": 1.387239979705733,
      "grad_norm": 4.65625,
      "learning_rate": 2.3541752871565902e-06,
      "loss": 1.05926065,
      "memory(GiB)": 112.26,
      "step": 54685,
      "train_speed(iter/s)": 1.129847
    },
    {
      "acc": 0.74288025,
      "epoch": 1.387366818873668,
      "grad_norm": 3.03125,
      "learning_rate": 2.3532855682533003e-06,
      "loss": 1.05341988,
      "memory(GiB)": 112.26,
      "step": 54690,
      "train_speed(iter/s)": 1.129862
    },
    {
      "acc": 0.74264407,
      "epoch": 1.3874936580416033,
      "grad_norm": 4.03125,
      "learning_rate": 2.352395965764328e-06,
      "loss": 1.04778118,
      "memory(GiB)": 112.26,
      "step": 54695,
      "train_speed(iter/s)": 1.129881
    },
    {
      "acc": 0.73845267,
      "epoch": 1.3876204972095383,
      "grad_norm": 3.28125,
      "learning_rate": 2.3515064797288013e-06,
      "loss": 1.04458475,
      "memory(GiB)": 112.26,
      "step": 54700,
      "train_speed(iter/s)": 1.129894
    },
    {
      "acc": 0.73645773,
      "epoch": 1.3877473363774735,
      "grad_norm": 3.25,
      "learning_rate": 2.350617110185845e-06,
      "loss": 1.10064907,
      "memory(GiB)": 112.26,
      "step": 54705,
      "train_speed(iter/s)": 1.129902
    },
    {
      "acc": 0.74901066,
      "epoch": 1.3878741755454085,
      "grad_norm": 3.28125,
      "learning_rate": 2.3497278571745763e-06,
      "loss": 1.02382603,
      "memory(GiB)": 112.26,
      "step": 54710,
      "train_speed(iter/s)": 1.12992
    },
    {
      "acc": 0.74722624,
      "epoch": 1.3880010147133435,
      "grad_norm": 3.78125,
      "learning_rate": 2.348838720734109e-06,
      "loss": 1.00985394,
      "memory(GiB)": 112.26,
      "step": 54715,
      "train_speed(iter/s)": 1.129938
    },
    {
      "acc": 0.74227591,
      "epoch": 1.3881278538812785,
      "grad_norm": 3.90625,
      "learning_rate": 2.347949700903552e-06,
      "loss": 1.06757317,
      "memory(GiB)": 112.26,
      "step": 54720,
      "train_speed(iter/s)": 1.129949
    },
    {
      "acc": 0.73050795,
      "epoch": 1.3882546930492137,
      "grad_norm": 4.21875,
      "learning_rate": 2.3470607977220066e-06,
      "loss": 1.03199053,
      "memory(GiB)": 112.26,
      "step": 54725,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.74278288,
      "epoch": 1.3883815322171487,
      "grad_norm": 3.46875,
      "learning_rate": 2.346172011228573e-06,
      "loss": 1.06001501,
      "memory(GiB)": 112.26,
      "step": 54730,
      "train_speed(iter/s)": 1.129979
    },
    {
      "acc": 0.75557775,
      "epoch": 1.3885083713850837,
      "grad_norm": 3.40625,
      "learning_rate": 2.345283341462342e-06,
      "loss": 1.0029459,
      "memory(GiB)": 112.26,
      "step": 54735,
      "train_speed(iter/s)": 1.129998
    },
    {
      "acc": 0.73221846,
      "epoch": 1.3886352105530189,
      "grad_norm": 3.609375,
      "learning_rate": 2.3443947884624026e-06,
      "loss": 1.10540791,
      "memory(GiB)": 112.26,
      "step": 54740,
      "train_speed(iter/s)": 1.130009
    },
    {
      "acc": 0.74209795,
      "epoch": 1.3887620497209539,
      "grad_norm": 3.953125,
      "learning_rate": 2.3435063522678346e-06,
      "loss": 1.01970625,
      "memory(GiB)": 112.26,
      "step": 54745,
      "train_speed(iter/s)": 1.130024
    },
    {
      "acc": 0.73440456,
      "epoch": 1.3888888888888888,
      "grad_norm": 3.1875,
      "learning_rate": 2.3426180329177217e-06,
      "loss": 1.05343676,
      "memory(GiB)": 112.26,
      "step": 54750,
      "train_speed(iter/s)": 1.130032
    },
    {
      "acc": 0.73533964,
      "epoch": 1.3890157280568238,
      "grad_norm": 3.28125,
      "learning_rate": 2.3417298304511297e-06,
      "loss": 1.06819334,
      "memory(GiB)": 112.26,
      "step": 54755,
      "train_speed(iter/s)": 1.130049
    },
    {
      "acc": 0.72283044,
      "epoch": 1.389142567224759,
      "grad_norm": 3.75,
      "learning_rate": 2.340841744907127e-06,
      "loss": 1.13949823,
      "memory(GiB)": 112.26,
      "step": 54760,
      "train_speed(iter/s)": 1.130066
    },
    {
      "acc": 0.74524727,
      "epoch": 1.389269406392694,
      "grad_norm": 4.21875,
      "learning_rate": 2.3399537763247783e-06,
      "loss": 1.01941042,
      "memory(GiB)": 112.26,
      "step": 54765,
      "train_speed(iter/s)": 1.130086
    },
    {
      "acc": 0.74003477,
      "epoch": 1.3893962455606292,
      "grad_norm": 3.421875,
      "learning_rate": 2.3390659247431404e-06,
      "loss": 1.05679932,
      "memory(GiB)": 112.26,
      "step": 54770,
      "train_speed(iter/s)": 1.130104
    },
    {
      "acc": 0.7433054,
      "epoch": 1.3895230847285642,
      "grad_norm": 4.25,
      "learning_rate": 2.338178190201261e-06,
      "loss": 1.02016468,
      "memory(GiB)": 112.26,
      "step": 54775,
      "train_speed(iter/s)": 1.130105
    },
    {
      "acc": 0.74454484,
      "epoch": 1.3896499238964992,
      "grad_norm": 3.59375,
      "learning_rate": 2.3372905727381877e-06,
      "loss": 1.03567629,
      "memory(GiB)": 112.26,
      "step": 54780,
      "train_speed(iter/s)": 1.130123
    },
    {
      "acc": 0.74519763,
      "epoch": 1.3897767630644342,
      "grad_norm": 3.796875,
      "learning_rate": 2.3364030723929647e-06,
      "loss": 1.02654076,
      "memory(GiB)": 112.26,
      "step": 54785,
      "train_speed(iter/s)": 1.130136
    },
    {
      "acc": 0.75511193,
      "epoch": 1.3899036022323694,
      "grad_norm": 3.515625,
      "learning_rate": 2.335515689204629e-06,
      "loss": 1.01591129,
      "memory(GiB)": 112.26,
      "step": 54790,
      "train_speed(iter/s)": 1.130149
    },
    {
      "acc": 0.74763093,
      "epoch": 1.3900304414003044,
      "grad_norm": 3.90625,
      "learning_rate": 2.334628423212206e-06,
      "loss": 1.04006329,
      "memory(GiB)": 112.26,
      "step": 54795,
      "train_speed(iter/s)": 1.130151
    },
    {
      "acc": 0.74433012,
      "epoch": 1.3901572805682394,
      "grad_norm": 3.84375,
      "learning_rate": 2.3337412744547256e-06,
      "loss": 1.03427629,
      "memory(GiB)": 112.26,
      "step": 54800,
      "train_speed(iter/s)": 1.130163
    },
    {
      "acc": 0.75245972,
      "epoch": 1.3902841197361746,
      "grad_norm": 3.765625,
      "learning_rate": 2.332854242971209e-06,
      "loss": 1.04396296,
      "memory(GiB)": 112.26,
      "step": 54805,
      "train_speed(iter/s)": 1.130181
    },
    {
      "acc": 0.73721476,
      "epoch": 1.3904109589041096,
      "grad_norm": 5.03125,
      "learning_rate": 2.331967328800672e-06,
      "loss": 1.04329863,
      "memory(GiB)": 112.26,
      "step": 54810,
      "train_speed(iter/s)": 1.130199
    },
    {
      "acc": 0.75065784,
      "epoch": 1.3905377980720446,
      "grad_norm": 3.8125,
      "learning_rate": 2.33108053198212e-06,
      "loss": 0.98171597,
      "memory(GiB)": 112.26,
      "step": 54815,
      "train_speed(iter/s)": 1.130208
    },
    {
      "acc": 0.73758554,
      "epoch": 1.3906646372399796,
      "grad_norm": 3.53125,
      "learning_rate": 2.330193852554564e-06,
      "loss": 1.04976139,
      "memory(GiB)": 112.26,
      "step": 54820,
      "train_speed(iter/s)": 1.130221
    },
    {
      "acc": 0.74755931,
      "epoch": 1.3907914764079148,
      "grad_norm": 4.5,
      "learning_rate": 2.3293072905570024e-06,
      "loss": 1.04779949,
      "memory(GiB)": 112.26,
      "step": 54825,
      "train_speed(iter/s)": 1.130227
    },
    {
      "acc": 0.74446173,
      "epoch": 1.3909183155758498,
      "grad_norm": 3.0,
      "learning_rate": 2.3284208460284303e-06,
      "loss": 1.0705987,
      "memory(GiB)": 112.26,
      "step": 54830,
      "train_speed(iter/s)": 1.130227
    },
    {
      "acc": 0.75798821,
      "epoch": 1.391045154743785,
      "grad_norm": 4.28125,
      "learning_rate": 2.3275345190078364e-06,
      "loss": 1.0502327,
      "memory(GiB)": 112.26,
      "step": 54835,
      "train_speed(iter/s)": 1.13025
    },
    {
      "acc": 0.72394609,
      "epoch": 1.39117199391172,
      "grad_norm": 3.3125,
      "learning_rate": 2.3266483095342064e-06,
      "loss": 1.0996007,
      "memory(GiB)": 112.26,
      "step": 54840,
      "train_speed(iter/s)": 1.130265
    },
    {
      "acc": 0.74823065,
      "epoch": 1.391298833079655,
      "grad_norm": 3.765625,
      "learning_rate": 2.3257622176465194e-06,
      "loss": 1.01537571,
      "memory(GiB)": 112.26,
      "step": 54845,
      "train_speed(iter/s)": 1.130275
    },
    {
      "acc": 0.73312182,
      "epoch": 1.39142567224759,
      "grad_norm": 4.15625,
      "learning_rate": 2.3248762433837494e-06,
      "loss": 1.10822811,
      "memory(GiB)": 112.26,
      "step": 54850,
      "train_speed(iter/s)": 1.130293
    },
    {
      "acc": 0.74298739,
      "epoch": 1.3915525114155252,
      "grad_norm": 3.390625,
      "learning_rate": 2.323990386784867e-06,
      "loss": 1.04124136,
      "memory(GiB)": 112.26,
      "step": 54855,
      "train_speed(iter/s)": 1.130312
    },
    {
      "acc": 0.74374495,
      "epoch": 1.3916793505834602,
      "grad_norm": 5.4375,
      "learning_rate": 2.3231046478888335e-06,
      "loss": 1.0513483,
      "memory(GiB)": 112.26,
      "step": 54860,
      "train_speed(iter/s)": 1.130333
    },
    {
      "acc": 0.74135866,
      "epoch": 1.3918061897513954,
      "grad_norm": 3.859375,
      "learning_rate": 2.3222190267346094e-06,
      "loss": 1.04827232,
      "memory(GiB)": 112.26,
      "step": 54865,
      "train_speed(iter/s)": 1.130356
    },
    {
      "acc": 0.73975353,
      "epoch": 1.3919330289193304,
      "grad_norm": 3.859375,
      "learning_rate": 2.3213335233611484e-06,
      "loss": 1.03407383,
      "memory(GiB)": 112.26,
      "step": 54870,
      "train_speed(iter/s)": 1.130372
    },
    {
      "acc": 0.73725967,
      "epoch": 1.3920598680872653,
      "grad_norm": 4.5,
      "learning_rate": 2.320448137807398e-06,
      "loss": 1.04022102,
      "memory(GiB)": 112.26,
      "step": 54875,
      "train_speed(iter/s)": 1.130387
    },
    {
      "acc": 0.74013329,
      "epoch": 1.3921867072552003,
      "grad_norm": 3.5625,
      "learning_rate": 2.3195628701123017e-06,
      "loss": 1.08527317,
      "memory(GiB)": 112.26,
      "step": 54880,
      "train_speed(iter/s)": 1.130406
    },
    {
      "acc": 0.7419343,
      "epoch": 1.3923135464231355,
      "grad_norm": 3.359375,
      "learning_rate": 2.3186777203147964e-06,
      "loss": 1.05271969,
      "memory(GiB)": 112.26,
      "step": 54885,
      "train_speed(iter/s)": 1.130404
    },
    {
      "acc": 0.74432855,
      "epoch": 1.3924403855910705,
      "grad_norm": 3.765625,
      "learning_rate": 2.3177926884538193e-06,
      "loss": 1.10639191,
      "memory(GiB)": 112.26,
      "step": 54890,
      "train_speed(iter/s)": 1.130421
    },
    {
      "acc": 0.73700104,
      "epoch": 1.3925672247590055,
      "grad_norm": 4.03125,
      "learning_rate": 2.3169077745682933e-06,
      "loss": 1.04809761,
      "memory(GiB)": 112.26,
      "step": 54895,
      "train_speed(iter/s)": 1.130442
    },
    {
      "acc": 0.73787999,
      "epoch": 1.3926940639269407,
      "grad_norm": 3.953125,
      "learning_rate": 2.316022978697143e-06,
      "loss": 1.04494505,
      "memory(GiB)": 112.26,
      "step": 54900,
      "train_speed(iter/s)": 1.130454
    },
    {
      "acc": 0.73914261,
      "epoch": 1.3928209030948757,
      "grad_norm": 3.125,
      "learning_rate": 2.3151383008792826e-06,
      "loss": 1.05230656,
      "memory(GiB)": 112.26,
      "step": 54905,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.74443073,
      "epoch": 1.3929477422628107,
      "grad_norm": 3.75,
      "learning_rate": 2.314253741153631e-06,
      "loss": 1.04462633,
      "memory(GiB)": 112.26,
      "step": 54910,
      "train_speed(iter/s)": 1.130479
    },
    {
      "acc": 0.73379202,
      "epoch": 1.3930745814307457,
      "grad_norm": 3.984375,
      "learning_rate": 2.313369299559088e-06,
      "loss": 1.00794067,
      "memory(GiB)": 112.26,
      "step": 54915,
      "train_speed(iter/s)": 1.130493
    },
    {
      "acc": 0.7512063,
      "epoch": 1.393201420598681,
      "grad_norm": 3.015625,
      "learning_rate": 2.3124849761345576e-06,
      "loss": 0.95580025,
      "memory(GiB)": 112.26,
      "step": 54920,
      "train_speed(iter/s)": 1.130508
    },
    {
      "acc": 0.7501924,
      "epoch": 1.393328259766616,
      "grad_norm": 3.078125,
      "learning_rate": 2.311600770918938e-06,
      "loss": 1.04206724,
      "memory(GiB)": 112.26,
      "step": 54925,
      "train_speed(iter/s)": 1.130526
    },
    {
      "acc": 0.75072842,
      "epoch": 1.393455098934551,
      "grad_norm": 3.21875,
      "learning_rate": 2.310716683951122e-06,
      "loss": 1.04291553,
      "memory(GiB)": 112.26,
      "step": 54930,
      "train_speed(iter/s)": 1.130534
    },
    {
      "acc": 0.74576349,
      "epoch": 1.393581938102486,
      "grad_norm": 4.90625,
      "learning_rate": 2.3098327152699884e-06,
      "loss": 1.10245247,
      "memory(GiB)": 112.26,
      "step": 54935,
      "train_speed(iter/s)": 1.130557
    },
    {
      "acc": 0.75128465,
      "epoch": 1.393708777270421,
      "grad_norm": 3.59375,
      "learning_rate": 2.308948864914425e-06,
      "loss": 1.04333935,
      "memory(GiB)": 112.26,
      "step": 54940,
      "train_speed(iter/s)": 1.130566
    },
    {
      "acc": 0.73505416,
      "epoch": 1.393835616438356,
      "grad_norm": 4.03125,
      "learning_rate": 2.308065132923305e-06,
      "loss": 1.09006281,
      "memory(GiB)": 112.26,
      "step": 54945,
      "train_speed(iter/s)": 1.130579
    },
    {
      "acc": 0.74561253,
      "epoch": 1.3939624556062913,
      "grad_norm": 3.625,
      "learning_rate": 2.3071815193355005e-06,
      "loss": 1.03008118,
      "memory(GiB)": 112.26,
      "step": 54950,
      "train_speed(iter/s)": 1.130597
    },
    {
      "acc": 0.74460731,
      "epoch": 1.3940892947742263,
      "grad_norm": 3.625,
      "learning_rate": 2.3062980241898725e-06,
      "loss": 1.05402508,
      "memory(GiB)": 112.26,
      "step": 54955,
      "train_speed(iter/s)": 1.130618
    },
    {
      "acc": 0.73562446,
      "epoch": 1.3942161339421613,
      "grad_norm": 4.1875,
      "learning_rate": 2.3054146475252852e-06,
      "loss": 1.07502995,
      "memory(GiB)": 112.26,
      "step": 54960,
      "train_speed(iter/s)": 1.130639
    },
    {
      "acc": 0.76067314,
      "epoch": 1.3943429731100965,
      "grad_norm": 3.921875,
      "learning_rate": 2.3045313893805926e-06,
      "loss": 0.96722698,
      "memory(GiB)": 112.26,
      "step": 54965,
      "train_speed(iter/s)": 1.13066
    },
    {
      "acc": 0.74013119,
      "epoch": 1.3944698122780315,
      "grad_norm": 4.9375,
      "learning_rate": 2.303648249794644e-06,
      "loss": 1.08916883,
      "memory(GiB)": 112.26,
      "step": 54970,
      "train_speed(iter/s)": 1.130666
    },
    {
      "acc": 0.74240179,
      "epoch": 1.3945966514459665,
      "grad_norm": 3.34375,
      "learning_rate": 2.302765228806283e-06,
      "loss": 1.02159615,
      "memory(GiB)": 112.26,
      "step": 54975,
      "train_speed(iter/s)": 1.130685
    },
    {
      "acc": 0.73871822,
      "epoch": 1.3947234906139014,
      "grad_norm": 4.15625,
      "learning_rate": 2.30188232645435e-06,
      "loss": 1.10515623,
      "memory(GiB)": 112.26,
      "step": 54980,
      "train_speed(iter/s)": 1.1307
    },
    {
      "acc": 0.73472385,
      "epoch": 1.3948503297818367,
      "grad_norm": 4.03125,
      "learning_rate": 2.300999542777678e-06,
      "loss": 1.11105442,
      "memory(GiB)": 112.26,
      "step": 54985,
      "train_speed(iter/s)": 1.1306
    },
    {
      "acc": 0.7390245,
      "epoch": 1.3949771689497716,
      "grad_norm": 3.71875,
      "learning_rate": 2.300116877815097e-06,
      "loss": 1.02379675,
      "memory(GiB)": 112.26,
      "step": 54990,
      "train_speed(iter/s)": 1.130616
    },
    {
      "acc": 0.73673944,
      "epoch": 1.3951040081177069,
      "grad_norm": 3.890625,
      "learning_rate": 2.2992343316054296e-06,
      "loss": 1.0518322,
      "memory(GiB)": 112.26,
      "step": 54995,
      "train_speed(iter/s)": 1.130634
    },
    {
      "acc": 0.73931289,
      "epoch": 1.3952308472856418,
      "grad_norm": 3.234375,
      "learning_rate": 2.298351904187494e-06,
      "loss": 1.04528017,
      "memory(GiB)": 112.26,
      "step": 55000,
      "train_speed(iter/s)": 1.130649
    },
    {
      "epoch": 1.3952308472856418,
      "eval_acc": 0.7258250375373023,
      "eval_loss": 1.0442699193954468,
      "eval_runtime": 70.9729,
      "eval_samples_per_second": 89.753,
      "eval_steps_per_second": 22.445,
      "step": 55000
    },
    {
      "acc": 0.74296889,
      "epoch": 1.3953576864535768,
      "grad_norm": 3.453125,
      "learning_rate": 2.297469595600104e-06,
      "loss": 1.03951683,
      "memory(GiB)": 112.26,
      "step": 55005,
      "train_speed(iter/s)": 1.12799
    },
    {
      "acc": 0.73337774,
      "epoch": 1.3954845256215118,
      "grad_norm": 3.515625,
      "learning_rate": 2.2965874058820668e-06,
      "loss": 1.08512115,
      "memory(GiB)": 112.26,
      "step": 55010,
      "train_speed(iter/s)": 1.127997
    },
    {
      "acc": 0.75107245,
      "epoch": 1.395611364789447,
      "grad_norm": 4.8125,
      "learning_rate": 2.2957053350721857e-06,
      "loss": 1.05263376,
      "memory(GiB)": 112.26,
      "step": 55015,
      "train_speed(iter/s)": 1.128005
    },
    {
      "acc": 0.73994308,
      "epoch": 1.395738203957382,
      "grad_norm": 4.0625,
      "learning_rate": 2.294823383209258e-06,
      "loss": 1.06417713,
      "memory(GiB)": 112.26,
      "step": 55020,
      "train_speed(iter/s)": 1.128016
    },
    {
      "acc": 0.74604111,
      "epoch": 1.3958650431253172,
      "grad_norm": 3.703125,
      "learning_rate": 2.2939415503320733e-06,
      "loss": 1.03051815,
      "memory(GiB)": 112.26,
      "step": 55025,
      "train_speed(iter/s)": 1.128036
    },
    {
      "acc": 0.72002654,
      "epoch": 1.3959918822932522,
      "grad_norm": 3.328125,
      "learning_rate": 2.293059836479425e-06,
      "loss": 1.10211048,
      "memory(GiB)": 112.26,
      "step": 55030,
      "train_speed(iter/s)": 1.128052
    },
    {
      "acc": 0.74638062,
      "epoch": 1.3961187214611872,
      "grad_norm": 3.484375,
      "learning_rate": 2.2921782416900883e-06,
      "loss": 1.01259937,
      "memory(GiB)": 112.26,
      "step": 55035,
      "train_speed(iter/s)": 1.12807
    },
    {
      "acc": 0.75211825,
      "epoch": 1.3962455606291222,
      "grad_norm": 4.03125,
      "learning_rate": 2.2912967660028425e-06,
      "loss": 1.03326759,
      "memory(GiB)": 112.26,
      "step": 55040,
      "train_speed(iter/s)": 1.128076
    },
    {
      "acc": 0.75302591,
      "epoch": 1.3963723997970574,
      "grad_norm": 2.78125,
      "learning_rate": 2.2904154094564568e-06,
      "loss": 1.01195173,
      "memory(GiB)": 112.26,
      "step": 55045,
      "train_speed(iter/s)": 1.128092
    },
    {
      "acc": 0.73163786,
      "epoch": 1.3964992389649924,
      "grad_norm": 3.734375,
      "learning_rate": 2.2895341720897018e-06,
      "loss": 1.04979105,
      "memory(GiB)": 112.26,
      "step": 55050,
      "train_speed(iter/s)": 1.128104
    },
    {
      "acc": 0.73236995,
      "epoch": 1.3966260781329274,
      "grad_norm": 3.984375,
      "learning_rate": 2.2886530539413336e-06,
      "loss": 1.10862684,
      "memory(GiB)": 112.26,
      "step": 55055,
      "train_speed(iter/s)": 1.128126
    },
    {
      "acc": 0.74103317,
      "epoch": 1.3967529173008626,
      "grad_norm": 3.515625,
      "learning_rate": 2.2877720550501082e-06,
      "loss": 1.06753492,
      "memory(GiB)": 112.26,
      "step": 55060,
      "train_speed(iter/s)": 1.128143
    },
    {
      "acc": 0.76384611,
      "epoch": 1.3968797564687976,
      "grad_norm": 4.03125,
      "learning_rate": 2.2868911754547783e-06,
      "loss": 1.00421791,
      "memory(GiB)": 112.26,
      "step": 55065,
      "train_speed(iter/s)": 1.128155
    },
    {
      "acc": 0.74481664,
      "epoch": 1.3970065956367326,
      "grad_norm": 3.640625,
      "learning_rate": 2.28601041519409e-06,
      "loss": 1.01292858,
      "memory(GiB)": 112.26,
      "step": 55070,
      "train_speed(iter/s)": 1.128163
    },
    {
      "acc": 0.73580155,
      "epoch": 1.3971334348046676,
      "grad_norm": 4.15625,
      "learning_rate": 2.2851297743067786e-06,
      "loss": 1.06906319,
      "memory(GiB)": 112.26,
      "step": 55075,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.74261742,
      "epoch": 1.3972602739726028,
      "grad_norm": 3.765625,
      "learning_rate": 2.2842492528315784e-06,
      "loss": 0.99228754,
      "memory(GiB)": 112.26,
      "step": 55080,
      "train_speed(iter/s)": 1.128192
    },
    {
      "acc": 0.74136209,
      "epoch": 1.3973871131405378,
      "grad_norm": 3.59375,
      "learning_rate": 2.283368850807223e-06,
      "loss": 1.02719622,
      "memory(GiB)": 112.26,
      "step": 55085,
      "train_speed(iter/s)": 1.128209
    },
    {
      "acc": 0.74802308,
      "epoch": 1.397513952308473,
      "grad_norm": 3.78125,
      "learning_rate": 2.282488568272437e-06,
      "loss": 1.03401709,
      "memory(GiB)": 112.26,
      "step": 55090,
      "train_speed(iter/s)": 1.128227
    },
    {
      "acc": 0.73340869,
      "epoch": 1.397640791476408,
      "grad_norm": 3.796875,
      "learning_rate": 2.2816084052659326e-06,
      "loss": 1.09174118,
      "memory(GiB)": 112.26,
      "step": 55095,
      "train_speed(iter/s)": 1.128225
    },
    {
      "acc": 0.74034281,
      "epoch": 1.397767630644343,
      "grad_norm": 3.578125,
      "learning_rate": 2.2807283618264288e-06,
      "loss": 1.09318476,
      "memory(GiB)": 112.26,
      "step": 55100,
      "train_speed(iter/s)": 1.128228
    },
    {
      "acc": 0.74641352,
      "epoch": 1.397894469812278,
      "grad_norm": 3.8125,
      "learning_rate": 2.2798484379926324e-06,
      "loss": 1.02039261,
      "memory(GiB)": 112.26,
      "step": 55105,
      "train_speed(iter/s)": 1.128234
    },
    {
      "acc": 0.74930429,
      "epoch": 1.3980213089802132,
      "grad_norm": 3.765625,
      "learning_rate": 2.278968633803246e-06,
      "loss": 1.00127192,
      "memory(GiB)": 112.26,
      "step": 55110,
      "train_speed(iter/s)": 1.128249
    },
    {
      "acc": 0.74129696,
      "epoch": 1.3981481481481481,
      "grad_norm": 3.5625,
      "learning_rate": 2.2780889492969684e-06,
      "loss": 1.03280506,
      "memory(GiB)": 112.26,
      "step": 55115,
      "train_speed(iter/s)": 1.128263
    },
    {
      "acc": 0.75278473,
      "epoch": 1.3982749873160831,
      "grad_norm": 3.84375,
      "learning_rate": 2.277209384512491e-06,
      "loss": 1.00353966,
      "memory(GiB)": 112.26,
      "step": 55120,
      "train_speed(iter/s)": 1.128278
    },
    {
      "acc": 0.73420215,
      "epoch": 1.3984018264840183,
      "grad_norm": 5.34375,
      "learning_rate": 2.2763299394885013e-06,
      "loss": 1.05531006,
      "memory(GiB)": 112.26,
      "step": 55125,
      "train_speed(iter/s)": 1.128297
    },
    {
      "acc": 0.74193201,
      "epoch": 1.3985286656519533,
      "grad_norm": 3.28125,
      "learning_rate": 2.2754506142636808e-06,
      "loss": 1.07246609,
      "memory(GiB)": 112.26,
      "step": 55130,
      "train_speed(iter/s)": 1.128315
    },
    {
      "acc": 0.74878502,
      "epoch": 1.3986555048198883,
      "grad_norm": 3.4375,
      "learning_rate": 2.274571408876707e-06,
      "loss": 1.02314472,
      "memory(GiB)": 112.26,
      "step": 55135,
      "train_speed(iter/s)": 1.12833
    },
    {
      "acc": 0.75288825,
      "epoch": 1.3987823439878233,
      "grad_norm": 4.53125,
      "learning_rate": 2.2736923233662504e-06,
      "loss": 1.05474815,
      "memory(GiB)": 112.26,
      "step": 55140,
      "train_speed(iter/s)": 1.12834
    },
    {
      "acc": 0.7385469,
      "epoch": 1.3989091831557585,
      "grad_norm": 3.28125,
      "learning_rate": 2.2728133577709776e-06,
      "loss": 1.10006599,
      "memory(GiB)": 112.26,
      "step": 55145,
      "train_speed(iter/s)": 1.128357
    },
    {
      "acc": 0.74667702,
      "epoch": 1.3990360223236935,
      "grad_norm": 4.09375,
      "learning_rate": 2.2719345121295495e-06,
      "loss": 1.05362167,
      "memory(GiB)": 112.26,
      "step": 55150,
      "train_speed(iter/s)": 1.128375
    },
    {
      "acc": 0.72519283,
      "epoch": 1.3991628614916287,
      "grad_norm": 3.515625,
      "learning_rate": 2.2710557864806214e-06,
      "loss": 1.12255554,
      "memory(GiB)": 112.26,
      "step": 55155,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.74418206,
      "epoch": 1.3992897006595637,
      "grad_norm": 3.84375,
      "learning_rate": 2.2701771808628438e-06,
      "loss": 1.03410788,
      "memory(GiB)": 112.26,
      "step": 55160,
      "train_speed(iter/s)": 1.128403
    },
    {
      "acc": 0.73935122,
      "epoch": 1.3994165398274987,
      "grad_norm": 3.65625,
      "learning_rate": 2.269298695314861e-06,
      "loss": 1.08162098,
      "memory(GiB)": 112.26,
      "step": 55165,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.74648056,
      "epoch": 1.3995433789954337,
      "grad_norm": 3.640625,
      "learning_rate": 2.268420329875314e-06,
      "loss": 1.03971844,
      "memory(GiB)": 112.26,
      "step": 55170,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.74404888,
      "epoch": 1.399670218163369,
      "grad_norm": 3.5,
      "learning_rate": 2.2675420845828363e-06,
      "loss": 1.00869884,
      "memory(GiB)": 112.26,
      "step": 55175,
      "train_speed(iter/s)": 1.128447
    },
    {
      "acc": 0.73960347,
      "epoch": 1.3997970573313039,
      "grad_norm": 4.625,
      "learning_rate": 2.266663959476057e-06,
      "loss": 1.01935024,
      "memory(GiB)": 112.26,
      "step": 55180,
      "train_speed(iter/s)": 1.128466
    },
    {
      "acc": 0.74163961,
      "epoch": 1.399923896499239,
      "grad_norm": 4.1875,
      "learning_rate": 2.265785954593598e-06,
      "loss": 1.03163261,
      "memory(GiB)": 112.26,
      "step": 55185,
      "train_speed(iter/s)": 1.128488
    },
    {
      "acc": 0.73568077,
      "epoch": 1.400050735667174,
      "grad_norm": 3.859375,
      "learning_rate": 2.264908069974085e-06,
      "loss": 1.0366045,
      "memory(GiB)": 112.26,
      "step": 55190,
      "train_speed(iter/s)": 1.128508
    },
    {
      "acc": 0.75187149,
      "epoch": 1.400177574835109,
      "grad_norm": 4.0,
      "learning_rate": 2.2640303056561236e-06,
      "loss": 1.02290421,
      "memory(GiB)": 112.26,
      "step": 55195,
      "train_speed(iter/s)": 1.128514
    },
    {
      "acc": 0.73250284,
      "epoch": 1.400304414003044,
      "grad_norm": 5.03125,
      "learning_rate": 2.2631526616783234e-06,
      "loss": 1.05005693,
      "memory(GiB)": 112.26,
      "step": 55200,
      "train_speed(iter/s)": 1.128538
    },
    {
      "acc": 0.74364681,
      "epoch": 1.4004312531709793,
      "grad_norm": 3.671875,
      "learning_rate": 2.2622751380792896e-06,
      "loss": 1.04302292,
      "memory(GiB)": 112.26,
      "step": 55205,
      "train_speed(iter/s)": 1.128541
    },
    {
      "acc": 0.73215933,
      "epoch": 1.4005580923389143,
      "grad_norm": 3.515625,
      "learning_rate": 2.26139773489762e-06,
      "loss": 1.06620045,
      "memory(GiB)": 112.26,
      "step": 55210,
      "train_speed(iter/s)": 1.128557
    },
    {
      "acc": 0.74352427,
      "epoch": 1.4006849315068493,
      "grad_norm": 3.34375,
      "learning_rate": 2.260520452171904e-06,
      "loss": 1.0407073,
      "memory(GiB)": 112.26,
      "step": 55215,
      "train_speed(iter/s)": 1.12857
    },
    {
      "acc": 0.73889561,
      "epoch": 1.4008117706747845,
      "grad_norm": 3.421875,
      "learning_rate": 2.259643289940727e-06,
      "loss": 1.01874685,
      "memory(GiB)": 112.26,
      "step": 55220,
      "train_speed(iter/s)": 1.128583
    },
    {
      "acc": 0.73713446,
      "epoch": 1.4009386098427195,
      "grad_norm": 3.9375,
      "learning_rate": 2.2587662482426748e-06,
      "loss": 1.06806736,
      "memory(GiB)": 112.26,
      "step": 55225,
      "train_speed(iter/s)": 1.128605
    },
    {
      "acc": 0.73645239,
      "epoch": 1.4010654490106544,
      "grad_norm": 4.5,
      "learning_rate": 2.2578893271163234e-06,
      "loss": 1.10611811,
      "memory(GiB)": 112.26,
      "step": 55230,
      "train_speed(iter/s)": 1.128623
    },
    {
      "acc": 0.74202185,
      "epoch": 1.4011922881785894,
      "grad_norm": 3.65625,
      "learning_rate": 2.2570125266002385e-06,
      "loss": 1.0480175,
      "memory(GiB)": 112.26,
      "step": 55235,
      "train_speed(iter/s)": 1.12863
    },
    {
      "acc": 0.74042263,
      "epoch": 1.4013191273465246,
      "grad_norm": 4.25,
      "learning_rate": 2.2561358467329907e-06,
      "loss": 1.06405764,
      "memory(GiB)": 112.26,
      "step": 55240,
      "train_speed(iter/s)": 1.128646
    },
    {
      "acc": 0.73721938,
      "epoch": 1.4014459665144596,
      "grad_norm": 4.1875,
      "learning_rate": 2.2552592875531397e-06,
      "loss": 1.07305336,
      "memory(GiB)": 112.26,
      "step": 55245,
      "train_speed(iter/s)": 1.12865
    },
    {
      "acc": 0.74582472,
      "epoch": 1.4015728056823948,
      "grad_norm": 3.578125,
      "learning_rate": 2.254382849099241e-06,
      "loss": 1.02901039,
      "memory(GiB)": 112.26,
      "step": 55250,
      "train_speed(iter/s)": 1.12866
    },
    {
      "acc": 0.74864707,
      "epoch": 1.4016996448503298,
      "grad_norm": 3.765625,
      "learning_rate": 2.253506531409839e-06,
      "loss": 1.01137104,
      "memory(GiB)": 112.26,
      "step": 55255,
      "train_speed(iter/s)": 1.128676
    },
    {
      "acc": 0.73693433,
      "epoch": 1.4018264840182648,
      "grad_norm": 4.1875,
      "learning_rate": 2.252630334523484e-06,
      "loss": 1.09434881,
      "memory(GiB)": 112.26,
      "step": 55260,
      "train_speed(iter/s)": 1.128692
    },
    {
      "acc": 0.72864947,
      "epoch": 1.4019533231861998,
      "grad_norm": 4.125,
      "learning_rate": 2.2517542584787134e-06,
      "loss": 1.09930134,
      "memory(GiB)": 112.26,
      "step": 55265,
      "train_speed(iter/s)": 1.128697
    },
    {
      "acc": 0.7393755,
      "epoch": 1.402080162354135,
      "grad_norm": 3.578125,
      "learning_rate": 2.2508783033140596e-06,
      "loss": 1.04396687,
      "memory(GiB)": 112.26,
      "step": 55270,
      "train_speed(iter/s)": 1.128719
    },
    {
      "acc": 0.72145662,
      "epoch": 1.40220700152207,
      "grad_norm": 4.59375,
      "learning_rate": 2.2500024690680528e-06,
      "loss": 1.1326725,
      "memory(GiB)": 112.26,
      "step": 55275,
      "train_speed(iter/s)": 1.12874
    },
    {
      "acc": 0.75373459,
      "epoch": 1.402333840690005,
      "grad_norm": 3.75,
      "learning_rate": 2.249126755779215e-06,
      "loss": 0.98928499,
      "memory(GiB)": 112.26,
      "step": 55280,
      "train_speed(iter/s)": 1.128749
    },
    {
      "acc": 0.73756666,
      "epoch": 1.4024606798579402,
      "grad_norm": 3.578125,
      "learning_rate": 2.2482511634860645e-06,
      "loss": 1.05371323,
      "memory(GiB)": 112.26,
      "step": 55285,
      "train_speed(iter/s)": 1.128763
    },
    {
      "acc": 0.74174175,
      "epoch": 1.4025875190258752,
      "grad_norm": 4.28125,
      "learning_rate": 2.247375692227113e-06,
      "loss": 1.05145264,
      "memory(GiB)": 112.26,
      "step": 55290,
      "train_speed(iter/s)": 1.128778
    },
    {
      "acc": 0.73666244,
      "epoch": 1.4027143581938102,
      "grad_norm": 4.125,
      "learning_rate": 2.2465003420408683e-06,
      "loss": 1.09299841,
      "memory(GiB)": 112.26,
      "step": 55295,
      "train_speed(iter/s)": 1.128799
    },
    {
      "acc": 0.74411001,
      "epoch": 1.4028411973617452,
      "grad_norm": 3.515625,
      "learning_rate": 2.2456251129658325e-06,
      "loss": 1.06208429,
      "memory(GiB)": 112.26,
      "step": 55300,
      "train_speed(iter/s)": 1.128811
    },
    {
      "acc": 0.72263336,
      "epoch": 1.4029680365296804,
      "grad_norm": 3.75,
      "learning_rate": 2.2447500050405008e-06,
      "loss": 1.09480228,
      "memory(GiB)": 112.26,
      "step": 55305,
      "train_speed(iter/s)": 1.128812
    },
    {
      "acc": 0.75099678,
      "epoch": 1.4030948756976154,
      "grad_norm": 5.84375,
      "learning_rate": 2.2438750183033657e-06,
      "loss": 1.03170319,
      "memory(GiB)": 112.26,
      "step": 55310,
      "train_speed(iter/s)": 1.12883
    },
    {
      "acc": 0.7462369,
      "epoch": 1.4032217148655506,
      "grad_norm": 3.40625,
      "learning_rate": 2.2430001527929123e-06,
      "loss": 1.03962317,
      "memory(GiB)": 112.26,
      "step": 55315,
      "train_speed(iter/s)": 1.128846
    },
    {
      "acc": 0.74991298,
      "epoch": 1.4033485540334856,
      "grad_norm": 4.625,
      "learning_rate": 2.242125408547622e-06,
      "loss": 1.08138752,
      "memory(GiB)": 112.26,
      "step": 55320,
      "train_speed(iter/s)": 1.128866
    },
    {
      "acc": 0.73887019,
      "epoch": 1.4034753932014206,
      "grad_norm": 4.6875,
      "learning_rate": 2.2412507856059667e-06,
      "loss": 1.08606262,
      "memory(GiB)": 112.26,
      "step": 55325,
      "train_speed(iter/s)": 1.128886
    },
    {
      "acc": 0.73589635,
      "epoch": 1.4036022323693556,
      "grad_norm": 3.640625,
      "learning_rate": 2.2403762840064223e-06,
      "loss": 1.0542202,
      "memory(GiB)": 112.26,
      "step": 55330,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.75403662,
      "epoch": 1.4037290715372908,
      "grad_norm": 2.9375,
      "learning_rate": 2.239501903787448e-06,
      "loss": 1.03055534,
      "memory(GiB)": 112.26,
      "step": 55335,
      "train_speed(iter/s)": 1.12893
    },
    {
      "acc": 0.72416072,
      "epoch": 1.4038559107052258,
      "grad_norm": 4.875,
      "learning_rate": 2.2386276449875057e-06,
      "loss": 1.08651276,
      "memory(GiB)": 112.26,
      "step": 55340,
      "train_speed(iter/s)": 1.128942
    },
    {
      "acc": 0.74192362,
      "epoch": 1.403982749873161,
      "grad_norm": 4.15625,
      "learning_rate": 2.2377535076450452e-06,
      "loss": 1.05597153,
      "memory(GiB)": 112.26,
      "step": 55345,
      "train_speed(iter/s)": 1.128964
    },
    {
      "acc": 0.74558859,
      "epoch": 1.404109589041096,
      "grad_norm": 3.71875,
      "learning_rate": 2.236879491798522e-06,
      "loss": 1.00596867,
      "memory(GiB)": 112.26,
      "step": 55350,
      "train_speed(iter/s)": 1.12898
    },
    {
      "acc": 0.74923429,
      "epoch": 1.404236428209031,
      "grad_norm": 4.21875,
      "learning_rate": 2.2360055974863737e-06,
      "loss": 1.0691906,
      "memory(GiB)": 112.26,
      "step": 55355,
      "train_speed(iter/s)": 1.128999
    },
    {
      "acc": 0.74346504,
      "epoch": 1.404363267376966,
      "grad_norm": 3.40625,
      "learning_rate": 2.2351318247470376e-06,
      "loss": 1.03842297,
      "memory(GiB)": 112.26,
      "step": 55360,
      "train_speed(iter/s)": 1.129012
    },
    {
      "acc": 0.73547335,
      "epoch": 1.4044901065449011,
      "grad_norm": 3.53125,
      "learning_rate": 2.2342581736189496e-06,
      "loss": 1.08571186,
      "memory(GiB)": 112.26,
      "step": 55365,
      "train_speed(iter/s)": 1.129018
    },
    {
      "acc": 0.74001665,
      "epoch": 1.4046169457128361,
      "grad_norm": 3.25,
      "learning_rate": 2.233384644140537e-06,
      "loss": 1.04766293,
      "memory(GiB)": 112.26,
      "step": 55370,
      "train_speed(iter/s)": 1.129034
    },
    {
      "acc": 0.75705099,
      "epoch": 1.4047437848807711,
      "grad_norm": 3.921875,
      "learning_rate": 2.2325112363502167e-06,
      "loss": 0.9796977,
      "memory(GiB)": 112.26,
      "step": 55375,
      "train_speed(iter/s)": 1.12905
    },
    {
      "acc": 0.75026712,
      "epoch": 1.4048706240487063,
      "grad_norm": 3.46875,
      "learning_rate": 2.23163795028641e-06,
      "loss": 1.02201509,
      "memory(GiB)": 112.26,
      "step": 55380,
      "train_speed(iter/s)": 1.129061
    },
    {
      "acc": 0.73583851,
      "epoch": 1.4049974632166413,
      "grad_norm": 3.296875,
      "learning_rate": 2.230764785987526e-06,
      "loss": 1.03822508,
      "memory(GiB)": 112.26,
      "step": 55385,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.73755059,
      "epoch": 1.4051243023845763,
      "grad_norm": 4.5625,
      "learning_rate": 2.229891743491972e-06,
      "loss": 1.01538515,
      "memory(GiB)": 112.26,
      "step": 55390,
      "train_speed(iter/s)": 1.12909
    },
    {
      "acc": 0.74039431,
      "epoch": 1.4052511415525113,
      "grad_norm": 3.46875,
      "learning_rate": 2.2290188228381434e-06,
      "loss": 1.0427681,
      "memory(GiB)": 112.26,
      "step": 55395,
      "train_speed(iter/s)": 1.129097
    },
    {
      "acc": 0.74373293,
      "epoch": 1.4053779807204465,
      "grad_norm": 3.140625,
      "learning_rate": 2.2281460240644397e-06,
      "loss": 1.02643957,
      "memory(GiB)": 112.26,
      "step": 55400,
      "train_speed(iter/s)": 1.129101
    },
    {
      "acc": 0.73015842,
      "epoch": 1.4055048198883815,
      "grad_norm": 3.671875,
      "learning_rate": 2.22727334720925e-06,
      "loss": 1.05795555,
      "memory(GiB)": 112.26,
      "step": 55405,
      "train_speed(iter/s)": 1.12912
    },
    {
      "acc": 0.74812479,
      "epoch": 1.4056316590563167,
      "grad_norm": 3.3125,
      "learning_rate": 2.2264007923109575e-06,
      "loss": 1.04652758,
      "memory(GiB)": 112.26,
      "step": 55410,
      "train_speed(iter/s)": 1.129015
    },
    {
      "acc": 0.74012794,
      "epoch": 1.4057584982242517,
      "grad_norm": 4.34375,
      "learning_rate": 2.225528359407942e-06,
      "loss": 1.05541439,
      "memory(GiB)": 112.26,
      "step": 55415,
      "train_speed(iter/s)": 1.12903
    },
    {
      "acc": 0.73739452,
      "epoch": 1.4058853373921867,
      "grad_norm": 3.9375,
      "learning_rate": 2.2246560485385756e-06,
      "loss": 1.02504368,
      "memory(GiB)": 112.26,
      "step": 55420,
      "train_speed(iter/s)": 1.129051
    },
    {
      "acc": 0.74101157,
      "epoch": 1.4060121765601217,
      "grad_norm": 3.5625,
      "learning_rate": 2.2237838597412277e-06,
      "loss": 1.0682682,
      "memory(GiB)": 112.26,
      "step": 55425,
      "train_speed(iter/s)": 1.129065
    },
    {
      "acc": 0.75056562,
      "epoch": 1.4061390157280569,
      "grad_norm": 3.4375,
      "learning_rate": 2.22291179305426e-06,
      "loss": 0.99071465,
      "memory(GiB)": 112.26,
      "step": 55430,
      "train_speed(iter/s)": 1.129077
    },
    {
      "acc": 0.7519351,
      "epoch": 1.4062658548959919,
      "grad_norm": 3.734375,
      "learning_rate": 2.222039848516031e-06,
      "loss": 1.0343462,
      "memory(GiB)": 112.26,
      "step": 55435,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.72928891,
      "epoch": 1.4063926940639269,
      "grad_norm": 3.703125,
      "learning_rate": 2.2211680261648918e-06,
      "loss": 1.0562027,
      "memory(GiB)": 112.26,
      "step": 55440,
      "train_speed(iter/s)": 1.129089
    },
    {
      "acc": 0.74209938,
      "epoch": 1.406519533231862,
      "grad_norm": 3.53125,
      "learning_rate": 2.22029632603919e-06,
      "loss": 1.0500288,
      "memory(GiB)": 112.26,
      "step": 55445,
      "train_speed(iter/s)": 1.129092
    },
    {
      "acc": 0.74448767,
      "epoch": 1.406646372399797,
      "grad_norm": 3.71875,
      "learning_rate": 2.2194247481772652e-06,
      "loss": 1.03242836,
      "memory(GiB)": 112.26,
      "step": 55450,
      "train_speed(iter/s)": 1.129113
    },
    {
      "acc": 0.7382844,
      "epoch": 1.406773211567732,
      "grad_norm": 3.625,
      "learning_rate": 2.218553292617455e-06,
      "loss": 1.06000166,
      "memory(GiB)": 112.26,
      "step": 55455,
      "train_speed(iter/s)": 1.129133
    },
    {
      "acc": 0.74553685,
      "epoch": 1.406900050735667,
      "grad_norm": 3.203125,
      "learning_rate": 2.2176819593980892e-06,
      "loss": 1.00838776,
      "memory(GiB)": 112.26,
      "step": 55460,
      "train_speed(iter/s)": 1.12914
    },
    {
      "acc": 0.73893013,
      "epoch": 1.4070268899036023,
      "grad_norm": 4.84375,
      "learning_rate": 2.2168107485574914e-06,
      "loss": 1.11985941,
      "memory(GiB)": 112.26,
      "step": 55465,
      "train_speed(iter/s)": 1.129157
    },
    {
      "acc": 0.74005351,
      "epoch": 1.4071537290715372,
      "grad_norm": 3.765625,
      "learning_rate": 2.215939660133986e-06,
      "loss": 1.03910704,
      "memory(GiB)": 112.26,
      "step": 55470,
      "train_speed(iter/s)": 1.129176
    },
    {
      "acc": 0.752001,
      "epoch": 1.4072805682394725,
      "grad_norm": 3.734375,
      "learning_rate": 2.215068694165883e-06,
      "loss": 1.02936983,
      "memory(GiB)": 112.26,
      "step": 55475,
      "train_speed(iter/s)": 1.129192
    },
    {
      "acc": 0.74378309,
      "epoch": 1.4074074074074074,
      "grad_norm": 3.546875,
      "learning_rate": 2.2141978506914922e-06,
      "loss": 0.99923649,
      "memory(GiB)": 112.26,
      "step": 55480,
      "train_speed(iter/s)": 1.12921
    },
    {
      "acc": 0.72767267,
      "epoch": 1.4075342465753424,
      "grad_norm": 3.40625,
      "learning_rate": 2.2133271297491165e-06,
      "loss": 1.13886585,
      "memory(GiB)": 112.26,
      "step": 55485,
      "train_speed(iter/s)": 1.129227
    },
    {
      "acc": 0.74475408,
      "epoch": 1.4076610857432774,
      "grad_norm": 3.703125,
      "learning_rate": 2.2124565313770584e-06,
      "loss": 1.04980335,
      "memory(GiB)": 112.26,
      "step": 55490,
      "train_speed(iter/s)": 1.129237
    },
    {
      "acc": 0.75478411,
      "epoch": 1.4077879249112126,
      "grad_norm": 3.390625,
      "learning_rate": 2.211586055613606e-06,
      "loss": 1.02619371,
      "memory(GiB)": 112.26,
      "step": 55495,
      "train_speed(iter/s)": 1.129246
    },
    {
      "acc": 0.73483076,
      "epoch": 1.4079147640791476,
      "grad_norm": 3.296875,
      "learning_rate": 2.210715702497046e-06,
      "loss": 1.03697605,
      "memory(GiB)": 112.26,
      "step": 55500,
      "train_speed(iter/s)": 1.129265
    },
    {
      "acc": 0.74450102,
      "epoch": 1.4080416032470828,
      "grad_norm": 3.84375,
      "learning_rate": 2.2098454720656647e-06,
      "loss": 1.09018726,
      "memory(GiB)": 112.26,
      "step": 55505,
      "train_speed(iter/s)": 1.129283
    },
    {
      "acc": 0.75095634,
      "epoch": 1.4081684424150178,
      "grad_norm": 4.53125,
      "learning_rate": 2.2089753643577384e-06,
      "loss": 1.02046585,
      "memory(GiB)": 112.26,
      "step": 55510,
      "train_speed(iter/s)": 1.129301
    },
    {
      "acc": 0.74104257,
      "epoch": 1.4082952815829528,
      "grad_norm": 3.5,
      "learning_rate": 2.208105379411535e-06,
      "loss": 1.03709641,
      "memory(GiB)": 112.26,
      "step": 55515,
      "train_speed(iter/s)": 1.129318
    },
    {
      "acc": 0.74651942,
      "epoch": 1.4084221207508878,
      "grad_norm": 3.71875,
      "learning_rate": 2.2072355172653197e-06,
      "loss": 1.02929325,
      "memory(GiB)": 112.26,
      "step": 55520,
      "train_speed(iter/s)": 1.129333
    },
    {
      "acc": 0.73431997,
      "epoch": 1.408548959918823,
      "grad_norm": 4.125,
      "learning_rate": 2.2063657779573573e-06,
      "loss": 1.05656376,
      "memory(GiB)": 112.26,
      "step": 55525,
      "train_speed(iter/s)": 1.129348
    },
    {
      "acc": 0.74553251,
      "epoch": 1.408675799086758,
      "grad_norm": 3.640625,
      "learning_rate": 2.2054961615259023e-06,
      "loss": 1.03652468,
      "memory(GiB)": 112.26,
      "step": 55530,
      "train_speed(iter/s)": 1.129354
    },
    {
      "acc": 0.7610096,
      "epoch": 1.408802638254693,
      "grad_norm": 3.25,
      "learning_rate": 2.2046266680091994e-06,
      "loss": 0.97401772,
      "memory(GiB)": 112.26,
      "step": 55535,
      "train_speed(iter/s)": 1.129375
    },
    {
      "acc": 0.73668289,
      "epoch": 1.4089294774226282,
      "grad_norm": 3.46875,
      "learning_rate": 2.2037572974454974e-06,
      "loss": 1.11816387,
      "memory(GiB)": 112.26,
      "step": 55540,
      "train_speed(iter/s)": 1.12939
    },
    {
      "acc": 0.748066,
      "epoch": 1.4090563165905632,
      "grad_norm": 4.1875,
      "learning_rate": 2.202888049873034e-06,
      "loss": 1.02507381,
      "memory(GiB)": 112.26,
      "step": 55545,
      "train_speed(iter/s)": 1.129404
    },
    {
      "acc": 0.73038826,
      "epoch": 1.4091831557584982,
      "grad_norm": 3.953125,
      "learning_rate": 2.2020189253300428e-06,
      "loss": 1.15440674,
      "memory(GiB)": 112.26,
      "step": 55550,
      "train_speed(iter/s)": 1.129415
    },
    {
      "acc": 0.73068371,
      "epoch": 1.4093099949264332,
      "grad_norm": 3.578125,
      "learning_rate": 2.2011499238547506e-06,
      "loss": 1.10009174,
      "memory(GiB)": 112.26,
      "step": 55555,
      "train_speed(iter/s)": 1.129439
    },
    {
      "acc": 0.73296003,
      "epoch": 1.4094368340943684,
      "grad_norm": 4.34375,
      "learning_rate": 2.2002810454853813e-06,
      "loss": 1.08936586,
      "memory(GiB)": 112.26,
      "step": 55560,
      "train_speed(iter/s)": 1.129457
    },
    {
      "acc": 0.73821993,
      "epoch": 1.4095636732623034,
      "grad_norm": 4.0625,
      "learning_rate": 2.1994122902601513e-06,
      "loss": 1.06496363,
      "memory(GiB)": 112.26,
      "step": 55565,
      "train_speed(iter/s)": 1.129466
    },
    {
      "acc": 0.7318244,
      "epoch": 1.4096905124302386,
      "grad_norm": 3.90625,
      "learning_rate": 2.1985436582172724e-06,
      "loss": 1.05628433,
      "memory(GiB)": 112.26,
      "step": 55570,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.74391394,
      "epoch": 1.4098173515981736,
      "grad_norm": 3.875,
      "learning_rate": 2.1976751493949512e-06,
      "loss": 1.09545574,
      "memory(GiB)": 112.26,
      "step": 55575,
      "train_speed(iter/s)": 1.129485
    },
    {
      "acc": 0.73825893,
      "epoch": 1.4099441907661086,
      "grad_norm": 3.734375,
      "learning_rate": 2.196806763831388e-06,
      "loss": 1.04751949,
      "memory(GiB)": 112.26,
      "step": 55580,
      "train_speed(iter/s)": 1.129487
    },
    {
      "acc": 0.7478323,
      "epoch": 1.4100710299340435,
      "grad_norm": 3.640625,
      "learning_rate": 2.1959385015647794e-06,
      "loss": 1.08858728,
      "memory(GiB)": 112.26,
      "step": 55585,
      "train_speed(iter/s)": 1.129393
    },
    {
      "acc": 0.7436368,
      "epoch": 1.4101978691019788,
      "grad_norm": 3.59375,
      "learning_rate": 2.195070362633314e-06,
      "loss": 1.08397846,
      "memory(GiB)": 112.26,
      "step": 55590,
      "train_speed(iter/s)": 1.129408
    },
    {
      "acc": 0.73541317,
      "epoch": 1.4103247082699137,
      "grad_norm": 5.125,
      "learning_rate": 2.194202347075178e-06,
      "loss": 1.09411459,
      "memory(GiB)": 112.26,
      "step": 55595,
      "train_speed(iter/s)": 1.129425
    },
    {
      "acc": 0.74002657,
      "epoch": 1.4104515474378487,
      "grad_norm": 3.78125,
      "learning_rate": 2.1933344549285485e-06,
      "loss": 1.0703866,
      "memory(GiB)": 112.26,
      "step": 55600,
      "train_speed(iter/s)": 1.129434
    },
    {
      "acc": 0.72821894,
      "epoch": 1.410578386605784,
      "grad_norm": 5.375,
      "learning_rate": 2.1924666862316015e-06,
      "loss": 1.09575462,
      "memory(GiB)": 112.26,
      "step": 55605,
      "train_speed(iter/s)": 1.129452
    },
    {
      "acc": 0.74712305,
      "epoch": 1.410705225773719,
      "grad_norm": 3.859375,
      "learning_rate": 2.191599041022504e-06,
      "loss": 1.02370358,
      "memory(GiB)": 112.26,
      "step": 55610,
      "train_speed(iter/s)": 1.12947
    },
    {
      "acc": 0.74030991,
      "epoch": 1.410832064941654,
      "grad_norm": 3.484375,
      "learning_rate": 2.19073151933942e-06,
      "loss": 1.00426416,
      "memory(GiB)": 112.26,
      "step": 55615,
      "train_speed(iter/s)": 1.129476
    },
    {
      "acc": 0.74445791,
      "epoch": 1.410958904109589,
      "grad_norm": 3.59375,
      "learning_rate": 2.1898641212205053e-06,
      "loss": 1.02593136,
      "memory(GiB)": 112.26,
      "step": 55620,
      "train_speed(iter/s)": 1.129498
    },
    {
      "acc": 0.74097624,
      "epoch": 1.4110857432775241,
      "grad_norm": 3.328125,
      "learning_rate": 2.1889968467039114e-06,
      "loss": 1.05978575,
      "memory(GiB)": 112.26,
      "step": 55625,
      "train_speed(iter/s)": 1.129514
    },
    {
      "acc": 0.73465471,
      "epoch": 1.411212582445459,
      "grad_norm": 3.625,
      "learning_rate": 2.1881296958277897e-06,
      "loss": 1.05506363,
      "memory(GiB)": 112.26,
      "step": 55630,
      "train_speed(iter/s)": 1.12952
    },
    {
      "acc": 0.74792252,
      "epoch": 1.4113394216133943,
      "grad_norm": 4.125,
      "learning_rate": 2.1872626686302767e-06,
      "loss": 1.02161713,
      "memory(GiB)": 112.26,
      "step": 55635,
      "train_speed(iter/s)": 1.129538
    },
    {
      "acc": 0.75193009,
      "epoch": 1.4114662607813293,
      "grad_norm": 3.90625,
      "learning_rate": 2.186395765149508e-06,
      "loss": 0.98554907,
      "memory(GiB)": 112.26,
      "step": 55640,
      "train_speed(iter/s)": 1.129557
    },
    {
      "acc": 0.73308649,
      "epoch": 1.4115930999492643,
      "grad_norm": 3.421875,
      "learning_rate": 2.1855289854236165e-06,
      "loss": 1.11186619,
      "memory(GiB)": 112.26,
      "step": 55645,
      "train_speed(iter/s)": 1.129575
    },
    {
      "acc": 0.73433142,
      "epoch": 1.4117199391171993,
      "grad_norm": 3.40625,
      "learning_rate": 2.184662329490728e-06,
      "loss": 1.05258007,
      "memory(GiB)": 112.26,
      "step": 55650,
      "train_speed(iter/s)": 1.129592
    },
    {
      "acc": 0.74333587,
      "epoch": 1.4118467782851345,
      "grad_norm": 4.0625,
      "learning_rate": 2.1837957973889584e-06,
      "loss": 1.04456358,
      "memory(GiB)": 112.26,
      "step": 55655,
      "train_speed(iter/s)": 1.129607
    },
    {
      "acc": 0.72549286,
      "epoch": 1.4119736174530695,
      "grad_norm": 4.0625,
      "learning_rate": 2.1829293891564212e-06,
      "loss": 1.07117729,
      "memory(GiB)": 112.26,
      "step": 55660,
      "train_speed(iter/s)": 1.129625
    },
    {
      "acc": 0.74162893,
      "epoch": 1.4121004566210047,
      "grad_norm": 3.40625,
      "learning_rate": 2.182063104831228e-06,
      "loss": 1.05993109,
      "memory(GiB)": 112.26,
      "step": 55665,
      "train_speed(iter/s)": 1.12964
    },
    {
      "acc": 0.73651609,
      "epoch": 1.4122272957889397,
      "grad_norm": 3.421875,
      "learning_rate": 2.181196944451483e-06,
      "loss": 1.08344002,
      "memory(GiB)": 112.26,
      "step": 55670,
      "train_speed(iter/s)": 1.129654
    },
    {
      "acc": 0.74102635,
      "epoch": 1.4123541349568747,
      "grad_norm": 4.21875,
      "learning_rate": 2.180330908055278e-06,
      "loss": 1.09523773,
      "memory(GiB)": 112.26,
      "step": 55675,
      "train_speed(iter/s)": 1.129671
    },
    {
      "acc": 0.73505278,
      "epoch": 1.4124809741248097,
      "grad_norm": 4.0625,
      "learning_rate": 2.1794649956807094e-06,
      "loss": 1.05244408,
      "memory(GiB)": 112.26,
      "step": 55680,
      "train_speed(iter/s)": 1.12968
    },
    {
      "acc": 0.75324512,
      "epoch": 1.4126078132927449,
      "grad_norm": 3.546875,
      "learning_rate": 2.178599207365864e-06,
      "loss": 0.97394123,
      "memory(GiB)": 112.26,
      "step": 55685,
      "train_speed(iter/s)": 1.129697
    },
    {
      "acc": 0.7524848,
      "epoch": 1.4127346524606799,
      "grad_norm": 3.359375,
      "learning_rate": 2.1777335431488234e-06,
      "loss": 1.03298035,
      "memory(GiB)": 112.26,
      "step": 55690,
      "train_speed(iter/s)": 1.129711
    },
    {
      "acc": 0.74532328,
      "epoch": 1.4128614916286149,
      "grad_norm": 3.78125,
      "learning_rate": 2.176868003067659e-06,
      "loss": 1.03878651,
      "memory(GiB)": 112.26,
      "step": 55695,
      "train_speed(iter/s)": 1.129726
    },
    {
      "acc": 0.73999534,
      "epoch": 1.41298833079655,
      "grad_norm": 3.875,
      "learning_rate": 2.1760025871604456e-06,
      "loss": 1.05287361,
      "memory(GiB)": 112.26,
      "step": 55700,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.74570904,
      "epoch": 1.413115169964485,
      "grad_norm": 4.25,
      "learning_rate": 2.175137295465247e-06,
      "loss": 1.02540073,
      "memory(GiB)": 112.26,
      "step": 55705,
      "train_speed(iter/s)": 1.12976
    },
    {
      "acc": 0.74080362,
      "epoch": 1.41324200913242,
      "grad_norm": 3.125,
      "learning_rate": 2.174272128020122e-06,
      "loss": 1.0743618,
      "memory(GiB)": 112.26,
      "step": 55710,
      "train_speed(iter/s)": 1.129771
    },
    {
      "acc": 0.7488265,
      "epoch": 1.413368848300355,
      "grad_norm": 4.09375,
      "learning_rate": 2.1734070848631245e-06,
      "loss": 1.04728794,
      "memory(GiB)": 112.26,
      "step": 55715,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.74924374,
      "epoch": 1.4134956874682902,
      "grad_norm": 5.8125,
      "learning_rate": 2.172542166032303e-06,
      "loss": 1.01390896,
      "memory(GiB)": 112.26,
      "step": 55720,
      "train_speed(iter/s)": 1.129804
    },
    {
      "acc": 0.74199162,
      "epoch": 1.4136225266362252,
      "grad_norm": 3.546875,
      "learning_rate": 2.171677371565701e-06,
      "loss": 1.06883144,
      "memory(GiB)": 112.26,
      "step": 55725,
      "train_speed(iter/s)": 1.129814
    },
    {
      "acc": 0.73203063,
      "epoch": 1.4137493658041604,
      "grad_norm": 4.21875,
      "learning_rate": 2.1708127015013565e-06,
      "loss": 1.07591019,
      "memory(GiB)": 112.26,
      "step": 55730,
      "train_speed(iter/s)": 1.129826
    },
    {
      "acc": 0.73754668,
      "epoch": 1.4138762049720954,
      "grad_norm": 3.734375,
      "learning_rate": 2.1699481558773e-06,
      "loss": 1.01784115,
      "memory(GiB)": 112.26,
      "step": 55735,
      "train_speed(iter/s)": 1.129845
    },
    {
      "acc": 0.73777518,
      "epoch": 1.4140030441400304,
      "grad_norm": 2.75,
      "learning_rate": 2.1690837347315597e-06,
      "loss": 1.06247091,
      "memory(GiB)": 112.26,
      "step": 55740,
      "train_speed(iter/s)": 1.129863
    },
    {
      "acc": 0.74409728,
      "epoch": 1.4141298833079654,
      "grad_norm": 3.890625,
      "learning_rate": 2.168219438102155e-06,
      "loss": 1.04194851,
      "memory(GiB)": 112.26,
      "step": 55745,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.73076901,
      "epoch": 1.4142567224759006,
      "grad_norm": 4.5625,
      "learning_rate": 2.167355266027103e-06,
      "loss": 1.06364412,
      "memory(GiB)": 112.26,
      "step": 55750,
      "train_speed(iter/s)": 1.129879
    },
    {
      "acc": 0.74367976,
      "epoch": 1.4143835616438356,
      "grad_norm": 3.59375,
      "learning_rate": 2.1664912185444127e-06,
      "loss": 1.00163002,
      "memory(GiB)": 112.26,
      "step": 55755,
      "train_speed(iter/s)": 1.129895
    },
    {
      "acc": 0.73868465,
      "epoch": 1.4145104008117706,
      "grad_norm": 3.484375,
      "learning_rate": 2.16562729569209e-06,
      "loss": 1.14886971,
      "memory(GiB)": 112.26,
      "step": 55760,
      "train_speed(iter/s)": 1.129909
    },
    {
      "acc": 0.74708281,
      "epoch": 1.4146372399797058,
      "grad_norm": 3.640625,
      "learning_rate": 2.164763497508131e-06,
      "loss": 1.02009544,
      "memory(GiB)": 112.26,
      "step": 55765,
      "train_speed(iter/s)": 1.129922
    },
    {
      "acc": 0.75400572,
      "epoch": 1.4147640791476408,
      "grad_norm": 3.484375,
      "learning_rate": 2.1638998240305355e-06,
      "loss": 1.04556618,
      "memory(GiB)": 112.26,
      "step": 55770,
      "train_speed(iter/s)": 1.129932
    },
    {
      "acc": 0.73028755,
      "epoch": 1.4148909183155758,
      "grad_norm": 4.03125,
      "learning_rate": 2.163036275297286e-06,
      "loss": 1.08766384,
      "memory(GiB)": 112.26,
      "step": 55775,
      "train_speed(iter/s)": 1.129942
    },
    {
      "acc": 0.7357996,
      "epoch": 1.4150177574835108,
      "grad_norm": 3.515625,
      "learning_rate": 2.162172851346368e-06,
      "loss": 1.05018482,
      "memory(GiB)": 112.26,
      "step": 55780,
      "train_speed(iter/s)": 1.129956
    },
    {
      "acc": 0.74939198,
      "epoch": 1.415144596651446,
      "grad_norm": 3.984375,
      "learning_rate": 2.1613095522157557e-06,
      "loss": 1.00869856,
      "memory(GiB)": 112.26,
      "step": 55785,
      "train_speed(iter/s)": 1.129972
    },
    {
      "acc": 0.74125576,
      "epoch": 1.415271435819381,
      "grad_norm": 3.6875,
      "learning_rate": 2.1604463779434267e-06,
      "loss": 1.03629341,
      "memory(GiB)": 112.26,
      "step": 55790,
      "train_speed(iter/s)": 1.129984
    },
    {
      "acc": 0.74369941,
      "epoch": 1.4153982749873162,
      "grad_norm": 3.703125,
      "learning_rate": 2.159583328567342e-06,
      "loss": 1.08152866,
      "memory(GiB)": 112.26,
      "step": 55795,
      "train_speed(iter/s)": 1.130005
    },
    {
      "acc": 0.74327726,
      "epoch": 1.4155251141552512,
      "grad_norm": 3.59375,
      "learning_rate": 2.158720404125462e-06,
      "loss": 1.01818714,
      "memory(GiB)": 112.26,
      "step": 55800,
      "train_speed(iter/s)": 1.130012
    },
    {
      "acc": 0.74582949,
      "epoch": 1.4156519533231862,
      "grad_norm": 3.5625,
      "learning_rate": 2.1578576046557463e-06,
      "loss": 1.03551836,
      "memory(GiB)": 112.26,
      "step": 55805,
      "train_speed(iter/s)": 1.130033
    },
    {
      "acc": 0.73549676,
      "epoch": 1.4157787924911212,
      "grad_norm": 3.78125,
      "learning_rate": 2.156994930196144e-06,
      "loss": 1.05112686,
      "memory(GiB)": 112.26,
      "step": 55810,
      "train_speed(iter/s)": 1.130049
    },
    {
      "acc": 0.74673595,
      "epoch": 1.4159056316590564,
      "grad_norm": 3.859375,
      "learning_rate": 2.156132380784594e-06,
      "loss": 0.99864368,
      "memory(GiB)": 112.26,
      "step": 55815,
      "train_speed(iter/s)": 1.130055
    },
    {
      "acc": 0.74027538,
      "epoch": 1.4160324708269914,
      "grad_norm": 4.75,
      "learning_rate": 2.155269956459041e-06,
      "loss": 1.04426994,
      "memory(GiB)": 112.26,
      "step": 55820,
      "train_speed(iter/s)": 1.130074
    },
    {
      "acc": 0.74356918,
      "epoch": 1.4161593099949266,
      "grad_norm": 3.96875,
      "learning_rate": 2.1544076572574156e-06,
      "loss": 1.04907551,
      "memory(GiB)": 112.26,
      "step": 55825,
      "train_speed(iter/s)": 1.130086
    },
    {
      "acc": 0.73625765,
      "epoch": 1.4162861491628616,
      "grad_norm": 3.34375,
      "learning_rate": 2.1535454832176482e-06,
      "loss": 1.03085461,
      "memory(GiB)": 112.26,
      "step": 55830,
      "train_speed(iter/s)": 1.1301
    },
    {
      "acc": 0.72662406,
      "epoch": 1.4164129883307965,
      "grad_norm": 3.84375,
      "learning_rate": 2.1526834343776556e-06,
      "loss": 1.12771769,
      "memory(GiB)": 112.26,
      "step": 55835,
      "train_speed(iter/s)": 1.130124
    },
    {
      "acc": 0.72117586,
      "epoch": 1.4165398274987315,
      "grad_norm": 5.125,
      "learning_rate": 2.1518215107753593e-06,
      "loss": 1.11645908,
      "memory(GiB)": 112.26,
      "step": 55840,
      "train_speed(iter/s)": 1.130142
    },
    {
      "acc": 0.72752085,
      "epoch": 1.4166666666666667,
      "grad_norm": 3.5,
      "learning_rate": 2.1509597124486693e-06,
      "loss": 1.08543682,
      "memory(GiB)": 112.26,
      "step": 55845,
      "train_speed(iter/s)": 1.130157
    },
    {
      "acc": 0.7498992,
      "epoch": 1.4167935058346017,
      "grad_norm": 3.21875,
      "learning_rate": 2.1500980394354907e-06,
      "loss": 1.04284496,
      "memory(GiB)": 112.26,
      "step": 55850,
      "train_speed(iter/s)": 1.130177
    },
    {
      "acc": 0.73727083,
      "epoch": 1.4169203450025367,
      "grad_norm": 3.40625,
      "learning_rate": 2.1492364917737252e-06,
      "loss": 1.05980406,
      "memory(GiB)": 112.26,
      "step": 55855,
      "train_speed(iter/s)": 1.130191
    },
    {
      "acc": 0.73848047,
      "epoch": 1.417047184170472,
      "grad_norm": 4.0625,
      "learning_rate": 2.148375069501266e-06,
      "loss": 1.05017958,
      "memory(GiB)": 112.26,
      "step": 55860,
      "train_speed(iter/s)": 1.130209
    },
    {
      "acc": 0.73807526,
      "epoch": 1.417174023338407,
      "grad_norm": 2.703125,
      "learning_rate": 2.147513772656003e-06,
      "loss": 1.02854385,
      "memory(GiB)": 112.26,
      "step": 55865,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.73713169,
      "epoch": 1.417300862506342,
      "grad_norm": 4.71875,
      "learning_rate": 2.1466526012758194e-06,
      "loss": 1.05282898,
      "memory(GiB)": 112.26,
      "step": 55870,
      "train_speed(iter/s)": 1.130243
    },
    {
      "acc": 0.74111528,
      "epoch": 1.417427701674277,
      "grad_norm": 3.640625,
      "learning_rate": 2.145791555398594e-06,
      "loss": 1.01627283,
      "memory(GiB)": 112.26,
      "step": 55875,
      "train_speed(iter/s)": 1.130259
    },
    {
      "acc": 0.75388851,
      "epoch": 1.417554540842212,
      "grad_norm": 3.96875,
      "learning_rate": 2.144930635062199e-06,
      "loss": 0.97319441,
      "memory(GiB)": 112.26,
      "step": 55880,
      "train_speed(iter/s)": 1.13028
    },
    {
      "acc": 0.72143135,
      "epoch": 1.417681380010147,
      "grad_norm": 4.0,
      "learning_rate": 2.144069840304502e-06,
      "loss": 1.10493612,
      "memory(GiB)": 112.26,
      "step": 55885,
      "train_speed(iter/s)": 1.130296
    },
    {
      "acc": 0.74026351,
      "epoch": 1.4178082191780823,
      "grad_norm": 5.28125,
      "learning_rate": 2.1432091711633634e-06,
      "loss": 1.1001749,
      "memory(GiB)": 112.26,
      "step": 55890,
      "train_speed(iter/s)": 1.130311
    },
    {
      "acc": 0.73922062,
      "epoch": 1.4179350583460173,
      "grad_norm": 3.625,
      "learning_rate": 2.142348627676641e-06,
      "loss": 1.06782417,
      "memory(GiB)": 112.26,
      "step": 55895,
      "train_speed(iter/s)": 1.130321
    },
    {
      "acc": 0.74466581,
      "epoch": 1.4180618975139523,
      "grad_norm": 3.59375,
      "learning_rate": 2.1414882098821836e-06,
      "loss": 1.03392506,
      "memory(GiB)": 112.26,
      "step": 55900,
      "train_speed(iter/s)": 1.130339
    },
    {
      "acc": 0.7480032,
      "epoch": 1.4181887366818873,
      "grad_norm": 3.90625,
      "learning_rate": 2.1406279178178355e-06,
      "loss": 1.06067781,
      "memory(GiB)": 112.26,
      "step": 55905,
      "train_speed(iter/s)": 1.13035
    },
    {
      "acc": 0.74305449,
      "epoch": 1.4183155758498225,
      "grad_norm": 3.875,
      "learning_rate": 2.1397677515214422e-06,
      "loss": 1.05956402,
      "memory(GiB)": 112.26,
      "step": 55910,
      "train_speed(iter/s)": 1.13036
    },
    {
      "acc": 0.73919988,
      "epoch": 1.4184424150177575,
      "grad_norm": 5.15625,
      "learning_rate": 2.1389077110308304e-06,
      "loss": 1.08481131,
      "memory(GiB)": 112.26,
      "step": 55915,
      "train_speed(iter/s)": 1.13037
    },
    {
      "acc": 0.73624477,
      "epoch": 1.4185692541856925,
      "grad_norm": 4.21875,
      "learning_rate": 2.138047796383832e-06,
      "loss": 1.08099842,
      "memory(GiB)": 112.26,
      "step": 55920,
      "train_speed(iter/s)": 1.130392
    },
    {
      "acc": 0.73819599,
      "epoch": 1.4186960933536277,
      "grad_norm": 5.375,
      "learning_rate": 2.1371880076182666e-06,
      "loss": 1.0987422,
      "memory(GiB)": 112.26,
      "step": 55925,
      "train_speed(iter/s)": 1.13041
    },
    {
      "acc": 0.72996907,
      "epoch": 1.4188229325215627,
      "grad_norm": 4.21875,
      "learning_rate": 2.1363283447719584e-06,
      "loss": 1.10703831,
      "memory(GiB)": 112.26,
      "step": 55930,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.75299411,
      "epoch": 1.4189497716894977,
      "grad_norm": 4.46875,
      "learning_rate": 2.135468807882713e-06,
      "loss": 1.01764164,
      "memory(GiB)": 112.26,
      "step": 55935,
      "train_speed(iter/s)": 1.130435
    },
    {
      "acc": 0.7381041,
      "epoch": 1.4190766108574326,
      "grad_norm": 4.4375,
      "learning_rate": 2.1346093969883367e-06,
      "loss": 1.06720715,
      "memory(GiB)": 112.26,
      "step": 55940,
      "train_speed(iter/s)": 1.13045
    },
    {
      "acc": 0.7447948,
      "epoch": 1.4192034500253679,
      "grad_norm": 3.5625,
      "learning_rate": 2.1337501121266345e-06,
      "loss": 1.01540909,
      "memory(GiB)": 112.26,
      "step": 55945,
      "train_speed(iter/s)": 1.130469
    },
    {
      "acc": 0.72691827,
      "epoch": 1.4193302891933028,
      "grad_norm": 4.5625,
      "learning_rate": 2.132890953335401e-06,
      "loss": 1.14304543,
      "memory(GiB)": 112.26,
      "step": 55950,
      "train_speed(iter/s)": 1.130487
    },
    {
      "acc": 0.73352451,
      "epoch": 1.419457128361238,
      "grad_norm": 3.75,
      "learning_rate": 2.1320319206524215e-06,
      "loss": 1.12567739,
      "memory(GiB)": 112.26,
      "step": 55955,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.74164362,
      "epoch": 1.419583967529173,
      "grad_norm": 3.296875,
      "learning_rate": 2.1311730141154813e-06,
      "loss": 1.06725817,
      "memory(GiB)": 112.26,
      "step": 55960,
      "train_speed(iter/s)": 1.130516
    },
    {
      "acc": 0.7354342,
      "epoch": 1.419710806697108,
      "grad_norm": 3.3125,
      "learning_rate": 2.1303142337623623e-06,
      "loss": 1.07700357,
      "memory(GiB)": 112.26,
      "step": 55965,
      "train_speed(iter/s)": 1.130519
    },
    {
      "acc": 0.73926535,
      "epoch": 1.419837645865043,
      "grad_norm": 4.1875,
      "learning_rate": 2.1294555796308375e-06,
      "loss": 1.02654114,
      "memory(GiB)": 112.26,
      "step": 55970,
      "train_speed(iter/s)": 1.13053
    },
    {
      "acc": 0.7421586,
      "epoch": 1.4199644850329782,
      "grad_norm": 3.859375,
      "learning_rate": 2.1285970517586686e-06,
      "loss": 1.10216475,
      "memory(GiB)": 112.26,
      "step": 55975,
      "train_speed(iter/s)": 1.130548
    },
    {
      "acc": 0.73222189,
      "epoch": 1.4200913242009132,
      "grad_norm": 4.5,
      "learning_rate": 2.127738650183623e-06,
      "loss": 1.05485229,
      "memory(GiB)": 112.26,
      "step": 55980,
      "train_speed(iter/s)": 1.130565
    },
    {
      "acc": 0.73964272,
      "epoch": 1.4202181633688484,
      "grad_norm": 3.5,
      "learning_rate": 2.1268803749434546e-06,
      "loss": 1.05850334,
      "memory(GiB)": 112.26,
      "step": 55985,
      "train_speed(iter/s)": 1.130586
    },
    {
      "acc": 0.73279872,
      "epoch": 1.4203450025367834,
      "grad_norm": 4.84375,
      "learning_rate": 2.1260222260759158e-06,
      "loss": 1.0584898,
      "memory(GiB)": 112.26,
      "step": 55990,
      "train_speed(iter/s)": 1.130598
    },
    {
      "acc": 0.74467282,
      "epoch": 1.4204718417047184,
      "grad_norm": 3.359375,
      "learning_rate": 2.1251642036187502e-06,
      "loss": 1.05367889,
      "memory(GiB)": 112.26,
      "step": 55995,
      "train_speed(iter/s)": 1.130612
    },
    {
      "acc": 0.74493165,
      "epoch": 1.4205986808726534,
      "grad_norm": 3.546875,
      "learning_rate": 2.124306307609699e-06,
      "loss": 1.05286961,
      "memory(GiB)": 112.26,
      "step": 56000,
      "train_speed(iter/s)": 1.13062
    },
    {
      "epoch": 1.4205986808726534,
      "eval_acc": 0.72580248383129,
      "eval_loss": 1.0441874265670776,
      "eval_runtime": 70.9691,
      "eval_samples_per_second": 89.757,
      "eval_steps_per_second": 22.446,
      "step": 56000
    },
    {
      "acc": 0.7169683,
      "epoch": 1.4207255200405886,
      "grad_norm": 3.796875,
      "learning_rate": 2.123448538086495e-06,
      "loss": 1.1335083,
      "memory(GiB)": 112.26,
      "step": 56005,
      "train_speed(iter/s)": 1.128004
    },
    {
      "acc": 0.73367624,
      "epoch": 1.4208523592085236,
      "grad_norm": 4.3125,
      "learning_rate": 2.122590895086867e-06,
      "loss": 1.12704878,
      "memory(GiB)": 112.26,
      "step": 56010,
      "train_speed(iter/s)": 1.128016
    },
    {
      "acc": 0.73846655,
      "epoch": 1.4209791983764586,
      "grad_norm": 3.96875,
      "learning_rate": 2.1217333786485385e-06,
      "loss": 1.03605728,
      "memory(GiB)": 112.26,
      "step": 56015,
      "train_speed(iter/s)": 1.128038
    },
    {
      "acc": 0.736691,
      "epoch": 1.4211060375443938,
      "grad_norm": 3.578125,
      "learning_rate": 2.120875988809226e-06,
      "loss": 1.08471279,
      "memory(GiB)": 112.26,
      "step": 56020,
      "train_speed(iter/s)": 1.128051
    },
    {
      "acc": 0.74888506,
      "epoch": 1.4212328767123288,
      "grad_norm": 3.921875,
      "learning_rate": 2.1200187256066425e-06,
      "loss": 1.01668148,
      "memory(GiB)": 112.26,
      "step": 56025,
      "train_speed(iter/s)": 1.128063
    },
    {
      "acc": 0.74169669,
      "epoch": 1.4213597158802638,
      "grad_norm": 4.25,
      "learning_rate": 2.119161589078493e-06,
      "loss": 1.0866848,
      "memory(GiB)": 112.26,
      "step": 56030,
      "train_speed(iter/s)": 1.128077
    },
    {
      "acc": 0.72184296,
      "epoch": 1.4214865550481988,
      "grad_norm": 3.703125,
      "learning_rate": 2.118304579262479e-06,
      "loss": 1.13114376,
      "memory(GiB)": 112.26,
      "step": 56035,
      "train_speed(iter/s)": 1.128083
    },
    {
      "acc": 0.74798884,
      "epoch": 1.421613394216134,
      "grad_norm": 4.15625,
      "learning_rate": 2.1174476961962957e-06,
      "loss": 1.05729332,
      "memory(GiB)": 112.26,
      "step": 56040,
      "train_speed(iter/s)": 1.128093
    },
    {
      "acc": 0.7337841,
      "epoch": 1.421740233384069,
      "grad_norm": 3.828125,
      "learning_rate": 2.1165909399176328e-06,
      "loss": 1.093081,
      "memory(GiB)": 112.26,
      "step": 56045,
      "train_speed(iter/s)": 1.128111
    },
    {
      "acc": 0.72886152,
      "epoch": 1.4218670725520042,
      "grad_norm": 3.65625,
      "learning_rate": 2.1157343104641733e-06,
      "loss": 1.10445166,
      "memory(GiB)": 112.26,
      "step": 56050,
      "train_speed(iter/s)": 1.12813
    },
    {
      "acc": 0.74173136,
      "epoch": 1.4219939117199392,
      "grad_norm": 3.9375,
      "learning_rate": 2.114877807873596e-06,
      "loss": 1.00207558,
      "memory(GiB)": 112.26,
      "step": 56055,
      "train_speed(iter/s)": 1.128136
    },
    {
      "acc": 0.73159328,
      "epoch": 1.4221207508878742,
      "grad_norm": 3.359375,
      "learning_rate": 2.114021432183574e-06,
      "loss": 1.05652885,
      "memory(GiB)": 112.26,
      "step": 56060,
      "train_speed(iter/s)": 1.128149
    },
    {
      "acc": 0.73273883,
      "epoch": 1.4222475900558091,
      "grad_norm": 3.71875,
      "learning_rate": 2.113165183431773e-06,
      "loss": 1.07978001,
      "memory(GiB)": 112.26,
      "step": 56065,
      "train_speed(iter/s)": 1.128156
    },
    {
      "acc": 0.75938454,
      "epoch": 1.4223744292237444,
      "grad_norm": 4.4375,
      "learning_rate": 2.112309061655859e-06,
      "loss": 0.99623327,
      "memory(GiB)": 112.26,
      "step": 56070,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.75983801,
      "epoch": 1.4225012683916793,
      "grad_norm": 4.25,
      "learning_rate": 2.1114530668934836e-06,
      "loss": 0.9967041,
      "memory(GiB)": 112.26,
      "step": 56075,
      "train_speed(iter/s)": 1.128174
    },
    {
      "acc": 0.73182163,
      "epoch": 1.4226281075596143,
      "grad_norm": 3.734375,
      "learning_rate": 2.1105971991822966e-06,
      "loss": 1.0488369,
      "memory(GiB)": 112.26,
      "step": 56080,
      "train_speed(iter/s)": 1.128186
    },
    {
      "acc": 0.73535895,
      "epoch": 1.4227549467275495,
      "grad_norm": 4.625,
      "learning_rate": 2.1097414585599474e-06,
      "loss": 1.09059582,
      "memory(GiB)": 112.26,
      "step": 56085,
      "train_speed(iter/s)": 1.1282
    },
    {
      "acc": 0.74479294,
      "epoch": 1.4228817858954845,
      "grad_norm": 4.53125,
      "learning_rate": 2.1088858450640743e-06,
      "loss": 1.10355492,
      "memory(GiB)": 112.26,
      "step": 56090,
      "train_speed(iter/s)": 1.128217
    },
    {
      "acc": 0.74155307,
      "epoch": 1.4230086250634195,
      "grad_norm": 4.53125,
      "learning_rate": 2.108030358732308e-06,
      "loss": 1.03767567,
      "memory(GiB)": 112.26,
      "step": 56095,
      "train_speed(iter/s)": 1.128235
    },
    {
      "acc": 0.74138727,
      "epoch": 1.4231354642313545,
      "grad_norm": 3.25,
      "learning_rate": 2.107174999602277e-06,
      "loss": 1.07618084,
      "memory(GiB)": 112.26,
      "step": 56100,
      "train_speed(iter/s)": 1.128254
    },
    {
      "acc": 0.74889722,
      "epoch": 1.4232623033992897,
      "grad_norm": 3.90625,
      "learning_rate": 2.106319767711606e-06,
      "loss": 1.01401005,
      "memory(GiB)": 112.26,
      "step": 56105,
      "train_speed(iter/s)": 1.128266
    },
    {
      "acc": 0.72734184,
      "epoch": 1.4233891425672247,
      "grad_norm": 4.03125,
      "learning_rate": 2.105464663097913e-06,
      "loss": 1.08775234,
      "memory(GiB)": 112.26,
      "step": 56110,
      "train_speed(iter/s)": 1.128276
    },
    {
      "acc": 0.74644556,
      "epoch": 1.42351598173516,
      "grad_norm": 3.875,
      "learning_rate": 2.1046096857988033e-06,
      "loss": 1.01864233,
      "memory(GiB)": 112.26,
      "step": 56115,
      "train_speed(iter/s)": 1.128278
    },
    {
      "acc": 0.73768644,
      "epoch": 1.423642820903095,
      "grad_norm": 3.140625,
      "learning_rate": 2.103754835851889e-06,
      "loss": 1.04869385,
      "memory(GiB)": 112.26,
      "step": 56120,
      "train_speed(iter/s)": 1.128297
    },
    {
      "acc": 0.75161748,
      "epoch": 1.42376966007103,
      "grad_norm": 3.3125,
      "learning_rate": 2.102900113294768e-06,
      "loss": 1.01605291,
      "memory(GiB)": 112.26,
      "step": 56125,
      "train_speed(iter/s)": 1.128313
    },
    {
      "acc": 0.73893061,
      "epoch": 1.4238964992389649,
      "grad_norm": 3.828125,
      "learning_rate": 2.1020455181650356e-06,
      "loss": 1.03062286,
      "memory(GiB)": 112.26,
      "step": 56130,
      "train_speed(iter/s)": 1.128331
    },
    {
      "acc": 0.74005337,
      "epoch": 1.4240233384069,
      "grad_norm": 4.0625,
      "learning_rate": 2.101191050500277e-06,
      "loss": 1.04893074,
      "memory(GiB)": 112.26,
      "step": 56135,
      "train_speed(iter/s)": 1.128342
    },
    {
      "acc": 0.72727489,
      "epoch": 1.424150177574835,
      "grad_norm": 4.0625,
      "learning_rate": 2.1003367103380797e-06,
      "loss": 1.05417347,
      "memory(GiB)": 112.26,
      "step": 56140,
      "train_speed(iter/s)": 1.128359
    },
    {
      "acc": 0.7381783,
      "epoch": 1.4242770167427703,
      "grad_norm": 4.15625,
      "learning_rate": 2.09948249771602e-06,
      "loss": 1.10976143,
      "memory(GiB)": 112.26,
      "step": 56145,
      "train_speed(iter/s)": 1.128367
    },
    {
      "acc": 0.73435841,
      "epoch": 1.4244038559107053,
      "grad_norm": 4.21875,
      "learning_rate": 2.09862841267167e-06,
      "loss": 0.99714308,
      "memory(GiB)": 112.26,
      "step": 56150,
      "train_speed(iter/s)": 1.128373
    },
    {
      "acc": 0.73713355,
      "epoch": 1.4245306950786403,
      "grad_norm": 4.875,
      "learning_rate": 2.097774455242596e-06,
      "loss": 1.09010696,
      "memory(GiB)": 112.26,
      "step": 56155,
      "train_speed(iter/s)": 1.128382
    },
    {
      "acc": 0.74440608,
      "epoch": 1.4246575342465753,
      "grad_norm": 3.328125,
      "learning_rate": 2.096920625466359e-06,
      "loss": 1.03576126,
      "memory(GiB)": 112.26,
      "step": 56160,
      "train_speed(iter/s)": 1.128392
    },
    {
      "acc": 0.72731352,
      "epoch": 1.4247843734145105,
      "grad_norm": 3.703125,
      "learning_rate": 2.0960669233805136e-06,
      "loss": 1.11746111,
      "memory(GiB)": 112.26,
      "step": 56165,
      "train_speed(iter/s)": 1.128404
    },
    {
      "acc": 0.74149976,
      "epoch": 1.4249112125824455,
      "grad_norm": 3.15625,
      "learning_rate": 2.0952133490226106e-06,
      "loss": 1.10135651,
      "memory(GiB)": 112.26,
      "step": 56170,
      "train_speed(iter/s)": 1.128426
    },
    {
      "acc": 0.73289118,
      "epoch": 1.4250380517503805,
      "grad_norm": 3.921875,
      "learning_rate": 2.0943599024301935e-06,
      "loss": 1.07877836,
      "memory(GiB)": 112.26,
      "step": 56175,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.7362782,
      "epoch": 1.4251648909183157,
      "grad_norm": 4.125,
      "learning_rate": 2.093506583640801e-06,
      "loss": 1.0400691,
      "memory(GiB)": 112.26,
      "step": 56180,
      "train_speed(iter/s)": 1.128445
    },
    {
      "acc": 0.74430156,
      "epoch": 1.4252917300862507,
      "grad_norm": 3.78125,
      "learning_rate": 2.092653392691965e-06,
      "loss": 1.02186699,
      "memory(GiB)": 112.26,
      "step": 56185,
      "train_speed(iter/s)": 1.128455
    },
    {
      "acc": 0.74296341,
      "epoch": 1.4254185692541856,
      "grad_norm": 3.640625,
      "learning_rate": 2.091800329621213e-06,
      "loss": 1.05683088,
      "memory(GiB)": 112.26,
      "step": 56190,
      "train_speed(iter/s)": 1.128473
    },
    {
      "acc": 0.75161457,
      "epoch": 1.4255454084221206,
      "grad_norm": 3.140625,
      "learning_rate": 2.0909473944660667e-06,
      "loss": 1.01469069,
      "memory(GiB)": 112.26,
      "step": 56195,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.73824635,
      "epoch": 1.4256722475900558,
      "grad_norm": 3.96875,
      "learning_rate": 2.0900945872640427e-06,
      "loss": 1.0976675,
      "memory(GiB)": 112.26,
      "step": 56200,
      "train_speed(iter/s)": 1.128501
    },
    {
      "acc": 0.74755468,
      "epoch": 1.4257990867579908,
      "grad_norm": 3.640625,
      "learning_rate": 2.0892419080526484e-06,
      "loss": 1.03821354,
      "memory(GiB)": 112.26,
      "step": 56205,
      "train_speed(iter/s)": 1.128502
    },
    {
      "acc": 0.75183096,
      "epoch": 1.425925925925926,
      "grad_norm": 3.890625,
      "learning_rate": 2.0883893568693935e-06,
      "loss": 1.0161171,
      "memory(GiB)": 112.26,
      "step": 56210,
      "train_speed(iter/s)": 1.128515
    },
    {
      "acc": 0.75519094,
      "epoch": 1.426052765093861,
      "grad_norm": 3.46875,
      "learning_rate": 2.087536933751773e-06,
      "loss": 1.06539745,
      "memory(GiB)": 112.26,
      "step": 56215,
      "train_speed(iter/s)": 1.128532
    },
    {
      "acc": 0.74821076,
      "epoch": 1.426179604261796,
      "grad_norm": 4.59375,
      "learning_rate": 2.0866846387372814e-06,
      "loss": 1.05296412,
      "memory(GiB)": 112.26,
      "step": 56220,
      "train_speed(iter/s)": 1.12854
    },
    {
      "acc": 0.73003173,
      "epoch": 1.426306443429731,
      "grad_norm": 3.734375,
      "learning_rate": 2.085832471863404e-06,
      "loss": 1.12906208,
      "memory(GiB)": 112.26,
      "step": 56225,
      "train_speed(iter/s)": 1.128554
    },
    {
      "acc": 0.73267269,
      "epoch": 1.4264332825976662,
      "grad_norm": 3.84375,
      "learning_rate": 2.08498043316763e-06,
      "loss": 1.0957902,
      "memory(GiB)": 112.26,
      "step": 56230,
      "train_speed(iter/s)": 1.128572
    },
    {
      "acc": 0.74810061,
      "epoch": 1.4265601217656012,
      "grad_norm": 4.15625,
      "learning_rate": 2.0841285226874282e-06,
      "loss": 1.05843487,
      "memory(GiB)": 112.26,
      "step": 56235,
      "train_speed(iter/s)": 1.128582
    },
    {
      "acc": 0.73184299,
      "epoch": 1.4266869609335362,
      "grad_norm": 3.515625,
      "learning_rate": 2.083276740460271e-06,
      "loss": 1.06948242,
      "memory(GiB)": 112.26,
      "step": 56240,
      "train_speed(iter/s)": 1.128601
    },
    {
      "acc": 0.74655895,
      "epoch": 1.4268138001014714,
      "grad_norm": 3.3125,
      "learning_rate": 2.082425086523627e-06,
      "loss": 0.98873634,
      "memory(GiB)": 112.26,
      "step": 56245,
      "train_speed(iter/s)": 1.128611
    },
    {
      "acc": 0.74881592,
      "epoch": 1.4269406392694064,
      "grad_norm": 3.6875,
      "learning_rate": 2.0815735609149556e-06,
      "loss": 1.03424215,
      "memory(GiB)": 112.26,
      "step": 56250,
      "train_speed(iter/s)": 1.128631
    },
    {
      "acc": 0.75700951,
      "epoch": 1.4270674784373414,
      "grad_norm": 3.3125,
      "learning_rate": 2.080722163671705e-06,
      "loss": 0.99677687,
      "memory(GiB)": 112.26,
      "step": 56255,
      "train_speed(iter/s)": 1.12865
    },
    {
      "acc": 0.74910936,
      "epoch": 1.4271943176052764,
      "grad_norm": 3.546875,
      "learning_rate": 2.079870894831329e-06,
      "loss": 1.04694614,
      "memory(GiB)": 112.26,
      "step": 56260,
      "train_speed(iter/s)": 1.128657
    },
    {
      "acc": 0.73977213,
      "epoch": 1.4273211567732116,
      "grad_norm": 3.5,
      "learning_rate": 2.0790197544312683e-06,
      "loss": 1.10537691,
      "memory(GiB)": 112.26,
      "step": 56265,
      "train_speed(iter/s)": 1.128667
    },
    {
      "acc": 0.72634211,
      "epoch": 1.4274479959411466,
      "grad_norm": 3.46875,
      "learning_rate": 2.0781687425089624e-06,
      "loss": 1.10034723,
      "memory(GiB)": 112.26,
      "step": 56270,
      "train_speed(iter/s)": 1.128676
    },
    {
      "acc": 0.73803272,
      "epoch": 1.4275748351090818,
      "grad_norm": 4.6875,
      "learning_rate": 2.0773178591018363e-06,
      "loss": 1.10395756,
      "memory(GiB)": 112.26,
      "step": 56275,
      "train_speed(iter/s)": 1.12869
    },
    {
      "acc": 0.75403514,
      "epoch": 1.4277016742770168,
      "grad_norm": 4.1875,
      "learning_rate": 2.076467104247322e-06,
      "loss": 0.99813747,
      "memory(GiB)": 112.26,
      "step": 56280,
      "train_speed(iter/s)": 1.128708
    },
    {
      "acc": 0.75923872,
      "epoch": 1.4278285134449518,
      "grad_norm": 3.453125,
      "learning_rate": 2.0756164779828365e-06,
      "loss": 0.9919838,
      "memory(GiB)": 112.26,
      "step": 56285,
      "train_speed(iter/s)": 1.12873
    },
    {
      "acc": 0.7427269,
      "epoch": 1.4279553526128868,
      "grad_norm": 3.546875,
      "learning_rate": 2.0747659803457943e-06,
      "loss": 1.04122562,
      "memory(GiB)": 112.26,
      "step": 56290,
      "train_speed(iter/s)": 1.128746
    },
    {
      "acc": 0.75551596,
      "epoch": 1.428082191780822,
      "grad_norm": 3.3125,
      "learning_rate": 2.073915611373605e-06,
      "loss": 1.01541481,
      "memory(GiB)": 112.26,
      "step": 56295,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.73844581,
      "epoch": 1.428209030948757,
      "grad_norm": 3.234375,
      "learning_rate": 2.0730653711036713e-06,
      "loss": 1.07013874,
      "memory(GiB)": 112.26,
      "step": 56300,
      "train_speed(iter/s)": 1.128783
    },
    {
      "acc": 0.75226226,
      "epoch": 1.4283358701166922,
      "grad_norm": 3.90625,
      "learning_rate": 2.0722152595733903e-06,
      "loss": 0.99799843,
      "memory(GiB)": 112.26,
      "step": 56305,
      "train_speed(iter/s)": 1.128802
    },
    {
      "acc": 0.74622784,
      "epoch": 1.4284627092846272,
      "grad_norm": 3.6875,
      "learning_rate": 2.0713652768201536e-06,
      "loss": 1.00101166,
      "memory(GiB)": 112.26,
      "step": 56310,
      "train_speed(iter/s)": 1.128816
    },
    {
      "acc": 0.73883219,
      "epoch": 1.4285895484525621,
      "grad_norm": 4.625,
      "learning_rate": 2.0705154228813477e-06,
      "loss": 1.07630911,
      "memory(GiB)": 112.26,
      "step": 56315,
      "train_speed(iter/s)": 1.128834
    },
    {
      "acc": 0.75231256,
      "epoch": 1.4287163876204971,
      "grad_norm": 3.296875,
      "learning_rate": 2.0696656977943524e-06,
      "loss": 1.01376152,
      "memory(GiB)": 112.26,
      "step": 56320,
      "train_speed(iter/s)": 1.128845
    },
    {
      "acc": 0.73435292,
      "epoch": 1.4288432267884323,
      "grad_norm": 3.90625,
      "learning_rate": 2.068816101596543e-06,
      "loss": 1.08917589,
      "memory(GiB)": 112.26,
      "step": 56325,
      "train_speed(iter/s)": 1.128857
    },
    {
      "acc": 0.7525876,
      "epoch": 1.4289700659563673,
      "grad_norm": 3.234375,
      "learning_rate": 2.067966634325288e-06,
      "loss": 0.98914356,
      "memory(GiB)": 112.26,
      "step": 56330,
      "train_speed(iter/s)": 1.128874
    },
    {
      "acc": 0.74333034,
      "epoch": 1.4290969051243023,
      "grad_norm": 3.890625,
      "learning_rate": 2.0671172960179513e-06,
      "loss": 1.02758579,
      "memory(GiB)": 112.26,
      "step": 56335,
      "train_speed(iter/s)": 1.128889
    },
    {
      "acc": 0.75137553,
      "epoch": 1.4292237442922375,
      "grad_norm": 3.796875,
      "learning_rate": 2.06626808671189e-06,
      "loss": 1.00744886,
      "memory(GiB)": 112.26,
      "step": 56340,
      "train_speed(iter/s)": 1.128906
    },
    {
      "acc": 0.73652592,
      "epoch": 1.4293505834601725,
      "grad_norm": 4.03125,
      "learning_rate": 2.065419006444455e-06,
      "loss": 1.07239847,
      "memory(GiB)": 112.26,
      "step": 56345,
      "train_speed(iter/s)": 1.12892
    },
    {
      "acc": 0.74619474,
      "epoch": 1.4294774226281075,
      "grad_norm": 3.515625,
      "learning_rate": 2.0645700552529973e-06,
      "loss": 1.04609022,
      "memory(GiB)": 112.26,
      "step": 56350,
      "train_speed(iter/s)": 1.128943
    },
    {
      "acc": 0.72471952,
      "epoch": 1.4296042617960425,
      "grad_norm": 3.515625,
      "learning_rate": 2.063721233174853e-06,
      "loss": 1.12326508,
      "memory(GiB)": 112.26,
      "step": 56355,
      "train_speed(iter/s)": 1.128958
    },
    {
      "acc": 0.74894209,
      "epoch": 1.4297311009639777,
      "grad_norm": 4.15625,
      "learning_rate": 2.0628725402473574e-06,
      "loss": 0.97997932,
      "memory(GiB)": 112.26,
      "step": 56360,
      "train_speed(iter/s)": 1.128968
    },
    {
      "acc": 0.7461359,
      "epoch": 1.4298579401319127,
      "grad_norm": 4.21875,
      "learning_rate": 2.0620239765078404e-06,
      "loss": 1.03414364,
      "memory(GiB)": 112.26,
      "step": 56365,
      "train_speed(iter/s)": 1.12898
    },
    {
      "acc": 0.73916426,
      "epoch": 1.429984779299848,
      "grad_norm": 3.28125,
      "learning_rate": 2.0611755419936285e-06,
      "loss": 1.04904194,
      "memory(GiB)": 112.26,
      "step": 56370,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.74442682,
      "epoch": 1.430111618467783,
      "grad_norm": 3.328125,
      "learning_rate": 2.0603272367420357e-06,
      "loss": 1.01666059,
      "memory(GiB)": 112.26,
      "step": 56375,
      "train_speed(iter/s)": 1.12901
    },
    {
      "acc": 0.75216398,
      "epoch": 1.4302384576357179,
      "grad_norm": 3.9375,
      "learning_rate": 2.0594790607903743e-06,
      "loss": 1.00244026,
      "memory(GiB)": 112.26,
      "step": 56380,
      "train_speed(iter/s)": 1.129036
    },
    {
      "acc": 0.74674253,
      "epoch": 1.4303652968036529,
      "grad_norm": 3.484375,
      "learning_rate": 2.0586310141759534e-06,
      "loss": 1.04892044,
      "memory(GiB)": 112.26,
      "step": 56385,
      "train_speed(iter/s)": 1.129047
    },
    {
      "acc": 0.73289633,
      "epoch": 1.430492135971588,
      "grad_norm": 3.46875,
      "learning_rate": 2.0577830969360753e-06,
      "loss": 1.06814384,
      "memory(GiB)": 112.26,
      "step": 56390,
      "train_speed(iter/s)": 1.12907
    },
    {
      "acc": 0.75157547,
      "epoch": 1.430618975139523,
      "grad_norm": 4.25,
      "learning_rate": 2.0569353091080304e-06,
      "loss": 1.00604172,
      "memory(GiB)": 112.26,
      "step": 56395,
      "train_speed(iter/s)": 1.129085
    },
    {
      "acc": 0.74974189,
      "epoch": 1.430745814307458,
      "grad_norm": 3.828125,
      "learning_rate": 2.056087650729109e-06,
      "loss": 0.97764301,
      "memory(GiB)": 112.26,
      "step": 56400,
      "train_speed(iter/s)": 1.129097
    },
    {
      "acc": 0.74137349,
      "epoch": 1.4308726534753933,
      "grad_norm": 3.5625,
      "learning_rate": 2.0552401218365975e-06,
      "loss": 1.06731176,
      "memory(GiB)": 112.26,
      "step": 56405,
      "train_speed(iter/s)": 1.129108
    },
    {
      "acc": 0.7389111,
      "epoch": 1.4309994926433283,
      "grad_norm": 3.203125,
      "learning_rate": 2.054392722467775e-06,
      "loss": 1.04103203,
      "memory(GiB)": 112.26,
      "step": 56410,
      "train_speed(iter/s)": 1.129127
    },
    {
      "acc": 0.72548871,
      "epoch": 1.4311263318112633,
      "grad_norm": 3.5625,
      "learning_rate": 2.0535454526599086e-06,
      "loss": 1.12063637,
      "memory(GiB)": 112.26,
      "step": 56415,
      "train_speed(iter/s)": 1.129146
    },
    {
      "acc": 0.74155455,
      "epoch": 1.4312531709791982,
      "grad_norm": 4.09375,
      "learning_rate": 2.0526983124502692e-06,
      "loss": 1.0376317,
      "memory(GiB)": 112.26,
      "step": 56420,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.73457108,
      "epoch": 1.4313800101471335,
      "grad_norm": 4.0,
      "learning_rate": 2.051851301876117e-06,
      "loss": 1.08686275,
      "memory(GiB)": 112.26,
      "step": 56425,
      "train_speed(iter/s)": 1.129155
    },
    {
      "acc": 0.73033161,
      "epoch": 1.4315068493150684,
      "grad_norm": 4.34375,
      "learning_rate": 2.0510044209747078e-06,
      "loss": 1.11872387,
      "memory(GiB)": 112.26,
      "step": 56430,
      "train_speed(iter/s)": 1.129169
    },
    {
      "acc": 0.73819494,
      "epoch": 1.4316336884830037,
      "grad_norm": 3.75,
      "learning_rate": 2.05015766978329e-06,
      "loss": 1.04499664,
      "memory(GiB)": 112.26,
      "step": 56435,
      "train_speed(iter/s)": 1.129191
    },
    {
      "acc": 0.73154163,
      "epoch": 1.4317605276509386,
      "grad_norm": 3.3125,
      "learning_rate": 2.049311048339108e-06,
      "loss": 1.07638721,
      "memory(GiB)": 112.26,
      "step": 56440,
      "train_speed(iter/s)": 1.12921
    },
    {
      "acc": 0.74614272,
      "epoch": 1.4318873668188736,
      "grad_norm": 3.34375,
      "learning_rate": 2.0484645566793993e-06,
      "loss": 1.05751867,
      "memory(GiB)": 112.26,
      "step": 56445,
      "train_speed(iter/s)": 1.129222
    },
    {
      "acc": 0.73598013,
      "epoch": 1.4320142059868086,
      "grad_norm": 3.703125,
      "learning_rate": 2.0476181948413975e-06,
      "loss": 1.13738823,
      "memory(GiB)": 112.26,
      "step": 56450,
      "train_speed(iter/s)": 1.129243
    },
    {
      "acc": 0.73681364,
      "epoch": 1.4321410451547438,
      "grad_norm": 4.0,
      "learning_rate": 2.0467719628623293e-06,
      "loss": 1.05403957,
      "memory(GiB)": 112.26,
      "step": 56455,
      "train_speed(iter/s)": 1.12926
    },
    {
      "acc": 0.74972382,
      "epoch": 1.4322678843226788,
      "grad_norm": 3.671875,
      "learning_rate": 2.045925860779415e-06,
      "loss": 1.01702118,
      "memory(GiB)": 112.26,
      "step": 56460,
      "train_speed(iter/s)": 1.129281
    },
    {
      "acc": 0.7324296,
      "epoch": 1.432394723490614,
      "grad_norm": 3.625,
      "learning_rate": 2.0450798886298707e-06,
      "loss": 1.06447477,
      "memory(GiB)": 112.26,
      "step": 56465,
      "train_speed(iter/s)": 1.129293
    },
    {
      "acc": 0.74169741,
      "epoch": 1.432521562658549,
      "grad_norm": 3.484375,
      "learning_rate": 2.044234046450905e-06,
      "loss": 1.0275466,
      "memory(GiB)": 112.26,
      "step": 56470,
      "train_speed(iter/s)": 1.129299
    },
    {
      "acc": 0.74312444,
      "epoch": 1.432648401826484,
      "grad_norm": 3.421875,
      "learning_rate": 2.0433883342797233e-06,
      "loss": 1.04080048,
      "memory(GiB)": 112.26,
      "step": 56475,
      "train_speed(iter/s)": 1.129315
    },
    {
      "acc": 0.74997306,
      "epoch": 1.432775240994419,
      "grad_norm": 3.421875,
      "learning_rate": 2.042542752153522e-06,
      "loss": 1.02937317,
      "memory(GiB)": 112.26,
      "step": 56480,
      "train_speed(iter/s)": 1.129327
    },
    {
      "acc": 0.74224939,
      "epoch": 1.4329020801623542,
      "grad_norm": 4.28125,
      "learning_rate": 2.0416973001094953e-06,
      "loss": 1.06153584,
      "memory(GiB)": 112.26,
      "step": 56485,
      "train_speed(iter/s)": 1.129343
    },
    {
      "acc": 0.74808731,
      "epoch": 1.4330289193302892,
      "grad_norm": 4.0,
      "learning_rate": 2.0408519781848292e-06,
      "loss": 1.04749355,
      "memory(GiB)": 112.26,
      "step": 56490,
      "train_speed(iter/s)": 1.129352
    },
    {
      "acc": 0.75249052,
      "epoch": 1.4331557584982242,
      "grad_norm": 3.0625,
      "learning_rate": 2.0400067864167044e-06,
      "loss": 1.00005407,
      "memory(GiB)": 112.26,
      "step": 56495,
      "train_speed(iter/s)": 1.129359
    },
    {
      "acc": 0.75486078,
      "epoch": 1.4332825976661594,
      "grad_norm": 3.6875,
      "learning_rate": 2.0391617248422967e-06,
      "loss": 1.01287947,
      "memory(GiB)": 112.26,
      "step": 56500,
      "train_speed(iter/s)": 1.129376
    },
    {
      "acc": 0.72016392,
      "epoch": 1.4334094368340944,
      "grad_norm": 4.375,
      "learning_rate": 2.038316793498774e-06,
      "loss": 1.13863316,
      "memory(GiB)": 112.26,
      "step": 56505,
      "train_speed(iter/s)": 1.129378
    },
    {
      "acc": 0.73888922,
      "epoch": 1.4335362760020294,
      "grad_norm": 5.0,
      "learning_rate": 2.037471992423305e-06,
      "loss": 1.06367941,
      "memory(GiB)": 112.26,
      "step": 56510,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.72797613,
      "epoch": 1.4336631151699644,
      "grad_norm": 3.9375,
      "learning_rate": 2.036627321653043e-06,
      "loss": 1.10207529,
      "memory(GiB)": 112.26,
      "step": 56515,
      "train_speed(iter/s)": 1.129414
    },
    {
      "acc": 0.73843622,
      "epoch": 1.4337899543378996,
      "grad_norm": 4.3125,
      "learning_rate": 2.0357827812251403e-06,
      "loss": 1.10968304,
      "memory(GiB)": 112.26,
      "step": 56520,
      "train_speed(iter/s)": 1.129431
    },
    {
      "acc": 0.74626622,
      "epoch": 1.4339167935058346,
      "grad_norm": 4.46875,
      "learning_rate": 2.0349383711767463e-06,
      "loss": 1.05408287,
      "memory(GiB)": 112.26,
      "step": 56525,
      "train_speed(iter/s)": 1.129453
    },
    {
      "acc": 0.74143457,
      "epoch": 1.4340436326737698,
      "grad_norm": 3.609375,
      "learning_rate": 2.0340940915450026e-06,
      "loss": 1.04847736,
      "memory(GiB)": 112.26,
      "step": 56530,
      "train_speed(iter/s)": 1.129468
    },
    {
      "acc": 0.74141388,
      "epoch": 1.4341704718417048,
      "grad_norm": 3.6875,
      "learning_rate": 2.033249942367041e-06,
      "loss": 1.06190567,
      "memory(GiB)": 112.26,
      "step": 56535,
      "train_speed(iter/s)": 1.129482
    },
    {
      "acc": 0.75440221,
      "epoch": 1.4342973110096398,
      "grad_norm": 3.953125,
      "learning_rate": 2.032405923679991e-06,
      "loss": 1.0049757,
      "memory(GiB)": 112.26,
      "step": 56540,
      "train_speed(iter/s)": 1.129494
    },
    {
      "acc": 0.73612614,
      "epoch": 1.4344241501775747,
      "grad_norm": 3.125,
      "learning_rate": 2.0315620355209792e-06,
      "loss": 1.09495668,
      "memory(GiB)": 112.26,
      "step": 56545,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.7458415,
      "epoch": 1.43455098934551,
      "grad_norm": 5.15625,
      "learning_rate": 2.030718277927124e-06,
      "loss": 1.054739,
      "memory(GiB)": 112.26,
      "step": 56550,
      "train_speed(iter/s)": 1.129518
    },
    {
      "acc": 0.75563846,
      "epoch": 1.434677828513445,
      "grad_norm": 3.765625,
      "learning_rate": 2.0298746509355326e-06,
      "loss": 0.99786873,
      "memory(GiB)": 112.26,
      "step": 56555,
      "train_speed(iter/s)": 1.129532
    },
    {
      "acc": 0.74403496,
      "epoch": 1.43480466768138,
      "grad_norm": 3.421875,
      "learning_rate": 2.0290311545833166e-06,
      "loss": 1.04999561,
      "memory(GiB)": 112.26,
      "step": 56560,
      "train_speed(iter/s)": 1.129552
    },
    {
      "acc": 0.75215263,
      "epoch": 1.4349315068493151,
      "grad_norm": 3.375,
      "learning_rate": 2.028187788907574e-06,
      "loss": 1.07375126,
      "memory(GiB)": 112.26,
      "step": 56565,
      "train_speed(iter/s)": 1.129565
    },
    {
      "acc": 0.74929543,
      "epoch": 1.4350583460172501,
      "grad_norm": 3.0,
      "learning_rate": 2.027344553945403e-06,
      "loss": 1.05241623,
      "memory(GiB)": 112.26,
      "step": 56570,
      "train_speed(iter/s)": 1.129566
    },
    {
      "acc": 0.74129548,
      "epoch": 1.4351851851851851,
      "grad_norm": 3.265625,
      "learning_rate": 2.0265014497338868e-06,
      "loss": 1.00753326,
      "memory(GiB)": 112.26,
      "step": 56575,
      "train_speed(iter/s)": 1.129581
    },
    {
      "acc": 0.74118562,
      "epoch": 1.43531202435312,
      "grad_norm": 4.375,
      "learning_rate": 2.0256584763101145e-06,
      "loss": 1.03391428,
      "memory(GiB)": 112.26,
      "step": 56580,
      "train_speed(iter/s)": 1.129589
    },
    {
      "acc": 0.7407445,
      "epoch": 1.4354388635210553,
      "grad_norm": 4.0625,
      "learning_rate": 2.024815633711162e-06,
      "loss": 1.08290443,
      "memory(GiB)": 112.26,
      "step": 56585,
      "train_speed(iter/s)": 1.129595
    },
    {
      "acc": 0.74339943,
      "epoch": 1.4355657026889903,
      "grad_norm": 3.484375,
      "learning_rate": 2.0239729219741005e-06,
      "loss": 1.0121973,
      "memory(GiB)": 112.26,
      "step": 56590,
      "train_speed(iter/s)": 1.129602
    },
    {
      "acc": 0.73955736,
      "epoch": 1.4356925418569255,
      "grad_norm": 3.90625,
      "learning_rate": 2.0231303411359975e-06,
      "loss": 1.02785225,
      "memory(GiB)": 112.26,
      "step": 56595,
      "train_speed(iter/s)": 1.129616
    },
    {
      "acc": 0.73708038,
      "epoch": 1.4358193810248605,
      "grad_norm": 4.09375,
      "learning_rate": 2.0222878912339127e-06,
      "loss": 1.09228783,
      "memory(GiB)": 112.26,
      "step": 56600,
      "train_speed(iter/s)": 1.129632
    },
    {
      "acc": 0.7485877,
      "epoch": 1.4359462201927955,
      "grad_norm": 3.640625,
      "learning_rate": 2.021445572304901e-06,
      "loss": 1.08003883,
      "memory(GiB)": 112.26,
      "step": 56605,
      "train_speed(iter/s)": 1.129651
    },
    {
      "acc": 0.74247398,
      "epoch": 1.4360730593607305,
      "grad_norm": 4.375,
      "learning_rate": 2.0206033843860113e-06,
      "loss": 1.02691011,
      "memory(GiB)": 112.26,
      "step": 56610,
      "train_speed(iter/s)": 1.129659
    },
    {
      "acc": 0.73588276,
      "epoch": 1.4361998985286657,
      "grad_norm": 3.4375,
      "learning_rate": 2.0197613275142868e-06,
      "loss": 1.06366529,
      "memory(GiB)": 112.26,
      "step": 56615,
      "train_speed(iter/s)": 1.129674
    },
    {
      "acc": 0.74570327,
      "epoch": 1.4363267376966007,
      "grad_norm": 3.703125,
      "learning_rate": 2.018919401726765e-06,
      "loss": 1.01689367,
      "memory(GiB)": 112.26,
      "step": 56620,
      "train_speed(iter/s)": 1.129692
    },
    {
      "acc": 0.74088278,
      "epoch": 1.436453576864536,
      "grad_norm": 3.140625,
      "learning_rate": 2.0180776070604773e-06,
      "loss": 1.07545328,
      "memory(GiB)": 112.26,
      "step": 56625,
      "train_speed(iter/s)": 1.129712
    },
    {
      "acc": 0.74681649,
      "epoch": 1.4365804160324709,
      "grad_norm": 3.765625,
      "learning_rate": 2.0172359435524497e-06,
      "loss": 1.07309256,
      "memory(GiB)": 112.26,
      "step": 56630,
      "train_speed(iter/s)": 1.129732
    },
    {
      "acc": 0.74232345,
      "epoch": 1.4367072552004059,
      "grad_norm": 4.28125,
      "learning_rate": 2.0163944112397027e-06,
      "loss": 1.02538795,
      "memory(GiB)": 112.26,
      "step": 56635,
      "train_speed(iter/s)": 1.129732
    },
    {
      "acc": 0.73267345,
      "epoch": 1.4368340943683409,
      "grad_norm": 3.578125,
      "learning_rate": 2.01555301015925e-06,
      "loss": 1.08572159,
      "memory(GiB)": 112.26,
      "step": 56640,
      "train_speed(iter/s)": 1.129749
    },
    {
      "acc": 0.7392045,
      "epoch": 1.436960933536276,
      "grad_norm": 3.203125,
      "learning_rate": 2.0147117403480994e-06,
      "loss": 1.05980225,
      "memory(GiB)": 112.26,
      "step": 56645,
      "train_speed(iter/s)": 1.129767
    },
    {
      "acc": 0.74400878,
      "epoch": 1.437087772704211,
      "grad_norm": 3.28125,
      "learning_rate": 2.0138706018432576e-06,
      "loss": 1.01617985,
      "memory(GiB)": 112.26,
      "step": 56650,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.73202744,
      "epoch": 1.437214611872146,
      "grad_norm": 2.9375,
      "learning_rate": 2.0130295946817176e-06,
      "loss": 1.07664528,
      "memory(GiB)": 112.26,
      "step": 56655,
      "train_speed(iter/s)": 1.129804
    },
    {
      "acc": 0.7467288,
      "epoch": 1.4373414510400813,
      "grad_norm": 3.1875,
      "learning_rate": 2.0121887189004713e-06,
      "loss": 1.0476881,
      "memory(GiB)": 112.26,
      "step": 56660,
      "train_speed(iter/s)": 1.12982
    },
    {
      "acc": 0.74267693,
      "epoch": 1.4374682902080163,
      "grad_norm": 3.046875,
      "learning_rate": 2.0113479745365033e-06,
      "loss": 1.02964764,
      "memory(GiB)": 112.26,
      "step": 56665,
      "train_speed(iter/s)": 1.129825
    },
    {
      "acc": 0.73944473,
      "epoch": 1.4375951293759512,
      "grad_norm": 4.03125,
      "learning_rate": 2.0105073616267984e-06,
      "loss": 1.08384171,
      "memory(GiB)": 112.26,
      "step": 56670,
      "train_speed(iter/s)": 1.129833
    },
    {
      "acc": 0.74495535,
      "epoch": 1.4377219685438862,
      "grad_norm": 4.15625,
      "learning_rate": 2.0096668802083254e-06,
      "loss": 1.06882515,
      "memory(GiB)": 112.26,
      "step": 56675,
      "train_speed(iter/s)": 1.129839
    },
    {
      "acc": 0.74475651,
      "epoch": 1.4378488077118214,
      "grad_norm": 3.546875,
      "learning_rate": 2.0088265303180516e-06,
      "loss": 1.04382687,
      "memory(GiB)": 112.26,
      "step": 56680,
      "train_speed(iter/s)": 1.129847
    },
    {
      "acc": 0.7375062,
      "epoch": 1.4379756468797564,
      "grad_norm": 4.625,
      "learning_rate": 2.0079863119929434e-06,
      "loss": 1.06974506,
      "memory(GiB)": 112.26,
      "step": 56685,
      "train_speed(iter/s)": 1.129855
    },
    {
      "acc": 0.73461704,
      "epoch": 1.4381024860476916,
      "grad_norm": 3.453125,
      "learning_rate": 2.0071462252699575e-06,
      "loss": 1.10848942,
      "memory(GiB)": 112.26,
      "step": 56690,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.73597212,
      "epoch": 1.4382293252156266,
      "grad_norm": 3.703125,
      "learning_rate": 2.006306270186039e-06,
      "loss": 1.03829575,
      "memory(GiB)": 112.26,
      "step": 56695,
      "train_speed(iter/s)": 1.129894
    },
    {
      "acc": 0.74628019,
      "epoch": 1.4383561643835616,
      "grad_norm": 3.484375,
      "learning_rate": 2.005466446778139e-06,
      "loss": 1.02889957,
      "memory(GiB)": 112.26,
      "step": 56700,
      "train_speed(iter/s)": 1.129901
    },
    {
      "acc": 0.73213024,
      "epoch": 1.4384830035514966,
      "grad_norm": 3.5,
      "learning_rate": 2.0046267550831935e-06,
      "loss": 1.11810369,
      "memory(GiB)": 112.26,
      "step": 56705,
      "train_speed(iter/s)": 1.129922
    },
    {
      "acc": 0.74008751,
      "epoch": 1.4386098427194318,
      "grad_norm": 3.65625,
      "learning_rate": 2.003787195138139e-06,
      "loss": 1.08477182,
      "memory(GiB)": 112.26,
      "step": 56710,
      "train_speed(iter/s)": 1.129939
    },
    {
      "acc": 0.74557114,
      "epoch": 1.4387366818873668,
      "grad_norm": 3.40625,
      "learning_rate": 2.002947766979897e-06,
      "loss": 1.08461046,
      "memory(GiB)": 112.26,
      "step": 56715,
      "train_speed(iter/s)": 1.129948
    },
    {
      "acc": 0.74201784,
      "epoch": 1.4388635210553018,
      "grad_norm": 3.421875,
      "learning_rate": 2.0021084706453945e-06,
      "loss": 1.02985935,
      "memory(GiB)": 112.26,
      "step": 56720,
      "train_speed(iter/s)": 1.129956
    },
    {
      "acc": 0.73442302,
      "epoch": 1.438990360223237,
      "grad_norm": 3.453125,
      "learning_rate": 2.0012693061715467e-06,
      "loss": 1.02267971,
      "memory(GiB)": 112.26,
      "step": 56725,
      "train_speed(iter/s)": 1.129969
    },
    {
      "acc": 0.75726509,
      "epoch": 1.439117199391172,
      "grad_norm": 3.625,
      "learning_rate": 2.000430273595263e-06,
      "loss": 0.98893156,
      "memory(GiB)": 112.26,
      "step": 56730,
      "train_speed(iter/s)": 1.129982
    },
    {
      "acc": 0.73110228,
      "epoch": 1.439244038559107,
      "grad_norm": 3.921875,
      "learning_rate": 1.9995913729534477e-06,
      "loss": 1.06069622,
      "memory(GiB)": 112.26,
      "step": 56735,
      "train_speed(iter/s)": 1.12999
    },
    {
      "acc": 0.72903819,
      "epoch": 1.439370877727042,
      "grad_norm": 3.15625,
      "learning_rate": 1.9987526042830003e-06,
      "loss": 1.099331,
      "memory(GiB)": 112.26,
      "step": 56740,
      "train_speed(iter/s)": 1.130008
    },
    {
      "acc": 0.74712925,
      "epoch": 1.4394977168949772,
      "grad_norm": 3.359375,
      "learning_rate": 1.9979139676208124e-06,
      "loss": 1.00514717,
      "memory(GiB)": 112.26,
      "step": 56745,
      "train_speed(iter/s)": 1.130019
    },
    {
      "acc": 0.7401495,
      "epoch": 1.4396245560629122,
      "grad_norm": 4.46875,
      "learning_rate": 1.9970754630037718e-06,
      "loss": 1.03768997,
      "memory(GiB)": 112.26,
      "step": 56750,
      "train_speed(iter/s)": 1.130026
    },
    {
      "acc": 0.75022402,
      "epoch": 1.4397513952308474,
      "grad_norm": 3.515625,
      "learning_rate": 1.9962370904687596e-06,
      "loss": 1.01172218,
      "memory(GiB)": 112.26,
      "step": 56755,
      "train_speed(iter/s)": 1.130039
    },
    {
      "acc": 0.73496399,
      "epoch": 1.4398782343987824,
      "grad_norm": 4.46875,
      "learning_rate": 1.9953988500526506e-06,
      "loss": 1.07928581,
      "memory(GiB)": 112.26,
      "step": 56760,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.74400806,
      "epoch": 1.4400050735667174,
      "grad_norm": 3.484375,
      "learning_rate": 1.994560741792315e-06,
      "loss": 1.01155691,
      "memory(GiB)": 112.26,
      "step": 56765,
      "train_speed(iter/s)": 1.130069
    },
    {
      "acc": 0.73694286,
      "epoch": 1.4401319127346524,
      "grad_norm": 3.78125,
      "learning_rate": 1.993722765724616e-06,
      "loss": 1.04852057,
      "memory(GiB)": 112.26,
      "step": 56770,
      "train_speed(iter/s)": 1.130084
    },
    {
      "acc": 0.73175449,
      "epoch": 1.4402587519025876,
      "grad_norm": 3.890625,
      "learning_rate": 1.992884921886412e-06,
      "loss": 1.09754782,
      "memory(GiB)": 112.26,
      "step": 56775,
      "train_speed(iter/s)": 1.1301
    },
    {
      "acc": 0.73685765,
      "epoch": 1.4403855910705226,
      "grad_norm": 3.640625,
      "learning_rate": 1.9920472103145555e-06,
      "loss": 1.09222965,
      "memory(GiB)": 112.26,
      "step": 56780,
      "train_speed(iter/s)": 1.130106
    },
    {
      "acc": 0.73994603,
      "epoch": 1.4405124302384578,
      "grad_norm": 3.28125,
      "learning_rate": 1.99120963104589e-06,
      "loss": 1.07821007,
      "memory(GiB)": 112.26,
      "step": 56785,
      "train_speed(iter/s)": 1.130123
    },
    {
      "acc": 0.73718958,
      "epoch": 1.4406392694063928,
      "grad_norm": 4.03125,
      "learning_rate": 1.990372184117262e-06,
      "loss": 1.06339302,
      "memory(GiB)": 112.26,
      "step": 56790,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.72526174,
      "epoch": 1.4407661085743277,
      "grad_norm": 3.796875,
      "learning_rate": 1.9895348695655e-06,
      "loss": 1.05942898,
      "memory(GiB)": 112.26,
      "step": 56795,
      "train_speed(iter/s)": 1.130157
    },
    {
      "acc": 0.75460396,
      "epoch": 1.4408929477422627,
      "grad_norm": 3.40625,
      "learning_rate": 1.9886976874274356e-06,
      "loss": 1.01234303,
      "memory(GiB)": 112.26,
      "step": 56800,
      "train_speed(iter/s)": 1.130164
    },
    {
      "acc": 0.75614576,
      "epoch": 1.441019786910198,
      "grad_norm": 3.6875,
      "learning_rate": 1.9878606377398895e-06,
      "loss": 0.98098335,
      "memory(GiB)": 112.26,
      "step": 56805,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.7424017,
      "epoch": 1.441146626078133,
      "grad_norm": 2.859375,
      "learning_rate": 1.9870237205396844e-06,
      "loss": 1.0351141,
      "memory(GiB)": 112.26,
      "step": 56810,
      "train_speed(iter/s)": 1.130184
    },
    {
      "acc": 0.73963704,
      "epoch": 1.441273465246068,
      "grad_norm": 3.828125,
      "learning_rate": 1.986186935863626e-06,
      "loss": 1.06551409,
      "memory(GiB)": 112.26,
      "step": 56815,
      "train_speed(iter/s)": 1.130201
    },
    {
      "acc": 0.74967279,
      "epoch": 1.4414003044140031,
      "grad_norm": 3.6875,
      "learning_rate": 1.9853502837485207e-06,
      "loss": 1.02606335,
      "memory(GiB)": 112.26,
      "step": 56820,
      "train_speed(iter/s)": 1.130214
    },
    {
      "acc": 0.74540787,
      "epoch": 1.4415271435819381,
      "grad_norm": 3.53125,
      "learning_rate": 1.9845137642311707e-06,
      "loss": 1.03310509,
      "memory(GiB)": 112.26,
      "step": 56825,
      "train_speed(iter/s)": 1.130227
    },
    {
      "acc": 0.75441284,
      "epoch": 1.441653982749873,
      "grad_norm": 4.09375,
      "learning_rate": 1.9836773773483704e-06,
      "loss": 1.02631998,
      "memory(GiB)": 112.26,
      "step": 56830,
      "train_speed(iter/s)": 1.13025
    },
    {
      "acc": 0.73647356,
      "epoch": 1.441780821917808,
      "grad_norm": 3.921875,
      "learning_rate": 1.982841123136904e-06,
      "loss": 1.09226542,
      "memory(GiB)": 112.26,
      "step": 56835,
      "train_speed(iter/s)": 1.130259
    },
    {
      "acc": 0.72917519,
      "epoch": 1.4419076610857433,
      "grad_norm": 3.375,
      "learning_rate": 1.982005001633554e-06,
      "loss": 1.05616951,
      "memory(GiB)": 112.26,
      "step": 56840,
      "train_speed(iter/s)": 1.130277
    },
    {
      "acc": 0.71565509,
      "epoch": 1.4420345002536783,
      "grad_norm": 3.578125,
      "learning_rate": 1.9811690128751002e-06,
      "loss": 1.14284525,
      "memory(GiB)": 112.26,
      "step": 56845,
      "train_speed(iter/s)": 1.130289
    },
    {
      "acc": 0.73990822,
      "epoch": 1.4421613394216135,
      "grad_norm": 3.375,
      "learning_rate": 1.980333156898313e-06,
      "loss": 1.04050045,
      "memory(GiB)": 112.26,
      "step": 56850,
      "train_speed(iter/s)": 1.130302
    },
    {
      "acc": 0.73637414,
      "epoch": 1.4422881785895485,
      "grad_norm": 3.53125,
      "learning_rate": 1.979497433739952e-06,
      "loss": 1.08873196,
      "memory(GiB)": 112.26,
      "step": 56855,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.75009871,
      "epoch": 1.4424150177574835,
      "grad_norm": 3.765625,
      "learning_rate": 1.9786618434367814e-06,
      "loss": 1.00565405,
      "memory(GiB)": 112.26,
      "step": 56860,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.73709459,
      "epoch": 1.4425418569254185,
      "grad_norm": 3.984375,
      "learning_rate": 1.977826386025552e-06,
      "loss": 1.06068201,
      "memory(GiB)": 112.26,
      "step": 56865,
      "train_speed(iter/s)": 1.130348
    },
    {
      "acc": 0.73936176,
      "epoch": 1.4426686960933537,
      "grad_norm": 3.375,
      "learning_rate": 1.976991061543011e-06,
      "loss": 1.06836224,
      "memory(GiB)": 112.26,
      "step": 56870,
      "train_speed(iter/s)": 1.130359
    },
    {
      "acc": 0.72547522,
      "epoch": 1.4427955352612887,
      "grad_norm": 4.28125,
      "learning_rate": 1.9761558700259e-06,
      "loss": 1.09756355,
      "memory(GiB)": 112.26,
      "step": 56875,
      "train_speed(iter/s)": 1.13037
    },
    {
      "acc": 0.75205941,
      "epoch": 1.4429223744292237,
      "grad_norm": 3.828125,
      "learning_rate": 1.9753208115109546e-06,
      "loss": 1.01271238,
      "memory(GiB)": 112.26,
      "step": 56880,
      "train_speed(iter/s)": 1.130389
    },
    {
      "acc": 0.74505682,
      "epoch": 1.4430492135971589,
      "grad_norm": 3.484375,
      "learning_rate": 1.9744858860349043e-06,
      "loss": 1.04814453,
      "memory(GiB)": 112.26,
      "step": 56885,
      "train_speed(iter/s)": 1.130404
    },
    {
      "acc": 0.74019718,
      "epoch": 1.4431760527650939,
      "grad_norm": 3.78125,
      "learning_rate": 1.9736510936344723e-06,
      "loss": 1.03541861,
      "memory(GiB)": 112.26,
      "step": 56890,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.73458023,
      "epoch": 1.4433028919330289,
      "grad_norm": 3.578125,
      "learning_rate": 1.9728164343463764e-06,
      "loss": 1.14112082,
      "memory(GiB)": 112.26,
      "step": 56895,
      "train_speed(iter/s)": 1.130435
    },
    {
      "acc": 0.75068879,
      "epoch": 1.4434297311009638,
      "grad_norm": 4.75,
      "learning_rate": 1.97198190820733e-06,
      "loss": 1.04931622,
      "memory(GiB)": 112.26,
      "step": 56900,
      "train_speed(iter/s)": 1.130454
    },
    {
      "acc": 0.72901373,
      "epoch": 1.443556570268899,
      "grad_norm": 3.09375,
      "learning_rate": 1.9711475152540376e-06,
      "loss": 1.09476891,
      "memory(GiB)": 112.26,
      "step": 56905,
      "train_speed(iter/s)": 1.130473
    },
    {
      "acc": 0.73458681,
      "epoch": 1.443683409436834,
      "grad_norm": 3.5,
      "learning_rate": 1.9703132555232007e-06,
      "loss": 1.09368992,
      "memory(GiB)": 112.26,
      "step": 56910,
      "train_speed(iter/s)": 1.130485
    },
    {
      "acc": 0.75544739,
      "epoch": 1.4438102486047693,
      "grad_norm": 3.65625,
      "learning_rate": 1.9694791290515135e-06,
      "loss": 1.0447443,
      "memory(GiB)": 112.26,
      "step": 56915,
      "train_speed(iter/s)": 1.130498
    },
    {
      "acc": 0.74559288,
      "epoch": 1.4439370877727042,
      "grad_norm": 3.9375,
      "learning_rate": 1.968645135875665e-06,
      "loss": 1.0732975,
      "memory(GiB)": 112.26,
      "step": 56920,
      "train_speed(iter/s)": 1.130505
    },
    {
      "acc": 0.73698268,
      "epoch": 1.4440639269406392,
      "grad_norm": 3.421875,
      "learning_rate": 1.967811276032335e-06,
      "loss": 1.05201283,
      "memory(GiB)": 112.26,
      "step": 56925,
      "train_speed(iter/s)": 1.130519
    },
    {
      "acc": 0.73664303,
      "epoch": 1.4441907661085742,
      "grad_norm": 3.75,
      "learning_rate": 1.966977549558206e-06,
      "loss": 1.09285355,
      "memory(GiB)": 112.26,
      "step": 56930,
      "train_speed(iter/s)": 1.13054
    },
    {
      "acc": 0.74616213,
      "epoch": 1.4443176052765094,
      "grad_norm": 2.9375,
      "learning_rate": 1.966143956489945e-06,
      "loss": 1.05582714,
      "memory(GiB)": 112.26,
      "step": 56935,
      "train_speed(iter/s)": 1.130541
    },
    {
      "acc": 0.75511265,
      "epoch": 1.4444444444444444,
      "grad_norm": 3.453125,
      "learning_rate": 1.965310496864217e-06,
      "loss": 1.06590099,
      "memory(GiB)": 112.26,
      "step": 56940,
      "train_speed(iter/s)": 1.130555
    },
    {
      "acc": 0.74509258,
      "epoch": 1.4445712836123796,
      "grad_norm": 4.0625,
      "learning_rate": 1.9644771707176813e-06,
      "loss": 1.03448734,
      "memory(GiB)": 112.26,
      "step": 56945,
      "train_speed(iter/s)": 1.13056
    },
    {
      "acc": 0.73852429,
      "epoch": 1.4446981227803146,
      "grad_norm": 3.078125,
      "learning_rate": 1.963643978086996e-06,
      "loss": 1.04663582,
      "memory(GiB)": 112.26,
      "step": 56950,
      "train_speed(iter/s)": 1.130576
    },
    {
      "acc": 0.74177718,
      "epoch": 1.4448249619482496,
      "grad_norm": 4.125,
      "learning_rate": 1.9628109190088023e-06,
      "loss": 1.05374393,
      "memory(GiB)": 112.26,
      "step": 56955,
      "train_speed(iter/s)": 1.130585
    },
    {
      "acc": 0.74198837,
      "epoch": 1.4449518011161846,
      "grad_norm": 4.125,
      "learning_rate": 1.961977993519743e-06,
      "loss": 1.08332138,
      "memory(GiB)": 112.26,
      "step": 56960,
      "train_speed(iter/s)": 1.130596
    },
    {
      "acc": 0.73667727,
      "epoch": 1.4450786402841198,
      "grad_norm": 3.71875,
      "learning_rate": 1.9611452016564574e-06,
      "loss": 1.03251009,
      "memory(GiB)": 112.26,
      "step": 56965,
      "train_speed(iter/s)": 1.130616
    },
    {
      "acc": 0.73045959,
      "epoch": 1.4452054794520548,
      "grad_norm": 3.78125,
      "learning_rate": 1.960312543455575e-06,
      "loss": 1.11492529,
      "memory(GiB)": 112.26,
      "step": 56970,
      "train_speed(iter/s)": 1.130627
    },
    {
      "acc": 0.74049306,
      "epoch": 1.4453323186199898,
      "grad_norm": 3.84375,
      "learning_rate": 1.959480018953716e-06,
      "loss": 1.0712389,
      "memory(GiB)": 112.26,
      "step": 56975,
      "train_speed(iter/s)": 1.130642
    },
    {
      "acc": 0.73486004,
      "epoch": 1.445459157787925,
      "grad_norm": 2.65625,
      "learning_rate": 1.9586476281874994e-06,
      "loss": 1.08029909,
      "memory(GiB)": 112.26,
      "step": 56980,
      "train_speed(iter/s)": 1.130657
    },
    {
      "acc": 0.72422619,
      "epoch": 1.44558599695586,
      "grad_norm": 4.34375,
      "learning_rate": 1.9578153711935403e-06,
      "loss": 1.08948126,
      "memory(GiB)": 112.26,
      "step": 56985,
      "train_speed(iter/s)": 1.130669
    },
    {
      "acc": 0.72321796,
      "epoch": 1.445712836123795,
      "grad_norm": 4.0625,
      "learning_rate": 1.9569832480084456e-06,
      "loss": 1.10605793,
      "memory(GiB)": 112.26,
      "step": 56990,
      "train_speed(iter/s)": 1.130685
    },
    {
      "acc": 0.73376613,
      "epoch": 1.44583967529173,
      "grad_norm": 5.125,
      "learning_rate": 1.9561512586688096e-06,
      "loss": 1.12041483,
      "memory(GiB)": 112.26,
      "step": 56995,
      "train_speed(iter/s)": 1.130699
    },
    {
      "acc": 0.74597263,
      "epoch": 1.4459665144596652,
      "grad_norm": 3.734375,
      "learning_rate": 1.9553194032112334e-06,
      "loss": 1.0310276,
      "memory(GiB)": 112.26,
      "step": 57000,
      "train_speed(iter/s)": 1.130708
    },
    {
      "epoch": 1.4459665144596652,
      "eval_acc": 0.7258045721374022,
      "eval_loss": 1.0442620515823364,
      "eval_runtime": 70.9996,
      "eval_samples_per_second": 89.719,
      "eval_steps_per_second": 22.437,
      "step": 57000
    },
    {
      "acc": 0.73622484,
      "epoch": 1.4460933536276002,
      "grad_norm": 6.0625,
      "learning_rate": 1.954487681672303e-06,
      "loss": 1.07753563,
      "memory(GiB)": 112.26,
      "step": 57005,
      "train_speed(iter/s)": 1.128134
    },
    {
      "acc": 0.75329113,
      "epoch": 1.4462201927955354,
      "grad_norm": 5.65625,
      "learning_rate": 1.9536560940886033e-06,
      "loss": 1.00448322,
      "memory(GiB)": 112.26,
      "step": 57010,
      "train_speed(iter/s)": 1.128151
    },
    {
      "acc": 0.73363676,
      "epoch": 1.4463470319634704,
      "grad_norm": 3.640625,
      "learning_rate": 1.9528246404967067e-06,
      "loss": 1.08612461,
      "memory(GiB)": 112.26,
      "step": 57015,
      "train_speed(iter/s)": 1.12817
    },
    {
      "acc": 0.74580078,
      "epoch": 1.4464738711314054,
      "grad_norm": 3.890625,
      "learning_rate": 1.951993320933188e-06,
      "loss": 1.06042242,
      "memory(GiB)": 112.26,
      "step": 57020,
      "train_speed(iter/s)": 1.128179
    },
    {
      "acc": 0.7436151,
      "epoch": 1.4466007102993403,
      "grad_norm": 4.34375,
      "learning_rate": 1.951162135434612e-06,
      "loss": 1.12108154,
      "memory(GiB)": 112.26,
      "step": 57025,
      "train_speed(iter/s)": 1.128196
    },
    {
      "acc": 0.74059582,
      "epoch": 1.4467275494672756,
      "grad_norm": 4.03125,
      "learning_rate": 1.9503310840375374e-06,
      "loss": 1.05507555,
      "memory(GiB)": 112.26,
      "step": 57030,
      "train_speed(iter/s)": 1.128212
    },
    {
      "acc": 0.73686514,
      "epoch": 1.4468543886352105,
      "grad_norm": 4.15625,
      "learning_rate": 1.949500166778517e-06,
      "loss": 1.11974974,
      "memory(GiB)": 112.26,
      "step": 57035,
      "train_speed(iter/s)": 1.128225
    },
    {
      "acc": 0.73937569,
      "epoch": 1.4469812278031455,
      "grad_norm": 3.5625,
      "learning_rate": 1.948669383694099e-06,
      "loss": 1.06116829,
      "memory(GiB)": 112.26,
      "step": 57040,
      "train_speed(iter/s)": 1.128237
    },
    {
      "acc": 0.74592161,
      "epoch": 1.4471080669710807,
      "grad_norm": 3.84375,
      "learning_rate": 1.947838734820825e-06,
      "loss": 1.01805286,
      "memory(GiB)": 112.26,
      "step": 57045,
      "train_speed(iter/s)": 1.128248
    },
    {
      "acc": 0.74530506,
      "epoch": 1.4472349061390157,
      "grad_norm": 3.921875,
      "learning_rate": 1.94700822019523e-06,
      "loss": 1.02377796,
      "memory(GiB)": 112.26,
      "step": 57050,
      "train_speed(iter/s)": 1.128258
    },
    {
      "acc": 0.7540019,
      "epoch": 1.4473617453069507,
      "grad_norm": 4.25,
      "learning_rate": 1.9461778398538447e-06,
      "loss": 1.00535049,
      "memory(GiB)": 112.26,
      "step": 57055,
      "train_speed(iter/s)": 1.128274
    },
    {
      "acc": 0.71687951,
      "epoch": 1.4474885844748857,
      "grad_norm": 4.03125,
      "learning_rate": 1.945347593833191e-06,
      "loss": 1.17438202,
      "memory(GiB)": 112.26,
      "step": 57060,
      "train_speed(iter/s)": 1.12829
    },
    {
      "acc": 0.72795801,
      "epoch": 1.447615423642821,
      "grad_norm": 4.0625,
      "learning_rate": 1.9445174821697893e-06,
      "loss": 1.11748524,
      "memory(GiB)": 112.26,
      "step": 57065,
      "train_speed(iter/s)": 1.128299
    },
    {
      "acc": 0.71931601,
      "epoch": 1.447742262810756,
      "grad_norm": 3.265625,
      "learning_rate": 1.94368750490015e-06,
      "loss": 1.12130737,
      "memory(GiB)": 112.26,
      "step": 57070,
      "train_speed(iter/s)": 1.128315
    },
    {
      "acc": 0.75530825,
      "epoch": 1.4478691019786911,
      "grad_norm": 4.625,
      "learning_rate": 1.94285766206078e-06,
      "loss": 1.01869164,
      "memory(GiB)": 112.26,
      "step": 57075,
      "train_speed(iter/s)": 1.12833
    },
    {
      "acc": 0.73623857,
      "epoch": 1.447995941146626,
      "grad_norm": 4.40625,
      "learning_rate": 1.9420279536881794e-06,
      "loss": 1.08872938,
      "memory(GiB)": 112.26,
      "step": 57080,
      "train_speed(iter/s)": 1.128346
    },
    {
      "acc": 0.73621616,
      "epoch": 1.448122780314561,
      "grad_norm": 3.359375,
      "learning_rate": 1.9411983798188398e-06,
      "loss": 1.07950277,
      "memory(GiB)": 112.26,
      "step": 57085,
      "train_speed(iter/s)": 1.128361
    },
    {
      "acc": 0.73989205,
      "epoch": 1.448249619482496,
      "grad_norm": 3.65625,
      "learning_rate": 1.940368940489256e-06,
      "loss": 1.06433153,
      "memory(GiB)": 112.26,
      "step": 57090,
      "train_speed(iter/s)": 1.128378
    },
    {
      "acc": 0.74687281,
      "epoch": 1.4483764586504313,
      "grad_norm": 4.15625,
      "learning_rate": 1.939539635735905e-06,
      "loss": 1.03380814,
      "memory(GiB)": 112.26,
      "step": 57095,
      "train_speed(iter/s)": 1.128392
    },
    {
      "acc": 0.75117679,
      "epoch": 1.4485032978183663,
      "grad_norm": 3.9375,
      "learning_rate": 1.9387104655952625e-06,
      "loss": 1.04709492,
      "memory(GiB)": 112.26,
      "step": 57100,
      "train_speed(iter/s)": 1.128402
    },
    {
      "acc": 0.73223677,
      "epoch": 1.4486301369863015,
      "grad_norm": 3.953125,
      "learning_rate": 1.9378814301038033e-06,
      "loss": 1.04571047,
      "memory(GiB)": 112.26,
      "step": 57105,
      "train_speed(iter/s)": 1.128409
    },
    {
      "acc": 0.74328876,
      "epoch": 1.4487569761542365,
      "grad_norm": 3.625,
      "learning_rate": 1.937052529297992e-06,
      "loss": 1.03126879,
      "memory(GiB)": 112.26,
      "step": 57110,
      "train_speed(iter/s)": 1.128425
    },
    {
      "acc": 0.75484381,
      "epoch": 1.4488838153221715,
      "grad_norm": 3.984375,
      "learning_rate": 1.9362237632142838e-06,
      "loss": 0.99963064,
      "memory(GiB)": 112.26,
      "step": 57115,
      "train_speed(iter/s)": 1.128443
    },
    {
      "acc": 0.74994297,
      "epoch": 1.4490106544901065,
      "grad_norm": 3.21875,
      "learning_rate": 1.9353951318891313e-06,
      "loss": 1.00212593,
      "memory(GiB)": 112.26,
      "step": 57120,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.74860153,
      "epoch": 1.4491374936580417,
      "grad_norm": 4.25,
      "learning_rate": 1.9345666353589855e-06,
      "loss": 1.05350485,
      "memory(GiB)": 112.26,
      "step": 57125,
      "train_speed(iter/s)": 1.128462
    },
    {
      "acc": 0.7491312,
      "epoch": 1.4492643328259767,
      "grad_norm": 4.125,
      "learning_rate": 1.9337382736602868e-06,
      "loss": 1.02899475,
      "memory(GiB)": 112.26,
      "step": 57130,
      "train_speed(iter/s)": 1.128468
    },
    {
      "acc": 0.74087839,
      "epoch": 1.4493911719939117,
      "grad_norm": 4.84375,
      "learning_rate": 1.9329100468294646e-06,
      "loss": 1.0518343,
      "memory(GiB)": 112.26,
      "step": 57135,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.74474926,
      "epoch": 1.4495180111618469,
      "grad_norm": 3.390625,
      "learning_rate": 1.9320819549029546e-06,
      "loss": 1.01715612,
      "memory(GiB)": 112.26,
      "step": 57140,
      "train_speed(iter/s)": 1.128498
    },
    {
      "acc": 0.74095907,
      "epoch": 1.4496448503297819,
      "grad_norm": 3.375,
      "learning_rate": 1.9312539979171774e-06,
      "loss": 1.08111763,
      "memory(GiB)": 112.26,
      "step": 57145,
      "train_speed(iter/s)": 1.128506
    },
    {
      "acc": 0.73125076,
      "epoch": 1.4497716894977168,
      "grad_norm": 3.234375,
      "learning_rate": 1.9304261759085525e-06,
      "loss": 1.02737055,
      "memory(GiB)": 112.26,
      "step": 57150,
      "train_speed(iter/s)": 1.128517
    },
    {
      "acc": 0.74137802,
      "epoch": 1.4498985286656518,
      "grad_norm": 4.1875,
      "learning_rate": 1.929598488913485e-06,
      "loss": 1.05610476,
      "memory(GiB)": 112.26,
      "step": 57155,
      "train_speed(iter/s)": 1.128533
    },
    {
      "acc": 0.75348835,
      "epoch": 1.450025367833587,
      "grad_norm": 3.046875,
      "learning_rate": 1.928770936968386e-06,
      "loss": 0.99759598,
      "memory(GiB)": 112.26,
      "step": 57160,
      "train_speed(iter/s)": 1.128536
    },
    {
      "acc": 0.74807997,
      "epoch": 1.450152207001522,
      "grad_norm": 3.34375,
      "learning_rate": 1.927943520109653e-06,
      "loss": 1.0070591,
      "memory(GiB)": 112.26,
      "step": 57165,
      "train_speed(iter/s)": 1.128556
    },
    {
      "acc": 0.73349991,
      "epoch": 1.4502790461694572,
      "grad_norm": 4.0,
      "learning_rate": 1.9271162383736804e-06,
      "loss": 1.09983482,
      "memory(GiB)": 112.26,
      "step": 57170,
      "train_speed(iter/s)": 1.128576
    },
    {
      "acc": 0.75028639,
      "epoch": 1.4504058853373922,
      "grad_norm": 4.3125,
      "learning_rate": 1.9262890917968547e-06,
      "loss": 1.02678661,
      "memory(GiB)": 112.26,
      "step": 57175,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.72410955,
      "epoch": 1.4505327245053272,
      "grad_norm": 4.0,
      "learning_rate": 1.925462080415558e-06,
      "loss": 1.16286507,
      "memory(GiB)": 112.26,
      "step": 57180,
      "train_speed(iter/s)": 1.128597
    },
    {
      "acc": 0.73497334,
      "epoch": 1.4506595636732622,
      "grad_norm": 3.671875,
      "learning_rate": 1.924635204266166e-06,
      "loss": 1.10061884,
      "memory(GiB)": 112.26,
      "step": 57185,
      "train_speed(iter/s)": 1.128607
    },
    {
      "acc": 0.75164485,
      "epoch": 1.4507864028411974,
      "grad_norm": 3.171875,
      "learning_rate": 1.923808463385048e-06,
      "loss": 1.01436357,
      "memory(GiB)": 112.26,
      "step": 57190,
      "train_speed(iter/s)": 1.128622
    },
    {
      "acc": 0.73598928,
      "epoch": 1.4509132420091324,
      "grad_norm": 3.390625,
      "learning_rate": 1.922981857808568e-06,
      "loss": 1.07994232,
      "memory(GiB)": 112.26,
      "step": 57195,
      "train_speed(iter/s)": 1.128638
    },
    {
      "acc": 0.7326952,
      "epoch": 1.4510400811770674,
      "grad_norm": 3.09375,
      "learning_rate": 1.9221553875730835e-06,
      "loss": 1.09922352,
      "memory(GiB)": 112.26,
      "step": 57200,
      "train_speed(iter/s)": 1.128655
    },
    {
      "acc": 0.73838682,
      "epoch": 1.4511669203450026,
      "grad_norm": 3.28125,
      "learning_rate": 1.921329052714947e-06,
      "loss": 1.04675875,
      "memory(GiB)": 112.26,
      "step": 57205,
      "train_speed(iter/s)": 1.128669
    },
    {
      "acc": 0.74684057,
      "epoch": 1.4512937595129376,
      "grad_norm": 4.5,
      "learning_rate": 1.920502853270504e-06,
      "loss": 1.0414607,
      "memory(GiB)": 112.26,
      "step": 57210,
      "train_speed(iter/s)": 1.128684
    },
    {
      "acc": 0.73799057,
      "epoch": 1.4514205986808726,
      "grad_norm": 3.4375,
      "learning_rate": 1.919676789276094e-06,
      "loss": 1.07687254,
      "memory(GiB)": 112.26,
      "step": 57215,
      "train_speed(iter/s)": 1.128698
    },
    {
      "acc": 0.73211117,
      "epoch": 1.4515474378488076,
      "grad_norm": 4.3125,
      "learning_rate": 1.918850860768052e-06,
      "loss": 1.12189417,
      "memory(GiB)": 112.26,
      "step": 57220,
      "train_speed(iter/s)": 1.128717
    },
    {
      "acc": 0.74314299,
      "epoch": 1.4516742770167428,
      "grad_norm": 4.15625,
      "learning_rate": 1.918025067782704e-06,
      "loss": 1.02284555,
      "memory(GiB)": 112.26,
      "step": 57225,
      "train_speed(iter/s)": 1.128734
    },
    {
      "acc": 0.73865371,
      "epoch": 1.4518011161846778,
      "grad_norm": 3.703125,
      "learning_rate": 1.9171994103563766e-06,
      "loss": 1.08872547,
      "memory(GiB)": 112.26,
      "step": 57230,
      "train_speed(iter/s)": 1.128743
    },
    {
      "acc": 0.72797942,
      "epoch": 1.451927955352613,
      "grad_norm": 3.8125,
      "learning_rate": 1.916373888525381e-06,
      "loss": 1.13536777,
      "memory(GiB)": 112.26,
      "step": 57235,
      "train_speed(iter/s)": 1.128757
    },
    {
      "acc": 0.73361187,
      "epoch": 1.452054794520548,
      "grad_norm": 4.34375,
      "learning_rate": 1.9155485023260294e-06,
      "loss": 1.10261917,
      "memory(GiB)": 112.26,
      "step": 57240,
      "train_speed(iter/s)": 1.128777
    },
    {
      "acc": 0.73578711,
      "epoch": 1.452181633688483,
      "grad_norm": 3.40625,
      "learning_rate": 1.914723251794624e-06,
      "loss": 1.04425669,
      "memory(GiB)": 112.26,
      "step": 57245,
      "train_speed(iter/s)": 1.128767
    },
    {
      "acc": 0.74250145,
      "epoch": 1.452308472856418,
      "grad_norm": 4.09375,
      "learning_rate": 1.9138981369674688e-06,
      "loss": 1.09370956,
      "memory(GiB)": 112.26,
      "step": 57250,
      "train_speed(iter/s)": 1.128778
    },
    {
      "acc": 0.72549253,
      "epoch": 1.4524353120243532,
      "grad_norm": 3.34375,
      "learning_rate": 1.9130731578808493e-06,
      "loss": 1.11109638,
      "memory(GiB)": 112.26,
      "step": 57255,
      "train_speed(iter/s)": 1.128793
    },
    {
      "acc": 0.73666258,
      "epoch": 1.4525621511922882,
      "grad_norm": 3.625,
      "learning_rate": 1.912248314571053e-06,
      "loss": 1.08473225,
      "memory(GiB)": 112.26,
      "step": 57260,
      "train_speed(iter/s)": 1.128804
    },
    {
      "acc": 0.7446177,
      "epoch": 1.4526889903602234,
      "grad_norm": 3.984375,
      "learning_rate": 1.9114236070743638e-06,
      "loss": 1.06357841,
      "memory(GiB)": 112.26,
      "step": 57265,
      "train_speed(iter/s)": 1.128817
    },
    {
      "acc": 0.747965,
      "epoch": 1.4528158295281584,
      "grad_norm": 3.640625,
      "learning_rate": 1.910599035427055e-06,
      "loss": 1.06611156,
      "memory(GiB)": 112.26,
      "step": 57270,
      "train_speed(iter/s)": 1.128837
    },
    {
      "acc": 0.74195566,
      "epoch": 1.4529426686960933,
      "grad_norm": 4.4375,
      "learning_rate": 1.909774599665392e-06,
      "loss": 1.01580076,
      "memory(GiB)": 112.26,
      "step": 57275,
      "train_speed(iter/s)": 1.128857
    },
    {
      "acc": 0.75464473,
      "epoch": 1.4530695078640283,
      "grad_norm": 4.625,
      "learning_rate": 1.9089502998256382e-06,
      "loss": 0.99506969,
      "memory(GiB)": 112.26,
      "step": 57280,
      "train_speed(iter/s)": 1.12887
    },
    {
      "acc": 0.74788938,
      "epoch": 1.4531963470319635,
      "grad_norm": 4.28125,
      "learning_rate": 1.9081261359440517e-06,
      "loss": 1.03226662,
      "memory(GiB)": 112.26,
      "step": 57285,
      "train_speed(iter/s)": 1.12888
    },
    {
      "acc": 0.75520658,
      "epoch": 1.4533231861998985,
      "grad_norm": 4.125,
      "learning_rate": 1.9073021080568837e-06,
      "loss": 1.02483711,
      "memory(GiB)": 112.26,
      "step": 57290,
      "train_speed(iter/s)": 1.128896
    },
    {
      "acc": 0.74996977,
      "epoch": 1.4534500253678335,
      "grad_norm": 4.28125,
      "learning_rate": 1.9064782162003737e-06,
      "loss": 1.01034603,
      "memory(GiB)": 112.26,
      "step": 57295,
      "train_speed(iter/s)": 1.128918
    },
    {
      "acc": 0.7382062,
      "epoch": 1.4535768645357687,
      "grad_norm": 3.53125,
      "learning_rate": 1.9056544604107646e-06,
      "loss": 1.02066298,
      "memory(GiB)": 112.26,
      "step": 57300,
      "train_speed(iter/s)": 1.128933
    },
    {
      "acc": 0.7366127,
      "epoch": 1.4537037037037037,
      "grad_norm": 4.375,
      "learning_rate": 1.9048308407242882e-06,
      "loss": 1.02923937,
      "memory(GiB)": 112.26,
      "step": 57305,
      "train_speed(iter/s)": 1.128952
    },
    {
      "acc": 0.7330339,
      "epoch": 1.4538305428716387,
      "grad_norm": 4.46875,
      "learning_rate": 1.90400735717717e-06,
      "loss": 1.07437134,
      "memory(GiB)": 112.26,
      "step": 57310,
      "train_speed(iter/s)": 1.128963
    },
    {
      "acc": 0.73272905,
      "epoch": 1.4539573820395737,
      "grad_norm": 3.734375,
      "learning_rate": 1.903184009805631e-06,
      "loss": 1.05083675,
      "memory(GiB)": 112.26,
      "step": 57315,
      "train_speed(iter/s)": 1.128972
    },
    {
      "acc": 0.7391674,
      "epoch": 1.454084221207509,
      "grad_norm": 3.296875,
      "learning_rate": 1.9023607986458854e-06,
      "loss": 1.13256912,
      "memory(GiB)": 112.26,
      "step": 57320,
      "train_speed(iter/s)": 1.128988
    },
    {
      "acc": 0.7452651,
      "epoch": 1.454211060375444,
      "grad_norm": 3.53125,
      "learning_rate": 1.901537723734142e-06,
      "loss": 1.06775169,
      "memory(GiB)": 112.26,
      "step": 57325,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.74489274,
      "epoch": 1.454337899543379,
      "grad_norm": 3.109375,
      "learning_rate": 1.9007147851066031e-06,
      "loss": 1.04171982,
      "memory(GiB)": 112.26,
      "step": 57330,
      "train_speed(iter/s)": 1.129012
    },
    {
      "acc": 0.74836082,
      "epoch": 1.454464738711314,
      "grad_norm": 3.375,
      "learning_rate": 1.8998919827994654e-06,
      "loss": 0.96925564,
      "memory(GiB)": 112.26,
      "step": 57335,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.74669857,
      "epoch": 1.454591577879249,
      "grad_norm": 3.71875,
      "learning_rate": 1.899069316848919e-06,
      "loss": 1.0925189,
      "memory(GiB)": 112.26,
      "step": 57340,
      "train_speed(iter/s)": 1.129038
    },
    {
      "acc": 0.74266472,
      "epoch": 1.454718417047184,
      "grad_norm": 3.15625,
      "learning_rate": 1.8982467872911486e-06,
      "loss": 1.11895914,
      "memory(GiB)": 112.26,
      "step": 57345,
      "train_speed(iter/s)": 1.129055
    },
    {
      "acc": 0.73554134,
      "epoch": 1.4548452562151193,
      "grad_norm": 3.21875,
      "learning_rate": 1.8974243941623332e-06,
      "loss": 1.07560072,
      "memory(GiB)": 112.26,
      "step": 57350,
      "train_speed(iter/s)": 1.129067
    },
    {
      "acc": 0.73089066,
      "epoch": 1.4549720953830543,
      "grad_norm": 4.125,
      "learning_rate": 1.896602137498645e-06,
      "loss": 1.1059742,
      "memory(GiB)": 112.26,
      "step": 57355,
      "train_speed(iter/s)": 1.129084
    },
    {
      "acc": 0.73643103,
      "epoch": 1.4550989345509893,
      "grad_norm": 3.78125,
      "learning_rate": 1.89578001733625e-06,
      "loss": 1.05344849,
      "memory(GiB)": 112.26,
      "step": 57360,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.7477808,
      "epoch": 1.4552257737189245,
      "grad_norm": 3.609375,
      "learning_rate": 1.8949580337113078e-06,
      "loss": 1.02681093,
      "memory(GiB)": 112.26,
      "step": 57365,
      "train_speed(iter/s)": 1.1291
    },
    {
      "acc": 0.72751937,
      "epoch": 1.4553526128868595,
      "grad_norm": 4.09375,
      "learning_rate": 1.8941361866599778e-06,
      "loss": 1.12695389,
      "memory(GiB)": 112.26,
      "step": 57370,
      "train_speed(iter/s)": 1.129109
    },
    {
      "acc": 0.73804398,
      "epoch": 1.4554794520547945,
      "grad_norm": 3.25,
      "learning_rate": 1.893314476218403e-06,
      "loss": 1.07628202,
      "memory(GiB)": 112.26,
      "step": 57375,
      "train_speed(iter/s)": 1.12913
    },
    {
      "acc": 0.73235159,
      "epoch": 1.4556062912227294,
      "grad_norm": 3.421875,
      "learning_rate": 1.8924929024227279e-06,
      "loss": 1.05592241,
      "memory(GiB)": 112.26,
      "step": 57380,
      "train_speed(iter/s)": 1.129148
    },
    {
      "acc": 0.73074164,
      "epoch": 1.4557331303906647,
      "grad_norm": 4.15625,
      "learning_rate": 1.8916714653090874e-06,
      "loss": 1.10531187,
      "memory(GiB)": 112.26,
      "step": 57385,
      "train_speed(iter/s)": 1.129159
    },
    {
      "acc": 0.73375111,
      "epoch": 1.4558599695585996,
      "grad_norm": 3.4375,
      "learning_rate": 1.8908501649136174e-06,
      "loss": 1.08324366,
      "memory(GiB)": 112.26,
      "step": 57390,
      "train_speed(iter/s)": 1.129174
    },
    {
      "acc": 0.74869061,
      "epoch": 1.4559868087265349,
      "grad_norm": 3.578125,
      "learning_rate": 1.8900290012724358e-06,
      "loss": 1.02783957,
      "memory(GiB)": 112.26,
      "step": 57395,
      "train_speed(iter/s)": 1.129191
    },
    {
      "acc": 0.75320182,
      "epoch": 1.4561136478944698,
      "grad_norm": 3.9375,
      "learning_rate": 1.889207974421663e-06,
      "loss": 1.00321732,
      "memory(GiB)": 112.26,
      "step": 57400,
      "train_speed(iter/s)": 1.129199
    },
    {
      "acc": 0.7550108,
      "epoch": 1.4562404870624048,
      "grad_norm": 6.6875,
      "learning_rate": 1.8883870843974134e-06,
      "loss": 1.02343655,
      "memory(GiB)": 112.26,
      "step": 57405,
      "train_speed(iter/s)": 1.129205
    },
    {
      "acc": 0.72509165,
      "epoch": 1.4563673262303398,
      "grad_norm": 4.0625,
      "learning_rate": 1.887566331235794e-06,
      "loss": 1.15749168,
      "memory(GiB)": 112.26,
      "step": 57410,
      "train_speed(iter/s)": 1.129213
    },
    {
      "acc": 0.71814041,
      "epoch": 1.456494165398275,
      "grad_norm": 4.625,
      "learning_rate": 1.8867457149729013e-06,
      "loss": 1.20969753,
      "memory(GiB)": 112.26,
      "step": 57415,
      "train_speed(iter/s)": 1.129231
    },
    {
      "acc": 0.74371505,
      "epoch": 1.45662100456621,
      "grad_norm": 3.3125,
      "learning_rate": 1.8859252356448305e-06,
      "loss": 1.05524502,
      "memory(GiB)": 112.26,
      "step": 57420,
      "train_speed(iter/s)": 1.129234
    },
    {
      "acc": 0.76064444,
      "epoch": 1.4567478437341452,
      "grad_norm": 4.03125,
      "learning_rate": 1.8851048932876725e-06,
      "loss": 0.97203732,
      "memory(GiB)": 112.26,
      "step": 57425,
      "train_speed(iter/s)": 1.129248
    },
    {
      "acc": 0.75069885,
      "epoch": 1.4568746829020802,
      "grad_norm": 3.5625,
      "learning_rate": 1.8842846879375104e-06,
      "loss": 1.02903881,
      "memory(GiB)": 112.26,
      "step": 57430,
      "train_speed(iter/s)": 1.129266
    },
    {
      "acc": 0.7493535,
      "epoch": 1.4570015220700152,
      "grad_norm": 4.0625,
      "learning_rate": 1.8834646196304146e-06,
      "loss": 1.03160324,
      "memory(GiB)": 112.26,
      "step": 57435,
      "train_speed(iter/s)": 1.129276
    },
    {
      "acc": 0.74394569,
      "epoch": 1.4571283612379502,
      "grad_norm": 4.375,
      "learning_rate": 1.8826446884024612e-06,
      "loss": 1.11162033,
      "memory(GiB)": 112.26,
      "step": 57440,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.7405262,
      "epoch": 1.4572552004058854,
      "grad_norm": 3.21875,
      "learning_rate": 1.8818248942897122e-06,
      "loss": 1.04443216,
      "memory(GiB)": 112.26,
      "step": 57445,
      "train_speed(iter/s)": 1.129299
    },
    {
      "acc": 0.73713045,
      "epoch": 1.4573820395738204,
      "grad_norm": 6.28125,
      "learning_rate": 1.8810052373282277e-06,
      "loss": 1.05319901,
      "memory(GiB)": 112.26,
      "step": 57450,
      "train_speed(iter/s)": 1.129318
    },
    {
      "acc": 0.73219299,
      "epoch": 1.4575088787417554,
      "grad_norm": 3.671875,
      "learning_rate": 1.880185717554055e-06,
      "loss": 1.07884502,
      "memory(GiB)": 112.26,
      "step": 57455,
      "train_speed(iter/s)": 1.129331
    },
    {
      "acc": 0.72804956,
      "epoch": 1.4576357179096906,
      "grad_norm": 3.640625,
      "learning_rate": 1.879366335003245e-06,
      "loss": 1.10515556,
      "memory(GiB)": 112.26,
      "step": 57460,
      "train_speed(iter/s)": 1.12933
    },
    {
      "acc": 0.74057169,
      "epoch": 1.4577625570776256,
      "grad_norm": 4.46875,
      "learning_rate": 1.8785470897118362e-06,
      "loss": 1.09844055,
      "memory(GiB)": 112.26,
      "step": 57465,
      "train_speed(iter/s)": 1.129346
    },
    {
      "acc": 0.74271994,
      "epoch": 1.4578893962455606,
      "grad_norm": 3.890625,
      "learning_rate": 1.8777279817158627e-06,
      "loss": 1.05963421,
      "memory(GiB)": 112.26,
      "step": 57470,
      "train_speed(iter/s)": 1.129365
    },
    {
      "acc": 0.73908138,
      "epoch": 1.4580162354134956,
      "grad_norm": 3.46875,
      "learning_rate": 1.8769090110513522e-06,
      "loss": 1.04654827,
      "memory(GiB)": 112.26,
      "step": 57475,
      "train_speed(iter/s)": 1.129381
    },
    {
      "acc": 0.73415709,
      "epoch": 1.4581430745814308,
      "grad_norm": 3.90625,
      "learning_rate": 1.8760901777543273e-06,
      "loss": 1.10450497,
      "memory(GiB)": 112.26,
      "step": 57480,
      "train_speed(iter/s)": 1.129389
    },
    {
      "acc": 0.74268365,
      "epoch": 1.4582699137493658,
      "grad_norm": 3.703125,
      "learning_rate": 1.8752714818608036e-06,
      "loss": 1.04229221,
      "memory(GiB)": 112.26,
      "step": 57485,
      "train_speed(iter/s)": 1.129405
    },
    {
      "acc": 0.75112782,
      "epoch": 1.458396752917301,
      "grad_norm": 3.296875,
      "learning_rate": 1.874452923406791e-06,
      "loss": 1.04055099,
      "memory(GiB)": 112.26,
      "step": 57490,
      "train_speed(iter/s)": 1.129417
    },
    {
      "acc": 0.73975878,
      "epoch": 1.458523592085236,
      "grad_norm": 3.65625,
      "learning_rate": 1.8736345024282937e-06,
      "loss": 1.08808174,
      "memory(GiB)": 112.26,
      "step": 57495,
      "train_speed(iter/s)": 1.129434
    },
    {
      "acc": 0.74461594,
      "epoch": 1.458650431253171,
      "grad_norm": 4.125,
      "learning_rate": 1.8728162189613085e-06,
      "loss": 1.02938519,
      "memory(GiB)": 112.26,
      "step": 57500,
      "train_speed(iter/s)": 1.129446
    },
    {
      "acc": 0.74671326,
      "epoch": 1.458777270421106,
      "grad_norm": 5.0,
      "learning_rate": 1.8719980730418285e-06,
      "loss": 1.08133249,
      "memory(GiB)": 112.26,
      "step": 57505,
      "train_speed(iter/s)": 1.129461
    },
    {
      "acc": 0.73522167,
      "epoch": 1.4589041095890412,
      "grad_norm": 4.75,
      "learning_rate": 1.8711800647058388e-06,
      "loss": 1.07739935,
      "memory(GiB)": 112.26,
      "step": 57510,
      "train_speed(iter/s)": 1.129483
    },
    {
      "acc": 0.72748094,
      "epoch": 1.4590309487569761,
      "grad_norm": 3.890625,
      "learning_rate": 1.8703621939893185e-06,
      "loss": 1.13278389,
      "memory(GiB)": 112.26,
      "step": 57515,
      "train_speed(iter/s)": 1.129496
    },
    {
      "acc": 0.73741031,
      "epoch": 1.4591577879249111,
      "grad_norm": 4.40625,
      "learning_rate": 1.869544460928242e-06,
      "loss": 1.06026878,
      "memory(GiB)": 112.26,
      "step": 57520,
      "train_speed(iter/s)": 1.129514
    },
    {
      "acc": 0.75123396,
      "epoch": 1.4592846270928463,
      "grad_norm": 3.578125,
      "learning_rate": 1.868726865558575e-06,
      "loss": 1.01749325,
      "memory(GiB)": 112.26,
      "step": 57525,
      "train_speed(iter/s)": 1.129522
    },
    {
      "acc": 0.74190888,
      "epoch": 1.4594114662607813,
      "grad_norm": 3.09375,
      "learning_rate": 1.8679094079162835e-06,
      "loss": 1.02737503,
      "memory(GiB)": 112.26,
      "step": 57530,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.74151969,
      "epoch": 1.4595383054287163,
      "grad_norm": 4.59375,
      "learning_rate": 1.867092088037319e-06,
      "loss": 1.03545971,
      "memory(GiB)": 112.26,
      "step": 57535,
      "train_speed(iter/s)": 1.129549
    },
    {
      "acc": 0.72921443,
      "epoch": 1.4596651445966513,
      "grad_norm": 3.953125,
      "learning_rate": 1.8662749059576296e-06,
      "loss": 1.12577648,
      "memory(GiB)": 112.26,
      "step": 57540,
      "train_speed(iter/s)": 1.129568
    },
    {
      "acc": 0.74460506,
      "epoch": 1.4597919837645865,
      "grad_norm": 5.03125,
      "learning_rate": 1.865457861713163e-06,
      "loss": 1.08592377,
      "memory(GiB)": 112.26,
      "step": 57545,
      "train_speed(iter/s)": 1.129578
    },
    {
      "acc": 0.74821692,
      "epoch": 1.4599188229325215,
      "grad_norm": 3.859375,
      "learning_rate": 1.8646409553398558e-06,
      "loss": 1.02484255,
      "memory(GiB)": 112.26,
      "step": 57550,
      "train_speed(iter/s)": 1.129575
    },
    {
      "acc": 0.74088306,
      "epoch": 1.4600456621004567,
      "grad_norm": 3.25,
      "learning_rate": 1.8638241868736367e-06,
      "loss": 1.03413115,
      "memory(GiB)": 112.26,
      "step": 57555,
      "train_speed(iter/s)": 1.12959
    },
    {
      "acc": 0.7382699,
      "epoch": 1.4601725012683917,
      "grad_norm": 3.90625,
      "learning_rate": 1.8630075563504297e-06,
      "loss": 1.1115983,
      "memory(GiB)": 112.26,
      "step": 57560,
      "train_speed(iter/s)": 1.129601
    },
    {
      "acc": 0.73810043,
      "epoch": 1.4602993404363267,
      "grad_norm": 3.21875,
      "learning_rate": 1.8621910638061575e-06,
      "loss": 1.06931763,
      "memory(GiB)": 112.26,
      "step": 57565,
      "train_speed(iter/s)": 1.129611
    },
    {
      "acc": 0.72918448,
      "epoch": 1.4604261796042617,
      "grad_norm": 3.8125,
      "learning_rate": 1.8613747092767336e-06,
      "loss": 1.07254467,
      "memory(GiB)": 112.26,
      "step": 57570,
      "train_speed(iter/s)": 1.129624
    },
    {
      "acc": 0.74659653,
      "epoch": 1.460553018772197,
      "grad_norm": 3.5,
      "learning_rate": 1.8605584927980596e-06,
      "loss": 1.06948786,
      "memory(GiB)": 112.26,
      "step": 57575,
      "train_speed(iter/s)": 1.129637
    },
    {
      "acc": 0.73846149,
      "epoch": 1.4606798579401319,
      "grad_norm": 3.921875,
      "learning_rate": 1.859742414406041e-06,
      "loss": 1.01068401,
      "memory(GiB)": 112.26,
      "step": 57580,
      "train_speed(iter/s)": 1.129646
    },
    {
      "acc": 0.75609102,
      "epoch": 1.460806697108067,
      "grad_norm": 3.53125,
      "learning_rate": 1.8589264741365714e-06,
      "loss": 0.94902763,
      "memory(GiB)": 112.26,
      "step": 57585,
      "train_speed(iter/s)": 1.129662
    },
    {
      "acc": 0.73112416,
      "epoch": 1.460933536276002,
      "grad_norm": 2.953125,
      "learning_rate": 1.8581106720255414e-06,
      "loss": 1.13280125,
      "memory(GiB)": 112.26,
      "step": 57590,
      "train_speed(iter/s)": 1.129672
    },
    {
      "acc": 0.74257202,
      "epoch": 1.461060375443937,
      "grad_norm": 3.96875,
      "learning_rate": 1.8572950081088282e-06,
      "loss": 1.0291935,
      "memory(GiB)": 112.26,
      "step": 57595,
      "train_speed(iter/s)": 1.129686
    },
    {
      "acc": 0.73651133,
      "epoch": 1.461187214611872,
      "grad_norm": 3.984375,
      "learning_rate": 1.856479482422313e-06,
      "loss": 1.06449375,
      "memory(GiB)": 112.26,
      "step": 57600,
      "train_speed(iter/s)": 1.129699
    },
    {
      "acc": 0.74072409,
      "epoch": 1.4613140537798073,
      "grad_norm": 4.0625,
      "learning_rate": 1.8556640950018651e-06,
      "loss": 1.06394529,
      "memory(GiB)": 112.26,
      "step": 57605,
      "train_speed(iter/s)": 1.129716
    },
    {
      "acc": 0.75233774,
      "epoch": 1.4614408929477423,
      "grad_norm": 4.28125,
      "learning_rate": 1.8548488458833485e-06,
      "loss": 1.03858395,
      "memory(GiB)": 112.26,
      "step": 57610,
      "train_speed(iter/s)": 1.129718
    },
    {
      "acc": 0.74759817,
      "epoch": 1.4615677321156773,
      "grad_norm": 3.28125,
      "learning_rate": 1.854033735102622e-06,
      "loss": 1.05082359,
      "memory(GiB)": 112.26,
      "step": 57615,
      "train_speed(iter/s)": 1.12973
    },
    {
      "acc": 0.75024986,
      "epoch": 1.4616945712836125,
      "grad_norm": 4.40625,
      "learning_rate": 1.8532187626955377e-06,
      "loss": 1.07303171,
      "memory(GiB)": 112.26,
      "step": 57620,
      "train_speed(iter/s)": 1.129747
    },
    {
      "acc": 0.74689116,
      "epoch": 1.4618214104515475,
      "grad_norm": 3.34375,
      "learning_rate": 1.8524039286979417e-06,
      "loss": 1.06360254,
      "memory(GiB)": 112.26,
      "step": 57625,
      "train_speed(iter/s)": 1.129758
    },
    {
      "acc": 0.74941835,
      "epoch": 1.4619482496194824,
      "grad_norm": 3.765625,
      "learning_rate": 1.8515892331456736e-06,
      "loss": 1.06425886,
      "memory(GiB)": 112.26,
      "step": 57630,
      "train_speed(iter/s)": 1.129771
    },
    {
      "acc": 0.76947784,
      "epoch": 1.4620750887874174,
      "grad_norm": 3.625,
      "learning_rate": 1.850774676074568e-06,
      "loss": 0.94458981,
      "memory(GiB)": 112.26,
      "step": 57635,
      "train_speed(iter/s)": 1.129778
    },
    {
      "acc": 0.73199987,
      "epoch": 1.4622019279553526,
      "grad_norm": 3.625,
      "learning_rate": 1.8499602575204522e-06,
      "loss": 1.123172,
      "memory(GiB)": 112.26,
      "step": 57640,
      "train_speed(iter/s)": 1.129777
    },
    {
      "acc": 0.73276596,
      "epoch": 1.4623287671232876,
      "grad_norm": 3.390625,
      "learning_rate": 1.8491459775191484e-06,
      "loss": 1.03255739,
      "memory(GiB)": 112.26,
      "step": 57645,
      "train_speed(iter/s)": 1.129793
    },
    {
      "acc": 0.72539215,
      "epoch": 1.4624556062912228,
      "grad_norm": 4.0625,
      "learning_rate": 1.8483318361064716e-06,
      "loss": 1.08207083,
      "memory(GiB)": 112.26,
      "step": 57650,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.74603314,
      "epoch": 1.4625824454591578,
      "grad_norm": 3.765625,
      "learning_rate": 1.847517833318232e-06,
      "loss": 1.02586136,
      "memory(GiB)": 112.26,
      "step": 57655,
      "train_speed(iter/s)": 1.129819
    },
    {
      "acc": 0.75064449,
      "epoch": 1.4627092846270928,
      "grad_norm": 3.65625,
      "learning_rate": 1.8467039691902334e-06,
      "loss": 0.97553377,
      "memory(GiB)": 112.26,
      "step": 57660,
      "train_speed(iter/s)": 1.129836
    },
    {
      "acc": 0.7493679,
      "epoch": 1.4628361237950278,
      "grad_norm": 3.703125,
      "learning_rate": 1.8458902437582705e-06,
      "loss": 1.01470966,
      "memory(GiB)": 112.26,
      "step": 57665,
      "train_speed(iter/s)": 1.129846
    },
    {
      "acc": 0.74019399,
      "epoch": 1.462962962962963,
      "grad_norm": 3.4375,
      "learning_rate": 1.8450766570581402e-06,
      "loss": 1.07647686,
      "memory(GiB)": 112.26,
      "step": 57670,
      "train_speed(iter/s)": 1.129856
    },
    {
      "acc": 0.73286371,
      "epoch": 1.463089802130898,
      "grad_norm": 3.953125,
      "learning_rate": 1.8442632091256223e-06,
      "loss": 1.08358612,
      "memory(GiB)": 112.26,
      "step": 57675,
      "train_speed(iter/s)": 1.129878
    },
    {
      "acc": 0.73665719,
      "epoch": 1.463216641298833,
      "grad_norm": 3.515625,
      "learning_rate": 1.8434498999964983e-06,
      "loss": 1.07737112,
      "memory(GiB)": 112.26,
      "step": 57680,
      "train_speed(iter/s)": 1.129868
    },
    {
      "acc": 0.75256977,
      "epoch": 1.4633434804667682,
      "grad_norm": 3.546875,
      "learning_rate": 1.8426367297065384e-06,
      "loss": 1.0582036,
      "memory(GiB)": 112.26,
      "step": 57685,
      "train_speed(iter/s)": 1.129885
    },
    {
      "acc": 0.73003998,
      "epoch": 1.4634703196347032,
      "grad_norm": 3.390625,
      "learning_rate": 1.841823698291516e-06,
      "loss": 1.09788761,
      "memory(GiB)": 112.26,
      "step": 57690,
      "train_speed(iter/s)": 1.129898
    },
    {
      "acc": 0.74485817,
      "epoch": 1.4635971588026382,
      "grad_norm": 3.8125,
      "learning_rate": 1.8410108057871851e-06,
      "loss": 1.03729429,
      "memory(GiB)": 112.26,
      "step": 57695,
      "train_speed(iter/s)": 1.129914
    },
    {
      "acc": 0.74032221,
      "epoch": 1.4637239979705732,
      "grad_norm": 4.15625,
      "learning_rate": 1.8401980522293017e-06,
      "loss": 1.03246927,
      "memory(GiB)": 112.26,
      "step": 57700,
      "train_speed(iter/s)": 1.12992
    },
    {
      "acc": 0.72982717,
      "epoch": 1.4638508371385084,
      "grad_norm": 5.125,
      "learning_rate": 1.839385437653617e-06,
      "loss": 1.07860212,
      "memory(GiB)": 112.26,
      "step": 57705,
      "train_speed(iter/s)": 1.12993
    },
    {
      "acc": 0.7380753,
      "epoch": 1.4639776763064434,
      "grad_norm": 3.078125,
      "learning_rate": 1.8385729620958731e-06,
      "loss": 1.1040451,
      "memory(GiB)": 112.26,
      "step": 57710,
      "train_speed(iter/s)": 1.129947
    },
    {
      "acc": 0.75066643,
      "epoch": 1.4641045154743786,
      "grad_norm": 4.25,
      "learning_rate": 1.8377606255918024e-06,
      "loss": 1.04831018,
      "memory(GiB)": 112.26,
      "step": 57715,
      "train_speed(iter/s)": 1.12995
    },
    {
      "acc": 0.7406332,
      "epoch": 1.4642313546423136,
      "grad_norm": 3.90625,
      "learning_rate": 1.8369484281771388e-06,
      "loss": 1.06649971,
      "memory(GiB)": 112.26,
      "step": 57720,
      "train_speed(iter/s)": 1.129968
    },
    {
      "acc": 0.74299259,
      "epoch": 1.4643581938102486,
      "grad_norm": 3.53125,
      "learning_rate": 1.836136369887606e-06,
      "loss": 1.0207593,
      "memory(GiB)": 112.26,
      "step": 57725,
      "train_speed(iter/s)": 1.12998
    },
    {
      "acc": 0.73829203,
      "epoch": 1.4644850329781836,
      "grad_norm": 6.5625,
      "learning_rate": 1.8353244507589225e-06,
      "loss": 1.04815321,
      "memory(GiB)": 112.26,
      "step": 57730,
      "train_speed(iter/s)": 1.129998
    },
    {
      "acc": 0.73450756,
      "epoch": 1.4646118721461188,
      "grad_norm": 3.375,
      "learning_rate": 1.8345126708267958e-06,
      "loss": 1.06295338,
      "memory(GiB)": 112.26,
      "step": 57735,
      "train_speed(iter/s)": 1.130008
    },
    {
      "acc": 0.75589123,
      "epoch": 1.4647387113140538,
      "grad_norm": 4.34375,
      "learning_rate": 1.8337010301269364e-06,
      "loss": 1.00939121,
      "memory(GiB)": 112.26,
      "step": 57740,
      "train_speed(iter/s)": 1.130016
    },
    {
      "acc": 0.74453058,
      "epoch": 1.464865550481989,
      "grad_norm": 4.34375,
      "learning_rate": 1.8328895286950422e-06,
      "loss": 1.06565361,
      "memory(GiB)": 112.26,
      "step": 57745,
      "train_speed(iter/s)": 1.130038
    },
    {
      "acc": 0.73586798,
      "epoch": 1.464992389649924,
      "grad_norm": 3.734375,
      "learning_rate": 1.8320781665668063e-06,
      "loss": 1.06918831,
      "memory(GiB)": 112.26,
      "step": 57750,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.71729898,
      "epoch": 1.465119228817859,
      "grad_norm": 3.515625,
      "learning_rate": 1.8312669437779167e-06,
      "loss": 1.14686317,
      "memory(GiB)": 112.26,
      "step": 57755,
      "train_speed(iter/s)": 1.130062
    },
    {
      "acc": 0.72308326,
      "epoch": 1.465246067985794,
      "grad_norm": 3.890625,
      "learning_rate": 1.8304558603640544e-06,
      "loss": 1.0983367,
      "memory(GiB)": 112.26,
      "step": 57760,
      "train_speed(iter/s)": 1.130068
    },
    {
      "acc": 0.74525752,
      "epoch": 1.4653729071537291,
      "grad_norm": 3.296875,
      "learning_rate": 1.8296449163608942e-06,
      "loss": 1.09437561,
      "memory(GiB)": 112.26,
      "step": 57765,
      "train_speed(iter/s)": 1.130082
    },
    {
      "acc": 0.75423985,
      "epoch": 1.4654997463216641,
      "grad_norm": 3.15625,
      "learning_rate": 1.8288341118041052e-06,
      "loss": 0.95510025,
      "memory(GiB)": 112.26,
      "step": 57770,
      "train_speed(iter/s)": 1.130098
    },
    {
      "acc": 0.74538889,
      "epoch": 1.4656265854895991,
      "grad_norm": 4.03125,
      "learning_rate": 1.82802344672935e-06,
      "loss": 1.07111015,
      "memory(GiB)": 112.26,
      "step": 57775,
      "train_speed(iter/s)": 1.130117
    },
    {
      "acc": 0.73093472,
      "epoch": 1.4657534246575343,
      "grad_norm": 3.34375,
      "learning_rate": 1.8272129211722855e-06,
      "loss": 1.07273312,
      "memory(GiB)": 112.26,
      "step": 57780,
      "train_speed(iter/s)": 1.130126
    },
    {
      "acc": 0.74325275,
      "epoch": 1.4658802638254693,
      "grad_norm": 4.125,
      "learning_rate": 1.8264025351685627e-06,
      "loss": 1.08939476,
      "memory(GiB)": 112.26,
      "step": 57785,
      "train_speed(iter/s)": 1.130135
    },
    {
      "acc": 0.74830194,
      "epoch": 1.4660071029934043,
      "grad_norm": 3.96875,
      "learning_rate": 1.8255922887538251e-06,
      "loss": 1.0151185,
      "memory(GiB)": 112.26,
      "step": 57790,
      "train_speed(iter/s)": 1.130149
    },
    {
      "acc": 0.74227629,
      "epoch": 1.4661339421613393,
      "grad_norm": 5.5625,
      "learning_rate": 1.8247821819637112e-06,
      "loss": 1.03424435,
      "memory(GiB)": 112.26,
      "step": 57795,
      "train_speed(iter/s)": 1.130171
    },
    {
      "acc": 0.74538851,
      "epoch": 1.4662607813292745,
      "grad_norm": 4.875,
      "learning_rate": 1.8239722148338534e-06,
      "loss": 1.01513386,
      "memory(GiB)": 112.26,
      "step": 57800,
      "train_speed(iter/s)": 1.130178
    },
    {
      "acc": 0.73952551,
      "epoch": 1.4663876204972095,
      "grad_norm": 3.71875,
      "learning_rate": 1.823162387399876e-06,
      "loss": 1.11530504,
      "memory(GiB)": 112.26,
      "step": 57805,
      "train_speed(iter/s)": 1.130188
    },
    {
      "acc": 0.75126095,
      "epoch": 1.4665144596651447,
      "grad_norm": 3.828125,
      "learning_rate": 1.822352699697404e-06,
      "loss": 1.01527081,
      "memory(GiB)": 112.26,
      "step": 57810,
      "train_speed(iter/s)": 1.130211
    },
    {
      "acc": 0.75053782,
      "epoch": 1.4666412988330797,
      "grad_norm": 3.390625,
      "learning_rate": 1.8215431517620452e-06,
      "loss": 1.04754276,
      "memory(GiB)": 112.26,
      "step": 57815,
      "train_speed(iter/s)": 1.130227
    },
    {
      "acc": 0.72425928,
      "epoch": 1.4667681380010147,
      "grad_norm": 3.8125,
      "learning_rate": 1.8207337436294097e-06,
      "loss": 1.19489727,
      "memory(GiB)": 112.26,
      "step": 57820,
      "train_speed(iter/s)": 1.13023
    },
    {
      "acc": 0.7335043,
      "epoch": 1.4668949771689497,
      "grad_norm": 4.03125,
      "learning_rate": 1.819924475335097e-06,
      "loss": 1.09496641,
      "memory(GiB)": 112.26,
      "step": 57825,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.73289185,
      "epoch": 1.4670218163368849,
      "grad_norm": 4.15625,
      "learning_rate": 1.8191153469147065e-06,
      "loss": 1.05527267,
      "memory(GiB)": 112.26,
      "step": 57830,
      "train_speed(iter/s)": 1.130257
    },
    {
      "acc": 0.73091383,
      "epoch": 1.4671486555048199,
      "grad_norm": 3.546875,
      "learning_rate": 1.8183063584038236e-06,
      "loss": 1.13119831,
      "memory(GiB)": 112.26,
      "step": 57835,
      "train_speed(iter/s)": 1.130277
    },
    {
      "acc": 0.74535251,
      "epoch": 1.4672754946727549,
      "grad_norm": 3.5,
      "learning_rate": 1.8174975098380304e-06,
      "loss": 1.06127987,
      "memory(GiB)": 112.26,
      "step": 57840,
      "train_speed(iter/s)": 1.130291
    },
    {
      "acc": 0.74022837,
      "epoch": 1.46740233384069,
      "grad_norm": 3.578125,
      "learning_rate": 1.8166888012529078e-06,
      "loss": 1.06969852,
      "memory(GiB)": 112.26,
      "step": 57845,
      "train_speed(iter/s)": 1.130292
    },
    {
      "acc": 0.73571539,
      "epoch": 1.467529173008625,
      "grad_norm": 3.953125,
      "learning_rate": 1.8158802326840252e-06,
      "loss": 1.03862743,
      "memory(GiB)": 112.26,
      "step": 57850,
      "train_speed(iter/s)": 1.130306
    },
    {
      "acc": 0.75182905,
      "epoch": 1.46765601217656,
      "grad_norm": 3.0625,
      "learning_rate": 1.8150718041669447e-06,
      "loss": 1.00513983,
      "memory(GiB)": 112.26,
      "step": 57855,
      "train_speed(iter/s)": 1.130321
    },
    {
      "acc": 0.73901596,
      "epoch": 1.467782851344495,
      "grad_norm": 3.609375,
      "learning_rate": 1.814263515737224e-06,
      "loss": 1.07547083,
      "memory(GiB)": 112.26,
      "step": 57860,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.74283924,
      "epoch": 1.4679096905124303,
      "grad_norm": 2.90625,
      "learning_rate": 1.813455367430419e-06,
      "loss": 0.99945621,
      "memory(GiB)": 112.26,
      "step": 57865,
      "train_speed(iter/s)": 1.130347
    },
    {
      "acc": 0.73968935,
      "epoch": 1.4680365296803652,
      "grad_norm": 3.59375,
      "learning_rate": 1.812647359282076e-06,
      "loss": 1.14089985,
      "memory(GiB)": 112.26,
      "step": 57870,
      "train_speed(iter/s)": 1.13036
    },
    {
      "acc": 0.72373533,
      "epoch": 1.4681633688483005,
      "grad_norm": 3.40625,
      "learning_rate": 1.8118394913277287e-06,
      "loss": 1.0658227,
      "memory(GiB)": 112.26,
      "step": 57875,
      "train_speed(iter/s)": 1.130376
    },
    {
      "acc": 0.73423109,
      "epoch": 1.4682902080162354,
      "grad_norm": 3.984375,
      "learning_rate": 1.8110317636029162e-06,
      "loss": 1.05359917,
      "memory(GiB)": 112.26,
      "step": 57880,
      "train_speed(iter/s)": 1.130386
    },
    {
      "acc": 0.74492106,
      "epoch": 1.4684170471841704,
      "grad_norm": 3.8125,
      "learning_rate": 1.810224176143165e-06,
      "loss": 1.10434704,
      "memory(GiB)": 112.26,
      "step": 57885,
      "train_speed(iter/s)": 1.130395
    },
    {
      "acc": 0.7347064,
      "epoch": 1.4685438863521054,
      "grad_norm": 3.796875,
      "learning_rate": 1.8094167289839953e-06,
      "loss": 1.00089073,
      "memory(GiB)": 112.26,
      "step": 57890,
      "train_speed(iter/s)": 1.130404
    },
    {
      "acc": 0.72350826,
      "epoch": 1.4686707255200406,
      "grad_norm": 3.890625,
      "learning_rate": 1.808609422160923e-06,
      "loss": 1.11271343,
      "memory(GiB)": 112.26,
      "step": 57895,
      "train_speed(iter/s)": 1.130415
    },
    {
      "acc": 0.74713211,
      "epoch": 1.4687975646879756,
      "grad_norm": 4.09375,
      "learning_rate": 1.8078022557094571e-06,
      "loss": 1.05365028,
      "memory(GiB)": 112.26,
      "step": 57900,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.73979688,
      "epoch": 1.4689244038559108,
      "grad_norm": 4.15625,
      "learning_rate": 1.8069952296651e-06,
      "loss": 1.09434547,
      "memory(GiB)": 112.26,
      "step": 57905,
      "train_speed(iter/s)": 1.130454
    },
    {
      "acc": 0.74006195,
      "epoch": 1.4690512430238458,
      "grad_norm": 4.59375,
      "learning_rate": 1.8061883440633481e-06,
      "loss": 1.0835722,
      "memory(GiB)": 112.26,
      "step": 57910,
      "train_speed(iter/s)": 1.13047
    },
    {
      "acc": 0.75040965,
      "epoch": 1.4691780821917808,
      "grad_norm": 3.734375,
      "learning_rate": 1.8053815989396927e-06,
      "loss": 1.03925266,
      "memory(GiB)": 112.26,
      "step": 57915,
      "train_speed(iter/s)": 1.130479
    },
    {
      "acc": 0.75419855,
      "epoch": 1.4693049213597158,
      "grad_norm": 3.734375,
      "learning_rate": 1.8045749943296171e-06,
      "loss": 0.99178219,
      "memory(GiB)": 112.26,
      "step": 57920,
      "train_speed(iter/s)": 1.130495
    },
    {
      "acc": 0.74337764,
      "epoch": 1.469431760527651,
      "grad_norm": 4.125,
      "learning_rate": 1.8037685302686003e-06,
      "loss": 1.04534044,
      "memory(GiB)": 112.26,
      "step": 57925,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.73619347,
      "epoch": 1.469558599695586,
      "grad_norm": 3.671875,
      "learning_rate": 1.8029622067921133e-06,
      "loss": 1.11131268,
      "memory(GiB)": 112.26,
      "step": 57930,
      "train_speed(iter/s)": 1.130519
    },
    {
      "acc": 0.75427766,
      "epoch": 1.469685438863521,
      "grad_norm": 4.03125,
      "learning_rate": 1.8021560239356223e-06,
      "loss": 0.99831676,
      "memory(GiB)": 112.26,
      "step": 57935,
      "train_speed(iter/s)": 1.130534
    },
    {
      "acc": 0.74547729,
      "epoch": 1.4698122780314562,
      "grad_norm": 3.203125,
      "learning_rate": 1.8013499817345865e-06,
      "loss": 1.04881201,
      "memory(GiB)": 112.26,
      "step": 57940,
      "train_speed(iter/s)": 1.13055
    },
    {
      "acc": 0.74394665,
      "epoch": 1.4699391171993912,
      "grad_norm": 3.5625,
      "learning_rate": 1.8005440802244595e-06,
      "loss": 1.0689292,
      "memory(GiB)": 112.26,
      "step": 57945,
      "train_speed(iter/s)": 1.130562
    },
    {
      "acc": 0.7412159,
      "epoch": 1.4700659563673262,
      "grad_norm": 3.171875,
      "learning_rate": 1.7997383194406887e-06,
      "loss": 1.02050877,
      "memory(GiB)": 112.26,
      "step": 57950,
      "train_speed(iter/s)": 1.130578
    },
    {
      "acc": 0.73948383,
      "epoch": 1.4701927955352612,
      "grad_norm": 3.359375,
      "learning_rate": 1.7989326994187146e-06,
      "loss": 1.0890377,
      "memory(GiB)": 112.26,
      "step": 57955,
      "train_speed(iter/s)": 1.130569
    },
    {
      "acc": 0.74554272,
      "epoch": 1.4703196347031964,
      "grad_norm": 4.03125,
      "learning_rate": 1.798127220193972e-06,
      "loss": 1.08240643,
      "memory(GiB)": 112.26,
      "step": 57960,
      "train_speed(iter/s)": 1.13059
    },
    {
      "acc": 0.72259407,
      "epoch": 1.4704464738711314,
      "grad_norm": 4.09375,
      "learning_rate": 1.7973218818018878e-06,
      "loss": 1.07589111,
      "memory(GiB)": 112.26,
      "step": 57965,
      "train_speed(iter/s)": 1.130603
    },
    {
      "acc": 0.73969927,
      "epoch": 1.4705733130390666,
      "grad_norm": 3.46875,
      "learning_rate": 1.7965166842778897e-06,
      "loss": 1.05049591,
      "memory(GiB)": 112.26,
      "step": 57970,
      "train_speed(iter/s)": 1.130623
    },
    {
      "acc": 0.74909711,
      "epoch": 1.4707001522070016,
      "grad_norm": 3.34375,
      "learning_rate": 1.7957116276573888e-06,
      "loss": 1.03162746,
      "memory(GiB)": 112.26,
      "step": 57975,
      "train_speed(iter/s)": 1.130632
    },
    {
      "acc": 0.74914789,
      "epoch": 1.4708269913749366,
      "grad_norm": 4.0625,
      "learning_rate": 1.7949067119757951e-06,
      "loss": 0.98615274,
      "memory(GiB)": 112.26,
      "step": 57980,
      "train_speed(iter/s)": 1.130646
    },
    {
      "acc": 0.73211846,
      "epoch": 1.4709538305428715,
      "grad_norm": 3.796875,
      "learning_rate": 1.7941019372685154e-06,
      "loss": 1.09269085,
      "memory(GiB)": 112.26,
      "step": 57985,
      "train_speed(iter/s)": 1.130668
    },
    {
      "acc": 0.74451962,
      "epoch": 1.4710806697108068,
      "grad_norm": 4.34375,
      "learning_rate": 1.7932973035709471e-06,
      "loss": 0.99259577,
      "memory(GiB)": 112.26,
      "step": 57990,
      "train_speed(iter/s)": 1.130677
    },
    {
      "acc": 0.73484163,
      "epoch": 1.4712075088787417,
      "grad_norm": 4.46875,
      "learning_rate": 1.792492810918479e-06,
      "loss": 1.06377316,
      "memory(GiB)": 112.26,
      "step": 57995,
      "train_speed(iter/s)": 1.130682
    },
    {
      "acc": 0.72284966,
      "epoch": 1.4713343480466767,
      "grad_norm": 3.359375,
      "learning_rate": 1.7916884593464957e-06,
      "loss": 1.10024223,
      "memory(GiB)": 112.26,
      "step": 58000,
      "train_speed(iter/s)": 1.130694
    },
    {
      "epoch": 1.4713343480466767,
      "eval_acc": 0.7258187726189655,
      "eval_loss": 1.0442073345184326,
      "eval_runtime": 70.9083,
      "eval_samples_per_second": 89.834,
      "eval_steps_per_second": 22.466,
      "step": 58000
    },
    {
      "acc": 0.7377831,
      "epoch": 1.471461187214612,
      "grad_norm": 4.03125,
      "learning_rate": 1.79088424889038e-06,
      "loss": 1.09531031,
      "memory(GiB)": 112.26,
      "step": 58005,
      "train_speed(iter/s)": 1.128161
    },
    {
      "acc": 0.74371185,
      "epoch": 1.471588026382547,
      "grad_norm": 4.40625,
      "learning_rate": 1.7900801795855043e-06,
      "loss": 1.01567326,
      "memory(GiB)": 112.26,
      "step": 58010,
      "train_speed(iter/s)": 1.128176
    },
    {
      "acc": 0.73975825,
      "epoch": 1.471714865550482,
      "grad_norm": 4.25,
      "learning_rate": 1.7892762514672303e-06,
      "loss": 1.02831573,
      "memory(GiB)": 112.26,
      "step": 58015,
      "train_speed(iter/s)": 1.128191
    },
    {
      "acc": 0.74231024,
      "epoch": 1.471841704718417,
      "grad_norm": 3.96875,
      "learning_rate": 1.7884724645709228e-06,
      "loss": 1.06563396,
      "memory(GiB)": 112.26,
      "step": 58020,
      "train_speed(iter/s)": 1.128203
    },
    {
      "acc": 0.74216075,
      "epoch": 1.4719685438863521,
      "grad_norm": 3.484375,
      "learning_rate": 1.7876688189319353e-06,
      "loss": 1.06792297,
      "memory(GiB)": 112.26,
      "step": 58025,
      "train_speed(iter/s)": 1.128217
    },
    {
      "acc": 0.74371071,
      "epoch": 1.472095383054287,
      "grad_norm": 2.984375,
      "learning_rate": 1.7868653145856163e-06,
      "loss": 1.01108294,
      "memory(GiB)": 112.26,
      "step": 58030,
      "train_speed(iter/s)": 1.128234
    },
    {
      "acc": 0.76004868,
      "epoch": 1.4722222222222223,
      "grad_norm": 3.765625,
      "learning_rate": 1.7860619515673034e-06,
      "loss": 0.95418472,
      "memory(GiB)": 112.26,
      "step": 58035,
      "train_speed(iter/s)": 1.128251
    },
    {
      "acc": 0.74915037,
      "epoch": 1.4723490613901573,
      "grad_norm": 3.484375,
      "learning_rate": 1.785258729912337e-06,
      "loss": 1.04079723,
      "memory(GiB)": 112.26,
      "step": 58040,
      "train_speed(iter/s)": 1.128264
    },
    {
      "acc": 0.72526932,
      "epoch": 1.4724759005580923,
      "grad_norm": 3.921875,
      "learning_rate": 1.784455649656044e-06,
      "loss": 1.13577518,
      "memory(GiB)": 112.26,
      "step": 58045,
      "train_speed(iter/s)": 1.128276
    },
    {
      "acc": 0.74267216,
      "epoch": 1.4726027397260273,
      "grad_norm": 3.046875,
      "learning_rate": 1.7836527108337482e-06,
      "loss": 1.03505993,
      "memory(GiB)": 112.26,
      "step": 58050,
      "train_speed(iter/s)": 1.128287
    },
    {
      "acc": 0.75201187,
      "epoch": 1.4727295788939625,
      "grad_norm": 3.0625,
      "learning_rate": 1.782849913480766e-06,
      "loss": 1.06592951,
      "memory(GiB)": 112.26,
      "step": 58055,
      "train_speed(iter/s)": 1.128302
    },
    {
      "acc": 0.73394508,
      "epoch": 1.4728564180618975,
      "grad_norm": 3.359375,
      "learning_rate": 1.7820472576324078e-06,
      "loss": 1.06019735,
      "memory(GiB)": 112.26,
      "step": 58060,
      "train_speed(iter/s)": 1.12831
    },
    {
      "acc": 0.75095019,
      "epoch": 1.4729832572298327,
      "grad_norm": 3.65625,
      "learning_rate": 1.7812447433239789e-06,
      "loss": 1.00961514,
      "memory(GiB)": 112.26,
      "step": 58065,
      "train_speed(iter/s)": 1.128318
    },
    {
      "acc": 0.7405447,
      "epoch": 1.4731100963977677,
      "grad_norm": 3.640625,
      "learning_rate": 1.7804423705907764e-06,
      "loss": 1.14774208,
      "memory(GiB)": 112.26,
      "step": 58070,
      "train_speed(iter/s)": 1.128335
    },
    {
      "acc": 0.7393187,
      "epoch": 1.4732369355657027,
      "grad_norm": 3.359375,
      "learning_rate": 1.779640139468093e-06,
      "loss": 1.01149998,
      "memory(GiB)": 112.26,
      "step": 58075,
      "train_speed(iter/s)": 1.128346
    },
    {
      "acc": 0.74194241,
      "epoch": 1.4733637747336377,
      "grad_norm": 3.578125,
      "learning_rate": 1.778838049991214e-06,
      "loss": 1.06867752,
      "memory(GiB)": 112.26,
      "step": 58080,
      "train_speed(iter/s)": 1.128365
    },
    {
      "acc": 0.73928409,
      "epoch": 1.4734906139015729,
      "grad_norm": 3.453125,
      "learning_rate": 1.778036102195419e-06,
      "loss": 1.04048796,
      "memory(GiB)": 112.26,
      "step": 58085,
      "train_speed(iter/s)": 1.12838
    },
    {
      "acc": 0.74063644,
      "epoch": 1.4736174530695079,
      "grad_norm": 3.453125,
      "learning_rate": 1.7772342961159817e-06,
      "loss": 1.06857796,
      "memory(GiB)": 112.26,
      "step": 58090,
      "train_speed(iter/s)": 1.128397
    },
    {
      "acc": 0.74892282,
      "epoch": 1.4737442922374429,
      "grad_norm": 3.9375,
      "learning_rate": 1.7764326317881681e-06,
      "loss": 1.0227047,
      "memory(GiB)": 112.26,
      "step": 58095,
      "train_speed(iter/s)": 1.128417
    },
    {
      "acc": 0.74284167,
      "epoch": 1.473871131405378,
      "grad_norm": 4.28125,
      "learning_rate": 1.77563110924724e-06,
      "loss": 1.08137589,
      "memory(GiB)": 112.26,
      "step": 58100,
      "train_speed(iter/s)": 1.128435
    },
    {
      "acc": 0.73957453,
      "epoch": 1.473997970573313,
      "grad_norm": 3.546875,
      "learning_rate": 1.7748297285284494e-06,
      "loss": 1.07213669,
      "memory(GiB)": 112.26,
      "step": 58105,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.74726181,
      "epoch": 1.474124809741248,
      "grad_norm": 4.4375,
      "learning_rate": 1.7740284896670507e-06,
      "loss": 1.02681112,
      "memory(GiB)": 112.26,
      "step": 58110,
      "train_speed(iter/s)": 1.128463
    },
    {
      "acc": 0.74600639,
      "epoch": 1.474251648909183,
      "grad_norm": 3.75,
      "learning_rate": 1.7732273926982796e-06,
      "loss": 1.03250847,
      "memory(GiB)": 112.26,
      "step": 58115,
      "train_speed(iter/s)": 1.128472
    },
    {
      "acc": 0.74228039,
      "epoch": 1.4743784880771182,
      "grad_norm": 3.328125,
      "learning_rate": 1.7724264376573747e-06,
      "loss": 1.03478546,
      "memory(GiB)": 112.26,
      "step": 58120,
      "train_speed(iter/s)": 1.128488
    },
    {
      "acc": 0.73332653,
      "epoch": 1.4745053272450532,
      "grad_norm": 3.65625,
      "learning_rate": 1.7716256245795631e-06,
      "loss": 1.10116997,
      "memory(GiB)": 112.26,
      "step": 58125,
      "train_speed(iter/s)": 1.128503
    },
    {
      "acc": 0.74208021,
      "epoch": 1.4746321664129884,
      "grad_norm": 3.65625,
      "learning_rate": 1.7708249535000737e-06,
      "loss": 1.03908215,
      "memory(GiB)": 112.26,
      "step": 58130,
      "train_speed(iter/s)": 1.128521
    },
    {
      "acc": 0.72701716,
      "epoch": 1.4747590055809234,
      "grad_norm": 3.25,
      "learning_rate": 1.7700244244541182e-06,
      "loss": 1.07453804,
      "memory(GiB)": 112.26,
      "step": 58135,
      "train_speed(iter/s)": 1.12854
    },
    {
      "acc": 0.75335441,
      "epoch": 1.4748858447488584,
      "grad_norm": 3.9375,
      "learning_rate": 1.7692240374769081e-06,
      "loss": 1.05774651,
      "memory(GiB)": 112.26,
      "step": 58140,
      "train_speed(iter/s)": 1.128551
    },
    {
      "acc": 0.74400177,
      "epoch": 1.4750126839167934,
      "grad_norm": 4.1875,
      "learning_rate": 1.7684237926036507e-06,
      "loss": 1.0939435,
      "memory(GiB)": 112.26,
      "step": 58145,
      "train_speed(iter/s)": 1.128558
    },
    {
      "acc": 0.73463869,
      "epoch": 1.4751395230847286,
      "grad_norm": 3.46875,
      "learning_rate": 1.7676236898695442e-06,
      "loss": 1.10249605,
      "memory(GiB)": 112.26,
      "step": 58150,
      "train_speed(iter/s)": 1.128579
    },
    {
      "acc": 0.74736824,
      "epoch": 1.4752663622526636,
      "grad_norm": 3.796875,
      "learning_rate": 1.7668237293097762e-06,
      "loss": 1.09200859,
      "memory(GiB)": 112.26,
      "step": 58155,
      "train_speed(iter/s)": 1.128593
    },
    {
      "acc": 0.75007186,
      "epoch": 1.4753932014205986,
      "grad_norm": 3.46875,
      "learning_rate": 1.7660239109595374e-06,
      "loss": 1.00723057,
      "memory(GiB)": 112.26,
      "step": 58160,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.71798277,
      "epoch": 1.4755200405885338,
      "grad_norm": 5.4375,
      "learning_rate": 1.7652242348540056e-06,
      "loss": 1.1478137,
      "memory(GiB)": 112.26,
      "step": 58165,
      "train_speed(iter/s)": 1.128604
    },
    {
      "acc": 0.75348616,
      "epoch": 1.4756468797564688,
      "grad_norm": 3.65625,
      "learning_rate": 1.764424701028356e-06,
      "loss": 0.99746761,
      "memory(GiB)": 112.26,
      "step": 58170,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.72723932,
      "epoch": 1.4757737189244038,
      "grad_norm": 3.75,
      "learning_rate": 1.7636253095177507e-06,
      "loss": 1.12167072,
      "memory(GiB)": 112.26,
      "step": 58175,
      "train_speed(iter/s)": 1.128631
    },
    {
      "acc": 0.72297139,
      "epoch": 1.4759005580923388,
      "grad_norm": 3.609375,
      "learning_rate": 1.762826060357355e-06,
      "loss": 1.01509647,
      "memory(GiB)": 112.26,
      "step": 58180,
      "train_speed(iter/s)": 1.128644
    },
    {
      "acc": 0.7532064,
      "epoch": 1.476027397260274,
      "grad_norm": 3.75,
      "learning_rate": 1.762026953582322e-06,
      "loss": 0.99532394,
      "memory(GiB)": 112.26,
      "step": 58185,
      "train_speed(iter/s)": 1.128663
    },
    {
      "acc": 0.75292969,
      "epoch": 1.476154236428209,
      "grad_norm": 4.09375,
      "learning_rate": 1.7612279892278006e-06,
      "loss": 1.02338877,
      "memory(GiB)": 112.26,
      "step": 58190,
      "train_speed(iter/s)": 1.128677
    },
    {
      "acc": 0.74197483,
      "epoch": 1.4762810755961442,
      "grad_norm": 3.9375,
      "learning_rate": 1.7604291673289314e-06,
      "loss": 1.06961784,
      "memory(GiB)": 112.26,
      "step": 58195,
      "train_speed(iter/s)": 1.128694
    },
    {
      "acc": 0.74244232,
      "epoch": 1.4764079147640792,
      "grad_norm": 3.609375,
      "learning_rate": 1.759630487920852e-06,
      "loss": 0.99182644,
      "memory(GiB)": 112.26,
      "step": 58200,
      "train_speed(iter/s)": 1.128705
    },
    {
      "acc": 0.74079494,
      "epoch": 1.4765347539320142,
      "grad_norm": 3.375,
      "learning_rate": 1.7588319510386903e-06,
      "loss": 1.03390884,
      "memory(GiB)": 112.26,
      "step": 58205,
      "train_speed(iter/s)": 1.128721
    },
    {
      "acc": 0.7405097,
      "epoch": 1.4766615930999492,
      "grad_norm": 3.328125,
      "learning_rate": 1.7580335567175704e-06,
      "loss": 1.01054687,
      "memory(GiB)": 112.26,
      "step": 58210,
      "train_speed(iter/s)": 1.128732
    },
    {
      "acc": 0.72869253,
      "epoch": 1.4767884322678844,
      "grad_norm": 3.390625,
      "learning_rate": 1.7572353049926094e-06,
      "loss": 1.16721287,
      "memory(GiB)": 112.26,
      "step": 58215,
      "train_speed(iter/s)": 1.128746
    },
    {
      "acc": 0.75557318,
      "epoch": 1.4769152714358194,
      "grad_norm": 3.3125,
      "learning_rate": 1.7564371958989173e-06,
      "loss": 0.99423723,
      "memory(GiB)": 112.26,
      "step": 58220,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.74810076,
      "epoch": 1.4770421106037546,
      "grad_norm": 4.625,
      "learning_rate": 1.7556392294715984e-06,
      "loss": 1.0679285,
      "memory(GiB)": 112.26,
      "step": 58225,
      "train_speed(iter/s)": 1.128776
    },
    {
      "acc": 0.72848425,
      "epoch": 1.4771689497716896,
      "grad_norm": 3.734375,
      "learning_rate": 1.7548414057457518e-06,
      "loss": 1.08062592,
      "memory(GiB)": 112.26,
      "step": 58230,
      "train_speed(iter/s)": 1.128785
    },
    {
      "acc": 0.73665714,
      "epoch": 1.4772957889396245,
      "grad_norm": 3.25,
      "learning_rate": 1.7540437247564685e-06,
      "loss": 1.06497011,
      "memory(GiB)": 112.26,
      "step": 58235,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.75725174,
      "epoch": 1.4774226281075595,
      "grad_norm": 3.015625,
      "learning_rate": 1.7532461865388345e-06,
      "loss": 0.98078003,
      "memory(GiB)": 112.26,
      "step": 58240,
      "train_speed(iter/s)": 1.128817
    },
    {
      "acc": 0.7386735,
      "epoch": 1.4775494672754947,
      "grad_norm": 3.71875,
      "learning_rate": 1.752448791127927e-06,
      "loss": 1.04349375,
      "memory(GiB)": 112.26,
      "step": 58245,
      "train_speed(iter/s)": 1.12883
    },
    {
      "acc": 0.74680367,
      "epoch": 1.4776763064434297,
      "grad_norm": 3.875,
      "learning_rate": 1.7516515385588245e-06,
      "loss": 1.08717861,
      "memory(GiB)": 112.26,
      "step": 58250,
      "train_speed(iter/s)": 1.128847
    },
    {
      "acc": 0.73886781,
      "epoch": 1.4778031456113647,
      "grad_norm": 4.3125,
      "learning_rate": 1.7508544288665885e-06,
      "loss": 1.05665073,
      "memory(GiB)": 112.26,
      "step": 58255,
      "train_speed(iter/s)": 1.128862
    },
    {
      "acc": 0.74865561,
      "epoch": 1.4779299847793,
      "grad_norm": 3.46875,
      "learning_rate": 1.750057462086281e-06,
      "loss": 1.03200836,
      "memory(GiB)": 112.26,
      "step": 58260,
      "train_speed(iter/s)": 1.128883
    },
    {
      "acc": 0.74945374,
      "epoch": 1.478056823947235,
      "grad_norm": 3.453125,
      "learning_rate": 1.7492606382529542e-06,
      "loss": 1.03566761,
      "memory(GiB)": 112.26,
      "step": 58265,
      "train_speed(iter/s)": 1.128898
    },
    {
      "acc": 0.74452395,
      "epoch": 1.47818366311517,
      "grad_norm": 4.0625,
      "learning_rate": 1.748463957401662e-06,
      "loss": 1.07415075,
      "memory(GiB)": 112.26,
      "step": 58270,
      "train_speed(iter/s)": 1.128919
    },
    {
      "acc": 0.74333849,
      "epoch": 1.478310502283105,
      "grad_norm": 3.703125,
      "learning_rate": 1.7476674195674404e-06,
      "loss": 1.05193462,
      "memory(GiB)": 112.26,
      "step": 58275,
      "train_speed(iter/s)": 1.128933
    },
    {
      "acc": 0.74863167,
      "epoch": 1.47843734145104,
      "grad_norm": 4.53125,
      "learning_rate": 1.7468710247853244e-06,
      "loss": 1.08159838,
      "memory(GiB)": 112.26,
      "step": 58280,
      "train_speed(iter/s)": 1.128952
    },
    {
      "acc": 0.74186554,
      "epoch": 1.478564180618975,
      "grad_norm": 3.65625,
      "learning_rate": 1.7460747730903466e-06,
      "loss": 1.02067289,
      "memory(GiB)": 112.26,
      "step": 58285,
      "train_speed(iter/s)": 1.128959
    },
    {
      "acc": 0.74153414,
      "epoch": 1.4786910197869103,
      "grad_norm": 4.78125,
      "learning_rate": 1.7452786645175297e-06,
      "loss": 1.04467106,
      "memory(GiB)": 112.26,
      "step": 58290,
      "train_speed(iter/s)": 1.128975
    },
    {
      "acc": 0.73484921,
      "epoch": 1.4788178589548453,
      "grad_norm": 3.390625,
      "learning_rate": 1.7444826991018864e-06,
      "loss": 1.12903709,
      "memory(GiB)": 112.26,
      "step": 58295,
      "train_speed(iter/s)": 1.128982
    },
    {
      "acc": 0.7385829,
      "epoch": 1.4789446981227803,
      "grad_norm": 3.546875,
      "learning_rate": 1.7436868768784276e-06,
      "loss": 1.03853798,
      "memory(GiB)": 112.26,
      "step": 58300,
      "train_speed(iter/s)": 1.128993
    },
    {
      "acc": 0.75136032,
      "epoch": 1.4790715372907153,
      "grad_norm": 4.4375,
      "learning_rate": 1.7428911978821594e-06,
      "loss": 1.05846214,
      "memory(GiB)": 112.26,
      "step": 58305,
      "train_speed(iter/s)": 1.129008
    },
    {
      "acc": 0.73649845,
      "epoch": 1.4791983764586505,
      "grad_norm": 3.953125,
      "learning_rate": 1.7420956621480806e-06,
      "loss": 1.07827072,
      "memory(GiB)": 112.26,
      "step": 58310,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.75074077,
      "epoch": 1.4793252156265855,
      "grad_norm": 3.203125,
      "learning_rate": 1.7413002697111765e-06,
      "loss": 1.02554092,
      "memory(GiB)": 112.26,
      "step": 58315,
      "train_speed(iter/s)": 1.129041
    },
    {
      "acc": 0.74786901,
      "epoch": 1.4794520547945205,
      "grad_norm": 3.984375,
      "learning_rate": 1.7405050206064372e-06,
      "loss": 1.06025448,
      "memory(GiB)": 112.26,
      "step": 58320,
      "train_speed(iter/s)": 1.129053
    },
    {
      "acc": 0.73937435,
      "epoch": 1.4795788939624557,
      "grad_norm": 3.4375,
      "learning_rate": 1.73970991486884e-06,
      "loss": 1.07188835,
      "memory(GiB)": 112.26,
      "step": 58325,
      "train_speed(iter/s)": 1.12907
    },
    {
      "acc": 0.73311644,
      "epoch": 1.4797057331303907,
      "grad_norm": 5.03125,
      "learning_rate": 1.7389149525333565e-06,
      "loss": 1.1006321,
      "memory(GiB)": 112.26,
      "step": 58330,
      "train_speed(iter/s)": 1.129078
    },
    {
      "acc": 0.72402763,
      "epoch": 1.4798325722983257,
      "grad_norm": 3.484375,
      "learning_rate": 1.7381201336349535e-06,
      "loss": 1.04916229,
      "memory(GiB)": 112.26,
      "step": 58335,
      "train_speed(iter/s)": 1.129084
    },
    {
      "acc": 0.74026761,
      "epoch": 1.4799594114662606,
      "grad_norm": 3.84375,
      "learning_rate": 1.7373254582085896e-06,
      "loss": 1.05630465,
      "memory(GiB)": 112.26,
      "step": 58340,
      "train_speed(iter/s)": 1.129095
    },
    {
      "acc": 0.74759231,
      "epoch": 1.4800862506341959,
      "grad_norm": 4.15625,
      "learning_rate": 1.7365309262892194e-06,
      "loss": 1.00297279,
      "memory(GiB)": 112.26,
      "step": 58345,
      "train_speed(iter/s)": 1.129112
    },
    {
      "acc": 0.72718906,
      "epoch": 1.4802130898021308,
      "grad_norm": 4.53125,
      "learning_rate": 1.735736537911789e-06,
      "loss": 1.11795683,
      "memory(GiB)": 112.26,
      "step": 58350,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.72990184,
      "epoch": 1.480339928970066,
      "grad_norm": 3.1875,
      "learning_rate": 1.7349422931112403e-06,
      "loss": 1.0863678,
      "memory(GiB)": 112.26,
      "step": 58355,
      "train_speed(iter/s)": 1.129149
    },
    {
      "acc": 0.74555025,
      "epoch": 1.480466768138001,
      "grad_norm": 3.0625,
      "learning_rate": 1.7341481919225062e-06,
      "loss": 1.04602757,
      "memory(GiB)": 112.26,
      "step": 58360,
      "train_speed(iter/s)": 1.129167
    },
    {
      "acc": 0.74520926,
      "epoch": 1.480593607305936,
      "grad_norm": 3.109375,
      "learning_rate": 1.733354234380516e-06,
      "loss": 1.02794666,
      "memory(GiB)": 112.26,
      "step": 58365,
      "train_speed(iter/s)": 1.12918
    },
    {
      "acc": 0.74616551,
      "epoch": 1.480720446473871,
      "grad_norm": 3.4375,
      "learning_rate": 1.7325604205201912e-06,
      "loss": 0.99646721,
      "memory(GiB)": 112.26,
      "step": 58370,
      "train_speed(iter/s)": 1.129189
    },
    {
      "acc": 0.74161429,
      "epoch": 1.4808472856418062,
      "grad_norm": 3.140625,
      "learning_rate": 1.7317667503764468e-06,
      "loss": 0.99677057,
      "memory(GiB)": 112.26,
      "step": 58375,
      "train_speed(iter/s)": 1.129203
    },
    {
      "acc": 0.72506294,
      "epoch": 1.4809741248097412,
      "grad_norm": 3.921875,
      "learning_rate": 1.7309732239841926e-06,
      "loss": 1.18646336,
      "memory(GiB)": 112.26,
      "step": 58380,
      "train_speed(iter/s)": 1.129221
    },
    {
      "acc": 0.74950037,
      "epoch": 1.4811009639776764,
      "grad_norm": 3.296875,
      "learning_rate": 1.730179841378331e-06,
      "loss": 1.0261591,
      "memory(GiB)": 112.26,
      "step": 58385,
      "train_speed(iter/s)": 1.129231
    },
    {
      "acc": 0.74709969,
      "epoch": 1.4812278031456114,
      "grad_norm": 3.421875,
      "learning_rate": 1.7293866025937589e-06,
      "loss": 1.0408186,
      "memory(GiB)": 112.26,
      "step": 58390,
      "train_speed(iter/s)": 1.129249
    },
    {
      "acc": 0.74083366,
      "epoch": 1.4813546423135464,
      "grad_norm": 3.515625,
      "learning_rate": 1.7285935076653659e-06,
      "loss": 1.04503574,
      "memory(GiB)": 112.26,
      "step": 58395,
      "train_speed(iter/s)": 1.12926
    },
    {
      "acc": 0.75084863,
      "epoch": 1.4814814814814814,
      "grad_norm": 4.0625,
      "learning_rate": 1.7278005566280365e-06,
      "loss": 1.02835159,
      "memory(GiB)": 112.26,
      "step": 58400,
      "train_speed(iter/s)": 1.129271
    },
    {
      "acc": 0.7307476,
      "epoch": 1.4816083206494166,
      "grad_norm": 3.78125,
      "learning_rate": 1.727007749516646e-06,
      "loss": 1.12115326,
      "memory(GiB)": 112.26,
      "step": 58405,
      "train_speed(iter/s)": 1.129292
    },
    {
      "acc": 0.73239493,
      "epoch": 1.4817351598173516,
      "grad_norm": 3.328125,
      "learning_rate": 1.7262150863660709e-06,
      "loss": 1.11987534,
      "memory(GiB)": 112.26,
      "step": 58410,
      "train_speed(iter/s)": 1.129313
    },
    {
      "acc": 0.73727322,
      "epoch": 1.4818619989852866,
      "grad_norm": 3.3125,
      "learning_rate": 1.7254225672111713e-06,
      "loss": 1.06134596,
      "memory(GiB)": 112.26,
      "step": 58415,
      "train_speed(iter/s)": 1.129328
    },
    {
      "acc": 0.73200626,
      "epoch": 1.4819888381532218,
      "grad_norm": 4.25,
      "learning_rate": 1.7246301920868052e-06,
      "loss": 1.06728506,
      "memory(GiB)": 112.26,
      "step": 58420,
      "train_speed(iter/s)": 1.129346
    },
    {
      "acc": 0.74258404,
      "epoch": 1.4821156773211568,
      "grad_norm": 3.921875,
      "learning_rate": 1.723837961027829e-06,
      "loss": 0.95462122,
      "memory(GiB)": 112.26,
      "step": 58425,
      "train_speed(iter/s)": 1.129359
    },
    {
      "acc": 0.74403834,
      "epoch": 1.4822425164890918,
      "grad_norm": 4.1875,
      "learning_rate": 1.723045874069087e-06,
      "loss": 1.06469145,
      "memory(GiB)": 112.26,
      "step": 58430,
      "train_speed(iter/s)": 1.12937
    },
    {
      "acc": 0.74284935,
      "epoch": 1.4823693556570268,
      "grad_norm": 3.390625,
      "learning_rate": 1.7222539312454167e-06,
      "loss": 1.07498026,
      "memory(GiB)": 112.26,
      "step": 58435,
      "train_speed(iter/s)": 1.12939
    },
    {
      "acc": 0.74032903,
      "epoch": 1.482496194824962,
      "grad_norm": 4.40625,
      "learning_rate": 1.7214621325916515e-06,
      "loss": 1.09552126,
      "memory(GiB)": 112.26,
      "step": 58440,
      "train_speed(iter/s)": 1.129411
    },
    {
      "acc": 0.75035133,
      "epoch": 1.482623033992897,
      "grad_norm": 5.53125,
      "learning_rate": 1.7206704781426204e-06,
      "loss": 1.018291,
      "memory(GiB)": 112.26,
      "step": 58445,
      "train_speed(iter/s)": 1.12942
    },
    {
      "acc": 0.76400032,
      "epoch": 1.4827498731608322,
      "grad_norm": 3.625,
      "learning_rate": 1.7198789679331445e-06,
      "loss": 1.0086792,
      "memory(GiB)": 112.26,
      "step": 58450,
      "train_speed(iter/s)": 1.129423
    },
    {
      "acc": 0.74799147,
      "epoch": 1.4828767123287672,
      "grad_norm": 2.75,
      "learning_rate": 1.7190876019980329e-06,
      "loss": 0.99247875,
      "memory(GiB)": 112.26,
      "step": 58455,
      "train_speed(iter/s)": 1.129432
    },
    {
      "acc": 0.73245764,
      "epoch": 1.4830035514967022,
      "grad_norm": 3.53125,
      "learning_rate": 1.7182963803720987e-06,
      "loss": 1.06308527,
      "memory(GiB)": 112.26,
      "step": 58460,
      "train_speed(iter/s)": 1.129443
    },
    {
      "acc": 0.72556124,
      "epoch": 1.4831303906646371,
      "grad_norm": 4.5625,
      "learning_rate": 1.7175053030901418e-06,
      "loss": 1.12017975,
      "memory(GiB)": 112.26,
      "step": 58465,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.74105086,
      "epoch": 1.4832572298325724,
      "grad_norm": 3.75,
      "learning_rate": 1.7167143701869582e-06,
      "loss": 1.06934109,
      "memory(GiB)": 112.26,
      "step": 58470,
      "train_speed(iter/s)": 1.129467
    },
    {
      "acc": 0.74272265,
      "epoch": 1.4833840690005073,
      "grad_norm": 4.0625,
      "learning_rate": 1.7159235816973318e-06,
      "loss": 0.98705454,
      "memory(GiB)": 112.26,
      "step": 58475,
      "train_speed(iter/s)": 1.129487
    },
    {
      "acc": 0.74827399,
      "epoch": 1.4835109081684423,
      "grad_norm": 3.25,
      "learning_rate": 1.7151329376560506e-06,
      "loss": 1.07276573,
      "memory(GiB)": 112.26,
      "step": 58480,
      "train_speed(iter/s)": 1.129498
    },
    {
      "acc": 0.73089781,
      "epoch": 1.4836377473363775,
      "grad_norm": 3.0625,
      "learning_rate": 1.7143424380978885e-06,
      "loss": 1.04640617,
      "memory(GiB)": 112.26,
      "step": 58485,
      "train_speed(iter/s)": 1.129511
    },
    {
      "acc": 0.7332325,
      "epoch": 1.4837645865043125,
      "grad_norm": 5.03125,
      "learning_rate": 1.7135520830576157e-06,
      "loss": 1.11529617,
      "memory(GiB)": 112.26,
      "step": 58490,
      "train_speed(iter/s)": 1.129524
    },
    {
      "acc": 0.74159698,
      "epoch": 1.4838914256722475,
      "grad_norm": 3.546875,
      "learning_rate": 1.712761872569995e-06,
      "loss": 1.05027742,
      "memory(GiB)": 112.26,
      "step": 58495,
      "train_speed(iter/s)": 1.129536
    },
    {
      "acc": 0.73597651,
      "epoch": 1.4840182648401825,
      "grad_norm": 3.5,
      "learning_rate": 1.7119718066697838e-06,
      "loss": 1.08974857,
      "memory(GiB)": 112.26,
      "step": 58500,
      "train_speed(iter/s)": 1.129545
    },
    {
      "acc": 0.73495483,
      "epoch": 1.4841451040081177,
      "grad_norm": 3.515625,
      "learning_rate": 1.7111818853917323e-06,
      "loss": 1.0559248,
      "memory(GiB)": 112.26,
      "step": 58505,
      "train_speed(iter/s)": 1.129551
    },
    {
      "acc": 0.73679094,
      "epoch": 1.4842719431760527,
      "grad_norm": 3.359375,
      "learning_rate": 1.710392108770585e-06,
      "loss": 1.10863247,
      "memory(GiB)": 112.26,
      "step": 58510,
      "train_speed(iter/s)": 1.129566
    },
    {
      "acc": 0.74146838,
      "epoch": 1.484398782343988,
      "grad_norm": 3.5625,
      "learning_rate": 1.7096024768410796e-06,
      "loss": 1.09461555,
      "memory(GiB)": 112.26,
      "step": 58515,
      "train_speed(iter/s)": 1.129574
    },
    {
      "acc": 0.72826104,
      "epoch": 1.484525621511923,
      "grad_norm": 2.953125,
      "learning_rate": 1.7088129896379484e-06,
      "loss": 1.12345018,
      "memory(GiB)": 112.26,
      "step": 58520,
      "train_speed(iter/s)": 1.129587
    },
    {
      "acc": 0.73002148,
      "epoch": 1.484652460679858,
      "grad_norm": 3.421875,
      "learning_rate": 1.7080236471959155e-06,
      "loss": 1.06453972,
      "memory(GiB)": 112.26,
      "step": 58525,
      "train_speed(iter/s)": 1.129596
    },
    {
      "acc": 0.73770866,
      "epoch": 1.4847792998477929,
      "grad_norm": 3.859375,
      "learning_rate": 1.7072344495497007e-06,
      "loss": 1.10241318,
      "memory(GiB)": 112.26,
      "step": 58530,
      "train_speed(iter/s)": 1.129598
    },
    {
      "acc": 0.76671085,
      "epoch": 1.484906139015728,
      "grad_norm": 3.390625,
      "learning_rate": 1.7064453967340155e-06,
      "loss": 0.98952503,
      "memory(GiB)": 112.26,
      "step": 58535,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.73214207,
      "epoch": 1.485032978183663,
      "grad_norm": 3.796875,
      "learning_rate": 1.7056564887835664e-06,
      "loss": 1.05569105,
      "memory(GiB)": 112.26,
      "step": 58540,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.71785898,
      "epoch": 1.4851598173515983,
      "grad_norm": 3.90625,
      "learning_rate": 1.704867725733052e-06,
      "loss": 1.1458765,
      "memory(GiB)": 112.26,
      "step": 58545,
      "train_speed(iter/s)": 1.129653
    },
    {
      "acc": 0.74387579,
      "epoch": 1.4852866565195333,
      "grad_norm": 4.21875,
      "learning_rate": 1.7040791076171692e-06,
      "loss": 1.01880159,
      "memory(GiB)": 112.26,
      "step": 58550,
      "train_speed(iter/s)": 1.129669
    },
    {
      "acc": 0.74732199,
      "epoch": 1.4854134956874683,
      "grad_norm": 3.4375,
      "learning_rate": 1.7032906344706017e-06,
      "loss": 1.04378099,
      "memory(GiB)": 112.26,
      "step": 58555,
      "train_speed(iter/s)": 1.12969
    },
    {
      "acc": 0.73297634,
      "epoch": 1.4855403348554033,
      "grad_norm": 3.53125,
      "learning_rate": 1.7025023063280306e-06,
      "loss": 1.08085861,
      "memory(GiB)": 112.26,
      "step": 58560,
      "train_speed(iter/s)": 1.129708
    },
    {
      "acc": 0.73077288,
      "epoch": 1.4856671740233385,
      "grad_norm": 3.546875,
      "learning_rate": 1.701714123224128e-06,
      "loss": 1.09363728,
      "memory(GiB)": 112.26,
      "step": 58565,
      "train_speed(iter/s)": 1.129718
    },
    {
      "acc": 0.73321085,
      "epoch": 1.4857940131912735,
      "grad_norm": 4.0625,
      "learning_rate": 1.7009260851935684e-06,
      "loss": 1.07612076,
      "memory(GiB)": 112.26,
      "step": 58570,
      "train_speed(iter/s)": 1.129732
    },
    {
      "acc": 0.72744746,
      "epoch": 1.4859208523592085,
      "grad_norm": 3.3125,
      "learning_rate": 1.7001381922710064e-06,
      "loss": 1.13272266,
      "memory(GiB)": 112.26,
      "step": 58575,
      "train_speed(iter/s)": 1.129751
    },
    {
      "acc": 0.73743296,
      "epoch": 1.4860476915271437,
      "grad_norm": 3.90625,
      "learning_rate": 1.699350444491098e-06,
      "loss": 1.0288372,
      "memory(GiB)": 112.26,
      "step": 58580,
      "train_speed(iter/s)": 1.129751
    },
    {
      "acc": 0.73450108,
      "epoch": 1.4861745306950787,
      "grad_norm": 3.296875,
      "learning_rate": 1.6985628418884953e-06,
      "loss": 1.08337879,
      "memory(GiB)": 112.26,
      "step": 58585,
      "train_speed(iter/s)": 1.129769
    },
    {
      "acc": 0.74431067,
      "epoch": 1.4863013698630136,
      "grad_norm": 3.875,
      "learning_rate": 1.6977753844978406e-06,
      "loss": 1.06942768,
      "memory(GiB)": 112.26,
      "step": 58590,
      "train_speed(iter/s)": 1.129771
    },
    {
      "acc": 0.74308362,
      "epoch": 1.4864282090309486,
      "grad_norm": 3.75,
      "learning_rate": 1.696988072353764e-06,
      "loss": 1.04254103,
      "memory(GiB)": 112.26,
      "step": 58595,
      "train_speed(iter/s)": 1.129777
    },
    {
      "acc": 0.73582325,
      "epoch": 1.4865550481988838,
      "grad_norm": 3.421875,
      "learning_rate": 1.6962009054909007e-06,
      "loss": 1.05888443,
      "memory(GiB)": 112.26,
      "step": 58600,
      "train_speed(iter/s)": 1.129795
    },
    {
      "acc": 0.74597092,
      "epoch": 1.4866818873668188,
      "grad_norm": 3.109375,
      "learning_rate": 1.6954138839438723e-06,
      "loss": 1.0359045,
      "memory(GiB)": 112.26,
      "step": 58605,
      "train_speed(iter/s)": 1.129807
    },
    {
      "acc": 0.73580513,
      "epoch": 1.486808726534754,
      "grad_norm": 4.125,
      "learning_rate": 1.6946270077472966e-06,
      "loss": 1.11172905,
      "memory(GiB)": 112.26,
      "step": 58610,
      "train_speed(iter/s)": 1.129819
    },
    {
      "acc": 0.747229,
      "epoch": 1.486935565702689,
      "grad_norm": 3.421875,
      "learning_rate": 1.6938402769357787e-06,
      "loss": 1.01869259,
      "memory(GiB)": 112.26,
      "step": 58615,
      "train_speed(iter/s)": 1.129835
    },
    {
      "acc": 0.74338503,
      "epoch": 1.487062404870624,
      "grad_norm": 5.5,
      "learning_rate": 1.6930536915439288e-06,
      "loss": 1.04643898,
      "memory(GiB)": 112.26,
      "step": 58620,
      "train_speed(iter/s)": 1.129844
    },
    {
      "acc": 0.74399891,
      "epoch": 1.487189244038559,
      "grad_norm": 4.125,
      "learning_rate": 1.6922672516063415e-06,
      "loss": 1.05631704,
      "memory(GiB)": 112.26,
      "step": 58625,
      "train_speed(iter/s)": 1.129861
    },
    {
      "acc": 0.73644772,
      "epoch": 1.4873160832064942,
      "grad_norm": 3.125,
      "learning_rate": 1.6914809571576086e-06,
      "loss": 1.07271423,
      "memory(GiB)": 112.26,
      "step": 58630,
      "train_speed(iter/s)": 1.129871
    },
    {
      "acc": 0.7330122,
      "epoch": 1.4874429223744292,
      "grad_norm": 3.375,
      "learning_rate": 1.6906948082323149e-06,
      "loss": 1.1050684,
      "memory(GiB)": 112.26,
      "step": 58635,
      "train_speed(iter/s)": 1.129884
    },
    {
      "acc": 0.74217796,
      "epoch": 1.4875697615423642,
      "grad_norm": 3.65625,
      "learning_rate": 1.689908804865038e-06,
      "loss": 1.09942417,
      "memory(GiB)": 112.26,
      "step": 58640,
      "train_speed(iter/s)": 1.129899
    },
    {
      "acc": 0.73579669,
      "epoch": 1.4876966007102994,
      "grad_norm": 3.265625,
      "learning_rate": 1.6891229470903509e-06,
      "loss": 1.08252144,
      "memory(GiB)": 112.26,
      "step": 58645,
      "train_speed(iter/s)": 1.129912
    },
    {
      "acc": 0.7376792,
      "epoch": 1.4878234398782344,
      "grad_norm": 3.953125,
      "learning_rate": 1.6883372349428184e-06,
      "loss": 1.08054733,
      "memory(GiB)": 112.26,
      "step": 58650,
      "train_speed(iter/s)": 1.129933
    },
    {
      "acc": 0.75459299,
      "epoch": 1.4879502790461694,
      "grad_norm": 4.28125,
      "learning_rate": 1.6875516684569999e-06,
      "loss": 1.01690617,
      "memory(GiB)": 112.26,
      "step": 58655,
      "train_speed(iter/s)": 1.129944
    },
    {
      "acc": 0.74183731,
      "epoch": 1.4880771182141044,
      "grad_norm": 3.765625,
      "learning_rate": 1.686766247667448e-06,
      "loss": 1.08032093,
      "memory(GiB)": 112.26,
      "step": 58660,
      "train_speed(iter/s)": 1.12996
    },
    {
      "acc": 0.74306316,
      "epoch": 1.4882039573820396,
      "grad_norm": 3.609375,
      "learning_rate": 1.685980972608709e-06,
      "loss": 1.05888691,
      "memory(GiB)": 112.26,
      "step": 58665,
      "train_speed(iter/s)": 1.129967
    },
    {
      "acc": 0.7406251,
      "epoch": 1.4883307965499746,
      "grad_norm": 3.3125,
      "learning_rate": 1.6851958433153227e-06,
      "loss": 1.02083549,
      "memory(GiB)": 112.26,
      "step": 58670,
      "train_speed(iter/s)": 1.129977
    },
    {
      "acc": 0.73562217,
      "epoch": 1.4884576357179098,
      "grad_norm": 3.984375,
      "learning_rate": 1.684410859821823e-06,
      "loss": 1.13078423,
      "memory(GiB)": 112.26,
      "step": 58675,
      "train_speed(iter/s)": 1.129986
    },
    {
      "acc": 0.7544796,
      "epoch": 1.4885844748858448,
      "grad_norm": 3.453125,
      "learning_rate": 1.6836260221627364e-06,
      "loss": 0.99948921,
      "memory(GiB)": 112.26,
      "step": 58680,
      "train_speed(iter/s)": 1.13
    },
    {
      "acc": 0.73899455,
      "epoch": 1.4887113140537798,
      "grad_norm": 3.1875,
      "learning_rate": 1.682841330372582e-06,
      "loss": 1.03299923,
      "memory(GiB)": 112.26,
      "step": 58685,
      "train_speed(iter/s)": 1.130014
    },
    {
      "acc": 0.74806676,
      "epoch": 1.4888381532217148,
      "grad_norm": 2.921875,
      "learning_rate": 1.6820567844858798e-06,
      "loss": 0.98901711,
      "memory(GiB)": 112.26,
      "step": 58690,
      "train_speed(iter/s)": 1.130032
    },
    {
      "acc": 0.7390552,
      "epoch": 1.48896499238965,
      "grad_norm": 3.890625,
      "learning_rate": 1.681272384537132e-06,
      "loss": 1.04060087,
      "memory(GiB)": 112.26,
      "step": 58695,
      "train_speed(iter/s)": 1.130026
    },
    {
      "acc": 0.74073052,
      "epoch": 1.489091831557585,
      "grad_norm": 3.203125,
      "learning_rate": 1.6804881305608423e-06,
      "loss": 1.03659086,
      "memory(GiB)": 112.26,
      "step": 58700,
      "train_speed(iter/s)": 1.130033
    },
    {
      "acc": 0.73506017,
      "epoch": 1.4892186707255202,
      "grad_norm": 4.40625,
      "learning_rate": 1.679704022591503e-06,
      "loss": 1.06428642,
      "memory(GiB)": 112.26,
      "step": 58705,
      "train_speed(iter/s)": 1.13005
    },
    {
      "acc": 0.73688807,
      "epoch": 1.4893455098934552,
      "grad_norm": 4.0,
      "learning_rate": 1.678920060663608e-06,
      "loss": 1.06200552,
      "memory(GiB)": 112.26,
      "step": 58710,
      "train_speed(iter/s)": 1.130052
    },
    {
      "acc": 0.73726168,
      "epoch": 1.4894723490613901,
      "grad_norm": 3.4375,
      "learning_rate": 1.6781362448116344e-06,
      "loss": 1.02040501,
      "memory(GiB)": 112.26,
      "step": 58715,
      "train_speed(iter/s)": 1.130066
    },
    {
      "acc": 0.73843837,
      "epoch": 1.4895991882293251,
      "grad_norm": 3.34375,
      "learning_rate": 1.6773525750700586e-06,
      "loss": 1.04125137,
      "memory(GiB)": 112.26,
      "step": 58720,
      "train_speed(iter/s)": 1.130078
    },
    {
      "acc": 0.7467989,
      "epoch": 1.4897260273972603,
      "grad_norm": 3.984375,
      "learning_rate": 1.676569051473353e-06,
      "loss": 1.02549295,
      "memory(GiB)": 112.26,
      "step": 58725,
      "train_speed(iter/s)": 1.130093
    },
    {
      "acc": 0.74083862,
      "epoch": 1.4898528665651953,
      "grad_norm": 3.5625,
      "learning_rate": 1.6757856740559796e-06,
      "loss": 1.04389448,
      "memory(GiB)": 112.26,
      "step": 58730,
      "train_speed(iter/s)": 1.130112
    },
    {
      "acc": 0.75053883,
      "epoch": 1.4899797057331303,
      "grad_norm": 3.1875,
      "learning_rate": 1.6750024428523926e-06,
      "loss": 0.9960103,
      "memory(GiB)": 112.26,
      "step": 58735,
      "train_speed(iter/s)": 1.130133
    },
    {
      "acc": 0.74246426,
      "epoch": 1.4901065449010655,
      "grad_norm": 3.25,
      "learning_rate": 1.6742193578970418e-06,
      "loss": 1.07936993,
      "memory(GiB)": 112.26,
      "step": 58740,
      "train_speed(iter/s)": 1.130148
    },
    {
      "acc": 0.74341564,
      "epoch": 1.4902333840690005,
      "grad_norm": 4.40625,
      "learning_rate": 1.673436419224373e-06,
      "loss": 1.07249384,
      "memory(GiB)": 112.26,
      "step": 58745,
      "train_speed(iter/s)": 1.130161
    },
    {
      "acc": 0.73489714,
      "epoch": 1.4903602232369355,
      "grad_norm": 3.484375,
      "learning_rate": 1.6726536268688248e-06,
      "loss": 1.10490942,
      "memory(GiB)": 112.26,
      "step": 58750,
      "train_speed(iter/s)": 1.130181
    },
    {
      "acc": 0.74959793,
      "epoch": 1.4904870624048705,
      "grad_norm": 4.15625,
      "learning_rate": 1.671870980864822e-06,
      "loss": 1.04356165,
      "memory(GiB)": 112.26,
      "step": 58755,
      "train_speed(iter/s)": 1.130194
    },
    {
      "acc": 0.7472538,
      "epoch": 1.4906139015728057,
      "grad_norm": 3.734375,
      "learning_rate": 1.6710884812467943e-06,
      "loss": 0.98619709,
      "memory(GiB)": 112.26,
      "step": 58760,
      "train_speed(iter/s)": 1.130199
    },
    {
      "acc": 0.74008937,
      "epoch": 1.4907407407407407,
      "grad_norm": 3.6875,
      "learning_rate": 1.6703061280491579e-06,
      "loss": 1.06779633,
      "memory(GiB)": 112.26,
      "step": 58765,
      "train_speed(iter/s)": 1.130216
    },
    {
      "acc": 0.73866529,
      "epoch": 1.490867579908676,
      "grad_norm": 3.5625,
      "learning_rate": 1.6695239213063237e-06,
      "loss": 1.03273182,
      "memory(GiB)": 112.26,
      "step": 58770,
      "train_speed(iter/s)": 1.13023
    },
    {
      "acc": 0.74495039,
      "epoch": 1.490994419076611,
      "grad_norm": 4.1875,
      "learning_rate": 1.6687418610526972e-06,
      "loss": 1.05183372,
      "memory(GiB)": 112.26,
      "step": 58775,
      "train_speed(iter/s)": 1.130245
    },
    {
      "acc": 0.74744682,
      "epoch": 1.4911212582445459,
      "grad_norm": 4.09375,
      "learning_rate": 1.6679599473226766e-06,
      "loss": 1.0259737,
      "memory(GiB)": 112.26,
      "step": 58780,
      "train_speed(iter/s)": 1.130249
    },
    {
      "acc": 0.7416389,
      "epoch": 1.4912480974124809,
      "grad_norm": 4.15625,
      "learning_rate": 1.6671781801506536e-06,
      "loss": 1.10482569,
      "memory(GiB)": 112.26,
      "step": 58785,
      "train_speed(iter/s)": 1.130268
    },
    {
      "acc": 0.74025574,
      "epoch": 1.491374936580416,
      "grad_norm": 3.078125,
      "learning_rate": 1.6663965595710147e-06,
      "loss": 1.04222393,
      "memory(GiB)": 112.26,
      "step": 58790,
      "train_speed(iter/s)": 1.130283
    },
    {
      "acc": 0.75078936,
      "epoch": 1.491501775748351,
      "grad_norm": 4.46875,
      "learning_rate": 1.6656150856181386e-06,
      "loss": 1.04104414,
      "memory(GiB)": 112.26,
      "step": 58795,
      "train_speed(iter/s)": 1.130307
    },
    {
      "acc": 0.72527871,
      "epoch": 1.491628614916286,
      "grad_norm": 3.53125,
      "learning_rate": 1.6648337583263974e-06,
      "loss": 1.10137672,
      "memory(GiB)": 112.26,
      "step": 58800,
      "train_speed(iter/s)": 1.130326
    },
    {
      "acc": 0.73744593,
      "epoch": 1.4917554540842213,
      "grad_norm": 3.328125,
      "learning_rate": 1.6640525777301586e-06,
      "loss": 1.05683861,
      "memory(GiB)": 112.26,
      "step": 58805,
      "train_speed(iter/s)": 1.130331
    },
    {
      "acc": 0.75092287,
      "epoch": 1.4918822932521563,
      "grad_norm": 4.1875,
      "learning_rate": 1.663271543863781e-06,
      "loss": 1.02116241,
      "memory(GiB)": 112.26,
      "step": 58810,
      "train_speed(iter/s)": 1.130354
    },
    {
      "acc": 0.7479044,
      "epoch": 1.4920091324200913,
      "grad_norm": 4.03125,
      "learning_rate": 1.6624906567616183e-06,
      "loss": 1.07360926,
      "memory(GiB)": 112.26,
      "step": 58815,
      "train_speed(iter/s)": 1.13036
    },
    {
      "acc": 0.73841038,
      "epoch": 1.4921359715880262,
      "grad_norm": 3.578125,
      "learning_rate": 1.6617099164580175e-06,
      "loss": 1.03310099,
      "memory(GiB)": 112.26,
      "step": 58820,
      "train_speed(iter/s)": 1.130377
    },
    {
      "acc": 0.74071441,
      "epoch": 1.4922628107559615,
      "grad_norm": 3.953125,
      "learning_rate": 1.660929322987319e-06,
      "loss": 1.02294559,
      "memory(GiB)": 112.26,
      "step": 58825,
      "train_speed(iter/s)": 1.130384
    },
    {
      "acc": 0.73581529,
      "epoch": 1.4923896499238964,
      "grad_norm": 4.6875,
      "learning_rate": 1.660148876383857e-06,
      "loss": 1.05840569,
      "memory(GiB)": 112.26,
      "step": 58830,
      "train_speed(iter/s)": 1.130395
    },
    {
      "acc": 0.74701967,
      "epoch": 1.4925164890918317,
      "grad_norm": 4.03125,
      "learning_rate": 1.6593685766819584e-06,
      "loss": 1.02719231,
      "memory(GiB)": 112.26,
      "step": 58835,
      "train_speed(iter/s)": 1.130416
    },
    {
      "acc": 0.73368955,
      "epoch": 1.4926433282597666,
      "grad_norm": 3.546875,
      "learning_rate": 1.658588423915945e-06,
      "loss": 1.01535568,
      "memory(GiB)": 112.26,
      "step": 58840,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.74756002,
      "epoch": 1.4927701674277016,
      "grad_norm": 3.28125,
      "learning_rate": 1.6578084181201293e-06,
      "loss": 1.05073566,
      "memory(GiB)": 112.26,
      "step": 58845,
      "train_speed(iter/s)": 1.130449
    },
    {
      "acc": 0.74087734,
      "epoch": 1.4928970065956366,
      "grad_norm": 4.1875,
      "learning_rate": 1.6570285593288242e-06,
      "loss": 1.08252087,
      "memory(GiB)": 112.26,
      "step": 58850,
      "train_speed(iter/s)": 1.130452
    },
    {
      "acc": 0.7297946,
      "epoch": 1.4930238457635718,
      "grad_norm": 4.3125,
      "learning_rate": 1.6562488475763267e-06,
      "loss": 1.07992706,
      "memory(GiB)": 112.26,
      "step": 58855,
      "train_speed(iter/s)": 1.130467
    },
    {
      "acc": 0.72459416,
      "epoch": 1.4931506849315068,
      "grad_norm": 4.5,
      "learning_rate": 1.6554692828969321e-06,
      "loss": 1.06261349,
      "memory(GiB)": 112.26,
      "step": 58860,
      "train_speed(iter/s)": 1.130479
    },
    {
      "acc": 0.72903457,
      "epoch": 1.493277524099442,
      "grad_norm": 4.78125,
      "learning_rate": 1.6546898653249326e-06,
      "loss": 1.07922869,
      "memory(GiB)": 112.26,
      "step": 58865,
      "train_speed(iter/s)": 1.130488
    },
    {
      "acc": 0.73616605,
      "epoch": 1.493404363267377,
      "grad_norm": 3.453125,
      "learning_rate": 1.65391059489461e-06,
      "loss": 1.08710785,
      "memory(GiB)": 112.26,
      "step": 58870,
      "train_speed(iter/s)": 1.13051
    },
    {
      "acc": 0.72928667,
      "epoch": 1.493531202435312,
      "grad_norm": 3.078125,
      "learning_rate": 1.6531314716402369e-06,
      "loss": 1.11007614,
      "memory(GiB)": 112.26,
      "step": 58875,
      "train_speed(iter/s)": 1.13053
    },
    {
      "acc": 0.74190588,
      "epoch": 1.493658041603247,
      "grad_norm": 3.875,
      "learning_rate": 1.652352495596083e-06,
      "loss": 1.05285645,
      "memory(GiB)": 112.26,
      "step": 58880,
      "train_speed(iter/s)": 1.130538
    },
    {
      "acc": 0.74342117,
      "epoch": 1.4937848807711822,
      "grad_norm": 3.515625,
      "learning_rate": 1.6515736667964144e-06,
      "loss": 1.05713491,
      "memory(GiB)": 112.26,
      "step": 58885,
      "train_speed(iter/s)": 1.130553
    },
    {
      "acc": 0.74120846,
      "epoch": 1.4939117199391172,
      "grad_norm": 4.03125,
      "learning_rate": 1.6507949852754867e-06,
      "loss": 1.12333279,
      "memory(GiB)": 112.26,
      "step": 58890,
      "train_speed(iter/s)": 1.130577
    },
    {
      "acc": 0.73033423,
      "epoch": 1.4940385591070522,
      "grad_norm": 3.1875,
      "learning_rate": 1.6500164510675453e-06,
      "loss": 1.08029785,
      "memory(GiB)": 112.26,
      "step": 58895,
      "train_speed(iter/s)": 1.130587
    },
    {
      "acc": 0.75255756,
      "epoch": 1.4941653982749874,
      "grad_norm": 4.0625,
      "learning_rate": 1.649238064206839e-06,
      "loss": 1.00927582,
      "memory(GiB)": 112.26,
      "step": 58900,
      "train_speed(iter/s)": 1.130602
    },
    {
      "acc": 0.73806505,
      "epoch": 1.4942922374429224,
      "grad_norm": 3.3125,
      "learning_rate": 1.6484598247276023e-06,
      "loss": 1.06593981,
      "memory(GiB)": 112.26,
      "step": 58905,
      "train_speed(iter/s)": 1.130618
    },
    {
      "acc": 0.72962399,
      "epoch": 1.4944190766108574,
      "grad_norm": 3.625,
      "learning_rate": 1.6476817326640682e-06,
      "loss": 1.06840992,
      "memory(GiB)": 112.26,
      "step": 58910,
      "train_speed(iter/s)": 1.13063
    },
    {
      "acc": 0.75097408,
      "epoch": 1.4945459157787924,
      "grad_norm": 4.71875,
      "learning_rate": 1.646903788050455e-06,
      "loss": 1.02786112,
      "memory(GiB)": 112.26,
      "step": 58915,
      "train_speed(iter/s)": 1.130631
    },
    {
      "acc": 0.73941388,
      "epoch": 1.4946727549467276,
      "grad_norm": 3.1875,
      "learning_rate": 1.6461259909209853e-06,
      "loss": 1.04223385,
      "memory(GiB)": 112.26,
      "step": 58920,
      "train_speed(iter/s)": 1.130641
    },
    {
      "acc": 0.74908576,
      "epoch": 1.4947995941146626,
      "grad_norm": 3.515625,
      "learning_rate": 1.6453483413098687e-06,
      "loss": 1.05409498,
      "memory(GiB)": 112.26,
      "step": 58925,
      "train_speed(iter/s)": 1.130657
    },
    {
      "acc": 0.73621817,
      "epoch": 1.4949264332825978,
      "grad_norm": 3.484375,
      "learning_rate": 1.6445708392513093e-06,
      "loss": 1.0946661,
      "memory(GiB)": 112.26,
      "step": 58930,
      "train_speed(iter/s)": 1.130673
    },
    {
      "acc": 0.73560934,
      "epoch": 1.4950532724505328,
      "grad_norm": 3.625,
      "learning_rate": 1.643793484779505e-06,
      "loss": 1.09500132,
      "memory(GiB)": 112.26,
      "step": 58935,
      "train_speed(iter/s)": 1.130687
    },
    {
      "acc": 0.75476961,
      "epoch": 1.4951801116184678,
      "grad_norm": 4.46875,
      "learning_rate": 1.6430162779286484e-06,
      "loss": 1.02438889,
      "memory(GiB)": 112.26,
      "step": 58940,
      "train_speed(iter/s)": 1.130699
    },
    {
      "acc": 0.74730725,
      "epoch": 1.4953069507864027,
      "grad_norm": 3.21875,
      "learning_rate": 1.6422392187329233e-06,
      "loss": 1.01817207,
      "memory(GiB)": 112.26,
      "step": 58945,
      "train_speed(iter/s)": 1.130708
    },
    {
      "acc": 0.73147731,
      "epoch": 1.495433789954338,
      "grad_norm": 4.46875,
      "learning_rate": 1.6414623072265085e-06,
      "loss": 1.12327499,
      "memory(GiB)": 112.26,
      "step": 58950,
      "train_speed(iter/s)": 1.130719
    },
    {
      "acc": 0.75189791,
      "epoch": 1.495560629122273,
      "grad_norm": 3.734375,
      "learning_rate": 1.6406855434435765e-06,
      "loss": 1.04395027,
      "memory(GiB)": 112.26,
      "step": 58955,
      "train_speed(iter/s)": 1.130726
    },
    {
      "acc": 0.72801113,
      "epoch": 1.495687468290208,
      "grad_norm": 3.1875,
      "learning_rate": 1.6399089274182922e-06,
      "loss": 1.09266796,
      "memory(GiB)": 112.26,
      "step": 58960,
      "train_speed(iter/s)": 1.130735
    },
    {
      "acc": 0.74140368,
      "epoch": 1.4958143074581431,
      "grad_norm": 3.046875,
      "learning_rate": 1.6391324591848156e-06,
      "loss": 1.0390584,
      "memory(GiB)": 112.26,
      "step": 58965,
      "train_speed(iter/s)": 1.13075
    },
    {
      "acc": 0.74453936,
      "epoch": 1.4959411466260781,
      "grad_norm": 3.453125,
      "learning_rate": 1.6383561387772984e-06,
      "loss": 1.05709515,
      "memory(GiB)": 112.26,
      "step": 58970,
      "train_speed(iter/s)": 1.130764
    },
    {
      "acc": 0.73944674,
      "epoch": 1.4960679857940131,
      "grad_norm": 3.3125,
      "learning_rate": 1.6375799662298868e-06,
      "loss": 1.05687275,
      "memory(GiB)": 112.26,
      "step": 58975,
      "train_speed(iter/s)": 1.130779
    },
    {
      "acc": 0.73718567,
      "epoch": 1.4961948249619481,
      "grad_norm": 4.0,
      "learning_rate": 1.6368039415767201e-06,
      "loss": 1.07908249,
      "memory(GiB)": 112.26,
      "step": 58980,
      "train_speed(iter/s)": 1.130793
    },
    {
      "acc": 0.73620362,
      "epoch": 1.4963216641298833,
      "grad_norm": 3.6875,
      "learning_rate": 1.6360280648519305e-06,
      "loss": 1.07292194,
      "memory(GiB)": 112.26,
      "step": 58985,
      "train_speed(iter/s)": 1.13081
    },
    {
      "acc": 0.74601607,
      "epoch": 1.4964485032978183,
      "grad_norm": 3.59375,
      "learning_rate": 1.6352523360896488e-06,
      "loss": 1.01922808,
      "memory(GiB)": 112.26,
      "step": 58990,
      "train_speed(iter/s)": 1.130814
    },
    {
      "acc": 0.73546324,
      "epoch": 1.4965753424657535,
      "grad_norm": 3.28125,
      "learning_rate": 1.63447675532399e-06,
      "loss": 1.08882389,
      "memory(GiB)": 112.26,
      "step": 58995,
      "train_speed(iter/s)": 1.130827
    },
    {
      "acc": 0.74411364,
      "epoch": 1.4967021816336885,
      "grad_norm": 4.25,
      "learning_rate": 1.6337013225890698e-06,
      "loss": 1.11578903,
      "memory(GiB)": 112.26,
      "step": 59000,
      "train_speed(iter/s)": 1.130841
    },
    {
      "epoch": 1.4967021816336885,
      "eval_acc": 0.7258885220431152,
      "eval_loss": 1.0441335439682007,
      "eval_runtime": 70.9864,
      "eval_samples_per_second": 89.736,
      "eval_steps_per_second": 22.441,
      "step": 59000
    },
    {
      "acc": 0.7502378,
      "epoch": 1.4968290208016235,
      "grad_norm": 3.0,
      "learning_rate": 1.6329260379189932e-06,
      "loss": 1.01699619,
      "memory(GiB)": 112.26,
      "step": 59005,
      "train_speed(iter/s)": 1.128347
    },
    {
      "acc": 0.73522749,
      "epoch": 1.4969558599695585,
      "grad_norm": 3.734375,
      "learning_rate": 1.6321509013478653e-06,
      "loss": 1.02898903,
      "memory(GiB)": 112.26,
      "step": 59010,
      "train_speed(iter/s)": 1.128354
    },
    {
      "acc": 0.73671265,
      "epoch": 1.4970826991374937,
      "grad_norm": 3.34375,
      "learning_rate": 1.6313759129097757e-06,
      "loss": 1.09679451,
      "memory(GiB)": 112.26,
      "step": 59015,
      "train_speed(iter/s)": 1.128369
    },
    {
      "acc": 0.73034439,
      "epoch": 1.4972095383054287,
      "grad_norm": 3.578125,
      "learning_rate": 1.6306010726388117e-06,
      "loss": 1.10485697,
      "memory(GiB)": 112.26,
      "step": 59020,
      "train_speed(iter/s)": 1.128383
    },
    {
      "acc": 0.73439159,
      "epoch": 1.497336377473364,
      "grad_norm": 4.34375,
      "learning_rate": 1.6298263805690573e-06,
      "loss": 1.10901537,
      "memory(GiB)": 112.26,
      "step": 59025,
      "train_speed(iter/s)": 1.1284
    },
    {
      "acc": 0.74409304,
      "epoch": 1.4974632166412989,
      "grad_norm": 3.421875,
      "learning_rate": 1.629051836734587e-06,
      "loss": 1.01046238,
      "memory(GiB)": 112.26,
      "step": 59030,
      "train_speed(iter/s)": 1.128411
    },
    {
      "acc": 0.76180449,
      "epoch": 1.4975900558092339,
      "grad_norm": 4.46875,
      "learning_rate": 1.6282774411694641e-06,
      "loss": 1.00210819,
      "memory(GiB)": 112.26,
      "step": 59035,
      "train_speed(iter/s)": 1.128427
    },
    {
      "acc": 0.74254341,
      "epoch": 1.4977168949771689,
      "grad_norm": 4.4375,
      "learning_rate": 1.6275031939077545e-06,
      "loss": 1.07051744,
      "memory(GiB)": 112.26,
      "step": 59040,
      "train_speed(iter/s)": 1.128442
    },
    {
      "acc": 0.75036478,
      "epoch": 1.497843734145104,
      "grad_norm": 3.625,
      "learning_rate": 1.6267290949835119e-06,
      "loss": 0.99474382,
      "memory(GiB)": 112.26,
      "step": 59045,
      "train_speed(iter/s)": 1.128451
    },
    {
      "acc": 0.73796558,
      "epoch": 1.497970573313039,
      "grad_norm": 3.640625,
      "learning_rate": 1.6259551444307852e-06,
      "loss": 1.0523531,
      "memory(GiB)": 112.26,
      "step": 59050,
      "train_speed(iter/s)": 1.12846
    },
    {
      "acc": 0.73000355,
      "epoch": 1.498097412480974,
      "grad_norm": 3.671875,
      "learning_rate": 1.6251813422836127e-06,
      "loss": 1.06405058,
      "memory(GiB)": 112.26,
      "step": 59055,
      "train_speed(iter/s)": 1.128477
    },
    {
      "acc": 0.74721975,
      "epoch": 1.4982242516489093,
      "grad_norm": 4.3125,
      "learning_rate": 1.6244076885760334e-06,
      "loss": 1.00277109,
      "memory(GiB)": 112.26,
      "step": 59060,
      "train_speed(iter/s)": 1.128495
    },
    {
      "acc": 0.73624763,
      "epoch": 1.4983510908168443,
      "grad_norm": 3.8125,
      "learning_rate": 1.6236341833420755e-06,
      "loss": 1.1243474,
      "memory(GiB)": 112.26,
      "step": 59065,
      "train_speed(iter/s)": 1.128506
    },
    {
      "acc": 0.73817806,
      "epoch": 1.4984779299847792,
      "grad_norm": 3.96875,
      "learning_rate": 1.6228608266157596e-06,
      "loss": 1.04194927,
      "memory(GiB)": 112.26,
      "step": 59070,
      "train_speed(iter/s)": 1.128524
    },
    {
      "acc": 0.74903264,
      "epoch": 1.4986047691527142,
      "grad_norm": 3.5625,
      "learning_rate": 1.6220876184311034e-06,
      "loss": 1.01203938,
      "memory(GiB)": 112.26,
      "step": 59075,
      "train_speed(iter/s)": 1.128534
    },
    {
      "acc": 0.73870978,
      "epoch": 1.4987316083206494,
      "grad_norm": 5.125,
      "learning_rate": 1.6213145588221146e-06,
      "loss": 1.00567646,
      "memory(GiB)": 112.26,
      "step": 59080,
      "train_speed(iter/s)": 1.12854
    },
    {
      "acc": 0.7393652,
      "epoch": 1.4988584474885844,
      "grad_norm": 4.28125,
      "learning_rate": 1.620541647822796e-06,
      "loss": 1.0411994,
      "memory(GiB)": 112.26,
      "step": 59085,
      "train_speed(iter/s)": 1.128553
    },
    {
      "acc": 0.73917103,
      "epoch": 1.4989852866565196,
      "grad_norm": 4.25,
      "learning_rate": 1.6197688854671444e-06,
      "loss": 1.08253841,
      "memory(GiB)": 112.26,
      "step": 59090,
      "train_speed(iter/s)": 1.128556
    },
    {
      "acc": 0.75511956,
      "epoch": 1.4991121258244546,
      "grad_norm": 3.484375,
      "learning_rate": 1.6189962717891484e-06,
      "loss": 0.98817892,
      "memory(GiB)": 112.26,
      "step": 59095,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.72621861,
      "epoch": 1.4992389649923896,
      "grad_norm": 3.703125,
      "learning_rate": 1.6182238068227917e-06,
      "loss": 1.14237499,
      "memory(GiB)": 112.26,
      "step": 59100,
      "train_speed(iter/s)": 1.128587
    },
    {
      "acc": 0.73510246,
      "epoch": 1.4993658041603246,
      "grad_norm": 3.5625,
      "learning_rate": 1.6174514906020505e-06,
      "loss": 1.06672745,
      "memory(GiB)": 112.26,
      "step": 59105,
      "train_speed(iter/s)": 1.128603
    },
    {
      "acc": 0.74655104,
      "epoch": 1.4994926433282598,
      "grad_norm": 3.0,
      "learning_rate": 1.6166793231608952e-06,
      "loss": 0.99982796,
      "memory(GiB)": 112.26,
      "step": 59110,
      "train_speed(iter/s)": 1.128608
    },
    {
      "acc": 0.73180494,
      "epoch": 1.4996194824961948,
      "grad_norm": 3.6875,
      "learning_rate": 1.615907304533288e-06,
      "loss": 1.08337097,
      "memory(GiB)": 112.26,
      "step": 59115,
      "train_speed(iter/s)": 1.128627
    },
    {
      "acc": 0.74059992,
      "epoch": 1.4997463216641298,
      "grad_norm": 3.59375,
      "learning_rate": 1.6151354347531868e-06,
      "loss": 1.0915556,
      "memory(GiB)": 112.26,
      "step": 59120,
      "train_speed(iter/s)": 1.12864
    },
    {
      "acc": 0.75353775,
      "epoch": 1.499873160832065,
      "grad_norm": 4.09375,
      "learning_rate": 1.61436371385454e-06,
      "loss": 1.05164642,
      "memory(GiB)": 112.26,
      "step": 59125,
      "train_speed(iter/s)": 1.128651
    },
    {
      "acc": 0.73847871,
      "epoch": 1.5,
      "grad_norm": 3.875,
      "learning_rate": 1.6135921418712959e-06,
      "loss": 1.04122314,
      "memory(GiB)": 112.26,
      "step": 59130,
      "train_speed(iter/s)": 1.128665
    },
    {
      "acc": 0.75124216,
      "epoch": 1.500126839167935,
      "grad_norm": 3.984375,
      "learning_rate": 1.6128207188373867e-06,
      "loss": 1.04384327,
      "memory(GiB)": 112.26,
      "step": 59135,
      "train_speed(iter/s)": 1.128664
    },
    {
      "acc": 0.73441048,
      "epoch": 1.50025367833587,
      "grad_norm": 3.25,
      "learning_rate": 1.6120494447867451e-06,
      "loss": 1.07989025,
      "memory(GiB)": 112.26,
      "step": 59140,
      "train_speed(iter/s)": 1.12868
    },
    {
      "acc": 0.74523625,
      "epoch": 1.5003805175038052,
      "grad_norm": 5.46875,
      "learning_rate": 1.6112783197532932e-06,
      "loss": 1.01999435,
      "memory(GiB)": 112.26,
      "step": 59145,
      "train_speed(iter/s)": 1.12869
    },
    {
      "acc": 0.73165383,
      "epoch": 1.5005073566717404,
      "grad_norm": 3.921875,
      "learning_rate": 1.6105073437709545e-06,
      "loss": 1.05127888,
      "memory(GiB)": 112.26,
      "step": 59150,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.71789398,
      "epoch": 1.5006341958396754,
      "grad_norm": 3.75,
      "learning_rate": 1.6097365168736335e-06,
      "loss": 1.12455559,
      "memory(GiB)": 112.26,
      "step": 59155,
      "train_speed(iter/s)": 1.128725
    },
    {
      "acc": 0.73527384,
      "epoch": 1.5007610350076104,
      "grad_norm": 3.75,
      "learning_rate": 1.6089658390952351e-06,
      "loss": 1.06709919,
      "memory(GiB)": 112.26,
      "step": 59160,
      "train_speed(iter/s)": 1.128736
    },
    {
      "acc": 0.74887481,
      "epoch": 1.5008878741755454,
      "grad_norm": 3.75,
      "learning_rate": 1.6081953104696612e-06,
      "loss": 1.06005478,
      "memory(GiB)": 112.26,
      "step": 59165,
      "train_speed(iter/s)": 1.128754
    },
    {
      "acc": 0.74744015,
      "epoch": 1.5010147133434804,
      "grad_norm": 3.5,
      "learning_rate": 1.6074249310308021e-06,
      "loss": 1.07103596,
      "memory(GiB)": 112.26,
      "step": 59170,
      "train_speed(iter/s)": 1.128769
    },
    {
      "acc": 0.74500389,
      "epoch": 1.5011415525114156,
      "grad_norm": 3.78125,
      "learning_rate": 1.6066547008125399e-06,
      "loss": 1.01720142,
      "memory(GiB)": 112.26,
      "step": 59175,
      "train_speed(iter/s)": 1.128783
    },
    {
      "acc": 0.73208609,
      "epoch": 1.5012683916793506,
      "grad_norm": 4.28125,
      "learning_rate": 1.6058846198487522e-06,
      "loss": 1.07615623,
      "memory(GiB)": 112.26,
      "step": 59180,
      "train_speed(iter/s)": 1.128795
    },
    {
      "acc": 0.71758122,
      "epoch": 1.5013952308472858,
      "grad_norm": 3.421875,
      "learning_rate": 1.6051146881733142e-06,
      "loss": 1.05302553,
      "memory(GiB)": 112.26,
      "step": 59185,
      "train_speed(iter/s)": 1.128815
    },
    {
      "acc": 0.74413638,
      "epoch": 1.5015220700152208,
      "grad_norm": 4.65625,
      "learning_rate": 1.6043449058200916e-06,
      "loss": 1.05476704,
      "memory(GiB)": 112.26,
      "step": 59190,
      "train_speed(iter/s)": 1.128829
    },
    {
      "acc": 0.73832798,
      "epoch": 1.5016489091831557,
      "grad_norm": 3.765625,
      "learning_rate": 1.6035752728229364e-06,
      "loss": 1.03736572,
      "memory(GiB)": 112.26,
      "step": 59195,
      "train_speed(iter/s)": 1.128839
    },
    {
      "acc": 0.74091854,
      "epoch": 1.5017757483510907,
      "grad_norm": 3.296875,
      "learning_rate": 1.6028057892157067e-06,
      "loss": 1.10083885,
      "memory(GiB)": 112.26,
      "step": 59200,
      "train_speed(iter/s)": 1.128856
    },
    {
      "acc": 0.74011774,
      "epoch": 1.5019025875190257,
      "grad_norm": 4.0625,
      "learning_rate": 1.602036455032246e-06,
      "loss": 1.04560127,
      "memory(GiB)": 112.26,
      "step": 59205,
      "train_speed(iter/s)": 1.128868
    },
    {
      "acc": 0.74214959,
      "epoch": 1.502029426686961,
      "grad_norm": 4.15625,
      "learning_rate": 1.6012672703063925e-06,
      "loss": 1.08119459,
      "memory(GiB)": 112.26,
      "step": 59210,
      "train_speed(iter/s)": 1.128879
    },
    {
      "acc": 0.73421464,
      "epoch": 1.5021562658548961,
      "grad_norm": 4.03125,
      "learning_rate": 1.600498235071979e-06,
      "loss": 1.10139236,
      "memory(GiB)": 112.26,
      "step": 59215,
      "train_speed(iter/s)": 1.128895
    },
    {
      "acc": 0.73144603,
      "epoch": 1.5022831050228311,
      "grad_norm": 3.5625,
      "learning_rate": 1.5997293493628301e-06,
      "loss": 1.07720156,
      "memory(GiB)": 112.26,
      "step": 59220,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.74001203,
      "epoch": 1.5024099441907661,
      "grad_norm": 3.953125,
      "learning_rate": 1.598960613212766e-06,
      "loss": 1.06097775,
      "memory(GiB)": 112.26,
      "step": 59225,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.74894733,
      "epoch": 1.5025367833587011,
      "grad_norm": 3.671875,
      "learning_rate": 1.598192026655599e-06,
      "loss": 1.08457499,
      "memory(GiB)": 112.26,
      "step": 59230,
      "train_speed(iter/s)": 1.128941
    },
    {
      "acc": 0.7388381,
      "epoch": 1.502663622526636,
      "grad_norm": 3.515625,
      "learning_rate": 1.5974235897251344e-06,
      "loss": 1.04416294,
      "memory(GiB)": 112.26,
      "step": 59235,
      "train_speed(iter/s)": 1.12894
    },
    {
      "acc": 0.73637657,
      "epoch": 1.5027904616945713,
      "grad_norm": 4.6875,
      "learning_rate": 1.5966553024551717e-06,
      "loss": 1.07333832,
      "memory(GiB)": 112.26,
      "step": 59240,
      "train_speed(iter/s)": 1.128953
    },
    {
      "acc": 0.74298973,
      "epoch": 1.5029173008625063,
      "grad_norm": 3.46875,
      "learning_rate": 1.5958871648795032e-06,
      "loss": 1.06337566,
      "memory(GiB)": 112.26,
      "step": 59245,
      "train_speed(iter/s)": 1.128967
    },
    {
      "acc": 0.75157661,
      "epoch": 1.5030441400304415,
      "grad_norm": 3.640625,
      "learning_rate": 1.5951191770319164e-06,
      "loss": 1.00397911,
      "memory(GiB)": 112.26,
      "step": 59250,
      "train_speed(iter/s)": 1.128983
    },
    {
      "acc": 0.74353838,
      "epoch": 1.5031709791983765,
      "grad_norm": 4.84375,
      "learning_rate": 1.594351338946189e-06,
      "loss": 1.03159428,
      "memory(GiB)": 112.26,
      "step": 59255,
      "train_speed(iter/s)": 1.128991
    },
    {
      "acc": 0.74502201,
      "epoch": 1.5032978183663115,
      "grad_norm": 3.875,
      "learning_rate": 1.5935836506560953e-06,
      "loss": 1.04767189,
      "memory(GiB)": 112.26,
      "step": 59260,
      "train_speed(iter/s)": 1.129009
    },
    {
      "acc": 0.74587722,
      "epoch": 1.5034246575342465,
      "grad_norm": 3.25,
      "learning_rate": 1.5928161121954012e-06,
      "loss": 1.02439518,
      "memory(GiB)": 112.26,
      "step": 59265,
      "train_speed(iter/s)": 1.129017
    },
    {
      "acc": 0.74967737,
      "epoch": 1.5035514967021817,
      "grad_norm": 3.8125,
      "learning_rate": 1.592048723597866e-06,
      "loss": 1.02329273,
      "memory(GiB)": 112.26,
      "step": 59270,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.75795531,
      "epoch": 1.5036783358701167,
      "grad_norm": 3.84375,
      "learning_rate": 1.591281484897244e-06,
      "loss": 1.01389542,
      "memory(GiB)": 112.26,
      "step": 59275,
      "train_speed(iter/s)": 1.129041
    },
    {
      "acc": 0.74844141,
      "epoch": 1.5038051750380519,
      "grad_norm": 4.0625,
      "learning_rate": 1.5905143961272807e-06,
      "loss": 1.05909424,
      "memory(GiB)": 112.26,
      "step": 59280,
      "train_speed(iter/s)": 1.129052
    },
    {
      "acc": 0.7476284,
      "epoch": 1.5039320142059869,
      "grad_norm": 4.28125,
      "learning_rate": 1.5897474573217153e-06,
      "loss": 0.97647724,
      "memory(GiB)": 112.26,
      "step": 59285,
      "train_speed(iter/s)": 1.129059
    },
    {
      "acc": 0.7332716,
      "epoch": 1.5040588533739219,
      "grad_norm": 4.6875,
      "learning_rate": 1.588980668514285e-06,
      "loss": 1.06540737,
      "memory(GiB)": 112.26,
      "step": 59290,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.73509679,
      "epoch": 1.5041856925418569,
      "grad_norm": 3.265625,
      "learning_rate": 1.5882140297387127e-06,
      "loss": 1.03472986,
      "memory(GiB)": 112.26,
      "step": 59295,
      "train_speed(iter/s)": 1.129079
    },
    {
      "acc": 0.73963146,
      "epoch": 1.5043125317097918,
      "grad_norm": 3.4375,
      "learning_rate": 1.5874475410287189e-06,
      "loss": 1.08663492,
      "memory(GiB)": 112.26,
      "step": 59300,
      "train_speed(iter/s)": 1.129088
    },
    {
      "acc": 0.74419909,
      "epoch": 1.504439370877727,
      "grad_norm": 3.53125,
      "learning_rate": 1.586681202418019e-06,
      "loss": 1.06829147,
      "memory(GiB)": 112.26,
      "step": 59305,
      "train_speed(iter/s)": 1.129091
    },
    {
      "acc": 0.73903303,
      "epoch": 1.5045662100456623,
      "grad_norm": 4.125,
      "learning_rate": 1.5859150139403212e-06,
      "loss": 1.09690533,
      "memory(GiB)": 112.26,
      "step": 59310,
      "train_speed(iter/s)": 1.129108
    },
    {
      "acc": 0.74260287,
      "epoch": 1.5046930492135973,
      "grad_norm": 3.71875,
      "learning_rate": 1.585148975629322e-06,
      "loss": 1.03297768,
      "memory(GiB)": 112.26,
      "step": 59315,
      "train_speed(iter/s)": 1.129117
    },
    {
      "acc": 0.73551102,
      "epoch": 1.5048198883815322,
      "grad_norm": 3.9375,
      "learning_rate": 1.5843830875187155e-06,
      "loss": 1.05839481,
      "memory(GiB)": 112.26,
      "step": 59320,
      "train_speed(iter/s)": 1.129134
    },
    {
      "acc": 0.73996534,
      "epoch": 1.5049467275494672,
      "grad_norm": 3.875,
      "learning_rate": 1.583617349642192e-06,
      "loss": 1.09605179,
      "memory(GiB)": 112.26,
      "step": 59325,
      "train_speed(iter/s)": 1.129151
    },
    {
      "acc": 0.7367887,
      "epoch": 1.5050735667174022,
      "grad_norm": 3.25,
      "learning_rate": 1.5828517620334322e-06,
      "loss": 1.09266996,
      "memory(GiB)": 112.26,
      "step": 59330,
      "train_speed(iter/s)": 1.12916
    },
    {
      "acc": 0.74946027,
      "epoch": 1.5052004058853374,
      "grad_norm": 3.515625,
      "learning_rate": 1.5820863247261054e-06,
      "loss": 1.04378338,
      "memory(GiB)": 112.26,
      "step": 59335,
      "train_speed(iter/s)": 1.129178
    },
    {
      "acc": 0.74253626,
      "epoch": 1.5053272450532724,
      "grad_norm": 3.765625,
      "learning_rate": 1.5813210377538834e-06,
      "loss": 1.07886963,
      "memory(GiB)": 112.26,
      "step": 59340,
      "train_speed(iter/s)": 1.129186
    },
    {
      "acc": 0.73875651,
      "epoch": 1.5054540842212076,
      "grad_norm": 3.328125,
      "learning_rate": 1.5805559011504252e-06,
      "loss": 1.06050434,
      "memory(GiB)": 112.26,
      "step": 59345,
      "train_speed(iter/s)": 1.129199
    },
    {
      "acc": 0.74509082,
      "epoch": 1.5055809233891426,
      "grad_norm": 3.453125,
      "learning_rate": 1.5797909149493873e-06,
      "loss": 0.97522755,
      "memory(GiB)": 112.26,
      "step": 59350,
      "train_speed(iter/s)": 1.129219
    },
    {
      "acc": 0.72497787,
      "epoch": 1.5057077625570776,
      "grad_norm": 3.875,
      "learning_rate": 1.5790260791844114e-06,
      "loss": 1.13838425,
      "memory(GiB)": 112.26,
      "step": 59355,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.75211158,
      "epoch": 1.5058346017250126,
      "grad_norm": 3.28125,
      "learning_rate": 1.5782613938891438e-06,
      "loss": 1.04653311,
      "memory(GiB)": 112.26,
      "step": 59360,
      "train_speed(iter/s)": 1.129246
    },
    {
      "acc": 0.75379725,
      "epoch": 1.5059614408929476,
      "grad_norm": 4.78125,
      "learning_rate": 1.5774968590972172e-06,
      "loss": 1.04667454,
      "memory(GiB)": 112.26,
      "step": 59365,
      "train_speed(iter/s)": 1.129264
    },
    {
      "acc": 0.74434538,
      "epoch": 1.5060882800608828,
      "grad_norm": 3.890625,
      "learning_rate": 1.5767324748422592e-06,
      "loss": 1.06177368,
      "memory(GiB)": 112.26,
      "step": 59370,
      "train_speed(iter/s)": 1.129279
    },
    {
      "acc": 0.74612203,
      "epoch": 1.506215119228818,
      "grad_norm": 4.25,
      "learning_rate": 1.5759682411578909e-06,
      "loss": 1.03503971,
      "memory(GiB)": 112.26,
      "step": 59375,
      "train_speed(iter/s)": 1.12929
    },
    {
      "acc": 0.74701519,
      "epoch": 1.506341958396753,
      "grad_norm": 3.671875,
      "learning_rate": 1.575204158077726e-06,
      "loss": 1.06223927,
      "memory(GiB)": 112.26,
      "step": 59380,
      "train_speed(iter/s)": 1.129306
    },
    {
      "acc": 0.74869218,
      "epoch": 1.506468797564688,
      "grad_norm": 3.75,
      "learning_rate": 1.574440225635373e-06,
      "loss": 1.04237175,
      "memory(GiB)": 112.26,
      "step": 59385,
      "train_speed(iter/s)": 1.129323
    },
    {
      "acc": 0.740344,
      "epoch": 1.506595636732623,
      "grad_norm": 3.359375,
      "learning_rate": 1.5736764438644332e-06,
      "loss": 1.07948265,
      "memory(GiB)": 112.26,
      "step": 59390,
      "train_speed(iter/s)": 1.129329
    },
    {
      "acc": 0.74694452,
      "epoch": 1.506722475900558,
      "grad_norm": 4.40625,
      "learning_rate": 1.5729128127985004e-06,
      "loss": 1.00884895,
      "memory(GiB)": 112.26,
      "step": 59395,
      "train_speed(iter/s)": 1.129349
    },
    {
      "acc": 0.72445292,
      "epoch": 1.5068493150684932,
      "grad_norm": 3.484375,
      "learning_rate": 1.5721493324711633e-06,
      "loss": 1.0961277,
      "memory(GiB)": 112.26,
      "step": 59400,
      "train_speed(iter/s)": 1.129371
    },
    {
      "acc": 0.73513279,
      "epoch": 1.5069761542364282,
      "grad_norm": 3.59375,
      "learning_rate": 1.5713860029160028e-06,
      "loss": 1.05921593,
      "memory(GiB)": 112.26,
      "step": 59405,
      "train_speed(iter/s)": 1.129384
    },
    {
      "acc": 0.73065376,
      "epoch": 1.5071029934043634,
      "grad_norm": 3.890625,
      "learning_rate": 1.5706228241665932e-06,
      "loss": 1.09803734,
      "memory(GiB)": 112.26,
      "step": 59410,
      "train_speed(iter/s)": 1.129393
    },
    {
      "acc": 0.75390167,
      "epoch": 1.5072298325722984,
      "grad_norm": 2.953125,
      "learning_rate": 1.5698597962565032e-06,
      "loss": 1.04794407,
      "memory(GiB)": 112.26,
      "step": 59415,
      "train_speed(iter/s)": 1.129408
    },
    {
      "acc": 0.74037542,
      "epoch": 1.5073566717402334,
      "grad_norm": 4.375,
      "learning_rate": 1.5690969192192933e-06,
      "loss": 1.05845556,
      "memory(GiB)": 112.26,
      "step": 59420,
      "train_speed(iter/s)": 1.129421
    },
    {
      "acc": 0.7433568,
      "epoch": 1.5074835109081683,
      "grad_norm": 3.078125,
      "learning_rate": 1.5683341930885183e-06,
      "loss": 1.04670124,
      "memory(GiB)": 112.26,
      "step": 59425,
      "train_speed(iter/s)": 1.129429
    },
    {
      "acc": 0.72961841,
      "epoch": 1.5076103500761036,
      "grad_norm": 3.78125,
      "learning_rate": 1.567571617897729e-06,
      "loss": 1.0946846,
      "memory(GiB)": 112.26,
      "step": 59430,
      "train_speed(iter/s)": 1.129449
    },
    {
      "acc": 0.74538355,
      "epoch": 1.5077371892440385,
      "grad_norm": 3.125,
      "learning_rate": 1.566809193680463e-06,
      "loss": 1.02742729,
      "memory(GiB)": 112.26,
      "step": 59435,
      "train_speed(iter/s)": 1.12947
    },
    {
      "acc": 0.74116836,
      "epoch": 1.5078640284119738,
      "grad_norm": 4.53125,
      "learning_rate": 1.566046920470257e-06,
      "loss": 1.09510746,
      "memory(GiB)": 112.26,
      "step": 59440,
      "train_speed(iter/s)": 1.12949
    },
    {
      "acc": 0.75379429,
      "epoch": 1.5079908675799087,
      "grad_norm": 3.453125,
      "learning_rate": 1.5652847983006376e-06,
      "loss": 1.02219334,
      "memory(GiB)": 112.26,
      "step": 59445,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.74558344,
      "epoch": 1.5081177067478437,
      "grad_norm": 3.09375,
      "learning_rate": 1.564522827205131e-06,
      "loss": 1.02224541,
      "memory(GiB)": 112.26,
      "step": 59450,
      "train_speed(iter/s)": 1.129521
    },
    {
      "acc": 0.7364203,
      "epoch": 1.5082445459157787,
      "grad_norm": 4.75,
      "learning_rate": 1.5637610072172464e-06,
      "loss": 1.05189848,
      "memory(GiB)": 112.26,
      "step": 59455,
      "train_speed(iter/s)": 1.129536
    },
    {
      "acc": 0.73757839,
      "epoch": 1.5083713850837137,
      "grad_norm": 3.890625,
      "learning_rate": 1.5629993383704933e-06,
      "loss": 1.10849409,
      "memory(GiB)": 112.26,
      "step": 59460,
      "train_speed(iter/s)": 1.129545
    },
    {
      "acc": 0.73936234,
      "epoch": 1.508498224251649,
      "grad_norm": 4.09375,
      "learning_rate": 1.5622378206983764e-06,
      "loss": 1.06591759,
      "memory(GiB)": 112.26,
      "step": 59465,
      "train_speed(iter/s)": 1.129561
    },
    {
      "acc": 0.74152737,
      "epoch": 1.5086250634195841,
      "grad_norm": 3.640625,
      "learning_rate": 1.5614764542343896e-06,
      "loss": 1.0490324,
      "memory(GiB)": 112.26,
      "step": 59470,
      "train_speed(iter/s)": 1.129575
    },
    {
      "acc": 0.73937597,
      "epoch": 1.5087519025875191,
      "grad_norm": 3.640625,
      "learning_rate": 1.5607152390120173e-06,
      "loss": 1.02398052,
      "memory(GiB)": 112.26,
      "step": 59475,
      "train_speed(iter/s)": 1.129589
    },
    {
      "acc": 0.73608484,
      "epoch": 1.5088787417554541,
      "grad_norm": 3.578125,
      "learning_rate": 1.5599541750647457e-06,
      "loss": 1.08170443,
      "memory(GiB)": 112.26,
      "step": 59480,
      "train_speed(iter/s)": 1.129607
    },
    {
      "acc": 0.73411646,
      "epoch": 1.509005580923389,
      "grad_norm": 3.59375,
      "learning_rate": 1.559193262426048e-06,
      "loss": 1.04464302,
      "memory(GiB)": 112.26,
      "step": 59485,
      "train_speed(iter/s)": 1.129618
    },
    {
      "acc": 0.73414326,
      "epoch": 1.509132420091324,
      "grad_norm": 3.265625,
      "learning_rate": 1.5584325011293943e-06,
      "loss": 1.04174185,
      "memory(GiB)": 112.26,
      "step": 59490,
      "train_speed(iter/s)": 1.129627
    },
    {
      "acc": 0.73128214,
      "epoch": 1.5092592592592593,
      "grad_norm": 3.6875,
      "learning_rate": 1.5576718912082417e-06,
      "loss": 1.09844608,
      "memory(GiB)": 112.26,
      "step": 59495,
      "train_speed(iter/s)": 1.129641
    },
    {
      "acc": 0.74739251,
      "epoch": 1.5093860984271943,
      "grad_norm": 3.734375,
      "learning_rate": 1.5569114326960494e-06,
      "loss": 1.06703815,
      "memory(GiB)": 112.26,
      "step": 59500,
      "train_speed(iter/s)": 1.129651
    },
    {
      "acc": 0.74349012,
      "epoch": 1.5095129375951295,
      "grad_norm": 3.828125,
      "learning_rate": 1.5561511256262651e-06,
      "loss": 1.0202795,
      "memory(GiB)": 112.26,
      "step": 59505,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.74277124,
      "epoch": 1.5096397767630645,
      "grad_norm": 3.34375,
      "learning_rate": 1.55539097003233e-06,
      "loss": 1.04743528,
      "memory(GiB)": 112.26,
      "step": 59510,
      "train_speed(iter/s)": 1.129683
    },
    {
      "acc": 0.74227901,
      "epoch": 1.5097666159309995,
      "grad_norm": 3.6875,
      "learning_rate": 1.5546309659476788e-06,
      "loss": 1.05281105,
      "memory(GiB)": 112.26,
      "step": 59515,
      "train_speed(iter/s)": 1.129699
    },
    {
      "acc": 0.75728011,
      "epoch": 1.5098934550989345,
      "grad_norm": 3.375,
      "learning_rate": 1.55387111340574e-06,
      "loss": 1.03507919,
      "memory(GiB)": 112.26,
      "step": 59520,
      "train_speed(iter/s)": 1.129711
    },
    {
      "acc": 0.74610324,
      "epoch": 1.5100202942668695,
      "grad_norm": 3.90625,
      "learning_rate": 1.553111412439936e-06,
      "loss": 1.03651276,
      "memory(GiB)": 112.26,
      "step": 59525,
      "train_speed(iter/s)": 1.129716
    },
    {
      "acc": 0.73646317,
      "epoch": 1.5101471334348047,
      "grad_norm": 3.59375,
      "learning_rate": 1.5523518630836809e-06,
      "loss": 1.1148694,
      "memory(GiB)": 112.26,
      "step": 59530,
      "train_speed(iter/s)": 1.129729
    },
    {
      "acc": 0.75760612,
      "epoch": 1.5102739726027399,
      "grad_norm": 4.21875,
      "learning_rate": 1.551592465370384e-06,
      "loss": 1.00579453,
      "memory(GiB)": 112.26,
      "step": 59535,
      "train_speed(iter/s)": 1.129741
    },
    {
      "acc": 0.73098192,
      "epoch": 1.5104008117706749,
      "grad_norm": 3.75,
      "learning_rate": 1.5508332193334457e-06,
      "loss": 1.03877249,
      "memory(GiB)": 112.26,
      "step": 59540,
      "train_speed(iter/s)": 1.12975
    },
    {
      "acc": 0.73259888,
      "epoch": 1.5105276509386099,
      "grad_norm": 3.46875,
      "learning_rate": 1.5500741250062628e-06,
      "loss": 1.13074493,
      "memory(GiB)": 112.26,
      "step": 59545,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.75946932,
      "epoch": 1.5106544901065448,
      "grad_norm": 3.90625,
      "learning_rate": 1.549315182422222e-06,
      "loss": 1.03045397,
      "memory(GiB)": 112.26,
      "step": 59550,
      "train_speed(iter/s)": 1.129784
    },
    {
      "acc": 0.74556494,
      "epoch": 1.5107813292744798,
      "grad_norm": 3.3125,
      "learning_rate": 1.5485563916147062e-06,
      "loss": 1.06771736,
      "memory(GiB)": 112.26,
      "step": 59555,
      "train_speed(iter/s)": 1.129796
    },
    {
      "acc": 0.72536969,
      "epoch": 1.510908168442415,
      "grad_norm": 3.703125,
      "learning_rate": 1.5477977526170895e-06,
      "loss": 1.05907688,
      "memory(GiB)": 112.26,
      "step": 59560,
      "train_speed(iter/s)": 1.129813
    },
    {
      "acc": 0.73760386,
      "epoch": 1.51103500761035,
      "grad_norm": 3.796875,
      "learning_rate": 1.5470392654627392e-06,
      "loss": 1.11081324,
      "memory(GiB)": 112.26,
      "step": 59565,
      "train_speed(iter/s)": 1.129827
    },
    {
      "acc": 0.74179649,
      "epoch": 1.5111618467782852,
      "grad_norm": 3.5625,
      "learning_rate": 1.5462809301850212e-06,
      "loss": 1.06179256,
      "memory(GiB)": 112.26,
      "step": 59570,
      "train_speed(iter/s)": 1.129846
    },
    {
      "acc": 0.7424211,
      "epoch": 1.5112886859462202,
      "grad_norm": 3.328125,
      "learning_rate": 1.5455227468172862e-06,
      "loss": 1.08826132,
      "memory(GiB)": 112.26,
      "step": 59575,
      "train_speed(iter/s)": 1.129862
    },
    {
      "acc": 0.73398247,
      "epoch": 1.5114155251141552,
      "grad_norm": 4.96875,
      "learning_rate": 1.5447647153928842e-06,
      "loss": 1.09855423,
      "memory(GiB)": 112.26,
      "step": 59580,
      "train_speed(iter/s)": 1.129877
    },
    {
      "acc": 0.73824606,
      "epoch": 1.5115423642820902,
      "grad_norm": 4.03125,
      "learning_rate": 1.5440068359451548e-06,
      "loss": 1.07363653,
      "memory(GiB)": 112.26,
      "step": 59585,
      "train_speed(iter/s)": 1.129893
    },
    {
      "acc": 0.74295979,
      "epoch": 1.5116692034500254,
      "grad_norm": 5.78125,
      "learning_rate": 1.5432491085074381e-06,
      "loss": 1.06851368,
      "memory(GiB)": 112.26,
      "step": 59590,
      "train_speed(iter/s)": 1.129907
    },
    {
      "acc": 0.73374157,
      "epoch": 1.5117960426179604,
      "grad_norm": 3.109375,
      "learning_rate": 1.5424915331130568e-06,
      "loss": 1.09642,
      "memory(GiB)": 112.26,
      "step": 59595,
      "train_speed(iter/s)": 1.129914
    },
    {
      "acc": 0.75786057,
      "epoch": 1.5119228817858956,
      "grad_norm": 4.59375,
      "learning_rate": 1.5417341097953332e-06,
      "loss": 0.97136383,
      "memory(GiB)": 112.26,
      "step": 59600,
      "train_speed(iter/s)": 1.129919
    },
    {
      "acc": 0.75233846,
      "epoch": 1.5120497209538306,
      "grad_norm": 4.78125,
      "learning_rate": 1.540976838587585e-06,
      "loss": 1.07732668,
      "memory(GiB)": 112.26,
      "step": 59605,
      "train_speed(iter/s)": 1.129934
    },
    {
      "acc": 0.74536767,
      "epoch": 1.5121765601217656,
      "grad_norm": 3.515625,
      "learning_rate": 1.5402197195231205e-06,
      "loss": 1.05995102,
      "memory(GiB)": 112.26,
      "step": 59610,
      "train_speed(iter/s)": 1.129951
    },
    {
      "acc": 0.75002489,
      "epoch": 1.5123033992897006,
      "grad_norm": 4.40625,
      "learning_rate": 1.5394627526352379e-06,
      "loss": 1.04608393,
      "memory(GiB)": 112.26,
      "step": 59615,
      "train_speed(iter/s)": 1.129969
    },
    {
      "acc": 0.74511156,
      "epoch": 1.5124302384576356,
      "grad_norm": 3.84375,
      "learning_rate": 1.5387059379572322e-06,
      "loss": 1.06200714,
      "memory(GiB)": 112.26,
      "step": 59620,
      "train_speed(iter/s)": 1.129986
    },
    {
      "acc": 0.76489782,
      "epoch": 1.5125570776255708,
      "grad_norm": 4.0,
      "learning_rate": 1.537949275522394e-06,
      "loss": 1.0124485,
      "memory(GiB)": 112.26,
      "step": 59625,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.74132504,
      "epoch": 1.512683916793506,
      "grad_norm": 5.9375,
      "learning_rate": 1.5371927653640056e-06,
      "loss": 1.07115765,
      "memory(GiB)": 112.26,
      "step": 59630,
      "train_speed(iter/s)": 1.130019
    },
    {
      "acc": 0.74500799,
      "epoch": 1.512810755961441,
      "grad_norm": 3.328125,
      "learning_rate": 1.5364364075153366e-06,
      "loss": 1.02999754,
      "memory(GiB)": 112.26,
      "step": 59635,
      "train_speed(iter/s)": 1.130034
    },
    {
      "acc": 0.74294691,
      "epoch": 1.512937595129376,
      "grad_norm": 3.84375,
      "learning_rate": 1.5356802020096595e-06,
      "loss": 1.04043159,
      "memory(GiB)": 112.26,
      "step": 59640,
      "train_speed(iter/s)": 1.130043
    },
    {
      "acc": 0.74670906,
      "epoch": 1.513064434297311,
      "grad_norm": 3.21875,
      "learning_rate": 1.5349241488802346e-06,
      "loss": 1.0317009,
      "memory(GiB)": 112.26,
      "step": 59645,
      "train_speed(iter/s)": 1.130038
    },
    {
      "acc": 0.7448,
      "epoch": 1.513191273465246,
      "grad_norm": 3.625,
      "learning_rate": 1.5341682481603155e-06,
      "loss": 1.06912107,
      "memory(GiB)": 112.26,
      "step": 59650,
      "train_speed(iter/s)": 1.130054
    },
    {
      "acc": 0.74237981,
      "epoch": 1.5133181126331812,
      "grad_norm": 4.03125,
      "learning_rate": 1.5334124998831512e-06,
      "loss": 1.05207539,
      "memory(GiB)": 112.26,
      "step": 59655,
      "train_speed(iter/s)": 1.130053
    },
    {
      "acc": 0.72113705,
      "epoch": 1.5134449518011162,
      "grad_norm": 3.203125,
      "learning_rate": 1.532656904081982e-06,
      "loss": 1.09870138,
      "memory(GiB)": 112.26,
      "step": 59660,
      "train_speed(iter/s)": 1.130071
    },
    {
      "acc": 0.74786472,
      "epoch": 1.5135717909690514,
      "grad_norm": 3.953125,
      "learning_rate": 1.5319014607900428e-06,
      "loss": 1.01737757,
      "memory(GiB)": 112.26,
      "step": 59665,
      "train_speed(iter/s)": 1.130077
    },
    {
      "acc": 0.7455307,
      "epoch": 1.5136986301369864,
      "grad_norm": 3.59375,
      "learning_rate": 1.5311461700405617e-06,
      "loss": 1.06152439,
      "memory(GiB)": 112.26,
      "step": 59670,
      "train_speed(iter/s)": 1.130084
    },
    {
      "acc": 0.74188843,
      "epoch": 1.5138254693049213,
      "grad_norm": 4.3125,
      "learning_rate": 1.5303910318667586e-06,
      "loss": 1.08684025,
      "memory(GiB)": 112.26,
      "step": 59675,
      "train_speed(iter/s)": 1.130091
    },
    {
      "acc": 0.74604721,
      "epoch": 1.5139523084728563,
      "grad_norm": 3.578125,
      "learning_rate": 1.529636046301849e-06,
      "loss": 1.08229599,
      "memory(GiB)": 112.26,
      "step": 59680,
      "train_speed(iter/s)": 1.130109
    },
    {
      "acc": 0.72450352,
      "epoch": 1.5140791476407913,
      "grad_norm": 4.09375,
      "learning_rate": 1.5288812133790405e-06,
      "loss": 1.09996281,
      "memory(GiB)": 112.26,
      "step": 59685,
      "train_speed(iter/s)": 1.130127
    },
    {
      "acc": 0.73442035,
      "epoch": 1.5142059868087265,
      "grad_norm": 3.484375,
      "learning_rate": 1.5281265331315332e-06,
      "loss": 1.08591232,
      "memory(GiB)": 112.26,
      "step": 59690,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.74349823,
      "epoch": 1.5143328259766617,
      "grad_norm": 3.859375,
      "learning_rate": 1.5273720055925217e-06,
      "loss": 1.03837147,
      "memory(GiB)": 112.26,
      "step": 59695,
      "train_speed(iter/s)": 1.130157
    },
    {
      "acc": 0.74486847,
      "epoch": 1.5144596651445967,
      "grad_norm": 3.328125,
      "learning_rate": 1.5266176307951936e-06,
      "loss": 1.07280865,
      "memory(GiB)": 112.26,
      "step": 59700,
      "train_speed(iter/s)": 1.130172
    },
    {
      "acc": 0.72992573,
      "epoch": 1.5145865043125317,
      "grad_norm": 3.34375,
      "learning_rate": 1.5258634087727298e-06,
      "loss": 1.02653112,
      "memory(GiB)": 112.26,
      "step": 59705,
      "train_speed(iter/s)": 1.130182
    },
    {
      "acc": 0.74208403,
      "epoch": 1.5147133434804667,
      "grad_norm": 3.640625,
      "learning_rate": 1.5251093395583045e-06,
      "loss": 1.03732319,
      "memory(GiB)": 112.26,
      "step": 59710,
      "train_speed(iter/s)": 1.130201
    },
    {
      "acc": 0.7387413,
      "epoch": 1.5148401826484017,
      "grad_norm": 3.4375,
      "learning_rate": 1.5243554231850843e-06,
      "loss": 1.06970968,
      "memory(GiB)": 112.26,
      "step": 59715,
      "train_speed(iter/s)": 1.130207
    },
    {
      "acc": 0.73570881,
      "epoch": 1.514967021816337,
      "grad_norm": 3.90625,
      "learning_rate": 1.5236016596862302e-06,
      "loss": 1.05976887,
      "memory(GiB)": 112.26,
      "step": 59720,
      "train_speed(iter/s)": 1.130221
    },
    {
      "acc": 0.73769703,
      "epoch": 1.515093860984272,
      "grad_norm": 2.953125,
      "learning_rate": 1.5228480490948943e-06,
      "loss": 1.02009792,
      "memory(GiB)": 112.26,
      "step": 59725,
      "train_speed(iter/s)": 1.13024
    },
    {
      "acc": 0.74427052,
      "epoch": 1.5152207001522071,
      "grad_norm": 3.65625,
      "learning_rate": 1.5220945914442292e-06,
      "loss": 1.05533028,
      "memory(GiB)": 112.26,
      "step": 59730,
      "train_speed(iter/s)": 1.130257
    },
    {
      "acc": 0.73971386,
      "epoch": 1.515347539320142,
      "grad_norm": 3.4375,
      "learning_rate": 1.52134128676737e-06,
      "loss": 1.02392445,
      "memory(GiB)": 112.26,
      "step": 59735,
      "train_speed(iter/s)": 1.130272
    },
    {
      "acc": 0.74069328,
      "epoch": 1.515474378488077,
      "grad_norm": 4.09375,
      "learning_rate": 1.5205881350974504e-06,
      "loss": 1.12374783,
      "memory(GiB)": 112.26,
      "step": 59740,
      "train_speed(iter/s)": 1.13028
    },
    {
      "acc": 0.73299375,
      "epoch": 1.515601217656012,
      "grad_norm": 4.75,
      "learning_rate": 1.5198351364676012e-06,
      "loss": 1.0602541,
      "memory(GiB)": 112.26,
      "step": 59745,
      "train_speed(iter/s)": 1.130295
    },
    {
      "acc": 0.73674526,
      "epoch": 1.5157280568239473,
      "grad_norm": 4.0625,
      "learning_rate": 1.5190822909109415e-06,
      "loss": 1.09249182,
      "memory(GiB)": 112.26,
      "step": 59750,
      "train_speed(iter/s)": 1.13029
    },
    {
      "acc": 0.74298267,
      "epoch": 1.5158548959918823,
      "grad_norm": 3.296875,
      "learning_rate": 1.5183295984605824e-06,
      "loss": 1.09651814,
      "memory(GiB)": 112.26,
      "step": 59755,
      "train_speed(iter/s)": 1.130309
    },
    {
      "acc": 0.7471488,
      "epoch": 1.5159817351598175,
      "grad_norm": 3.390625,
      "learning_rate": 1.5175770591496303e-06,
      "loss": 1.02225847,
      "memory(GiB)": 112.26,
      "step": 59760,
      "train_speed(iter/s)": 1.130326
    },
    {
      "acc": 0.73751168,
      "epoch": 1.5161085743277525,
      "grad_norm": 3.25,
      "learning_rate": 1.5168246730111892e-06,
      "loss": 1.08640003,
      "memory(GiB)": 112.26,
      "step": 59765,
      "train_speed(iter/s)": 1.130327
    },
    {
      "acc": 0.75796728,
      "epoch": 1.5162354134956875,
      "grad_norm": 3.609375,
      "learning_rate": 1.5160724400783511e-06,
      "loss": 1.07055912,
      "memory(GiB)": 112.26,
      "step": 59770,
      "train_speed(iter/s)": 1.13034
    },
    {
      "acc": 0.74179602,
      "epoch": 1.5163622526636225,
      "grad_norm": 3.40625,
      "learning_rate": 1.5153203603841992e-06,
      "loss": 1.0540637,
      "memory(GiB)": 112.26,
      "step": 59775,
      "train_speed(iter/s)": 1.130349
    },
    {
      "acc": 0.73560476,
      "epoch": 1.5164890918315574,
      "grad_norm": 3.46875,
      "learning_rate": 1.5145684339618172e-06,
      "loss": 1.11589136,
      "memory(GiB)": 112.26,
      "step": 59780,
      "train_speed(iter/s)": 1.13037
    },
    {
      "acc": 0.75708323,
      "epoch": 1.5166159309994927,
      "grad_norm": 4.84375,
      "learning_rate": 1.5138166608442768e-06,
      "loss": 0.99788513,
      "memory(GiB)": 112.26,
      "step": 59785,
      "train_speed(iter/s)": 1.130383
    },
    {
      "acc": 0.7400898,
      "epoch": 1.5167427701674279,
      "grad_norm": 3.90625,
      "learning_rate": 1.5130650410646452e-06,
      "loss": 1.03021469,
      "memory(GiB)": 112.26,
      "step": 59790,
      "train_speed(iter/s)": 1.130386
    },
    {
      "acc": 0.74792261,
      "epoch": 1.5168696093353629,
      "grad_norm": 2.921875,
      "learning_rate": 1.5123135746559792e-06,
      "loss": 1.04060383,
      "memory(GiB)": 112.26,
      "step": 59795,
      "train_speed(iter/s)": 1.130397
    },
    {
      "acc": 0.75459604,
      "epoch": 1.5169964485032978,
      "grad_norm": 4.3125,
      "learning_rate": 1.5115622616513343e-06,
      "loss": 1.0243062,
      "memory(GiB)": 112.26,
      "step": 59800,
      "train_speed(iter/s)": 1.130404
    },
    {
      "acc": 0.72717609,
      "epoch": 1.5171232876712328,
      "grad_norm": 3.4375,
      "learning_rate": 1.5108111020837564e-06,
      "loss": 1.17692156,
      "memory(GiB)": 112.26,
      "step": 59805,
      "train_speed(iter/s)": 1.13042
    },
    {
      "acc": 0.74371839,
      "epoch": 1.5172501268391678,
      "grad_norm": 3.40625,
      "learning_rate": 1.5100600959862838e-06,
      "loss": 1.0171628,
      "memory(GiB)": 112.26,
      "step": 59810,
      "train_speed(iter/s)": 1.130434
    },
    {
      "acc": 0.73669114,
      "epoch": 1.517376966007103,
      "grad_norm": 3.71875,
      "learning_rate": 1.5093092433919497e-06,
      "loss": 1.05436058,
      "memory(GiB)": 112.26,
      "step": 59815,
      "train_speed(iter/s)": 1.130447
    },
    {
      "acc": 0.74661283,
      "epoch": 1.517503805175038,
      "grad_norm": 3.515625,
      "learning_rate": 1.5085585443337803e-06,
      "loss": 0.99836435,
      "memory(GiB)": 112.26,
      "step": 59820,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.73890877,
      "epoch": 1.5176306443429732,
      "grad_norm": 4.09375,
      "learning_rate": 1.507807998844794e-06,
      "loss": 1.11418743,
      "memory(GiB)": 112.26,
      "step": 59825,
      "train_speed(iter/s)": 1.130481
    },
    {
      "acc": 0.73865061,
      "epoch": 1.5177574835109082,
      "grad_norm": 3.765625,
      "learning_rate": 1.5070576069580039e-06,
      "loss": 1.03424587,
      "memory(GiB)": 112.26,
      "step": 59830,
      "train_speed(iter/s)": 1.130497
    },
    {
      "acc": 0.74625254,
      "epoch": 1.5178843226788432,
      "grad_norm": 3.046875,
      "learning_rate": 1.5063073687064144e-06,
      "loss": 1.07059212,
      "memory(GiB)": 112.26,
      "step": 59835,
      "train_speed(iter/s)": 1.130507
    },
    {
      "acc": 0.7553669,
      "epoch": 1.5180111618467782,
      "grad_norm": 3.890625,
      "learning_rate": 1.5055572841230253e-06,
      "loss": 1.03293018,
      "memory(GiB)": 112.26,
      "step": 59840,
      "train_speed(iter/s)": 1.130517
    },
    {
      "acc": 0.74691954,
      "epoch": 1.5181380010147132,
      "grad_norm": 3.859375,
      "learning_rate": 1.5048073532408287e-06,
      "loss": 1.0526042,
      "memory(GiB)": 112.26,
      "step": 59845,
      "train_speed(iter/s)": 1.130529
    },
    {
      "acc": 0.75180278,
      "epoch": 1.5182648401826484,
      "grad_norm": 3.078125,
      "learning_rate": 1.5040575760928094e-06,
      "loss": 1.03653612,
      "memory(GiB)": 112.26,
      "step": 59850,
      "train_speed(iter/s)": 1.13054
    },
    {
      "acc": 0.73319979,
      "epoch": 1.5183916793505836,
      "grad_norm": 4.03125,
      "learning_rate": 1.5033079527119466e-06,
      "loss": 1.07630901,
      "memory(GiB)": 112.26,
      "step": 59855,
      "train_speed(iter/s)": 1.130548
    },
    {
      "acc": 0.74755149,
      "epoch": 1.5185185185185186,
      "grad_norm": 3.75,
      "learning_rate": 1.5025584831312112e-06,
      "loss": 1.02373648,
      "memory(GiB)": 112.26,
      "step": 59860,
      "train_speed(iter/s)": 1.130552
    },
    {
      "acc": 0.72992101,
      "epoch": 1.5186453576864536,
      "grad_norm": 4.28125,
      "learning_rate": 1.5018091673835667e-06,
      "loss": 1.08284264,
      "memory(GiB)": 112.26,
      "step": 59865,
      "train_speed(iter/s)": 1.130572
    },
    {
      "acc": 0.74186234,
      "epoch": 1.5187721968543886,
      "grad_norm": 3.578125,
      "learning_rate": 1.501060005501977e-06,
      "loss": 1.03309422,
      "memory(GiB)": 112.26,
      "step": 59870,
      "train_speed(iter/s)": 1.130588
    },
    {
      "acc": 0.74896536,
      "epoch": 1.5188990360223236,
      "grad_norm": 4.03125,
      "learning_rate": 1.500310997519388e-06,
      "loss": 1.08327923,
      "memory(GiB)": 112.26,
      "step": 59875,
      "train_speed(iter/s)": 1.130601
    },
    {
      "acc": 0.74195013,
      "epoch": 1.5190258751902588,
      "grad_norm": 3.59375,
      "learning_rate": 1.4995621434687468e-06,
      "loss": 1.09201307,
      "memory(GiB)": 112.26,
      "step": 59880,
      "train_speed(iter/s)": 1.130605
    },
    {
      "acc": 0.72968216,
      "epoch": 1.5191527143581938,
      "grad_norm": 3.578125,
      "learning_rate": 1.4988134433829892e-06,
      "loss": 1.1108696,
      "memory(GiB)": 112.26,
      "step": 59885,
      "train_speed(iter/s)": 1.130615
    },
    {
      "acc": 0.72890801,
      "epoch": 1.519279553526129,
      "grad_norm": 3.5625,
      "learning_rate": 1.4980648972950507e-06,
      "loss": 1.07579231,
      "memory(GiB)": 112.26,
      "step": 59890,
      "train_speed(iter/s)": 1.130634
    },
    {
      "acc": 0.74571042,
      "epoch": 1.519406392694064,
      "grad_norm": 4.125,
      "learning_rate": 1.4973165052378518e-06,
      "loss": 1.03002186,
      "memory(GiB)": 112.26,
      "step": 59895,
      "train_speed(iter/s)": 1.130652
    },
    {
      "acc": 0.73354845,
      "epoch": 1.519533231861999,
      "grad_norm": 3.890625,
      "learning_rate": 1.49656826724431e-06,
      "loss": 1.07892056,
      "memory(GiB)": 112.26,
      "step": 59900,
      "train_speed(iter/s)": 1.130659
    },
    {
      "acc": 0.73900824,
      "epoch": 1.519660071029934,
      "grad_norm": 3.484375,
      "learning_rate": 1.4958201833473386e-06,
      "loss": 1.01740818,
      "memory(GiB)": 112.26,
      "step": 59905,
      "train_speed(iter/s)": 1.13067
    },
    {
      "acc": 0.7291297,
      "epoch": 1.5197869101978692,
      "grad_norm": 3.40625,
      "learning_rate": 1.4950722535798423e-06,
      "loss": 1.10978584,
      "memory(GiB)": 112.26,
      "step": 59910,
      "train_speed(iter/s)": 1.130682
    },
    {
      "acc": 0.73270783,
      "epoch": 1.5199137493658041,
      "grad_norm": 3.546875,
      "learning_rate": 1.4943244779747134e-06,
      "loss": 1.09259758,
      "memory(GiB)": 112.26,
      "step": 59915,
      "train_speed(iter/s)": 1.130686
    },
    {
      "acc": 0.73393993,
      "epoch": 1.5200405885337394,
      "grad_norm": 3.140625,
      "learning_rate": 1.4935768565648478e-06,
      "loss": 1.04971714,
      "memory(GiB)": 112.26,
      "step": 59920,
      "train_speed(iter/s)": 1.130701
    },
    {
      "acc": 0.73735218,
      "epoch": 1.5201674277016743,
      "grad_norm": 4.625,
      "learning_rate": 1.4928293893831265e-06,
      "loss": 1.09952126,
      "memory(GiB)": 112.26,
      "step": 59925,
      "train_speed(iter/s)": 1.130718
    },
    {
      "acc": 0.73645067,
      "epoch": 1.5202942668696093,
      "grad_norm": 4.21875,
      "learning_rate": 1.4920820764624288e-06,
      "loss": 1.05368538,
      "memory(GiB)": 112.26,
      "step": 59930,
      "train_speed(iter/s)": 1.130731
    },
    {
      "acc": 0.73653488,
      "epoch": 1.5204211060375443,
      "grad_norm": 3.734375,
      "learning_rate": 1.4913349178356202e-06,
      "loss": 1.09528084,
      "memory(GiB)": 112.26,
      "step": 59935,
      "train_speed(iter/s)": 1.130743
    },
    {
      "acc": 0.739327,
      "epoch": 1.5205479452054793,
      "grad_norm": 4.0625,
      "learning_rate": 1.4905879135355684e-06,
      "loss": 1.10600901,
      "memory(GiB)": 112.26,
      "step": 59940,
      "train_speed(iter/s)": 1.130754
    },
    {
      "acc": 0.73670101,
      "epoch": 1.5206747843734145,
      "grad_norm": 4.1875,
      "learning_rate": 1.4898410635951282e-06,
      "loss": 1.03962975,
      "memory(GiB)": 112.26,
      "step": 59945,
      "train_speed(iter/s)": 1.13076
    },
    {
      "acc": 0.74673357,
      "epoch": 1.5208016235413497,
      "grad_norm": 4.0,
      "learning_rate": 1.4890943680471503e-06,
      "loss": 1.02316475,
      "memory(GiB)": 112.26,
      "step": 59950,
      "train_speed(iter/s)": 1.130772
    },
    {
      "acc": 0.73514395,
      "epoch": 1.5209284627092847,
      "grad_norm": 3.609375,
      "learning_rate": 1.4883478269244766e-06,
      "loss": 1.05777607,
      "memory(GiB)": 112.26,
      "step": 59955,
      "train_speed(iter/s)": 1.130795
    },
    {
      "acc": 0.74327641,
      "epoch": 1.5210553018772197,
      "grad_norm": 3.53125,
      "learning_rate": 1.4876014402599443e-06,
      "loss": 1.11315861,
      "memory(GiB)": 112.26,
      "step": 59960,
      "train_speed(iter/s)": 1.130805
    },
    {
      "acc": 0.7371222,
      "epoch": 1.5211821410451547,
      "grad_norm": 3.640625,
      "learning_rate": 1.4868552080863824e-06,
      "loss": 1.08514833,
      "memory(GiB)": 112.26,
      "step": 59965,
      "train_speed(iter/s)": 1.130823
    },
    {
      "acc": 0.75595474,
      "epoch": 1.5213089802130897,
      "grad_norm": 4.875,
      "learning_rate": 1.4861091304366139e-06,
      "loss": 1.02539883,
      "memory(GiB)": 112.26,
      "step": 59970,
      "train_speed(iter/s)": 1.13083
    },
    {
      "acc": 0.75761294,
      "epoch": 1.521435819381025,
      "grad_norm": 3.90625,
      "learning_rate": 1.4853632073434533e-06,
      "loss": 0.95574331,
      "memory(GiB)": 112.26,
      "step": 59975,
      "train_speed(iter/s)": 1.13084
    },
    {
      "acc": 0.73587308,
      "epoch": 1.52156265854896,
      "grad_norm": 5.96875,
      "learning_rate": 1.484617438839711e-06,
      "loss": 1.11715555,
      "memory(GiB)": 112.26,
      "step": 59980,
      "train_speed(iter/s)": 1.130854
    },
    {
      "acc": 0.738414,
      "epoch": 1.521689497716895,
      "grad_norm": 5.15625,
      "learning_rate": 1.483871824958189e-06,
      "loss": 1.03928652,
      "memory(GiB)": 112.26,
      "step": 59985,
      "train_speed(iter/s)": 1.130867
    },
    {
      "acc": 0.74391303,
      "epoch": 1.52181633688483,
      "grad_norm": 3.96875,
      "learning_rate": 1.483126365731682e-06,
      "loss": 1.03171768,
      "memory(GiB)": 112.26,
      "step": 59990,
      "train_speed(iter/s)": 1.130881
    },
    {
      "acc": 0.75115409,
      "epoch": 1.521943176052765,
      "grad_norm": 3.578125,
      "learning_rate": 1.4823810611929795e-06,
      "loss": 1.00605173,
      "memory(GiB)": 112.26,
      "step": 59995,
      "train_speed(iter/s)": 1.130901
    },
    {
      "acc": 0.74842734,
      "epoch": 1.5220700152207,
      "grad_norm": 3.140625,
      "learning_rate": 1.481635911374863e-06,
      "loss": 1.006674,
      "memory(GiB)": 112.26,
      "step": 60000,
      "train_speed(iter/s)": 1.130903
    },
    {
      "epoch": 1.5220700152207,
      "eval_acc": 0.7258333907617515,
      "eval_loss": 1.044155478477478,
      "eval_runtime": 70.8176,
      "eval_samples_per_second": 89.949,
      "eval_steps_per_second": 22.494,
      "step": 60000
    },
    {
      "acc": 0.74415765,
      "epoch": 1.522196854388635,
      "grad_norm": 4.96875,
      "learning_rate": 1.480890916310106e-06,
      "loss": 1.06687689,
      "memory(GiB)": 112.26,
      "step": 60005,
      "train_speed(iter/s)": 1.128473
    },
    {
      "acc": 0.74627209,
      "epoch": 1.5223236935565703,
      "grad_norm": 4.15625,
      "learning_rate": 1.4801460760314811e-06,
      "loss": 1.01687241,
      "memory(GiB)": 112.26,
      "step": 60010,
      "train_speed(iter/s)": 1.128481
    },
    {
      "acc": 0.73148317,
      "epoch": 1.5224505327245055,
      "grad_norm": 4.15625,
      "learning_rate": 1.4794013905717453e-06,
      "loss": 1.09437313,
      "memory(GiB)": 112.26,
      "step": 60015,
      "train_speed(iter/s)": 1.1285
    },
    {
      "acc": 0.74165907,
      "epoch": 1.5225773718924405,
      "grad_norm": 3.34375,
      "learning_rate": 1.4786568599636548e-06,
      "loss": 1.05509138,
      "memory(GiB)": 112.26,
      "step": 60020,
      "train_speed(iter/s)": 1.128516
    },
    {
      "acc": 0.74053049,
      "epoch": 1.5227042110603755,
      "grad_norm": 3.421875,
      "learning_rate": 1.4779124842399556e-06,
      "loss": 1.08965845,
      "memory(GiB)": 112.26,
      "step": 60025,
      "train_speed(iter/s)": 1.128531
    },
    {
      "acc": 0.74534631,
      "epoch": 1.5228310502283104,
      "grad_norm": 3.828125,
      "learning_rate": 1.4771682634333933e-06,
      "loss": 1.02032166,
      "memory(GiB)": 112.26,
      "step": 60030,
      "train_speed(iter/s)": 1.128536
    },
    {
      "acc": 0.74942102,
      "epoch": 1.5229578893962454,
      "grad_norm": 4.46875,
      "learning_rate": 1.4764241975766975e-06,
      "loss": 0.99978628,
      "memory(GiB)": 112.26,
      "step": 60035,
      "train_speed(iter/s)": 1.128545
    },
    {
      "acc": 0.74969358,
      "epoch": 1.5230847285641806,
      "grad_norm": 3.859375,
      "learning_rate": 1.475680286702596e-06,
      "loss": 1.00024118,
      "memory(GiB)": 112.26,
      "step": 60040,
      "train_speed(iter/s)": 1.128555
    },
    {
      "acc": 0.74648066,
      "epoch": 1.5232115677321156,
      "grad_norm": 3.3125,
      "learning_rate": 1.474936530843812e-06,
      "loss": 1.00014076,
      "memory(GiB)": 112.26,
      "step": 60045,
      "train_speed(iter/s)": 1.12857
    },
    {
      "acc": 0.74697199,
      "epoch": 1.5233384069000508,
      "grad_norm": 3.90625,
      "learning_rate": 1.4741929300330588e-06,
      "loss": 1.03653069,
      "memory(GiB)": 112.26,
      "step": 60050,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.74281559,
      "epoch": 1.5234652460679858,
      "grad_norm": 3.6875,
      "learning_rate": 1.4734494843030405e-06,
      "loss": 1.04489746,
      "memory(GiB)": 112.26,
      "step": 60055,
      "train_speed(iter/s)": 1.128604
    },
    {
      "acc": 0.73503952,
      "epoch": 1.5235920852359208,
      "grad_norm": 3.515625,
      "learning_rate": 1.4727061936864573e-06,
      "loss": 1.09840956,
      "memory(GiB)": 112.26,
      "step": 60060,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.73101416,
      "epoch": 1.5237189244038558,
      "grad_norm": 3.609375,
      "learning_rate": 1.4719630582160056e-06,
      "loss": 1.12075367,
      "memory(GiB)": 112.26,
      "step": 60065,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.73760796,
      "epoch": 1.523845763571791,
      "grad_norm": 3.625,
      "learning_rate": 1.4712200779243718e-06,
      "loss": 1.06711283,
      "memory(GiB)": 112.26,
      "step": 60070,
      "train_speed(iter/s)": 1.128632
    },
    {
      "acc": 0.73668585,
      "epoch": 1.523972602739726,
      "grad_norm": 3.765625,
      "learning_rate": 1.4704772528442308e-06,
      "loss": 1.09291515,
      "memory(GiB)": 112.26,
      "step": 60075,
      "train_speed(iter/s)": 1.128639
    },
    {
      "acc": 0.74639606,
      "epoch": 1.5240994419076612,
      "grad_norm": 3.21875,
      "learning_rate": 1.46973458300826e-06,
      "loss": 0.96981802,
      "memory(GiB)": 112.26,
      "step": 60080,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.7439642,
      "epoch": 1.5242262810755962,
      "grad_norm": 4.1875,
      "learning_rate": 1.4689920684491232e-06,
      "loss": 1.05012217,
      "memory(GiB)": 112.26,
      "step": 60085,
      "train_speed(iter/s)": 1.128667
    },
    {
      "acc": 0.7433629,
      "epoch": 1.5243531202435312,
      "grad_norm": 3.84375,
      "learning_rate": 1.4682497091994807e-06,
      "loss": 1.05617418,
      "memory(GiB)": 112.26,
      "step": 60090,
      "train_speed(iter/s)": 1.128672
    },
    {
      "acc": 0.73902683,
      "epoch": 1.5244799594114662,
      "grad_norm": 3.53125,
      "learning_rate": 1.467507505291984e-06,
      "loss": 1.05642281,
      "memory(GiB)": 112.26,
      "step": 60095,
      "train_speed(iter/s)": 1.128682
    },
    {
      "acc": 0.72483559,
      "epoch": 1.5246067985794012,
      "grad_norm": 3.828125,
      "learning_rate": 1.4667654567592781e-06,
      "loss": 1.1432724,
      "memory(GiB)": 112.26,
      "step": 60100,
      "train_speed(iter/s)": 1.128692
    },
    {
      "acc": 0.73225546,
      "epoch": 1.5247336377473364,
      "grad_norm": 3.8125,
      "learning_rate": 1.4660235636340025e-06,
      "loss": 1.08942327,
      "memory(GiB)": 112.26,
      "step": 60105,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.73665524,
      "epoch": 1.5248604769152716,
      "grad_norm": 4.03125,
      "learning_rate": 1.465281825948789e-06,
      "loss": 1.05772753,
      "memory(GiB)": 112.26,
      "step": 60110,
      "train_speed(iter/s)": 1.128724
    },
    {
      "acc": 0.73790908,
      "epoch": 1.5249873160832066,
      "grad_norm": 3.625,
      "learning_rate": 1.464540243736262e-06,
      "loss": 1.06463623,
      "memory(GiB)": 112.26,
      "step": 60115,
      "train_speed(iter/s)": 1.128735
    },
    {
      "acc": 0.74163465,
      "epoch": 1.5251141552511416,
      "grad_norm": 3.796875,
      "learning_rate": 1.4637988170290396e-06,
      "loss": 1.01425228,
      "memory(GiB)": 112.26,
      "step": 60120,
      "train_speed(iter/s)": 1.128748
    },
    {
      "acc": 0.75293384,
      "epoch": 1.5252409944190766,
      "grad_norm": 3.5,
      "learning_rate": 1.4630575458597334e-06,
      "loss": 1.02434845,
      "memory(GiB)": 112.26,
      "step": 60125,
      "train_speed(iter/s)": 1.128752
    },
    {
      "acc": 0.74748201,
      "epoch": 1.5253678335870116,
      "grad_norm": 4.09375,
      "learning_rate": 1.4623164302609472e-06,
      "loss": 0.99963503,
      "memory(GiB)": 112.26,
      "step": 60130,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.73078003,
      "epoch": 1.5254946727549468,
      "grad_norm": 3.84375,
      "learning_rate": 1.4615754702652796e-06,
      "loss": 1.14131451,
      "memory(GiB)": 112.26,
      "step": 60135,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.75223174,
      "epoch": 1.5256215119228818,
      "grad_norm": 3.375,
      "learning_rate": 1.4608346659053208e-06,
      "loss": 1.01475124,
      "memory(GiB)": 112.26,
      "step": 60140,
      "train_speed(iter/s)": 1.128777
    },
    {
      "acc": 0.7369832,
      "epoch": 1.525748351090817,
      "grad_norm": 3.828125,
      "learning_rate": 1.4600940172136541e-06,
      "loss": 1.0606657,
      "memory(GiB)": 112.26,
      "step": 60145,
      "train_speed(iter/s)": 1.128797
    },
    {
      "acc": 0.74465094,
      "epoch": 1.525875190258752,
      "grad_norm": 3.953125,
      "learning_rate": 1.4593535242228575e-06,
      "loss": 1.03531914,
      "memory(GiB)": 112.26,
      "step": 60150,
      "train_speed(iter/s)": 1.128813
    },
    {
      "acc": 0.73709154,
      "epoch": 1.526002029426687,
      "grad_norm": 4.28125,
      "learning_rate": 1.4586131869655001e-06,
      "loss": 1.0533165,
      "memory(GiB)": 112.26,
      "step": 60155,
      "train_speed(iter/s)": 1.128823
    },
    {
      "acc": 0.72873616,
      "epoch": 1.526128868594622,
      "grad_norm": 3.9375,
      "learning_rate": 1.4578730054741462e-06,
      "loss": 1.08659058,
      "memory(GiB)": 112.26,
      "step": 60160,
      "train_speed(iter/s)": 1.128824
    },
    {
      "acc": 0.73783736,
      "epoch": 1.526255707762557,
      "grad_norm": 3.75,
      "learning_rate": 1.4571329797813511e-06,
      "loss": 1.03899307,
      "memory(GiB)": 112.26,
      "step": 60165,
      "train_speed(iter/s)": 1.12883
    },
    {
      "acc": 0.75354943,
      "epoch": 1.5263825469304921,
      "grad_norm": 4.09375,
      "learning_rate": 1.4563931099196678e-06,
      "loss": 0.98838301,
      "memory(GiB)": 112.26,
      "step": 60170,
      "train_speed(iter/s)": 1.128849
    },
    {
      "acc": 0.74652367,
      "epoch": 1.5265093860984273,
      "grad_norm": 3.65625,
      "learning_rate": 1.455653395921635e-06,
      "loss": 1.01701374,
      "memory(GiB)": 112.26,
      "step": 60175,
      "train_speed(iter/s)": 1.128849
    },
    {
      "acc": 0.74860015,
      "epoch": 1.5266362252663623,
      "grad_norm": 5.46875,
      "learning_rate": 1.4549138378197891e-06,
      "loss": 1.09330921,
      "memory(GiB)": 112.26,
      "step": 60180,
      "train_speed(iter/s)": 1.128857
    },
    {
      "acc": 0.73933439,
      "epoch": 1.5267630644342973,
      "grad_norm": 3.515625,
      "learning_rate": 1.4541744356466615e-06,
      "loss": 1.06506138,
      "memory(GiB)": 112.26,
      "step": 60185,
      "train_speed(iter/s)": 1.128868
    },
    {
      "acc": 0.73758993,
      "epoch": 1.5268899036022323,
      "grad_norm": 3.15625,
      "learning_rate": 1.4534351894347748e-06,
      "loss": 0.99011364,
      "memory(GiB)": 112.26,
      "step": 60190,
      "train_speed(iter/s)": 1.128883
    },
    {
      "acc": 0.74570036,
      "epoch": 1.5270167427701673,
      "grad_norm": 3.734375,
      "learning_rate": 1.4526960992166412e-06,
      "loss": 1.05197945,
      "memory(GiB)": 112.26,
      "step": 60195,
      "train_speed(iter/s)": 1.128896
    },
    {
      "acc": 0.73979979,
      "epoch": 1.5271435819381025,
      "grad_norm": 3.34375,
      "learning_rate": 1.4519571650247687e-06,
      "loss": 1.03363581,
      "memory(GiB)": 112.26,
      "step": 60200,
      "train_speed(iter/s)": 1.128911
    },
    {
      "acc": 0.74764357,
      "epoch": 1.5272704211060375,
      "grad_norm": 3.25,
      "learning_rate": 1.4512183868916629e-06,
      "loss": 1.05253925,
      "memory(GiB)": 112.26,
      "step": 60205,
      "train_speed(iter/s)": 1.128924
    },
    {
      "acc": 0.74338264,
      "epoch": 1.5273972602739727,
      "grad_norm": 3.796875,
      "learning_rate": 1.4504797648498186e-06,
      "loss": 1.0653491,
      "memory(GiB)": 112.26,
      "step": 60210,
      "train_speed(iter/s)": 1.128938
    },
    {
      "acc": 0.74291258,
      "epoch": 1.5275240994419077,
      "grad_norm": 3.5,
      "learning_rate": 1.4497412989317184e-06,
      "loss": 1.0343647,
      "memory(GiB)": 112.26,
      "step": 60215,
      "train_speed(iter/s)": 1.128957
    },
    {
      "acc": 0.74077854,
      "epoch": 1.5276509386098427,
      "grad_norm": 3.578125,
      "learning_rate": 1.4490029891698476e-06,
      "loss": 1.09478836,
      "memory(GiB)": 112.26,
      "step": 60220,
      "train_speed(iter/s)": 1.128966
    },
    {
      "acc": 0.73682408,
      "epoch": 1.5277777777777777,
      "grad_norm": 3.625,
      "learning_rate": 1.44826483559668e-06,
      "loss": 1.01612644,
      "memory(GiB)": 112.26,
      "step": 60225,
      "train_speed(iter/s)": 1.128982
    },
    {
      "acc": 0.75607553,
      "epoch": 1.527904616945713,
      "grad_norm": 3.765625,
      "learning_rate": 1.4475268382446833e-06,
      "loss": 0.98980742,
      "memory(GiB)": 112.26,
      "step": 60230,
      "train_speed(iter/s)": 1.128998
    },
    {
      "acc": 0.7382844,
      "epoch": 1.5280314561136479,
      "grad_norm": 4.03125,
      "learning_rate": 1.4467889971463144e-06,
      "loss": 1.04097328,
      "memory(GiB)": 112.26,
      "step": 60235,
      "train_speed(iter/s)": 1.129016
    },
    {
      "acc": 0.74413681,
      "epoch": 1.528158295281583,
      "grad_norm": 3.328125,
      "learning_rate": 1.4460513123340308e-06,
      "loss": 1.04346514,
      "memory(GiB)": 112.26,
      "step": 60240,
      "train_speed(iter/s)": 1.129034
    },
    {
      "acc": 0.75004249,
      "epoch": 1.528285134449518,
      "grad_norm": 4.1875,
      "learning_rate": 1.4453137838402775e-06,
      "loss": 1.04702806,
      "memory(GiB)": 112.26,
      "step": 60245,
      "train_speed(iter/s)": 1.129055
    },
    {
      "acc": 0.74854236,
      "epoch": 1.528411973617453,
      "grad_norm": 3.625,
      "learning_rate": 1.4445764116974948e-06,
      "loss": 1.00900917,
      "memory(GiB)": 112.26,
      "step": 60250,
      "train_speed(iter/s)": 1.129074
    },
    {
      "acc": 0.7480886,
      "epoch": 1.528538812785388,
      "grad_norm": 3.78125,
      "learning_rate": 1.4438391959381149e-06,
      "loss": 1.01389685,
      "memory(GiB)": 112.26,
      "step": 60255,
      "train_speed(iter/s)": 1.12909
    },
    {
      "acc": 0.7407465,
      "epoch": 1.528665651953323,
      "grad_norm": 3.609375,
      "learning_rate": 1.4431021365945647e-06,
      "loss": 1.03632803,
      "memory(GiB)": 112.26,
      "step": 60260,
      "train_speed(iter/s)": 1.129104
    },
    {
      "acc": 0.73289337,
      "epoch": 1.5287924911212583,
      "grad_norm": 4.09375,
      "learning_rate": 1.4423652336992627e-06,
      "loss": 1.09084682,
      "memory(GiB)": 112.26,
      "step": 60265,
      "train_speed(iter/s)": 1.129121
    },
    {
      "acc": 0.74096379,
      "epoch": 1.5289193302891935,
      "grad_norm": 4.21875,
      "learning_rate": 1.4416284872846215e-06,
      "loss": 1.01636467,
      "memory(GiB)": 112.26,
      "step": 60270,
      "train_speed(iter/s)": 1.129139
    },
    {
      "acc": 0.76385746,
      "epoch": 1.5290461694571285,
      "grad_norm": 3.546875,
      "learning_rate": 1.440891897383046e-06,
      "loss": 0.9563365,
      "memory(GiB)": 112.26,
      "step": 60275,
      "train_speed(iter/s)": 1.129151
    },
    {
      "acc": 0.75950823,
      "epoch": 1.5291730086250634,
      "grad_norm": 4.34375,
      "learning_rate": 1.4401554640269354e-06,
      "loss": 0.95308876,
      "memory(GiB)": 112.26,
      "step": 60280,
      "train_speed(iter/s)": 1.129149
    },
    {
      "acc": 0.73232503,
      "epoch": 1.5292998477929984,
      "grad_norm": 3.84375,
      "learning_rate": 1.4394191872486812e-06,
      "loss": 1.07650661,
      "memory(GiB)": 112.26,
      "step": 60285,
      "train_speed(iter/s)": 1.12915
    },
    {
      "acc": 0.73156891,
      "epoch": 1.5294266869609334,
      "grad_norm": 3.890625,
      "learning_rate": 1.4386830670806684e-06,
      "loss": 1.11639214,
      "memory(GiB)": 112.26,
      "step": 60290,
      "train_speed(iter/s)": 1.129164
    },
    {
      "acc": 0.74151869,
      "epoch": 1.5295535261288686,
      "grad_norm": 3.703125,
      "learning_rate": 1.4379471035552738e-06,
      "loss": 1.03187542,
      "memory(GiB)": 112.26,
      "step": 60295,
      "train_speed(iter/s)": 1.129174
    },
    {
      "acc": 0.74787488,
      "epoch": 1.5296803652968036,
      "grad_norm": 4.03125,
      "learning_rate": 1.437211296704869e-06,
      "loss": 1.07775555,
      "memory(GiB)": 112.26,
      "step": 60300,
      "train_speed(iter/s)": 1.129191
    },
    {
      "acc": 0.73195467,
      "epoch": 1.5298072044647388,
      "grad_norm": 3.140625,
      "learning_rate": 1.4364756465618167e-06,
      "loss": 1.10836182,
      "memory(GiB)": 112.26,
      "step": 60305,
      "train_speed(iter/s)": 1.129204
    },
    {
      "acc": 0.75383511,
      "epoch": 1.5299340436326738,
      "grad_norm": 3.75,
      "learning_rate": 1.4357401531584792e-06,
      "loss": 1.02479525,
      "memory(GiB)": 112.26,
      "step": 60310,
      "train_speed(iter/s)": 1.12922
    },
    {
      "acc": 0.74442987,
      "epoch": 1.5300608828006088,
      "grad_norm": 3.8125,
      "learning_rate": 1.4350048165272006e-06,
      "loss": 0.99314432,
      "memory(GiB)": 112.26,
      "step": 60315,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.73273726,
      "epoch": 1.5301877219685438,
      "grad_norm": 4.53125,
      "learning_rate": 1.4342696367003272e-06,
      "loss": 1.11177626,
      "memory(GiB)": 112.26,
      "step": 60320,
      "train_speed(iter/s)": 1.129248
    },
    {
      "acc": 0.73738699,
      "epoch": 1.5303145611364788,
      "grad_norm": 4.375,
      "learning_rate": 1.433534613710193e-06,
      "loss": 1.01069622,
      "memory(GiB)": 112.26,
      "step": 60325,
      "train_speed(iter/s)": 1.129265
    },
    {
      "acc": 0.74995065,
      "epoch": 1.530441400304414,
      "grad_norm": 3.65625,
      "learning_rate": 1.4327997475891331e-06,
      "loss": 1.06666861,
      "memory(GiB)": 112.26,
      "step": 60330,
      "train_speed(iter/s)": 1.129279
    },
    {
      "acc": 0.74740925,
      "epoch": 1.5305682394723492,
      "grad_norm": 4.5625,
      "learning_rate": 1.432065038369465e-06,
      "loss": 1.01816158,
      "memory(GiB)": 112.26,
      "step": 60335,
      "train_speed(iter/s)": 1.129292
    },
    {
      "acc": 0.74744411,
      "epoch": 1.5306950786402842,
      "grad_norm": 3.4375,
      "learning_rate": 1.4313304860835048e-06,
      "loss": 0.98434734,
      "memory(GiB)": 112.26,
      "step": 60340,
      "train_speed(iter/s)": 1.129307
    },
    {
      "acc": 0.73198628,
      "epoch": 1.5308219178082192,
      "grad_norm": 3.40625,
      "learning_rate": 1.4305960907635641e-06,
      "loss": 1.08137035,
      "memory(GiB)": 112.26,
      "step": 60345,
      "train_speed(iter/s)": 1.129318
    },
    {
      "acc": 0.74862633,
      "epoch": 1.5309487569761542,
      "grad_norm": 3.484375,
      "learning_rate": 1.4298618524419455e-06,
      "loss": 1.05626154,
      "memory(GiB)": 112.26,
      "step": 60350,
      "train_speed(iter/s)": 1.129328
    },
    {
      "acc": 0.73601031,
      "epoch": 1.5310755961440892,
      "grad_norm": 3.40625,
      "learning_rate": 1.4291277711509388e-06,
      "loss": 1.10574932,
      "memory(GiB)": 112.26,
      "step": 60355,
      "train_speed(iter/s)": 1.129351
    },
    {
      "acc": 0.74965916,
      "epoch": 1.5312024353120244,
      "grad_norm": 3.6875,
      "learning_rate": 1.428393846922837e-06,
      "loss": 0.94759817,
      "memory(GiB)": 112.26,
      "step": 60360,
      "train_speed(iter/s)": 1.129359
    },
    {
      "acc": 0.75753183,
      "epoch": 1.5313292744799594,
      "grad_norm": 3.328125,
      "learning_rate": 1.4276600797899199e-06,
      "loss": 0.98604527,
      "memory(GiB)": 112.26,
      "step": 60365,
      "train_speed(iter/s)": 1.129377
    },
    {
      "acc": 0.7447638,
      "epoch": 1.5314561136478946,
      "grad_norm": 3.578125,
      "learning_rate": 1.426926469784463e-06,
      "loss": 1.01316013,
      "memory(GiB)": 112.26,
      "step": 60370,
      "train_speed(iter/s)": 1.129396
    },
    {
      "acc": 0.74745274,
      "epoch": 1.5315829528158296,
      "grad_norm": 4.78125,
      "learning_rate": 1.42619301693873e-06,
      "loss": 1.09662352,
      "memory(GiB)": 112.26,
      "step": 60375,
      "train_speed(iter/s)": 1.129416
    },
    {
      "acc": 0.74906311,
      "epoch": 1.5317097919837646,
      "grad_norm": 3.484375,
      "learning_rate": 1.4254597212849858e-06,
      "loss": 1.02637539,
      "memory(GiB)": 112.26,
      "step": 60380,
      "train_speed(iter/s)": 1.129436
    },
    {
      "acc": 0.73758321,
      "epoch": 1.5318366311516995,
      "grad_norm": 3.859375,
      "learning_rate": 1.4247265828554819e-06,
      "loss": 1.06050987,
      "memory(GiB)": 112.26,
      "step": 60385,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.73610392,
      "epoch": 1.5319634703196348,
      "grad_norm": 4.3125,
      "learning_rate": 1.423993601682465e-06,
      "loss": 1.08769932,
      "memory(GiB)": 112.26,
      "step": 60390,
      "train_speed(iter/s)": 1.129467
    },
    {
      "acc": 0.73582954,
      "epoch": 1.5320903094875697,
      "grad_norm": 3.609375,
      "learning_rate": 1.423260777798176e-06,
      "loss": 1.04530735,
      "memory(GiB)": 112.26,
      "step": 60395,
      "train_speed(iter/s)": 1.12948
    },
    {
      "acc": 0.73896074,
      "epoch": 1.532217148655505,
      "grad_norm": 4.6875,
      "learning_rate": 1.4225281112348466e-06,
      "loss": 1.09390354,
      "memory(GiB)": 112.26,
      "step": 60400,
      "train_speed(iter/s)": 1.129497
    },
    {
      "acc": 0.72671394,
      "epoch": 1.53234398782344,
      "grad_norm": 4.53125,
      "learning_rate": 1.421795602024703e-06,
      "loss": 1.11558228,
      "memory(GiB)": 112.26,
      "step": 60405,
      "train_speed(iter/s)": 1.129505
    },
    {
      "acc": 0.7374898,
      "epoch": 1.532470826991375,
      "grad_norm": 4.15625,
      "learning_rate": 1.4210632501999643e-06,
      "loss": 1.05979424,
      "memory(GiB)": 112.26,
      "step": 60410,
      "train_speed(iter/s)": 1.129509
    },
    {
      "acc": 0.73722115,
      "epoch": 1.53259766615931,
      "grad_norm": 3.453125,
      "learning_rate": 1.4203310557928428e-06,
      "loss": 1.04619923,
      "memory(GiB)": 112.26,
      "step": 60415,
      "train_speed(iter/s)": 1.129527
    },
    {
      "acc": 0.72102404,
      "epoch": 1.532724505327245,
      "grad_norm": 3.71875,
      "learning_rate": 1.4195990188355435e-06,
      "loss": 1.1553401,
      "memory(GiB)": 112.26,
      "step": 60420,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.75016861,
      "epoch": 1.5328513444951801,
      "grad_norm": 4.59375,
      "learning_rate": 1.418867139360265e-06,
      "loss": 1.02521667,
      "memory(GiB)": 112.26,
      "step": 60425,
      "train_speed(iter/s)": 1.129546
    },
    {
      "acc": 0.74649343,
      "epoch": 1.5329781836631153,
      "grad_norm": 4.5625,
      "learning_rate": 1.418135417399198e-06,
      "loss": 1.02125864,
      "memory(GiB)": 112.26,
      "step": 60430,
      "train_speed(iter/s)": 1.129555
    },
    {
      "acc": 0.73088551,
      "epoch": 1.5331050228310503,
      "grad_norm": 4.6875,
      "learning_rate": 1.4174038529845273e-06,
      "loss": 1.11267567,
      "memory(GiB)": 112.26,
      "step": 60435,
      "train_speed(iter/s)": 1.129576
    },
    {
      "acc": 0.73117237,
      "epoch": 1.5332318619989853,
      "grad_norm": 4.34375,
      "learning_rate": 1.4166724461484304e-06,
      "loss": 1.09733562,
      "memory(GiB)": 112.26,
      "step": 60440,
      "train_speed(iter/s)": 1.12959
    },
    {
      "acc": 0.73171487,
      "epoch": 1.5333587011669203,
      "grad_norm": 3.28125,
      "learning_rate": 1.4159411969230758e-06,
      "loss": 1.09648781,
      "memory(GiB)": 112.26,
      "step": 60445,
      "train_speed(iter/s)": 1.129608
    },
    {
      "acc": 0.7408309,
      "epoch": 1.5334855403348553,
      "grad_norm": 3.375,
      "learning_rate": 1.4152101053406325e-06,
      "loss": 1.02665329,
      "memory(GiB)": 112.26,
      "step": 60450,
      "train_speed(iter/s)": 1.12961
    },
    {
      "acc": 0.75073004,
      "epoch": 1.5336123795027905,
      "grad_norm": 3.515625,
      "learning_rate": 1.4144791714332517e-06,
      "loss": 1.01338453,
      "memory(GiB)": 112.26,
      "step": 60455,
      "train_speed(iter/s)": 1.129624
    },
    {
      "acc": 0.73662748,
      "epoch": 1.5337392186707255,
      "grad_norm": 3.484375,
      "learning_rate": 1.4137483952330855e-06,
      "loss": 1.04195004,
      "memory(GiB)": 112.26,
      "step": 60460,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.75080433,
      "epoch": 1.5338660578386607,
      "grad_norm": 4.1875,
      "learning_rate": 1.4130177767722753e-06,
      "loss": 1.03249893,
      "memory(GiB)": 112.26,
      "step": 60465,
      "train_speed(iter/s)": 1.129636
    },
    {
      "acc": 0.74204268,
      "epoch": 1.5339928970065957,
      "grad_norm": 3.921875,
      "learning_rate": 1.4122873160829603e-06,
      "loss": 1.05190163,
      "memory(GiB)": 112.26,
      "step": 60470,
      "train_speed(iter/s)": 1.129635
    },
    {
      "acc": 0.73328066,
      "epoch": 1.5341197361745307,
      "grad_norm": 3.015625,
      "learning_rate": 1.4115570131972655e-06,
      "loss": 1.06628628,
      "memory(GiB)": 112.26,
      "step": 60475,
      "train_speed(iter/s)": 1.129652
    },
    {
      "acc": 0.74409571,
      "epoch": 1.5342465753424657,
      "grad_norm": 3.328125,
      "learning_rate": 1.4108268681473136e-06,
      "loss": 1.069697,
      "memory(GiB)": 112.26,
      "step": 60480,
      "train_speed(iter/s)": 1.129663
    },
    {
      "acc": 0.74092183,
      "epoch": 1.5343734145104007,
      "grad_norm": 5.8125,
      "learning_rate": 1.4100968809652215e-06,
      "loss": 1.09376287,
      "memory(GiB)": 112.26,
      "step": 60485,
      "train_speed(iter/s)": 1.129672
    },
    {
      "acc": 0.74327936,
      "epoch": 1.5345002536783359,
      "grad_norm": 4.28125,
      "learning_rate": 1.4093670516830982e-06,
      "loss": 1.07156391,
      "memory(GiB)": 112.26,
      "step": 60490,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.73528838,
      "epoch": 1.534627092846271,
      "grad_norm": 4.03125,
      "learning_rate": 1.4086373803330417e-06,
      "loss": 1.06997128,
      "memory(GiB)": 112.26,
      "step": 60495,
      "train_speed(iter/s)": 1.129692
    },
    {
      "acc": 0.7347003,
      "epoch": 1.534753932014206,
      "grad_norm": 3.890625,
      "learning_rate": 1.4079078669471457e-06,
      "loss": 1.07048073,
      "memory(GiB)": 112.26,
      "step": 60500,
      "train_speed(iter/s)": 1.129702
    },
    {
      "acc": 0.74486341,
      "epoch": 1.534880771182141,
      "grad_norm": 3.75,
      "learning_rate": 1.4071785115575005e-06,
      "loss": 1.01087036,
      "memory(GiB)": 112.26,
      "step": 60505,
      "train_speed(iter/s)": 1.129714
    },
    {
      "acc": 0.75071487,
      "epoch": 1.535007610350076,
      "grad_norm": 4.4375,
      "learning_rate": 1.4064493141961872e-06,
      "loss": 0.9997695,
      "memory(GiB)": 112.26,
      "step": 60510,
      "train_speed(iter/s)": 1.129709
    },
    {
      "acc": 0.75707173,
      "epoch": 1.535134449518011,
      "grad_norm": 4.1875,
      "learning_rate": 1.4057202748952736e-06,
      "loss": 1.02112427,
      "memory(GiB)": 112.26,
      "step": 60515,
      "train_speed(iter/s)": 1.129724
    },
    {
      "acc": 0.73846407,
      "epoch": 1.5352612886859462,
      "grad_norm": 4.40625,
      "learning_rate": 1.4049913936868314e-06,
      "loss": 1.03039818,
      "memory(GiB)": 112.26,
      "step": 60520,
      "train_speed(iter/s)": 1.129737
    },
    {
      "acc": 0.73501821,
      "epoch": 1.5353881278538812,
      "grad_norm": 3.890625,
      "learning_rate": 1.4042626706029184e-06,
      "loss": 1.08968096,
      "memory(GiB)": 112.26,
      "step": 60525,
      "train_speed(iter/s)": 1.129748
    },
    {
      "acc": 0.72403789,
      "epoch": 1.5355149670218164,
      "grad_norm": 3.953125,
      "learning_rate": 1.4035341056755864e-06,
      "loss": 1.11457901,
      "memory(GiB)": 112.26,
      "step": 60530,
      "train_speed(iter/s)": 1.129753
    },
    {
      "acc": 0.75424547,
      "epoch": 1.5356418061897514,
      "grad_norm": 4.15625,
      "learning_rate": 1.402805698936882e-06,
      "loss": 1.01703053,
      "memory(GiB)": 112.26,
      "step": 60535,
      "train_speed(iter/s)": 1.129765
    },
    {
      "acc": 0.73839436,
      "epoch": 1.5357686453576864,
      "grad_norm": 3.359375,
      "learning_rate": 1.4020774504188428e-06,
      "loss": 1.09138021,
      "memory(GiB)": 112.26,
      "step": 60540,
      "train_speed(iter/s)": 1.129776
    },
    {
      "acc": 0.74143639,
      "epoch": 1.5358954845256214,
      "grad_norm": 3.703125,
      "learning_rate": 1.4013493601535016e-06,
      "loss": 1.07197895,
      "memory(GiB)": 112.26,
      "step": 60545,
      "train_speed(iter/s)": 1.129785
    },
    {
      "acc": 0.72802677,
      "epoch": 1.5360223236935566,
      "grad_norm": 5.90625,
      "learning_rate": 1.400621428172882e-06,
      "loss": 1.12199392,
      "memory(GiB)": 112.26,
      "step": 60550,
      "train_speed(iter/s)": 1.129797
    },
    {
      "acc": 0.74075055,
      "epoch": 1.5361491628614916,
      "grad_norm": 4.25,
      "learning_rate": 1.399893654509002e-06,
      "loss": 1.10516033,
      "memory(GiB)": 112.26,
      "step": 60555,
      "train_speed(iter/s)": 1.12981
    },
    {
      "acc": 0.74033031,
      "epoch": 1.5362760020294268,
      "grad_norm": 3.40625,
      "learning_rate": 1.3991660391938721e-06,
      "loss": 1.05145874,
      "memory(GiB)": 112.26,
      "step": 60560,
      "train_speed(iter/s)": 1.129828
    },
    {
      "acc": 0.74396677,
      "epoch": 1.5364028411973618,
      "grad_norm": 4.34375,
      "learning_rate": 1.398438582259497e-06,
      "loss": 1.0679388,
      "memory(GiB)": 112.26,
      "step": 60565,
      "train_speed(iter/s)": 1.129839
    },
    {
      "acc": 0.73436089,
      "epoch": 1.5365296803652968,
      "grad_norm": 4.03125,
      "learning_rate": 1.3977112837378726e-06,
      "loss": 1.06694393,
      "memory(GiB)": 112.26,
      "step": 60570,
      "train_speed(iter/s)": 1.12986
    },
    {
      "acc": 0.73261442,
      "epoch": 1.5366565195332318,
      "grad_norm": 3.53125,
      "learning_rate": 1.3969841436609888e-06,
      "loss": 1.07555304,
      "memory(GiB)": 112.26,
      "step": 60575,
      "train_speed(iter/s)": 1.129877
    },
    {
      "acc": 0.74455523,
      "epoch": 1.5367833587011668,
      "grad_norm": 3.15625,
      "learning_rate": 1.396257162060829e-06,
      "loss": 1.04985819,
      "memory(GiB)": 112.26,
      "step": 60580,
      "train_speed(iter/s)": 1.129889
    },
    {
      "acc": 0.72853727,
      "epoch": 1.536910197869102,
      "grad_norm": 2.96875,
      "learning_rate": 1.395530338969367e-06,
      "loss": 1.10842266,
      "memory(GiB)": 112.26,
      "step": 60585,
      "train_speed(iter/s)": 1.129901
    },
    {
      "acc": 0.73084803,
      "epoch": 1.5370370370370372,
      "grad_norm": 3.71875,
      "learning_rate": 1.3948036744185767e-06,
      "loss": 1.05101337,
      "memory(GiB)": 112.26,
      "step": 60590,
      "train_speed(iter/s)": 1.12992
    },
    {
      "acc": 0.7432673,
      "epoch": 1.5371638762049722,
      "grad_norm": 4.28125,
      "learning_rate": 1.3940771684404153e-06,
      "loss": 1.01925535,
      "memory(GiB)": 112.26,
      "step": 60595,
      "train_speed(iter/s)": 1.129936
    },
    {
      "acc": 0.75387177,
      "epoch": 1.5372907153729072,
      "grad_norm": 3.375,
      "learning_rate": 1.393350821066839e-06,
      "loss": 0.97981949,
      "memory(GiB)": 112.26,
      "step": 60600,
      "train_speed(iter/s)": 1.129936
    },
    {
      "acc": 0.75766883,
      "epoch": 1.5374175545408422,
      "grad_norm": 3.5,
      "learning_rate": 1.3926246323297948e-06,
      "loss": 1.04332447,
      "memory(GiB)": 112.26,
      "step": 60605,
      "train_speed(iter/s)": 1.129952
    },
    {
      "acc": 0.7453021,
      "epoch": 1.5375443937087772,
      "grad_norm": 3.578125,
      "learning_rate": 1.3918986022612285e-06,
      "loss": 1.00832539,
      "memory(GiB)": 112.26,
      "step": 60610,
      "train_speed(iter/s)": 1.129962
    },
    {
      "acc": 0.74576359,
      "epoch": 1.5376712328767124,
      "grad_norm": 4.28125,
      "learning_rate": 1.3911727308930684e-06,
      "loss": 1.06468868,
      "memory(GiB)": 112.26,
      "step": 60615,
      "train_speed(iter/s)": 1.129965
    },
    {
      "acc": 0.74078956,
      "epoch": 1.5377980720446474,
      "grad_norm": 4.09375,
      "learning_rate": 1.3904470182572428e-06,
      "loss": 1.05088062,
      "memory(GiB)": 112.26,
      "step": 60620,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.73580551,
      "epoch": 1.5379249112125826,
      "grad_norm": 3.984375,
      "learning_rate": 1.3897214643856744e-06,
      "loss": 1.14925222,
      "memory(GiB)": 112.26,
      "step": 60625,
      "train_speed(iter/s)": 1.129984
    },
    {
      "acc": 0.74799986,
      "epoch": 1.5380517503805176,
      "grad_norm": 4.96875,
      "learning_rate": 1.388996069310276e-06,
      "loss": 1.01516905,
      "memory(GiB)": 112.26,
      "step": 60630,
      "train_speed(iter/s)": 1.129996
    },
    {
      "acc": 0.74336586,
      "epoch": 1.5381785895484525,
      "grad_norm": 3.578125,
      "learning_rate": 1.3882708330629514e-06,
      "loss": 1.10763493,
      "memory(GiB)": 112.26,
      "step": 60635,
      "train_speed(iter/s)": 1.130007
    },
    {
      "acc": 0.73321362,
      "epoch": 1.5383054287163875,
      "grad_norm": 3.390625,
      "learning_rate": 1.3875457556755989e-06,
      "loss": 1.08065815,
      "memory(GiB)": 112.26,
      "step": 60640,
      "train_speed(iter/s)": 1.130025
    },
    {
      "acc": 0.74209385,
      "epoch": 1.5384322678843225,
      "grad_norm": 3.828125,
      "learning_rate": 1.386820837180114e-06,
      "loss": 1.03937311,
      "memory(GiB)": 112.26,
      "step": 60645,
      "train_speed(iter/s)": 1.130042
    },
    {
      "acc": 0.74582949,
      "epoch": 1.5385591070522577,
      "grad_norm": 3.78125,
      "learning_rate": 1.386096077608382e-06,
      "loss": 1.02279873,
      "memory(GiB)": 112.26,
      "step": 60650,
      "train_speed(iter/s)": 1.130052
    },
    {
      "acc": 0.74448543,
      "epoch": 1.538685946220193,
      "grad_norm": 3.75,
      "learning_rate": 1.385371476992276e-06,
      "loss": 1.04141827,
      "memory(GiB)": 112.26,
      "step": 60655,
      "train_speed(iter/s)": 1.130067
    },
    {
      "acc": 0.73144364,
      "epoch": 1.538812785388128,
      "grad_norm": 3.71875,
      "learning_rate": 1.3846470353636726e-06,
      "loss": 1.08510094,
      "memory(GiB)": 112.26,
      "step": 60660,
      "train_speed(iter/s)": 1.130087
    },
    {
      "acc": 0.73731155,
      "epoch": 1.538939624556063,
      "grad_norm": 3.03125,
      "learning_rate": 1.3839227527544336e-06,
      "loss": 1.04369478,
      "memory(GiB)": 112.26,
      "step": 60665,
      "train_speed(iter/s)": 1.130102
    },
    {
      "acc": 0.74821453,
      "epoch": 1.539066463723998,
      "grad_norm": 3.5,
      "learning_rate": 1.3831986291964184e-06,
      "loss": 1.01805916,
      "memory(GiB)": 112.26,
      "step": 60670,
      "train_speed(iter/s)": 1.130116
    },
    {
      "acc": 0.74125695,
      "epoch": 1.539193302891933,
      "grad_norm": 4.25,
      "learning_rate": 1.382474664721472e-06,
      "loss": 1.0821207,
      "memory(GiB)": 112.26,
      "step": 60675,
      "train_speed(iter/s)": 1.130128
    },
    {
      "acc": 0.75415535,
      "epoch": 1.5393201420598681,
      "grad_norm": 3.765625,
      "learning_rate": 1.3817508593614425e-06,
      "loss": 0.96382895,
      "memory(GiB)": 112.26,
      "step": 60680,
      "train_speed(iter/s)": 1.13014
    },
    {
      "acc": 0.74394708,
      "epoch": 1.539446981227803,
      "grad_norm": 3.421875,
      "learning_rate": 1.381027213148165e-06,
      "loss": 1.07659454,
      "memory(GiB)": 112.26,
      "step": 60685,
      "train_speed(iter/s)": 1.130155
    },
    {
      "acc": 0.73557115,
      "epoch": 1.5395738203957383,
      "grad_norm": 4.46875,
      "learning_rate": 1.3803037261134678e-06,
      "loss": 1.04827785,
      "memory(GiB)": 112.26,
      "step": 60690,
      "train_speed(iter/s)": 1.130172
    },
    {
      "acc": 0.74550591,
      "epoch": 1.5397006595636733,
      "grad_norm": 3.875,
      "learning_rate": 1.3795803982891736e-06,
      "loss": 1.06941557,
      "memory(GiB)": 112.26,
      "step": 60695,
      "train_speed(iter/s)": 1.130184
    },
    {
      "acc": 0.7419055,
      "epoch": 1.5398274987316083,
      "grad_norm": 3.5,
      "learning_rate": 1.3788572297070974e-06,
      "loss": 1.01615372,
      "memory(GiB)": 112.26,
      "step": 60700,
      "train_speed(iter/s)": 1.130195
    },
    {
      "acc": 0.74179459,
      "epoch": 1.5399543378995433,
      "grad_norm": 3.0625,
      "learning_rate": 1.3781342203990478e-06,
      "loss": 1.06313572,
      "memory(GiB)": 112.26,
      "step": 60705,
      "train_speed(iter/s)": 1.130213
    },
    {
      "acc": 0.73438692,
      "epoch": 1.5400811770674785,
      "grad_norm": 3.96875,
      "learning_rate": 1.3774113703968255e-06,
      "loss": 1.08384724,
      "memory(GiB)": 112.26,
      "step": 60710,
      "train_speed(iter/s)": 1.130233
    },
    {
      "acc": 0.73732643,
      "epoch": 1.5402080162354135,
      "grad_norm": 3.828125,
      "learning_rate": 1.3766886797322248e-06,
      "loss": 1.03744078,
      "memory(GiB)": 112.26,
      "step": 60715,
      "train_speed(iter/s)": 1.130247
    },
    {
      "acc": 0.7580657,
      "epoch": 1.5403348554033487,
      "grad_norm": 2.796875,
      "learning_rate": 1.3759661484370324e-06,
      "loss": 1.01088963,
      "memory(GiB)": 112.26,
      "step": 60720,
      "train_speed(iter/s)": 1.130255
    },
    {
      "acc": 0.75015173,
      "epoch": 1.5404616945712837,
      "grad_norm": 3.90625,
      "learning_rate": 1.3752437765430294e-06,
      "loss": 1.01378517,
      "memory(GiB)": 112.26,
      "step": 60725,
      "train_speed(iter/s)": 1.13027
    },
    {
      "acc": 0.74346046,
      "epoch": 1.5405885337392187,
      "grad_norm": 4.75,
      "learning_rate": 1.3745215640819886e-06,
      "loss": 1.05854855,
      "memory(GiB)": 112.26,
      "step": 60730,
      "train_speed(iter/s)": 1.130287
    },
    {
      "acc": 0.75152736,
      "epoch": 1.5407153729071537,
      "grad_norm": 3.828125,
      "learning_rate": 1.373799511085676e-06,
      "loss": 0.98554926,
      "memory(GiB)": 112.26,
      "step": 60735,
      "train_speed(iter/s)": 1.130298
    },
    {
      "acc": 0.73405976,
      "epoch": 1.5408422120750886,
      "grad_norm": 3.5625,
      "learning_rate": 1.3730776175858506e-06,
      "loss": 1.07731972,
      "memory(GiB)": 112.26,
      "step": 60740,
      "train_speed(iter/s)": 1.130306
    },
    {
      "acc": 0.75415926,
      "epoch": 1.5409690512430239,
      "grad_norm": 3.75,
      "learning_rate": 1.3723558836142631e-06,
      "loss": 1.01347446,
      "memory(GiB)": 112.26,
      "step": 60745,
      "train_speed(iter/s)": 1.130317
    },
    {
      "acc": 0.74759374,
      "epoch": 1.541095890410959,
      "grad_norm": 3.015625,
      "learning_rate": 1.371634309202663e-06,
      "loss": 1.01913528,
      "memory(GiB)": 112.26,
      "step": 60750,
      "train_speed(iter/s)": 1.130335
    },
    {
      "acc": 0.74029431,
      "epoch": 1.541222729578894,
      "grad_norm": 4.0,
      "learning_rate": 1.3709128943827842e-06,
      "loss": 1.05853786,
      "memory(GiB)": 112.26,
      "step": 60755,
      "train_speed(iter/s)": 1.130354
    },
    {
      "acc": 0.72999172,
      "epoch": 1.541349568746829,
      "grad_norm": 3.84375,
      "learning_rate": 1.3701916391863573e-06,
      "loss": 1.0791996,
      "memory(GiB)": 112.26,
      "step": 60760,
      "train_speed(iter/s)": 1.130374
    },
    {
      "acc": 0.72595544,
      "epoch": 1.541476407914764,
      "grad_norm": 4.25,
      "learning_rate": 1.3694705436451093e-06,
      "loss": 1.0903388,
      "memory(GiB)": 112.26,
      "step": 60765,
      "train_speed(iter/s)": 1.130384
    },
    {
      "acc": 0.75201416,
      "epoch": 1.541603247082699,
      "grad_norm": 3.65625,
      "learning_rate": 1.368749607790758e-06,
      "loss": 0.99793587,
      "memory(GiB)": 112.26,
      "step": 60770,
      "train_speed(iter/s)": 1.1304
    },
    {
      "acc": 0.74428635,
      "epoch": 1.5417300862506342,
      "grad_norm": 3.546875,
      "learning_rate": 1.3680288316550095e-06,
      "loss": 1.01501083,
      "memory(GiB)": 112.26,
      "step": 60775,
      "train_speed(iter/s)": 1.130413
    },
    {
      "acc": 0.73590846,
      "epoch": 1.5418569254185692,
      "grad_norm": 4.4375,
      "learning_rate": 1.3673082152695672e-06,
      "loss": 1.10488396,
      "memory(GiB)": 112.26,
      "step": 60780,
      "train_speed(iter/s)": 1.130426
    },
    {
      "acc": 0.71908178,
      "epoch": 1.5419837645865044,
      "grad_norm": 3.296875,
      "learning_rate": 1.3665877586661296e-06,
      "loss": 1.12005301,
      "memory(GiB)": 112.26,
      "step": 60785,
      "train_speed(iter/s)": 1.130429
    },
    {
      "acc": 0.74661717,
      "epoch": 1.5421106037544394,
      "grad_norm": 3.328125,
      "learning_rate": 1.3658674618763862e-06,
      "loss": 1.02730713,
      "memory(GiB)": 112.26,
      "step": 60790,
      "train_speed(iter/s)": 1.130441
    },
    {
      "acc": 0.72945733,
      "epoch": 1.5422374429223744,
      "grad_norm": 3.9375,
      "learning_rate": 1.365147324932014e-06,
      "loss": 1.05026932,
      "memory(GiB)": 112.26,
      "step": 60795,
      "train_speed(iter/s)": 1.130444
    },
    {
      "acc": 0.73474984,
      "epoch": 1.5423642820903094,
      "grad_norm": 4.375,
      "learning_rate": 1.3644273478646925e-06,
      "loss": 1.10866508,
      "memory(GiB)": 112.26,
      "step": 60800,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.74073052,
      "epoch": 1.5424911212582444,
      "grad_norm": 3.9375,
      "learning_rate": 1.3637075307060877e-06,
      "loss": 1.10276871,
      "memory(GiB)": 112.26,
      "step": 60805,
      "train_speed(iter/s)": 1.130464
    },
    {
      "acc": 0.7429575,
      "epoch": 1.5426179604261796,
      "grad_norm": 3.28125,
      "learning_rate": 1.362987873487862e-06,
      "loss": 1.04520473,
      "memory(GiB)": 112.26,
      "step": 60810,
      "train_speed(iter/s)": 1.130481
    },
    {
      "acc": 0.7367569,
      "epoch": 1.5427447995941148,
      "grad_norm": 3.546875,
      "learning_rate": 1.362268376241665e-06,
      "loss": 1.02062464,
      "memory(GiB)": 112.26,
      "step": 60815,
      "train_speed(iter/s)": 1.130487
    },
    {
      "acc": 0.71105757,
      "epoch": 1.5428716387620498,
      "grad_norm": 4.6875,
      "learning_rate": 1.3615490389991476e-06,
      "loss": 1.1697051,
      "memory(GiB)": 112.26,
      "step": 60820,
      "train_speed(iter/s)": 1.130498
    },
    {
      "acc": 0.74432149,
      "epoch": 1.5429984779299848,
      "grad_norm": 3.453125,
      "learning_rate": 1.360829861791948e-06,
      "loss": 1.02253437,
      "memory(GiB)": 112.26,
      "step": 60825,
      "train_speed(iter/s)": 1.130513
    },
    {
      "acc": 0.7414331,
      "epoch": 1.5431253170979198,
      "grad_norm": 4.0625,
      "learning_rate": 1.3601108446516985e-06,
      "loss": 1.06069498,
      "memory(GiB)": 112.26,
      "step": 60830,
      "train_speed(iter/s)": 1.130527
    },
    {
      "acc": 0.75146036,
      "epoch": 1.5432521562658548,
      "grad_norm": 3.765625,
      "learning_rate": 1.3593919876100254e-06,
      "loss": 1.00438986,
      "memory(GiB)": 112.26,
      "step": 60835,
      "train_speed(iter/s)": 1.130541
    },
    {
      "acc": 0.73622427,
      "epoch": 1.54337899543379,
      "grad_norm": 3.8125,
      "learning_rate": 1.3586732906985467e-06,
      "loss": 1.07827473,
      "memory(GiB)": 112.26,
      "step": 60840,
      "train_speed(iter/s)": 1.130552
    },
    {
      "acc": 0.73927331,
      "epoch": 1.543505834601725,
      "grad_norm": 3.90625,
      "learning_rate": 1.357954753948874e-06,
      "loss": 1.04178619,
      "memory(GiB)": 112.26,
      "step": 60845,
      "train_speed(iter/s)": 1.130567
    },
    {
      "acc": 0.75623145,
      "epoch": 1.5436326737696602,
      "grad_norm": 3.625,
      "learning_rate": 1.3572363773926117e-06,
      "loss": 1.01007442,
      "memory(GiB)": 112.26,
      "step": 60850,
      "train_speed(iter/s)": 1.130572
    },
    {
      "acc": 0.74449244,
      "epoch": 1.5437595129375952,
      "grad_norm": 4.5625,
      "learning_rate": 1.3565181610613571e-06,
      "loss": 1.06299477,
      "memory(GiB)": 112.26,
      "step": 60855,
      "train_speed(iter/s)": 1.130574
    },
    {
      "acc": 0.73948011,
      "epoch": 1.5438863521055302,
      "grad_norm": 4.15625,
      "learning_rate": 1.3558001049867008e-06,
      "loss": 1.04903059,
      "memory(GiB)": 112.26,
      "step": 60860,
      "train_speed(iter/s)": 1.130593
    },
    {
      "acc": 0.74703865,
      "epoch": 1.5440131912734651,
      "grad_norm": 3.484375,
      "learning_rate": 1.3550822092002264e-06,
      "loss": 1.04852161,
      "memory(GiB)": 112.26,
      "step": 60865,
      "train_speed(iter/s)": 1.130607
    },
    {
      "acc": 0.75853767,
      "epoch": 1.5441400304414004,
      "grad_norm": 3.046875,
      "learning_rate": 1.3543644737335099e-06,
      "loss": 0.96320305,
      "memory(GiB)": 112.26,
      "step": 60870,
      "train_speed(iter/s)": 1.130604
    },
    {
      "acc": 0.72296534,
      "epoch": 1.5442668696093353,
      "grad_norm": 3.875,
      "learning_rate": 1.35364689861812e-06,
      "loss": 1.09853592,
      "memory(GiB)": 112.26,
      "step": 60875,
      "train_speed(iter/s)": 1.130626
    },
    {
      "acc": 0.75289717,
      "epoch": 1.5443937087772706,
      "grad_norm": 4.21875,
      "learning_rate": 1.3529294838856194e-06,
      "loss": 1.03778114,
      "memory(GiB)": 112.26,
      "step": 60880,
      "train_speed(iter/s)": 1.130643
    },
    {
      "acc": 0.732198,
      "epoch": 1.5445205479452055,
      "grad_norm": 4.15625,
      "learning_rate": 1.3522122295675616e-06,
      "loss": 1.04239407,
      "memory(GiB)": 112.26,
      "step": 60885,
      "train_speed(iter/s)": 1.130657
    },
    {
      "acc": 0.74060121,
      "epoch": 1.5446473871131405,
      "grad_norm": 4.5625,
      "learning_rate": 1.351495135695499e-06,
      "loss": 1.05208349,
      "memory(GiB)": 112.26,
      "step": 60890,
      "train_speed(iter/s)": 1.130672
    },
    {
      "acc": 0.73967838,
      "epoch": 1.5447742262810755,
      "grad_norm": 3.828125,
      "learning_rate": 1.3507782023009692e-06,
      "loss": 1.0643856,
      "memory(GiB)": 112.26,
      "step": 60895,
      "train_speed(iter/s)": 1.13068
    },
    {
      "acc": 0.74172025,
      "epoch": 1.5449010654490105,
      "grad_norm": 3.4375,
      "learning_rate": 1.3500614294155056e-06,
      "loss": 1.03377113,
      "memory(GiB)": 112.26,
      "step": 60900,
      "train_speed(iter/s)": 1.130684
    },
    {
      "acc": 0.75019526,
      "epoch": 1.5450279046169457,
      "grad_norm": 3.59375,
      "learning_rate": 1.3493448170706347e-06,
      "loss": 1.06714268,
      "memory(GiB)": 112.26,
      "step": 60905,
      "train_speed(iter/s)": 1.130689
    },
    {
      "acc": 0.73970375,
      "epoch": 1.545154743784881,
      "grad_norm": 3.4375,
      "learning_rate": 1.348628365297881e-06,
      "loss": 1.06444206,
      "memory(GiB)": 112.26,
      "step": 60910,
      "train_speed(iter/s)": 1.130706
    },
    {
      "acc": 0.73722348,
      "epoch": 1.545281582952816,
      "grad_norm": 3.578125,
      "learning_rate": 1.3479120741287526e-06,
      "loss": 1.03855019,
      "memory(GiB)": 112.26,
      "step": 60915,
      "train_speed(iter/s)": 1.13072
    },
    {
      "acc": 0.7375668,
      "epoch": 1.545408422120751,
      "grad_norm": 3.4375,
      "learning_rate": 1.3471959435947552e-06,
      "loss": 1.09525948,
      "memory(GiB)": 112.26,
      "step": 60920,
      "train_speed(iter/s)": 1.130732
    },
    {
      "acc": 0.73313231,
      "epoch": 1.545535261288686,
      "grad_norm": 3.46875,
      "learning_rate": 1.3464799737273898e-06,
      "loss": 1.08956861,
      "memory(GiB)": 112.26,
      "step": 60925,
      "train_speed(iter/s)": 1.130736
    },
    {
      "acc": 0.74107261,
      "epoch": 1.545662100456621,
      "grad_norm": 4.15625,
      "learning_rate": 1.3457641645581487e-06,
      "loss": 1.05869846,
      "memory(GiB)": 112.26,
      "step": 60930,
      "train_speed(iter/s)": 1.130757
    },
    {
      "acc": 0.72958241,
      "epoch": 1.545788939624556,
      "grad_norm": 3.78125,
      "learning_rate": 1.3450485161185133e-06,
      "loss": 1.09155073,
      "memory(GiB)": 112.26,
      "step": 60935,
      "train_speed(iter/s)": 1.130766
    },
    {
      "acc": 0.73903122,
      "epoch": 1.545915778792491,
      "grad_norm": 4.59375,
      "learning_rate": 1.344333028439961e-06,
      "loss": 1.0376977,
      "memory(GiB)": 112.26,
      "step": 60940,
      "train_speed(iter/s)": 1.130781
    },
    {
      "acc": 0.75150251,
      "epoch": 1.5460426179604263,
      "grad_norm": 3.96875,
      "learning_rate": 1.3436177015539647e-06,
      "loss": 1.01591034,
      "memory(GiB)": 112.26,
      "step": 60945,
      "train_speed(iter/s)": 1.130786
    },
    {
      "acc": 0.75394683,
      "epoch": 1.5461694571283613,
      "grad_norm": 3.8125,
      "learning_rate": 1.3429025354919877e-06,
      "loss": 1.01501694,
      "memory(GiB)": 112.26,
      "step": 60950,
      "train_speed(iter/s)": 1.1308
    },
    {
      "acc": 0.72946262,
      "epoch": 1.5462962962962963,
      "grad_norm": 3.921875,
      "learning_rate": 1.3421875302854826e-06,
      "loss": 1.0855608,
      "memory(GiB)": 112.26,
      "step": 60955,
      "train_speed(iter/s)": 1.130822
    },
    {
      "acc": 0.7299964,
      "epoch": 1.5464231354642313,
      "grad_norm": 3.65625,
      "learning_rate": 1.3414726859659016e-06,
      "loss": 1.04404097,
      "memory(GiB)": 112.26,
      "step": 60960,
      "train_speed(iter/s)": 1.13084
    },
    {
      "acc": 0.7267632,
      "epoch": 1.5465499746321663,
      "grad_norm": 3.5625,
      "learning_rate": 1.3407580025646866e-06,
      "loss": 1.11201954,
      "memory(GiB)": 112.26,
      "step": 60965,
      "train_speed(iter/s)": 1.130845
    },
    {
      "acc": 0.74264889,
      "epoch": 1.5466768138001015,
      "grad_norm": 5.03125,
      "learning_rate": 1.3400434801132716e-06,
      "loss": 1.07343483,
      "memory(GiB)": 112.26,
      "step": 60970,
      "train_speed(iter/s)": 1.130866
    },
    {
      "acc": 0.7316865,
      "epoch": 1.5468036529680367,
      "grad_norm": 3.546875,
      "learning_rate": 1.3393291186430852e-06,
      "loss": 1.06523209,
      "memory(GiB)": 112.26,
      "step": 60975,
      "train_speed(iter/s)": 1.130871
    },
    {
      "acc": 0.73092089,
      "epoch": 1.5469304921359717,
      "grad_norm": 6.59375,
      "learning_rate": 1.338614918185548e-06,
      "loss": 1.08039465,
      "memory(GiB)": 112.26,
      "step": 60980,
      "train_speed(iter/s)": 1.13089
    },
    {
      "acc": 0.73850193,
      "epoch": 1.5470573313039067,
      "grad_norm": 3.296875,
      "learning_rate": 1.3379008787720732e-06,
      "loss": 1.0583889,
      "memory(GiB)": 112.26,
      "step": 60985,
      "train_speed(iter/s)": 1.130897
    },
    {
      "acc": 0.74789944,
      "epoch": 1.5471841704718416,
      "grad_norm": 3.71875,
      "learning_rate": 1.3371870004340681e-06,
      "loss": 1.07521858,
      "memory(GiB)": 112.26,
      "step": 60990,
      "train_speed(iter/s)": 1.13091
    },
    {
      "acc": 0.74825811,
      "epoch": 1.5473110096397766,
      "grad_norm": 3.765625,
      "learning_rate": 1.3364732832029315e-06,
      "loss": 1.03602009,
      "memory(GiB)": 112.26,
      "step": 60995,
      "train_speed(iter/s)": 1.130923
    },
    {
      "acc": 0.74848576,
      "epoch": 1.5474378488077118,
      "grad_norm": 3.609375,
      "learning_rate": 1.335759727110057e-06,
      "loss": 1.01436291,
      "memory(GiB)": 112.26,
      "step": 61000,
      "train_speed(iter/s)": 1.130841
    },
    {
      "epoch": 1.5474378488077118,
      "eval_acc": 0.725819190280188,
      "eval_loss": 1.044049859046936,
      "eval_runtime": 70.9032,
      "eval_samples_per_second": 89.841,
      "eval_steps_per_second": 22.467,
      "step": 61000
    },
    {
      "acc": 0.74196491,
      "epoch": 1.5475646879756468,
      "grad_norm": 4.53125,
      "learning_rate": 1.335046332186829e-06,
      "loss": 1.09376678,
      "memory(GiB)": 112.26,
      "step": 61005,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.74082794,
      "epoch": 1.547691527143582,
      "grad_norm": 3.875,
      "learning_rate": 1.3343330984646262e-06,
      "loss": 1.04262104,
      "memory(GiB)": 112.26,
      "step": 61010,
      "train_speed(iter/s)": 1.128456
    },
    {
      "acc": 0.75639639,
      "epoch": 1.547818366311517,
      "grad_norm": 3.40625,
      "learning_rate": 1.33362002597482e-06,
      "loss": 1.05053921,
      "memory(GiB)": 112.26,
      "step": 61015,
      "train_speed(iter/s)": 1.128464
    },
    {
      "acc": 0.73953924,
      "epoch": 1.547945205479452,
      "grad_norm": 3.84375,
      "learning_rate": 1.3329071147487743e-06,
      "loss": 1.07249737,
      "memory(GiB)": 112.26,
      "step": 61020,
      "train_speed(iter/s)": 1.128468
    },
    {
      "acc": 0.74447427,
      "epoch": 1.548072044647387,
      "grad_norm": 3.640625,
      "learning_rate": 1.3321943648178442e-06,
      "loss": 0.99727755,
      "memory(GiB)": 112.26,
      "step": 61025,
      "train_speed(iter/s)": 1.128483
    },
    {
      "acc": 0.7363822,
      "epoch": 1.5481988838153222,
      "grad_norm": 3.6875,
      "learning_rate": 1.3314817762133848e-06,
      "loss": 1.08633003,
      "memory(GiB)": 112.26,
      "step": 61030,
      "train_speed(iter/s)": 1.128489
    },
    {
      "acc": 0.74509583,
      "epoch": 1.5483257229832572,
      "grad_norm": 3.78125,
      "learning_rate": 1.330769348966734e-06,
      "loss": 1.08392572,
      "memory(GiB)": 112.26,
      "step": 61035,
      "train_speed(iter/s)": 1.128499
    },
    {
      "acc": 0.74920053,
      "epoch": 1.5484525621511924,
      "grad_norm": 3.84375,
      "learning_rate": 1.3300570831092292e-06,
      "loss": 1.04851646,
      "memory(GiB)": 112.26,
      "step": 61040,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.74523582,
      "epoch": 1.5485794013191274,
      "grad_norm": 4.78125,
      "learning_rate": 1.3293449786721973e-06,
      "loss": 0.98923302,
      "memory(GiB)": 112.26,
      "step": 61045,
      "train_speed(iter/s)": 1.128496
    },
    {
      "acc": 0.73358059,
      "epoch": 1.5487062404870624,
      "grad_norm": 3.78125,
      "learning_rate": 1.3286330356869648e-06,
      "loss": 1.08432245,
      "memory(GiB)": 112.26,
      "step": 61050,
      "train_speed(iter/s)": 1.128507
    },
    {
      "acc": 0.72508869,
      "epoch": 1.5488330796549974,
      "grad_norm": 3.9375,
      "learning_rate": 1.3279212541848413e-06,
      "loss": 1.10738564,
      "memory(GiB)": 112.26,
      "step": 61055,
      "train_speed(iter/s)": 1.128521
    },
    {
      "acc": 0.74204221,
      "epoch": 1.5489599188229324,
      "grad_norm": 4.875,
      "learning_rate": 1.3272096341971342e-06,
      "loss": 1.0555254,
      "memory(GiB)": 112.26,
      "step": 61060,
      "train_speed(iter/s)": 1.12854
    },
    {
      "acc": 0.73515649,
      "epoch": 1.5490867579908676,
      "grad_norm": 4.71875,
      "learning_rate": 1.326498175755147e-06,
      "loss": 1.09393177,
      "memory(GiB)": 112.26,
      "step": 61065,
      "train_speed(iter/s)": 1.128556
    },
    {
      "acc": 0.74503212,
      "epoch": 1.5492135971588028,
      "grad_norm": 4.84375,
      "learning_rate": 1.3257868788901722e-06,
      "loss": 1.08680944,
      "memory(GiB)": 112.26,
      "step": 61070,
      "train_speed(iter/s)": 1.128559
    },
    {
      "acc": 0.74142199,
      "epoch": 1.5493404363267378,
      "grad_norm": 3.390625,
      "learning_rate": 1.3250757436334932e-06,
      "loss": 1.02902336,
      "memory(GiB)": 112.26,
      "step": 61075,
      "train_speed(iter/s)": 1.128568
    },
    {
      "acc": 0.74454794,
      "epoch": 1.5494672754946728,
      "grad_norm": 3.875,
      "learning_rate": 1.3243647700163887e-06,
      "loss": 1.00834188,
      "memory(GiB)": 112.26,
      "step": 61080,
      "train_speed(iter/s)": 1.128582
    },
    {
      "acc": 0.74094467,
      "epoch": 1.5495941146626078,
      "grad_norm": 3.375,
      "learning_rate": 1.323653958070134e-06,
      "loss": 1.07182989,
      "memory(GiB)": 112.26,
      "step": 61085,
      "train_speed(iter/s)": 1.128601
    },
    {
      "acc": 0.74187746,
      "epoch": 1.5497209538305428,
      "grad_norm": 4.46875,
      "learning_rate": 1.3229433078259928e-06,
      "loss": 1.04742022,
      "memory(GiB)": 112.26,
      "step": 61090,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.73485403,
      "epoch": 1.549847792998478,
      "grad_norm": 3.1875,
      "learning_rate": 1.3222328193152195e-06,
      "loss": 1.02941456,
      "memory(GiB)": 112.26,
      "step": 61095,
      "train_speed(iter/s)": 1.12862
    },
    {
      "acc": 0.74421101,
      "epoch": 1.549974632166413,
      "grad_norm": 4.0,
      "learning_rate": 1.3215224925690683e-06,
      "loss": 1.07084064,
      "memory(GiB)": 112.26,
      "step": 61100,
      "train_speed(iter/s)": 1.128634
    },
    {
      "acc": 0.75879183,
      "epoch": 1.5501014713343482,
      "grad_norm": 3.140625,
      "learning_rate": 1.3208123276187807e-06,
      "loss": 0.99154711,
      "memory(GiB)": 112.26,
      "step": 61105,
      "train_speed(iter/s)": 1.128647
    },
    {
      "acc": 0.73373604,
      "epoch": 1.5502283105022832,
      "grad_norm": 3.25,
      "learning_rate": 1.3201023244955952e-06,
      "loss": 1.08465557,
      "memory(GiB)": 112.26,
      "step": 61110,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.75379581,
      "epoch": 1.5503551496702181,
      "grad_norm": 3.265625,
      "learning_rate": 1.319392483230736e-06,
      "loss": 1.03274622,
      "memory(GiB)": 112.26,
      "step": 61115,
      "train_speed(iter/s)": 1.12867
    },
    {
      "acc": 0.72479048,
      "epoch": 1.5504819888381531,
      "grad_norm": 3.828125,
      "learning_rate": 1.318682803855429e-06,
      "loss": 1.1318758,
      "memory(GiB)": 112.26,
      "step": 61120,
      "train_speed(iter/s)": 1.128684
    },
    {
      "acc": 0.74854717,
      "epoch": 1.5506088280060881,
      "grad_norm": 3.984375,
      "learning_rate": 1.3179732864008888e-06,
      "loss": 1.07092113,
      "memory(GiB)": 112.26,
      "step": 61125,
      "train_speed(iter/s)": 1.128694
    },
    {
      "acc": 0.74136047,
      "epoch": 1.5507356671740233,
      "grad_norm": 3.78125,
      "learning_rate": 1.3172639308983226e-06,
      "loss": 1.03844337,
      "memory(GiB)": 112.26,
      "step": 61130,
      "train_speed(iter/s)": 1.128709
    },
    {
      "acc": 0.74107933,
      "epoch": 1.5508625063419585,
      "grad_norm": 3.21875,
      "learning_rate": 1.3165547373789306e-06,
      "loss": 1.02360506,
      "memory(GiB)": 112.26,
      "step": 61135,
      "train_speed(iter/s)": 1.12872
    },
    {
      "acc": 0.7412529,
      "epoch": 1.5509893455098935,
      "grad_norm": 3.65625,
      "learning_rate": 1.3158457058739066e-06,
      "loss": 1.06174297,
      "memory(GiB)": 112.26,
      "step": 61140,
      "train_speed(iter/s)": 1.128725
    },
    {
      "acc": 0.74448032,
      "epoch": 1.5511161846778285,
      "grad_norm": 3.9375,
      "learning_rate": 1.3151368364144373e-06,
      "loss": 1.11125031,
      "memory(GiB)": 112.26,
      "step": 61145,
      "train_speed(iter/s)": 1.128737
    },
    {
      "acc": 0.74051185,
      "epoch": 1.5512430238457635,
      "grad_norm": 3.703125,
      "learning_rate": 1.3144281290317012e-06,
      "loss": 1.04884205,
      "memory(GiB)": 112.26,
      "step": 61150,
      "train_speed(iter/s)": 1.12875
    },
    {
      "acc": 0.73691282,
      "epoch": 1.5513698630136985,
      "grad_norm": 4.0,
      "learning_rate": 1.3137195837568716e-06,
      "loss": 1.02193642,
      "memory(GiB)": 112.26,
      "step": 61155,
      "train_speed(iter/s)": 1.12876
    },
    {
      "acc": 0.7411541,
      "epoch": 1.5514967021816337,
      "grad_norm": 3.671875,
      "learning_rate": 1.313011200621112e-06,
      "loss": 1.05199089,
      "memory(GiB)": 112.26,
      "step": 61160,
      "train_speed(iter/s)": 1.12878
    },
    {
      "acc": 0.74109182,
      "epoch": 1.5516235413495687,
      "grad_norm": 3.015625,
      "learning_rate": 1.312302979655582e-06,
      "loss": 1.04739914,
      "memory(GiB)": 112.26,
      "step": 61165,
      "train_speed(iter/s)": 1.128793
    },
    {
      "acc": 0.74206119,
      "epoch": 1.551750380517504,
      "grad_norm": 3.90625,
      "learning_rate": 1.3115949208914302e-06,
      "loss": 1.0362812,
      "memory(GiB)": 112.26,
      "step": 61170,
      "train_speed(iter/s)": 1.128808
    },
    {
      "acc": 0.73992949,
      "epoch": 1.551877219685439,
      "grad_norm": 3.359375,
      "learning_rate": 1.3108870243598022e-06,
      "loss": 1.03408852,
      "memory(GiB)": 112.26,
      "step": 61175,
      "train_speed(iter/s)": 1.12882
    },
    {
      "acc": 0.73827963,
      "epoch": 1.552004058853374,
      "grad_norm": 3.640625,
      "learning_rate": 1.310179290091833e-06,
      "loss": 1.08768673,
      "memory(GiB)": 112.26,
      "step": 61180,
      "train_speed(iter/s)": 1.128837
    },
    {
      "acc": 0.75890541,
      "epoch": 1.5521308980213089,
      "grad_norm": 3.703125,
      "learning_rate": 1.3094717181186518e-06,
      "loss": 1.04198551,
      "memory(GiB)": 112.26,
      "step": 61185,
      "train_speed(iter/s)": 1.128853
    },
    {
      "acc": 0.73210821,
      "epoch": 1.552257737189244,
      "grad_norm": 5.03125,
      "learning_rate": 1.3087643084713836e-06,
      "loss": 1.07271843,
      "memory(GiB)": 112.26,
      "step": 61190,
      "train_speed(iter/s)": 1.12887
    },
    {
      "acc": 0.75301361,
      "epoch": 1.552384576357179,
      "grad_norm": 4.03125,
      "learning_rate": 1.30805706118114e-06,
      "loss": 1.02024498,
      "memory(GiB)": 112.26,
      "step": 61195,
      "train_speed(iter/s)": 1.128881
    },
    {
      "acc": 0.7375495,
      "epoch": 1.5525114155251143,
      "grad_norm": 4.25,
      "learning_rate": 1.3073499762790287e-06,
      "loss": 1.07992039,
      "memory(GiB)": 112.26,
      "step": 61200,
      "train_speed(iter/s)": 1.128895
    },
    {
      "acc": 0.74867945,
      "epoch": 1.5526382546930493,
      "grad_norm": 3.265625,
      "learning_rate": 1.306643053796154e-06,
      "loss": 1.04504871,
      "memory(GiB)": 112.26,
      "step": 61205,
      "train_speed(iter/s)": 1.128906
    },
    {
      "acc": 0.74507265,
      "epoch": 1.5527650938609843,
      "grad_norm": 4.25,
      "learning_rate": 1.3059362937636084e-06,
      "loss": 1.08405209,
      "memory(GiB)": 112.26,
      "step": 61210,
      "train_speed(iter/s)": 1.128926
    },
    {
      "acc": 0.75278835,
      "epoch": 1.5528919330289193,
      "grad_norm": 3.796875,
      "learning_rate": 1.3052296962124756e-06,
      "loss": 0.97754364,
      "memory(GiB)": 112.26,
      "step": 61215,
      "train_speed(iter/s)": 1.128933
    },
    {
      "acc": 0.73420548,
      "epoch": 1.5530187721968542,
      "grad_norm": 4.03125,
      "learning_rate": 1.3045232611738357e-06,
      "loss": 1.08632698,
      "memory(GiB)": 112.26,
      "step": 61220,
      "train_speed(iter/s)": 1.128945
    },
    {
      "acc": 0.73495731,
      "epoch": 1.5531456113647895,
      "grad_norm": 3.828125,
      "learning_rate": 1.3038169886787632e-06,
      "loss": 1.07171822,
      "memory(GiB)": 112.26,
      "step": 61225,
      "train_speed(iter/s)": 1.128958
    },
    {
      "acc": 0.75660868,
      "epoch": 1.5532724505327247,
      "grad_norm": 5.78125,
      "learning_rate": 1.3031108787583235e-06,
      "loss": 1.02395306,
      "memory(GiB)": 112.26,
      "step": 61230,
      "train_speed(iter/s)": 1.128968
    },
    {
      "acc": 0.72716026,
      "epoch": 1.5533992897006597,
      "grad_norm": 3.546875,
      "learning_rate": 1.3024049314435694e-06,
      "loss": 1.05756674,
      "memory(GiB)": 112.26,
      "step": 61235,
      "train_speed(iter/s)": 1.128981
    },
    {
      "acc": 0.73227291,
      "epoch": 1.5535261288685946,
      "grad_norm": 3.6875,
      "learning_rate": 1.301699146765557e-06,
      "loss": 1.07928581,
      "memory(GiB)": 112.26,
      "step": 61240,
      "train_speed(iter/s)": 1.128994
    },
    {
      "acc": 0.75029163,
      "epoch": 1.5536529680365296,
      "grad_norm": 3.828125,
      "learning_rate": 1.3009935247553274e-06,
      "loss": 1.06326704,
      "memory(GiB)": 112.26,
      "step": 61245,
      "train_speed(iter/s)": 1.129007
    },
    {
      "acc": 0.73401828,
      "epoch": 1.5537798072044646,
      "grad_norm": 3.640625,
      "learning_rate": 1.3002880654439192e-06,
      "loss": 1.09814034,
      "memory(GiB)": 112.26,
      "step": 61250,
      "train_speed(iter/s)": 1.129021
    },
    {
      "acc": 0.72878175,
      "epoch": 1.5539066463723998,
      "grad_norm": 3.28125,
      "learning_rate": 1.2995827688623568e-06,
      "loss": 1.12788391,
      "memory(GiB)": 112.26,
      "step": 61255,
      "train_speed(iter/s)": 1.129039
    },
    {
      "acc": 0.74906936,
      "epoch": 1.5540334855403348,
      "grad_norm": 3.140625,
      "learning_rate": 1.298877635041667e-06,
      "loss": 0.99419012,
      "memory(GiB)": 112.26,
      "step": 61260,
      "train_speed(iter/s)": 1.129045
    },
    {
      "acc": 0.72672853,
      "epoch": 1.55416032470827,
      "grad_norm": 3.375,
      "learning_rate": 1.2981726640128633e-06,
      "loss": 1.09563074,
      "memory(GiB)": 112.26,
      "step": 61265,
      "train_speed(iter/s)": 1.12906
    },
    {
      "acc": 0.75253124,
      "epoch": 1.554287163876205,
      "grad_norm": 3.09375,
      "learning_rate": 1.297467855806953e-06,
      "loss": 0.99392757,
      "memory(GiB)": 112.26,
      "step": 61270,
      "train_speed(iter/s)": 1.129075
    },
    {
      "acc": 0.74284363,
      "epoch": 1.55441400304414,
      "grad_norm": 5.84375,
      "learning_rate": 1.2967632104549371e-06,
      "loss": 1.07329092,
      "memory(GiB)": 112.26,
      "step": 61275,
      "train_speed(iter/s)": 1.129081
    },
    {
      "acc": 0.74097824,
      "epoch": 1.554540842212075,
      "grad_norm": 3.53125,
      "learning_rate": 1.296058727987809e-06,
      "loss": 1.04696236,
      "memory(GiB)": 112.26,
      "step": 61280,
      "train_speed(iter/s)": 1.129101
    },
    {
      "acc": 0.73950367,
      "epoch": 1.55466768138001,
      "grad_norm": 3.28125,
      "learning_rate": 1.295354408436555e-06,
      "loss": 1.10947762,
      "memory(GiB)": 112.26,
      "step": 61285,
      "train_speed(iter/s)": 1.12911
    },
    {
      "acc": 0.74813948,
      "epoch": 1.5547945205479452,
      "grad_norm": 4.0625,
      "learning_rate": 1.294650251832154e-06,
      "loss": 1.02832079,
      "memory(GiB)": 112.26,
      "step": 61290,
      "train_speed(iter/s)": 1.129124
    },
    {
      "acc": 0.73884687,
      "epoch": 1.5549213597158804,
      "grad_norm": 4.1875,
      "learning_rate": 1.2939462582055784e-06,
      "loss": 1.03372669,
      "memory(GiB)": 112.26,
      "step": 61295,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.74668684,
      "epoch": 1.5550481988838154,
      "grad_norm": 3.5625,
      "learning_rate": 1.2932424275877926e-06,
      "loss": 1.01535702,
      "memory(GiB)": 112.26,
      "step": 61300,
      "train_speed(iter/s)": 1.129144
    },
    {
      "acc": 0.74366789,
      "epoch": 1.5551750380517504,
      "grad_norm": 4.09375,
      "learning_rate": 1.2925387600097543e-06,
      "loss": 1.03685398,
      "memory(GiB)": 112.26,
      "step": 61305,
      "train_speed(iter/s)": 1.129156
    },
    {
      "acc": 0.73789935,
      "epoch": 1.5553018772196854,
      "grad_norm": 2.890625,
      "learning_rate": 1.291835255502414e-06,
      "loss": 1.03233662,
      "memory(GiB)": 112.26,
      "step": 61310,
      "train_speed(iter/s)": 1.12917
    },
    {
      "acc": 0.72715893,
      "epoch": 1.5554287163876204,
      "grad_norm": 3.3125,
      "learning_rate": 1.2911319140967148e-06,
      "loss": 1.04956017,
      "memory(GiB)": 112.26,
      "step": 61315,
      "train_speed(iter/s)": 1.129182
    },
    {
      "acc": 0.7413794,
      "epoch": 1.5555555555555556,
      "grad_norm": 3.65625,
      "learning_rate": 1.290428735823593e-06,
      "loss": 1.07985554,
      "memory(GiB)": 112.26,
      "step": 61320,
      "train_speed(iter/s)": 1.129191
    },
    {
      "acc": 0.727847,
      "epoch": 1.5556823947234906,
      "grad_norm": 3.859375,
      "learning_rate": 1.2897257207139758e-06,
      "loss": 1.1217104,
      "memory(GiB)": 112.26,
      "step": 61325,
      "train_speed(iter/s)": 1.129209
    },
    {
      "acc": 0.74164405,
      "epoch": 1.5558092338914258,
      "grad_norm": 3.421875,
      "learning_rate": 1.28902286879879e-06,
      "loss": 1.0061265,
      "memory(GiB)": 112.26,
      "step": 61330,
      "train_speed(iter/s)": 1.129221
    },
    {
      "acc": 0.7376317,
      "epoch": 1.5559360730593608,
      "grad_norm": 3.859375,
      "learning_rate": 1.2883201801089445e-06,
      "loss": 1.08704996,
      "memory(GiB)": 112.26,
      "step": 61335,
      "train_speed(iter/s)": 1.129233
    },
    {
      "acc": 0.72898407,
      "epoch": 1.5560629122272958,
      "grad_norm": 3.765625,
      "learning_rate": 1.2876176546753494e-06,
      "loss": 1.10555782,
      "memory(GiB)": 112.26,
      "step": 61340,
      "train_speed(iter/s)": 1.129243
    },
    {
      "acc": 0.74425344,
      "epoch": 1.5561897513952307,
      "grad_norm": 3.78125,
      "learning_rate": 1.286915292528903e-06,
      "loss": 1.08995848,
      "memory(GiB)": 112.26,
      "step": 61345,
      "train_speed(iter/s)": 1.129256
    },
    {
      "acc": 0.74114275,
      "epoch": 1.556316590563166,
      "grad_norm": 3.796875,
      "learning_rate": 1.286213093700503e-06,
      "loss": 1.03219051,
      "memory(GiB)": 112.26,
      "step": 61350,
      "train_speed(iter/s)": 1.12927
    },
    {
      "acc": 0.74575863,
      "epoch": 1.556443429731101,
      "grad_norm": 4.59375,
      "learning_rate": 1.28551105822103e-06,
      "loss": 1.02046452,
      "memory(GiB)": 112.26,
      "step": 61355,
      "train_speed(iter/s)": 1.129289
    },
    {
      "acc": 0.74707851,
      "epoch": 1.5565702688990362,
      "grad_norm": 4.03125,
      "learning_rate": 1.2848091861213636e-06,
      "loss": 1.05032654,
      "memory(GiB)": 112.26,
      "step": 61360,
      "train_speed(iter/s)": 1.129305
    },
    {
      "acc": 0.72512712,
      "epoch": 1.5566971080669711,
      "grad_norm": 4.0,
      "learning_rate": 1.2841074774323775e-06,
      "loss": 1.16462116,
      "memory(GiB)": 112.26,
      "step": 61365,
      "train_speed(iter/s)": 1.129317
    },
    {
      "acc": 0.73047781,
      "epoch": 1.5568239472349061,
      "grad_norm": 3.296875,
      "learning_rate": 1.2834059321849363e-06,
      "loss": 1.08231621,
      "memory(GiB)": 112.26,
      "step": 61370,
      "train_speed(iter/s)": 1.12933
    },
    {
      "acc": 0.76742773,
      "epoch": 1.5569507864028411,
      "grad_norm": 4.25,
      "learning_rate": 1.2827045504098928e-06,
      "loss": 1.04068708,
      "memory(GiB)": 112.26,
      "step": 61375,
      "train_speed(iter/s)": 1.129339
    },
    {
      "acc": 0.74638076,
      "epoch": 1.5570776255707761,
      "grad_norm": 3.828125,
      "learning_rate": 1.2820033321381009e-06,
      "loss": 1.02333927,
      "memory(GiB)": 112.26,
      "step": 61380,
      "train_speed(iter/s)": 1.129339
    },
    {
      "acc": 0.75347538,
      "epoch": 1.5572044647387113,
      "grad_norm": 3.75,
      "learning_rate": 1.2813022774004024e-06,
      "loss": 1.00349617,
      "memory(GiB)": 112.26,
      "step": 61385,
      "train_speed(iter/s)": 1.129349
    },
    {
      "acc": 0.74948444,
      "epoch": 1.5573313039066465,
      "grad_norm": 3.5625,
      "learning_rate": 1.280601386227634e-06,
      "loss": 1.06861486,
      "memory(GiB)": 112.26,
      "step": 61390,
      "train_speed(iter/s)": 1.129367
    },
    {
      "acc": 0.73676553,
      "epoch": 1.5574581430745815,
      "grad_norm": 3.78125,
      "learning_rate": 1.279900658650619e-06,
      "loss": 1.08328896,
      "memory(GiB)": 112.26,
      "step": 61395,
      "train_speed(iter/s)": 1.129375
    },
    {
      "acc": 0.72889681,
      "epoch": 1.5575849822425165,
      "grad_norm": 4.59375,
      "learning_rate": 1.2792000947001842e-06,
      "loss": 1.09001665,
      "memory(GiB)": 112.26,
      "step": 61400,
      "train_speed(iter/s)": 1.129387
    },
    {
      "acc": 0.74161825,
      "epoch": 1.5577118214104515,
      "grad_norm": 3.421875,
      "learning_rate": 1.2784996944071415e-06,
      "loss": 1.05494156,
      "memory(GiB)": 112.26,
      "step": 61405,
      "train_speed(iter/s)": 1.129392
    },
    {
      "acc": 0.7319943,
      "epoch": 1.5578386605783865,
      "grad_norm": 3.890625,
      "learning_rate": 1.2777994578022972e-06,
      "loss": 1.08583469,
      "memory(GiB)": 112.26,
      "step": 61410,
      "train_speed(iter/s)": 1.129401
    },
    {
      "acc": 0.73295488,
      "epoch": 1.5579654997463217,
      "grad_norm": 4.15625,
      "learning_rate": 1.2770993849164514e-06,
      "loss": 1.08508043,
      "memory(GiB)": 112.26,
      "step": 61415,
      "train_speed(iter/s)": 1.129414
    },
    {
      "acc": 0.72577691,
      "epoch": 1.5580923389142567,
      "grad_norm": 4.1875,
      "learning_rate": 1.276399475780396e-06,
      "loss": 1.15593853,
      "memory(GiB)": 112.26,
      "step": 61420,
      "train_speed(iter/s)": 1.129429
    },
    {
      "acc": 0.73913202,
      "epoch": 1.558219178082192,
      "grad_norm": 3.484375,
      "learning_rate": 1.2756997304249164e-06,
      "loss": 1.08192177,
      "memory(GiB)": 112.26,
      "step": 61425,
      "train_speed(iter/s)": 1.129444
    },
    {
      "acc": 0.74609475,
      "epoch": 1.558346017250127,
      "grad_norm": 3.796875,
      "learning_rate": 1.2750001488807906e-06,
      "loss": 1.00511208,
      "memory(GiB)": 112.26,
      "step": 61430,
      "train_speed(iter/s)": 1.129458
    },
    {
      "acc": 0.74900823,
      "epoch": 1.5584728564180619,
      "grad_norm": 4.3125,
      "learning_rate": 1.2743007311787892e-06,
      "loss": 1.08202934,
      "memory(GiB)": 112.26,
      "step": 61435,
      "train_speed(iter/s)": 1.129475
    },
    {
      "acc": 0.7456974,
      "epoch": 1.5585996955859969,
      "grad_norm": 4.0,
      "learning_rate": 1.2736014773496757e-06,
      "loss": 1.0181282,
      "memory(GiB)": 112.26,
      "step": 61440,
      "train_speed(iter/s)": 1.12949
    },
    {
      "acc": 0.75831904,
      "epoch": 1.5587265347539319,
      "grad_norm": 3.84375,
      "learning_rate": 1.2729023874242064e-06,
      "loss": 0.98004608,
      "memory(GiB)": 112.26,
      "step": 61445,
      "train_speed(iter/s)": 1.129498
    },
    {
      "acc": 0.73110375,
      "epoch": 1.558853373921867,
      "grad_norm": 4.15625,
      "learning_rate": 1.2722034614331303e-06,
      "loss": 1.14216957,
      "memory(GiB)": 112.26,
      "step": 61450,
      "train_speed(iter/s)": 1.129517
    },
    {
      "acc": 0.73222895,
      "epoch": 1.5589802130898023,
      "grad_norm": 3.875,
      "learning_rate": 1.2715046994071889e-06,
      "loss": 1.09169178,
      "memory(GiB)": 112.26,
      "step": 61455,
      "train_speed(iter/s)": 1.129529
    },
    {
      "acc": 0.73620362,
      "epoch": 1.5591070522577373,
      "grad_norm": 3.71875,
      "learning_rate": 1.2708061013771179e-06,
      "loss": 1.06044102,
      "memory(GiB)": 112.26,
      "step": 61460,
      "train_speed(iter/s)": 1.129548
    },
    {
      "acc": 0.74390473,
      "epoch": 1.5592338914256723,
      "grad_norm": 3.046875,
      "learning_rate": 1.2701076673736428e-06,
      "loss": 1.02396393,
      "memory(GiB)": 112.26,
      "step": 61465,
      "train_speed(iter/s)": 1.129556
    },
    {
      "acc": 0.73035135,
      "epoch": 1.5593607305936072,
      "grad_norm": 3.609375,
      "learning_rate": 1.269409397427488e-06,
      "loss": 1.06823368,
      "memory(GiB)": 112.26,
      "step": 61470,
      "train_speed(iter/s)": 1.129572
    },
    {
      "acc": 0.74350004,
      "epoch": 1.5594875697615422,
      "grad_norm": 3.734375,
      "learning_rate": 1.2687112915693622e-06,
      "loss": 1.01722488,
      "memory(GiB)": 112.26,
      "step": 61475,
      "train_speed(iter/s)": 1.129573
    },
    {
      "acc": 0.72746787,
      "epoch": 1.5596144089294774,
      "grad_norm": 3.453125,
      "learning_rate": 1.2680133498299729e-06,
      "loss": 1.12476482,
      "memory(GiB)": 112.26,
      "step": 61480,
      "train_speed(iter/s)": 1.129591
    },
    {
      "acc": 0.73334565,
      "epoch": 1.5597412480974124,
      "grad_norm": 3.59375,
      "learning_rate": 1.2673155722400177e-06,
      "loss": 1.0569747,
      "memory(GiB)": 112.26,
      "step": 61485,
      "train_speed(iter/s)": 1.12961
    },
    {
      "acc": 0.73307667,
      "epoch": 1.5598680872653476,
      "grad_norm": 3.734375,
      "learning_rate": 1.2666179588301908e-06,
      "loss": 1.1223032,
      "memory(GiB)": 112.26,
      "step": 61490,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.74862866,
      "epoch": 1.5599949264332826,
      "grad_norm": 4.09375,
      "learning_rate": 1.2659205096311738e-06,
      "loss": 1.03141813,
      "memory(GiB)": 112.26,
      "step": 61495,
      "train_speed(iter/s)": 1.129642
    },
    {
      "acc": 0.7356719,
      "epoch": 1.5601217656012176,
      "grad_norm": 3.796875,
      "learning_rate": 1.2652232246736423e-06,
      "loss": 1.04688435,
      "memory(GiB)": 112.26,
      "step": 61500,
      "train_speed(iter/s)": 1.129657
    },
    {
      "acc": 0.74182701,
      "epoch": 1.5602486047691526,
      "grad_norm": 3.859375,
      "learning_rate": 1.2645261039882694e-06,
      "loss": 1.10822525,
      "memory(GiB)": 112.26,
      "step": 61505,
      "train_speed(iter/s)": 1.129664
    },
    {
      "acc": 0.73468137,
      "epoch": 1.5603754439370878,
      "grad_norm": 3.703125,
      "learning_rate": 1.263829147605718e-06,
      "loss": 1.06994877,
      "memory(GiB)": 112.26,
      "step": 61510,
      "train_speed(iter/s)": 1.129678
    },
    {
      "acc": 0.74932222,
      "epoch": 1.5605022831050228,
      "grad_norm": 4.0,
      "learning_rate": 1.26313235555664e-06,
      "loss": 1.06597967,
      "memory(GiB)": 112.26,
      "step": 61515,
      "train_speed(iter/s)": 1.129697
    },
    {
      "acc": 0.75513172,
      "epoch": 1.560629122272958,
      "grad_norm": 3.71875,
      "learning_rate": 1.2624357278716832e-06,
      "loss": 1.0085392,
      "memory(GiB)": 112.26,
      "step": 61520,
      "train_speed(iter/s)": 1.12971
    },
    {
      "acc": 0.72929101,
      "epoch": 1.560755961440893,
      "grad_norm": 3.5,
      "learning_rate": 1.2617392645814913e-06,
      "loss": 1.04354229,
      "memory(GiB)": 112.26,
      "step": 61525,
      "train_speed(iter/s)": 1.12972
    },
    {
      "acc": 0.72853527,
      "epoch": 1.560882800608828,
      "grad_norm": 3.546875,
      "learning_rate": 1.2610429657166983e-06,
      "loss": 1.13266792,
      "memory(GiB)": 112.26,
      "step": 61530,
      "train_speed(iter/s)": 1.129736
    },
    {
      "acc": 0.75554829,
      "epoch": 1.561009639776763,
      "grad_norm": 3.203125,
      "learning_rate": 1.2603468313079265e-06,
      "loss": 0.99821682,
      "memory(GiB)": 112.26,
      "step": 61535,
      "train_speed(iter/s)": 1.12975
    },
    {
      "acc": 0.74734468,
      "epoch": 1.561136478944698,
      "grad_norm": 3.453125,
      "learning_rate": 1.2596508613857982e-06,
      "loss": 1.00889206,
      "memory(GiB)": 112.26,
      "step": 61540,
      "train_speed(iter/s)": 1.129766
    },
    {
      "acc": 0.73592486,
      "epoch": 1.5612633181126332,
      "grad_norm": 3.546875,
      "learning_rate": 1.258955055980925e-06,
      "loss": 1.04744225,
      "memory(GiB)": 112.26,
      "step": 61545,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.74501162,
      "epoch": 1.5613901572805684,
      "grad_norm": 3.46875,
      "learning_rate": 1.258259415123911e-06,
      "loss": 1.04131002,
      "memory(GiB)": 112.26,
      "step": 61550,
      "train_speed(iter/s)": 1.1298
    },
    {
      "acc": 0.74955554,
      "epoch": 1.5615169964485034,
      "grad_norm": 3.40625,
      "learning_rate": 1.2575639388453532e-06,
      "loss": 0.99160538,
      "memory(GiB)": 112.26,
      "step": 61555,
      "train_speed(iter/s)": 1.129818
    },
    {
      "acc": 0.74373298,
      "epoch": 1.5616438356164384,
      "grad_norm": 3.640625,
      "learning_rate": 1.2568686271758423e-06,
      "loss": 1.01510048,
      "memory(GiB)": 112.26,
      "step": 61560,
      "train_speed(iter/s)": 1.129831
    },
    {
      "acc": 0.73454552,
      "epoch": 1.5617706747843734,
      "grad_norm": 3.46875,
      "learning_rate": 1.2561734801459612e-06,
      "loss": 1.08324242,
      "memory(GiB)": 112.26,
      "step": 61565,
      "train_speed(iter/s)": 1.129846
    },
    {
      "acc": 0.74829035,
      "epoch": 1.5618975139523084,
      "grad_norm": 3.734375,
      "learning_rate": 1.2554784977862856e-06,
      "loss": 1.03229094,
      "memory(GiB)": 112.26,
      "step": 61570,
      "train_speed(iter/s)": 1.129858
    },
    {
      "acc": 0.74043117,
      "epoch": 1.5620243531202436,
      "grad_norm": 3.75,
      "learning_rate": 1.2547836801273833e-06,
      "loss": 1.06807032,
      "memory(GiB)": 112.26,
      "step": 61575,
      "train_speed(iter/s)": 1.129867
    },
    {
      "acc": 0.73873534,
      "epoch": 1.5621511922881786,
      "grad_norm": 3.84375,
      "learning_rate": 1.2540890271998162e-06,
      "loss": 1.09557867,
      "memory(GiB)": 112.26,
      "step": 61580,
      "train_speed(iter/s)": 1.129875
    },
    {
      "acc": 0.72456646,
      "epoch": 1.5622780314561138,
      "grad_norm": 3.109375,
      "learning_rate": 1.2533945390341379e-06,
      "loss": 1.14168472,
      "memory(GiB)": 112.26,
      "step": 61585,
      "train_speed(iter/s)": 1.129878
    },
    {
      "acc": 0.74119811,
      "epoch": 1.5624048706240488,
      "grad_norm": 3.515625,
      "learning_rate": 1.2527002156608946e-06,
      "loss": 1.05035181,
      "memory(GiB)": 112.26,
      "step": 61590,
      "train_speed(iter/s)": 1.129894
    },
    {
      "acc": 0.74388142,
      "epoch": 1.5625317097919837,
      "grad_norm": 4.03125,
      "learning_rate": 1.2520060571106275e-06,
      "loss": 1.02235947,
      "memory(GiB)": 112.26,
      "step": 61595,
      "train_speed(iter/s)": 1.129901
    },
    {
      "acc": 0.73035989,
      "epoch": 1.5626585489599187,
      "grad_norm": 3.6875,
      "learning_rate": 1.2513120634138665e-06,
      "loss": 1.11770325,
      "memory(GiB)": 112.26,
      "step": 61600,
      "train_speed(iter/s)": 1.129906
    },
    {
      "acc": 0.73966141,
      "epoch": 1.5627853881278537,
      "grad_norm": 3.734375,
      "learning_rate": 1.250618234601138e-06,
      "loss": 1.0178791,
      "memory(GiB)": 112.26,
      "step": 61605,
      "train_speed(iter/s)": 1.129914
    },
    {
      "acc": 0.74398727,
      "epoch": 1.562912227295789,
      "grad_norm": 4.1875,
      "learning_rate": 1.2499245707029595e-06,
      "loss": 1.01535339,
      "memory(GiB)": 112.26,
      "step": 61610,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.73513002,
      "epoch": 1.5630390664637241,
      "grad_norm": 3.84375,
      "learning_rate": 1.2492310717498412e-06,
      "loss": 1.05410004,
      "memory(GiB)": 112.26,
      "step": 61615,
      "train_speed(iter/s)": 1.129931
    },
    {
      "acc": 0.75734639,
      "epoch": 1.5631659056316591,
      "grad_norm": 3.796875,
      "learning_rate": 1.2485377377722863e-06,
      "loss": 1.06736107,
      "memory(GiB)": 112.26,
      "step": 61620,
      "train_speed(iter/s)": 1.129949
    },
    {
      "acc": 0.75649104,
      "epoch": 1.5632927447995941,
      "grad_norm": 6.6875,
      "learning_rate": 1.2478445688007894e-06,
      "loss": 1.02395735,
      "memory(GiB)": 112.26,
      "step": 61625,
      "train_speed(iter/s)": 1.129968
    },
    {
      "acc": 0.74343138,
      "epoch": 1.5634195839675291,
      "grad_norm": 3.65625,
      "learning_rate": 1.2471515648658434e-06,
      "loss": 1.00285721,
      "memory(GiB)": 112.26,
      "step": 61630,
      "train_speed(iter/s)": 1.129985
    },
    {
      "acc": 0.74643536,
      "epoch": 1.563546423135464,
      "grad_norm": 3.828125,
      "learning_rate": 1.2464587259979254e-06,
      "loss": 1.0691802,
      "memory(GiB)": 112.26,
      "step": 61635,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.73888011,
      "epoch": 1.5636732623033993,
      "grad_norm": 5.4375,
      "learning_rate": 1.2457660522275095e-06,
      "loss": 1.07612972,
      "memory(GiB)": 112.26,
      "step": 61640,
      "train_speed(iter/s)": 1.130018
    },
    {
      "acc": 0.74239702,
      "epoch": 1.5638001014713343,
      "grad_norm": 5.15625,
      "learning_rate": 1.2450735435850654e-06,
      "loss": 1.04784575,
      "memory(GiB)": 112.26,
      "step": 61645,
      "train_speed(iter/s)": 1.130031
    },
    {
      "acc": 0.73372393,
      "epoch": 1.5639269406392695,
      "grad_norm": 3.828125,
      "learning_rate": 1.244381200101053e-06,
      "loss": 1.09200058,
      "memory(GiB)": 112.26,
      "step": 61650,
      "train_speed(iter/s)": 1.130045
    },
    {
      "acc": 0.73420992,
      "epoch": 1.5640537798072045,
      "grad_norm": 3.75,
      "learning_rate": 1.2436890218059217e-06,
      "loss": 1.08986559,
      "memory(GiB)": 112.26,
      "step": 61655,
      "train_speed(iter/s)": 1.130057
    },
    {
      "acc": 0.73587394,
      "epoch": 1.5641806189751395,
      "grad_norm": 3.375,
      "learning_rate": 1.2429970087301163e-06,
      "loss": 1.02182283,
      "memory(GiB)": 112.26,
      "step": 61660,
      "train_speed(iter/s)": 1.130056
    },
    {
      "acc": 0.73251233,
      "epoch": 1.5643074581430745,
      "grad_norm": 4.0,
      "learning_rate": 1.2423051609040777e-06,
      "loss": 1.10936766,
      "memory(GiB)": 112.26,
      "step": 61665,
      "train_speed(iter/s)": 1.130069
    },
    {
      "acc": 0.7304853,
      "epoch": 1.5644342973110097,
      "grad_norm": 3.96875,
      "learning_rate": 1.2416134783582368e-06,
      "loss": 1.0755085,
      "memory(GiB)": 112.26,
      "step": 61670,
      "train_speed(iter/s)": 1.130081
    },
    {
      "acc": 0.73866453,
      "epoch": 1.5645611364789447,
      "grad_norm": 3.34375,
      "learning_rate": 1.2409219611230116e-06,
      "loss": 1.07485304,
      "memory(GiB)": 112.26,
      "step": 61675,
      "train_speed(iter/s)": 1.130094
    },
    {
      "acc": 0.74768229,
      "epoch": 1.56468797564688,
      "grad_norm": 3.546875,
      "learning_rate": 1.2402306092288236e-06,
      "loss": 1.01572161,
      "memory(GiB)": 112.26,
      "step": 61680,
      "train_speed(iter/s)": 1.130106
    },
    {
      "acc": 0.74817066,
      "epoch": 1.5648148148148149,
      "grad_norm": 4.15625,
      "learning_rate": 1.2395394227060793e-06,
      "loss": 1.07924614,
      "memory(GiB)": 112.26,
      "step": 61685,
      "train_speed(iter/s)": 1.130115
    },
    {
      "acc": 0.73905296,
      "epoch": 1.5649416539827499,
      "grad_norm": 4.4375,
      "learning_rate": 1.238848401585182e-06,
      "loss": 1.06558237,
      "memory(GiB)": 112.26,
      "step": 61690,
      "train_speed(iter/s)": 1.13013
    },
    {
      "acc": 0.72955046,
      "epoch": 1.5650684931506849,
      "grad_norm": 3.65625,
      "learning_rate": 1.2381575458965218e-06,
      "loss": 1.04194078,
      "memory(GiB)": 112.26,
      "step": 61695,
      "train_speed(iter/s)": 1.130146
    },
    {
      "acc": 0.74124241,
      "epoch": 1.5651953323186198,
      "grad_norm": 3.921875,
      "learning_rate": 1.2374668556704888e-06,
      "loss": 1.05506039,
      "memory(GiB)": 112.26,
      "step": 61700,
      "train_speed(iter/s)": 1.130162
    },
    {
      "acc": 0.74829135,
      "epoch": 1.565322171486555,
      "grad_norm": 4.09375,
      "learning_rate": 1.2367763309374625e-06,
      "loss": 1.0173357,
      "memory(GiB)": 112.26,
      "step": 61705,
      "train_speed(iter/s)": 1.130181
    },
    {
      "acc": 0.74583611,
      "epoch": 1.5654490106544903,
      "grad_norm": 3.234375,
      "learning_rate": 1.2360859717278145e-06,
      "loss": 1.03231153,
      "memory(GiB)": 112.26,
      "step": 61710,
      "train_speed(iter/s)": 1.130186
    },
    {
      "acc": 0.72861681,
      "epoch": 1.5655758498224253,
      "grad_norm": 3.609375,
      "learning_rate": 1.2353957780719106e-06,
      "loss": 1.04414082,
      "memory(GiB)": 112.26,
      "step": 61715,
      "train_speed(iter/s)": 1.130073
    },
    {
      "acc": 0.73028164,
      "epoch": 1.5657026889903602,
      "grad_norm": 4.09375,
      "learning_rate": 1.2347057500001075e-06,
      "loss": 1.12812881,
      "memory(GiB)": 112.26,
      "step": 61720,
      "train_speed(iter/s)": 1.130092
    },
    {
      "acc": 0.74599233,
      "epoch": 1.5658295281582952,
      "grad_norm": 3.390625,
      "learning_rate": 1.2340158875427566e-06,
      "loss": 1.05341368,
      "memory(GiB)": 112.26,
      "step": 61725,
      "train_speed(iter/s)": 1.130109
    },
    {
      "acc": 0.73821082,
      "epoch": 1.5659563673262302,
      "grad_norm": 4.125,
      "learning_rate": 1.2333261907302013e-06,
      "loss": 1.04716396,
      "memory(GiB)": 112.26,
      "step": 61730,
      "train_speed(iter/s)": 1.130126
    },
    {
      "acc": 0.74890089,
      "epoch": 1.5660832064941654,
      "grad_norm": 3.28125,
      "learning_rate": 1.2326366595927763e-06,
      "loss": 1.020121,
      "memory(GiB)": 112.26,
      "step": 61735,
      "train_speed(iter/s)": 1.130143
    },
    {
      "acc": 0.74137249,
      "epoch": 1.5662100456621004,
      "grad_norm": 3.265625,
      "learning_rate": 1.2319472941608118e-06,
      "loss": 1.08628521,
      "memory(GiB)": 112.26,
      "step": 61740,
      "train_speed(iter/s)": 1.130155
    },
    {
      "acc": 0.74378033,
      "epoch": 1.5663368848300356,
      "grad_norm": 4.34375,
      "learning_rate": 1.231258094464628e-06,
      "loss": 1.08044338,
      "memory(GiB)": 112.26,
      "step": 61745,
      "train_speed(iter/s)": 1.130167
    },
    {
      "acc": 0.73477902,
      "epoch": 1.5664637239979706,
      "grad_norm": 4.21875,
      "learning_rate": 1.23056906053454e-06,
      "loss": 1.08525524,
      "memory(GiB)": 112.26,
      "step": 61750,
      "train_speed(iter/s)": 1.130179
    },
    {
      "acc": 0.73287077,
      "epoch": 1.5665905631659056,
      "grad_norm": 3.84375,
      "learning_rate": 1.2298801924008535e-06,
      "loss": 1.09509993,
      "memory(GiB)": 112.26,
      "step": 61755,
      "train_speed(iter/s)": 1.130185
    },
    {
      "acc": 0.73536997,
      "epoch": 1.5667174023338406,
      "grad_norm": 3.328125,
      "learning_rate": 1.2291914900938685e-06,
      "loss": 1.0542285,
      "memory(GiB)": 112.26,
      "step": 61760,
      "train_speed(iter/s)": 1.130198
    },
    {
      "acc": 0.74275236,
      "epoch": 1.5668442415017756,
      "grad_norm": 4.125,
      "learning_rate": 1.2285029536438759e-06,
      "loss": 1.04561892,
      "memory(GiB)": 112.26,
      "step": 61765,
      "train_speed(iter/s)": 1.130212
    },
    {
      "acc": 0.72717233,
      "epoch": 1.5669710806697108,
      "grad_norm": 3.109375,
      "learning_rate": 1.227814583081165e-06,
      "loss": 1.0948307,
      "memory(GiB)": 112.26,
      "step": 61770,
      "train_speed(iter/s)": 1.130219
    },
    {
      "acc": 0.74976702,
      "epoch": 1.567097919837646,
      "grad_norm": 4.90625,
      "learning_rate": 1.2271263784360088e-06,
      "loss": 1.02700405,
      "memory(GiB)": 112.26,
      "step": 61775,
      "train_speed(iter/s)": 1.130233
    },
    {
      "acc": 0.74332571,
      "epoch": 1.567224759005581,
      "grad_norm": 3.9375,
      "learning_rate": 1.2264383397386787e-06,
      "loss": 1.09738102,
      "memory(GiB)": 112.26,
      "step": 61780,
      "train_speed(iter/s)": 1.13025
    },
    {
      "acc": 0.74370928,
      "epoch": 1.567351598173516,
      "grad_norm": 4.21875,
      "learning_rate": 1.225750467019437e-06,
      "loss": 1.07964811,
      "memory(GiB)": 112.26,
      "step": 61785,
      "train_speed(iter/s)": 1.130252
    },
    {
      "acc": 0.73203812,
      "epoch": 1.567478437341451,
      "grad_norm": 3.46875,
      "learning_rate": 1.2250627603085435e-06,
      "loss": 1.10788326,
      "memory(GiB)": 112.26,
      "step": 61790,
      "train_speed(iter/s)": 1.130263
    },
    {
      "acc": 0.74862061,
      "epoch": 1.567605276509386,
      "grad_norm": 4.46875,
      "learning_rate": 1.2243752196362423e-06,
      "loss": 1.05836163,
      "memory(GiB)": 112.26,
      "step": 61795,
      "train_speed(iter/s)": 1.130274
    },
    {
      "acc": 0.73261833,
      "epoch": 1.5677321156773212,
      "grad_norm": 3.40625,
      "learning_rate": 1.2236878450327743e-06,
      "loss": 1.08182011,
      "memory(GiB)": 112.26,
      "step": 61800,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.74076414,
      "epoch": 1.5678589548452562,
      "grad_norm": 4.9375,
      "learning_rate": 1.223000636528377e-06,
      "loss": 1.06738396,
      "memory(GiB)": 112.26,
      "step": 61805,
      "train_speed(iter/s)": 1.130304
    },
    {
      "acc": 0.75297174,
      "epoch": 1.5679857940131914,
      "grad_norm": 3.40625,
      "learning_rate": 1.2223135941532754e-06,
      "loss": 1.00859385,
      "memory(GiB)": 112.26,
      "step": 61810,
      "train_speed(iter/s)": 1.130322
    },
    {
      "acc": 0.74245782,
      "epoch": 1.5681126331811264,
      "grad_norm": 3.984375,
      "learning_rate": 1.2216267179376857e-06,
      "loss": 1.07305746,
      "memory(GiB)": 112.26,
      "step": 61815,
      "train_speed(iter/s)": 1.130321
    },
    {
      "acc": 0.74294925,
      "epoch": 1.5682394723490614,
      "grad_norm": 3.640625,
      "learning_rate": 1.2209400079118233e-06,
      "loss": 1.06367064,
      "memory(GiB)": 112.26,
      "step": 61820,
      "train_speed(iter/s)": 1.130332
    },
    {
      "acc": 0.74367194,
      "epoch": 1.5683663115169963,
      "grad_norm": 3.140625,
      "learning_rate": 1.2202534641058916e-06,
      "loss": 1.05843449,
      "memory(GiB)": 112.26,
      "step": 61825,
      "train_speed(iter/s)": 1.130339
    },
    {
      "acc": 0.75579844,
      "epoch": 1.5684931506849316,
      "grad_norm": 3.625,
      "learning_rate": 1.2195670865500896e-06,
      "loss": 0.95781803,
      "memory(GiB)": 112.26,
      "step": 61830,
      "train_speed(iter/s)": 1.130345
    },
    {
      "acc": 0.74478683,
      "epoch": 1.5686199898528665,
      "grad_norm": 3.65625,
      "learning_rate": 1.2188808752746022e-06,
      "loss": 1.09755049,
      "memory(GiB)": 112.26,
      "step": 61835,
      "train_speed(iter/s)": 1.130357
    },
    {
      "acc": 0.75129519,
      "epoch": 1.5687468290208018,
      "grad_norm": 4.15625,
      "learning_rate": 1.2181948303096176e-06,
      "loss": 1.05362749,
      "memory(GiB)": 112.26,
      "step": 61840,
      "train_speed(iter/s)": 1.130367
    },
    {
      "acc": 0.73849506,
      "epoch": 1.5688736681887367,
      "grad_norm": 3.5,
      "learning_rate": 1.2175089516853083e-06,
      "loss": 1.03667583,
      "memory(GiB)": 112.26,
      "step": 61845,
      "train_speed(iter/s)": 1.130374
    },
    {
      "acc": 0.75251408,
      "epoch": 1.5690005073566717,
      "grad_norm": 3.0625,
      "learning_rate": 1.216823239431843e-06,
      "loss": 1.03757124,
      "memory(GiB)": 112.26,
      "step": 61850,
      "train_speed(iter/s)": 1.130389
    },
    {
      "acc": 0.74860368,
      "epoch": 1.5691273465246067,
      "grad_norm": 4.90625,
      "learning_rate": 1.2161376935793827e-06,
      "loss": 1.03224106,
      "memory(GiB)": 112.26,
      "step": 61855,
      "train_speed(iter/s)": 1.1304
    },
    {
      "acc": 0.73629622,
      "epoch": 1.5692541856925417,
      "grad_norm": 3.640625,
      "learning_rate": 1.21545231415808e-06,
      "loss": 1.06812363,
      "memory(GiB)": 112.26,
      "step": 61860,
      "train_speed(iter/s)": 1.130411
    },
    {
      "acc": 0.73001046,
      "epoch": 1.569381024860477,
      "grad_norm": 3.703125,
      "learning_rate": 1.2147671011980816e-06,
      "loss": 1.09557858,
      "memory(GiB)": 112.26,
      "step": 61865,
      "train_speed(iter/s)": 1.130433
    },
    {
      "acc": 0.74326544,
      "epoch": 1.5695078640284121,
      "grad_norm": 3.703125,
      "learning_rate": 1.2140820547295256e-06,
      "loss": 1.01438808,
      "memory(GiB)": 112.26,
      "step": 61870,
      "train_speed(iter/s)": 1.130451
    },
    {
      "acc": 0.73512359,
      "epoch": 1.5696347031963471,
      "grad_norm": 3.640625,
      "learning_rate": 1.2133971747825435e-06,
      "loss": 1.01850605,
      "memory(GiB)": 112.26,
      "step": 61875,
      "train_speed(iter/s)": 1.130465
    },
    {
      "acc": 0.74426999,
      "epoch": 1.5697615423642821,
      "grad_norm": 5.40625,
      "learning_rate": 1.2127124613872603e-06,
      "loss": 1.08432112,
      "memory(GiB)": 112.26,
      "step": 61880,
      "train_speed(iter/s)": 1.130475
    },
    {
      "acc": 0.7403698,
      "epoch": 1.569888381532217,
      "grad_norm": 4.125,
      "learning_rate": 1.2120279145737918e-06,
      "loss": 1.06342983,
      "memory(GiB)": 112.26,
      "step": 61885,
      "train_speed(iter/s)": 1.130482
    },
    {
      "acc": 0.75525527,
      "epoch": 1.570015220700152,
      "grad_norm": 3.640625,
      "learning_rate": 1.2113435343722474e-06,
      "loss": 0.97958908,
      "memory(GiB)": 112.26,
      "step": 61890,
      "train_speed(iter/s)": 1.130491
    },
    {
      "acc": 0.74214988,
      "epoch": 1.5701420598680873,
      "grad_norm": 3.390625,
      "learning_rate": 1.21065932081273e-06,
      "loss": 1.04970284,
      "memory(GiB)": 112.26,
      "step": 61895,
      "train_speed(iter/s)": 1.130497
    },
    {
      "acc": 0.73773098,
      "epoch": 1.5702688990360223,
      "grad_norm": 3.40625,
      "learning_rate": 1.2099752739253334e-06,
      "loss": 1.07303886,
      "memory(GiB)": 112.26,
      "step": 61900,
      "train_speed(iter/s)": 1.13051
    },
    {
      "acc": 0.74961853,
      "epoch": 1.5703957382039575,
      "grad_norm": 3.84375,
      "learning_rate": 1.209291393740144e-06,
      "loss": 1.05743828,
      "memory(GiB)": 112.26,
      "step": 61905,
      "train_speed(iter/s)": 1.130525
    },
    {
      "acc": 0.7339251,
      "epoch": 1.5705225773718925,
      "grad_norm": 3.5625,
      "learning_rate": 1.2086076802872472e-06,
      "loss": 1.07174911,
      "memory(GiB)": 112.26,
      "step": 61910,
      "train_speed(iter/s)": 1.130534
    },
    {
      "acc": 0.73519936,
      "epoch": 1.5706494165398275,
      "grad_norm": 3.65625,
      "learning_rate": 1.2079241335967096e-06,
      "loss": 1.10007343,
      "memory(GiB)": 112.26,
      "step": 61915,
      "train_speed(iter/s)": 1.130547
    },
    {
      "acc": 0.72866035,
      "epoch": 1.5707762557077625,
      "grad_norm": 3.59375,
      "learning_rate": 1.207240753698599e-06,
      "loss": 1.1201189,
      "memory(GiB)": 112.26,
      "step": 61920,
      "train_speed(iter/s)": 1.130562
    },
    {
      "acc": 0.76147904,
      "epoch": 1.5709030948756975,
      "grad_norm": 4.03125,
      "learning_rate": 1.2065575406229723e-06,
      "loss": 0.94451447,
      "memory(GiB)": 112.26,
      "step": 61925,
      "train_speed(iter/s)": 1.130573
    },
    {
      "acc": 0.75677719,
      "epoch": 1.5710299340436327,
      "grad_norm": 3.75,
      "learning_rate": 1.2058744943998847e-06,
      "loss": 1.02751732,
      "memory(GiB)": 112.26,
      "step": 61930,
      "train_speed(iter/s)": 1.13059
    },
    {
      "acc": 0.74271154,
      "epoch": 1.5711567732115679,
      "grad_norm": 4.1875,
      "learning_rate": 1.2051916150593746e-06,
      "loss": 1.05074425,
      "memory(GiB)": 112.26,
      "step": 61935,
      "train_speed(iter/s)": 1.130606
    },
    {
      "acc": 0.73515458,
      "epoch": 1.5712836123795029,
      "grad_norm": 3.546875,
      "learning_rate": 1.2045089026314783e-06,
      "loss": 1.06861305,
      "memory(GiB)": 112.26,
      "step": 61940,
      "train_speed(iter/s)": 1.130616
    },
    {
      "acc": 0.7330864,
      "epoch": 1.5714104515474379,
      "grad_norm": 4.0625,
      "learning_rate": 1.2038263571462278e-06,
      "loss": 1.05320702,
      "memory(GiB)": 112.26,
      "step": 61945,
      "train_speed(iter/s)": 1.130627
    },
    {
      "acc": 0.7454174,
      "epoch": 1.5715372907153728,
      "grad_norm": 5.25,
      "learning_rate": 1.203143978633644e-06,
      "loss": 1.06673813,
      "memory(GiB)": 112.26,
      "step": 61950,
      "train_speed(iter/s)": 1.130641
    },
    {
      "acc": 0.74418526,
      "epoch": 1.5716641298833078,
      "grad_norm": 3.875,
      "learning_rate": 1.2024617671237388e-06,
      "loss": 1.00299892,
      "memory(GiB)": 112.26,
      "step": 61955,
      "train_speed(iter/s)": 1.130648
    },
    {
      "acc": 0.7308897,
      "epoch": 1.571790969051243,
      "grad_norm": 2.734375,
      "learning_rate": 1.2017797226465178e-06,
      "loss": 1.06520653,
      "memory(GiB)": 112.26,
      "step": 61960,
      "train_speed(iter/s)": 1.13065
    },
    {
      "acc": 0.72885504,
      "epoch": 1.571917808219178,
      "grad_norm": 3.359375,
      "learning_rate": 1.2010978452319843e-06,
      "loss": 1.07434196,
      "memory(GiB)": 112.26,
      "step": 61965,
      "train_speed(iter/s)": 1.130664
    },
    {
      "acc": 0.74318862,
      "epoch": 1.5720446473871132,
      "grad_norm": 3.9375,
      "learning_rate": 1.2004161349101295e-06,
      "loss": 1.04815273,
      "memory(GiB)": 112.26,
      "step": 61970,
      "train_speed(iter/s)": 1.130684
    },
    {
      "acc": 0.75332637,
      "epoch": 1.5721714865550482,
      "grad_norm": 4.8125,
      "learning_rate": 1.1997345917109348e-06,
      "loss": 1.04111271,
      "memory(GiB)": 112.26,
      "step": 61975,
      "train_speed(iter/s)": 1.130699
    },
    {
      "acc": 0.7415247,
      "epoch": 1.5722983257229832,
      "grad_norm": 3.5625,
      "learning_rate": 1.1990532156643808e-06,
      "loss": 1.08696861,
      "memory(GiB)": 112.26,
      "step": 61980,
      "train_speed(iter/s)": 1.130712
    },
    {
      "acc": 0.74138756,
      "epoch": 1.5724251648909182,
      "grad_norm": 3.515625,
      "learning_rate": 1.198372006800436e-06,
      "loss": 1.05985508,
      "memory(GiB)": 112.26,
      "step": 61985,
      "train_speed(iter/s)": 1.130729
    },
    {
      "acc": 0.73479161,
      "epoch": 1.5725520040588534,
      "grad_norm": 3.890625,
      "learning_rate": 1.1976909651490637e-06,
      "loss": 1.06293907,
      "memory(GiB)": 112.26,
      "step": 61990,
      "train_speed(iter/s)": 1.130743
    },
    {
      "acc": 0.75322237,
      "epoch": 1.5726788432267884,
      "grad_norm": 2.859375,
      "learning_rate": 1.1970100907402188e-06,
      "loss": 1.02494164,
      "memory(GiB)": 112.26,
      "step": 61995,
      "train_speed(iter/s)": 1.130753
    },
    {
      "acc": 0.75111294,
      "epoch": 1.5728056823947236,
      "grad_norm": 4.46875,
      "learning_rate": 1.1963293836038492e-06,
      "loss": 1.05852556,
      "memory(GiB)": 112.26,
      "step": 62000,
      "train_speed(iter/s)": 1.130768
    },
    {
      "epoch": 1.5728056823947236,
      "eval_acc": 0.7257962189129531,
      "eval_loss": 1.0441315174102783,
      "eval_runtime": 70.8319,
      "eval_samples_per_second": 89.931,
      "eval_steps_per_second": 22.49,
      "step": 62000
    },
    {
      "acc": 0.74546671,
      "epoch": 1.5729325215626586,
      "grad_norm": 4.15625,
      "learning_rate": 1.195648843769896e-06,
      "loss": 0.97948103,
      "memory(GiB)": 112.26,
      "step": 62005,
      "train_speed(iter/s)": 1.1284
    },
    {
      "acc": 0.74181542,
      "epoch": 1.5730593607305936,
      "grad_norm": 4.375,
      "learning_rate": 1.1949684712682912e-06,
      "loss": 1.10068531,
      "memory(GiB)": 112.26,
      "step": 62010,
      "train_speed(iter/s)": 1.128415
    },
    {
      "acc": 0.74120588,
      "epoch": 1.5731861998985286,
      "grad_norm": 3.6875,
      "learning_rate": 1.1942882661289618e-06,
      "loss": 1.0270565,
      "memory(GiB)": 112.26,
      "step": 62015,
      "train_speed(iter/s)": 1.128433
    },
    {
      "acc": 0.75130033,
      "epoch": 1.5733130390664636,
      "grad_norm": 4.90625,
      "learning_rate": 1.1936082283818252e-06,
      "loss": 1.03146935,
      "memory(GiB)": 112.26,
      "step": 62020,
      "train_speed(iter/s)": 1.128435
    },
    {
      "acc": 0.76214943,
      "epoch": 1.5734398782343988,
      "grad_norm": 3.53125,
      "learning_rate": 1.1929283580567936e-06,
      "loss": 1.00682983,
      "memory(GiB)": 112.26,
      "step": 62025,
      "train_speed(iter/s)": 1.128448
    },
    {
      "acc": 0.74898443,
      "epoch": 1.573566717402334,
      "grad_norm": 3.703125,
      "learning_rate": 1.1922486551837697e-06,
      "loss": 1.05171385,
      "memory(GiB)": 112.26,
      "step": 62030,
      "train_speed(iter/s)": 1.12846
    },
    {
      "acc": 0.7432478,
      "epoch": 1.573693556570269,
      "grad_norm": 3.671875,
      "learning_rate": 1.1915691197926505e-06,
      "loss": 1.10750351,
      "memory(GiB)": 112.26,
      "step": 62035,
      "train_speed(iter/s)": 1.128476
    },
    {
      "acc": 0.73462868,
      "epoch": 1.573820395738204,
      "grad_norm": 3.90625,
      "learning_rate": 1.1908897519133244e-06,
      "loss": 1.04728546,
      "memory(GiB)": 112.26,
      "step": 62040,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.75118675,
      "epoch": 1.573947234906139,
      "grad_norm": 3.15625,
      "learning_rate": 1.190210551575674e-06,
      "loss": 1.03968678,
      "memory(GiB)": 112.26,
      "step": 62045,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.74690704,
      "epoch": 1.574074074074074,
      "grad_norm": 3.625,
      "learning_rate": 1.189531518809573e-06,
      "loss": 0.9963788,
      "memory(GiB)": 112.26,
      "step": 62050,
      "train_speed(iter/s)": 1.128496
    },
    {
      "acc": 0.72159047,
      "epoch": 1.5742009132420092,
      "grad_norm": 4.0,
      "learning_rate": 1.188852653644888e-06,
      "loss": 1.17572727,
      "memory(GiB)": 112.26,
      "step": 62055,
      "train_speed(iter/s)": 1.128511
    },
    {
      "acc": 0.74187479,
      "epoch": 1.5743277524099442,
      "grad_norm": 4.46875,
      "learning_rate": 1.1881739561114792e-06,
      "loss": 1.02951527,
      "memory(GiB)": 112.26,
      "step": 62060,
      "train_speed(iter/s)": 1.128519
    },
    {
      "acc": 0.74211383,
      "epoch": 1.5744545915778794,
      "grad_norm": 4.0,
      "learning_rate": 1.1874954262391968e-06,
      "loss": 1.0788229,
      "memory(GiB)": 112.26,
      "step": 62065,
      "train_speed(iter/s)": 1.128536
    },
    {
      "acc": 0.72936387,
      "epoch": 1.5745814307458144,
      "grad_norm": 4.46875,
      "learning_rate": 1.1868170640578901e-06,
      "loss": 1.12925529,
      "memory(GiB)": 112.26,
      "step": 62070,
      "train_speed(iter/s)": 1.128541
    },
    {
      "acc": 0.7456048,
      "epoch": 1.5747082699137493,
      "grad_norm": 3.09375,
      "learning_rate": 1.1861388695973918e-06,
      "loss": 1.01961164,
      "memory(GiB)": 112.26,
      "step": 62075,
      "train_speed(iter/s)": 1.128551
    },
    {
      "acc": 0.73370819,
      "epoch": 1.5748351090816843,
      "grad_norm": 3.625,
      "learning_rate": 1.1854608428875332e-06,
      "loss": 1.0832407,
      "memory(GiB)": 112.26,
      "step": 62080,
      "train_speed(iter/s)": 1.128569
    },
    {
      "acc": 0.7423461,
      "epoch": 1.5749619482496193,
      "grad_norm": 3.859375,
      "learning_rate": 1.1847829839581377e-06,
      "loss": 1.05714531,
      "memory(GiB)": 112.26,
      "step": 62085,
      "train_speed(iter/s)": 1.128583
    },
    {
      "acc": 0.74642391,
      "epoch": 1.5750887874175545,
      "grad_norm": 2.796875,
      "learning_rate": 1.1841052928390223e-06,
      "loss": 1.0193449,
      "memory(GiB)": 112.26,
      "step": 62090,
      "train_speed(iter/s)": 1.128601
    },
    {
      "acc": 0.74330406,
      "epoch": 1.5752156265854897,
      "grad_norm": 3.453125,
      "learning_rate": 1.183427769559991e-06,
      "loss": 0.9900197,
      "memory(GiB)": 112.26,
      "step": 62095,
      "train_speed(iter/s)": 1.12862
    },
    {
      "acc": 0.74512367,
      "epoch": 1.5753424657534247,
      "grad_norm": 3.75,
      "learning_rate": 1.1827504141508456e-06,
      "loss": 1.01824379,
      "memory(GiB)": 112.26,
      "step": 62100,
      "train_speed(iter/s)": 1.128632
    },
    {
      "acc": 0.72930379,
      "epoch": 1.5754693049213597,
      "grad_norm": 3.703125,
      "learning_rate": 1.1820732266413803e-06,
      "loss": 1.1063097,
      "memory(GiB)": 112.26,
      "step": 62105,
      "train_speed(iter/s)": 1.128646
    },
    {
      "acc": 0.74692798,
      "epoch": 1.5755961440892947,
      "grad_norm": 3.8125,
      "learning_rate": 1.181396207061382e-06,
      "loss": 1.03019848,
      "memory(GiB)": 112.26,
      "step": 62110,
      "train_speed(iter/s)": 1.128655
    },
    {
      "acc": 0.74807882,
      "epoch": 1.5757229832572297,
      "grad_norm": 3.625,
      "learning_rate": 1.1807193554406248e-06,
      "loss": 1.05260468,
      "memory(GiB)": 112.26,
      "step": 62115,
      "train_speed(iter/s)": 1.128664
    },
    {
      "acc": 0.73194323,
      "epoch": 1.575849822425165,
      "grad_norm": 4.0,
      "learning_rate": 1.1800426718088837e-06,
      "loss": 1.09965172,
      "memory(GiB)": 112.26,
      "step": 62120,
      "train_speed(iter/s)": 1.128678
    },
    {
      "acc": 0.74443932,
      "epoch": 1.5759766615931,
      "grad_norm": 3.53125,
      "learning_rate": 1.1793661561959201e-06,
      "loss": 1.0738862,
      "memory(GiB)": 112.26,
      "step": 62125,
      "train_speed(iter/s)": 1.128691
    },
    {
      "acc": 0.74821291,
      "epoch": 1.5761035007610351,
      "grad_norm": 5.09375,
      "learning_rate": 1.178689808631493e-06,
      "loss": 1.00282497,
      "memory(GiB)": 112.26,
      "step": 62130,
      "train_speed(iter/s)": 1.128706
    },
    {
      "acc": 0.75517645,
      "epoch": 1.57623033992897,
      "grad_norm": 3.828125,
      "learning_rate": 1.178013629145346e-06,
      "loss": 0.99059677,
      "memory(GiB)": 112.26,
      "step": 62135,
      "train_speed(iter/s)": 1.128718
    },
    {
      "acc": 0.73049288,
      "epoch": 1.576357179096905,
      "grad_norm": 4.3125,
      "learning_rate": 1.1773376177672246e-06,
      "loss": 1.07623243,
      "memory(GiB)": 112.26,
      "step": 62140,
      "train_speed(iter/s)": 1.128729
    },
    {
      "acc": 0.74344287,
      "epoch": 1.57648401826484,
      "grad_norm": 3.59375,
      "learning_rate": 1.176661774526862e-06,
      "loss": 1.03134108,
      "memory(GiB)": 112.26,
      "step": 62145,
      "train_speed(iter/s)": 1.128741
    },
    {
      "acc": 0.73696527,
      "epoch": 1.5766108574327753,
      "grad_norm": 3.328125,
      "learning_rate": 1.1759860994539846e-06,
      "loss": 1.06806221,
      "memory(GiB)": 112.26,
      "step": 62150,
      "train_speed(iter/s)": 1.128752
    },
    {
      "acc": 0.75558825,
      "epoch": 1.5767376966007103,
      "grad_norm": 3.984375,
      "learning_rate": 1.1753105925783114e-06,
      "loss": 1.05368757,
      "memory(GiB)": 112.26,
      "step": 62155,
      "train_speed(iter/s)": 1.128766
    },
    {
      "acc": 0.73974648,
      "epoch": 1.5768645357686455,
      "grad_norm": 3.265625,
      "learning_rate": 1.174635253929554e-06,
      "loss": 1.08463335,
      "memory(GiB)": 112.26,
      "step": 62160,
      "train_speed(iter/s)": 1.128779
    },
    {
      "acc": 0.73604746,
      "epoch": 1.5769913749365805,
      "grad_norm": 4.625,
      "learning_rate": 1.1739600835374177e-06,
      "loss": 1.06598568,
      "memory(GiB)": 112.26,
      "step": 62165,
      "train_speed(iter/s)": 1.128783
    },
    {
      "acc": 0.73771009,
      "epoch": 1.5771182141045155,
      "grad_norm": 3.890625,
      "learning_rate": 1.173285081431599e-06,
      "loss": 1.01443653,
      "memory(GiB)": 112.26,
      "step": 62170,
      "train_speed(iter/s)": 1.128794
    },
    {
      "acc": 0.74075575,
      "epoch": 1.5772450532724505,
      "grad_norm": 3.0,
      "learning_rate": 1.1726102476417871e-06,
      "loss": 1.07282648,
      "memory(GiB)": 112.26,
      "step": 62175,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.74962044,
      "epoch": 1.5773718924403854,
      "grad_norm": 3.859375,
      "learning_rate": 1.1719355821976647e-06,
      "loss": 1.04014053,
      "memory(GiB)": 112.26,
      "step": 62180,
      "train_speed(iter/s)": 1.1288
    },
    {
      "acc": 0.73068066,
      "epoch": 1.5774987316083207,
      "grad_norm": 3.640625,
      "learning_rate": 1.1712610851289069e-06,
      "loss": 1.10865965,
      "memory(GiB)": 112.26,
      "step": 62185,
      "train_speed(iter/s)": 1.128812
    },
    {
      "acc": 0.73193083,
      "epoch": 1.5776255707762559,
      "grad_norm": 3.9375,
      "learning_rate": 1.1705867564651802e-06,
      "loss": 1.06098566,
      "memory(GiB)": 112.26,
      "step": 62190,
      "train_speed(iter/s)": 1.128823
    },
    {
      "acc": 0.73163624,
      "epoch": 1.5777524099441909,
      "grad_norm": 3.53125,
      "learning_rate": 1.1699125962361451e-06,
      "loss": 1.09714966,
      "memory(GiB)": 112.26,
      "step": 62195,
      "train_speed(iter/s)": 1.128843
    },
    {
      "acc": 0.7598608,
      "epoch": 1.5778792491121258,
      "grad_norm": 3.796875,
      "learning_rate": 1.1692386044714543e-06,
      "loss": 0.99063301,
      "memory(GiB)": 112.26,
      "step": 62200,
      "train_speed(iter/s)": 1.128857
    },
    {
      "acc": 0.72544971,
      "epoch": 1.5780060882800608,
      "grad_norm": 3.984375,
      "learning_rate": 1.1685647812007512e-06,
      "loss": 1.11211557,
      "memory(GiB)": 112.26,
      "step": 62205,
      "train_speed(iter/s)": 1.128868
    },
    {
      "acc": 0.72880635,
      "epoch": 1.5781329274479958,
      "grad_norm": 3.265625,
      "learning_rate": 1.167891126453678e-06,
      "loss": 1.0367382,
      "memory(GiB)": 112.26,
      "step": 62210,
      "train_speed(iter/s)": 1.128861
    },
    {
      "acc": 0.73349071,
      "epoch": 1.578259766615931,
      "grad_norm": 3.734375,
      "learning_rate": 1.1672176402598607e-06,
      "loss": 1.0822156,
      "memory(GiB)": 112.26,
      "step": 62215,
      "train_speed(iter/s)": 1.128879
    },
    {
      "acc": 0.74724598,
      "epoch": 1.578386605783866,
      "grad_norm": 3.96875,
      "learning_rate": 1.1665443226489236e-06,
      "loss": 0.98876514,
      "memory(GiB)": 112.26,
      "step": 62220,
      "train_speed(iter/s)": 1.128894
    },
    {
      "acc": 0.73879337,
      "epoch": 1.5785134449518012,
      "grad_norm": 3.84375,
      "learning_rate": 1.1658711736504814e-06,
      "loss": 1.02496996,
      "memory(GiB)": 112.26,
      "step": 62225,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.74074974,
      "epoch": 1.5786402841197362,
      "grad_norm": 3.265625,
      "learning_rate": 1.165198193294146e-06,
      "loss": 1.0474741,
      "memory(GiB)": 112.26,
      "step": 62230,
      "train_speed(iter/s)": 1.128914
    },
    {
      "acc": 0.74702873,
      "epoch": 1.5787671232876712,
      "grad_norm": 4.40625,
      "learning_rate": 1.1645253816095131e-06,
      "loss": 1.00687838,
      "memory(GiB)": 112.26,
      "step": 62235,
      "train_speed(iter/s)": 1.128927
    },
    {
      "acc": 0.74602671,
      "epoch": 1.5788939624556062,
      "grad_norm": 3.421875,
      "learning_rate": 1.1638527386261772e-06,
      "loss": 1.09764423,
      "memory(GiB)": 112.26,
      "step": 62240,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.74811988,
      "epoch": 1.5790208016235412,
      "grad_norm": 3.421875,
      "learning_rate": 1.163180264373726e-06,
      "loss": 0.99706087,
      "memory(GiB)": 112.26,
      "step": 62245,
      "train_speed(iter/s)": 1.128951
    },
    {
      "acc": 0.74313655,
      "epoch": 1.5791476407914764,
      "grad_norm": 4.46875,
      "learning_rate": 1.162507958881739e-06,
      "loss": 1.09331112,
      "memory(GiB)": 112.26,
      "step": 62250,
      "train_speed(iter/s)": 1.12897
    },
    {
      "acc": 0.76504245,
      "epoch": 1.5792744799594116,
      "grad_norm": 3.046875,
      "learning_rate": 1.161835822179782e-06,
      "loss": 0.93752871,
      "memory(GiB)": 112.26,
      "step": 62255,
      "train_speed(iter/s)": 1.128984
    },
    {
      "acc": 0.7311676,
      "epoch": 1.5794013191273466,
      "grad_norm": 3.453125,
      "learning_rate": 1.1611638542974229e-06,
      "loss": 1.11960802,
      "memory(GiB)": 112.26,
      "step": 62260,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.748209,
      "epoch": 1.5795281582952816,
      "grad_norm": 4.75,
      "learning_rate": 1.160492055264217e-06,
      "loss": 1.0623167,
      "memory(GiB)": 112.26,
      "step": 62265,
      "train_speed(iter/s)": 1.129009
    },
    {
      "acc": 0.7485033,
      "epoch": 1.5796549974632166,
      "grad_norm": 3.21875,
      "learning_rate": 1.159820425109714e-06,
      "loss": 1.03607883,
      "memory(GiB)": 112.26,
      "step": 62270,
      "train_speed(iter/s)": 1.129026
    },
    {
      "acc": 0.74027486,
      "epoch": 1.5797818366311516,
      "grad_norm": 3.328125,
      "learning_rate": 1.1591489638634513e-06,
      "loss": 1.07913456,
      "memory(GiB)": 112.26,
      "step": 62275,
      "train_speed(iter/s)": 1.129046
    },
    {
      "acc": 0.75241609,
      "epoch": 1.5799086757990868,
      "grad_norm": 3.375,
      "learning_rate": 1.1584776715549662e-06,
      "loss": 1.05471106,
      "memory(GiB)": 112.26,
      "step": 62280,
      "train_speed(iter/s)": 1.129063
    },
    {
      "acc": 0.74192276,
      "epoch": 1.5800355149670218,
      "grad_norm": 3.4375,
      "learning_rate": 1.1578065482137845e-06,
      "loss": 1.03423948,
      "memory(GiB)": 112.26,
      "step": 62285,
      "train_speed(iter/s)": 1.129074
    },
    {
      "acc": 0.7266788,
      "epoch": 1.580162354134957,
      "grad_norm": 3.8125,
      "learning_rate": 1.157135593869425e-06,
      "loss": 1.13073168,
      "memory(GiB)": 112.26,
      "step": 62290,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.7343111,
      "epoch": 1.580289193302892,
      "grad_norm": 3.328125,
      "learning_rate": 1.156464808551399e-06,
      "loss": 1.07152128,
      "memory(GiB)": 112.26,
      "step": 62295,
      "train_speed(iter/s)": 1.129102
    },
    {
      "acc": 0.74199619,
      "epoch": 1.580416032470827,
      "grad_norm": 3.578125,
      "learning_rate": 1.1557941922892113e-06,
      "loss": 1.05522461,
      "memory(GiB)": 112.26,
      "step": 62300,
      "train_speed(iter/s)": 1.129117
    },
    {
      "acc": 0.73944807,
      "epoch": 1.580542871638762,
      "grad_norm": 3.453125,
      "learning_rate": 1.155123745112358e-06,
      "loss": 1.01031485,
      "memory(GiB)": 112.26,
      "step": 62305,
      "train_speed(iter/s)": 1.12913
    },
    {
      "acc": 0.76655664,
      "epoch": 1.5806697108066972,
      "grad_norm": 4.375,
      "learning_rate": 1.1544534670503282e-06,
      "loss": 0.9638752,
      "memory(GiB)": 112.26,
      "step": 62310,
      "train_speed(iter/s)": 1.129133
    },
    {
      "acc": 0.73700023,
      "epoch": 1.5807965499746321,
      "grad_norm": 3.65625,
      "learning_rate": 1.1537833581326048e-06,
      "loss": 1.03479948,
      "memory(GiB)": 112.26,
      "step": 62315,
      "train_speed(iter/s)": 1.129146
    },
    {
      "acc": 0.74361057,
      "epoch": 1.5809233891425674,
      "grad_norm": 4.34375,
      "learning_rate": 1.1531134183886606e-06,
      "loss": 1.04418077,
      "memory(GiB)": 112.26,
      "step": 62320,
      "train_speed(iter/s)": 1.129152
    },
    {
      "acc": 0.74688673,
      "epoch": 1.5810502283105023,
      "grad_norm": 4.09375,
      "learning_rate": 1.1524436478479638e-06,
      "loss": 1.06757908,
      "memory(GiB)": 112.26,
      "step": 62325,
      "train_speed(iter/s)": 1.12917
    },
    {
      "acc": 0.74067869,
      "epoch": 1.5811770674784373,
      "grad_norm": 4.65625,
      "learning_rate": 1.1517740465399736e-06,
      "loss": 1.07452688,
      "memory(GiB)": 112.26,
      "step": 62330,
      "train_speed(iter/s)": 1.129078
    },
    {
      "acc": 0.75983639,
      "epoch": 1.5813039066463723,
      "grad_norm": 3.984375,
      "learning_rate": 1.1511046144941417e-06,
      "loss": 1.016605,
      "memory(GiB)": 112.26,
      "step": 62335,
      "train_speed(iter/s)": 1.129092
    },
    {
      "acc": 0.74451194,
      "epoch": 1.5814307458143073,
      "grad_norm": 3.828125,
      "learning_rate": 1.150435351739913e-06,
      "loss": 1.0427433,
      "memory(GiB)": 112.26,
      "step": 62340,
      "train_speed(iter/s)": 1.129108
    },
    {
      "acc": 0.74946213,
      "epoch": 1.5815575849822425,
      "grad_norm": 3.015625,
      "learning_rate": 1.1497662583067231e-06,
      "loss": 1.01500034,
      "memory(GiB)": 112.26,
      "step": 62345,
      "train_speed(iter/s)": 1.129115
    },
    {
      "acc": 0.75764456,
      "epoch": 1.5816844241501777,
      "grad_norm": 3.703125,
      "learning_rate": 1.1490973342240063e-06,
      "loss": 1.0053628,
      "memory(GiB)": 112.26,
      "step": 62350,
      "train_speed(iter/s)": 1.129125
    },
    {
      "acc": 0.72808619,
      "epoch": 1.5818112633181127,
      "grad_norm": 3.734375,
      "learning_rate": 1.1484285795211803e-06,
      "loss": 1.118571,
      "memory(GiB)": 112.26,
      "step": 62355,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.74549851,
      "epoch": 1.5819381024860477,
      "grad_norm": 4.625,
      "learning_rate": 1.1477599942276613e-06,
      "loss": 1.05538263,
      "memory(GiB)": 112.26,
      "step": 62360,
      "train_speed(iter/s)": 1.129155
    },
    {
      "acc": 0.73941345,
      "epoch": 1.5820649416539827,
      "grad_norm": 3.65625,
      "learning_rate": 1.1470915783728547e-06,
      "loss": 1.01825876,
      "memory(GiB)": 112.26,
      "step": 62365,
      "train_speed(iter/s)": 1.129166
    },
    {
      "acc": 0.74208546,
      "epoch": 1.5821917808219177,
      "grad_norm": 3.34375,
      "learning_rate": 1.1464233319861661e-06,
      "loss": 1.02810678,
      "memory(GiB)": 112.26,
      "step": 62370,
      "train_speed(iter/s)": 1.12918
    },
    {
      "acc": 0.74523244,
      "epoch": 1.582318619989853,
      "grad_norm": 3.59375,
      "learning_rate": 1.145755255096983e-06,
      "loss": 0.9986846,
      "memory(GiB)": 112.26,
      "step": 62375,
      "train_speed(iter/s)": 1.129194
    },
    {
      "acc": 0.73614368,
      "epoch": 1.582445459157788,
      "grad_norm": 3.578125,
      "learning_rate": 1.1450873477346901e-06,
      "loss": 1.0504446,
      "memory(GiB)": 112.26,
      "step": 62380,
      "train_speed(iter/s)": 1.129207
    },
    {
      "acc": 0.74756136,
      "epoch": 1.582572298325723,
      "grad_norm": 3.859375,
      "learning_rate": 1.1444196099286682e-06,
      "loss": 1.01526566,
      "memory(GiB)": 112.26,
      "step": 62385,
      "train_speed(iter/s)": 1.129217
    },
    {
      "acc": 0.72473931,
      "epoch": 1.582699137493658,
      "grad_norm": 3.375,
      "learning_rate": 1.143752041708287e-06,
      "loss": 1.10213223,
      "memory(GiB)": 112.26,
      "step": 62390,
      "train_speed(iter/s)": 1.129234
    },
    {
      "acc": 0.74463329,
      "epoch": 1.582825976661593,
      "grad_norm": 6.0625,
      "learning_rate": 1.1430846431029062e-06,
      "loss": 1.0272192,
      "memory(GiB)": 112.26,
      "step": 62395,
      "train_speed(iter/s)": 1.129237
    },
    {
      "acc": 0.72861886,
      "epoch": 1.582952815829528,
      "grad_norm": 4.5625,
      "learning_rate": 1.1424174141418815e-06,
      "loss": 1.15024891,
      "memory(GiB)": 112.26,
      "step": 62400,
      "train_speed(iter/s)": 1.129248
    },
    {
      "acc": 0.73677893,
      "epoch": 1.583079654997463,
      "grad_norm": 4.53125,
      "learning_rate": 1.1417503548545634e-06,
      "loss": 1.05722094,
      "memory(GiB)": 112.26,
      "step": 62405,
      "train_speed(iter/s)": 1.129258
    },
    {
      "acc": 0.72448444,
      "epoch": 1.5832064941653983,
      "grad_norm": 3.375,
      "learning_rate": 1.1410834652702918e-06,
      "loss": 1.1117938,
      "memory(GiB)": 112.26,
      "step": 62410,
      "train_speed(iter/s)": 1.129278
    },
    {
      "acc": 0.7487186,
      "epoch": 1.5833333333333335,
      "grad_norm": 4.46875,
      "learning_rate": 1.1404167454183957e-06,
      "loss": 1.02822905,
      "memory(GiB)": 112.26,
      "step": 62415,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.72545557,
      "epoch": 1.5834601725012685,
      "grad_norm": 3.390625,
      "learning_rate": 1.1397501953282042e-06,
      "loss": 1.09458523,
      "memory(GiB)": 112.26,
      "step": 62420,
      "train_speed(iter/s)": 1.129292
    },
    {
      "acc": 0.7292026,
      "epoch": 1.5835870116692035,
      "grad_norm": 5.09375,
      "learning_rate": 1.1390838150290334e-06,
      "loss": 1.08313608,
      "memory(GiB)": 112.26,
      "step": 62425,
      "train_speed(iter/s)": 1.129307
    },
    {
      "acc": 0.75575423,
      "epoch": 1.5837138508371384,
      "grad_norm": 4.75,
      "learning_rate": 1.1384176045501944e-06,
      "loss": 1.03225574,
      "memory(GiB)": 112.26,
      "step": 62430,
      "train_speed(iter/s)": 1.12932
    },
    {
      "acc": 0.73697672,
      "epoch": 1.5838406900050734,
      "grad_norm": 3.265625,
      "learning_rate": 1.1377515639209902e-06,
      "loss": 1.04523373,
      "memory(GiB)": 112.26,
      "step": 62435,
      "train_speed(iter/s)": 1.129335
    },
    {
      "acc": 0.74108248,
      "epoch": 1.5839675291730086,
      "grad_norm": 4.6875,
      "learning_rate": 1.1370856931707159e-06,
      "loss": 1.08294182,
      "memory(GiB)": 112.26,
      "step": 62440,
      "train_speed(iter/s)": 1.12935
    },
    {
      "acc": 0.74180145,
      "epoch": 1.5840943683409436,
      "grad_norm": 4.71875,
      "learning_rate": 1.1364199923286589e-06,
      "loss": 1.05151587,
      "memory(GiB)": 112.26,
      "step": 62445,
      "train_speed(iter/s)": 1.129347
    },
    {
      "acc": 0.75308518,
      "epoch": 1.5842212075088788,
      "grad_norm": 4.75,
      "learning_rate": 1.1357544614241012e-06,
      "loss": 1.0661911,
      "memory(GiB)": 112.26,
      "step": 62450,
      "train_speed(iter/s)": 1.129363
    },
    {
      "acc": 0.75070753,
      "epoch": 1.5843480466768138,
      "grad_norm": 4.5625,
      "learning_rate": 1.135089100486314e-06,
      "loss": 1.03509893,
      "memory(GiB)": 112.26,
      "step": 62455,
      "train_speed(iter/s)": 1.12938
    },
    {
      "acc": 0.74028521,
      "epoch": 1.5844748858447488,
      "grad_norm": 3.9375,
      "learning_rate": 1.1344239095445642e-06,
      "loss": 1.03447266,
      "memory(GiB)": 112.26,
      "step": 62460,
      "train_speed(iter/s)": 1.129388
    },
    {
      "acc": 0.74717503,
      "epoch": 1.5846017250126838,
      "grad_norm": 3.015625,
      "learning_rate": 1.1337588886281092e-06,
      "loss": 0.98041391,
      "memory(GiB)": 112.26,
      "step": 62465,
      "train_speed(iter/s)": 1.129398
    },
    {
      "acc": 0.74711928,
      "epoch": 1.584728564180619,
      "grad_norm": 3.671875,
      "learning_rate": 1.1330940377662002e-06,
      "loss": 1.05667934,
      "memory(GiB)": 112.26,
      "step": 62470,
      "train_speed(iter/s)": 1.129408
    },
    {
      "acc": 0.742764,
      "epoch": 1.584855403348554,
      "grad_norm": 3.609375,
      "learning_rate": 1.1324293569880795e-06,
      "loss": 1.07601528,
      "memory(GiB)": 112.26,
      "step": 62475,
      "train_speed(iter/s)": 1.129423
    },
    {
      "acc": 0.73143625,
      "epoch": 1.5849822425164892,
      "grad_norm": 4.53125,
      "learning_rate": 1.1317648463229835e-06,
      "loss": 1.02691059,
      "memory(GiB)": 112.26,
      "step": 62480,
      "train_speed(iter/s)": 1.129439
    },
    {
      "acc": 0.7324666,
      "epoch": 1.5851090816844242,
      "grad_norm": 4.15625,
      "learning_rate": 1.1311005058001396e-06,
      "loss": 1.08334551,
      "memory(GiB)": 112.26,
      "step": 62485,
      "train_speed(iter/s)": 1.129455
    },
    {
      "acc": 0.73289919,
      "epoch": 1.5852359208523592,
      "grad_norm": 3.640625,
      "learning_rate": 1.130436335448769e-06,
      "loss": 1.0792078,
      "memory(GiB)": 112.26,
      "step": 62490,
      "train_speed(iter/s)": 1.129466
    },
    {
      "acc": 0.74803696,
      "epoch": 1.5853627600202942,
      "grad_norm": 3.859375,
      "learning_rate": 1.129772335298085e-06,
      "loss": 1.06818485,
      "memory(GiB)": 112.26,
      "step": 62495,
      "train_speed(iter/s)": 1.129472
    },
    {
      "acc": 0.74014754,
      "epoch": 1.5854895991882292,
      "grad_norm": 4.0625,
      "learning_rate": 1.1291085053772926e-06,
      "loss": 1.07052555,
      "memory(GiB)": 112.26,
      "step": 62500,
      "train_speed(iter/s)": 1.129493
    },
    {
      "acc": 0.74037256,
      "epoch": 1.5856164383561644,
      "grad_norm": 3.75,
      "learning_rate": 1.1284448457155893e-06,
      "loss": 1.11349831,
      "memory(GiB)": 112.26,
      "step": 62505,
      "train_speed(iter/s)": 1.129508
    },
    {
      "acc": 0.74329062,
      "epoch": 1.5857432775240996,
      "grad_norm": 4.09375,
      "learning_rate": 1.1277813563421697e-06,
      "loss": 1.02715569,
      "memory(GiB)": 112.26,
      "step": 62510,
      "train_speed(iter/s)": 1.129513
    },
    {
      "acc": 0.74529104,
      "epoch": 1.5858701166920346,
      "grad_norm": 3.265625,
      "learning_rate": 1.127118037286213e-06,
      "loss": 1.01906805,
      "memory(GiB)": 112.26,
      "step": 62515,
      "train_speed(iter/s)": 1.129528
    },
    {
      "acc": 0.7385148,
      "epoch": 1.5859969558599696,
      "grad_norm": 3.5625,
      "learning_rate": 1.1264548885768944e-06,
      "loss": 1.11903706,
      "memory(GiB)": 112.26,
      "step": 62520,
      "train_speed(iter/s)": 1.129547
    },
    {
      "acc": 0.74225178,
      "epoch": 1.5861237950279046,
      "grad_norm": 3.609375,
      "learning_rate": 1.1257919102433856e-06,
      "loss": 1.06173611,
      "memory(GiB)": 112.26,
      "step": 62525,
      "train_speed(iter/s)": 1.129565
    },
    {
      "acc": 0.73767514,
      "epoch": 1.5862506341958396,
      "grad_norm": 3.4375,
      "learning_rate": 1.125129102314847e-06,
      "loss": 1.05509357,
      "memory(GiB)": 112.26,
      "step": 62530,
      "train_speed(iter/s)": 1.129575
    },
    {
      "acc": 0.73046875,
      "epoch": 1.5863774733637748,
      "grad_norm": 3.328125,
      "learning_rate": 1.124466464820429e-06,
      "loss": 1.09891548,
      "memory(GiB)": 112.26,
      "step": 62535,
      "train_speed(iter/s)": 1.12958
    },
    {
      "acc": 0.74761505,
      "epoch": 1.5865043125317098,
      "grad_norm": 4.46875,
      "learning_rate": 1.123803997789278e-06,
      "loss": 1.01623755,
      "memory(GiB)": 112.26,
      "step": 62540,
      "train_speed(iter/s)": 1.129589
    },
    {
      "acc": 0.73460436,
      "epoch": 1.586631151699645,
      "grad_norm": 3.640625,
      "learning_rate": 1.1231417012505342e-06,
      "loss": 1.07638931,
      "memory(GiB)": 112.26,
      "step": 62545,
      "train_speed(iter/s)": 1.129594
    },
    {
      "acc": 0.74593434,
      "epoch": 1.58675799086758,
      "grad_norm": 3.71875,
      "learning_rate": 1.1224795752333283e-06,
      "loss": 1.06979628,
      "memory(GiB)": 112.26,
      "step": 62550,
      "train_speed(iter/s)": 1.12961
    },
    {
      "acc": 0.74171915,
      "epoch": 1.586884830035515,
      "grad_norm": 3.84375,
      "learning_rate": 1.1218176197667802e-06,
      "loss": 1.10188742,
      "memory(GiB)": 112.26,
      "step": 62555,
      "train_speed(iter/s)": 1.129613
    },
    {
      "acc": 0.73135686,
      "epoch": 1.58701166920345,
      "grad_norm": 3.296875,
      "learning_rate": 1.1211558348800095e-06,
      "loss": 1.0684226,
      "memory(GiB)": 112.26,
      "step": 62560,
      "train_speed(iter/s)": 1.129627
    },
    {
      "acc": 0.74340725,
      "epoch": 1.587138508371385,
      "grad_norm": 3.5,
      "learning_rate": 1.120494220602123e-06,
      "loss": 1.02700682,
      "memory(GiB)": 112.26,
      "step": 62565,
      "train_speed(iter/s)": 1.12964
    },
    {
      "acc": 0.75740867,
      "epoch": 1.5872653475393201,
      "grad_norm": 4.59375,
      "learning_rate": 1.1198327769622224e-06,
      "loss": 1.02725821,
      "memory(GiB)": 112.26,
      "step": 62570,
      "train_speed(iter/s)": 1.129659
    },
    {
      "acc": 0.74026604,
      "epoch": 1.5873921867072553,
      "grad_norm": 3.1875,
      "learning_rate": 1.1191715039893975e-06,
      "loss": 1.02041626,
      "memory(GiB)": 112.26,
      "step": 62575,
      "train_speed(iter/s)": 1.129672
    },
    {
      "acc": 0.74235516,
      "epoch": 1.5875190258751903,
      "grad_norm": 3.671875,
      "learning_rate": 1.1185104017127379e-06,
      "loss": 1.16188803,
      "memory(GiB)": 112.26,
      "step": 62580,
      "train_speed(iter/s)": 1.129679
    },
    {
      "acc": 0.74138155,
      "epoch": 1.5876458650431253,
      "grad_norm": 4.15625,
      "learning_rate": 1.1178494701613202e-06,
      "loss": 1.10845127,
      "memory(GiB)": 112.26,
      "step": 62585,
      "train_speed(iter/s)": 1.129694
    },
    {
      "acc": 0.75046034,
      "epoch": 1.5877727042110603,
      "grad_norm": 3.8125,
      "learning_rate": 1.1171887093642158e-06,
      "loss": 1.01962099,
      "memory(GiB)": 112.26,
      "step": 62590,
      "train_speed(iter/s)": 1.129703
    },
    {
      "acc": 0.75716653,
      "epoch": 1.5878995433789953,
      "grad_norm": 3.40625,
      "learning_rate": 1.1165281193504873e-06,
      "loss": 1.01174679,
      "memory(GiB)": 112.26,
      "step": 62595,
      "train_speed(iter/s)": 1.129712
    },
    {
      "acc": 0.73821239,
      "epoch": 1.5880263825469305,
      "grad_norm": 3.90625,
      "learning_rate": 1.1158677001491902e-06,
      "loss": 1.04943562,
      "memory(GiB)": 112.26,
      "step": 62600,
      "train_speed(iter/s)": 1.129725
    },
    {
      "acc": 0.7201066,
      "epoch": 1.5881532217148655,
      "grad_norm": 4.28125,
      "learning_rate": 1.1152074517893735e-06,
      "loss": 1.15626345,
      "memory(GiB)": 112.26,
      "step": 62605,
      "train_speed(iter/s)": 1.129734
    },
    {
      "acc": 0.72822704,
      "epoch": 1.5882800608828007,
      "grad_norm": 3.078125,
      "learning_rate": 1.1145473743000773e-06,
      "loss": 1.08467474,
      "memory(GiB)": 112.26,
      "step": 62610,
      "train_speed(iter/s)": 1.129745
    },
    {
      "acc": 0.7481205,
      "epoch": 1.5884069000507357,
      "grad_norm": 4.15625,
      "learning_rate": 1.1138874677103345e-06,
      "loss": 1.02911167,
      "memory(GiB)": 112.26,
      "step": 62615,
      "train_speed(iter/s)": 1.129756
    },
    {
      "acc": 0.7527185,
      "epoch": 1.5885337392186707,
      "grad_norm": 3.78125,
      "learning_rate": 1.1132277320491713e-06,
      "loss": 1.01364183,
      "memory(GiB)": 112.26,
      "step": 62620,
      "train_speed(iter/s)": 1.129767
    },
    {
      "acc": 0.73024859,
      "epoch": 1.5886605783866057,
      "grad_norm": 3.640625,
      "learning_rate": 1.1125681673456062e-06,
      "loss": 1.03687792,
      "memory(GiB)": 112.26,
      "step": 62625,
      "train_speed(iter/s)": 1.12977
    },
    {
      "acc": 0.75431204,
      "epoch": 1.588787417554541,
      "grad_norm": 4.5,
      "learning_rate": 1.1119087736286489e-06,
      "loss": 1.01425724,
      "memory(GiB)": 112.26,
      "step": 62630,
      "train_speed(iter/s)": 1.129779
    },
    {
      "acc": 0.72717085,
      "epoch": 1.5889142567224759,
      "grad_norm": 3.46875,
      "learning_rate": 1.1112495509273025e-06,
      "loss": 1.0946866,
      "memory(GiB)": 112.26,
      "step": 62635,
      "train_speed(iter/s)": 1.129796
    },
    {
      "acc": 0.74010296,
      "epoch": 1.589041095890411,
      "grad_norm": 3.53125,
      "learning_rate": 1.110590499270563e-06,
      "loss": 1.06696243,
      "memory(GiB)": 112.26,
      "step": 62640,
      "train_speed(iter/s)": 1.129812
    },
    {
      "acc": 0.75189576,
      "epoch": 1.589167935058346,
      "grad_norm": 3.765625,
      "learning_rate": 1.109931618687417e-06,
      "loss": 1.02323322,
      "memory(GiB)": 112.26,
      "step": 62645,
      "train_speed(iter/s)": 1.129823
    },
    {
      "acc": 0.72546949,
      "epoch": 1.589294774226281,
      "grad_norm": 3.984375,
      "learning_rate": 1.1092729092068495e-06,
      "loss": 1.08757248,
      "memory(GiB)": 112.26,
      "step": 62650,
      "train_speed(iter/s)": 1.129834
    },
    {
      "acc": 0.73634362,
      "epoch": 1.589421613394216,
      "grad_norm": 4.0,
      "learning_rate": 1.1086143708578285e-06,
      "loss": 1.09656658,
      "memory(GiB)": 112.26,
      "step": 62655,
      "train_speed(iter/s)": 1.129846
    },
    {
      "acc": 0.74002862,
      "epoch": 1.589548452562151,
      "grad_norm": 5.90625,
      "learning_rate": 1.107956003669321e-06,
      "loss": 1.03647385,
      "memory(GiB)": 112.26,
      "step": 62660,
      "train_speed(iter/s)": 1.129857
    },
    {
      "acc": 0.74819474,
      "epoch": 1.5896752917300863,
      "grad_norm": 3.765625,
      "learning_rate": 1.107297807670284e-06,
      "loss": 1.06590118,
      "memory(GiB)": 112.26,
      "step": 62665,
      "train_speed(iter/s)": 1.129868
    },
    {
      "acc": 0.75372348,
      "epoch": 1.5898021308980215,
      "grad_norm": 4.09375,
      "learning_rate": 1.106639782889672e-06,
      "loss": 1.03003273,
      "memory(GiB)": 112.26,
      "step": 62670,
      "train_speed(iter/s)": 1.129882
    },
    {
      "acc": 0.74003291,
      "epoch": 1.5899289700659565,
      "grad_norm": 3.71875,
      "learning_rate": 1.1059819293564233e-06,
      "loss": 1.04254704,
      "memory(GiB)": 112.26,
      "step": 62675,
      "train_speed(iter/s)": 1.1299
    },
    {
      "acc": 0.74003549,
      "epoch": 1.5900558092338914,
      "grad_norm": 3.515625,
      "learning_rate": 1.105324247099474e-06,
      "loss": 1.06730232,
      "memory(GiB)": 112.26,
      "step": 62680,
      "train_speed(iter/s)": 1.129913
    },
    {
      "acc": 0.74053245,
      "epoch": 1.5901826484018264,
      "grad_norm": 3.28125,
      "learning_rate": 1.1046667361477537e-06,
      "loss": 0.99107628,
      "memory(GiB)": 112.26,
      "step": 62685,
      "train_speed(iter/s)": 1.129935
    },
    {
      "acc": 0.74889784,
      "epoch": 1.5903094875697614,
      "grad_norm": 3.96875,
      "learning_rate": 1.1040093965301835e-06,
      "loss": 1.05961514,
      "memory(GiB)": 112.26,
      "step": 62690,
      "train_speed(iter/s)": 1.129943
    },
    {
      "acc": 0.73689175,
      "epoch": 1.5904363267376966,
      "grad_norm": 3.984375,
      "learning_rate": 1.1033522282756716e-06,
      "loss": 1.05506573,
      "memory(GiB)": 112.26,
      "step": 62695,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.74534807,
      "epoch": 1.5905631659056316,
      "grad_norm": 3.78125,
      "learning_rate": 1.1026952314131268e-06,
      "loss": 1.03908749,
      "memory(GiB)": 112.26,
      "step": 62700,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.75147133,
      "epoch": 1.5906900050735668,
      "grad_norm": 3.21875,
      "learning_rate": 1.1020384059714463e-06,
      "loss": 1.02397842,
      "memory(GiB)": 112.26,
      "step": 62705,
      "train_speed(iter/s)": 1.129969
    },
    {
      "acc": 0.75033154,
      "epoch": 1.5908168442415018,
      "grad_norm": 3.578125,
      "learning_rate": 1.1013817519795211e-06,
      "loss": 0.97068024,
      "memory(GiB)": 112.26,
      "step": 62710,
      "train_speed(iter/s)": 1.129978
    },
    {
      "acc": 0.740306,
      "epoch": 1.5909436834094368,
      "grad_norm": 3.84375,
      "learning_rate": 1.1007252694662302e-06,
      "loss": 1.05077639,
      "memory(GiB)": 112.26,
      "step": 62715,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.75029321,
      "epoch": 1.5910705225773718,
      "grad_norm": 4.03125,
      "learning_rate": 1.1000689584604519e-06,
      "loss": 0.98647346,
      "memory(GiB)": 112.26,
      "step": 62720,
      "train_speed(iter/s)": 1.130003
    },
    {
      "acc": 0.73420992,
      "epoch": 1.5911973617453068,
      "grad_norm": 3.890625,
      "learning_rate": 1.099412818991053e-06,
      "loss": 1.09430943,
      "memory(GiB)": 112.26,
      "step": 62725,
      "train_speed(iter/s)": 1.130018
    },
    {
      "acc": 0.74533739,
      "epoch": 1.591324200913242,
      "grad_norm": 4.3125,
      "learning_rate": 1.098756851086893e-06,
      "loss": 1.05589924,
      "memory(GiB)": 112.26,
      "step": 62730,
      "train_speed(iter/s)": 1.130031
    },
    {
      "acc": 0.7339088,
      "epoch": 1.5914510400811772,
      "grad_norm": 3.546875,
      "learning_rate": 1.0981010547768244e-06,
      "loss": 1.08917809,
      "memory(GiB)": 112.26,
      "step": 62735,
      "train_speed(iter/s)": 1.13004
    },
    {
      "acc": 0.73965111,
      "epoch": 1.5915778792491122,
      "grad_norm": 3.796875,
      "learning_rate": 1.0974454300896924e-06,
      "loss": 1.08065424,
      "memory(GiB)": 112.26,
      "step": 62740,
      "train_speed(iter/s)": 1.130046
    },
    {
      "acc": 0.73791656,
      "epoch": 1.5917047184170472,
      "grad_norm": 3.90625,
      "learning_rate": 1.0967899770543344e-06,
      "loss": 1.10685558,
      "memory(GiB)": 112.26,
      "step": 62745,
      "train_speed(iter/s)": 1.130049
    },
    {
      "acc": 0.74630647,
      "epoch": 1.5918315575849822,
      "grad_norm": 4.03125,
      "learning_rate": 1.0961346956995795e-06,
      "loss": 1.06249905,
      "memory(GiB)": 112.26,
      "step": 62750,
      "train_speed(iter/s)": 1.13006
    },
    {
      "acc": 0.75035472,
      "epoch": 1.5919583967529172,
      "grad_norm": 4.28125,
      "learning_rate": 1.0954795860542495e-06,
      "loss": 1.01348152,
      "memory(GiB)": 112.26,
      "step": 62755,
      "train_speed(iter/s)": 1.130078
    },
    {
      "acc": 0.73102446,
      "epoch": 1.5920852359208524,
      "grad_norm": 3.234375,
      "learning_rate": 1.0948246481471603e-06,
      "loss": 1.08713741,
      "memory(GiB)": 112.26,
      "step": 62760,
      "train_speed(iter/s)": 1.130093
    },
    {
      "acc": 0.74806547,
      "epoch": 1.5922120750887874,
      "grad_norm": 4.25,
      "learning_rate": 1.0941698820071183e-06,
      "loss": 0.99792509,
      "memory(GiB)": 112.26,
      "step": 62765,
      "train_speed(iter/s)": 1.130109
    },
    {
      "acc": 0.74388456,
      "epoch": 1.5923389142567226,
      "grad_norm": 3.578125,
      "learning_rate": 1.0935152876629234e-06,
      "loss": 0.96877136,
      "memory(GiB)": 112.26,
      "step": 62770,
      "train_speed(iter/s)": 1.130121
    },
    {
      "acc": 0.75303736,
      "epoch": 1.5924657534246576,
      "grad_norm": 4.0,
      "learning_rate": 1.0928608651433675e-06,
      "loss": 1.01356926,
      "memory(GiB)": 112.26,
      "step": 62775,
      "train_speed(iter/s)": 1.130125
    },
    {
      "acc": 0.72706466,
      "epoch": 1.5925925925925926,
      "grad_norm": 4.5,
      "learning_rate": 1.0922066144772342e-06,
      "loss": 1.09231243,
      "memory(GiB)": 112.26,
      "step": 62780,
      "train_speed(iter/s)": 1.130136
    },
    {
      "acc": 0.73693438,
      "epoch": 1.5927194317605275,
      "grad_norm": 4.21875,
      "learning_rate": 1.0915525356933004e-06,
      "loss": 1.12460976,
      "memory(GiB)": 112.26,
      "step": 62785,
      "train_speed(iter/s)": 1.130148
    },
    {
      "acc": 0.75051131,
      "epoch": 1.5928462709284628,
      "grad_norm": 3.890625,
      "learning_rate": 1.0908986288203382e-06,
      "loss": 1.04070969,
      "memory(GiB)": 112.26,
      "step": 62790,
      "train_speed(iter/s)": 1.130152
    },
    {
      "acc": 0.75091076,
      "epoch": 1.5929731100963977,
      "grad_norm": 3.515625,
      "learning_rate": 1.0902448938871064e-06,
      "loss": 1.01207762,
      "memory(GiB)": 112.26,
      "step": 62795,
      "train_speed(iter/s)": 1.130164
    },
    {
      "acc": 0.75071492,
      "epoch": 1.593099949264333,
      "grad_norm": 3.3125,
      "learning_rate": 1.0895913309223594e-06,
      "loss": 1.01996365,
      "memory(GiB)": 112.26,
      "step": 62800,
      "train_speed(iter/s)": 1.130179
    },
    {
      "acc": 0.75396171,
      "epoch": 1.593226788432268,
      "grad_norm": 3.703125,
      "learning_rate": 1.0889379399548432e-06,
      "loss": 1.02352266,
      "memory(GiB)": 112.26,
      "step": 62805,
      "train_speed(iter/s)": 1.130187
    },
    {
      "acc": 0.73055325,
      "epoch": 1.593353627600203,
      "grad_norm": 4.3125,
      "learning_rate": 1.0882847210133007e-06,
      "loss": 1.07777557,
      "memory(GiB)": 112.26,
      "step": 62810,
      "train_speed(iter/s)": 1.130191
    },
    {
      "acc": 0.73803244,
      "epoch": 1.593480466768138,
      "grad_norm": 3.359375,
      "learning_rate": 1.0876316741264598e-06,
      "loss": 1.06125975,
      "memory(GiB)": 112.26,
      "step": 62815,
      "train_speed(iter/s)": 1.130206
    },
    {
      "acc": 0.733636,
      "epoch": 1.593607305936073,
      "grad_norm": 3.375,
      "learning_rate": 1.0869787993230435e-06,
      "loss": 1.12000294,
      "memory(GiB)": 112.26,
      "step": 62820,
      "train_speed(iter/s)": 1.130125
    },
    {
      "acc": 0.75558271,
      "epoch": 1.5937341451040081,
      "grad_norm": 3.578125,
      "learning_rate": 1.0863260966317713e-06,
      "loss": 1.029986,
      "memory(GiB)": 112.26,
      "step": 62825,
      "train_speed(iter/s)": 1.130132
    },
    {
      "acc": 0.74613409,
      "epoch": 1.5938609842719433,
      "grad_norm": 3.125,
      "learning_rate": 1.0856735660813523e-06,
      "loss": 1.00930748,
      "memory(GiB)": 112.26,
      "step": 62830,
      "train_speed(iter/s)": 1.130141
    },
    {
      "acc": 0.73880196,
      "epoch": 1.5939878234398783,
      "grad_norm": 3.1875,
      "learning_rate": 1.0850212077004845e-06,
      "loss": 1.06455841,
      "memory(GiB)": 112.26,
      "step": 62835,
      "train_speed(iter/s)": 1.130154
    },
    {
      "acc": 0.74685297,
      "epoch": 1.5941146626078133,
      "grad_norm": 3.5625,
      "learning_rate": 1.084369021517862e-06,
      "loss": 1.03670607,
      "memory(GiB)": 112.26,
      "step": 62840,
      "train_speed(iter/s)": 1.130167
    },
    {
      "acc": 0.74974966,
      "epoch": 1.5942415017757483,
      "grad_norm": 3.546875,
      "learning_rate": 1.0837170075621733e-06,
      "loss": 1.05322285,
      "memory(GiB)": 112.26,
      "step": 62845,
      "train_speed(iter/s)": 1.130168
    },
    {
      "acc": 0.74339333,
      "epoch": 1.5943683409436833,
      "grad_norm": 3.4375,
      "learning_rate": 1.0830651658620966e-06,
      "loss": 1.04775467,
      "memory(GiB)": 112.26,
      "step": 62850,
      "train_speed(iter/s)": 1.130179
    },
    {
      "acc": 0.76092196,
      "epoch": 1.5944951801116185,
      "grad_norm": 3.328125,
      "learning_rate": 1.0824134964462996e-06,
      "loss": 0.96670961,
      "memory(GiB)": 112.26,
      "step": 62855,
      "train_speed(iter/s)": 1.130182
    },
    {
      "acc": 0.74395618,
      "epoch": 1.5946220192795535,
      "grad_norm": 3.203125,
      "learning_rate": 1.0817619993434486e-06,
      "loss": 1.01998043,
      "memory(GiB)": 112.26,
      "step": 62860,
      "train_speed(iter/s)": 1.130191
    },
    {
      "acc": 0.73236604,
      "epoch": 1.5947488584474887,
      "grad_norm": 3.390625,
      "learning_rate": 1.0811106745821987e-06,
      "loss": 1.10843687,
      "memory(GiB)": 112.26,
      "step": 62865,
      "train_speed(iter/s)": 1.130209
    },
    {
      "acc": 0.74147091,
      "epoch": 1.5948756976154237,
      "grad_norm": 3.4375,
      "learning_rate": 1.0804595221911978e-06,
      "loss": 1.05785236,
      "memory(GiB)": 112.26,
      "step": 62870,
      "train_speed(iter/s)": 1.130224
    },
    {
      "acc": 0.74618912,
      "epoch": 1.5950025367833587,
      "grad_norm": 3.8125,
      "learning_rate": 1.0798085421990867e-06,
      "loss": 1.04341354,
      "memory(GiB)": 112.26,
      "step": 62875,
      "train_speed(iter/s)": 1.130231
    },
    {
      "acc": 0.75049944,
      "epoch": 1.5951293759512937,
      "grad_norm": 4.0,
      "learning_rate": 1.079157734634499e-06,
      "loss": 1.02562704,
      "memory(GiB)": 112.26,
      "step": 62880,
      "train_speed(iter/s)": 1.130238
    },
    {
      "acc": 0.74838696,
      "epoch": 1.5952562151192287,
      "grad_norm": 2.71875,
      "learning_rate": 1.0785070995260582e-06,
      "loss": 1.06795015,
      "memory(GiB)": 112.26,
      "step": 62885,
      "train_speed(iter/s)": 1.13025
    },
    {
      "acc": 0.74655962,
      "epoch": 1.5953830542871639,
      "grad_norm": 3.265625,
      "learning_rate": 1.0778566369023841e-06,
      "loss": 1.02972946,
      "memory(GiB)": 112.26,
      "step": 62890,
      "train_speed(iter/s)": 1.13025
    },
    {
      "acc": 0.74801974,
      "epoch": 1.595509893455099,
      "grad_norm": 3.375,
      "learning_rate": 1.0772063467920863e-06,
      "loss": 1.04759941,
      "memory(GiB)": 112.26,
      "step": 62895,
      "train_speed(iter/s)": 1.13026
    },
    {
      "acc": 0.74139433,
      "epoch": 1.595636732623034,
      "grad_norm": 3.609375,
      "learning_rate": 1.076556229223767e-06,
      "loss": 1.06383839,
      "memory(GiB)": 112.26,
      "step": 62900,
      "train_speed(iter/s)": 1.130275
    },
    {
      "acc": 0.75913682,
      "epoch": 1.595763571790969,
      "grad_norm": 3.796875,
      "learning_rate": 1.0759062842260221e-06,
      "loss": 1.020331,
      "memory(GiB)": 112.26,
      "step": 62905,
      "train_speed(iter/s)": 1.130282
    },
    {
      "acc": 0.74050665,
      "epoch": 1.595890410958904,
      "grad_norm": 3.8125,
      "learning_rate": 1.0752565118274383e-06,
      "loss": 1.07363558,
      "memory(GiB)": 112.26,
      "step": 62910,
      "train_speed(iter/s)": 1.130297
    },
    {
      "acc": 0.74443274,
      "epoch": 1.596017250126839,
      "grad_norm": 5.4375,
      "learning_rate": 1.0746069120565961e-06,
      "loss": 1.05222387,
      "memory(GiB)": 112.26,
      "step": 62915,
      "train_speed(iter/s)": 1.13031
    },
    {
      "acc": 0.75089364,
      "epoch": 1.5961440892947742,
      "grad_norm": 3.671875,
      "learning_rate": 1.073957484942067e-06,
      "loss": 1.02538805,
      "memory(GiB)": 112.26,
      "step": 62920,
      "train_speed(iter/s)": 1.130321
    },
    {
      "acc": 0.73418412,
      "epoch": 1.5962709284627092,
      "grad_norm": 3.390625,
      "learning_rate": 1.0733082305124166e-06,
      "loss": 1.04158354,
      "memory(GiB)": 112.26,
      "step": 62925,
      "train_speed(iter/s)": 1.130337
    },
    {
      "acc": 0.73567052,
      "epoch": 1.5963977676306444,
      "grad_norm": 4.0625,
      "learning_rate": 1.0726591487962018e-06,
      "loss": 1.07322741,
      "memory(GiB)": 112.26,
      "step": 62930,
      "train_speed(iter/s)": 1.130353
    },
    {
      "acc": 0.73961062,
      "epoch": 1.5965246067985794,
      "grad_norm": 3.46875,
      "learning_rate": 1.0720102398219716e-06,
      "loss": 1.04682674,
      "memory(GiB)": 112.26,
      "step": 62935,
      "train_speed(iter/s)": 1.130368
    },
    {
      "acc": 0.75250559,
      "epoch": 1.5966514459665144,
      "grad_norm": 3.875,
      "learning_rate": 1.0713615036182684e-06,
      "loss": 1.02190037,
      "memory(GiB)": 112.26,
      "step": 62940,
      "train_speed(iter/s)": 1.130378
    },
    {
      "acc": 0.75131736,
      "epoch": 1.5967782851344494,
      "grad_norm": 4.53125,
      "learning_rate": 1.0707129402136252e-06,
      "loss": 1.03065987,
      "memory(GiB)": 112.26,
      "step": 62945,
      "train_speed(iter/s)": 1.130389
    },
    {
      "acc": 0.74079518,
      "epoch": 1.5969051243023846,
      "grad_norm": 4.125,
      "learning_rate": 1.0700645496365725e-06,
      "loss": 1.04117165,
      "memory(GiB)": 112.26,
      "step": 62950,
      "train_speed(iter/s)": 1.130407
    },
    {
      "acc": 0.73974504,
      "epoch": 1.5970319634703196,
      "grad_norm": 3.34375,
      "learning_rate": 1.0694163319156254e-06,
      "loss": 1.01941614,
      "memory(GiB)": 112.26,
      "step": 62955,
      "train_speed(iter/s)": 1.130409
    },
    {
      "acc": 0.74834423,
      "epoch": 1.5971588026382548,
      "grad_norm": 3.75,
      "learning_rate": 1.0687682870792953e-06,
      "loss": 1.02652693,
      "memory(GiB)": 112.26,
      "step": 62960,
      "train_speed(iter/s)": 1.130414
    },
    {
      "acc": 0.74493337,
      "epoch": 1.5972856418061898,
      "grad_norm": 4.90625,
      "learning_rate": 1.0681204151560891e-06,
      "loss": 1.05048666,
      "memory(GiB)": 112.26,
      "step": 62965,
      "train_speed(iter/s)": 1.13043
    },
    {
      "acc": 0.72776637,
      "epoch": 1.5974124809741248,
      "grad_norm": 3.671875,
      "learning_rate": 1.067472716174503e-06,
      "loss": 1.10168009,
      "memory(GiB)": 112.26,
      "step": 62970,
      "train_speed(iter/s)": 1.130446
    },
    {
      "acc": 0.73550401,
      "epoch": 1.5975393201420598,
      "grad_norm": 4.03125,
      "learning_rate": 1.0668251901630227e-06,
      "loss": 1.09053135,
      "memory(GiB)": 112.26,
      "step": 62975,
      "train_speed(iter/s)": 1.130459
    },
    {
      "acc": 0.75613084,
      "epoch": 1.5976661593099948,
      "grad_norm": 4.21875,
      "learning_rate": 1.0661778371501303e-06,
      "loss": 1.03759708,
      "memory(GiB)": 112.26,
      "step": 62980,
      "train_speed(iter/s)": 1.130464
    },
    {
      "acc": 0.7535614,
      "epoch": 1.59779299847793,
      "grad_norm": 4.25,
      "learning_rate": 1.0655306571643004e-06,
      "loss": 1.06396332,
      "memory(GiB)": 112.26,
      "step": 62985,
      "train_speed(iter/s)": 1.130473
    },
    {
      "acc": 0.73168659,
      "epoch": 1.5979198376458652,
      "grad_norm": 3.890625,
      "learning_rate": 1.0648836502339998e-06,
      "loss": 1.09959545,
      "memory(GiB)": 112.26,
      "step": 62990,
      "train_speed(iter/s)": 1.130494
    },
    {
      "acc": 0.7442204,
      "epoch": 1.5980466768138002,
      "grad_norm": 3.75,
      "learning_rate": 1.0642368163876832e-06,
      "loss": 1.04101219,
      "memory(GiB)": 112.26,
      "step": 62995,
      "train_speed(iter/s)": 1.13051
    },
    {
      "acc": 0.73892975,
      "epoch": 1.5981735159817352,
      "grad_norm": 3.421875,
      "learning_rate": 1.0635901556538042e-06,
      "loss": 1.03723335,
      "memory(GiB)": 112.26,
      "step": 63000,
      "train_speed(iter/s)": 1.130521
    },
    {
      "epoch": 1.5981735159817352,
      "eval_acc": 0.7258910280104499,
      "eval_loss": 1.04410719871521,
      "eval_runtime": 70.9604,
      "eval_samples_per_second": 89.768,
      "eval_steps_per_second": 22.449,
      "step": 63000
    },
    {
      "acc": 0.74849491,
      "epoch": 1.5983003551496702,
      "grad_norm": 3.1875,
      "learning_rate": 1.0629436680608051e-06,
      "loss": 1.03283405,
      "memory(GiB)": 112.26,
      "step": 63005,
      "train_speed(iter/s)": 1.128183
    },
    {
      "acc": 0.74944677,
      "epoch": 1.5984271943176052,
      "grad_norm": 3.28125,
      "learning_rate": 1.0622973536371223e-06,
      "loss": 1.01932449,
      "memory(GiB)": 112.26,
      "step": 63010,
      "train_speed(iter/s)": 1.128197
    },
    {
      "acc": 0.74929504,
      "epoch": 1.5985540334855404,
      "grad_norm": 3.53125,
      "learning_rate": 1.06165121241118e-06,
      "loss": 0.9996191,
      "memory(GiB)": 112.26,
      "step": 63015,
      "train_speed(iter/s)": 1.128199
    },
    {
      "acc": 0.73932343,
      "epoch": 1.5986808726534754,
      "grad_norm": 4.0625,
      "learning_rate": 1.0610052444114023e-06,
      "loss": 1.04522076,
      "memory(GiB)": 112.26,
      "step": 63020,
      "train_speed(iter/s)": 1.128202
    },
    {
      "acc": 0.74108858,
      "epoch": 1.5988077118214106,
      "grad_norm": 3.84375,
      "learning_rate": 1.0603594496662001e-06,
      "loss": 1.06681747,
      "memory(GiB)": 112.26,
      "step": 63025,
      "train_speed(iter/s)": 1.128209
    },
    {
      "acc": 0.7522656,
      "epoch": 1.5989345509893456,
      "grad_norm": 4.125,
      "learning_rate": 1.0597138282039786e-06,
      "loss": 1.01255522,
      "memory(GiB)": 112.26,
      "step": 63030,
      "train_speed(iter/s)": 1.128219
    },
    {
      "acc": 0.74423981,
      "epoch": 1.5990613901572805,
      "grad_norm": 3.59375,
      "learning_rate": 1.0590683800531348e-06,
      "loss": 1.01927853,
      "memory(GiB)": 112.26,
      "step": 63035,
      "train_speed(iter/s)": 1.128235
    },
    {
      "acc": 0.75064039,
      "epoch": 1.5991882293252155,
      "grad_norm": 3.484375,
      "learning_rate": 1.058423105242059e-06,
      "loss": 1.03759212,
      "memory(GiB)": 112.26,
      "step": 63040,
      "train_speed(iter/s)": 1.128247
    },
    {
      "acc": 0.74567366,
      "epoch": 1.5993150684931505,
      "grad_norm": 3.859375,
      "learning_rate": 1.057778003799133e-06,
      "loss": 1.06181698,
      "memory(GiB)": 112.26,
      "step": 63045,
      "train_speed(iter/s)": 1.128257
    },
    {
      "acc": 0.73602419,
      "epoch": 1.5994419076610857,
      "grad_norm": 3.796875,
      "learning_rate": 1.0571330757527309e-06,
      "loss": 1.0916646,
      "memory(GiB)": 112.26,
      "step": 63050,
      "train_speed(iter/s)": 1.128262
    },
    {
      "acc": 0.73467798,
      "epoch": 1.599568746829021,
      "grad_norm": 3.515625,
      "learning_rate": 1.0564883211312199e-06,
      "loss": 1.10519695,
      "memory(GiB)": 112.26,
      "step": 63055,
      "train_speed(iter/s)": 1.128273
    },
    {
      "acc": 0.74752617,
      "epoch": 1.599695585996956,
      "grad_norm": 3.796875,
      "learning_rate": 1.0558437399629584e-06,
      "loss": 1.03410273,
      "memory(GiB)": 112.26,
      "step": 63060,
      "train_speed(iter/s)": 1.12828
    },
    {
      "acc": 0.74861732,
      "epoch": 1.599822425164891,
      "grad_norm": 5.3125,
      "learning_rate": 1.0551993322762994e-06,
      "loss": 1.04795732,
      "memory(GiB)": 112.26,
      "step": 63065,
      "train_speed(iter/s)": 1.128282
    },
    {
      "acc": 0.74403448,
      "epoch": 1.599949264332826,
      "grad_norm": 3.703125,
      "learning_rate": 1.0545550980995857e-06,
      "loss": 1.015028,
      "memory(GiB)": 112.26,
      "step": 63070,
      "train_speed(iter/s)": 1.128282
    },
    {
      "acc": 0.75294914,
      "epoch": 1.600076103500761,
      "grad_norm": 4.0,
      "learning_rate": 1.0539110374611538e-06,
      "loss": 1.02868948,
      "memory(GiB)": 112.26,
      "step": 63075,
      "train_speed(iter/s)": 1.128285
    },
    {
      "acc": 0.75677366,
      "epoch": 1.6002029426686961,
      "grad_norm": 3.46875,
      "learning_rate": 1.0532671503893328e-06,
      "loss": 0.95623789,
      "memory(GiB)": 112.26,
      "step": 63080,
      "train_speed(iter/s)": 1.128289
    },
    {
      "acc": 0.74416614,
      "epoch": 1.600329781836631,
      "grad_norm": 4.5,
      "learning_rate": 1.052623436912442e-06,
      "loss": 1.01122303,
      "memory(GiB)": 112.26,
      "step": 63085,
      "train_speed(iter/s)": 1.128302
    },
    {
      "acc": 0.73634481,
      "epoch": 1.6004566210045663,
      "grad_norm": 3.5625,
      "learning_rate": 1.0519798970587992e-06,
      "loss": 1.05452433,
      "memory(GiB)": 112.26,
      "step": 63090,
      "train_speed(iter/s)": 1.12831
    },
    {
      "acc": 0.732512,
      "epoch": 1.6005834601725013,
      "grad_norm": 3.40625,
      "learning_rate": 1.0513365308567054e-06,
      "loss": 1.0806447,
      "memory(GiB)": 112.26,
      "step": 63095,
      "train_speed(iter/s)": 1.12833
    },
    {
      "acc": 0.73313904,
      "epoch": 1.6007102993404363,
      "grad_norm": 3.125,
      "learning_rate": 1.0506933383344602e-06,
      "loss": 1.0998373,
      "memory(GiB)": 112.26,
      "step": 63100,
      "train_speed(iter/s)": 1.128345
    },
    {
      "acc": 0.73943844,
      "epoch": 1.6008371385083713,
      "grad_norm": 3.265625,
      "learning_rate": 1.0500503195203537e-06,
      "loss": 1.08886528,
      "memory(GiB)": 112.26,
      "step": 63105,
      "train_speed(iter/s)": 1.128357
    },
    {
      "acc": 0.74718266,
      "epoch": 1.6009639776763065,
      "grad_norm": 3.296875,
      "learning_rate": 1.049407474442672e-06,
      "loss": 1.05965958,
      "memory(GiB)": 112.26,
      "step": 63110,
      "train_speed(iter/s)": 1.128369
    },
    {
      "acc": 0.72703257,
      "epoch": 1.6010908168442415,
      "grad_norm": 3.6875,
      "learning_rate": 1.048764803129686e-06,
      "loss": 1.10373583,
      "memory(GiB)": 112.26,
      "step": 63115,
      "train_speed(iter/s)": 1.128379
    },
    {
      "acc": 0.75020032,
      "epoch": 1.6012176560121767,
      "grad_norm": 3.84375,
      "learning_rate": 1.0481223056096635e-06,
      "loss": 1.02383957,
      "memory(GiB)": 112.26,
      "step": 63120,
      "train_speed(iter/s)": 1.128391
    },
    {
      "acc": 0.73838477,
      "epoch": 1.6013444951801117,
      "grad_norm": 3.796875,
      "learning_rate": 1.0474799819108677e-06,
      "loss": 1.0646822,
      "memory(GiB)": 112.26,
      "step": 63125,
      "train_speed(iter/s)": 1.128405
    },
    {
      "acc": 0.74478908,
      "epoch": 1.6014713343480467,
      "grad_norm": 4.125,
      "learning_rate": 1.0468378320615502e-06,
      "loss": 1.02232056,
      "memory(GiB)": 112.26,
      "step": 63130,
      "train_speed(iter/s)": 1.12842
    },
    {
      "acc": 0.74171567,
      "epoch": 1.6015981735159817,
      "grad_norm": 3.59375,
      "learning_rate": 1.0461958560899516e-06,
      "loss": 1.0592823,
      "memory(GiB)": 112.26,
      "step": 63135,
      "train_speed(iter/s)": 1.128425
    },
    {
      "acc": 0.75678658,
      "epoch": 1.6017250126839166,
      "grad_norm": 3.640625,
      "learning_rate": 1.045554054024313e-06,
      "loss": 0.98589268,
      "memory(GiB)": 112.26,
      "step": 63140,
      "train_speed(iter/s)": 1.128441
    },
    {
      "acc": 0.73636808,
      "epoch": 1.6018518518518519,
      "grad_norm": 3.703125,
      "learning_rate": 1.0449124258928627e-06,
      "loss": 1.07046452,
      "memory(GiB)": 112.26,
      "step": 63145,
      "train_speed(iter/s)": 1.128456
    },
    {
      "acc": 0.74522681,
      "epoch": 1.601978691019787,
      "grad_norm": 4.0625,
      "learning_rate": 1.044270971723823e-06,
      "loss": 1.03770676,
      "memory(GiB)": 112.26,
      "step": 63150,
      "train_speed(iter/s)": 1.128468
    },
    {
      "acc": 0.74721608,
      "epoch": 1.602105530187722,
      "grad_norm": 4.59375,
      "learning_rate": 1.0436296915454048e-06,
      "loss": 1.04029312,
      "memory(GiB)": 112.26,
      "step": 63155,
      "train_speed(iter/s)": 1.128468
    },
    {
      "acc": 0.73409262,
      "epoch": 1.602232369355657,
      "grad_norm": 4.0,
      "learning_rate": 1.042988585385818e-06,
      "loss": 1.0938921,
      "memory(GiB)": 112.26,
      "step": 63160,
      "train_speed(iter/s)": 1.128477
    },
    {
      "acc": 0.74545641,
      "epoch": 1.602359208523592,
      "grad_norm": 4.59375,
      "learning_rate": 1.0423476532732602e-06,
      "loss": 1.02402706,
      "memory(GiB)": 112.26,
      "step": 63165,
      "train_speed(iter/s)": 1.128491
    },
    {
      "acc": 0.74546394,
      "epoch": 1.602486047691527,
      "grad_norm": 4.3125,
      "learning_rate": 1.0417068952359216e-06,
      "loss": 1.03295326,
      "memory(GiB)": 112.26,
      "step": 63170,
      "train_speed(iter/s)": 1.128513
    },
    {
      "acc": 0.75776844,
      "epoch": 1.6026128868594622,
      "grad_norm": 3.171875,
      "learning_rate": 1.0410663113019869e-06,
      "loss": 1.02471781,
      "memory(GiB)": 112.26,
      "step": 63175,
      "train_speed(iter/s)": 1.128526
    },
    {
      "acc": 0.74921322,
      "epoch": 1.6027397260273972,
      "grad_norm": 3.625,
      "learning_rate": 1.040425901499631e-06,
      "loss": 1.05281467,
      "memory(GiB)": 112.26,
      "step": 63180,
      "train_speed(iter/s)": 1.12854
    },
    {
      "acc": 0.75391755,
      "epoch": 1.6028665651953324,
      "grad_norm": 3.84375,
      "learning_rate": 1.0397856658570216e-06,
      "loss": 1.00218248,
      "memory(GiB)": 112.26,
      "step": 63185,
      "train_speed(iter/s)": 1.128554
    },
    {
      "acc": 0.74106169,
      "epoch": 1.6029934043632674,
      "grad_norm": 4.15625,
      "learning_rate": 1.03914560440232e-06,
      "loss": 1.05663433,
      "memory(GiB)": 112.26,
      "step": 63190,
      "train_speed(iter/s)": 1.128566
    },
    {
      "acc": 0.73346748,
      "epoch": 1.6031202435312024,
      "grad_norm": 3.546875,
      "learning_rate": 1.0385057171636791e-06,
      "loss": 1.09228191,
      "memory(GiB)": 112.26,
      "step": 63195,
      "train_speed(iter/s)": 1.128578
    },
    {
      "acc": 0.75051708,
      "epoch": 1.6032470826991374,
      "grad_norm": 3.890625,
      "learning_rate": 1.0378660041692435e-06,
      "loss": 1.04385509,
      "memory(GiB)": 112.26,
      "step": 63200,
      "train_speed(iter/s)": 1.128595
    },
    {
      "acc": 0.75704632,
      "epoch": 1.6033739218670724,
      "grad_norm": 3.140625,
      "learning_rate": 1.0372264654471504e-06,
      "loss": 0.9814352,
      "memory(GiB)": 112.26,
      "step": 63205,
      "train_speed(iter/s)": 1.128607
    },
    {
      "acc": 0.74526119,
      "epoch": 1.6035007610350076,
      "grad_norm": 3.53125,
      "learning_rate": 1.0365871010255303e-06,
      "loss": 1.06576109,
      "memory(GiB)": 112.26,
      "step": 63210,
      "train_speed(iter/s)": 1.128615
    },
    {
      "acc": 0.73968887,
      "epoch": 1.6036276002029428,
      "grad_norm": 3.0625,
      "learning_rate": 1.0359479109325043e-06,
      "loss": 1.05399675,
      "memory(GiB)": 112.26,
      "step": 63215,
      "train_speed(iter/s)": 1.128627
    },
    {
      "acc": 0.74515591,
      "epoch": 1.6037544393708778,
      "grad_norm": 3.921875,
      "learning_rate": 1.0353088951961877e-06,
      "loss": 1.03129377,
      "memory(GiB)": 112.26,
      "step": 63220,
      "train_speed(iter/s)": 1.128648
    },
    {
      "acc": 0.75071063,
      "epoch": 1.6038812785388128,
      "grad_norm": 3.515625,
      "learning_rate": 1.0346700538446853e-06,
      "loss": 0.99023132,
      "memory(GiB)": 112.26,
      "step": 63225,
      "train_speed(iter/s)": 1.128658
    },
    {
      "acc": 0.74139547,
      "epoch": 1.6040081177067478,
      "grad_norm": 3.609375,
      "learning_rate": 1.034031386906101e-06,
      "loss": 1.04570122,
      "memory(GiB)": 112.26,
      "step": 63230,
      "train_speed(iter/s)": 1.128671
    },
    {
      "acc": 0.74200487,
      "epoch": 1.6041349568746828,
      "grad_norm": 2.921875,
      "learning_rate": 1.0333928944085214e-06,
      "loss": 1.05515509,
      "memory(GiB)": 112.26,
      "step": 63235,
      "train_speed(iter/s)": 1.128671
    },
    {
      "acc": 0.73819761,
      "epoch": 1.604261796042618,
      "grad_norm": 4.21875,
      "learning_rate": 1.0327545763800322e-06,
      "loss": 1.07318325,
      "memory(GiB)": 112.26,
      "step": 63240,
      "train_speed(iter/s)": 1.128682
    },
    {
      "acc": 0.74919944,
      "epoch": 1.604388635210553,
      "grad_norm": 6.53125,
      "learning_rate": 1.0321164328487077e-06,
      "loss": 0.99081535,
      "memory(GiB)": 112.26,
      "step": 63245,
      "train_speed(iter/s)": 1.128689
    },
    {
      "acc": 0.72654271,
      "epoch": 1.6045154743784882,
      "grad_norm": 3.546875,
      "learning_rate": 1.0314784638426207e-06,
      "loss": 1.07476625,
      "memory(GiB)": 112.26,
      "step": 63250,
      "train_speed(iter/s)": 1.128707
    },
    {
      "acc": 0.73660955,
      "epoch": 1.6046423135464232,
      "grad_norm": 3.515625,
      "learning_rate": 1.030840669389827e-06,
      "loss": 1.07022867,
      "memory(GiB)": 112.26,
      "step": 63255,
      "train_speed(iter/s)": 1.128723
    },
    {
      "acc": 0.74053535,
      "epoch": 1.6047691527143582,
      "grad_norm": 4.125,
      "learning_rate": 1.0302030495183812e-06,
      "loss": 1.07313137,
      "memory(GiB)": 112.26,
      "step": 63260,
      "train_speed(iter/s)": 1.128731
    },
    {
      "acc": 0.74014869,
      "epoch": 1.6048959918822931,
      "grad_norm": 3.96875,
      "learning_rate": 1.0295656042563302e-06,
      "loss": 1.03431797,
      "memory(GiB)": 112.26,
      "step": 63265,
      "train_speed(iter/s)": 1.128744
    },
    {
      "acc": 0.73730636,
      "epoch": 1.6050228310502284,
      "grad_norm": 3.375,
      "learning_rate": 1.0289283336317119e-06,
      "loss": 1.03802776,
      "memory(GiB)": 112.26,
      "step": 63270,
      "train_speed(iter/s)": 1.128753
    },
    {
      "acc": 0.74904757,
      "epoch": 1.6051496702181633,
      "grad_norm": 3.6875,
      "learning_rate": 1.0282912376725535e-06,
      "loss": 1.0684454,
      "memory(GiB)": 112.26,
      "step": 63275,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.74255905,
      "epoch": 1.6052765093860986,
      "grad_norm": 3.875,
      "learning_rate": 1.0276543164068776e-06,
      "loss": 1.0771842,
      "memory(GiB)": 112.26,
      "step": 63280,
      "train_speed(iter/s)": 1.128777
    },
    {
      "acc": 0.75944405,
      "epoch": 1.6054033485540335,
      "grad_norm": 4.40625,
      "learning_rate": 1.0270175698627015e-06,
      "loss": 0.99960184,
      "memory(GiB)": 112.26,
      "step": 63285,
      "train_speed(iter/s)": 1.128792
    },
    {
      "acc": 0.73738403,
      "epoch": 1.6055301877219685,
      "grad_norm": 3.796875,
      "learning_rate": 1.0263809980680323e-06,
      "loss": 1.04912949,
      "memory(GiB)": 112.26,
      "step": 63290,
      "train_speed(iter/s)": 1.128803
    },
    {
      "acc": 0.73740335,
      "epoch": 1.6056570268899035,
      "grad_norm": 4.125,
      "learning_rate": 1.0257446010508648e-06,
      "loss": 1.00161057,
      "memory(GiB)": 112.26,
      "step": 63295,
      "train_speed(iter/s)": 1.12882
    },
    {
      "acc": 0.73085413,
      "epoch": 1.6057838660578385,
      "grad_norm": 3.65625,
      "learning_rate": 1.0251083788391952e-06,
      "loss": 1.18662138,
      "memory(GiB)": 112.26,
      "step": 63300,
      "train_speed(iter/s)": 1.128839
    },
    {
      "acc": 0.73859153,
      "epoch": 1.6059107052257737,
      "grad_norm": 4.4375,
      "learning_rate": 1.0244723314610055e-06,
      "loss": 1.08416958,
      "memory(GiB)": 112.26,
      "step": 63305,
      "train_speed(iter/s)": 1.128855
    },
    {
      "acc": 0.73808489,
      "epoch": 1.606037544393709,
      "grad_norm": 3.171875,
      "learning_rate": 1.0238364589442723e-06,
      "loss": 1.13266182,
      "memory(GiB)": 112.26,
      "step": 63310,
      "train_speed(iter/s)": 1.128871
    },
    {
      "acc": 0.73471689,
      "epoch": 1.606164383561644,
      "grad_norm": 3.953125,
      "learning_rate": 1.0232007613169637e-06,
      "loss": 1.066889,
      "memory(GiB)": 112.26,
      "step": 63315,
      "train_speed(iter/s)": 1.128883
    },
    {
      "acc": 0.74473228,
      "epoch": 1.606291222729579,
      "grad_norm": 5.09375,
      "learning_rate": 1.0225652386070406e-06,
      "loss": 0.98709202,
      "memory(GiB)": 112.26,
      "step": 63320,
      "train_speed(iter/s)": 1.128878
    },
    {
      "acc": 0.74567227,
      "epoch": 1.606418061897514,
      "grad_norm": 4.40625,
      "learning_rate": 1.0219298908424568e-06,
      "loss": 1.03165522,
      "memory(GiB)": 112.26,
      "step": 63325,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.74081964,
      "epoch": 1.606544901065449,
      "grad_norm": 4.21875,
      "learning_rate": 1.0212947180511567e-06,
      "loss": 1.04037504,
      "memory(GiB)": 112.26,
      "step": 63330,
      "train_speed(iter/s)": 1.128901
    },
    {
      "acc": 0.7421155,
      "epoch": 1.606671740233384,
      "grad_norm": 3.75,
      "learning_rate": 1.020659720261079e-06,
      "loss": 1.08509865,
      "memory(GiB)": 112.26,
      "step": 63335,
      "train_speed(iter/s)": 1.128915
    },
    {
      "acc": 0.74574957,
      "epoch": 1.606798579401319,
      "grad_norm": 3.265625,
      "learning_rate": 1.020024897500153e-06,
      "loss": 1.0360033,
      "memory(GiB)": 112.26,
      "step": 63340,
      "train_speed(iter/s)": 1.128931
    },
    {
      "acc": 0.74711304,
      "epoch": 1.6069254185692543,
      "grad_norm": 3.640625,
      "learning_rate": 1.0193902497963014e-06,
      "loss": 1.01452541,
      "memory(GiB)": 112.26,
      "step": 63345,
      "train_speed(iter/s)": 1.12895
    },
    {
      "acc": 0.74659719,
      "epoch": 1.6070522577371893,
      "grad_norm": 4.8125,
      "learning_rate": 1.0187557771774387e-06,
      "loss": 1.07786474,
      "memory(GiB)": 112.26,
      "step": 63350,
      "train_speed(iter/s)": 1.128961
    },
    {
      "acc": 0.73835983,
      "epoch": 1.6071790969051243,
      "grad_norm": 3.875,
      "learning_rate": 1.0181214796714717e-06,
      "loss": 1.07520895,
      "memory(GiB)": 112.26,
      "step": 63355,
      "train_speed(iter/s)": 1.128977
    },
    {
      "acc": 0.7309804,
      "epoch": 1.6073059360730593,
      "grad_norm": 3.1875,
      "learning_rate": 1.0174873573062998e-06,
      "loss": 1.13347616,
      "memory(GiB)": 112.26,
      "step": 63360,
      "train_speed(iter/s)": 1.128986
    },
    {
      "acc": 0.74717107,
      "epoch": 1.6074327752409943,
      "grad_norm": 4.03125,
      "learning_rate": 1.0168534101098148e-06,
      "loss": 1.03746586,
      "memory(GiB)": 112.26,
      "step": 63365,
      "train_speed(iter/s)": 1.129
    },
    {
      "acc": 0.74650021,
      "epoch": 1.6075596144089295,
      "grad_norm": 3.5625,
      "learning_rate": 1.0162196381099004e-06,
      "loss": 1.05454044,
      "memory(GiB)": 112.26,
      "step": 63370,
      "train_speed(iter/s)": 1.129014
    },
    {
      "acc": 0.74654722,
      "epoch": 1.6076864535768647,
      "grad_norm": 3.75,
      "learning_rate": 1.0155860413344327e-06,
      "loss": 1.04866486,
      "memory(GiB)": 112.26,
      "step": 63375,
      "train_speed(iter/s)": 1.129028
    },
    {
      "acc": 0.74605918,
      "epoch": 1.6078132927447997,
      "grad_norm": 4.34375,
      "learning_rate": 1.0149526198112797e-06,
      "loss": 1.01759501,
      "memory(GiB)": 112.26,
      "step": 63380,
      "train_speed(iter/s)": 1.129041
    },
    {
      "acc": 0.74857993,
      "epoch": 1.6079401319127347,
      "grad_norm": 3.296875,
      "learning_rate": 1.0143193735683016e-06,
      "loss": 1.05606718,
      "memory(GiB)": 112.26,
      "step": 63385,
      "train_speed(iter/s)": 1.129047
    },
    {
      "acc": 0.74173508,
      "epoch": 1.6080669710806696,
      "grad_norm": 4.09375,
      "learning_rate": 1.0136863026333543e-06,
      "loss": 1.06903448,
      "memory(GiB)": 112.26,
      "step": 63390,
      "train_speed(iter/s)": 1.129066
    },
    {
      "acc": 0.73264847,
      "epoch": 1.6081938102486046,
      "grad_norm": 3.71875,
      "learning_rate": 1.0130534070342802e-06,
      "loss": 1.10463371,
      "memory(GiB)": 112.26,
      "step": 63395,
      "train_speed(iter/s)": 1.129073
    },
    {
      "acc": 0.751055,
      "epoch": 1.6083206494165398,
      "grad_norm": 3.65625,
      "learning_rate": 1.0124206867989157e-06,
      "loss": 1.08095188,
      "memory(GiB)": 112.26,
      "step": 63400,
      "train_speed(iter/s)": 1.129084
    },
    {
      "acc": 0.73967409,
      "epoch": 1.6084474885844748,
      "grad_norm": 3.3125,
      "learning_rate": 1.0117881419550945e-06,
      "loss": 1.09052048,
      "memory(GiB)": 112.26,
      "step": 63405,
      "train_speed(iter/s)": 1.129089
    },
    {
      "acc": 0.74596667,
      "epoch": 1.60857432775241,
      "grad_norm": 3.90625,
      "learning_rate": 1.0111557725306382e-06,
      "loss": 1.07581987,
      "memory(GiB)": 112.26,
      "step": 63410,
      "train_speed(iter/s)": 1.129081
    },
    {
      "acc": 0.72415867,
      "epoch": 1.608701166920345,
      "grad_norm": 4.03125,
      "learning_rate": 1.0105235785533585e-06,
      "loss": 1.12321491,
      "memory(GiB)": 112.26,
      "step": 63415,
      "train_speed(iter/s)": 1.129096
    },
    {
      "acc": 0.73104506,
      "epoch": 1.60882800608828,
      "grad_norm": 3.828125,
      "learning_rate": 1.0098915600510623e-06,
      "loss": 1.10969439,
      "memory(GiB)": 112.26,
      "step": 63420,
      "train_speed(iter/s)": 1.129108
    },
    {
      "acc": 0.74858723,
      "epoch": 1.608954845256215,
      "grad_norm": 5.71875,
      "learning_rate": 1.0092597170515512e-06,
      "loss": 1.00907955,
      "memory(GiB)": 112.26,
      "step": 63425,
      "train_speed(iter/s)": 1.129113
    },
    {
      "acc": 0.73630657,
      "epoch": 1.6090816844241502,
      "grad_norm": 3.5,
      "learning_rate": 1.0086280495826161e-06,
      "loss": 1.10974722,
      "memory(GiB)": 112.26,
      "step": 63430,
      "train_speed(iter/s)": 1.129122
    },
    {
      "acc": 0.74632616,
      "epoch": 1.6092085235920852,
      "grad_norm": 3.421875,
      "learning_rate": 1.0079965576720375e-06,
      "loss": 1.02887373,
      "memory(GiB)": 112.26,
      "step": 63435,
      "train_speed(iter/s)": 1.129136
    },
    {
      "acc": 0.74596152,
      "epoch": 1.6093353627600204,
      "grad_norm": 3.875,
      "learning_rate": 1.0073652413475936e-06,
      "loss": 1.03589897,
      "memory(GiB)": 112.26,
      "step": 63440,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.75993004,
      "epoch": 1.6094622019279554,
      "grad_norm": 4.125,
      "learning_rate": 1.0067341006370535e-06,
      "loss": 1.02126942,
      "memory(GiB)": 112.26,
      "step": 63445,
      "train_speed(iter/s)": 1.129155
    },
    {
      "acc": 0.73436351,
      "epoch": 1.6095890410958904,
      "grad_norm": 3.46875,
      "learning_rate": 1.0061031355681766e-06,
      "loss": 1.01425285,
      "memory(GiB)": 112.26,
      "step": 63450,
      "train_speed(iter/s)": 1.12917
    },
    {
      "acc": 0.73480258,
      "epoch": 1.6097158802638254,
      "grad_norm": 3.328125,
      "learning_rate": 1.0054723461687133e-06,
      "loss": 1.09578791,
      "memory(GiB)": 112.26,
      "step": 63455,
      "train_speed(iter/s)": 1.129175
    },
    {
      "acc": 0.74887433,
      "epoch": 1.6098427194317604,
      "grad_norm": 3.265625,
      "learning_rate": 1.0048417324664118e-06,
      "loss": 1.01832743,
      "memory(GiB)": 112.26,
      "step": 63460,
      "train_speed(iter/s)": 1.129187
    },
    {
      "acc": 0.74016409,
      "epoch": 1.6099695585996956,
      "grad_norm": 3.28125,
      "learning_rate": 1.0042112944890075e-06,
      "loss": 1.07217455,
      "memory(GiB)": 112.26,
      "step": 63465,
      "train_speed(iter/s)": 1.129195
    },
    {
      "acc": 0.74846044,
      "epoch": 1.6100963977676308,
      "grad_norm": 4.25,
      "learning_rate": 1.003581032264231e-06,
      "loss": 1.01378727,
      "memory(GiB)": 112.26,
      "step": 63470,
      "train_speed(iter/s)": 1.129206
    },
    {
      "acc": 0.74568119,
      "epoch": 1.6102232369355658,
      "grad_norm": 3.953125,
      "learning_rate": 1.0029509458198027e-06,
      "loss": 1.01188412,
      "memory(GiB)": 112.26,
      "step": 63475,
      "train_speed(iter/s)": 1.129223
    },
    {
      "acc": 0.74657545,
      "epoch": 1.6103500761035008,
      "grad_norm": 3.859375,
      "learning_rate": 1.0023210351834378e-06,
      "loss": 1.07720041,
      "memory(GiB)": 112.26,
      "step": 63480,
      "train_speed(iter/s)": 1.129236
    },
    {
      "acc": 0.75039954,
      "epoch": 1.6104769152714358,
      "grad_norm": 4.0,
      "learning_rate": 1.001691300382842e-06,
      "loss": 1.08349743,
      "memory(GiB)": 112.26,
      "step": 63485,
      "train_speed(iter/s)": 1.129237
    },
    {
      "acc": 0.7458559,
      "epoch": 1.6106037544393708,
      "grad_norm": 3.46875,
      "learning_rate": 1.001061741445714e-06,
      "loss": 1.03649397,
      "memory(GiB)": 112.26,
      "step": 63490,
      "train_speed(iter/s)": 1.129241
    },
    {
      "acc": 0.73537946,
      "epoch": 1.610730593607306,
      "grad_norm": 4.125,
      "learning_rate": 1.000432358399745e-06,
      "loss": 1.08230534,
      "memory(GiB)": 112.26,
      "step": 63495,
      "train_speed(iter/s)": 1.129246
    },
    {
      "acc": 0.75013413,
      "epoch": 1.610857432775241,
      "grad_norm": 3.8125,
      "learning_rate": 9.99803151272617e-07,
      "loss": 1.01231403,
      "memory(GiB)": 112.26,
      "step": 63500,
      "train_speed(iter/s)": 1.129257
    },
    {
      "acc": 0.74556093,
      "epoch": 1.6109842719431762,
      "grad_norm": 3.890625,
      "learning_rate": 9.991741200920062e-07,
      "loss": 1.08041325,
      "memory(GiB)": 112.26,
      "step": 63505,
      "train_speed(iter/s)": 1.12927
    },
    {
      "acc": 0.75054951,
      "epoch": 1.6111111111111112,
      "grad_norm": 3.40625,
      "learning_rate": 9.985452648855803e-07,
      "loss": 1.03079472,
      "memory(GiB)": 112.26,
      "step": 63510,
      "train_speed(iter/s)": 1.129286
    },
    {
      "acc": 0.7336298,
      "epoch": 1.6112379502790461,
      "grad_norm": 3.625,
      "learning_rate": 9.979165856809985e-07,
      "loss": 1.05321655,
      "memory(GiB)": 112.26,
      "step": 63515,
      "train_speed(iter/s)": 1.129295
    },
    {
      "acc": 0.7355629,
      "epoch": 1.6113647894469811,
      "grad_norm": 4.03125,
      "learning_rate": 9.972880825059134e-07,
      "loss": 1.12903538,
      "memory(GiB)": 112.26,
      "step": 63520,
      "train_speed(iter/s)": 1.129298
    },
    {
      "acc": 0.74342842,
      "epoch": 1.6114916286149161,
      "grad_norm": 3.609375,
      "learning_rate": 9.966597553879681e-07,
      "loss": 1.00432568,
      "memory(GiB)": 112.26,
      "step": 63525,
      "train_speed(iter/s)": 1.129312
    },
    {
      "acc": 0.74339104,
      "epoch": 1.6116184677828513,
      "grad_norm": 3.921875,
      "learning_rate": 9.96031604354803e-07,
      "loss": 1.12873907,
      "memory(GiB)": 112.26,
      "step": 63530,
      "train_speed(iter/s)": 1.129324
    },
    {
      "acc": 0.74390383,
      "epoch": 1.6117453069507865,
      "grad_norm": 4.15625,
      "learning_rate": 9.954036294340425e-07,
      "loss": 1.09512863,
      "memory(GiB)": 112.26,
      "step": 63535,
      "train_speed(iter/s)": 1.129342
    },
    {
      "acc": 0.74333687,
      "epoch": 1.6118721461187215,
      "grad_norm": 3.96875,
      "learning_rate": 9.947758306533101e-07,
      "loss": 1.00437622,
      "memory(GiB)": 112.26,
      "step": 63540,
      "train_speed(iter/s)": 1.12935
    },
    {
      "acc": 0.75366788,
      "epoch": 1.6119989852866565,
      "grad_norm": 3.359375,
      "learning_rate": 9.941482080402177e-07,
      "loss": 1.05411663,
      "memory(GiB)": 112.26,
      "step": 63545,
      "train_speed(iter/s)": 1.129363
    },
    {
      "acc": 0.73304186,
      "epoch": 1.6121258244545915,
      "grad_norm": 3.828125,
      "learning_rate": 9.935207616223741e-07,
      "loss": 1.04598837,
      "memory(GiB)": 112.26,
      "step": 63550,
      "train_speed(iter/s)": 1.129371
    },
    {
      "acc": 0.7487432,
      "epoch": 1.6122526636225265,
      "grad_norm": 3.8125,
      "learning_rate": 9.928934914273735e-07,
      "loss": 1.01525917,
      "memory(GiB)": 112.26,
      "step": 63555,
      "train_speed(iter/s)": 1.129382
    },
    {
      "acc": 0.747403,
      "epoch": 1.6123795027904617,
      "grad_norm": 3.171875,
      "learning_rate": 9.922663974828066e-07,
      "loss": 1.06258678,
      "memory(GiB)": 112.26,
      "step": 63560,
      "train_speed(iter/s)": 1.12939
    },
    {
      "acc": 0.73408794,
      "epoch": 1.6125063419583967,
      "grad_norm": 3.375,
      "learning_rate": 9.916394798162582e-07,
      "loss": 1.07403603,
      "memory(GiB)": 112.26,
      "step": 63565,
      "train_speed(iter/s)": 1.129401
    },
    {
      "acc": 0.73224068,
      "epoch": 1.612633181126332,
      "grad_norm": 3.625,
      "learning_rate": 9.91012738455303e-07,
      "loss": 1.04757309,
      "memory(GiB)": 112.26,
      "step": 63570,
      "train_speed(iter/s)": 1.12942
    },
    {
      "acc": 0.74009542,
      "epoch": 1.612760020294267,
      "grad_norm": 3.953125,
      "learning_rate": 9.903861734275032e-07,
      "loss": 1.0003911,
      "memory(GiB)": 112.26,
      "step": 63575,
      "train_speed(iter/s)": 1.129427
    },
    {
      "acc": 0.75495691,
      "epoch": 1.612886859462202,
      "grad_norm": 3.6875,
      "learning_rate": 9.897597847604228e-07,
      "loss": 1.02464113,
      "memory(GiB)": 112.26,
      "step": 63580,
      "train_speed(iter/s)": 1.129439
    },
    {
      "acc": 0.74131393,
      "epoch": 1.6130136986301369,
      "grad_norm": 5.0,
      "learning_rate": 9.89133572481612e-07,
      "loss": 1.07662373,
      "memory(GiB)": 112.26,
      "step": 63585,
      "train_speed(iter/s)": 1.129455
    },
    {
      "acc": 0.7382175,
      "epoch": 1.613140537798072,
      "grad_norm": 3.671875,
      "learning_rate": 9.885075366186148e-07,
      "loss": 1.07027512,
      "memory(GiB)": 112.26,
      "step": 63590,
      "train_speed(iter/s)": 1.129471
    },
    {
      "acc": 0.75699358,
      "epoch": 1.613267376966007,
      "grad_norm": 2.875,
      "learning_rate": 9.87881677198963e-07,
      "loss": 1.01186972,
      "memory(GiB)": 112.26,
      "step": 63595,
      "train_speed(iter/s)": 1.129482
    },
    {
      "acc": 0.72284827,
      "epoch": 1.6133942161339423,
      "grad_norm": 3.765625,
      "learning_rate": 9.872559942501897e-07,
      "loss": 1.15656948,
      "memory(GiB)": 112.26,
      "step": 63600,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.72881966,
      "epoch": 1.6135210553018773,
      "grad_norm": 3.265625,
      "learning_rate": 9.866304877998134e-07,
      "loss": 1.10033569,
      "memory(GiB)": 112.26,
      "step": 63605,
      "train_speed(iter/s)": 1.129518
    },
    {
      "acc": 0.74416232,
      "epoch": 1.6136478944698123,
      "grad_norm": 4.28125,
      "learning_rate": 9.860051578753466e-07,
      "loss": 1.09926624,
      "memory(GiB)": 112.26,
      "step": 63610,
      "train_speed(iter/s)": 1.129532
    },
    {
      "acc": 0.73766794,
      "epoch": 1.6137747336377473,
      "grad_norm": 3.8125,
      "learning_rate": 9.853800045042938e-07,
      "loss": 1.07566414,
      "memory(GiB)": 112.26,
      "step": 63615,
      "train_speed(iter/s)": 1.129542
    },
    {
      "acc": 0.73823757,
      "epoch": 1.6139015728056822,
      "grad_norm": 3.25,
      "learning_rate": 9.847550277141526e-07,
      "loss": 1.07532396,
      "memory(GiB)": 112.26,
      "step": 63620,
      "train_speed(iter/s)": 1.129554
    },
    {
      "acc": 0.74404287,
      "epoch": 1.6140284119736175,
      "grad_norm": 4.28125,
      "learning_rate": 9.841302275324128e-07,
      "loss": 1.03933353,
      "memory(GiB)": 112.26,
      "step": 63625,
      "train_speed(iter/s)": 1.129563
    },
    {
      "acc": 0.74170909,
      "epoch": 1.6141552511415527,
      "grad_norm": 4.15625,
      "learning_rate": 9.835056039865542e-07,
      "loss": 1.05238018,
      "memory(GiB)": 112.26,
      "step": 63630,
      "train_speed(iter/s)": 1.129576
    },
    {
      "acc": 0.73476048,
      "epoch": 1.6142820903094877,
      "grad_norm": 4.875,
      "learning_rate": 9.82881157104052e-07,
      "loss": 1.11094046,
      "memory(GiB)": 112.26,
      "step": 63635,
      "train_speed(iter/s)": 1.129594
    },
    {
      "acc": 0.73008971,
      "epoch": 1.6144089294774226,
      "grad_norm": 3.25,
      "learning_rate": 9.822568869123712e-07,
      "loss": 1.12904701,
      "memory(GiB)": 112.26,
      "step": 63640,
      "train_speed(iter/s)": 1.129587
    },
    {
      "acc": 0.73302693,
      "epoch": 1.6145357686453576,
      "grad_norm": 3.3125,
      "learning_rate": 9.816327934389707e-07,
      "loss": 1.06808548,
      "memory(GiB)": 112.26,
      "step": 63645,
      "train_speed(iter/s)": 1.129598
    },
    {
      "acc": 0.75376692,
      "epoch": 1.6146626078132926,
      "grad_norm": 3.34375,
      "learning_rate": 9.810088767113008e-07,
      "loss": 1.00862951,
      "memory(GiB)": 112.26,
      "step": 63650,
      "train_speed(iter/s)": 1.129609
    },
    {
      "acc": 0.73786116,
      "epoch": 1.6147894469812278,
      "grad_norm": 3.75,
      "learning_rate": 9.80385136756804e-07,
      "loss": 1.0929882,
      "memory(GiB)": 112.26,
      "step": 63655,
      "train_speed(iter/s)": 1.129621
    },
    {
      "acc": 0.73729081,
      "epoch": 1.6149162861491628,
      "grad_norm": 3.84375,
      "learning_rate": 9.797615736029148e-07,
      "loss": 1.07653437,
      "memory(GiB)": 112.26,
      "step": 63660,
      "train_speed(iter/s)": 1.129638
    },
    {
      "acc": 0.74856577,
      "epoch": 1.615043125317098,
      "grad_norm": 3.15625,
      "learning_rate": 9.791381872770594e-07,
      "loss": 1.05435104,
      "memory(GiB)": 112.26,
      "step": 63665,
      "train_speed(iter/s)": 1.129653
    },
    {
      "acc": 0.74901948,
      "epoch": 1.615169964485033,
      "grad_norm": 3.828125,
      "learning_rate": 9.785149778066615e-07,
      "loss": 1.07203026,
      "memory(GiB)": 112.26,
      "step": 63670,
      "train_speed(iter/s)": 1.129661
    },
    {
      "acc": 0.74875512,
      "epoch": 1.615296803652968,
      "grad_norm": 3.953125,
      "learning_rate": 9.778919452191277e-07,
      "loss": 1.02056293,
      "memory(GiB)": 112.26,
      "step": 63675,
      "train_speed(iter/s)": 1.129666
    },
    {
      "acc": 0.75802584,
      "epoch": 1.615423642820903,
      "grad_norm": 4.375,
      "learning_rate": 9.77269089541864e-07,
      "loss": 0.98770046,
      "memory(GiB)": 112.26,
      "step": 63680,
      "train_speed(iter/s)": 1.129683
    },
    {
      "acc": 0.74119849,
      "epoch": 1.615550481988838,
      "grad_norm": 3.40625,
      "learning_rate": 9.766464108022644e-07,
      "loss": 1.08102798,
      "memory(GiB)": 112.26,
      "step": 63685,
      "train_speed(iter/s)": 1.129693
    },
    {
      "acc": 0.74956498,
      "epoch": 1.6156773211567732,
      "grad_norm": 3.8125,
      "learning_rate": 9.760239090277213e-07,
      "loss": 1.03307648,
      "memory(GiB)": 112.26,
      "step": 63690,
      "train_speed(iter/s)": 1.129707
    },
    {
      "acc": 0.7468236,
      "epoch": 1.6158041603247084,
      "grad_norm": 4.0,
      "learning_rate": 9.75401584245611e-07,
      "loss": 1.03862305,
      "memory(GiB)": 112.26,
      "step": 63695,
      "train_speed(iter/s)": 1.129712
    },
    {
      "acc": 0.72158556,
      "epoch": 1.6159309994926434,
      "grad_norm": 3.859375,
      "learning_rate": 9.747794364833063e-07,
      "loss": 1.14818335,
      "memory(GiB)": 112.26,
      "step": 63700,
      "train_speed(iter/s)": 1.129725
    },
    {
      "acc": 0.73216276,
      "epoch": 1.6160578386605784,
      "grad_norm": 3.453125,
      "learning_rate": 9.741574657681747e-07,
      "loss": 1.08854847,
      "memory(GiB)": 112.26,
      "step": 63705,
      "train_speed(iter/s)": 1.12973
    },
    {
      "acc": 0.73513913,
      "epoch": 1.6161846778285134,
      "grad_norm": 3.8125,
      "learning_rate": 9.735356721275734e-07,
      "loss": 1.05861664,
      "memory(GiB)": 112.26,
      "step": 63710,
      "train_speed(iter/s)": 1.129747
    },
    {
      "acc": 0.74542322,
      "epoch": 1.6163115169964484,
      "grad_norm": 3.921875,
      "learning_rate": 9.729140555888483e-07,
      "loss": 0.99121418,
      "memory(GiB)": 112.26,
      "step": 63715,
      "train_speed(iter/s)": 1.129759
    },
    {
      "acc": 0.74825249,
      "epoch": 1.6164383561643836,
      "grad_norm": 4.34375,
      "learning_rate": 9.722926161793417e-07,
      "loss": 1.02619419,
      "memory(GiB)": 112.26,
      "step": 63720,
      "train_speed(iter/s)": 1.12977
    },
    {
      "acc": 0.73762083,
      "epoch": 1.6165651953323186,
      "grad_norm": 3.578125,
      "learning_rate": 9.716713539263895e-07,
      "loss": 1.10393047,
      "memory(GiB)": 112.26,
      "step": 63725,
      "train_speed(iter/s)": 1.129775
    },
    {
      "acc": 0.74403629,
      "epoch": 1.6166920345002538,
      "grad_norm": 3.359375,
      "learning_rate": 9.710502688573175e-07,
      "loss": 1.07850037,
      "memory(GiB)": 112.26,
      "step": 63730,
      "train_speed(iter/s)": 1.129781
    },
    {
      "acc": 0.73748021,
      "epoch": 1.6168188736681888,
      "grad_norm": 3.265625,
      "learning_rate": 9.704293609994403e-07,
      "loss": 1.08788185,
      "memory(GiB)": 112.26,
      "step": 63735,
      "train_speed(iter/s)": 1.129787
    },
    {
      "acc": 0.74658775,
      "epoch": 1.6169457128361238,
      "grad_norm": 3.625,
      "learning_rate": 9.69808630380072e-07,
      "loss": 1.07810631,
      "memory(GiB)": 112.26,
      "step": 63740,
      "train_speed(iter/s)": 1.1298
    },
    {
      "acc": 0.75006351,
      "epoch": 1.6170725520040587,
      "grad_norm": 3.96875,
      "learning_rate": 9.691880770265132e-07,
      "loss": 0.99880838,
      "memory(GiB)": 112.26,
      "step": 63745,
      "train_speed(iter/s)": 1.129815
    },
    {
      "acc": 0.75006685,
      "epoch": 1.617199391171994,
      "grad_norm": 3.96875,
      "learning_rate": 9.685677009660587e-07,
      "loss": 1.07735081,
      "memory(GiB)": 112.26,
      "step": 63750,
      "train_speed(iter/s)": 1.12983
    },
    {
      "acc": 0.7266036,
      "epoch": 1.617326230339929,
      "grad_norm": 4.8125,
      "learning_rate": 9.679475022259965e-07,
      "loss": 1.11133652,
      "memory(GiB)": 112.26,
      "step": 63755,
      "train_speed(iter/s)": 1.129843
    },
    {
      "acc": 0.74779687,
      "epoch": 1.6174530695078642,
      "grad_norm": 3.90625,
      "learning_rate": 9.673274808336047e-07,
      "loss": 1.07457047,
      "memory(GiB)": 112.26,
      "step": 63760,
      "train_speed(iter/s)": 1.129855
    },
    {
      "acc": 0.7326263,
      "epoch": 1.6175799086757991,
      "grad_norm": 3.703125,
      "learning_rate": 9.66707636816155e-07,
      "loss": 1.15768394,
      "memory(GiB)": 112.26,
      "step": 63765,
      "train_speed(iter/s)": 1.129861
    },
    {
      "acc": 0.73474731,
      "epoch": 1.6177067478437341,
      "grad_norm": 3.953125,
      "learning_rate": 9.660879702009106e-07,
      "loss": 1.14399681,
      "memory(GiB)": 112.26,
      "step": 63770,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.72430849,
      "epoch": 1.6178335870116691,
      "grad_norm": 4.3125,
      "learning_rate": 9.654684810151276e-07,
      "loss": 1.12650414,
      "memory(GiB)": 112.26,
      "step": 63775,
      "train_speed(iter/s)": 1.129878
    },
    {
      "acc": 0.74026852,
      "epoch": 1.6179604261796041,
      "grad_norm": 3.875,
      "learning_rate": 9.648491692860534e-07,
      "loss": 1.05596781,
      "memory(GiB)": 112.26,
      "step": 63780,
      "train_speed(iter/s)": 1.129899
    },
    {
      "acc": 0.7438477,
      "epoch": 1.6180872653475393,
      "grad_norm": 3.96875,
      "learning_rate": 9.642300350409289e-07,
      "loss": 1.06368198,
      "memory(GiB)": 112.26,
      "step": 63785,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.7305069,
      "epoch": 1.6182141045154745,
      "grad_norm": 4.5,
      "learning_rate": 9.636110783069852e-07,
      "loss": 1.14781771,
      "memory(GiB)": 112.26,
      "step": 63790,
      "train_speed(iter/s)": 1.129927
    },
    {
      "acc": 0.73309531,
      "epoch": 1.6183409436834095,
      "grad_norm": 3.78125,
      "learning_rate": 9.629922991114482e-07,
      "loss": 1.11389246,
      "memory(GiB)": 112.26,
      "step": 63795,
      "train_speed(iter/s)": 1.129936
    },
    {
      "acc": 0.73544016,
      "epoch": 1.6184677828513445,
      "grad_norm": 3.359375,
      "learning_rate": 9.623736974815334e-07,
      "loss": 1.05100765,
      "memory(GiB)": 112.26,
      "step": 63800,
      "train_speed(iter/s)": 1.129947
    },
    {
      "acc": 0.75781183,
      "epoch": 1.6185946220192795,
      "grad_norm": 3.734375,
      "learning_rate": 9.617552734444502e-07,
      "loss": 0.98987455,
      "memory(GiB)": 112.26,
      "step": 63805,
      "train_speed(iter/s)": 1.12996
    },
    {
      "acc": 0.74940143,
      "epoch": 1.6187214611872145,
      "grad_norm": 3.125,
      "learning_rate": 9.611370270273996e-07,
      "loss": 0.98127966,
      "memory(GiB)": 112.26,
      "step": 63810,
      "train_speed(iter/s)": 1.129973
    },
    {
      "acc": 0.73757229,
      "epoch": 1.6188483003551497,
      "grad_norm": 3.34375,
      "learning_rate": 9.605189582575741e-07,
      "loss": 1.01140079,
      "memory(GiB)": 112.26,
      "step": 63815,
      "train_speed(iter/s)": 1.129982
    },
    {
      "acc": 0.74207993,
      "epoch": 1.6189751395230847,
      "grad_norm": 3.703125,
      "learning_rate": 9.599010671621605e-07,
      "loss": 1.07716961,
      "memory(GiB)": 112.26,
      "step": 63820,
      "train_speed(iter/s)": 1.129986
    },
    {
      "acc": 0.7414083,
      "epoch": 1.61910197869102,
      "grad_norm": 3.640625,
      "learning_rate": 9.592833537683344e-07,
      "loss": 1.07815065,
      "memory(GiB)": 112.26,
      "step": 63825,
      "train_speed(iter/s)": 1.13
    },
    {
      "acc": 0.73457046,
      "epoch": 1.619228817858955,
      "grad_norm": 3.90625,
      "learning_rate": 9.586658181032693e-07,
      "loss": 1.10161924,
      "memory(GiB)": 112.26,
      "step": 63830,
      "train_speed(iter/s)": 1.130012
    },
    {
      "acc": 0.74153748,
      "epoch": 1.6193556570268899,
      "grad_norm": 3.0,
      "learning_rate": 9.580484601941237e-07,
      "loss": 1.00575104,
      "memory(GiB)": 112.26,
      "step": 63835,
      "train_speed(iter/s)": 1.130025
    },
    {
      "acc": 0.73336263,
      "epoch": 1.6194824961948249,
      "grad_norm": 4.4375,
      "learning_rate": 9.574312800680514e-07,
      "loss": 1.10610142,
      "memory(GiB)": 112.26,
      "step": 63840,
      "train_speed(iter/s)": 1.13004
    },
    {
      "acc": 0.73718748,
      "epoch": 1.6196093353627599,
      "grad_norm": 4.25,
      "learning_rate": 9.56814277752201e-07,
      "loss": 1.06101923,
      "memory(GiB)": 112.26,
      "step": 63845,
      "train_speed(iter/s)": 1.130055
    },
    {
      "acc": 0.731248,
      "epoch": 1.619736174530695,
      "grad_norm": 5.15625,
      "learning_rate": 9.561974532737124e-07,
      "loss": 1.1388752,
      "memory(GiB)": 112.26,
      "step": 63850,
      "train_speed(iter/s)": 1.13007
    },
    {
      "acc": 0.73266153,
      "epoch": 1.6198630136986303,
      "grad_norm": 3.28125,
      "learning_rate": 9.555808066597123e-07,
      "loss": 1.01093693,
      "memory(GiB)": 112.26,
      "step": 63855,
      "train_speed(iter/s)": 1.130074
    },
    {
      "acc": 0.75493026,
      "epoch": 1.6199898528665653,
      "grad_norm": 4.3125,
      "learning_rate": 9.549643379373236e-07,
      "loss": 1.03922062,
      "memory(GiB)": 112.26,
      "step": 63860,
      "train_speed(iter/s)": 1.130094
    },
    {
      "acc": 0.74276733,
      "epoch": 1.6201166920345003,
      "grad_norm": 4.21875,
      "learning_rate": 9.543480471336652e-07,
      "loss": 1.04469614,
      "memory(GiB)": 112.26,
      "step": 63865,
      "train_speed(iter/s)": 1.1301
    },
    {
      "acc": 0.76329412,
      "epoch": 1.6202435312024352,
      "grad_norm": 3.421875,
      "learning_rate": 9.537319342758434e-07,
      "loss": 0.95869894,
      "memory(GiB)": 112.26,
      "step": 63870,
      "train_speed(iter/s)": 1.130117
    },
    {
      "acc": 0.74170475,
      "epoch": 1.6203703703703702,
      "grad_norm": 4.625,
      "learning_rate": 9.531159993909533e-07,
      "loss": 1.02138481,
      "memory(GiB)": 112.26,
      "step": 63875,
      "train_speed(iter/s)": 1.130134
    },
    {
      "acc": 0.75500288,
      "epoch": 1.6204972095383054,
      "grad_norm": 3.765625,
      "learning_rate": 9.525002425060914e-07,
      "loss": 0.95308094,
      "memory(GiB)": 112.26,
      "step": 63880,
      "train_speed(iter/s)": 1.130146
    },
    {
      "acc": 0.7353591,
      "epoch": 1.6206240487062404,
      "grad_norm": 3.265625,
      "learning_rate": 9.518846636483392e-07,
      "loss": 1.06486607,
      "memory(GiB)": 112.26,
      "step": 63885,
      "train_speed(iter/s)": 1.130162
    },
    {
      "acc": 0.72194705,
      "epoch": 1.6207508878741756,
      "grad_norm": 3.03125,
      "learning_rate": 9.512692628447745e-07,
      "loss": 1.12006655,
      "memory(GiB)": 112.26,
      "step": 63890,
      "train_speed(iter/s)": 1.130165
    },
    {
      "acc": 0.73886766,
      "epoch": 1.6208777270421106,
      "grad_norm": 3.96875,
      "learning_rate": 9.506540401224612e-07,
      "loss": 1.03193741,
      "memory(GiB)": 112.26,
      "step": 63895,
      "train_speed(iter/s)": 1.130172
    },
    {
      "acc": 0.74660845,
      "epoch": 1.6210045662100456,
      "grad_norm": 3.265625,
      "learning_rate": 9.500389955084638e-07,
      "loss": 1.04829884,
      "memory(GiB)": 112.26,
      "step": 63900,
      "train_speed(iter/s)": 1.130185
    },
    {
      "acc": 0.74371967,
      "epoch": 1.6211314053779806,
      "grad_norm": 4.875,
      "learning_rate": 9.494241290298334e-07,
      "loss": 1.07502346,
      "memory(GiB)": 112.26,
      "step": 63905,
      "train_speed(iter/s)": 1.130198
    },
    {
      "acc": 0.74668436,
      "epoch": 1.6212582445459158,
      "grad_norm": 4.1875,
      "learning_rate": 9.488094407136139e-07,
      "loss": 1.05503588,
      "memory(GiB)": 112.26,
      "step": 63910,
      "train_speed(iter/s)": 1.130211
    },
    {
      "acc": 0.73737507,
      "epoch": 1.6213850837138508,
      "grad_norm": 4.21875,
      "learning_rate": 9.481949305868421e-07,
      "loss": 1.06580133,
      "memory(GiB)": 112.26,
      "step": 63915,
      "train_speed(iter/s)": 1.130216
    },
    {
      "acc": 0.72585211,
      "epoch": 1.621511922881786,
      "grad_norm": 4.78125,
      "learning_rate": 9.475805986765479e-07,
      "loss": 1.12399902,
      "memory(GiB)": 112.26,
      "step": 63920,
      "train_speed(iter/s)": 1.130237
    },
    {
      "acc": 0.73991475,
      "epoch": 1.621638762049721,
      "grad_norm": 3.1875,
      "learning_rate": 9.469664450097515e-07,
      "loss": 1.02494564,
      "memory(GiB)": 112.26,
      "step": 63925,
      "train_speed(iter/s)": 1.130249
    },
    {
      "acc": 0.75296345,
      "epoch": 1.621765601217656,
      "grad_norm": 4.03125,
      "learning_rate": 9.463524696134663e-07,
      "loss": 1.05498676,
      "memory(GiB)": 112.26,
      "step": 63930,
      "train_speed(iter/s)": 1.130261
    },
    {
      "acc": 0.74809608,
      "epoch": 1.621892440385591,
      "grad_norm": 3.578125,
      "learning_rate": 9.457386725146978e-07,
      "loss": 1.01340809,
      "memory(GiB)": 112.26,
      "step": 63935,
      "train_speed(iter/s)": 1.130268
    },
    {
      "acc": 0.73860736,
      "epoch": 1.622019279553526,
      "grad_norm": 3.453125,
      "learning_rate": 9.451250537404433e-07,
      "loss": 1.07050838,
      "memory(GiB)": 112.26,
      "step": 63940,
      "train_speed(iter/s)": 1.130267
    },
    {
      "acc": 0.73750877,
      "epoch": 1.6221461187214612,
      "grad_norm": 3.421875,
      "learning_rate": 9.44511613317693e-07,
      "loss": 1.05394459,
      "memory(GiB)": 112.26,
      "step": 63945,
      "train_speed(iter/s)": 1.130281
    },
    {
      "acc": 0.73931746,
      "epoch": 1.6222729578893964,
      "grad_norm": 4.9375,
      "learning_rate": 9.438983512734279e-07,
      "loss": 1.0609417,
      "memory(GiB)": 112.26,
      "step": 63950,
      "train_speed(iter/s)": 1.130285
    },
    {
      "acc": 0.7472127,
      "epoch": 1.6223997970573314,
      "grad_norm": 3.875,
      "learning_rate": 9.432852676346233e-07,
      "loss": 1.03554211,
      "memory(GiB)": 112.26,
      "step": 63955,
      "train_speed(iter/s)": 1.130294
    },
    {
      "acc": 0.74148741,
      "epoch": 1.6225266362252664,
      "grad_norm": 4.625,
      "learning_rate": 9.426723624282436e-07,
      "loss": 1.06846876,
      "memory(GiB)": 112.26,
      "step": 63960,
      "train_speed(iter/s)": 1.130306
    },
    {
      "acc": 0.7445951,
      "epoch": 1.6226534753932014,
      "grad_norm": 3.578125,
      "learning_rate": 9.420596356812473e-07,
      "loss": 1.04797049,
      "memory(GiB)": 112.26,
      "step": 63965,
      "train_speed(iter/s)": 1.130312
    },
    {
      "acc": 0.74854217,
      "epoch": 1.6227803145611364,
      "grad_norm": 3.515625,
      "learning_rate": 9.414470874205883e-07,
      "loss": 0.9904232,
      "memory(GiB)": 112.26,
      "step": 63970,
      "train_speed(iter/s)": 1.130329
    },
    {
      "acc": 0.73820724,
      "epoch": 1.6229071537290716,
      "grad_norm": 4.6875,
      "learning_rate": 9.408347176732053e-07,
      "loss": 1.05773506,
      "memory(GiB)": 112.26,
      "step": 63975,
      "train_speed(iter/s)": 1.130341
    },
    {
      "acc": 0.75980287,
      "epoch": 1.6230339928970066,
      "grad_norm": 3.515625,
      "learning_rate": 9.402225264660336e-07,
      "loss": 0.98283558,
      "memory(GiB)": 112.26,
      "step": 63980,
      "train_speed(iter/s)": 1.130351
    },
    {
      "acc": 0.76169114,
      "epoch": 1.6231608320649418,
      "grad_norm": 4.5,
      "learning_rate": 9.396105138259997e-07,
      "loss": 0.98972626,
      "memory(GiB)": 112.26,
      "step": 63985,
      "train_speed(iter/s)": 1.130368
    },
    {
      "acc": 0.74134192,
      "epoch": 1.6232876712328768,
      "grad_norm": 4.0,
      "learning_rate": 9.389986797800271e-07,
      "loss": 1.02735081,
      "memory(GiB)": 112.26,
      "step": 63990,
      "train_speed(iter/s)": 1.130381
    },
    {
      "acc": 0.7377183,
      "epoch": 1.6234145104008117,
      "grad_norm": 3.828125,
      "learning_rate": 9.383870243550214e-07,
      "loss": 1.05288782,
      "memory(GiB)": 112.26,
      "step": 63995,
      "train_speed(iter/s)": 1.130396
    },
    {
      "acc": 0.7424027,
      "epoch": 1.6235413495687467,
      "grad_norm": 3.171875,
      "learning_rate": 9.377755475778877e-07,
      "loss": 1.03242149,
      "memory(GiB)": 112.26,
      "step": 64000,
      "train_speed(iter/s)": 1.13041
    },
    {
      "epoch": 1.6235413495687467,
      "eval_acc": 0.7258530208392067,
      "eval_loss": 1.0440621376037598,
      "eval_runtime": 70.7864,
      "eval_samples_per_second": 89.989,
      "eval_steps_per_second": 22.504,
      "step": 64000
    },
    {
      "acc": 0.74366326,
      "epoch": 1.6236681887366817,
      "grad_norm": 3.078125,
      "learning_rate": 9.371642494755223e-07,
      "loss": 1.04208546,
      "memory(GiB)": 112.26,
      "step": 64005,
      "train_speed(iter/s)": 1.128121
    },
    {
      "acc": 0.74062376,
      "epoch": 1.623795027904617,
      "grad_norm": 3.234375,
      "learning_rate": 9.365531300748143e-07,
      "loss": 1.03524342,
      "memory(GiB)": 112.26,
      "step": 64010,
      "train_speed(iter/s)": 1.128133
    },
    {
      "acc": 0.75278196,
      "epoch": 1.6239218670725521,
      "grad_norm": 3.6875,
      "learning_rate": 9.359421894026394e-07,
      "loss": 1.00489616,
      "memory(GiB)": 112.26,
      "step": 64015,
      "train_speed(iter/s)": 1.128142
    },
    {
      "acc": 0.7188035,
      "epoch": 1.6240487062404871,
      "grad_norm": 3.6875,
      "learning_rate": 9.353314274858726e-07,
      "loss": 1.12268848,
      "memory(GiB)": 112.26,
      "step": 64020,
      "train_speed(iter/s)": 1.128158
    },
    {
      "acc": 0.73976769,
      "epoch": 1.6241755454084221,
      "grad_norm": 3.9375,
      "learning_rate": 9.347208443513773e-07,
      "loss": 1.06256905,
      "memory(GiB)": 112.26,
      "step": 64025,
      "train_speed(iter/s)": 1.128161
    },
    {
      "acc": 0.73359528,
      "epoch": 1.6243023845763571,
      "grad_norm": 3.34375,
      "learning_rate": 9.341104400260103e-07,
      "loss": 1.07272043,
      "memory(GiB)": 112.26,
      "step": 64030,
      "train_speed(iter/s)": 1.128169
    },
    {
      "acc": 0.73456221,
      "epoch": 1.624429223744292,
      "grad_norm": 3.359375,
      "learning_rate": 9.335002145366167e-07,
      "loss": 1.08925581,
      "memory(GiB)": 112.26,
      "step": 64035,
      "train_speed(iter/s)": 1.128182
    },
    {
      "acc": 0.72950411,
      "epoch": 1.6245560629122273,
      "grad_norm": 3.859375,
      "learning_rate": 9.328901679100405e-07,
      "loss": 1.06963863,
      "memory(GiB)": 112.26,
      "step": 64040,
      "train_speed(iter/s)": 1.128198
    },
    {
      "acc": 0.72684679,
      "epoch": 1.6246829020801623,
      "grad_norm": 3.25,
      "learning_rate": 9.322803001731128e-07,
      "loss": 1.0902462,
      "memory(GiB)": 112.26,
      "step": 64045,
      "train_speed(iter/s)": 1.128213
    },
    {
      "acc": 0.74347296,
      "epoch": 1.6248097412480975,
      "grad_norm": 4.375,
      "learning_rate": 9.316706113526591e-07,
      "loss": 1.04148941,
      "memory(GiB)": 112.26,
      "step": 64050,
      "train_speed(iter/s)": 1.128222
    },
    {
      "acc": 0.74325085,
      "epoch": 1.6249365804160325,
      "grad_norm": 3.6875,
      "learning_rate": 9.310611014754956e-07,
      "loss": 1.08952303,
      "memory(GiB)": 112.26,
      "step": 64055,
      "train_speed(iter/s)": 1.128236
    },
    {
      "acc": 0.7225358,
      "epoch": 1.6250634195839675,
      "grad_norm": 3.4375,
      "learning_rate": 9.304517705684308e-07,
      "loss": 1.12778721,
      "memory(GiB)": 112.26,
      "step": 64060,
      "train_speed(iter/s)": 1.128249
    },
    {
      "acc": 0.74567451,
      "epoch": 1.6251902587519025,
      "grad_norm": 4.75,
      "learning_rate": 9.298426186582671e-07,
      "loss": 1.03973122,
      "memory(GiB)": 112.26,
      "step": 64065,
      "train_speed(iter/s)": 1.128261
    },
    {
      "acc": 0.73158903,
      "epoch": 1.6253170979198377,
      "grad_norm": 3.625,
      "learning_rate": 9.292336457717965e-07,
      "loss": 1.09056997,
      "memory(GiB)": 112.26,
      "step": 64070,
      "train_speed(iter/s)": 1.128275
    },
    {
      "acc": 0.73780713,
      "epoch": 1.6254439370877727,
      "grad_norm": 4.25,
      "learning_rate": 9.286248519358049e-07,
      "loss": 1.08456945,
      "memory(GiB)": 112.26,
      "step": 64075,
      "train_speed(iter/s)": 1.128277
    },
    {
      "acc": 0.74855347,
      "epoch": 1.625570776255708,
      "grad_norm": 3.78125,
      "learning_rate": 9.280162371770696e-07,
      "loss": 0.99009676,
      "memory(GiB)": 112.26,
      "step": 64080,
      "train_speed(iter/s)": 1.128289
    },
    {
      "acc": 0.74655232,
      "epoch": 1.6256976154236429,
      "grad_norm": 3.234375,
      "learning_rate": 9.274078015223603e-07,
      "loss": 1.04186878,
      "memory(GiB)": 112.26,
      "step": 64085,
      "train_speed(iter/s)": 1.128295
    },
    {
      "acc": 0.73590565,
      "epoch": 1.6258244545915779,
      "grad_norm": 3.6875,
      "learning_rate": 9.26799544998439e-07,
      "loss": 1.06829996,
      "memory(GiB)": 112.26,
      "step": 64090,
      "train_speed(iter/s)": 1.128302
    },
    {
      "acc": 0.75368156,
      "epoch": 1.6259512937595129,
      "grad_norm": 3.71875,
      "learning_rate": 9.261914676320594e-07,
      "loss": 0.97350101,
      "memory(GiB)": 112.26,
      "step": 64095,
      "train_speed(iter/s)": 1.128316
    },
    {
      "acc": 0.73058424,
      "epoch": 1.6260781329274479,
      "grad_norm": 3.921875,
      "learning_rate": 9.255835694499665e-07,
      "loss": 1.06626472,
      "memory(GiB)": 112.26,
      "step": 64100,
      "train_speed(iter/s)": 1.128328
    },
    {
      "acc": 0.74948006,
      "epoch": 1.626204972095383,
      "grad_norm": 3.34375,
      "learning_rate": 9.249758504788986e-07,
      "loss": 1.04999847,
      "memory(GiB)": 112.26,
      "step": 64105,
      "train_speed(iter/s)": 1.128331
    },
    {
      "acc": 0.73911943,
      "epoch": 1.6263318112633183,
      "grad_norm": 3.28125,
      "learning_rate": 9.243683107455886e-07,
      "loss": 1.04646826,
      "memory(GiB)": 112.26,
      "step": 64110,
      "train_speed(iter/s)": 1.128343
    },
    {
      "acc": 0.74900517,
      "epoch": 1.6264586504312533,
      "grad_norm": 3.578125,
      "learning_rate": 9.237609502767558e-07,
      "loss": 1.02530441,
      "memory(GiB)": 112.26,
      "step": 64115,
      "train_speed(iter/s)": 1.128345
    },
    {
      "acc": 0.73568115,
      "epoch": 1.6265854895991883,
      "grad_norm": 3.703125,
      "learning_rate": 9.231537690991155e-07,
      "loss": 1.07373581,
      "memory(GiB)": 112.26,
      "step": 64120,
      "train_speed(iter/s)": 1.128362
    },
    {
      "acc": 0.75319738,
      "epoch": 1.6267123287671232,
      "grad_norm": 4.40625,
      "learning_rate": 9.225467672393729e-07,
      "loss": 1.02755737,
      "memory(GiB)": 112.26,
      "step": 64125,
      "train_speed(iter/s)": 1.12838
    },
    {
      "acc": 0.75797262,
      "epoch": 1.6268391679350582,
      "grad_norm": 3.96875,
      "learning_rate": 9.2193994472423e-07,
      "loss": 1.01554756,
      "memory(GiB)": 112.26,
      "step": 64130,
      "train_speed(iter/s)": 1.128393
    },
    {
      "acc": 0.73284864,
      "epoch": 1.6269660071029934,
      "grad_norm": 3.359375,
      "learning_rate": 9.21333301580375e-07,
      "loss": 1.09523764,
      "memory(GiB)": 112.26,
      "step": 64135,
      "train_speed(iter/s)": 1.128409
    },
    {
      "acc": 0.7304534,
      "epoch": 1.6270928462709284,
      "grad_norm": 3.34375,
      "learning_rate": 9.207268378344896e-07,
      "loss": 1.11383858,
      "memory(GiB)": 112.26,
      "step": 64140,
      "train_speed(iter/s)": 1.128423
    },
    {
      "acc": 0.74430065,
      "epoch": 1.6272196854388636,
      "grad_norm": 3.96875,
      "learning_rate": 9.201205535132523e-07,
      "loss": 1.07465706,
      "memory(GiB)": 112.26,
      "step": 64145,
      "train_speed(iter/s)": 1.128436
    },
    {
      "acc": 0.73421474,
      "epoch": 1.6273465246067986,
      "grad_norm": 3.546875,
      "learning_rate": 9.195144486433294e-07,
      "loss": 1.09966946,
      "memory(GiB)": 112.26,
      "step": 64150,
      "train_speed(iter/s)": 1.12845
    },
    {
      "acc": 0.76682873,
      "epoch": 1.6274733637747336,
      "grad_norm": 3.125,
      "learning_rate": 9.189085232513773e-07,
      "loss": 0.98625412,
      "memory(GiB)": 112.26,
      "step": 64155,
      "train_speed(iter/s)": 1.128462
    },
    {
      "acc": 0.73349724,
      "epoch": 1.6276002029426686,
      "grad_norm": 3.609375,
      "learning_rate": 9.183027773640485e-07,
      "loss": 1.1121069,
      "memory(GiB)": 112.26,
      "step": 64160,
      "train_speed(iter/s)": 1.128472
    },
    {
      "acc": 0.74099007,
      "epoch": 1.6277270421106036,
      "grad_norm": 2.890625,
      "learning_rate": 9.176972110079879e-07,
      "loss": 0.95223694,
      "memory(GiB)": 112.26,
      "step": 64165,
      "train_speed(iter/s)": 1.128485
    },
    {
      "acc": 0.75161719,
      "epoch": 1.6278538812785388,
      "grad_norm": 3.625,
      "learning_rate": 9.17091824209832e-07,
      "loss": 1.02981319,
      "memory(GiB)": 112.26,
      "step": 64170,
      "train_speed(iter/s)": 1.128498
    },
    {
      "acc": 0.74741211,
      "epoch": 1.627980720446474,
      "grad_norm": 3.375,
      "learning_rate": 9.164866169962034e-07,
      "loss": 1.07482586,
      "memory(GiB)": 112.26,
      "step": 64175,
      "train_speed(iter/s)": 1.12851
    },
    {
      "acc": 0.75058584,
      "epoch": 1.628107559614409,
      "grad_norm": 4.6875,
      "learning_rate": 9.158815893937268e-07,
      "loss": 1.06143341,
      "memory(GiB)": 112.26,
      "step": 64180,
      "train_speed(iter/s)": 1.128521
    },
    {
      "acc": 0.74910259,
      "epoch": 1.628234398782344,
      "grad_norm": 4.1875,
      "learning_rate": 9.152767414290115e-07,
      "loss": 1.04430265,
      "memory(GiB)": 112.26,
      "step": 64185,
      "train_speed(iter/s)": 1.128538
    },
    {
      "acc": 0.74680195,
      "epoch": 1.628361237950279,
      "grad_norm": 3.8125,
      "learning_rate": 9.146720731286623e-07,
      "loss": 1.03627272,
      "memory(GiB)": 112.26,
      "step": 64190,
      "train_speed(iter/s)": 1.128546
    },
    {
      "acc": 0.7418335,
      "epoch": 1.628488077118214,
      "grad_norm": 4.4375,
      "learning_rate": 9.140675845192754e-07,
      "loss": 1.09577942,
      "memory(GiB)": 112.26,
      "step": 64195,
      "train_speed(iter/s)": 1.128562
    },
    {
      "acc": 0.72896767,
      "epoch": 1.6286149162861492,
      "grad_norm": 3.515625,
      "learning_rate": 9.134632756274381e-07,
      "loss": 1.05134659,
      "memory(GiB)": 112.26,
      "step": 64200,
      "train_speed(iter/s)": 1.128571
    },
    {
      "acc": 0.74441142,
      "epoch": 1.6287417554540842,
      "grad_norm": 3.9375,
      "learning_rate": 9.12859146479731e-07,
      "loss": 1.08792009,
      "memory(GiB)": 112.26,
      "step": 64205,
      "train_speed(iter/s)": 1.128576
    },
    {
      "acc": 0.75486593,
      "epoch": 1.6288685946220194,
      "grad_norm": 3.765625,
      "learning_rate": 9.122551971027266e-07,
      "loss": 1.03997269,
      "memory(GiB)": 112.26,
      "step": 64210,
      "train_speed(iter/s)": 1.128591
    },
    {
      "acc": 0.72911854,
      "epoch": 1.6289954337899544,
      "grad_norm": 3.9375,
      "learning_rate": 9.116514275229892e-07,
      "loss": 1.08620777,
      "memory(GiB)": 112.26,
      "step": 64215,
      "train_speed(iter/s)": 1.128608
    },
    {
      "acc": 0.74738798,
      "epoch": 1.6291222729578894,
      "grad_norm": 3.53125,
      "learning_rate": 9.110478377670751e-07,
      "loss": 1.04248009,
      "memory(GiB)": 112.26,
      "step": 64220,
      "train_speed(iter/s)": 1.128623
    },
    {
      "acc": 0.76959991,
      "epoch": 1.6292491121258244,
      "grad_norm": 3.953125,
      "learning_rate": 9.104444278615327e-07,
      "loss": 0.98038979,
      "memory(GiB)": 112.26,
      "step": 64225,
      "train_speed(iter/s)": 1.128634
    },
    {
      "acc": 0.75008497,
      "epoch": 1.6293759512937596,
      "grad_norm": 3.828125,
      "learning_rate": 9.098411978329031e-07,
      "loss": 1.03747311,
      "memory(GiB)": 112.26,
      "step": 64230,
      "train_speed(iter/s)": 1.128639
    },
    {
      "acc": 0.7597847,
      "epoch": 1.6295027904616946,
      "grad_norm": 2.984375,
      "learning_rate": 9.092381477077189e-07,
      "loss": 1.00451603,
      "memory(GiB)": 112.26,
      "step": 64235,
      "train_speed(iter/s)": 1.128647
    },
    {
      "acc": 0.73606553,
      "epoch": 1.6296296296296298,
      "grad_norm": 3.40625,
      "learning_rate": 9.086352775125046e-07,
      "loss": 1.07376318,
      "memory(GiB)": 112.26,
      "step": 64240,
      "train_speed(iter/s)": 1.128661
    },
    {
      "acc": 0.7431252,
      "epoch": 1.6297564687975648,
      "grad_norm": 3.59375,
      "learning_rate": 9.080325872737766e-07,
      "loss": 1.08308811,
      "memory(GiB)": 112.26,
      "step": 64245,
      "train_speed(iter/s)": 1.128676
    },
    {
      "acc": 0.74682417,
      "epoch": 1.6298833079654997,
      "grad_norm": 3.515625,
      "learning_rate": 9.074300770180472e-07,
      "loss": 1.03875351,
      "memory(GiB)": 112.26,
      "step": 64250,
      "train_speed(iter/s)": 1.128682
    },
    {
      "acc": 0.74930735,
      "epoch": 1.6300101471334347,
      "grad_norm": 3.625,
      "learning_rate": 9.068277467718134e-07,
      "loss": 0.98852119,
      "memory(GiB)": 112.26,
      "step": 64255,
      "train_speed(iter/s)": 1.128699
    },
    {
      "acc": 0.74448805,
      "epoch": 1.6301369863013697,
      "grad_norm": 3.734375,
      "learning_rate": 9.062255965615701e-07,
      "loss": 1.03492861,
      "memory(GiB)": 112.26,
      "step": 64260,
      "train_speed(iter/s)": 1.128712
    },
    {
      "acc": 0.7437623,
      "epoch": 1.630263825469305,
      "grad_norm": 3.9375,
      "learning_rate": 9.056236264138013e-07,
      "loss": 1.01034374,
      "memory(GiB)": 112.26,
      "step": 64265,
      "train_speed(iter/s)": 1.128726
    },
    {
      "acc": 0.75087328,
      "epoch": 1.6303906646372401,
      "grad_norm": 3.875,
      "learning_rate": 9.050218363549885e-07,
      "loss": 1.05273533,
      "memory(GiB)": 112.26,
      "step": 64270,
      "train_speed(iter/s)": 1.128733
    },
    {
      "acc": 0.74561677,
      "epoch": 1.6305175038051751,
      "grad_norm": 4.1875,
      "learning_rate": 9.044202264115958e-07,
      "loss": 1.04242992,
      "memory(GiB)": 112.26,
      "step": 64275,
      "train_speed(iter/s)": 1.128743
    },
    {
      "acc": 0.74468327,
      "epoch": 1.6306443429731101,
      "grad_norm": 3.6875,
      "learning_rate": 9.038187966100864e-07,
      "loss": 1.02830982,
      "memory(GiB)": 112.26,
      "step": 64280,
      "train_speed(iter/s)": 1.128759
    },
    {
      "acc": 0.73993397,
      "epoch": 1.630771182141045,
      "grad_norm": 3.765625,
      "learning_rate": 9.032175469769155e-07,
      "loss": 1.07341805,
      "memory(GiB)": 112.26,
      "step": 64285,
      "train_speed(iter/s)": 1.128774
    },
    {
      "acc": 0.73723822,
      "epoch": 1.63089802130898,
      "grad_norm": 3.9375,
      "learning_rate": 9.026164775385294e-07,
      "loss": 1.00660992,
      "memory(GiB)": 112.26,
      "step": 64290,
      "train_speed(iter/s)": 1.128784
    },
    {
      "acc": 0.74301205,
      "epoch": 1.6310248604769153,
      "grad_norm": 3.84375,
      "learning_rate": 9.020155883213627e-07,
      "loss": 1.02086487,
      "memory(GiB)": 112.26,
      "step": 64295,
      "train_speed(iter/s)": 1.128789
    },
    {
      "acc": 0.74564157,
      "epoch": 1.6311516996448503,
      "grad_norm": 3.40625,
      "learning_rate": 9.014148793518451e-07,
      "loss": 1.02061548,
      "memory(GiB)": 112.26,
      "step": 64300,
      "train_speed(iter/s)": 1.128803
    },
    {
      "acc": 0.73958402,
      "epoch": 1.6312785388127855,
      "grad_norm": 3.421875,
      "learning_rate": 9.00814350656401e-07,
      "loss": 1.07431183,
      "memory(GiB)": 112.26,
      "step": 64305,
      "train_speed(iter/s)": 1.128808
    },
    {
      "acc": 0.72439356,
      "epoch": 1.6314053779807205,
      "grad_norm": 3.953125,
      "learning_rate": 9.002140022614452e-07,
      "loss": 1.09768105,
      "memory(GiB)": 112.26,
      "step": 64310,
      "train_speed(iter/s)": 1.128821
    },
    {
      "acc": 0.73459091,
      "epoch": 1.6315322171486555,
      "grad_norm": 3.671875,
      "learning_rate": 8.996138341933786e-07,
      "loss": 1.07746792,
      "memory(GiB)": 112.26,
      "step": 64315,
      "train_speed(iter/s)": 1.128822
    },
    {
      "acc": 0.74266939,
      "epoch": 1.6316590563165905,
      "grad_norm": 3.828125,
      "learning_rate": 8.990138464786041e-07,
      "loss": 1.09660473,
      "memory(GiB)": 112.26,
      "step": 64320,
      "train_speed(iter/s)": 1.128843
    },
    {
      "acc": 0.74444809,
      "epoch": 1.6317858954845255,
      "grad_norm": 3.15625,
      "learning_rate": 8.984140391435103e-07,
      "loss": 1.02841091,
      "memory(GiB)": 112.26,
      "step": 64325,
      "train_speed(iter/s)": 1.128852
    },
    {
      "acc": 0.72193832,
      "epoch": 1.6319127346524607,
      "grad_norm": 3.953125,
      "learning_rate": 8.978144122144805e-07,
      "loss": 1.06740322,
      "memory(GiB)": 112.26,
      "step": 64330,
      "train_speed(iter/s)": 1.128858
    },
    {
      "acc": 0.73340178,
      "epoch": 1.6320395738203959,
      "grad_norm": 3.75,
      "learning_rate": 8.972149657178852e-07,
      "loss": 1.05139294,
      "memory(GiB)": 112.26,
      "step": 64335,
      "train_speed(iter/s)": 1.128874
    },
    {
      "acc": 0.72910509,
      "epoch": 1.6321664129883309,
      "grad_norm": 4.9375,
      "learning_rate": 8.966156996800951e-07,
      "loss": 1.13326101,
      "memory(GiB)": 112.26,
      "step": 64340,
      "train_speed(iter/s)": 1.12888
    },
    {
      "acc": 0.74792509,
      "epoch": 1.6322932521562659,
      "grad_norm": 3.921875,
      "learning_rate": 8.960166141274662e-07,
      "loss": 1.06813517,
      "memory(GiB)": 112.26,
      "step": 64345,
      "train_speed(iter/s)": 1.128896
    },
    {
      "acc": 0.74399042,
      "epoch": 1.6324200913242009,
      "grad_norm": 3.875,
      "learning_rate": 8.954177090863497e-07,
      "loss": 1.05196753,
      "memory(GiB)": 112.26,
      "step": 64350,
      "train_speed(iter/s)": 1.128907
    },
    {
      "acc": 0.73434687,
      "epoch": 1.6325469304921358,
      "grad_norm": 4.59375,
      "learning_rate": 8.948189845830879e-07,
      "loss": 1.06457653,
      "memory(GiB)": 112.26,
      "step": 64355,
      "train_speed(iter/s)": 1.128918
    },
    {
      "acc": 0.74040775,
      "epoch": 1.632673769660071,
      "grad_norm": 3.921875,
      "learning_rate": 8.942204406440159e-07,
      "loss": 1.03605433,
      "memory(GiB)": 112.26,
      "step": 64360,
      "train_speed(iter/s)": 1.128929
    },
    {
      "acc": 0.73884497,
      "epoch": 1.632800608828006,
      "grad_norm": 4.09375,
      "learning_rate": 8.936220772954595e-07,
      "loss": 1.09272499,
      "memory(GiB)": 112.26,
      "step": 64365,
      "train_speed(iter/s)": 1.12895
    },
    {
      "acc": 0.74272108,
      "epoch": 1.6329274479959413,
      "grad_norm": 3.125,
      "learning_rate": 8.930238945637381e-07,
      "loss": 1.07235727,
      "memory(GiB)": 112.26,
      "step": 64370,
      "train_speed(iter/s)": 1.128959
    },
    {
      "acc": 0.7541512,
      "epoch": 1.6330542871638762,
      "grad_norm": 4.59375,
      "learning_rate": 8.924258924751617e-07,
      "loss": 0.99462795,
      "memory(GiB)": 112.26,
      "step": 64375,
      "train_speed(iter/s)": 1.128969
    },
    {
      "acc": 0.74888105,
      "epoch": 1.6331811263318112,
      "grad_norm": 3.515625,
      "learning_rate": 8.918280710560339e-07,
      "loss": 0.99554348,
      "memory(GiB)": 112.26,
      "step": 64380,
      "train_speed(iter/s)": 1.128981
    },
    {
      "acc": 0.74258423,
      "epoch": 1.6333079654997462,
      "grad_norm": 3.703125,
      "learning_rate": 8.912304303326491e-07,
      "loss": 1.03579445,
      "memory(GiB)": 112.26,
      "step": 64385,
      "train_speed(iter/s)": 1.128994
    },
    {
      "acc": 0.74280739,
      "epoch": 1.6334348046676814,
      "grad_norm": 3.59375,
      "learning_rate": 8.906329703312943e-07,
      "loss": 1.05520668,
      "memory(GiB)": 112.26,
      "step": 64390,
      "train_speed(iter/s)": 1.129007
    },
    {
      "acc": 0.74826097,
      "epoch": 1.6335616438356164,
      "grad_norm": 3.6875,
      "learning_rate": 8.900356910782487e-07,
      "loss": 1.0399353,
      "memory(GiB)": 112.26,
      "step": 64395,
      "train_speed(iter/s)": 1.12902
    },
    {
      "acc": 0.73765607,
      "epoch": 1.6336884830035516,
      "grad_norm": 3.875,
      "learning_rate": 8.894385925997828e-07,
      "loss": 1.08736076,
      "memory(GiB)": 112.26,
      "step": 64400,
      "train_speed(iter/s)": 1.129028
    },
    {
      "acc": 0.74871817,
      "epoch": 1.6338153221714866,
      "grad_norm": 3.4375,
      "learning_rate": 8.88841674922159e-07,
      "loss": 1.03473892,
      "memory(GiB)": 112.26,
      "step": 64405,
      "train_speed(iter/s)": 1.129045
    },
    {
      "acc": 0.73979282,
      "epoch": 1.6339421613394216,
      "grad_norm": 3.46875,
      "learning_rate": 8.882449380716351e-07,
      "loss": 1.06301651,
      "memory(GiB)": 112.26,
      "step": 64410,
      "train_speed(iter/s)": 1.12906
    },
    {
      "acc": 0.75049381,
      "epoch": 1.6340690005073566,
      "grad_norm": 3.46875,
      "learning_rate": 8.876483820744558e-07,
      "loss": 0.97689676,
      "memory(GiB)": 112.26,
      "step": 64415,
      "train_speed(iter/s)": 1.129067
    },
    {
      "acc": 0.75451822,
      "epoch": 1.6341958396752916,
      "grad_norm": 4.03125,
      "learning_rate": 8.8705200695686e-07,
      "loss": 0.98260212,
      "memory(GiB)": 112.26,
      "step": 64420,
      "train_speed(iter/s)": 1.129076
    },
    {
      "acc": 0.73701,
      "epoch": 1.6343226788432268,
      "grad_norm": 3.578125,
      "learning_rate": 8.864558127450807e-07,
      "loss": 1.1027874,
      "memory(GiB)": 112.26,
      "step": 64425,
      "train_speed(iter/s)": 1.12909
    },
    {
      "acc": 0.74969378,
      "epoch": 1.634449518011162,
      "grad_norm": 3.28125,
      "learning_rate": 8.858597994653417e-07,
      "loss": 1.0421442,
      "memory(GiB)": 112.26,
      "step": 64430,
      "train_speed(iter/s)": 1.129095
    },
    {
      "acc": 0.75651364,
      "epoch": 1.634576357179097,
      "grad_norm": 3.703125,
      "learning_rate": 8.852639671438562e-07,
      "loss": 0.97412128,
      "memory(GiB)": 112.26,
      "step": 64435,
      "train_speed(iter/s)": 1.129105
    },
    {
      "acc": 0.74593139,
      "epoch": 1.634703196347032,
      "grad_norm": 3.140625,
      "learning_rate": 8.846683158068309e-07,
      "loss": 1.00718699,
      "memory(GiB)": 112.26,
      "step": 64440,
      "train_speed(iter/s)": 1.129106
    },
    {
      "acc": 0.74361205,
      "epoch": 1.634830035514967,
      "grad_norm": 4.4375,
      "learning_rate": 8.840728454804676e-07,
      "loss": 1.01987066,
      "memory(GiB)": 112.26,
      "step": 64445,
      "train_speed(iter/s)": 1.129121
    },
    {
      "acc": 0.74768548,
      "epoch": 1.634956874682902,
      "grad_norm": 3.65625,
      "learning_rate": 8.834775561909587e-07,
      "loss": 1.03605108,
      "memory(GiB)": 112.26,
      "step": 64450,
      "train_speed(iter/s)": 1.129126
    },
    {
      "acc": 0.72432499,
      "epoch": 1.6350837138508372,
      "grad_norm": 3.375,
      "learning_rate": 8.828824479644827e-07,
      "loss": 1.14225245,
      "memory(GiB)": 112.26,
      "step": 64455,
      "train_speed(iter/s)": 1.129139
    },
    {
      "acc": 0.73104625,
      "epoch": 1.6352105530187722,
      "grad_norm": 4.34375,
      "learning_rate": 8.822875208272203e-07,
      "loss": 1.03744049,
      "memory(GiB)": 112.26,
      "step": 64460,
      "train_speed(iter/s)": 1.129157
    },
    {
      "acc": 0.73402739,
      "epoch": 1.6353373921867074,
      "grad_norm": 4.4375,
      "learning_rate": 8.816927748053361e-07,
      "loss": 1.07349434,
      "memory(GiB)": 112.26,
      "step": 64465,
      "train_speed(iter/s)": 1.129178
    },
    {
      "acc": 0.72831717,
      "epoch": 1.6354642313546424,
      "grad_norm": 3.9375,
      "learning_rate": 8.810982099249926e-07,
      "loss": 1.11207027,
      "memory(GiB)": 112.26,
      "step": 64470,
      "train_speed(iter/s)": 1.129192
    },
    {
      "acc": 0.74267139,
      "epoch": 1.6355910705225774,
      "grad_norm": 3.875,
      "learning_rate": 8.805038262123361e-07,
      "loss": 1.0824645,
      "memory(GiB)": 112.26,
      "step": 64475,
      "train_speed(iter/s)": 1.129197
    },
    {
      "acc": 0.74696369,
      "epoch": 1.6357179096905123,
      "grad_norm": 3.8125,
      "learning_rate": 8.799096236935156e-07,
      "loss": 1.04328175,
      "memory(GiB)": 112.26,
      "step": 64480,
      "train_speed(iter/s)": 1.129209
    },
    {
      "acc": 0.73870716,
      "epoch": 1.6358447488584473,
      "grad_norm": 3.390625,
      "learning_rate": 8.793156023946641e-07,
      "loss": 1.06483765,
      "memory(GiB)": 112.26,
      "step": 64485,
      "train_speed(iter/s)": 1.129224
    },
    {
      "acc": 0.73522129,
      "epoch": 1.6359715880263825,
      "grad_norm": 3.96875,
      "learning_rate": 8.787217623419104e-07,
      "loss": 1.10735359,
      "memory(GiB)": 112.26,
      "step": 64490,
      "train_speed(iter/s)": 1.12924
    },
    {
      "acc": 0.74809985,
      "epoch": 1.6360984271943178,
      "grad_norm": 3.859375,
      "learning_rate": 8.781281035613737e-07,
      "loss": 1.03438702,
      "memory(GiB)": 112.26,
      "step": 64495,
      "train_speed(iter/s)": 1.129257
    },
    {
      "acc": 0.74280305,
      "epoch": 1.6362252663622527,
      "grad_norm": 3.515625,
      "learning_rate": 8.775346260791656e-07,
      "loss": 1.06235657,
      "memory(GiB)": 112.26,
      "step": 64500,
      "train_speed(iter/s)": 1.129261
    },
    {
      "acc": 0.73177309,
      "epoch": 1.6363521055301877,
      "grad_norm": 4.5625,
      "learning_rate": 8.769413299213903e-07,
      "loss": 1.10471725,
      "memory(GiB)": 112.26,
      "step": 64505,
      "train_speed(iter/s)": 1.129264
    },
    {
      "acc": 0.74954233,
      "epoch": 1.6364789446981227,
      "grad_norm": 4.8125,
      "learning_rate": 8.763482151141434e-07,
      "loss": 1.05796976,
      "memory(GiB)": 112.26,
      "step": 64510,
      "train_speed(iter/s)": 1.129267
    },
    {
      "acc": 0.74377041,
      "epoch": 1.6366057838660577,
      "grad_norm": 3.78125,
      "learning_rate": 8.75755281683513e-07,
      "loss": 1.06618118,
      "memory(GiB)": 112.26,
      "step": 64515,
      "train_speed(iter/s)": 1.129279
    },
    {
      "acc": 0.74531436,
      "epoch": 1.636732623033993,
      "grad_norm": 3.96875,
      "learning_rate": 8.751625296555782e-07,
      "loss": 1.01962442,
      "memory(GiB)": 112.26,
      "step": 64520,
      "train_speed(iter/s)": 1.129288
    },
    {
      "acc": 0.74035177,
      "epoch": 1.636859462201928,
      "grad_norm": 3.75,
      "learning_rate": 8.745699590564122e-07,
      "loss": 1.06779566,
      "memory(GiB)": 112.26,
      "step": 64525,
      "train_speed(iter/s)": 1.129299
    },
    {
      "acc": 0.7486846,
      "epoch": 1.6369863013698631,
      "grad_norm": 4.4375,
      "learning_rate": 8.739775699120773e-07,
      "loss": 1.01180029,
      "memory(GiB)": 112.26,
      "step": 64530,
      "train_speed(iter/s)": 1.129311
    },
    {
      "acc": 0.74007769,
      "epoch": 1.637113140537798,
      "grad_norm": 4.03125,
      "learning_rate": 8.733853622486305e-07,
      "loss": 1.04716082,
      "memory(GiB)": 112.26,
      "step": 64535,
      "train_speed(iter/s)": 1.129326
    },
    {
      "acc": 0.74836359,
      "epoch": 1.637239979705733,
      "grad_norm": 3.546875,
      "learning_rate": 8.727933360921198e-07,
      "loss": 0.99452486,
      "memory(GiB)": 112.26,
      "step": 64540,
      "train_speed(iter/s)": 1.129341
    },
    {
      "acc": 0.75689135,
      "epoch": 1.637366818873668,
      "grad_norm": 3.4375,
      "learning_rate": 8.722014914685834e-07,
      "loss": 1.00667191,
      "memory(GiB)": 112.26,
      "step": 64545,
      "train_speed(iter/s)": 1.129352
    },
    {
      "acc": 0.72917695,
      "epoch": 1.6374936580416033,
      "grad_norm": 5.34375,
      "learning_rate": 8.71609828404057e-07,
      "loss": 1.16689644,
      "memory(GiB)": 112.26,
      "step": 64550,
      "train_speed(iter/s)": 1.12935
    },
    {
      "acc": 0.74531155,
      "epoch": 1.6376204972095383,
      "grad_norm": 3.484375,
      "learning_rate": 8.710183469245614e-07,
      "loss": 1.06057243,
      "memory(GiB)": 112.26,
      "step": 64555,
      "train_speed(iter/s)": 1.129362
    },
    {
      "acc": 0.75043173,
      "epoch": 1.6377473363774735,
      "grad_norm": 3.296875,
      "learning_rate": 8.704270470561132e-07,
      "loss": 1.01444941,
      "memory(GiB)": 112.26,
      "step": 64560,
      "train_speed(iter/s)": 1.129361
    },
    {
      "acc": 0.74231749,
      "epoch": 1.6378741755454085,
      "grad_norm": 3.75,
      "learning_rate": 8.698359288247194e-07,
      "loss": 1.0359045,
      "memory(GiB)": 112.26,
      "step": 64565,
      "train_speed(iter/s)": 1.129373
    },
    {
      "acc": 0.73130093,
      "epoch": 1.6380010147133435,
      "grad_norm": 4.1875,
      "learning_rate": 8.692449922563839e-07,
      "loss": 1.05835323,
      "memory(GiB)": 112.26,
      "step": 64570,
      "train_speed(iter/s)": 1.129384
    },
    {
      "acc": 0.74095602,
      "epoch": 1.6381278538812785,
      "grad_norm": 4.09375,
      "learning_rate": 8.686542373770951e-07,
      "loss": 1.06238499,
      "memory(GiB)": 112.26,
      "step": 64575,
      "train_speed(iter/s)": 1.129405
    },
    {
      "acc": 0.75247202,
      "epoch": 1.6382546930492135,
      "grad_norm": 3.296875,
      "learning_rate": 8.680636642128365e-07,
      "loss": 1.04446287,
      "memory(GiB)": 112.26,
      "step": 64580,
      "train_speed(iter/s)": 1.129418
    },
    {
      "acc": 0.74696755,
      "epoch": 1.6383815322171487,
      "grad_norm": 3.34375,
      "learning_rate": 8.674732727895874e-07,
      "loss": 1.01599808,
      "memory(GiB)": 112.26,
      "step": 64585,
      "train_speed(iter/s)": 1.129432
    },
    {
      "acc": 0.73750615,
      "epoch": 1.6385083713850839,
      "grad_norm": 3.546875,
      "learning_rate": 8.668830631333147e-07,
      "loss": 1.17764149,
      "memory(GiB)": 112.26,
      "step": 64590,
      "train_speed(iter/s)": 1.129447
    },
    {
      "acc": 0.73433156,
      "epoch": 1.6386352105530189,
      "grad_norm": 3.8125,
      "learning_rate": 8.662930352699761e-07,
      "loss": 1.07647247,
      "memory(GiB)": 112.26,
      "step": 64595,
      "train_speed(iter/s)": 1.129454
    },
    {
      "acc": 0.75429497,
      "epoch": 1.6387620497209539,
      "grad_norm": 3.9375,
      "learning_rate": 8.657031892255263e-07,
      "loss": 1.01630993,
      "memory(GiB)": 112.26,
      "step": 64600,
      "train_speed(iter/s)": 1.129469
    },
    {
      "acc": 0.75646067,
      "epoch": 1.6388888888888888,
      "grad_norm": 3.59375,
      "learning_rate": 8.651135250259091e-07,
      "loss": 0.993927,
      "memory(GiB)": 112.26,
      "step": 64605,
      "train_speed(iter/s)": 1.129477
    },
    {
      "acc": 0.73790255,
      "epoch": 1.6390157280568238,
      "grad_norm": 4.53125,
      "learning_rate": 8.645240426970608e-07,
      "loss": 1.08252802,
      "memory(GiB)": 112.26,
      "step": 64610,
      "train_speed(iter/s)": 1.129485
    },
    {
      "acc": 0.73384418,
      "epoch": 1.639142567224759,
      "grad_norm": 3.671875,
      "learning_rate": 8.639347422649058e-07,
      "loss": 1.06207657,
      "memory(GiB)": 112.26,
      "step": 64615,
      "train_speed(iter/s)": 1.129497
    },
    {
      "acc": 0.74919863,
      "epoch": 1.639269406392694,
      "grad_norm": 3.390625,
      "learning_rate": 8.633456237553689e-07,
      "loss": 1.00200853,
      "memory(GiB)": 112.26,
      "step": 64620,
      "train_speed(iter/s)": 1.129509
    },
    {
      "acc": 0.74497833,
      "epoch": 1.6393962455606292,
      "grad_norm": 3.65625,
      "learning_rate": 8.627566871943604e-07,
      "loss": 1.051021,
      "memory(GiB)": 112.26,
      "step": 64625,
      "train_speed(iter/s)": 1.129526
    },
    {
      "acc": 0.74142151,
      "epoch": 1.6395230847285642,
      "grad_norm": 3.703125,
      "learning_rate": 8.621679326077836e-07,
      "loss": 1.02966003,
      "memory(GiB)": 112.26,
      "step": 64630,
      "train_speed(iter/s)": 1.129542
    },
    {
      "acc": 0.75700808,
      "epoch": 1.6396499238964992,
      "grad_norm": 4.28125,
      "learning_rate": 8.61579360021536e-07,
      "loss": 0.98593531,
      "memory(GiB)": 112.26,
      "step": 64635,
      "train_speed(iter/s)": 1.129543
    },
    {
      "acc": 0.74470134,
      "epoch": 1.6397767630644342,
      "grad_norm": 3.8125,
      "learning_rate": 8.609909694615043e-07,
      "loss": 1.03320465,
      "memory(GiB)": 112.26,
      "step": 64640,
      "train_speed(iter/s)": 1.129555
    },
    {
      "acc": 0.73630381,
      "epoch": 1.6399036022323692,
      "grad_norm": 3.8125,
      "learning_rate": 8.604027609535693e-07,
      "loss": 1.01527958,
      "memory(GiB)": 112.26,
      "step": 64645,
      "train_speed(iter/s)": 1.129568
    },
    {
      "acc": 0.74397225,
      "epoch": 1.6400304414003044,
      "grad_norm": 3.859375,
      "learning_rate": 8.598147345236029e-07,
      "loss": 1.03483667,
      "memory(GiB)": 112.26,
      "step": 64650,
      "train_speed(iter/s)": 1.129581
    },
    {
      "acc": 0.74545131,
      "epoch": 1.6401572805682396,
      "grad_norm": 3.84375,
      "learning_rate": 8.592268901974688e-07,
      "loss": 1.01582623,
      "memory(GiB)": 112.26,
      "step": 64655,
      "train_speed(iter/s)": 1.129599
    },
    {
      "acc": 0.72916155,
      "epoch": 1.6402841197361746,
      "grad_norm": 5.0625,
      "learning_rate": 8.586392280010237e-07,
      "loss": 1.11270685,
      "memory(GiB)": 112.26,
      "step": 64660,
      "train_speed(iter/s)": 1.129611
    },
    {
      "acc": 0.72933879,
      "epoch": 1.6404109589041096,
      "grad_norm": 4.1875,
      "learning_rate": 8.580517479601147e-07,
      "loss": 1.09988098,
      "memory(GiB)": 112.26,
      "step": 64665,
      "train_speed(iter/s)": 1.129619
    },
    {
      "acc": 0.75872068,
      "epoch": 1.6405377980720446,
      "grad_norm": 4.6875,
      "learning_rate": 8.57464450100583e-07,
      "loss": 1.01079884,
      "memory(GiB)": 112.26,
      "step": 64670,
      "train_speed(iter/s)": 1.129629
    },
    {
      "acc": 0.74686337,
      "epoch": 1.6406646372399796,
      "grad_norm": 5.375,
      "learning_rate": 8.568773344482595e-07,
      "loss": 1.05119991,
      "memory(GiB)": 112.26,
      "step": 64675,
      "train_speed(iter/s)": 1.129635
    },
    {
      "acc": 0.74339361,
      "epoch": 1.6407914764079148,
      "grad_norm": 3.828125,
      "learning_rate": 8.562904010289685e-07,
      "loss": 1.05981855,
      "memory(GiB)": 112.26,
      "step": 64680,
      "train_speed(iter/s)": 1.129648
    },
    {
      "acc": 0.74552436,
      "epoch": 1.6409183155758498,
      "grad_norm": 3.953125,
      "learning_rate": 8.557036498685245e-07,
      "loss": 1.05325413,
      "memory(GiB)": 112.26,
      "step": 64685,
      "train_speed(iter/s)": 1.129665
    },
    {
      "acc": 0.74230804,
      "epoch": 1.641045154743785,
      "grad_norm": 3.875,
      "learning_rate": 8.551170809927394e-07,
      "loss": 1.08107281,
      "memory(GiB)": 112.26,
      "step": 64690,
      "train_speed(iter/s)": 1.129682
    },
    {
      "acc": 0.75222816,
      "epoch": 1.64117199391172,
      "grad_norm": 3.515625,
      "learning_rate": 8.545306944274101e-07,
      "loss": 1.01383162,
      "memory(GiB)": 112.26,
      "step": 64695,
      "train_speed(iter/s)": 1.129685
    },
    {
      "acc": 0.7438705,
      "epoch": 1.641298833079655,
      "grad_norm": 3.296875,
      "learning_rate": 8.539444901983284e-07,
      "loss": 1.01874905,
      "memory(GiB)": 112.26,
      "step": 64700,
      "train_speed(iter/s)": 1.129698
    },
    {
      "acc": 0.74312172,
      "epoch": 1.64142567224759,
      "grad_norm": 4.4375,
      "learning_rate": 8.533584683312779e-07,
      "loss": 1.07288055,
      "memory(GiB)": 112.26,
      "step": 64705,
      "train_speed(iter/s)": 1.129703
    },
    {
      "acc": 0.73830671,
      "epoch": 1.6415525114155252,
      "grad_norm": 3.75,
      "learning_rate": 8.527726288520377e-07,
      "loss": 1.08207617,
      "memory(GiB)": 112.26,
      "step": 64710,
      "train_speed(iter/s)": 1.129722
    },
    {
      "acc": 0.73923883,
      "epoch": 1.6416793505834602,
      "grad_norm": 3.875,
      "learning_rate": 8.521869717863723e-07,
      "loss": 1.06187878,
      "memory(GiB)": 112.26,
      "step": 64715,
      "train_speed(iter/s)": 1.129734
    },
    {
      "acc": 0.74013414,
      "epoch": 1.6418061897513954,
      "grad_norm": 3.5625,
      "learning_rate": 8.516014971600411e-07,
      "loss": 1.0635603,
      "memory(GiB)": 112.26,
      "step": 64720,
      "train_speed(iter/s)": 1.129749
    },
    {
      "acc": 0.73297501,
      "epoch": 1.6419330289193304,
      "grad_norm": 4.53125,
      "learning_rate": 8.510162049987986e-07,
      "loss": 1.0857914,
      "memory(GiB)": 112.26,
      "step": 64725,
      "train_speed(iter/s)": 1.129754
    },
    {
      "acc": 0.74233818,
      "epoch": 1.6420598680872653,
      "grad_norm": 3.625,
      "learning_rate": 8.504310953283884e-07,
      "loss": 1.06974926,
      "memory(GiB)": 112.26,
      "step": 64730,
      "train_speed(iter/s)": 1.12977
    },
    {
      "acc": 0.74246693,
      "epoch": 1.6421867072552003,
      "grad_norm": 4.0,
      "learning_rate": 8.49846168174544e-07,
      "loss": 1.0627512,
      "memory(GiB)": 112.26,
      "step": 64735,
      "train_speed(iter/s)": 1.129785
    },
    {
      "acc": 0.75381746,
      "epoch": 1.6423135464231353,
      "grad_norm": 3.65625,
      "learning_rate": 8.492614235629932e-07,
      "loss": 1.07024469,
      "memory(GiB)": 112.26,
      "step": 64740,
      "train_speed(iter/s)": 1.1298
    },
    {
      "acc": 0.74325452,
      "epoch": 1.6424403855910705,
      "grad_norm": 4.5,
      "learning_rate": 8.486768615194579e-07,
      "loss": 1.11432209,
      "memory(GiB)": 112.26,
      "step": 64745,
      "train_speed(iter/s)": 1.129813
    },
    {
      "acc": 0.75853539,
      "epoch": 1.6425672247590057,
      "grad_norm": 3.546875,
      "learning_rate": 8.480924820696495e-07,
      "loss": 0.95924768,
      "memory(GiB)": 112.26,
      "step": 64750,
      "train_speed(iter/s)": 1.129822
    },
    {
      "acc": 0.73948317,
      "epoch": 1.6426940639269407,
      "grad_norm": 3.5,
      "learning_rate": 8.475082852392685e-07,
      "loss": 1.09417477,
      "memory(GiB)": 112.26,
      "step": 64755,
      "train_speed(iter/s)": 1.129832
    },
    {
      "acc": 0.74141941,
      "epoch": 1.6428209030948757,
      "grad_norm": 3.28125,
      "learning_rate": 8.469242710540138e-07,
      "loss": 1.04515467,
      "memory(GiB)": 112.26,
      "step": 64760,
      "train_speed(iter/s)": 1.129835
    },
    {
      "acc": 0.73321023,
      "epoch": 1.6429477422628107,
      "grad_norm": 3.75,
      "learning_rate": 8.463404395395713e-07,
      "loss": 1.10055704,
      "memory(GiB)": 112.26,
      "step": 64765,
      "train_speed(iter/s)": 1.129849
    },
    {
      "acc": 0.73755407,
      "epoch": 1.6430745814307457,
      "grad_norm": 3.390625,
      "learning_rate": 8.45756790721623e-07,
      "loss": 1.01492176,
      "memory(GiB)": 112.26,
      "step": 64770,
      "train_speed(iter/s)": 1.129856
    },
    {
      "acc": 0.7463666,
      "epoch": 1.643201420598681,
      "grad_norm": 4.0,
      "learning_rate": 8.451733246258354e-07,
      "loss": 1.05753155,
      "memory(GiB)": 112.26,
      "step": 64775,
      "train_speed(iter/s)": 1.129876
    },
    {
      "acc": 0.73402061,
      "epoch": 1.643328259766616,
      "grad_norm": 3.8125,
      "learning_rate": 8.445900412778768e-07,
      "loss": 1.12548561,
      "memory(GiB)": 112.26,
      "step": 64780,
      "train_speed(iter/s)": 1.129891
    },
    {
      "acc": 0.74420681,
      "epoch": 1.643455098934551,
      "grad_norm": 3.0,
      "learning_rate": 8.440069407034002e-07,
      "loss": 0.99317007,
      "memory(GiB)": 112.26,
      "step": 64785,
      "train_speed(iter/s)": 1.129905
    },
    {
      "acc": 0.75225096,
      "epoch": 1.643581938102486,
      "grad_norm": 4.125,
      "learning_rate": 8.434240229280538e-07,
      "loss": 1.00908594,
      "memory(GiB)": 112.26,
      "step": 64790,
      "train_speed(iter/s)": 1.129913
    },
    {
      "acc": 0.74150901,
      "epoch": 1.643708777270421,
      "grad_norm": 3.546875,
      "learning_rate": 8.428412879774767e-07,
      "loss": 1.10874949,
      "memory(GiB)": 112.26,
      "step": 64795,
      "train_speed(iter/s)": 1.129927
    },
    {
      "acc": 0.74824314,
      "epoch": 1.643835616438356,
      "grad_norm": 3.6875,
      "learning_rate": 8.422587358772999e-07,
      "loss": 1.04311152,
      "memory(GiB)": 112.26,
      "step": 64800,
      "train_speed(iter/s)": 1.129928
    },
    {
      "acc": 0.73867664,
      "epoch": 1.643962455606291,
      "grad_norm": 3.8125,
      "learning_rate": 8.416763666531468e-07,
      "loss": 1.08411541,
      "memory(GiB)": 112.26,
      "step": 64805,
      "train_speed(iter/s)": 1.129926
    },
    {
      "acc": 0.74017487,
      "epoch": 1.6440892947742263,
      "grad_norm": 4.0625,
      "learning_rate": 8.410941803306327e-07,
      "loss": 0.99539433,
      "memory(GiB)": 112.26,
      "step": 64810,
      "train_speed(iter/s)": 1.129941
    },
    {
      "acc": 0.74220333,
      "epoch": 1.6442161339421615,
      "grad_norm": 4.0625,
      "learning_rate": 8.405121769353647e-07,
      "loss": 1.08599691,
      "memory(GiB)": 112.26,
      "step": 64815,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.74109392,
      "epoch": 1.6443429731100965,
      "grad_norm": 3.28125,
      "learning_rate": 8.399303564929423e-07,
      "loss": 1.03022575,
      "memory(GiB)": 112.26,
      "step": 64820,
      "train_speed(iter/s)": 1.129971
    },
    {
      "acc": 0.74721966,
      "epoch": 1.6444698122780315,
      "grad_norm": 4.1875,
      "learning_rate": 8.393487190289562e-07,
      "loss": 1.01171179,
      "memory(GiB)": 112.26,
      "step": 64825,
      "train_speed(iter/s)": 1.129988
    },
    {
      "acc": 0.74074192,
      "epoch": 1.6445966514459665,
      "grad_norm": 3.375,
      "learning_rate": 8.387672645689887e-07,
      "loss": 1.03924103,
      "memory(GiB)": 112.26,
      "step": 64830,
      "train_speed(iter/s)": 1.130001
    },
    {
      "acc": 0.75067844,
      "epoch": 1.6447234906139014,
      "grad_norm": 4.0,
      "learning_rate": 8.381859931386161e-07,
      "loss": 1.0309411,
      "memory(GiB)": 112.26,
      "step": 64835,
      "train_speed(iter/s)": 1.130017
    },
    {
      "acc": 0.72468586,
      "epoch": 1.6448503297818367,
      "grad_norm": 3.578125,
      "learning_rate": 8.37604904763405e-07,
      "loss": 1.06065025,
      "memory(GiB)": 112.26,
      "step": 64840,
      "train_speed(iter/s)": 1.130031
    },
    {
      "acc": 0.73417091,
      "epoch": 1.6449771689497716,
      "grad_norm": 3.65625,
      "learning_rate": 8.370239994689123e-07,
      "loss": 1.04103012,
      "memory(GiB)": 112.26,
      "step": 64845,
      "train_speed(iter/s)": 1.130046
    },
    {
      "acc": 0.75031466,
      "epoch": 1.6451040081177069,
      "grad_norm": 3.828125,
      "learning_rate": 8.364432772806924e-07,
      "loss": 1.03442745,
      "memory(GiB)": 112.26,
      "step": 64850,
      "train_speed(iter/s)": 1.130062
    },
    {
      "acc": 0.74834185,
      "epoch": 1.6452308472856418,
      "grad_norm": 3.15625,
      "learning_rate": 8.358627382242857e-07,
      "loss": 0.99117756,
      "memory(GiB)": 112.26,
      "step": 64855,
      "train_speed(iter/s)": 1.130081
    },
    {
      "acc": 0.73216677,
      "epoch": 1.6453576864535768,
      "grad_norm": 4.90625,
      "learning_rate": 8.352823823252254e-07,
      "loss": 1.07589512,
      "memory(GiB)": 112.26,
      "step": 64860,
      "train_speed(iter/s)": 1.130094
    },
    {
      "acc": 0.72642899,
      "epoch": 1.6454845256215118,
      "grad_norm": 3.734375,
      "learning_rate": 8.347022096090418e-07,
      "loss": 1.13152857,
      "memory(GiB)": 112.26,
      "step": 64865,
      "train_speed(iter/s)": 1.130105
    },
    {
      "acc": 0.73940883,
      "epoch": 1.645611364789447,
      "grad_norm": 4.71875,
      "learning_rate": 8.341222201012527e-07,
      "loss": 1.04097481,
      "memory(GiB)": 112.26,
      "step": 64870,
      "train_speed(iter/s)": 1.130112
    },
    {
      "acc": 0.73969383,
      "epoch": 1.645738203957382,
      "grad_norm": 4.0,
      "learning_rate": 8.335424138273668e-07,
      "loss": 1.08832331,
      "memory(GiB)": 112.26,
      "step": 64875,
      "train_speed(iter/s)": 1.130125
    },
    {
      "acc": 0.74070611,
      "epoch": 1.6458650431253172,
      "grad_norm": 4.5625,
      "learning_rate": 8.329627908128857e-07,
      "loss": 1.05349979,
      "memory(GiB)": 112.26,
      "step": 64880,
      "train_speed(iter/s)": 1.130138
    },
    {
      "acc": 0.75386877,
      "epoch": 1.6459918822932522,
      "grad_norm": 4.1875,
      "learning_rate": 8.323833510833068e-07,
      "loss": 1.00110722,
      "memory(GiB)": 112.26,
      "step": 64885,
      "train_speed(iter/s)": 1.130156
    },
    {
      "acc": 0.74256854,
      "epoch": 1.6461187214611872,
      "grad_norm": 3.609375,
      "learning_rate": 8.318040946641171e-07,
      "loss": 1.08605509,
      "memory(GiB)": 112.26,
      "step": 64890,
      "train_speed(iter/s)": 1.130171
    },
    {
      "acc": 0.74324179,
      "epoch": 1.6462455606291222,
      "grad_norm": 3.90625,
      "learning_rate": 8.312250215807898e-07,
      "loss": 1.07242966,
      "memory(GiB)": 112.26,
      "step": 64895,
      "train_speed(iter/s)": 1.130181
    },
    {
      "acc": 0.74936671,
      "epoch": 1.6463723997970572,
      "grad_norm": 3.796875,
      "learning_rate": 8.306461318587999e-07,
      "loss": 1.04128132,
      "memory(GiB)": 112.26,
      "step": 64900,
      "train_speed(iter/s)": 1.130197
    },
    {
      "acc": 0.73666573,
      "epoch": 1.6464992389649924,
      "grad_norm": 3.71875,
      "learning_rate": 8.300674255236074e-07,
      "loss": 1.07150135,
      "memory(GiB)": 112.26,
      "step": 64905,
      "train_speed(iter/s)": 1.130215
    },
    {
      "acc": 0.73270555,
      "epoch": 1.6466260781329276,
      "grad_norm": 3.609375,
      "learning_rate": 8.294889026006686e-07,
      "loss": 1.09989624,
      "memory(GiB)": 112.26,
      "step": 64910,
      "train_speed(iter/s)": 1.13023
    },
    {
      "acc": 0.71359477,
      "epoch": 1.6467529173008626,
      "grad_norm": 4.0625,
      "learning_rate": 8.289105631154254e-07,
      "loss": 1.17447157,
      "memory(GiB)": 112.26,
      "step": 64915,
      "train_speed(iter/s)": 1.130235
    },
    {
      "acc": 0.73942537,
      "epoch": 1.6468797564687976,
      "grad_norm": 3.046875,
      "learning_rate": 8.283324070933196e-07,
      "loss": 1.06982994,
      "memory(GiB)": 112.26,
      "step": 64920,
      "train_speed(iter/s)": 1.130234
    },
    {
      "acc": 0.72386045,
      "epoch": 1.6470065956367326,
      "grad_norm": 3.71875,
      "learning_rate": 8.277544345597793e-07,
      "loss": 1.1327755,
      "memory(GiB)": 112.26,
      "step": 64925,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.7264185,
      "epoch": 1.6471334348046676,
      "grad_norm": 3.671875,
      "learning_rate": 8.271766455402269e-07,
      "loss": 1.13440351,
      "memory(GiB)": 112.26,
      "step": 64930,
      "train_speed(iter/s)": 1.130253
    },
    {
      "acc": 0.73162937,
      "epoch": 1.6472602739726028,
      "grad_norm": 3.421875,
      "learning_rate": 8.26599040060076e-07,
      "loss": 1.07517967,
      "memory(GiB)": 112.26,
      "step": 64935,
      "train_speed(iter/s)": 1.130267
    },
    {
      "acc": 0.74037833,
      "epoch": 1.6473871131405378,
      "grad_norm": 3.96875,
      "learning_rate": 8.260216181447323e-07,
      "loss": 1.03119802,
      "memory(GiB)": 112.26,
      "step": 64940,
      "train_speed(iter/s)": 1.130285
    },
    {
      "acc": 0.75258923,
      "epoch": 1.647513952308473,
      "grad_norm": 4.125,
      "learning_rate": 8.254443798195932e-07,
      "loss": 1.00424099,
      "memory(GiB)": 112.26,
      "step": 64945,
      "train_speed(iter/s)": 1.130287
    },
    {
      "acc": 0.74176912,
      "epoch": 1.647640791476408,
      "grad_norm": 4.3125,
      "learning_rate": 8.248673251100481e-07,
      "loss": 1.09591522,
      "memory(GiB)": 112.26,
      "step": 64950,
      "train_speed(iter/s)": 1.130297
    },
    {
      "acc": 0.74337487,
      "epoch": 1.647767630644343,
      "grad_norm": 3.734375,
      "learning_rate": 8.242904540414787e-07,
      "loss": 1.07605381,
      "memory(GiB)": 112.26,
      "step": 64955,
      "train_speed(iter/s)": 1.130307
    },
    {
      "acc": 0.73952637,
      "epoch": 1.647894469812278,
      "grad_norm": 4.46875,
      "learning_rate": 8.237137666392586e-07,
      "loss": 1.05475597,
      "memory(GiB)": 112.26,
      "step": 64960,
      "train_speed(iter/s)": 1.130327
    },
    {
      "acc": 0.73524985,
      "epoch": 1.648021308980213,
      "grad_norm": 3.453125,
      "learning_rate": 8.231372629287526e-07,
      "loss": 1.11622791,
      "memory(GiB)": 112.26,
      "step": 64965,
      "train_speed(iter/s)": 1.130333
    },
    {
      "acc": 0.7446301,
      "epoch": 1.6481481481481481,
      "grad_norm": 3.8125,
      "learning_rate": 8.225609429353187e-07,
      "loss": 1.08351307,
      "memory(GiB)": 112.26,
      "step": 64970,
      "train_speed(iter/s)": 1.130341
    },
    {
      "acc": 0.7552628,
      "epoch": 1.6482749873160834,
      "grad_norm": 4.0625,
      "learning_rate": 8.219848066843051e-07,
      "loss": 1.00294952,
      "memory(GiB)": 112.26,
      "step": 64975,
      "train_speed(iter/s)": 1.130354
    },
    {
      "acc": 0.73286901,
      "epoch": 1.6484018264840183,
      "grad_norm": 3.625,
      "learning_rate": 8.214088542010529e-07,
      "loss": 1.07800674,
      "memory(GiB)": 112.26,
      "step": 64980,
      "train_speed(iter/s)": 1.130366
    },
    {
      "acc": 0.7405365,
      "epoch": 1.6485286656519533,
      "grad_norm": 3.859375,
      "learning_rate": 8.208330855108943e-07,
      "loss": 1.06989918,
      "memory(GiB)": 112.26,
      "step": 64985,
      "train_speed(iter/s)": 1.130379
    },
    {
      "acc": 0.74498529,
      "epoch": 1.6486555048198883,
      "grad_norm": 4.125,
      "learning_rate": 8.202575006391577e-07,
      "loss": 1.05367832,
      "memory(GiB)": 112.26,
      "step": 64990,
      "train_speed(iter/s)": 1.130392
    },
    {
      "acc": 0.75211058,
      "epoch": 1.6487823439878233,
      "grad_norm": 3.8125,
      "learning_rate": 8.19682099611156e-07,
      "loss": 0.97188492,
      "memory(GiB)": 112.26,
      "step": 64995,
      "train_speed(iter/s)": 1.130403
    },
    {
      "acc": 0.73363652,
      "epoch": 1.6489091831557585,
      "grad_norm": 3.4375,
      "learning_rate": 8.191068824521998e-07,
      "loss": 1.09632215,
      "memory(GiB)": 112.26,
      "step": 65000,
      "train_speed(iter/s)": 1.130412
    },
    {
      "epoch": 1.6489091831557585,
      "eval_acc": 0.725868056643215,
      "eval_loss": 1.0440701246261597,
      "eval_runtime": 70.6644,
      "eval_samples_per_second": 90.144,
      "eval_steps_per_second": 22.543,
      "step": 65000
    },
    {
      "acc": 0.73769221,
      "epoch": 1.6490360223236935,
      "grad_norm": 4.34375,
      "learning_rate": 8.185318491875876e-07,
      "loss": 1.05315094,
      "memory(GiB)": 112.26,
      "step": 65005,
      "train_speed(iter/s)": 1.12816
    },
    {
      "acc": 0.75377045,
      "epoch": 1.6491628614916287,
      "grad_norm": 4.0,
      "learning_rate": 8.179569998426162e-07,
      "loss": 1.04191027,
      "memory(GiB)": 112.26,
      "step": 65010,
      "train_speed(iter/s)": 1.128172
    },
    {
      "acc": 0.74565539,
      "epoch": 1.6492897006595637,
      "grad_norm": 4.28125,
      "learning_rate": 8.173823344425663e-07,
      "loss": 1.04905367,
      "memory(GiB)": 112.26,
      "step": 65015,
      "train_speed(iter/s)": 1.12819
    },
    {
      "acc": 0.75513411,
      "epoch": 1.6494165398274987,
      "grad_norm": 3.96875,
      "learning_rate": 8.168078530127138e-07,
      "loss": 1.00415554,
      "memory(GiB)": 112.26,
      "step": 65020,
      "train_speed(iter/s)": 1.128199
    },
    {
      "acc": 0.74376416,
      "epoch": 1.6495433789954337,
      "grad_norm": 3.234375,
      "learning_rate": 8.162335555783301e-07,
      "loss": 1.07065525,
      "memory(GiB)": 112.26,
      "step": 65025,
      "train_speed(iter/s)": 1.128201
    },
    {
      "acc": 0.74161315,
      "epoch": 1.649670218163369,
      "grad_norm": 3.21875,
      "learning_rate": 8.156594421646752e-07,
      "loss": 1.04206009,
      "memory(GiB)": 112.26,
      "step": 65030,
      "train_speed(iter/s)": 1.128218
    },
    {
      "acc": 0.7448575,
      "epoch": 1.6497970573313039,
      "grad_norm": 3.515625,
      "learning_rate": 8.15085512796997e-07,
      "loss": 0.99800987,
      "memory(GiB)": 112.26,
      "step": 65035,
      "train_speed(iter/s)": 1.128228
    },
    {
      "acc": 0.73896599,
      "epoch": 1.649923896499239,
      "grad_norm": 3.40625,
      "learning_rate": 8.145117675005431e-07,
      "loss": 1.03117466,
      "memory(GiB)": 112.26,
      "step": 65040,
      "train_speed(iter/s)": 1.128248
    },
    {
      "acc": 0.73412361,
      "epoch": 1.650050735667174,
      "grad_norm": 4.78125,
      "learning_rate": 8.13938206300549e-07,
      "loss": 1.11471081,
      "memory(GiB)": 112.26,
      "step": 65045,
      "train_speed(iter/s)": 1.128263
    },
    {
      "acc": 0.72032585,
      "epoch": 1.650177574835109,
      "grad_norm": 3.609375,
      "learning_rate": 8.133648292222435e-07,
      "loss": 1.07053709,
      "memory(GiB)": 112.26,
      "step": 65050,
      "train_speed(iter/s)": 1.128271
    },
    {
      "acc": 0.73843918,
      "epoch": 1.650304414003044,
      "grad_norm": 3.90625,
      "learning_rate": 8.127916362908422e-07,
      "loss": 1.05622349,
      "memory(GiB)": 112.26,
      "step": 65055,
      "train_speed(iter/s)": 1.128284
    },
    {
      "acc": 0.73089695,
      "epoch": 1.650431253170979,
      "grad_norm": 3.875,
      "learning_rate": 8.122186275315602e-07,
      "loss": 1.11691694,
      "memory(GiB)": 112.26,
      "step": 65060,
      "train_speed(iter/s)": 1.128295
    },
    {
      "acc": 0.73446932,
      "epoch": 1.6505580923389143,
      "grad_norm": 3.890625,
      "learning_rate": 8.116458029696e-07,
      "loss": 1.11887817,
      "memory(GiB)": 112.26,
      "step": 65065,
      "train_speed(iter/s)": 1.128307
    },
    {
      "acc": 0.73947182,
      "epoch": 1.6506849315068495,
      "grad_norm": 3.8125,
      "learning_rate": 8.110731626301577e-07,
      "loss": 1.05776367,
      "memory(GiB)": 112.26,
      "step": 65070,
      "train_speed(iter/s)": 1.12832
    },
    {
      "acc": 0.7431376,
      "epoch": 1.6508117706747845,
      "grad_norm": 3.234375,
      "learning_rate": 8.105007065384191e-07,
      "loss": 1.0395648,
      "memory(GiB)": 112.26,
      "step": 65075,
      "train_speed(iter/s)": 1.128332
    },
    {
      "acc": 0.75470028,
      "epoch": 1.6509386098427195,
      "grad_norm": 3.390625,
      "learning_rate": 8.099284347195646e-07,
      "loss": 1.02049294,
      "memory(GiB)": 112.26,
      "step": 65080,
      "train_speed(iter/s)": 1.128349
    },
    {
      "acc": 0.74880147,
      "epoch": 1.6510654490106544,
      "grad_norm": 5.75,
      "learning_rate": 8.093563471987647e-07,
      "loss": 1.03726091,
      "memory(GiB)": 112.26,
      "step": 65085,
      "train_speed(iter/s)": 1.128358
    },
    {
      "acc": 0.75896626,
      "epoch": 1.6511922881785894,
      "grad_norm": 3.921875,
      "learning_rate": 8.087844440011828e-07,
      "loss": 0.97305946,
      "memory(GiB)": 112.26,
      "step": 65090,
      "train_speed(iter/s)": 1.128366
    },
    {
      "acc": 0.75345583,
      "epoch": 1.6513191273465246,
      "grad_norm": 3.203125,
      "learning_rate": 8.082127251519733e-07,
      "loss": 1.00797348,
      "memory(GiB)": 112.26,
      "step": 65095,
      "train_speed(iter/s)": 1.128379
    },
    {
      "acc": 0.75443473,
      "epoch": 1.6514459665144596,
      "grad_norm": 3.53125,
      "learning_rate": 8.076411906762832e-07,
      "loss": 1.02430964,
      "memory(GiB)": 112.26,
      "step": 65100,
      "train_speed(iter/s)": 1.128399
    },
    {
      "acc": 0.73504415,
      "epoch": 1.6515728056823948,
      "grad_norm": 3.734375,
      "learning_rate": 8.070698405992511e-07,
      "loss": 1.12428703,
      "memory(GiB)": 112.26,
      "step": 65105,
      "train_speed(iter/s)": 1.128411
    },
    {
      "acc": 0.73275557,
      "epoch": 1.6516996448503298,
      "grad_norm": 3.78125,
      "learning_rate": 8.064986749460075e-07,
      "loss": 1.06231499,
      "memory(GiB)": 112.26,
      "step": 65110,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.73912621,
      "epoch": 1.6518264840182648,
      "grad_norm": 4.625,
      "learning_rate": 8.059276937416744e-07,
      "loss": 1.06689491,
      "memory(GiB)": 112.26,
      "step": 65115,
      "train_speed(iter/s)": 1.128433
    },
    {
      "acc": 0.73583527,
      "epoch": 1.6519533231861998,
      "grad_norm": 4.125,
      "learning_rate": 8.053568970113667e-07,
      "loss": 1.07784595,
      "memory(GiB)": 112.26,
      "step": 65120,
      "train_speed(iter/s)": 1.128453
    },
    {
      "acc": 0.71496592,
      "epoch": 1.6520801623541348,
      "grad_norm": 3.21875,
      "learning_rate": 8.047862847801896e-07,
      "loss": 1.1695715,
      "memory(GiB)": 112.26,
      "step": 65125,
      "train_speed(iter/s)": 1.128455
    },
    {
      "acc": 0.75422087,
      "epoch": 1.65220700152207,
      "grad_norm": 3.515625,
      "learning_rate": 8.042158570732444e-07,
      "loss": 1.00457144,
      "memory(GiB)": 112.26,
      "step": 65130,
      "train_speed(iter/s)": 1.128471
    },
    {
      "acc": 0.72868118,
      "epoch": 1.6523338406900052,
      "grad_norm": 4.09375,
      "learning_rate": 8.036456139156168e-07,
      "loss": 1.15163193,
      "memory(GiB)": 112.26,
      "step": 65135,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.74329448,
      "epoch": 1.6524606798579402,
      "grad_norm": 3.78125,
      "learning_rate": 8.03075555332391e-07,
      "loss": 1.11820793,
      "memory(GiB)": 112.26,
      "step": 65140,
      "train_speed(iter/s)": 1.128491
    },
    {
      "acc": 0.7500555,
      "epoch": 1.6525875190258752,
      "grad_norm": 5.75,
      "learning_rate": 8.025056813486387e-07,
      "loss": 1.06016598,
      "memory(GiB)": 112.26,
      "step": 65145,
      "train_speed(iter/s)": 1.128506
    },
    {
      "acc": 0.72935901,
      "epoch": 1.6527143581938102,
      "grad_norm": 3.828125,
      "learning_rate": 8.019359919894299e-07,
      "loss": 1.10200138,
      "memory(GiB)": 112.26,
      "step": 65150,
      "train_speed(iter/s)": 1.128509
    },
    {
      "acc": 0.74431219,
      "epoch": 1.6528411973617452,
      "grad_norm": 4.6875,
      "learning_rate": 8.013664872798172e-07,
      "loss": 1.01139584,
      "memory(GiB)": 112.26,
      "step": 65155,
      "train_speed(iter/s)": 1.128513
    },
    {
      "acc": 0.73316298,
      "epoch": 1.6529680365296804,
      "grad_norm": 3.84375,
      "learning_rate": 8.007971672448511e-07,
      "loss": 1.0601819,
      "memory(GiB)": 112.26,
      "step": 65160,
      "train_speed(iter/s)": 1.128526
    },
    {
      "acc": 0.73798323,
      "epoch": 1.6530948756976154,
      "grad_norm": 4.125,
      "learning_rate": 8.002280319095751e-07,
      "loss": 1.09053001,
      "memory(GiB)": 112.26,
      "step": 65165,
      "train_speed(iter/s)": 1.128539
    },
    {
      "acc": 0.73846393,
      "epoch": 1.6532217148655506,
      "grad_norm": 3.6875,
      "learning_rate": 7.996590812990219e-07,
      "loss": 1.03953753,
      "memory(GiB)": 112.26,
      "step": 65170,
      "train_speed(iter/s)": 1.128553
    },
    {
      "acc": 0.74291282,
      "epoch": 1.6533485540334856,
      "grad_norm": 3.125,
      "learning_rate": 7.990903154382145e-07,
      "loss": 1.01570549,
      "memory(GiB)": 112.26,
      "step": 65175,
      "train_speed(iter/s)": 1.128562
    },
    {
      "acc": 0.74364777,
      "epoch": 1.6534753932014206,
      "grad_norm": 3.984375,
      "learning_rate": 7.985217343521695e-07,
      "loss": 1.05058241,
      "memory(GiB)": 112.26,
      "step": 65180,
      "train_speed(iter/s)": 1.128569
    },
    {
      "acc": 0.73611755,
      "epoch": 1.6536022323693556,
      "grad_norm": 3.390625,
      "learning_rate": 7.979533380658977e-07,
      "loss": 1.06914911,
      "memory(GiB)": 112.26,
      "step": 65185,
      "train_speed(iter/s)": 1.128584
    },
    {
      "acc": 0.74829807,
      "epoch": 1.6537290715372908,
      "grad_norm": 4.5625,
      "learning_rate": 7.973851266044003e-07,
      "loss": 1.0022645,
      "memory(GiB)": 112.26,
      "step": 65190,
      "train_speed(iter/s)": 1.128597
    },
    {
      "acc": 0.73277597,
      "epoch": 1.6538559107052258,
      "grad_norm": 6.09375,
      "learning_rate": 7.968170999926661e-07,
      "loss": 1.12861414,
      "memory(GiB)": 112.26,
      "step": 65195,
      "train_speed(iter/s)": 1.128612
    },
    {
      "acc": 0.74369612,
      "epoch": 1.653982749873161,
      "grad_norm": 3.90625,
      "learning_rate": 7.962492582556825e-07,
      "loss": 1.0340807,
      "memory(GiB)": 112.26,
      "step": 65200,
      "train_speed(iter/s)": 1.128621
    },
    {
      "acc": 0.73936548,
      "epoch": 1.654109589041096,
      "grad_norm": 3.796875,
      "learning_rate": 7.956816014184254e-07,
      "loss": 1.07497034,
      "memory(GiB)": 112.26,
      "step": 65205,
      "train_speed(iter/s)": 1.128635
    },
    {
      "acc": 0.7493288,
      "epoch": 1.654236428209031,
      "grad_norm": 4.0,
      "learning_rate": 7.951141295058618e-07,
      "loss": 1.01734056,
      "memory(GiB)": 112.26,
      "step": 65210,
      "train_speed(iter/s)": 1.128641
    },
    {
      "acc": 0.74086695,
      "epoch": 1.654363267376966,
      "grad_norm": 3.875,
      "learning_rate": 7.945468425429525e-07,
      "loss": 1.08178473,
      "memory(GiB)": 112.26,
      "step": 65215,
      "train_speed(iter/s)": 1.128651
    },
    {
      "acc": 0.72470169,
      "epoch": 1.654490106544901,
      "grad_norm": 3.84375,
      "learning_rate": 7.939797405546496e-07,
      "loss": 1.13462315,
      "memory(GiB)": 112.26,
      "step": 65220,
      "train_speed(iter/s)": 1.128659
    },
    {
      "acc": 0.74759579,
      "epoch": 1.6546169457128361,
      "grad_norm": 4.8125,
      "learning_rate": 7.934128235658955e-07,
      "loss": 1.03406897,
      "memory(GiB)": 112.26,
      "step": 65225,
      "train_speed(iter/s)": 1.128672
    },
    {
      "acc": 0.75225954,
      "epoch": 1.6547437848807713,
      "grad_norm": 3.25,
      "learning_rate": 7.928460916016272e-07,
      "loss": 1.02776699,
      "memory(GiB)": 112.26,
      "step": 65230,
      "train_speed(iter/s)": 1.128688
    },
    {
      "acc": 0.7293695,
      "epoch": 1.6548706240487063,
      "grad_norm": 4.0,
      "learning_rate": 7.92279544686771e-07,
      "loss": 1.10595207,
      "memory(GiB)": 112.26,
      "step": 65235,
      "train_speed(iter/s)": 1.128691
    },
    {
      "acc": 0.73300695,
      "epoch": 1.6549974632166413,
      "grad_norm": 3.609375,
      "learning_rate": 7.917131828462465e-07,
      "loss": 1.04014111,
      "memory(GiB)": 112.26,
      "step": 65240,
      "train_speed(iter/s)": 1.128694
    },
    {
      "acc": 0.74220815,
      "epoch": 1.6551243023845763,
      "grad_norm": 3.59375,
      "learning_rate": 7.911470061049647e-07,
      "loss": 1.05144453,
      "memory(GiB)": 112.26,
      "step": 65245,
      "train_speed(iter/s)": 1.128701
    },
    {
      "acc": 0.72953892,
      "epoch": 1.6552511415525113,
      "grad_norm": 4.09375,
      "learning_rate": 7.90581014487829e-07,
      "loss": 1.0655983,
      "memory(GiB)": 112.26,
      "step": 65250,
      "train_speed(iter/s)": 1.128706
    },
    {
      "acc": 0.74077935,
      "epoch": 1.6553779807204465,
      "grad_norm": 4.625,
      "learning_rate": 7.900152080197337e-07,
      "loss": 1.09879351,
      "memory(GiB)": 112.26,
      "step": 65255,
      "train_speed(iter/s)": 1.128722
    },
    {
      "acc": 0.74620209,
      "epoch": 1.6555048198883815,
      "grad_norm": 3.453125,
      "learning_rate": 7.894495867255664e-07,
      "loss": 1.04153976,
      "memory(GiB)": 112.26,
      "step": 65260,
      "train_speed(iter/s)": 1.128738
    },
    {
      "acc": 0.73901024,
      "epoch": 1.6556316590563167,
      "grad_norm": 3.984375,
      "learning_rate": 7.888841506302048e-07,
      "loss": 1.10892334,
      "memory(GiB)": 112.26,
      "step": 65265,
      "train_speed(iter/s)": 1.12875
    },
    {
      "acc": 0.75587854,
      "epoch": 1.6557584982242517,
      "grad_norm": 3.421875,
      "learning_rate": 7.883188997585189e-07,
      "loss": 0.95439873,
      "memory(GiB)": 112.26,
      "step": 65270,
      "train_speed(iter/s)": 1.128763
    },
    {
      "acc": 0.73700237,
      "epoch": 1.6558853373921867,
      "grad_norm": 3.21875,
      "learning_rate": 7.877538341353724e-07,
      "loss": 1.09167385,
      "memory(GiB)": 112.26,
      "step": 65275,
      "train_speed(iter/s)": 1.128775
    },
    {
      "acc": 0.74762716,
      "epoch": 1.6560121765601217,
      "grad_norm": 3.3125,
      "learning_rate": 7.871889537856181e-07,
      "loss": 1.05398979,
      "memory(GiB)": 112.26,
      "step": 65280,
      "train_speed(iter/s)": 1.128786
    },
    {
      "acc": 0.73971615,
      "epoch": 1.6561390157280567,
      "grad_norm": 4.3125,
      "learning_rate": 7.866242587341017e-07,
      "loss": 1.05861187,
      "memory(GiB)": 112.26,
      "step": 65285,
      "train_speed(iter/s)": 1.128796
    },
    {
      "acc": 0.73584909,
      "epoch": 1.6562658548959919,
      "grad_norm": 4.21875,
      "learning_rate": 7.860597490056638e-07,
      "loss": 1.04130001,
      "memory(GiB)": 112.26,
      "step": 65290,
      "train_speed(iter/s)": 1.128806
    },
    {
      "acc": 0.75682974,
      "epoch": 1.656392694063927,
      "grad_norm": 3.234375,
      "learning_rate": 7.854954246251306e-07,
      "loss": 0.99625893,
      "memory(GiB)": 112.26,
      "step": 65295,
      "train_speed(iter/s)": 1.128818
    },
    {
      "acc": 0.74106131,
      "epoch": 1.656519533231862,
      "grad_norm": 3.875,
      "learning_rate": 7.849312856173242e-07,
      "loss": 1.04151001,
      "memory(GiB)": 112.26,
      "step": 65300,
      "train_speed(iter/s)": 1.128835
    },
    {
      "acc": 0.73554091,
      "epoch": 1.656646372399797,
      "grad_norm": 3.234375,
      "learning_rate": 7.8436733200706e-07,
      "loss": 1.07555647,
      "memory(GiB)": 112.26,
      "step": 65305,
      "train_speed(iter/s)": 1.128848
    },
    {
      "acc": 0.73396292,
      "epoch": 1.656773211567732,
      "grad_norm": 4.09375,
      "learning_rate": 7.838035638191432e-07,
      "loss": 1.09697628,
      "memory(GiB)": 112.26,
      "step": 65310,
      "train_speed(iter/s)": 1.128853
    },
    {
      "acc": 0.74064426,
      "epoch": 1.656900050735667,
      "grad_norm": 3.96875,
      "learning_rate": 7.832399810783686e-07,
      "loss": 1.07753792,
      "memory(GiB)": 112.26,
      "step": 65315,
      "train_speed(iter/s)": 1.128867
    },
    {
      "acc": 0.73525567,
      "epoch": 1.6570268899036023,
      "grad_norm": 3.265625,
      "learning_rate": 7.826765838095246e-07,
      "loss": 1.04372959,
      "memory(GiB)": 112.26,
      "step": 65320,
      "train_speed(iter/s)": 1.128882
    },
    {
      "acc": 0.75397301,
      "epoch": 1.6571537290715372,
      "grad_norm": 3.765625,
      "learning_rate": 7.821133720373947e-07,
      "loss": 1.0502121,
      "memory(GiB)": 112.26,
      "step": 65325,
      "train_speed(iter/s)": 1.128894
    },
    {
      "acc": 0.74431319,
      "epoch": 1.6572805682394725,
      "grad_norm": 3.671875,
      "learning_rate": 7.815503457867512e-07,
      "loss": 1.0995223,
      "memory(GiB)": 112.26,
      "step": 65330,
      "train_speed(iter/s)": 1.128902
    },
    {
      "acc": 0.7464921,
      "epoch": 1.6574074074074074,
      "grad_norm": 3.765625,
      "learning_rate": 7.809875050823556e-07,
      "loss": 1.02684631,
      "memory(GiB)": 112.26,
      "step": 65335,
      "train_speed(iter/s)": 1.128915
    },
    {
      "acc": 0.73437109,
      "epoch": 1.6575342465753424,
      "grad_norm": 3.484375,
      "learning_rate": 7.804248499489669e-07,
      "loss": 1.1190855,
      "memory(GiB)": 112.26,
      "step": 65340,
      "train_speed(iter/s)": 1.128928
    },
    {
      "acc": 0.74888997,
      "epoch": 1.6576610857432774,
      "grad_norm": 3.453125,
      "learning_rate": 7.798623804113326e-07,
      "loss": 1.04017401,
      "memory(GiB)": 112.26,
      "step": 65345,
      "train_speed(iter/s)": 1.128937
    },
    {
      "acc": 0.73394685,
      "epoch": 1.6577879249112126,
      "grad_norm": 3.015625,
      "learning_rate": 7.793000964941932e-07,
      "loss": 1.05663185,
      "memory(GiB)": 112.26,
      "step": 65350,
      "train_speed(iter/s)": 1.128941
    },
    {
      "acc": 0.73705225,
      "epoch": 1.6579147640791476,
      "grad_norm": 3.53125,
      "learning_rate": 7.787379982222776e-07,
      "loss": 1.07834911,
      "memory(GiB)": 112.26,
      "step": 65355,
      "train_speed(iter/s)": 1.128952
    },
    {
      "acc": 0.73134322,
      "epoch": 1.6580416032470828,
      "grad_norm": 3.46875,
      "learning_rate": 7.781760856203124e-07,
      "loss": 1.05294952,
      "memory(GiB)": 112.26,
      "step": 65360,
      "train_speed(iter/s)": 1.12896
    },
    {
      "acc": 0.75870476,
      "epoch": 1.6581684424150178,
      "grad_norm": 3.59375,
      "learning_rate": 7.77614358713012e-07,
      "loss": 1.00503454,
      "memory(GiB)": 112.26,
      "step": 65365,
      "train_speed(iter/s)": 1.128974
    },
    {
      "acc": 0.75029821,
      "epoch": 1.6582952815829528,
      "grad_norm": 3.984375,
      "learning_rate": 7.770528175250835e-07,
      "loss": 1.0411726,
      "memory(GiB)": 112.26,
      "step": 65370,
      "train_speed(iter/s)": 1.12898
    },
    {
      "acc": 0.73572283,
      "epoch": 1.6584221207508878,
      "grad_norm": 4.09375,
      "learning_rate": 7.764914620812269e-07,
      "loss": 1.10518856,
      "memory(GiB)": 112.26,
      "step": 65375,
      "train_speed(iter/s)": 1.128996
    },
    {
      "acc": 0.73750434,
      "epoch": 1.6585489599188228,
      "grad_norm": 4.25,
      "learning_rate": 7.759302924061318e-07,
      "loss": 1.05793915,
      "memory(GiB)": 112.26,
      "step": 65380,
      "train_speed(iter/s)": 1.129005
    },
    {
      "acc": 0.73219204,
      "epoch": 1.658675799086758,
      "grad_norm": 3.578125,
      "learning_rate": 7.753693085244818e-07,
      "loss": 1.07935963,
      "memory(GiB)": 112.26,
      "step": 65385,
      "train_speed(iter/s)": 1.129023
    },
    {
      "acc": 0.7524229,
      "epoch": 1.6588026382546932,
      "grad_norm": 3.375,
      "learning_rate": 7.748085104609509e-07,
      "loss": 1.10931587,
      "memory(GiB)": 112.26,
      "step": 65390,
      "train_speed(iter/s)": 1.129034
    },
    {
      "acc": 0.74892001,
      "epoch": 1.6589294774226282,
      "grad_norm": 4.4375,
      "learning_rate": 7.742478982402063e-07,
      "loss": 1.0194416,
      "memory(GiB)": 112.26,
      "step": 65395,
      "train_speed(iter/s)": 1.129046
    },
    {
      "acc": 0.73404121,
      "epoch": 1.6590563165905632,
      "grad_norm": 3.0625,
      "learning_rate": 7.736874718869053e-07,
      "loss": 1.11146603,
      "memory(GiB)": 112.26,
      "step": 65400,
      "train_speed(iter/s)": 1.129058
    },
    {
      "acc": 0.73558545,
      "epoch": 1.6591831557584982,
      "grad_norm": 3.90625,
      "learning_rate": 7.731272314256988e-07,
      "loss": 1.05418282,
      "memory(GiB)": 112.26,
      "step": 65405,
      "train_speed(iter/s)": 1.129071
    },
    {
      "acc": 0.74179707,
      "epoch": 1.6593099949264332,
      "grad_norm": 4.78125,
      "learning_rate": 7.725671768812282e-07,
      "loss": 1.0451252,
      "memory(GiB)": 112.26,
      "step": 65410,
      "train_speed(iter/s)": 1.129087
    },
    {
      "acc": 0.73389506,
      "epoch": 1.6594368340943684,
      "grad_norm": 3.9375,
      "learning_rate": 7.720073082781271e-07,
      "loss": 1.05241833,
      "memory(GiB)": 112.26,
      "step": 65415,
      "train_speed(iter/s)": 1.129101
    },
    {
      "acc": 0.74519372,
      "epoch": 1.6595636732623034,
      "grad_norm": 2.96875,
      "learning_rate": 7.714476256410214e-07,
      "loss": 1.04548225,
      "memory(GiB)": 112.26,
      "step": 65420,
      "train_speed(iter/s)": 1.129114
    },
    {
      "acc": 0.74743452,
      "epoch": 1.6596905124302386,
      "grad_norm": 3.390625,
      "learning_rate": 7.708881289945275e-07,
      "loss": 1.02987642,
      "memory(GiB)": 112.26,
      "step": 65425,
      "train_speed(iter/s)": 1.129111
    },
    {
      "acc": 0.7484951,
      "epoch": 1.6598173515981736,
      "grad_norm": 3.328125,
      "learning_rate": 7.703288183632567e-07,
      "loss": 1.03329887,
      "memory(GiB)": 112.26,
      "step": 65430,
      "train_speed(iter/s)": 1.129118
    },
    {
      "acc": 0.72534943,
      "epoch": 1.6599441907661086,
      "grad_norm": 3.6875,
      "learning_rate": 7.697696937718079e-07,
      "loss": 1.13398991,
      "memory(GiB)": 112.26,
      "step": 65435,
      "train_speed(iter/s)": 1.129125
    },
    {
      "acc": 0.74675026,
      "epoch": 1.6600710299340435,
      "grad_norm": 3.796875,
      "learning_rate": 7.692107552447748e-07,
      "loss": 1.0619751,
      "memory(GiB)": 112.26,
      "step": 65440,
      "train_speed(iter/s)": 1.129133
    },
    {
      "acc": 0.75528855,
      "epoch": 1.6601978691019785,
      "grad_norm": 4.125,
      "learning_rate": 7.686520028067406e-07,
      "loss": 0.99885654,
      "memory(GiB)": 112.26,
      "step": 65445,
      "train_speed(iter/s)": 1.129146
    },
    {
      "acc": 0.73660727,
      "epoch": 1.6603247082699137,
      "grad_norm": 4.125,
      "learning_rate": 7.680934364822851e-07,
      "loss": 1.12024536,
      "memory(GiB)": 112.26,
      "step": 65450,
      "train_speed(iter/s)": 1.129165
    },
    {
      "acc": 0.74600706,
      "epoch": 1.660451547437849,
      "grad_norm": 3.96875,
      "learning_rate": 7.675350562959733e-07,
      "loss": 1.0615077,
      "memory(GiB)": 112.26,
      "step": 65455,
      "train_speed(iter/s)": 1.129179
    },
    {
      "acc": 0.74639626,
      "epoch": 1.660578386605784,
      "grad_norm": 3.5625,
      "learning_rate": 7.66976862272365e-07,
      "loss": 1.01832047,
      "memory(GiB)": 112.26,
      "step": 65460,
      "train_speed(iter/s)": 1.129188
    },
    {
      "acc": 0.74282937,
      "epoch": 1.660705225773719,
      "grad_norm": 3.703125,
      "learning_rate": 7.664188544360146e-07,
      "loss": 1.03991566,
      "memory(GiB)": 112.26,
      "step": 65465,
      "train_speed(iter/s)": 1.1292
    },
    {
      "acc": 0.75140996,
      "epoch": 1.660832064941654,
      "grad_norm": 4.28125,
      "learning_rate": 7.658610328114658e-07,
      "loss": 0.9880394,
      "memory(GiB)": 112.26,
      "step": 65470,
      "train_speed(iter/s)": 1.129216
    },
    {
      "acc": 0.73744216,
      "epoch": 1.660958904109589,
      "grad_norm": 3.90625,
      "learning_rate": 7.653033974232504e-07,
      "loss": 1.0954484,
      "memory(GiB)": 112.26,
      "step": 65475,
      "train_speed(iter/s)": 1.129228
    },
    {
      "acc": 0.73506298,
      "epoch": 1.6610857432775241,
      "grad_norm": 3.34375,
      "learning_rate": 7.647459482958991e-07,
      "loss": 1.13730736,
      "memory(GiB)": 112.26,
      "step": 65480,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.73684716,
      "epoch": 1.661212582445459,
      "grad_norm": 3.359375,
      "learning_rate": 7.641886854539304e-07,
      "loss": 1.06207542,
      "memory(GiB)": 112.26,
      "step": 65485,
      "train_speed(iter/s)": 1.129247
    },
    {
      "acc": 0.74561048,
      "epoch": 1.6613394216133943,
      "grad_norm": 3.375,
      "learning_rate": 7.63631608921856e-07,
      "loss": 1.04768257,
      "memory(GiB)": 112.26,
      "step": 65490,
      "train_speed(iter/s)": 1.12926
    },
    {
      "acc": 0.7379251,
      "epoch": 1.6614662607813293,
      "grad_norm": 3.28125,
      "learning_rate": 7.63074718724175e-07,
      "loss": 1.04401131,
      "memory(GiB)": 112.26,
      "step": 65495,
      "train_speed(iter/s)": 1.129275
    },
    {
      "acc": 0.73168406,
      "epoch": 1.6615930999492643,
      "grad_norm": 3.359375,
      "learning_rate": 7.625180148853856e-07,
      "loss": 1.05210838,
      "memory(GiB)": 112.26,
      "step": 65500,
      "train_speed(iter/s)": 1.129287
    },
    {
      "acc": 0.7465395,
      "epoch": 1.6617199391171993,
      "grad_norm": 3.703125,
      "learning_rate": 7.619614974299727e-07,
      "loss": 1.04518709,
      "memory(GiB)": 112.26,
      "step": 65505,
      "train_speed(iter/s)": 1.1293
    },
    {
      "acc": 0.75570068,
      "epoch": 1.6618467782851345,
      "grad_norm": 3.734375,
      "learning_rate": 7.614051663824152e-07,
      "loss": 0.98853846,
      "memory(GiB)": 112.26,
      "step": 65510,
      "train_speed(iter/s)": 1.12931
    },
    {
      "acc": 0.74798412,
      "epoch": 1.6619736174530695,
      "grad_norm": 3.5625,
      "learning_rate": 7.608490217671821e-07,
      "loss": 0.99138145,
      "memory(GiB)": 112.26,
      "step": 65515,
      "train_speed(iter/s)": 1.129314
    },
    {
      "acc": 0.73161259,
      "epoch": 1.6621004566210047,
      "grad_norm": 3.859375,
      "learning_rate": 7.602930636087352e-07,
      "loss": 1.10256042,
      "memory(GiB)": 112.26,
      "step": 65520,
      "train_speed(iter/s)": 1.129327
    },
    {
      "acc": 0.74879775,
      "epoch": 1.6622272957889397,
      "grad_norm": 3.40625,
      "learning_rate": 7.597372919315288e-07,
      "loss": 1.00961666,
      "memory(GiB)": 112.26,
      "step": 65525,
      "train_speed(iter/s)": 1.129332
    },
    {
      "acc": 0.73562527,
      "epoch": 1.6623541349568747,
      "grad_norm": 3.828125,
      "learning_rate": 7.591817067600071e-07,
      "loss": 1.08064728,
      "memory(GiB)": 112.26,
      "step": 65530,
      "train_speed(iter/s)": 1.129342
    },
    {
      "acc": 0.72405028,
      "epoch": 1.6624809741248097,
      "grad_norm": 4.15625,
      "learning_rate": 7.586263081186085e-07,
      "loss": 1.13202391,
      "memory(GiB)": 112.26,
      "step": 65535,
      "train_speed(iter/s)": 1.129351
    },
    {
      "acc": 0.73020105,
      "epoch": 1.6626078132927447,
      "grad_norm": 3.53125,
      "learning_rate": 7.580710960317605e-07,
      "loss": 1.07057648,
      "memory(GiB)": 112.26,
      "step": 65540,
      "train_speed(iter/s)": 1.12936
    },
    {
      "acc": 0.74770336,
      "epoch": 1.6627346524606799,
      "grad_norm": 4.03125,
      "learning_rate": 7.575160705238854e-07,
      "loss": 1.03594284,
      "memory(GiB)": 112.26,
      "step": 65545,
      "train_speed(iter/s)": 1.129376
    },
    {
      "acc": 0.74495044,
      "epoch": 1.662861491628615,
      "grad_norm": 3.421875,
      "learning_rate": 7.569612316193942e-07,
      "loss": 1.03841143,
      "memory(GiB)": 112.26,
      "step": 65550,
      "train_speed(iter/s)": 1.129391
    },
    {
      "acc": 0.74491267,
      "epoch": 1.66298833079655,
      "grad_norm": 3.609375,
      "learning_rate": 7.564065793426923e-07,
      "loss": 1.06011238,
      "memory(GiB)": 112.26,
      "step": 65555,
      "train_speed(iter/s)": 1.129395
    },
    {
      "acc": 0.75635624,
      "epoch": 1.663115169964485,
      "grad_norm": 3.53125,
      "learning_rate": 7.558521137181752e-07,
      "loss": 1.0514864,
      "memory(GiB)": 112.26,
      "step": 65560,
      "train_speed(iter/s)": 1.129406
    },
    {
      "acc": 0.75378141,
      "epoch": 1.66324200913242,
      "grad_norm": 4.75,
      "learning_rate": 7.552978347702295e-07,
      "loss": 0.96811657,
      "memory(GiB)": 112.26,
      "step": 65565,
      "train_speed(iter/s)": 1.129417
    },
    {
      "acc": 0.74464111,
      "epoch": 1.663368848300355,
      "grad_norm": 3.984375,
      "learning_rate": 7.547437425232384e-07,
      "loss": 1.02352619,
      "memory(GiB)": 112.26,
      "step": 65570,
      "train_speed(iter/s)": 1.129428
    },
    {
      "acc": 0.73934689,
      "epoch": 1.6634956874682902,
      "grad_norm": 3.734375,
      "learning_rate": 7.541898370015704e-07,
      "loss": 1.11129913,
      "memory(GiB)": 112.26,
      "step": 65575,
      "train_speed(iter/s)": 1.12944
    },
    {
      "acc": 0.75203223,
      "epoch": 1.6636225266362252,
      "grad_norm": 3.953125,
      "learning_rate": 7.536361182295893e-07,
      "loss": 1.05635281,
      "memory(GiB)": 112.26,
      "step": 65580,
      "train_speed(iter/s)": 1.129456
    },
    {
      "acc": 0.74034662,
      "epoch": 1.6637493658041604,
      "grad_norm": 3.203125,
      "learning_rate": 7.530825862316493e-07,
      "loss": 1.0678771,
      "memory(GiB)": 112.26,
      "step": 65585,
      "train_speed(iter/s)": 1.129471
    },
    {
      "acc": 0.75453367,
      "epoch": 1.6638762049720954,
      "grad_norm": 3.609375,
      "learning_rate": 7.525292410321011e-07,
      "loss": 0.97313728,
      "memory(GiB)": 112.26,
      "step": 65590,
      "train_speed(iter/s)": 1.129487
    },
    {
      "acc": 0.74696717,
      "epoch": 1.6640030441400304,
      "grad_norm": 3.5625,
      "learning_rate": 7.519760826552786e-07,
      "loss": 1.07154827,
      "memory(GiB)": 112.26,
      "step": 65595,
      "train_speed(iter/s)": 1.129494
    },
    {
      "acc": 0.73583508,
      "epoch": 1.6641298833079654,
      "grad_norm": 3.46875,
      "learning_rate": 7.514231111255132e-07,
      "loss": 1.04534073,
      "memory(GiB)": 112.26,
      "step": 65600,
      "train_speed(iter/s)": 1.129503
    },
    {
      "acc": 0.7573267,
      "epoch": 1.6642567224759004,
      "grad_norm": 3.34375,
      "learning_rate": 7.508703264671291e-07,
      "loss": 0.99438534,
      "memory(GiB)": 112.26,
      "step": 65605,
      "train_speed(iter/s)": 1.129517
    },
    {
      "acc": 0.73218346,
      "epoch": 1.6643835616438356,
      "grad_norm": 4.15625,
      "learning_rate": 7.5031772870444e-07,
      "loss": 1.08542671,
      "memory(GiB)": 112.26,
      "step": 65610,
      "train_speed(iter/s)": 1.129534
    },
    {
      "acc": 0.7429038,
      "epoch": 1.6645104008117708,
      "grad_norm": 3.65625,
      "learning_rate": 7.497653178617498e-07,
      "loss": 1.11123791,
      "memory(GiB)": 112.26,
      "step": 65615,
      "train_speed(iter/s)": 1.129552
    },
    {
      "acc": 0.73173027,
      "epoch": 1.6646372399797058,
      "grad_norm": 3.28125,
      "learning_rate": 7.492130939633557e-07,
      "loss": 1.14903851,
      "memory(GiB)": 112.26,
      "step": 65620,
      "train_speed(iter/s)": 1.12956
    },
    {
      "acc": 0.72027292,
      "epoch": 1.6647640791476408,
      "grad_norm": 3.421875,
      "learning_rate": 7.48661057033549e-07,
      "loss": 1.11792917,
      "memory(GiB)": 112.26,
      "step": 65625,
      "train_speed(iter/s)": 1.129575
    },
    {
      "acc": 0.7399231,
      "epoch": 1.6648909183155758,
      "grad_norm": 3.109375,
      "learning_rate": 7.481092070966111e-07,
      "loss": 1.04986258,
      "memory(GiB)": 112.26,
      "step": 65630,
      "train_speed(iter/s)": 1.12958
    },
    {
      "acc": 0.74152584,
      "epoch": 1.6650177574835108,
      "grad_norm": 4.28125,
      "learning_rate": 7.475575441768112e-07,
      "loss": 1.08800669,
      "memory(GiB)": 112.26,
      "step": 65635,
      "train_speed(iter/s)": 1.129594
    },
    {
      "acc": 0.73305359,
      "epoch": 1.665144596651446,
      "grad_norm": 3.515625,
      "learning_rate": 7.470060682984176e-07,
      "loss": 1.06401634,
      "memory(GiB)": 112.26,
      "step": 65640,
      "train_speed(iter/s)": 1.129602
    },
    {
      "acc": 0.72986374,
      "epoch": 1.665271435819381,
      "grad_norm": 3.578125,
      "learning_rate": 7.464547794856858e-07,
      "loss": 1.06816921,
      "memory(GiB)": 112.26,
      "step": 65645,
      "train_speed(iter/s)": 1.129611
    },
    {
      "acc": 0.73672018,
      "epoch": 1.6653982749873162,
      "grad_norm": 3.828125,
      "learning_rate": 7.459036777628631e-07,
      "loss": 1.04066391,
      "memory(GiB)": 112.26,
      "step": 65650,
      "train_speed(iter/s)": 1.12963
    },
    {
      "acc": 0.73026357,
      "epoch": 1.6655251141552512,
      "grad_norm": 3.953125,
      "learning_rate": 7.453527631541896e-07,
      "loss": 1.07498178,
      "memory(GiB)": 112.26,
      "step": 65655,
      "train_speed(iter/s)": 1.129644
    },
    {
      "acc": 0.75261049,
      "epoch": 1.6656519533231862,
      "grad_norm": 4.03125,
      "learning_rate": 7.448020356838975e-07,
      "loss": 1.02527151,
      "memory(GiB)": 112.26,
      "step": 65660,
      "train_speed(iter/s)": 1.129659
    },
    {
      "acc": 0.7350647,
      "epoch": 1.6657787924911212,
      "grad_norm": 3.390625,
      "learning_rate": 7.442514953762098e-07,
      "loss": 1.06378708,
      "memory(GiB)": 112.26,
      "step": 65665,
      "train_speed(iter/s)": 1.129669
    },
    {
      "acc": 0.73675456,
      "epoch": 1.6659056316590564,
      "grad_norm": 3.578125,
      "learning_rate": 7.43701142255342e-07,
      "loss": 1.06861515,
      "memory(GiB)": 112.26,
      "step": 65670,
      "train_speed(iter/s)": 1.129682
    },
    {
      "acc": 0.74114518,
      "epoch": 1.6660324708269914,
      "grad_norm": 3.65625,
      "learning_rate": 7.431509763455008e-07,
      "loss": 1.01493855,
      "memory(GiB)": 112.26,
      "step": 65675,
      "train_speed(iter/s)": 1.129693
    },
    {
      "acc": 0.75045977,
      "epoch": 1.6661593099949266,
      "grad_norm": 3.875,
      "learning_rate": 7.426009976708854e-07,
      "loss": 0.9936657,
      "memory(GiB)": 112.26,
      "step": 65680,
      "train_speed(iter/s)": 1.129709
    },
    {
      "acc": 0.72654524,
      "epoch": 1.6662861491628616,
      "grad_norm": 3.46875,
      "learning_rate": 7.420512062556856e-07,
      "loss": 1.08982239,
      "memory(GiB)": 112.26,
      "step": 65685,
      "train_speed(iter/s)": 1.129722
    },
    {
      "acc": 0.7445302,
      "epoch": 1.6664129883307965,
      "grad_norm": 4.125,
      "learning_rate": 7.415016021240845e-07,
      "loss": 1.05358772,
      "memory(GiB)": 112.26,
      "step": 65690,
      "train_speed(iter/s)": 1.129734
    },
    {
      "acc": 0.76242428,
      "epoch": 1.6665398274987315,
      "grad_norm": 3.671875,
      "learning_rate": 7.40952185300256e-07,
      "loss": 1.01864386,
      "memory(GiB)": 112.26,
      "step": 65695,
      "train_speed(iter/s)": 1.129749
    },
    {
      "acc": 0.75456285,
      "epoch": 1.6666666666666665,
      "grad_norm": 3.34375,
      "learning_rate": 7.404029558083653e-07,
      "loss": 1.01825066,
      "memory(GiB)": 112.26,
      "step": 65700,
      "train_speed(iter/s)": 1.129766
    },
    {
      "acc": 0.73550825,
      "epoch": 1.6667935058346017,
      "grad_norm": 3.953125,
      "learning_rate": 7.398539136725702e-07,
      "loss": 1.07551994,
      "memory(GiB)": 112.26,
      "step": 65705,
      "train_speed(iter/s)": 1.129777
    },
    {
      "acc": 0.74298716,
      "epoch": 1.666920345002537,
      "grad_norm": 3.8125,
      "learning_rate": 7.393050589170203e-07,
      "loss": 1.05589676,
      "memory(GiB)": 112.26,
      "step": 65710,
      "train_speed(iter/s)": 1.129796
    },
    {
      "acc": 0.73931904,
      "epoch": 1.667047184170472,
      "grad_norm": 3.265625,
      "learning_rate": 7.387563915658569e-07,
      "loss": 1.04678087,
      "memory(GiB)": 112.26,
      "step": 65715,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.73605947,
      "epoch": 1.667174023338407,
      "grad_norm": 3.40625,
      "learning_rate": 7.382079116432117e-07,
      "loss": 1.04878101,
      "memory(GiB)": 112.26,
      "step": 65720,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.74390469,
      "epoch": 1.667300862506342,
      "grad_norm": 3.84375,
      "learning_rate": 7.376596191732093e-07,
      "loss": 1.0503376,
      "memory(GiB)": 112.26,
      "step": 65725,
      "train_speed(iter/s)": 1.129824
    },
    {
      "acc": 0.7214633,
      "epoch": 1.667427701674277,
      "grad_norm": 3.796875,
      "learning_rate": 7.371115141799695e-07,
      "loss": 1.13422108,
      "memory(GiB)": 112.26,
      "step": 65730,
      "train_speed(iter/s)": 1.12984
    },
    {
      "acc": 0.74738464,
      "epoch": 1.667554540842212,
      "grad_norm": 3.671875,
      "learning_rate": 7.365635966875961e-07,
      "loss": 1.0807703,
      "memory(GiB)": 112.26,
      "step": 65735,
      "train_speed(iter/s)": 1.129849
    },
    {
      "acc": 0.73685045,
      "epoch": 1.667681380010147,
      "grad_norm": 3.65625,
      "learning_rate": 7.3601586672019e-07,
      "loss": 1.0752656,
      "memory(GiB)": 112.26,
      "step": 65740,
      "train_speed(iter/s)": 1.12986
    },
    {
      "acc": 0.74984875,
      "epoch": 1.6678082191780823,
      "grad_norm": 4.34375,
      "learning_rate": 7.35468324301844e-07,
      "loss": 1.02957325,
      "memory(GiB)": 112.26,
      "step": 65745,
      "train_speed(iter/s)": 1.129874
    },
    {
      "acc": 0.74699922,
      "epoch": 1.6679350583460173,
      "grad_norm": 4.96875,
      "learning_rate": 7.349209694566422e-07,
      "loss": 1.0355937,
      "memory(GiB)": 112.26,
      "step": 65750,
      "train_speed(iter/s)": 1.129889
    },
    {
      "acc": 0.73906517,
      "epoch": 1.6680618975139523,
      "grad_norm": 3.53125,
      "learning_rate": 7.343738022086572e-07,
      "loss": 1.05224428,
      "memory(GiB)": 112.26,
      "step": 65755,
      "train_speed(iter/s)": 1.129899
    },
    {
      "acc": 0.734864,
      "epoch": 1.6681887366818873,
      "grad_norm": 3.5,
      "learning_rate": 7.338268225819562e-07,
      "loss": 1.09756832,
      "memory(GiB)": 112.26,
      "step": 65760,
      "train_speed(iter/s)": 1.129916
    },
    {
      "acc": 0.72894201,
      "epoch": 1.6683155758498223,
      "grad_norm": 3.8125,
      "learning_rate": 7.332800306005994e-07,
      "loss": 1.09845753,
      "memory(GiB)": 112.26,
      "step": 65765,
      "train_speed(iter/s)": 1.129925
    },
    {
      "acc": 0.73664322,
      "epoch": 1.6684424150177575,
      "grad_norm": 3.734375,
      "learning_rate": 7.327334262886376e-07,
      "loss": 1.1172924,
      "memory(GiB)": 112.26,
      "step": 65770,
      "train_speed(iter/s)": 1.129933
    },
    {
      "acc": 0.74503441,
      "epoch": 1.6685692541856927,
      "grad_norm": 3.71875,
      "learning_rate": 7.321870096701095e-07,
      "loss": 1.07168741,
      "memory(GiB)": 112.26,
      "step": 65775,
      "train_speed(iter/s)": 1.129948
    },
    {
      "acc": 0.74718194,
      "epoch": 1.6686960933536277,
      "grad_norm": 3.59375,
      "learning_rate": 7.316407807690523e-07,
      "loss": 0.9950407,
      "memory(GiB)": 112.26,
      "step": 65780,
      "train_speed(iter/s)": 1.129964
    },
    {
      "acc": 0.73527365,
      "epoch": 1.6688229325215627,
      "grad_norm": 4.53125,
      "learning_rate": 7.310947396094903e-07,
      "loss": 1.10795879,
      "memory(GiB)": 112.26,
      "step": 65785,
      "train_speed(iter/s)": 1.129971
    },
    {
      "acc": 0.73956461,
      "epoch": 1.6689497716894977,
      "grad_norm": 3.8125,
      "learning_rate": 7.30548886215442e-07,
      "loss": 1.07117462,
      "memory(GiB)": 112.26,
      "step": 65790,
      "train_speed(iter/s)": 1.129989
    },
    {
      "acc": 0.74897499,
      "epoch": 1.6690766108574326,
      "grad_norm": 3.5,
      "learning_rate": 7.300032206109131e-07,
      "loss": 1.02512379,
      "memory(GiB)": 112.26,
      "step": 65795,
      "train_speed(iter/s)": 1.130004
    },
    {
      "acc": 0.74981661,
      "epoch": 1.6692034500253679,
      "grad_norm": 3.1875,
      "learning_rate": 7.294577428199084e-07,
      "loss": 1.00929756,
      "memory(GiB)": 112.26,
      "step": 65800,
      "train_speed(iter/s)": 1.13002
    },
    {
      "acc": 0.731001,
      "epoch": 1.6693302891933028,
      "grad_norm": 3.203125,
      "learning_rate": 7.289124528664182e-07,
      "loss": 1.15427694,
      "memory(GiB)": 112.26,
      "step": 65805,
      "train_speed(iter/s)": 1.13004
    },
    {
      "acc": 0.72594652,
      "epoch": 1.669457128361238,
      "grad_norm": 3.34375,
      "learning_rate": 7.283673507744276e-07,
      "loss": 1.11838636,
      "memory(GiB)": 112.26,
      "step": 65810,
      "train_speed(iter/s)": 1.130051
    },
    {
      "acc": 0.72591133,
      "epoch": 1.669583967529173,
      "grad_norm": 4.3125,
      "learning_rate": 7.278224365679121e-07,
      "loss": 1.06048756,
      "memory(GiB)": 112.26,
      "step": 65815,
      "train_speed(iter/s)": 1.130062
    },
    {
      "acc": 0.74293728,
      "epoch": 1.669710806697108,
      "grad_norm": 4.40625,
      "learning_rate": 7.2727771027084e-07,
      "loss": 1.07113628,
      "memory(GiB)": 112.26,
      "step": 65820,
      "train_speed(iter/s)": 1.130074
    },
    {
      "acc": 0.73910828,
      "epoch": 1.669837645865043,
      "grad_norm": 3.5625,
      "learning_rate": 7.267331719071707e-07,
      "loss": 1.08739357,
      "memory(GiB)": 112.26,
      "step": 65825,
      "train_speed(iter/s)": 1.130084
    },
    {
      "acc": 0.74252968,
      "epoch": 1.6699644850329782,
      "grad_norm": 3.5625,
      "learning_rate": 7.261888215008551e-07,
      "loss": 1.02413979,
      "memory(GiB)": 112.26,
      "step": 65830,
      "train_speed(iter/s)": 1.130094
    },
    {
      "acc": 0.73066101,
      "epoch": 1.6700913242009132,
      "grad_norm": 3.28125,
      "learning_rate": 7.256446590758359e-07,
      "loss": 1.10675926,
      "memory(GiB)": 112.26,
      "step": 65835,
      "train_speed(iter/s)": 1.130099
    },
    {
      "acc": 0.7512393,
      "epoch": 1.6702181633688484,
      "grad_norm": 4.375,
      "learning_rate": 7.251006846560487e-07,
      "loss": 0.99981441,
      "memory(GiB)": 112.26,
      "step": 65840,
      "train_speed(iter/s)": 1.130114
    },
    {
      "acc": 0.7294426,
      "epoch": 1.6703450025367834,
      "grad_norm": 3.71875,
      "learning_rate": 7.245568982654194e-07,
      "loss": 1.10685291,
      "memory(GiB)": 112.26,
      "step": 65845,
      "train_speed(iter/s)": 1.130136
    },
    {
      "acc": 0.74704494,
      "epoch": 1.6704718417047184,
      "grad_norm": 3.90625,
      "learning_rate": 7.24013299927866e-07,
      "loss": 1.10208693,
      "memory(GiB)": 112.26,
      "step": 65850,
      "train_speed(iter/s)": 1.130153
    },
    {
      "acc": 0.74334674,
      "epoch": 1.6705986808726534,
      "grad_norm": 4.3125,
      "learning_rate": 7.234698896672987e-07,
      "loss": 1.08662071,
      "memory(GiB)": 112.26,
      "step": 65855,
      "train_speed(iter/s)": 1.130164
    },
    {
      "acc": 0.75173569,
      "epoch": 1.6707255200405884,
      "grad_norm": 3.359375,
      "learning_rate": 7.229266675076191e-07,
      "loss": 1.03824825,
      "memory(GiB)": 112.26,
      "step": 65860,
      "train_speed(iter/s)": 1.130174
    },
    {
      "acc": 0.74877453,
      "epoch": 1.6708523592085236,
      "grad_norm": 3.6875,
      "learning_rate": 7.223836334727191e-07,
      "loss": 1.00384312,
      "memory(GiB)": 112.26,
      "step": 65865,
      "train_speed(iter/s)": 1.130191
    },
    {
      "acc": 0.73635125,
      "epoch": 1.6709791983764588,
      "grad_norm": 4.375,
      "learning_rate": 7.218407875864875e-07,
      "loss": 1.05422459,
      "memory(GiB)": 112.26,
      "step": 65870,
      "train_speed(iter/s)": 1.1302
    },
    {
      "acc": 0.73416986,
      "epoch": 1.6711060375443938,
      "grad_norm": 4.125,
      "learning_rate": 7.212981298727972e-07,
      "loss": 1.11998348,
      "memory(GiB)": 112.26,
      "step": 65875,
      "train_speed(iter/s)": 1.130211
    },
    {
      "acc": 0.73671842,
      "epoch": 1.6712328767123288,
      "grad_norm": 3.8125,
      "learning_rate": 7.207556603555188e-07,
      "loss": 1.10592728,
      "memory(GiB)": 112.26,
      "step": 65880,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.73770981,
      "epoch": 1.6713597158802638,
      "grad_norm": 3.765625,
      "learning_rate": 7.202133790585103e-07,
      "loss": 1.06636753,
      "memory(GiB)": 112.26,
      "step": 65885,
      "train_speed(iter/s)": 1.130239
    },
    {
      "acc": 0.74975176,
      "epoch": 1.6714865550481988,
      "grad_norm": 4.1875,
      "learning_rate": 7.196712860056277e-07,
      "loss": 1.03847866,
      "memory(GiB)": 112.26,
      "step": 65890,
      "train_speed(iter/s)": 1.130248
    },
    {
      "acc": 0.73990307,
      "epoch": 1.671613394216134,
      "grad_norm": 3.015625,
      "learning_rate": 7.191293812207111e-07,
      "loss": 1.08728361,
      "memory(GiB)": 112.26,
      "step": 65895,
      "train_speed(iter/s)": 1.130259
    },
    {
      "acc": 0.75849495,
      "epoch": 1.671740233384069,
      "grad_norm": 3.5625,
      "learning_rate": 7.185876647275958e-07,
      "loss": 1.01638479,
      "memory(GiB)": 112.26,
      "step": 65900,
      "train_speed(iter/s)": 1.130269
    },
    {
      "acc": 0.7411129,
      "epoch": 1.6718670725520042,
      "grad_norm": 4.53125,
      "learning_rate": 7.180461365501113e-07,
      "loss": 1.05424614,
      "memory(GiB)": 112.26,
      "step": 65905,
      "train_speed(iter/s)": 1.130269
    },
    {
      "acc": 0.73181581,
      "epoch": 1.6719939117199392,
      "grad_norm": 3.71875,
      "learning_rate": 7.175047967120763e-07,
      "loss": 1.02768879,
      "memory(GiB)": 112.26,
      "step": 65910,
      "train_speed(iter/s)": 1.130288
    },
    {
      "acc": 0.74995642,
      "epoch": 1.6721207508878742,
      "grad_norm": 4.0,
      "learning_rate": 7.16963645237298e-07,
      "loss": 1.03696079,
      "memory(GiB)": 112.26,
      "step": 65915,
      "train_speed(iter/s)": 1.130295
    },
    {
      "acc": 0.75344019,
      "epoch": 1.6722475900558091,
      "grad_norm": 4.4375,
      "learning_rate": 7.164226821495824e-07,
      "loss": 0.97625065,
      "memory(GiB)": 112.26,
      "step": 65920,
      "train_speed(iter/s)": 1.130315
    },
    {
      "acc": 0.74154215,
      "epoch": 1.6723744292237441,
      "grad_norm": 3.625,
      "learning_rate": 7.158819074727219e-07,
      "loss": 1.078613,
      "memory(GiB)": 112.26,
      "step": 65925,
      "train_speed(iter/s)": 1.130322
    },
    {
      "acc": 0.73955851,
      "epoch": 1.6725012683916793,
      "grad_norm": 5.90625,
      "learning_rate": 7.153413212305032e-07,
      "loss": 1.04304848,
      "memory(GiB)": 112.26,
      "step": 65930,
      "train_speed(iter/s)": 1.130335
    },
    {
      "acc": 0.73787885,
      "epoch": 1.6726281075596146,
      "grad_norm": 4.90625,
      "learning_rate": 7.148009234467007e-07,
      "loss": 1.06541157,
      "memory(GiB)": 112.26,
      "step": 65935,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.73040514,
      "epoch": 1.6727549467275495,
      "grad_norm": 3.3125,
      "learning_rate": 7.142607141450869e-07,
      "loss": 1.08018398,
      "memory(GiB)": 112.26,
      "step": 65940,
      "train_speed(iter/s)": 1.130359
    },
    {
      "acc": 0.73334599,
      "epoch": 1.6728817858954845,
      "grad_norm": 4.6875,
      "learning_rate": 7.137206933494211e-07,
      "loss": 1.05677185,
      "memory(GiB)": 112.26,
      "step": 65945,
      "train_speed(iter/s)": 1.130364
    },
    {
      "acc": 0.7390933,
      "epoch": 1.6730086250634195,
      "grad_norm": 3.6875,
      "learning_rate": 7.131808610834567e-07,
      "loss": 1.0658392,
      "memory(GiB)": 112.26,
      "step": 65950,
      "train_speed(iter/s)": 1.130372
    },
    {
      "acc": 0.73781552,
      "epoch": 1.6731354642313545,
      "grad_norm": 3.28125,
      "learning_rate": 7.126412173709369e-07,
      "loss": 1.04374943,
      "memory(GiB)": 112.26,
      "step": 65955,
      "train_speed(iter/s)": 1.130387
    },
    {
      "acc": 0.74822683,
      "epoch": 1.6732623033992897,
      "grad_norm": 3.75,
      "learning_rate": 7.12101762235598e-07,
      "loss": 1.05131416,
      "memory(GiB)": 112.26,
      "step": 65960,
      "train_speed(iter/s)": 1.130405
    },
    {
      "acc": 0.74021425,
      "epoch": 1.6733891425672247,
      "grad_norm": 3.78125,
      "learning_rate": 7.115624957011674e-07,
      "loss": 1.01531544,
      "memory(GiB)": 112.26,
      "step": 65965,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.74547563,
      "epoch": 1.67351598173516,
      "grad_norm": 3.890625,
      "learning_rate": 7.11023417791365e-07,
      "loss": 1.00381174,
      "memory(GiB)": 112.26,
      "step": 65970,
      "train_speed(iter/s)": 1.130439
    },
    {
      "acc": 0.75001945,
      "epoch": 1.673642820903095,
      "grad_norm": 2.984375,
      "learning_rate": 7.104845285299017e-07,
      "loss": 1.06603909,
      "memory(GiB)": 112.26,
      "step": 65975,
      "train_speed(iter/s)": 1.130445
    },
    {
      "acc": 0.73432207,
      "epoch": 1.67376966007103,
      "grad_norm": 3.703125,
      "learning_rate": 7.099458279404797e-07,
      "loss": 1.09177647,
      "memory(GiB)": 112.26,
      "step": 65980,
      "train_speed(iter/s)": 1.130462
    },
    {
      "acc": 0.74129801,
      "epoch": 1.6738964992389649,
      "grad_norm": 3.765625,
      "learning_rate": 7.094073160467945e-07,
      "loss": 1.05031385,
      "memory(GiB)": 112.26,
      "step": 65985,
      "train_speed(iter/s)": 1.130467
    },
    {
      "acc": 0.73314414,
      "epoch": 1.6740233384069,
      "grad_norm": 3.65625,
      "learning_rate": 7.088689928725311e-07,
      "loss": 1.08333721,
      "memory(GiB)": 112.26,
      "step": 65990,
      "train_speed(iter/s)": 1.130481
    },
    {
      "acc": 0.74685221,
      "epoch": 1.674150177574835,
      "grad_norm": 3.4375,
      "learning_rate": 7.083308584413684e-07,
      "loss": 1.06176977,
      "memory(GiB)": 112.26,
      "step": 65995,
      "train_speed(iter/s)": 1.130496
    },
    {
      "acc": 0.73354607,
      "epoch": 1.6742770167427703,
      "grad_norm": 3.765625,
      "learning_rate": 7.077929127769756e-07,
      "loss": 1.04631805,
      "memory(GiB)": 112.26,
      "step": 66000,
      "train_speed(iter/s)": 1.130511
    },
    {
      "epoch": 1.6742770167427703,
      "eval_acc": 0.7259327941326952,
      "eval_loss": 1.0440822839736938,
      "eval_runtime": 70.8188,
      "eval_samples_per_second": 89.948,
      "eval_steps_per_second": 22.494,
      "step": 66000
    },
    {
      "acc": 0.74575024,
      "epoch": 1.6744038559107053,
      "grad_norm": 4.125,
      "learning_rate": 7.072551559030122e-07,
      "loss": 1.04564915,
      "memory(GiB)": 112.26,
      "step": 66005,
      "train_speed(iter/s)": 1.128293
    },
    {
      "acc": 0.74576139,
      "epoch": 1.6745306950786403,
      "grad_norm": 3.546875,
      "learning_rate": 7.067175878431353e-07,
      "loss": 0.98954887,
      "memory(GiB)": 112.26,
      "step": 66010,
      "train_speed(iter/s)": 1.128306
    },
    {
      "acc": 0.73973923,
      "epoch": 1.6746575342465753,
      "grad_norm": 3.90625,
      "learning_rate": 7.061802086209857e-07,
      "loss": 1.07626534,
      "memory(GiB)": 112.26,
      "step": 66015,
      "train_speed(iter/s)": 1.128317
    },
    {
      "acc": 0.73285894,
      "epoch": 1.6747843734145103,
      "grad_norm": 3.09375,
      "learning_rate": 7.056430182602008e-07,
      "loss": 1.06359043,
      "memory(GiB)": 112.26,
      "step": 66020,
      "train_speed(iter/s)": 1.128325
    },
    {
      "acc": 0.75413566,
      "epoch": 1.6749112125824455,
      "grad_norm": 3.96875,
      "learning_rate": 7.051060167844081e-07,
      "loss": 1.03074541,
      "memory(GiB)": 112.26,
      "step": 66025,
      "train_speed(iter/s)": 1.128341
    },
    {
      "acc": 0.75044475,
      "epoch": 1.6750380517503807,
      "grad_norm": 4.5625,
      "learning_rate": 7.045692042172309e-07,
      "loss": 1.02991104,
      "memory(GiB)": 112.26,
      "step": 66030,
      "train_speed(iter/s)": 1.128355
    },
    {
      "acc": 0.75712042,
      "epoch": 1.6751648909183157,
      "grad_norm": 3.84375,
      "learning_rate": 7.040325805822756e-07,
      "loss": 1.00540447,
      "memory(GiB)": 112.26,
      "step": 66035,
      "train_speed(iter/s)": 1.128364
    },
    {
      "acc": 0.73074245,
      "epoch": 1.6752917300862507,
      "grad_norm": 3.21875,
      "learning_rate": 7.03496145903147e-07,
      "loss": 1.10124798,
      "memory(GiB)": 112.26,
      "step": 66040,
      "train_speed(iter/s)": 1.128374
    },
    {
      "acc": 0.74486709,
      "epoch": 1.6754185692541856,
      "grad_norm": 3.390625,
      "learning_rate": 7.029599002034415e-07,
      "loss": 1.07992201,
      "memory(GiB)": 112.26,
      "step": 66045,
      "train_speed(iter/s)": 1.128385
    },
    {
      "acc": 0.73834391,
      "epoch": 1.6755454084221206,
      "grad_norm": 3.890625,
      "learning_rate": 7.02423843506746e-07,
      "loss": 1.04905319,
      "memory(GiB)": 112.26,
      "step": 66050,
      "train_speed(iter/s)": 1.1284
    },
    {
      "acc": 0.74463205,
      "epoch": 1.6756722475900558,
      "grad_norm": 4.34375,
      "learning_rate": 7.018879758366354e-07,
      "loss": 1.04052811,
      "memory(GiB)": 112.26,
      "step": 66055,
      "train_speed(iter/s)": 1.128411
    },
    {
      "acc": 0.74814196,
      "epoch": 1.6757990867579908,
      "grad_norm": 3.453125,
      "learning_rate": 7.013522972166803e-07,
      "loss": 0.99686136,
      "memory(GiB)": 112.26,
      "step": 66060,
      "train_speed(iter/s)": 1.128427
    },
    {
      "acc": 0.73948193,
      "epoch": 1.675925925925926,
      "grad_norm": 5.125,
      "learning_rate": 7.008168076704447e-07,
      "loss": 1.04473333,
      "memory(GiB)": 112.26,
      "step": 66065,
      "train_speed(iter/s)": 1.128439
    },
    {
      "acc": 0.73371248,
      "epoch": 1.676052765093861,
      "grad_norm": 3.9375,
      "learning_rate": 7.002815072214814e-07,
      "loss": 1.0762373,
      "memory(GiB)": 112.26,
      "step": 66070,
      "train_speed(iter/s)": 1.128449
    },
    {
      "acc": 0.74208694,
      "epoch": 1.676179604261796,
      "grad_norm": 3.34375,
      "learning_rate": 6.997463958933315e-07,
      "loss": 1.05564175,
      "memory(GiB)": 112.26,
      "step": 66075,
      "train_speed(iter/s)": 1.128453
    },
    {
      "acc": 0.75344858,
      "epoch": 1.676306443429731,
      "grad_norm": 2.890625,
      "learning_rate": 6.992114737095362e-07,
      "loss": 1.00207119,
      "memory(GiB)": 112.26,
      "step": 66080,
      "train_speed(iter/s)": 1.12847
    },
    {
      "acc": 0.74216394,
      "epoch": 1.676433282597666,
      "grad_norm": 3.578125,
      "learning_rate": 6.986767406936212e-07,
      "loss": 0.99739552,
      "memory(GiB)": 112.26,
      "step": 66085,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.74280996,
      "epoch": 1.6765601217656012,
      "grad_norm": 3.75,
      "learning_rate": 6.981421968691077e-07,
      "loss": 1.05687819,
      "memory(GiB)": 112.26,
      "step": 66090,
      "train_speed(iter/s)": 1.128495
    },
    {
      "acc": 0.73370085,
      "epoch": 1.6766869609335364,
      "grad_norm": 4.375,
      "learning_rate": 6.976078422595067e-07,
      "loss": 1.09571552,
      "memory(GiB)": 112.26,
      "step": 66095,
      "train_speed(iter/s)": 1.128503
    },
    {
      "acc": 0.74748211,
      "epoch": 1.6768138001014714,
      "grad_norm": 3.015625,
      "learning_rate": 6.970736768883219e-07,
      "loss": 1.06472692,
      "memory(GiB)": 112.26,
      "step": 66100,
      "train_speed(iter/s)": 1.128514
    },
    {
      "acc": 0.74550772,
      "epoch": 1.6769406392694064,
      "grad_norm": 3.40625,
      "learning_rate": 6.965397007790476e-07,
      "loss": 1.07956972,
      "memory(GiB)": 112.26,
      "step": 66105,
      "train_speed(iter/s)": 1.128519
    },
    {
      "acc": 0.76264887,
      "epoch": 1.6770674784373414,
      "grad_norm": 3.34375,
      "learning_rate": 6.960059139551706e-07,
      "loss": 0.99375019,
      "memory(GiB)": 112.26,
      "step": 66110,
      "train_speed(iter/s)": 1.128533
    },
    {
      "acc": 0.74571128,
      "epoch": 1.6771943176052764,
      "grad_norm": 4.84375,
      "learning_rate": 6.9547231644017e-07,
      "loss": 1.08524694,
      "memory(GiB)": 112.26,
      "step": 66115,
      "train_speed(iter/s)": 1.128535
    },
    {
      "acc": 0.73615017,
      "epoch": 1.6773211567732116,
      "grad_norm": 4.34375,
      "learning_rate": 6.949389082575148e-07,
      "loss": 1.07250729,
      "memory(GiB)": 112.26,
      "step": 66120,
      "train_speed(iter/s)": 1.128553
    },
    {
      "acc": 0.7453795,
      "epoch": 1.6774479959411466,
      "grad_norm": 4.46875,
      "learning_rate": 6.944056894306672e-07,
      "loss": 1.0249507,
      "memory(GiB)": 112.26,
      "step": 66125,
      "train_speed(iter/s)": 1.128566
    },
    {
      "acc": 0.73429403,
      "epoch": 1.6775748351090818,
      "grad_norm": 3.25,
      "learning_rate": 6.938726599830808e-07,
      "loss": 1.14676609,
      "memory(GiB)": 112.26,
      "step": 66130,
      "train_speed(iter/s)": 1.128583
    },
    {
      "acc": 0.72977424,
      "epoch": 1.6777016742770168,
      "grad_norm": 3.84375,
      "learning_rate": 6.933398199382002e-07,
      "loss": 1.07857552,
      "memory(GiB)": 112.26,
      "step": 66135,
      "train_speed(iter/s)": 1.128592
    },
    {
      "acc": 0.7427362,
      "epoch": 1.6778285134449518,
      "grad_norm": 5.15625,
      "learning_rate": 6.928071693194616e-07,
      "loss": 1.0910203,
      "memory(GiB)": 112.26,
      "step": 66140,
      "train_speed(iter/s)": 1.128598
    },
    {
      "acc": 0.74418831,
      "epoch": 1.6779553526128868,
      "grad_norm": 3.125,
      "learning_rate": 6.922747081502945e-07,
      "loss": 1.03997288,
      "memory(GiB)": 112.26,
      "step": 66145,
      "train_speed(iter/s)": 1.128609
    },
    {
      "acc": 0.76208978,
      "epoch": 1.678082191780822,
      "grad_norm": 3.84375,
      "learning_rate": 6.91742436454118e-07,
      "loss": 1.01353941,
      "memory(GiB)": 112.26,
      "step": 66150,
      "train_speed(iter/s)": 1.128625
    },
    {
      "acc": 0.74428658,
      "epoch": 1.678209030948757,
      "grad_norm": 3.515625,
      "learning_rate": 6.912103542543446e-07,
      "loss": 1.08630285,
      "memory(GiB)": 112.26,
      "step": 66155,
      "train_speed(iter/s)": 1.128628
    },
    {
      "acc": 0.74311819,
      "epoch": 1.6783358701166922,
      "grad_norm": 3.84375,
      "learning_rate": 6.906784615743772e-07,
      "loss": 1.06678658,
      "memory(GiB)": 112.26,
      "step": 66160,
      "train_speed(iter/s)": 1.128634
    },
    {
      "acc": 0.74951763,
      "epoch": 1.6784627092846272,
      "grad_norm": 3.453125,
      "learning_rate": 6.901467584376093e-07,
      "loss": 0.99375935,
      "memory(GiB)": 112.26,
      "step": 66165,
      "train_speed(iter/s)": 1.128636
    },
    {
      "acc": 0.73416944,
      "epoch": 1.6785895484525621,
      "grad_norm": 3.75,
      "learning_rate": 6.896152448674315e-07,
      "loss": 1.06514511,
      "memory(GiB)": 112.26,
      "step": 66170,
      "train_speed(iter/s)": 1.128646
    },
    {
      "acc": 0.73155251,
      "epoch": 1.6787163876204971,
      "grad_norm": 3.8125,
      "learning_rate": 6.890839208872185e-07,
      "loss": 1.06519794,
      "memory(GiB)": 112.26,
      "step": 66175,
      "train_speed(iter/s)": 1.128656
    },
    {
      "acc": 0.74026408,
      "epoch": 1.6788432267884321,
      "grad_norm": 4.3125,
      "learning_rate": 6.885527865203401e-07,
      "loss": 1.05130806,
      "memory(GiB)": 112.26,
      "step": 66180,
      "train_speed(iter/s)": 1.128673
    },
    {
      "acc": 0.74659715,
      "epoch": 1.6789700659563673,
      "grad_norm": 3.3125,
      "learning_rate": 6.880218417901608e-07,
      "loss": 1.11381817,
      "memory(GiB)": 112.26,
      "step": 66185,
      "train_speed(iter/s)": 1.12869
    },
    {
      "acc": 0.7385087,
      "epoch": 1.6790969051243025,
      "grad_norm": 3.5625,
      "learning_rate": 6.874910867200341e-07,
      "loss": 1.07070236,
      "memory(GiB)": 112.26,
      "step": 66190,
      "train_speed(iter/s)": 1.128701
    },
    {
      "acc": 0.75840225,
      "epoch": 1.6792237442922375,
      "grad_norm": 3.71875,
      "learning_rate": 6.869605213333014e-07,
      "loss": 0.99691935,
      "memory(GiB)": 112.26,
      "step": 66195,
      "train_speed(iter/s)": 1.128711
    },
    {
      "acc": 0.74428139,
      "epoch": 1.6793505834601725,
      "grad_norm": 3.171875,
      "learning_rate": 6.864301456533007e-07,
      "loss": 1.05522346,
      "memory(GiB)": 112.26,
      "step": 66200,
      "train_speed(iter/s)": 1.128727
    },
    {
      "acc": 0.73368006,
      "epoch": 1.6794774226281075,
      "grad_norm": 3.625,
      "learning_rate": 6.858999597033617e-07,
      "loss": 1.08794193,
      "memory(GiB)": 112.26,
      "step": 66205,
      "train_speed(iter/s)": 1.128745
    },
    {
      "acc": 0.7308229,
      "epoch": 1.6796042617960425,
      "grad_norm": 3.5,
      "learning_rate": 6.85369963506805e-07,
      "loss": 1.11763029,
      "memory(GiB)": 112.26,
      "step": 66210,
      "train_speed(iter/s)": 1.128758
    },
    {
      "acc": 0.71900373,
      "epoch": 1.6797311009639777,
      "grad_norm": 3.375,
      "learning_rate": 6.848401570869384e-07,
      "loss": 1.14600258,
      "memory(GiB)": 112.26,
      "step": 66215,
      "train_speed(iter/s)": 1.128765
    },
    {
      "acc": 0.75326762,
      "epoch": 1.6798579401319127,
      "grad_norm": 3.75,
      "learning_rate": 6.843105404670685e-07,
      "loss": 1.01437988,
      "memory(GiB)": 112.26,
      "step": 66220,
      "train_speed(iter/s)": 1.128777
    },
    {
      "acc": 0.72379031,
      "epoch": 1.679984779299848,
      "grad_norm": 4.1875,
      "learning_rate": 6.837811136704892e-07,
      "loss": 1.11516085,
      "memory(GiB)": 112.26,
      "step": 66225,
      "train_speed(iter/s)": 1.128787
    },
    {
      "acc": 0.73726869,
      "epoch": 1.680111618467783,
      "grad_norm": 3.265625,
      "learning_rate": 6.832518767204882e-07,
      "loss": 1.03223991,
      "memory(GiB)": 112.26,
      "step": 66230,
      "train_speed(iter/s)": 1.128793
    },
    {
      "acc": 0.72986755,
      "epoch": 1.6802384576357179,
      "grad_norm": 3.546875,
      "learning_rate": 6.827228296403405e-07,
      "loss": 1.11536398,
      "memory(GiB)": 112.26,
      "step": 66235,
      "train_speed(iter/s)": 1.128808
    },
    {
      "acc": 0.73987069,
      "epoch": 1.6803652968036529,
      "grad_norm": 4.09375,
      "learning_rate": 6.821939724533189e-07,
      "loss": 1.09634571,
      "memory(GiB)": 112.26,
      "step": 66240,
      "train_speed(iter/s)": 1.128819
    },
    {
      "acc": 0.75011749,
      "epoch": 1.6804921359715879,
      "grad_norm": 3.890625,
      "learning_rate": 6.816653051826838e-07,
      "loss": 1.03822527,
      "memory(GiB)": 112.26,
      "step": 66245,
      "train_speed(iter/s)": 1.128832
    },
    {
      "acc": 0.75143509,
      "epoch": 1.680618975139523,
      "grad_norm": 3.546875,
      "learning_rate": 6.811368278516889e-07,
      "loss": 1.04225483,
      "memory(GiB)": 112.26,
      "step": 66250,
      "train_speed(iter/s)": 1.128847
    },
    {
      "acc": 0.75606813,
      "epoch": 1.6807458143074583,
      "grad_norm": 5.34375,
      "learning_rate": 6.806085404835788e-07,
      "loss": 1.03108377,
      "memory(GiB)": 112.26,
      "step": 66255,
      "train_speed(iter/s)": 1.128864
    },
    {
      "acc": 0.73879642,
      "epoch": 1.6808726534753933,
      "grad_norm": 5.21875,
      "learning_rate": 6.800804431015895e-07,
      "loss": 1.09135418,
      "memory(GiB)": 112.26,
      "step": 66260,
      "train_speed(iter/s)": 1.128877
    },
    {
      "acc": 0.75161505,
      "epoch": 1.6809994926433283,
      "grad_norm": 4.25,
      "learning_rate": 6.795525357289496e-07,
      "loss": 1.0206974,
      "memory(GiB)": 112.26,
      "step": 66265,
      "train_speed(iter/s)": 1.128884
    },
    {
      "acc": 0.73216414,
      "epoch": 1.6811263318112633,
      "grad_norm": 3.625,
      "learning_rate": 6.790248183888781e-07,
      "loss": 1.08553925,
      "memory(GiB)": 112.26,
      "step": 66270,
      "train_speed(iter/s)": 1.128897
    },
    {
      "acc": 0.74508591,
      "epoch": 1.6812531709791982,
      "grad_norm": 3.40625,
      "learning_rate": 6.784972911045872e-07,
      "loss": 1.05444546,
      "memory(GiB)": 112.26,
      "step": 66275,
      "train_speed(iter/s)": 1.128907
    },
    {
      "acc": 0.74558907,
      "epoch": 1.6813800101471335,
      "grad_norm": 3.671875,
      "learning_rate": 6.779699538992796e-07,
      "loss": 1.03410597,
      "memory(GiB)": 112.26,
      "step": 66280,
      "train_speed(iter/s)": 1.128923
    },
    {
      "acc": 0.73926125,
      "epoch": 1.6815068493150684,
      "grad_norm": 4.1875,
      "learning_rate": 6.774428067961502e-07,
      "loss": 1.09383469,
      "memory(GiB)": 112.26,
      "step": 66285,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.72284117,
      "epoch": 1.6816336884830037,
      "grad_norm": 3.984375,
      "learning_rate": 6.769158498183842e-07,
      "loss": 1.14668922,
      "memory(GiB)": 112.26,
      "step": 66290,
      "train_speed(iter/s)": 1.128944
    },
    {
      "acc": 0.75258684,
      "epoch": 1.6817605276509386,
      "grad_norm": 3.484375,
      "learning_rate": 6.763890829891611e-07,
      "loss": 1.04796162,
      "memory(GiB)": 112.26,
      "step": 66295,
      "train_speed(iter/s)": 1.128951
    },
    {
      "acc": 0.73254194,
      "epoch": 1.6818873668188736,
      "grad_norm": 3.28125,
      "learning_rate": 6.758625063316493e-07,
      "loss": 1.07439518,
      "memory(GiB)": 112.26,
      "step": 66300,
      "train_speed(iter/s)": 1.128968
    },
    {
      "acc": 0.75421414,
      "epoch": 1.6820142059868086,
      "grad_norm": 3.8125,
      "learning_rate": 6.75336119869009e-07,
      "loss": 0.99071226,
      "memory(GiB)": 112.26,
      "step": 66305,
      "train_speed(iter/s)": 1.128981
    },
    {
      "acc": 0.72383289,
      "epoch": 1.6821410451547438,
      "grad_norm": 3.78125,
      "learning_rate": 6.748099236243971e-07,
      "loss": 1.07974205,
      "memory(GiB)": 112.26,
      "step": 66310,
      "train_speed(iter/s)": 1.128999
    },
    {
      "acc": 0.7331234,
      "epoch": 1.6822678843226788,
      "grad_norm": 3.875,
      "learning_rate": 6.742839176209537e-07,
      "loss": 1.08409748,
      "memory(GiB)": 112.26,
      "step": 66315,
      "train_speed(iter/s)": 1.129015
    },
    {
      "acc": 0.72813444,
      "epoch": 1.682394723490614,
      "grad_norm": 3.796875,
      "learning_rate": 6.737581018818167e-07,
      "loss": 1.07207508,
      "memory(GiB)": 112.26,
      "step": 66320,
      "train_speed(iter/s)": 1.129028
    },
    {
      "acc": 0.74440527,
      "epoch": 1.682521562658549,
      "grad_norm": 4.59375,
      "learning_rate": 6.732324764301129e-07,
      "loss": 1.0716423,
      "memory(GiB)": 112.26,
      "step": 66325,
      "train_speed(iter/s)": 1.129035
    },
    {
      "acc": 0.73922052,
      "epoch": 1.682648401826484,
      "grad_norm": 3.296875,
      "learning_rate": 6.727070412889647e-07,
      "loss": 1.06967411,
      "memory(GiB)": 112.26,
      "step": 66330,
      "train_speed(iter/s)": 1.129048
    },
    {
      "acc": 0.74535971,
      "epoch": 1.682775240994419,
      "grad_norm": 4.09375,
      "learning_rate": 6.721817964814792e-07,
      "loss": 1.00960007,
      "memory(GiB)": 112.26,
      "step": 66335,
      "train_speed(iter/s)": 1.129063
    },
    {
      "acc": 0.75040569,
      "epoch": 1.682902080162354,
      "grad_norm": 3.8125,
      "learning_rate": 6.716567420307596e-07,
      "loss": 1.02322521,
      "memory(GiB)": 112.26,
      "step": 66340,
      "train_speed(iter/s)": 1.129078
    },
    {
      "acc": 0.7466609,
      "epoch": 1.6830289193302892,
      "grad_norm": 3.34375,
      "learning_rate": 6.711318779599025e-07,
      "loss": 0.98476639,
      "memory(GiB)": 112.26,
      "step": 66345,
      "train_speed(iter/s)": 1.12909
    },
    {
      "acc": 0.76873498,
      "epoch": 1.6831557584982244,
      "grad_norm": 4.65625,
      "learning_rate": 6.706072042919931e-07,
      "loss": 0.94903936,
      "memory(GiB)": 112.26,
      "step": 66350,
      "train_speed(iter/s)": 1.129101
    },
    {
      "acc": 0.73075528,
      "epoch": 1.6832825976661594,
      "grad_norm": 3.65625,
      "learning_rate": 6.700827210501065e-07,
      "loss": 1.0868927,
      "memory(GiB)": 112.26,
      "step": 66355,
      "train_speed(iter/s)": 1.129114
    },
    {
      "acc": 0.73834105,
      "epoch": 1.6834094368340944,
      "grad_norm": 3.65625,
      "learning_rate": 6.695584282573142e-07,
      "loss": 1.07510204,
      "memory(GiB)": 112.26,
      "step": 66360,
      "train_speed(iter/s)": 1.129118
    },
    {
      "acc": 0.74419193,
      "epoch": 1.6835362760020294,
      "grad_norm": 3.484375,
      "learning_rate": 6.690343259366766e-07,
      "loss": 1.04813862,
      "memory(GiB)": 112.26,
      "step": 66365,
      "train_speed(iter/s)": 1.129131
    },
    {
      "acc": 0.7298912,
      "epoch": 1.6836631151699644,
      "grad_norm": 3.1875,
      "learning_rate": 6.685104141112464e-07,
      "loss": 1.12937651,
      "memory(GiB)": 112.26,
      "step": 66370,
      "train_speed(iter/s)": 1.129143
    },
    {
      "acc": 0.75303698,
      "epoch": 1.6837899543378996,
      "grad_norm": 3.828125,
      "learning_rate": 6.679866928040651e-07,
      "loss": 0.98837242,
      "memory(GiB)": 112.26,
      "step": 66375,
      "train_speed(iter/s)": 1.129153
    },
    {
      "acc": 0.72429099,
      "epoch": 1.6839167935058346,
      "grad_norm": 4.25,
      "learning_rate": 6.674631620381711e-07,
      "loss": 1.12445354,
      "memory(GiB)": 112.26,
      "step": 66380,
      "train_speed(iter/s)": 1.129159
    },
    {
      "acc": 0.74976864,
      "epoch": 1.6840436326737698,
      "grad_norm": 3.5625,
      "learning_rate": 6.669398218365902e-07,
      "loss": 1.01175079,
      "memory(GiB)": 112.26,
      "step": 66385,
      "train_speed(iter/s)": 1.129173
    },
    {
      "acc": 0.74209676,
      "epoch": 1.6841704718417048,
      "grad_norm": 3.84375,
      "learning_rate": 6.664166722223426e-07,
      "loss": 1.00257015,
      "memory(GiB)": 112.26,
      "step": 66390,
      "train_speed(iter/s)": 1.129188
    },
    {
      "acc": 0.73271241,
      "epoch": 1.6842973110096398,
      "grad_norm": 3.34375,
      "learning_rate": 6.658937132184368e-07,
      "loss": 1.10528116,
      "memory(GiB)": 112.26,
      "step": 66395,
      "train_speed(iter/s)": 1.1292
    },
    {
      "acc": 0.74809155,
      "epoch": 1.6844241501775747,
      "grad_norm": 3.578125,
      "learning_rate": 6.653709448478762e-07,
      "loss": 1.01001635,
      "memory(GiB)": 112.26,
      "step": 66400,
      "train_speed(iter/s)": 1.129207
    },
    {
      "acc": 0.74145656,
      "epoch": 1.6845509893455097,
      "grad_norm": 4.15625,
      "learning_rate": 6.648483671336548e-07,
      "loss": 1.06999493,
      "memory(GiB)": 112.26,
      "step": 66405,
      "train_speed(iter/s)": 1.129217
    },
    {
      "acc": 0.71942682,
      "epoch": 1.684677828513445,
      "grad_norm": 4.28125,
      "learning_rate": 6.643259800987567e-07,
      "loss": 1.11666241,
      "memory(GiB)": 112.26,
      "step": 66410,
      "train_speed(iter/s)": 1.129235
    },
    {
      "acc": 0.74351487,
      "epoch": 1.6848046676813802,
      "grad_norm": 4.25,
      "learning_rate": 6.638037837661593e-07,
      "loss": 1.02864676,
      "memory(GiB)": 112.26,
      "step": 66415,
      "train_speed(iter/s)": 1.129238
    },
    {
      "acc": 0.73434591,
      "epoch": 1.6849315068493151,
      "grad_norm": 2.96875,
      "learning_rate": 6.632817781588313e-07,
      "loss": 1.11629963,
      "memory(GiB)": 112.26,
      "step": 66420,
      "train_speed(iter/s)": 1.129254
    },
    {
      "acc": 0.72720337,
      "epoch": 1.6850583460172501,
      "grad_norm": 3.96875,
      "learning_rate": 6.627599632997328e-07,
      "loss": 1.13103523,
      "memory(GiB)": 112.26,
      "step": 66425,
      "train_speed(iter/s)": 1.129257
    },
    {
      "acc": 0.74854345,
      "epoch": 1.6851851851851851,
      "grad_norm": 3.859375,
      "learning_rate": 6.622383392118153e-07,
      "loss": 1.08434601,
      "memory(GiB)": 112.26,
      "step": 66430,
      "train_speed(iter/s)": 1.129267
    },
    {
      "acc": 0.72713852,
      "epoch": 1.68531202435312,
      "grad_norm": 3.25,
      "learning_rate": 6.617169059180229e-07,
      "loss": 1.07483149,
      "memory(GiB)": 112.26,
      "step": 66435,
      "train_speed(iter/s)": 1.129282
    },
    {
      "acc": 0.73508635,
      "epoch": 1.6854388635210553,
      "grad_norm": 3.453125,
      "learning_rate": 6.611956634412897e-07,
      "loss": 1.05027657,
      "memory(GiB)": 112.26,
      "step": 66440,
      "train_speed(iter/s)": 1.129296
    },
    {
      "acc": 0.73683157,
      "epoch": 1.6855657026889903,
      "grad_norm": 3.4375,
      "learning_rate": 6.606746118045415e-07,
      "loss": 1.0326128,
      "memory(GiB)": 112.26,
      "step": 66445,
      "train_speed(iter/s)": 1.12931
    },
    {
      "acc": 0.74823551,
      "epoch": 1.6856925418569255,
      "grad_norm": 4.71875,
      "learning_rate": 6.601537510306999e-07,
      "loss": 1.04072399,
      "memory(GiB)": 112.26,
      "step": 66450,
      "train_speed(iter/s)": 1.129319
    },
    {
      "acc": 0.72820616,
      "epoch": 1.6858193810248605,
      "grad_norm": 3.765625,
      "learning_rate": 6.59633081142671e-07,
      "loss": 1.1355505,
      "memory(GiB)": 112.26,
      "step": 66455,
      "train_speed(iter/s)": 1.129323
    },
    {
      "acc": 0.73782187,
      "epoch": 1.6859462201927955,
      "grad_norm": 4.4375,
      "learning_rate": 6.591126021633575e-07,
      "loss": 1.01382103,
      "memory(GiB)": 112.26,
      "step": 66460,
      "train_speed(iter/s)": 1.129336
    },
    {
      "acc": 0.74253287,
      "epoch": 1.6860730593607305,
      "grad_norm": 3.765625,
      "learning_rate": 6.585923141156513e-07,
      "loss": 1.04863024,
      "memory(GiB)": 112.26,
      "step": 66465,
      "train_speed(iter/s)": 1.12935
    },
    {
      "acc": 0.74788427,
      "epoch": 1.6861998985286657,
      "grad_norm": 3.703125,
      "learning_rate": 6.580722170224408e-07,
      "loss": 1.02559071,
      "memory(GiB)": 112.26,
      "step": 66470,
      "train_speed(iter/s)": 1.129362
    },
    {
      "acc": 0.73873835,
      "epoch": 1.6863267376966007,
      "grad_norm": 4.03125,
      "learning_rate": 6.575523109065979e-07,
      "loss": 1.06200504,
      "memory(GiB)": 112.26,
      "step": 66475,
      "train_speed(iter/s)": 1.129361
    },
    {
      "acc": 0.73581829,
      "epoch": 1.686453576864536,
      "grad_norm": 3.265625,
      "learning_rate": 6.570325957909912e-07,
      "loss": 1.1013175,
      "memory(GiB)": 112.26,
      "step": 66480,
      "train_speed(iter/s)": 1.129374
    },
    {
      "acc": 0.74407945,
      "epoch": 1.6865804160324709,
      "grad_norm": 3.0,
      "learning_rate": 6.565130716984819e-07,
      "loss": 1.05980167,
      "memory(GiB)": 112.26,
      "step": 66485,
      "train_speed(iter/s)": 1.129388
    },
    {
      "acc": 0.74184542,
      "epoch": 1.6867072552004059,
      "grad_norm": 3.203125,
      "learning_rate": 6.55993738651921e-07,
      "loss": 1.04430532,
      "memory(GiB)": 112.26,
      "step": 66490,
      "train_speed(iter/s)": 1.129399
    },
    {
      "acc": 0.73410325,
      "epoch": 1.6868340943683409,
      "grad_norm": 3.578125,
      "learning_rate": 6.554745966741488e-07,
      "loss": 1.14362469,
      "memory(GiB)": 112.26,
      "step": 66495,
      "train_speed(iter/s)": 1.129411
    },
    {
      "acc": 0.73213601,
      "epoch": 1.6869609335362759,
      "grad_norm": 4.0,
      "learning_rate": 6.549556457879996e-07,
      "loss": 1.06256065,
      "memory(GiB)": 112.26,
      "step": 66500,
      "train_speed(iter/s)": 1.129425
    },
    {
      "acc": 0.74213233,
      "epoch": 1.687087772704211,
      "grad_norm": 3.6875,
      "learning_rate": 6.54436886016302e-07,
      "loss": 1.04612694,
      "memory(GiB)": 112.26,
      "step": 66505,
      "train_speed(iter/s)": 1.12944
    },
    {
      "acc": 0.73283024,
      "epoch": 1.6872146118721463,
      "grad_norm": 4.1875,
      "learning_rate": 6.539183173818725e-07,
      "loss": 1.0508296,
      "memory(GiB)": 112.26,
      "step": 66510,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.74084873,
      "epoch": 1.6873414510400813,
      "grad_norm": 3.359375,
      "learning_rate": 6.53399939907517e-07,
      "loss": 1.03290768,
      "memory(GiB)": 112.26,
      "step": 66515,
      "train_speed(iter/s)": 1.129469
    },
    {
      "acc": 0.75145807,
      "epoch": 1.6874682902080163,
      "grad_norm": 3.984375,
      "learning_rate": 6.528817536160392e-07,
      "loss": 1.03853874,
      "memory(GiB)": 112.26,
      "step": 66520,
      "train_speed(iter/s)": 1.12948
    },
    {
      "acc": 0.74992604,
      "epoch": 1.6875951293759512,
      "grad_norm": 4.65625,
      "learning_rate": 6.523637585302311e-07,
      "loss": 1.14124794,
      "memory(GiB)": 112.26,
      "step": 66525,
      "train_speed(iter/s)": 1.129496
    },
    {
      "acc": 0.73139257,
      "epoch": 1.6877219685438862,
      "grad_norm": 3.046875,
      "learning_rate": 6.51845954672875e-07,
      "loss": 1.04185658,
      "memory(GiB)": 112.26,
      "step": 66530,
      "train_speed(iter/s)": 1.129511
    },
    {
      "acc": 0.73456478,
      "epoch": 1.6878488077118214,
      "grad_norm": 5.90625,
      "learning_rate": 6.513283420667471e-07,
      "loss": 1.12706432,
      "memory(GiB)": 112.26,
      "step": 66535,
      "train_speed(iter/s)": 1.129529
    },
    {
      "acc": 0.73424778,
      "epoch": 1.6879756468797564,
      "grad_norm": 4.46875,
      "learning_rate": 6.508109207346142e-07,
      "loss": 1.08295956,
      "memory(GiB)": 112.26,
      "step": 66540,
      "train_speed(iter/s)": 1.129537
    },
    {
      "acc": 0.73167505,
      "epoch": 1.6881024860476916,
      "grad_norm": 3.65625,
      "learning_rate": 6.502936906992346e-07,
      "loss": 1.08476171,
      "memory(GiB)": 112.26,
      "step": 66545,
      "train_speed(iter/s)": 1.12954
    },
    {
      "acc": 0.74624372,
      "epoch": 1.6882293252156266,
      "grad_norm": 3.109375,
      "learning_rate": 6.497766519833587e-07,
      "loss": 0.99170399,
      "memory(GiB)": 112.26,
      "step": 66550,
      "train_speed(iter/s)": 1.129546
    },
    {
      "acc": 0.7438293,
      "epoch": 1.6883561643835616,
      "grad_norm": 3.125,
      "learning_rate": 6.492598046097282e-07,
      "loss": 1.05649605,
      "memory(GiB)": 112.26,
      "step": 66555,
      "train_speed(iter/s)": 1.12954
    },
    {
      "acc": 0.73326941,
      "epoch": 1.6884830035514966,
      "grad_norm": 3.453125,
      "learning_rate": 6.487431486010759e-07,
      "loss": 1.09350777,
      "memory(GiB)": 112.26,
      "step": 66560,
      "train_speed(iter/s)": 1.12955
    },
    {
      "acc": 0.73525095,
      "epoch": 1.6886098427194316,
      "grad_norm": 4.5,
      "learning_rate": 6.482266839801265e-07,
      "loss": 1.09422312,
      "memory(GiB)": 112.26,
      "step": 66565,
      "train_speed(iter/s)": 1.129558
    },
    {
      "acc": 0.74545641,
      "epoch": 1.6887366818873668,
      "grad_norm": 3.09375,
      "learning_rate": 6.477104107695975e-07,
      "loss": 1.06145496,
      "memory(GiB)": 112.26,
      "step": 66570,
      "train_speed(iter/s)": 1.129574
    },
    {
      "acc": 0.74294291,
      "epoch": 1.688863521055302,
      "grad_norm": 4.15625,
      "learning_rate": 6.471943289921955e-07,
      "loss": 1.03472805,
      "memory(GiB)": 112.26,
      "step": 66575,
      "train_speed(iter/s)": 1.129578
    },
    {
      "acc": 0.74589672,
      "epoch": 1.688990360223237,
      "grad_norm": 3.609375,
      "learning_rate": 6.466784386706215e-07,
      "loss": 1.00695648,
      "memory(GiB)": 112.26,
      "step": 66580,
      "train_speed(iter/s)": 1.129588
    },
    {
      "acc": 0.73793411,
      "epoch": 1.689117199391172,
      "grad_norm": 3.015625,
      "learning_rate": 6.461627398275655e-07,
      "loss": 1.05705433,
      "memory(GiB)": 112.26,
      "step": 66585,
      "train_speed(iter/s)": 1.129601
    },
    {
      "acc": 0.74064503,
      "epoch": 1.689244038559107,
      "grad_norm": 3.703125,
      "learning_rate": 6.456472324857111e-07,
      "loss": 1.12879457,
      "memory(GiB)": 112.26,
      "step": 66590,
      "train_speed(iter/s)": 1.129609
    },
    {
      "acc": 0.71840286,
      "epoch": 1.689370877727042,
      "grad_norm": 5.1875,
      "learning_rate": 6.451319166677317e-07,
      "loss": 1.11285229,
      "memory(GiB)": 112.26,
      "step": 66595,
      "train_speed(iter/s)": 1.129618
    },
    {
      "acc": 0.74528651,
      "epoch": 1.6894977168949772,
      "grad_norm": 3.8125,
      "learning_rate": 6.446167923962943e-07,
      "loss": 1.01173868,
      "memory(GiB)": 112.26,
      "step": 66600,
      "train_speed(iter/s)": 1.129633
    },
    {
      "acc": 0.73913822,
      "epoch": 1.6896245560629122,
      "grad_norm": 3.6875,
      "learning_rate": 6.44101859694054e-07,
      "loss": 1.06815901,
      "memory(GiB)": 112.26,
      "step": 66605,
      "train_speed(iter/s)": 1.129643
    },
    {
      "acc": 0.74470868,
      "epoch": 1.6897513952308474,
      "grad_norm": 3.328125,
      "learning_rate": 6.43587118583664e-07,
      "loss": 1.01149693,
      "memory(GiB)": 112.26,
      "step": 66610,
      "train_speed(iter/s)": 1.129657
    },
    {
      "acc": 0.75520144,
      "epoch": 1.6898782343987824,
      "grad_norm": 3.625,
      "learning_rate": 6.430725690877615e-07,
      "loss": 0.98791962,
      "memory(GiB)": 112.26,
      "step": 66615,
      "train_speed(iter/s)": 1.129667
    },
    {
      "acc": 0.7396153,
      "epoch": 1.6900050735667174,
      "grad_norm": 3.34375,
      "learning_rate": 6.425582112289785e-07,
      "loss": 1.03807859,
      "memory(GiB)": 112.26,
      "step": 66620,
      "train_speed(iter/s)": 1.129676
    },
    {
      "acc": 0.74996758,
      "epoch": 1.6901319127346524,
      "grad_norm": 3.125,
      "learning_rate": 6.420440450299414e-07,
      "loss": 0.96292896,
      "memory(GiB)": 112.26,
      "step": 66625,
      "train_speed(iter/s)": 1.129683
    },
    {
      "acc": 0.7606308,
      "epoch": 1.6902587519025876,
      "grad_norm": 3.9375,
      "learning_rate": 6.415300705132648e-07,
      "loss": 0.96608829,
      "memory(GiB)": 112.26,
      "step": 66630,
      "train_speed(iter/s)": 1.129704
    },
    {
      "acc": 0.74598989,
      "epoch": 1.6903855910705226,
      "grad_norm": 3.953125,
      "learning_rate": 6.410162877015535e-07,
      "loss": 1.04794521,
      "memory(GiB)": 112.26,
      "step": 66635,
      "train_speed(iter/s)": 1.129717
    },
    {
      "acc": 0.74252129,
      "epoch": 1.6905124302384578,
      "grad_norm": 3.515625,
      "learning_rate": 6.405026966174066e-07,
      "loss": 1.03929691,
      "memory(GiB)": 112.26,
      "step": 66640,
      "train_speed(iter/s)": 1.129734
    },
    {
      "acc": 0.75015712,
      "epoch": 1.6906392694063928,
      "grad_norm": 3.546875,
      "learning_rate": 6.39989297283416e-07,
      "loss": 0.97898149,
      "memory(GiB)": 112.26,
      "step": 66645,
      "train_speed(iter/s)": 1.129744
    },
    {
      "acc": 0.73768172,
      "epoch": 1.6907661085743277,
      "grad_norm": 3.046875,
      "learning_rate": 6.394760897221636e-07,
      "loss": 1.07772846,
      "memory(GiB)": 112.26,
      "step": 66650,
      "train_speed(iter/s)": 1.12975
    },
    {
      "acc": 0.71686368,
      "epoch": 1.6908929477422627,
      "grad_norm": 3.75,
      "learning_rate": 6.389630739562186e-07,
      "loss": 1.1341835,
      "memory(GiB)": 112.26,
      "step": 66655,
      "train_speed(iter/s)": 1.129762
    },
    {
      "acc": 0.74335327,
      "epoch": 1.6910197869101977,
      "grad_norm": 3.46875,
      "learning_rate": 6.38450250008149e-07,
      "loss": 1.03155308,
      "memory(GiB)": 112.26,
      "step": 66660,
      "train_speed(iter/s)": 1.129777
    },
    {
      "acc": 0.74373593,
      "epoch": 1.691146626078133,
      "grad_norm": 3.1875,
      "learning_rate": 6.379376179005103e-07,
      "loss": 1.02288542,
      "memory(GiB)": 112.26,
      "step": 66665,
      "train_speed(iter/s)": 1.12979
    },
    {
      "acc": 0.74734097,
      "epoch": 1.6912734652460681,
      "grad_norm": 4.0625,
      "learning_rate": 6.374251776558521e-07,
      "loss": 1.03357716,
      "memory(GiB)": 112.26,
      "step": 66670,
      "train_speed(iter/s)": 1.129804
    },
    {
      "acc": 0.74859986,
      "epoch": 1.6914003044140031,
      "grad_norm": 3.203125,
      "learning_rate": 6.369129292967097e-07,
      "loss": 0.98957348,
      "memory(GiB)": 112.26,
      "step": 66675,
      "train_speed(iter/s)": 1.129808
    },
    {
      "acc": 0.7453867,
      "epoch": 1.6915271435819381,
      "grad_norm": 3.46875,
      "learning_rate": 6.364008728456173e-07,
      "loss": 0.99741135,
      "memory(GiB)": 112.26,
      "step": 66680,
      "train_speed(iter/s)": 1.129824
    },
    {
      "acc": 0.74056969,
      "epoch": 1.691653982749873,
      "grad_norm": 3.890625,
      "learning_rate": 6.358890083250963e-07,
      "loss": 1.05763683,
      "memory(GiB)": 112.26,
      "step": 66685,
      "train_speed(iter/s)": 1.129839
    },
    {
      "acc": 0.74726744,
      "epoch": 1.691780821917808,
      "grad_norm": 3.75,
      "learning_rate": 6.353773357576615e-07,
      "loss": 1.02412415,
      "memory(GiB)": 112.26,
      "step": 66690,
      "train_speed(iter/s)": 1.129837
    },
    {
      "acc": 0.74229517,
      "epoch": 1.6919076610857433,
      "grad_norm": 3.640625,
      "learning_rate": 6.348658551658182e-07,
      "loss": 1.02824306,
      "memory(GiB)": 112.26,
      "step": 66695,
      "train_speed(iter/s)": 1.129851
    },
    {
      "acc": 0.73912735,
      "epoch": 1.6920345002536783,
      "grad_norm": 4.625,
      "learning_rate": 6.343545665720636e-07,
      "loss": 1.10163031,
      "memory(GiB)": 112.26,
      "step": 66700,
      "train_speed(iter/s)": 1.129864
    },
    {
      "acc": 0.72529392,
      "epoch": 1.6921613394216135,
      "grad_norm": 4.28125,
      "learning_rate": 6.33843469998886e-07,
      "loss": 1.14087029,
      "memory(GiB)": 112.26,
      "step": 66705,
      "train_speed(iter/s)": 1.129872
    },
    {
      "acc": 0.73727131,
      "epoch": 1.6922881785895485,
      "grad_norm": 3.40625,
      "learning_rate": 6.33332565468766e-07,
      "loss": 1.04799204,
      "memory(GiB)": 112.26,
      "step": 66710,
      "train_speed(iter/s)": 1.129883
    },
    {
      "acc": 0.74544673,
      "epoch": 1.6924150177574835,
      "grad_norm": 3.84375,
      "learning_rate": 6.328218530041757e-07,
      "loss": 1.0685379,
      "memory(GiB)": 112.26,
      "step": 66715,
      "train_speed(iter/s)": 1.129897
    },
    {
      "acc": 0.72882423,
      "epoch": 1.6925418569254185,
      "grad_norm": 3.390625,
      "learning_rate": 6.323113326275781e-07,
      "loss": 1.08447132,
      "memory(GiB)": 112.26,
      "step": 66720,
      "train_speed(iter/s)": 1.12991
    },
    {
      "acc": 0.73395367,
      "epoch": 1.6926686960933535,
      "grad_norm": 3.828125,
      "learning_rate": 6.318010043614292e-07,
      "loss": 1.10675364,
      "memory(GiB)": 112.26,
      "step": 66725,
      "train_speed(iter/s)": 1.129928
    },
    {
      "acc": 0.74381528,
      "epoch": 1.6927955352612887,
      "grad_norm": 3.125,
      "learning_rate": 6.312908682281743e-07,
      "loss": 1.03822861,
      "memory(GiB)": 112.26,
      "step": 66730,
      "train_speed(iter/s)": 1.129937
    },
    {
      "acc": 0.75570993,
      "epoch": 1.6929223744292239,
      "grad_norm": 3.609375,
      "learning_rate": 6.307809242502517e-07,
      "loss": 1.01789989,
      "memory(GiB)": 112.26,
      "step": 66735,
      "train_speed(iter/s)": 1.12995
    },
    {
      "acc": 0.73893514,
      "epoch": 1.6930492135971589,
      "grad_norm": 4.0,
      "learning_rate": 6.302711724500909e-07,
      "loss": 1.06549854,
      "memory(GiB)": 112.26,
      "step": 66740,
      "train_speed(iter/s)": 1.129955
    },
    {
      "acc": 0.74455733,
      "epoch": 1.6931760527650939,
      "grad_norm": 3.84375,
      "learning_rate": 6.297616128501133e-07,
      "loss": 1.05606861,
      "memory(GiB)": 112.26,
      "step": 66745,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.74051085,
      "epoch": 1.6933028919330289,
      "grad_norm": 5.5,
      "learning_rate": 6.292522454727329e-07,
      "loss": 1.04167395,
      "memory(GiB)": 112.26,
      "step": 66750,
      "train_speed(iter/s)": 1.129969
    },
    {
      "acc": 0.73318291,
      "epoch": 1.6934297311009638,
      "grad_norm": 4.46875,
      "learning_rate": 6.287430703403524e-07,
      "loss": 1.06014786,
      "memory(GiB)": 112.26,
      "step": 66755,
      "train_speed(iter/s)": 1.129971
    },
    {
      "acc": 0.74803419,
      "epoch": 1.693556570268899,
      "grad_norm": 4.25,
      "learning_rate": 6.282340874753673e-07,
      "loss": 1.03682213,
      "memory(GiB)": 112.26,
      "step": 66760,
      "train_speed(iter/s)": 1.129981
    },
    {
      "acc": 0.74270544,
      "epoch": 1.693683409436834,
      "grad_norm": 3.203125,
      "learning_rate": 6.277252969001646e-07,
      "loss": 1.04190817,
      "memory(GiB)": 112.26,
      "step": 66765,
      "train_speed(iter/s)": 1.129995
    },
    {
      "acc": 0.76394005,
      "epoch": 1.6938102486047693,
      "grad_norm": 4.09375,
      "learning_rate": 6.272166986371264e-07,
      "loss": 1.02572117,
      "memory(GiB)": 112.26,
      "step": 66770,
      "train_speed(iter/s)": 1.130002
    },
    {
      "acc": 0.75102601,
      "epoch": 1.6939370877727042,
      "grad_norm": 3.859375,
      "learning_rate": 6.267082927086199e-07,
      "loss": 1.01870174,
      "memory(GiB)": 112.26,
      "step": 66775,
      "train_speed(iter/s)": 1.13001
    },
    {
      "acc": 0.73355722,
      "epoch": 1.6940639269406392,
      "grad_norm": 3.1875,
      "learning_rate": 6.262000791370071e-07,
      "loss": 1.06258326,
      "memory(GiB)": 112.26,
      "step": 66780,
      "train_speed(iter/s)": 1.130015
    },
    {
      "acc": 0.73334684,
      "epoch": 1.6941907661085742,
      "grad_norm": 3.0625,
      "learning_rate": 6.256920579446429e-07,
      "loss": 1.08763647,
      "memory(GiB)": 112.26,
      "step": 66785,
      "train_speed(iter/s)": 1.130025
    },
    {
      "acc": 0.72958794,
      "epoch": 1.6943176052765094,
      "grad_norm": 3.90625,
      "learning_rate": 6.251842291538734e-07,
      "loss": 1.10316353,
      "memory(GiB)": 112.26,
      "step": 66790,
      "train_speed(iter/s)": 1.130042
    },
    {
      "acc": 0.74971638,
      "epoch": 1.6944444444444444,
      "grad_norm": 3.75,
      "learning_rate": 6.246765927870313e-07,
      "loss": 1.07151546,
      "memory(GiB)": 112.26,
      "step": 66795,
      "train_speed(iter/s)": 1.130053
    },
    {
      "acc": 0.73946719,
      "epoch": 1.6945712836123796,
      "grad_norm": 3.875,
      "learning_rate": 6.241691488664486e-07,
      "loss": 1.08193665,
      "memory(GiB)": 112.26,
      "step": 66800,
      "train_speed(iter/s)": 1.13006
    },
    {
      "acc": 0.73593297,
      "epoch": 1.6946981227803146,
      "grad_norm": 3.546875,
      "learning_rate": 6.236618974144432e-07,
      "loss": 1.09339857,
      "memory(GiB)": 112.26,
      "step": 66805,
      "train_speed(iter/s)": 1.130077
    },
    {
      "acc": 0.74440422,
      "epoch": 1.6948249619482496,
      "grad_norm": 3.921875,
      "learning_rate": 6.23154838453327e-07,
      "loss": 1.04043341,
      "memory(GiB)": 112.26,
      "step": 66810,
      "train_speed(iter/s)": 1.130079
    },
    {
      "acc": 0.74092889,
      "epoch": 1.6949518011161846,
      "grad_norm": 3.96875,
      "learning_rate": 6.226479720054007e-07,
      "loss": 1.03319721,
      "memory(GiB)": 112.26,
      "step": 66815,
      "train_speed(iter/s)": 1.130092
    },
    {
      "acc": 0.73910685,
      "epoch": 1.6950786402841196,
      "grad_norm": 4.96875,
      "learning_rate": 6.221412980929608e-07,
      "loss": 1.10892859,
      "memory(GiB)": 112.26,
      "step": 66820,
      "train_speed(iter/s)": 1.130102
    },
    {
      "acc": 0.74427843,
      "epoch": 1.6952054794520548,
      "grad_norm": 4.4375,
      "learning_rate": 6.21634816738293e-07,
      "loss": 1.01473255,
      "memory(GiB)": 112.26,
      "step": 66825,
      "train_speed(iter/s)": 1.13012
    },
    {
      "acc": 0.74199328,
      "epoch": 1.69533231861999,
      "grad_norm": 3.34375,
      "learning_rate": 6.211285279636731e-07,
      "loss": 1.00688753,
      "memory(GiB)": 112.26,
      "step": 66830,
      "train_speed(iter/s)": 1.13014
    },
    {
      "acc": 0.73714523,
      "epoch": 1.695459157787925,
      "grad_norm": 4.21875,
      "learning_rate": 6.206224317913711e-07,
      "loss": 1.0789114,
      "memory(GiB)": 112.26,
      "step": 66835,
      "train_speed(iter/s)": 1.130147
    },
    {
      "acc": 0.74304037,
      "epoch": 1.69558599695586,
      "grad_norm": 3.5,
      "learning_rate": 6.201165282436473e-07,
      "loss": 1.03951654,
      "memory(GiB)": 112.26,
      "step": 66840,
      "train_speed(iter/s)": 1.130163
    },
    {
      "acc": 0.75710526,
      "epoch": 1.695712836123795,
      "grad_norm": 3.703125,
      "learning_rate": 6.196108173427529e-07,
      "loss": 1.00898809,
      "memory(GiB)": 112.26,
      "step": 66845,
      "train_speed(iter/s)": 1.130175
    },
    {
      "acc": 0.7292872,
      "epoch": 1.69583967529173,
      "grad_norm": 3.578125,
      "learning_rate": 6.19105299110932e-07,
      "loss": 1.15424004,
      "memory(GiB)": 112.26,
      "step": 66850,
      "train_speed(iter/s)": 1.130185
    },
    {
      "acc": 0.73745861,
      "epoch": 1.6959665144596652,
      "grad_norm": 3.109375,
      "learning_rate": 6.185999735704195e-07,
      "loss": 1.04369965,
      "memory(GiB)": 112.26,
      "step": 66855,
      "train_speed(iter/s)": 1.130191
    },
    {
      "acc": 0.75450077,
      "epoch": 1.6960933536276002,
      "grad_norm": 3.84375,
      "learning_rate": 6.180948407434417e-07,
      "loss": 0.98222685,
      "memory(GiB)": 112.26,
      "step": 66860,
      "train_speed(iter/s)": 1.130212
    },
    {
      "acc": 0.74305382,
      "epoch": 1.6962201927955354,
      "grad_norm": 5.15625,
      "learning_rate": 6.175899006522162e-07,
      "loss": 1.02912788,
      "memory(GiB)": 112.26,
      "step": 66865,
      "train_speed(iter/s)": 1.130222
    },
    {
      "acc": 0.73091993,
      "epoch": 1.6963470319634704,
      "grad_norm": 3.5625,
      "learning_rate": 6.170851533189537e-07,
      "loss": 1.06285372,
      "memory(GiB)": 112.26,
      "step": 66870,
      "train_speed(iter/s)": 1.130233
    },
    {
      "acc": 0.75519114,
      "epoch": 1.6964738711314054,
      "grad_norm": 3.640625,
      "learning_rate": 6.165805987658535e-07,
      "loss": 0.98213634,
      "memory(GiB)": 112.26,
      "step": 66875,
      "train_speed(iter/s)": 1.130245
    },
    {
      "acc": 0.74457531,
      "epoch": 1.6966007102993403,
      "grad_norm": 3.171875,
      "learning_rate": 6.160762370151097e-07,
      "loss": 1.05762386,
      "memory(GiB)": 112.26,
      "step": 66880,
      "train_speed(iter/s)": 1.130254
    },
    {
      "acc": 0.74652181,
      "epoch": 1.6967275494672753,
      "grad_norm": 4.09375,
      "learning_rate": 6.155720680889049e-07,
      "loss": 1.10686188,
      "memory(GiB)": 112.26,
      "step": 66885,
      "train_speed(iter/s)": 1.130268
    },
    {
      "acc": 0.74880953,
      "epoch": 1.6968543886352105,
      "grad_norm": 3.953125,
      "learning_rate": 6.150680920094171e-07,
      "loss": 1.11363106,
      "memory(GiB)": 112.26,
      "step": 66890,
      "train_speed(iter/s)": 1.130284
    },
    {
      "acc": 0.73567381,
      "epoch": 1.6969812278031458,
      "grad_norm": 3.421875,
      "learning_rate": 6.145643087988113e-07,
      "loss": 1.07534657,
      "memory(GiB)": 112.26,
      "step": 66895,
      "train_speed(iter/s)": 1.130295
    },
    {
      "acc": 0.70833511,
      "epoch": 1.6971080669710807,
      "grad_norm": 4.5,
      "learning_rate": 6.140607184792469e-07,
      "loss": 1.15547323,
      "memory(GiB)": 112.26,
      "step": 66900,
      "train_speed(iter/s)": 1.130311
    },
    {
      "acc": 0.74025974,
      "epoch": 1.6972349061390157,
      "grad_norm": 4.875,
      "learning_rate": 6.135573210728724e-07,
      "loss": 1.05221777,
      "memory(GiB)": 112.26,
      "step": 66905,
      "train_speed(iter/s)": 1.130319
    },
    {
      "acc": 0.75182428,
      "epoch": 1.6973617453069507,
      "grad_norm": 3.453125,
      "learning_rate": 6.130541166018333e-07,
      "loss": 0.98559523,
      "memory(GiB)": 112.26,
      "step": 66910,
      "train_speed(iter/s)": 1.130326
    },
    {
      "acc": 0.73676558,
      "epoch": 1.6974885844748857,
      "grad_norm": 2.96875,
      "learning_rate": 6.125511050882598e-07,
      "loss": 1.04991159,
      "memory(GiB)": 112.26,
      "step": 66915,
      "train_speed(iter/s)": 1.130341
    },
    {
      "acc": 0.74313402,
      "epoch": 1.697615423642821,
      "grad_norm": 4.375,
      "learning_rate": 6.12048286554276e-07,
      "loss": 1.02003078,
      "memory(GiB)": 112.26,
      "step": 66920,
      "train_speed(iter/s)": 1.130347
    },
    {
      "acc": 0.7488503,
      "epoch": 1.697742262810756,
      "grad_norm": 3.953125,
      "learning_rate": 6.11545661022e-07,
      "loss": 1.03558979,
      "memory(GiB)": 112.26,
      "step": 66925,
      "train_speed(iter/s)": 1.130361
    },
    {
      "acc": 0.72717333,
      "epoch": 1.6978691019786911,
      "grad_norm": 3.234375,
      "learning_rate": 6.110432285135404e-07,
      "loss": 1.05704565,
      "memory(GiB)": 112.26,
      "step": 66930,
      "train_speed(iter/s)": 1.13037
    },
    {
      "acc": 0.74760656,
      "epoch": 1.697995941146626,
      "grad_norm": 3.40625,
      "learning_rate": 6.105409890509933e-07,
      "loss": 1.03662758,
      "memory(GiB)": 112.26,
      "step": 66935,
      "train_speed(iter/s)": 1.130371
    },
    {
      "acc": 0.73524332,
      "epoch": 1.698122780314561,
      "grad_norm": 3.296875,
      "learning_rate": 6.100389426564501e-07,
      "loss": 1.08067474,
      "memory(GiB)": 112.26,
      "step": 66940,
      "train_speed(iter/s)": 1.130383
    },
    {
      "acc": 0.73939838,
      "epoch": 1.698249619482496,
      "grad_norm": 3.4375,
      "learning_rate": 6.095370893519953e-07,
      "loss": 1.09671383,
      "memory(GiB)": 112.26,
      "step": 66945,
      "train_speed(iter/s)": 1.130403
    },
    {
      "acc": 0.7496953,
      "epoch": 1.6983764586504313,
      "grad_norm": 3.28125,
      "learning_rate": 6.090354291597022e-07,
      "loss": 1.03879681,
      "memory(GiB)": 112.26,
      "step": 66950,
      "train_speed(iter/s)": 1.1304
    },
    {
      "acc": 0.74510236,
      "epoch": 1.6985032978183663,
      "grad_norm": 4.15625,
      "learning_rate": 6.085339621016334e-07,
      "loss": 1.0374424,
      "memory(GiB)": 112.26,
      "step": 66955,
      "train_speed(iter/s)": 1.130411
    },
    {
      "acc": 0.7489646,
      "epoch": 1.6986301369863015,
      "grad_norm": 3.59375,
      "learning_rate": 6.080326881998482e-07,
      "loss": 0.98098488,
      "memory(GiB)": 112.26,
      "step": 66960,
      "train_speed(iter/s)": 1.130423
    },
    {
      "acc": 0.7490097,
      "epoch": 1.6987569761542365,
      "grad_norm": 3.671875,
      "learning_rate": 6.075316074763943e-07,
      "loss": 1.0253644,
      "memory(GiB)": 112.26,
      "step": 66965,
      "train_speed(iter/s)": 1.130429
    },
    {
      "acc": 0.73400016,
      "epoch": 1.6988838153221715,
      "grad_norm": 3.125,
      "learning_rate": 6.070307199533109e-07,
      "loss": 1.04253502,
      "memory(GiB)": 112.26,
      "step": 66970,
      "train_speed(iter/s)": 1.130441
    },
    {
      "acc": 0.74953184,
      "epoch": 1.6990106544901065,
      "grad_norm": 3.71875,
      "learning_rate": 6.065300256526297e-07,
      "loss": 1.02736874,
      "memory(GiB)": 112.26,
      "step": 66975,
      "train_speed(iter/s)": 1.130455
    },
    {
      "acc": 0.73770862,
      "epoch": 1.6991374936580415,
      "grad_norm": 4.75,
      "learning_rate": 6.060295245963737e-07,
      "loss": 1.07240095,
      "memory(GiB)": 112.26,
      "step": 66980,
      "train_speed(iter/s)": 1.13047
    },
    {
      "acc": 0.73603344,
      "epoch": 1.6992643328259767,
      "grad_norm": 3.59375,
      "learning_rate": 6.055292168065563e-07,
      "loss": 1.02256107,
      "memory(GiB)": 112.26,
      "step": 66985,
      "train_speed(iter/s)": 1.13048
    },
    {
      "acc": 0.74058371,
      "epoch": 1.6993911719939119,
      "grad_norm": 3.890625,
      "learning_rate": 6.050291023051846e-07,
      "loss": 1.07419472,
      "memory(GiB)": 112.26,
      "step": 66990,
      "train_speed(iter/s)": 1.130487
    },
    {
      "acc": 0.73171349,
      "epoch": 1.6995180111618469,
      "grad_norm": 4.71875,
      "learning_rate": 6.045291811142545e-07,
      "loss": 1.07801189,
      "memory(GiB)": 112.26,
      "step": 66995,
      "train_speed(iter/s)": 1.130501
    },
    {
      "acc": 0.74637117,
      "epoch": 1.6996448503297819,
      "grad_norm": 3.9375,
      "learning_rate": 6.040294532557555e-07,
      "loss": 1.03498144,
      "memory(GiB)": 112.26,
      "step": 67000,
      "train_speed(iter/s)": 1.130508
    },
    {
      "epoch": 1.6996448503297819,
      "eval_acc": 0.7258171019740758,
      "eval_loss": 1.0440970659255981,
      "eval_runtime": 70.9317,
      "eval_samples_per_second": 89.805,
      "eval_steps_per_second": 22.458,
      "step": 67000
    },
    {
      "acc": 0.74471803,
      "epoch": 1.6997716894977168,
      "grad_norm": 3.234375,
      "learning_rate": 6.03529918751668e-07,
      "loss": 1.04402227,
      "memory(GiB)": 112.26,
      "step": 67005,
      "train_speed(iter/s)": 1.128306
    },
    {
      "acc": 0.74764299,
      "epoch": 1.6998985286656518,
      "grad_norm": 3.796875,
      "learning_rate": 6.030305776239637e-07,
      "loss": 1.04244528,
      "memory(GiB)": 112.26,
      "step": 67010,
      "train_speed(iter/s)": 1.12832
    },
    {
      "acc": 0.73987842,
      "epoch": 1.700025367833587,
      "grad_norm": 3.59375,
      "learning_rate": 6.02531429894605e-07,
      "loss": 1.08588457,
      "memory(GiB)": 112.26,
      "step": 67015,
      "train_speed(iter/s)": 1.128334
    },
    {
      "acc": 0.73663807,
      "epoch": 1.700152207001522,
      "grad_norm": 3.6875,
      "learning_rate": 6.020324755855478e-07,
      "loss": 1.12127399,
      "memory(GiB)": 112.26,
      "step": 67020,
      "train_speed(iter/s)": 1.128341
    },
    {
      "acc": 0.7516293,
      "epoch": 1.7002790461694572,
      "grad_norm": 4.53125,
      "learning_rate": 6.015337147187378e-07,
      "loss": 0.979107,
      "memory(GiB)": 112.26,
      "step": 67025,
      "train_speed(iter/s)": 1.128352
    },
    {
      "acc": 0.73246765,
      "epoch": 1.7004058853373922,
      "grad_norm": 3.625,
      "learning_rate": 6.010351473161124e-07,
      "loss": 1.07128162,
      "memory(GiB)": 112.26,
      "step": 67030,
      "train_speed(iter/s)": 1.128364
    },
    {
      "acc": 0.74628596,
      "epoch": 1.7005327245053272,
      "grad_norm": 3.09375,
      "learning_rate": 6.005367733996014e-07,
      "loss": 1.03087997,
      "memory(GiB)": 112.26,
      "step": 67035,
      "train_speed(iter/s)": 1.128377
    },
    {
      "acc": 0.75186615,
      "epoch": 1.7006595636732622,
      "grad_norm": 3.609375,
      "learning_rate": 6.000385929911251e-07,
      "loss": 1.01836567,
      "memory(GiB)": 112.26,
      "step": 67040,
      "train_speed(iter/s)": 1.128386
    },
    {
      "acc": 0.75238113,
      "epoch": 1.7007864028411972,
      "grad_norm": 3.3125,
      "learning_rate": 5.995406061125952e-07,
      "loss": 1.0176487,
      "memory(GiB)": 112.26,
      "step": 67045,
      "train_speed(iter/s)": 1.128393
    },
    {
      "acc": 0.73537102,
      "epoch": 1.7009132420091324,
      "grad_norm": 4.375,
      "learning_rate": 5.990428127859182e-07,
      "loss": 1.07611923,
      "memory(GiB)": 112.26,
      "step": 67050,
      "train_speed(iter/s)": 1.12841
    },
    {
      "acc": 0.73714018,
      "epoch": 1.7010400811770676,
      "grad_norm": 3.640625,
      "learning_rate": 5.985452130329855e-07,
      "loss": 1.08940334,
      "memory(GiB)": 112.26,
      "step": 67055,
      "train_speed(iter/s)": 1.128421
    },
    {
      "acc": 0.73548169,
      "epoch": 1.7011669203450026,
      "grad_norm": 4.28125,
      "learning_rate": 5.980478068756851e-07,
      "loss": 1.12707729,
      "memory(GiB)": 112.26,
      "step": 67060,
      "train_speed(iter/s)": 1.128426
    },
    {
      "acc": 0.73336849,
      "epoch": 1.7012937595129376,
      "grad_norm": 4.34375,
      "learning_rate": 5.975505943358961e-07,
      "loss": 1.11138477,
      "memory(GiB)": 112.26,
      "step": 67065,
      "train_speed(iter/s)": 1.128439
    },
    {
      "acc": 0.73637977,
      "epoch": 1.7014205986808726,
      "grad_norm": 4.34375,
      "learning_rate": 5.970535754354889e-07,
      "loss": 1.04491844,
      "memory(GiB)": 112.26,
      "step": 67070,
      "train_speed(iter/s)": 1.128452
    },
    {
      "acc": 0.72874813,
      "epoch": 1.7015474378488076,
      "grad_norm": 3.15625,
      "learning_rate": 5.965567501963215e-07,
      "loss": 1.06377277,
      "memory(GiB)": 112.26,
      "step": 67075,
      "train_speed(iter/s)": 1.128452
    },
    {
      "acc": 0.74776959,
      "epoch": 1.7016742770167428,
      "grad_norm": 4.8125,
      "learning_rate": 5.960601186402476e-07,
      "loss": 1.00688314,
      "memory(GiB)": 112.26,
      "step": 67080,
      "train_speed(iter/s)": 1.128458
    },
    {
      "acc": 0.73908691,
      "epoch": 1.7018011161846778,
      "grad_norm": 3.484375,
      "learning_rate": 5.95563680789113e-07,
      "loss": 1.05813665,
      "memory(GiB)": 112.26,
      "step": 67085,
      "train_speed(iter/s)": 1.128475
    },
    {
      "acc": 0.73683338,
      "epoch": 1.701927955352613,
      "grad_norm": 3.90625,
      "learning_rate": 5.95067436664753e-07,
      "loss": 1.08031025,
      "memory(GiB)": 112.26,
      "step": 67090,
      "train_speed(iter/s)": 1.128484
    },
    {
      "acc": 0.76147237,
      "epoch": 1.702054794520548,
      "grad_norm": 4.15625,
      "learning_rate": 5.945713862889918e-07,
      "loss": 0.9903923,
      "memory(GiB)": 112.26,
      "step": 67095,
      "train_speed(iter/s)": 1.128501
    },
    {
      "acc": 0.74489737,
      "epoch": 1.702181633688483,
      "grad_norm": 3.578125,
      "learning_rate": 5.940755296836504e-07,
      "loss": 1.08961201,
      "memory(GiB)": 112.26,
      "step": 67100,
      "train_speed(iter/s)": 1.128516
    },
    {
      "acc": 0.75007472,
      "epoch": 1.702308472856418,
      "grad_norm": 3.640625,
      "learning_rate": 5.935798668705389e-07,
      "loss": 1.06452522,
      "memory(GiB)": 112.26,
      "step": 67105,
      "train_speed(iter/s)": 1.128531
    },
    {
      "acc": 0.74559388,
      "epoch": 1.7024353120243532,
      "grad_norm": 3.515625,
      "learning_rate": 5.930843978714584e-07,
      "loss": 1.04415398,
      "memory(GiB)": 112.26,
      "step": 67110,
      "train_speed(iter/s)": 1.128539
    },
    {
      "acc": 0.7534246,
      "epoch": 1.7025621511922882,
      "grad_norm": 3.421875,
      "learning_rate": 5.925891227081998e-07,
      "loss": 1.03586845,
      "memory(GiB)": 112.26,
      "step": 67115,
      "train_speed(iter/s)": 1.12855
    },
    {
      "acc": 0.7565784,
      "epoch": 1.7026889903602234,
      "grad_norm": 4.96875,
      "learning_rate": 5.920940414025506e-07,
      "loss": 1.03032827,
      "memory(GiB)": 112.26,
      "step": 67120,
      "train_speed(iter/s)": 1.128565
    },
    {
      "acc": 0.75867844,
      "epoch": 1.7028158295281584,
      "grad_norm": 3.921875,
      "learning_rate": 5.91599153976285e-07,
      "loss": 0.95833092,
      "memory(GiB)": 112.26,
      "step": 67125,
      "train_speed(iter/s)": 1.128566
    },
    {
      "acc": 0.7379303,
      "epoch": 1.7029426686960933,
      "grad_norm": 3.234375,
      "learning_rate": 5.911044604511712e-07,
      "loss": 1.09078093,
      "memory(GiB)": 112.26,
      "step": 67130,
      "train_speed(iter/s)": 1.128585
    },
    {
      "acc": 0.7448442,
      "epoch": 1.7030695078640283,
      "grad_norm": 3.453125,
      "learning_rate": 5.906099608489669e-07,
      "loss": 1.08648052,
      "memory(GiB)": 112.26,
      "step": 67135,
      "train_speed(iter/s)": 1.128591
    },
    {
      "acc": 0.73312879,
      "epoch": 1.7031963470319633,
      "grad_norm": 3.484375,
      "learning_rate": 5.901156551914233e-07,
      "loss": 1.07065411,
      "memory(GiB)": 112.26,
      "step": 67140,
      "train_speed(iter/s)": 1.128599
    },
    {
      "acc": 0.72785711,
      "epoch": 1.7033231861998985,
      "grad_norm": 4.25,
      "learning_rate": 5.896215435002816e-07,
      "loss": 1.08076286,
      "memory(GiB)": 112.26,
      "step": 67145,
      "train_speed(iter/s)": 1.128612
    },
    {
      "acc": 0.74586945,
      "epoch": 1.7034500253678337,
      "grad_norm": 3.5,
      "learning_rate": 5.891276257972762e-07,
      "loss": 1.05785217,
      "memory(GiB)": 112.26,
      "step": 67150,
      "train_speed(iter/s)": 1.128613
    },
    {
      "acc": 0.74726963,
      "epoch": 1.7035768645357687,
      "grad_norm": 3.265625,
      "learning_rate": 5.886339021041304e-07,
      "loss": 1.01790161,
      "memory(GiB)": 112.26,
      "step": 67155,
      "train_speed(iter/s)": 1.128618
    },
    {
      "acc": 0.740131,
      "epoch": 1.7037037037037037,
      "grad_norm": 3.625,
      "learning_rate": 5.881403724425605e-07,
      "loss": 1.08961077,
      "memory(GiB)": 112.26,
      "step": 67160,
      "train_speed(iter/s)": 1.128632
    },
    {
      "acc": 0.73571391,
      "epoch": 1.7038305428716387,
      "grad_norm": 3.78125,
      "learning_rate": 5.876470368342752e-07,
      "loss": 1.04052162,
      "memory(GiB)": 112.26,
      "step": 67165,
      "train_speed(iter/s)": 1.128645
    },
    {
      "acc": 0.74551868,
      "epoch": 1.7039573820395737,
      "grad_norm": 3.15625,
      "learning_rate": 5.871538953009725e-07,
      "loss": 0.98120537,
      "memory(GiB)": 112.26,
      "step": 67170,
      "train_speed(iter/s)": 1.128662
    },
    {
      "acc": 0.75425501,
      "epoch": 1.704084221207509,
      "grad_norm": 3.515625,
      "learning_rate": 5.866609478643437e-07,
      "loss": 0.99747801,
      "memory(GiB)": 112.26,
      "step": 67175,
      "train_speed(iter/s)": 1.128658
    },
    {
      "acc": 0.7260982,
      "epoch": 1.704211060375444,
      "grad_norm": 3.921875,
      "learning_rate": 5.861681945460706e-07,
      "loss": 1.0786747,
      "memory(GiB)": 112.26,
      "step": 67180,
      "train_speed(iter/s)": 1.128668
    },
    {
      "acc": 0.72610188,
      "epoch": 1.704337899543379,
      "grad_norm": 4.03125,
      "learning_rate": 5.856756353678255e-07,
      "loss": 1.08746223,
      "memory(GiB)": 112.26,
      "step": 67185,
      "train_speed(iter/s)": 1.128678
    },
    {
      "acc": 0.74547596,
      "epoch": 1.704464738711314,
      "grad_norm": 3.625,
      "learning_rate": 5.851832703512766e-07,
      "loss": 1.01889486,
      "memory(GiB)": 112.26,
      "step": 67190,
      "train_speed(iter/s)": 1.128689
    },
    {
      "acc": 0.74289989,
      "epoch": 1.704591577879249,
      "grad_norm": 3.28125,
      "learning_rate": 5.846910995180771e-07,
      "loss": 1.03851967,
      "memory(GiB)": 112.26,
      "step": 67195,
      "train_speed(iter/s)": 1.128697
    },
    {
      "acc": 0.73405671,
      "epoch": 1.704718417047184,
      "grad_norm": 3.09375,
      "learning_rate": 5.841991228898758e-07,
      "loss": 1.05834446,
      "memory(GiB)": 112.26,
      "step": 67200,
      "train_speed(iter/s)": 1.128705
    },
    {
      "acc": 0.76466627,
      "epoch": 1.704845256215119,
      "grad_norm": 4.0625,
      "learning_rate": 5.837073404883115e-07,
      "loss": 0.99302692,
      "memory(GiB)": 112.26,
      "step": 67205,
      "train_speed(iter/s)": 1.128715
    },
    {
      "acc": 0.75536213,
      "epoch": 1.7049720953830543,
      "grad_norm": 3.96875,
      "learning_rate": 5.832157523350179e-07,
      "loss": 1.04483547,
      "memory(GiB)": 112.26,
      "step": 67210,
      "train_speed(iter/s)": 1.12873
    },
    {
      "acc": 0.73200512,
      "epoch": 1.7050989345509895,
      "grad_norm": 3.875,
      "learning_rate": 5.827243584516135e-07,
      "loss": 1.08068523,
      "memory(GiB)": 112.26,
      "step": 67215,
      "train_speed(iter/s)": 1.128746
    },
    {
      "acc": 0.74158535,
      "epoch": 1.7052257737189245,
      "grad_norm": 3.453125,
      "learning_rate": 5.822331588597129e-07,
      "loss": 1.08516827,
      "memory(GiB)": 112.26,
      "step": 67220,
      "train_speed(iter/s)": 1.128766
    },
    {
      "acc": 0.7512763,
      "epoch": 1.7053526128868595,
      "grad_norm": 4.09375,
      "learning_rate": 5.817421535809226e-07,
      "loss": 1.03703165,
      "memory(GiB)": 112.26,
      "step": 67225,
      "train_speed(iter/s)": 1.128772
    },
    {
      "acc": 0.74163837,
      "epoch": 1.7054794520547945,
      "grad_norm": 3.78125,
      "learning_rate": 5.812513426368399e-07,
      "loss": 1.0514142,
      "memory(GiB)": 112.26,
      "step": 67230,
      "train_speed(iter/s)": 1.128782
    },
    {
      "acc": 0.73757296,
      "epoch": 1.7056062912227294,
      "grad_norm": 3.546875,
      "learning_rate": 5.807607260490489e-07,
      "loss": 1.08079205,
      "memory(GiB)": 112.26,
      "step": 67235,
      "train_speed(iter/s)": 1.128792
    },
    {
      "acc": 0.74722567,
      "epoch": 1.7057331303906647,
      "grad_norm": 3.453125,
      "learning_rate": 5.802703038391333e-07,
      "loss": 1.00659313,
      "memory(GiB)": 112.26,
      "step": 67240,
      "train_speed(iter/s)": 1.128801
    },
    {
      "acc": 0.73071985,
      "epoch": 1.7058599695585996,
      "grad_norm": 3.59375,
      "learning_rate": 5.797800760286621e-07,
      "loss": 1.06042519,
      "memory(GiB)": 112.26,
      "step": 67245,
      "train_speed(iter/s)": 1.128811
    },
    {
      "acc": 0.7340847,
      "epoch": 1.7059868087265349,
      "grad_norm": 4.1875,
      "learning_rate": 5.79290042639199e-07,
      "loss": 1.04167309,
      "memory(GiB)": 112.26,
      "step": 67250,
      "train_speed(iter/s)": 1.128821
    },
    {
      "acc": 0.75531578,
      "epoch": 1.7061136478944698,
      "grad_norm": 3.546875,
      "learning_rate": 5.788002036922946e-07,
      "loss": 1.02834816,
      "memory(GiB)": 112.26,
      "step": 67255,
      "train_speed(iter/s)": 1.128836
    },
    {
      "acc": 0.73929935,
      "epoch": 1.7062404870624048,
      "grad_norm": 4.25,
      "learning_rate": 5.783105592094978e-07,
      "loss": 1.05090151,
      "memory(GiB)": 112.26,
      "step": 67260,
      "train_speed(iter/s)": 1.12885
    },
    {
      "acc": 0.74653006,
      "epoch": 1.7063673262303398,
      "grad_norm": 3.578125,
      "learning_rate": 5.778211092123437e-07,
      "loss": 1.06823997,
      "memory(GiB)": 112.26,
      "step": 67265,
      "train_speed(iter/s)": 1.128861
    },
    {
      "acc": 0.74964628,
      "epoch": 1.706494165398275,
      "grad_norm": 4.09375,
      "learning_rate": 5.77331853722361e-07,
      "loss": 1.05685949,
      "memory(GiB)": 112.26,
      "step": 67270,
      "train_speed(iter/s)": 1.128874
    },
    {
      "acc": 0.74450946,
      "epoch": 1.70662100456621,
      "grad_norm": 3.375,
      "learning_rate": 5.768427927610698e-07,
      "loss": 1.11598701,
      "memory(GiB)": 112.26,
      "step": 67275,
      "train_speed(iter/s)": 1.128883
    },
    {
      "acc": 0.74949064,
      "epoch": 1.7067478437341452,
      "grad_norm": 4.15625,
      "learning_rate": 5.763539263499796e-07,
      "loss": 0.9924264,
      "memory(GiB)": 112.26,
      "step": 67280,
      "train_speed(iter/s)": 1.128899
    },
    {
      "acc": 0.74555345,
      "epoch": 1.7068746829020802,
      "grad_norm": 3.5,
      "learning_rate": 5.758652545105941e-07,
      "loss": 1.02528915,
      "memory(GiB)": 112.26,
      "step": 67285,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.73074636,
      "epoch": 1.7070015220700152,
      "grad_norm": 3.859375,
      "learning_rate": 5.753767772644075e-07,
      "loss": 1.0607173,
      "memory(GiB)": 112.26,
      "step": 67290,
      "train_speed(iter/s)": 1.12891
    },
    {
      "acc": 0.75157766,
      "epoch": 1.7071283612379502,
      "grad_norm": 4.03125,
      "learning_rate": 5.748884946329048e-07,
      "loss": 0.98323631,
      "memory(GiB)": 112.26,
      "step": 67295,
      "train_speed(iter/s)": 1.128912
    },
    {
      "acc": 0.75420752,
      "epoch": 1.7072552004058852,
      "grad_norm": 3.96875,
      "learning_rate": 5.744004066375625e-07,
      "loss": 1.05355558,
      "memory(GiB)": 112.26,
      "step": 67300,
      "train_speed(iter/s)": 1.128909
    },
    {
      "acc": 0.75975542,
      "epoch": 1.7073820395738204,
      "grad_norm": 3.421875,
      "learning_rate": 5.739125132998491e-07,
      "loss": 1.02637386,
      "memory(GiB)": 112.26,
      "step": 67305,
      "train_speed(iter/s)": 1.12892
    },
    {
      "acc": 0.73305035,
      "epoch": 1.7075088787417556,
      "grad_norm": 3.6875,
      "learning_rate": 5.734248146412242e-07,
      "loss": 1.08004017,
      "memory(GiB)": 112.26,
      "step": 67310,
      "train_speed(iter/s)": 1.128932
    },
    {
      "acc": 0.74618797,
      "epoch": 1.7076357179096906,
      "grad_norm": 4.375,
      "learning_rate": 5.729373106831399e-07,
      "loss": 1.09123716,
      "memory(GiB)": 112.26,
      "step": 67315,
      "train_speed(iter/s)": 1.128935
    },
    {
      "acc": 0.74179459,
      "epoch": 1.7077625570776256,
      "grad_norm": 6.59375,
      "learning_rate": 5.724500014470374e-07,
      "loss": 1.10902548,
      "memory(GiB)": 112.26,
      "step": 67320,
      "train_speed(iter/s)": 1.128947
    },
    {
      "acc": 0.74135818,
      "epoch": 1.7078893962455606,
      "grad_norm": 3.578125,
      "learning_rate": 5.719628869543509e-07,
      "loss": 1.03188343,
      "memory(GiB)": 112.26,
      "step": 67325,
      "train_speed(iter/s)": 1.12896
    },
    {
      "acc": 0.74083652,
      "epoch": 1.7080162354134956,
      "grad_norm": 3.96875,
      "learning_rate": 5.71475967226508e-07,
      "loss": 1.03815975,
      "memory(GiB)": 112.26,
      "step": 67330,
      "train_speed(iter/s)": 1.128969
    },
    {
      "acc": 0.75305157,
      "epoch": 1.7081430745814308,
      "grad_norm": 4.375,
      "learning_rate": 5.709892422849233e-07,
      "loss": 1.01616058,
      "memory(GiB)": 112.26,
      "step": 67335,
      "train_speed(iter/s)": 1.128981
    },
    {
      "acc": 0.72553992,
      "epoch": 1.7082699137493658,
      "grad_norm": 4.46875,
      "learning_rate": 5.705027121510059e-07,
      "loss": 1.11073399,
      "memory(GiB)": 112.26,
      "step": 67340,
      "train_speed(iter/s)": 1.12899
    },
    {
      "acc": 0.74412723,
      "epoch": 1.708396752917301,
      "grad_norm": 4.0625,
      "learning_rate": 5.700163768461542e-07,
      "loss": 1.01291752,
      "memory(GiB)": 112.26,
      "step": 67345,
      "train_speed(iter/s)": 1.129007
    },
    {
      "acc": 0.71865897,
      "epoch": 1.708523592085236,
      "grad_norm": 3.671875,
      "learning_rate": 5.695302363917626e-07,
      "loss": 1.12606392,
      "memory(GiB)": 112.26,
      "step": 67350,
      "train_speed(iter/s)": 1.129018
    },
    {
      "acc": 0.75457387,
      "epoch": 1.708650431253171,
      "grad_norm": 5.8125,
      "learning_rate": 5.690442908092115e-07,
      "loss": 1.03038101,
      "memory(GiB)": 112.26,
      "step": 67355,
      "train_speed(iter/s)": 1.129032
    },
    {
      "acc": 0.74029245,
      "epoch": 1.708777270421106,
      "grad_norm": 4.625,
      "learning_rate": 5.685585401198735e-07,
      "loss": 1.08021641,
      "memory(GiB)": 112.26,
      "step": 67360,
      "train_speed(iter/s)": 1.12904
    },
    {
      "acc": 0.73819356,
      "epoch": 1.708904109589041,
      "grad_norm": 4.46875,
      "learning_rate": 5.680729843451172e-07,
      "loss": 1.05449934,
      "memory(GiB)": 112.26,
      "step": 67365,
      "train_speed(iter/s)": 1.129042
    },
    {
      "acc": 0.72741842,
      "epoch": 1.7090309487569761,
      "grad_norm": 3.09375,
      "learning_rate": 5.675876235062994e-07,
      "loss": 1.13034649,
      "memory(GiB)": 112.26,
      "step": 67370,
      "train_speed(iter/s)": 1.129056
    },
    {
      "acc": 0.73308516,
      "epoch": 1.7091577879249114,
      "grad_norm": 4.09375,
      "learning_rate": 5.671024576247657e-07,
      "loss": 1.04202862,
      "memory(GiB)": 112.26,
      "step": 67375,
      "train_speed(iter/s)": 1.129069
    },
    {
      "acc": 0.74774594,
      "epoch": 1.7092846270928463,
      "grad_norm": 2.796875,
      "learning_rate": 5.666174867218572e-07,
      "loss": 1.01404915,
      "memory(GiB)": 112.26,
      "step": 67380,
      "train_speed(iter/s)": 1.129081
    },
    {
      "acc": 0.75729218,
      "epoch": 1.7094114662607813,
      "grad_norm": 3.609375,
      "learning_rate": 5.661327108189058e-07,
      "loss": 0.98923359,
      "memory(GiB)": 112.26,
      "step": 67385,
      "train_speed(iter/s)": 1.129085
    },
    {
      "acc": 0.75304885,
      "epoch": 1.7095383054287163,
      "grad_norm": 3.53125,
      "learning_rate": 5.65648129937234e-07,
      "loss": 1.00253897,
      "memory(GiB)": 112.26,
      "step": 67390,
      "train_speed(iter/s)": 1.1291
    },
    {
      "acc": 0.7369668,
      "epoch": 1.7096651445966513,
      "grad_norm": 4.34375,
      "learning_rate": 5.651637440981545e-07,
      "loss": 1.06627483,
      "memory(GiB)": 112.26,
      "step": 67395,
      "train_speed(iter/s)": 1.129102
    },
    {
      "acc": 0.7453619,
      "epoch": 1.7097919837645865,
      "grad_norm": 4.0,
      "learning_rate": 5.646795533229738e-07,
      "loss": 1.08697224,
      "memory(GiB)": 112.26,
      "step": 67400,
      "train_speed(iter/s)": 1.129117
    },
    {
      "acc": 0.74003963,
      "epoch": 1.7099188229325215,
      "grad_norm": 4.125,
      "learning_rate": 5.641955576329888e-07,
      "loss": 1.05479832,
      "memory(GiB)": 112.26,
      "step": 67405,
      "train_speed(iter/s)": 1.129134
    },
    {
      "acc": 0.75810089,
      "epoch": 1.7100456621004567,
      "grad_norm": 3.375,
      "learning_rate": 5.637117570494877e-07,
      "loss": 0.99270649,
      "memory(GiB)": 112.26,
      "step": 67410,
      "train_speed(iter/s)": 1.129139
    },
    {
      "acc": 0.7265254,
      "epoch": 1.7101725012683917,
      "grad_norm": 3.265625,
      "learning_rate": 5.632281515937504e-07,
      "loss": 1.0914854,
      "memory(GiB)": 112.26,
      "step": 67415,
      "train_speed(iter/s)": 1.129151
    },
    {
      "acc": 0.74313507,
      "epoch": 1.7102993404363267,
      "grad_norm": 3.34375,
      "learning_rate": 5.627447412870474e-07,
      "loss": 1.06510487,
      "memory(GiB)": 112.26,
      "step": 67420,
      "train_speed(iter/s)": 1.12916
    },
    {
      "acc": 0.73978987,
      "epoch": 1.7104261796042617,
      "grad_norm": 3.734375,
      "learning_rate": 5.62261526150642e-07,
      "loss": 1.11448364,
      "memory(GiB)": 112.26,
      "step": 67425,
      "train_speed(iter/s)": 1.129165
    },
    {
      "acc": 0.74557629,
      "epoch": 1.710553018772197,
      "grad_norm": 4.15625,
      "learning_rate": 5.617785062057873e-07,
      "loss": 1.05687275,
      "memory(GiB)": 112.26,
      "step": 67430,
      "train_speed(iter/s)": 1.129176
    },
    {
      "acc": 0.74127102,
      "epoch": 1.7106798579401319,
      "grad_norm": 3.3125,
      "learning_rate": 5.612956814737291e-07,
      "loss": 1.03072414,
      "memory(GiB)": 112.26,
      "step": 67435,
      "train_speed(iter/s)": 1.129188
    },
    {
      "acc": 0.75534887,
      "epoch": 1.710806697108067,
      "grad_norm": 4.25,
      "learning_rate": 5.608130519757044e-07,
      "loss": 0.97541418,
      "memory(GiB)": 112.26,
      "step": 67440,
      "train_speed(iter/s)": 1.129204
    },
    {
      "acc": 0.75444522,
      "epoch": 1.710933536276002,
      "grad_norm": 4.09375,
      "learning_rate": 5.603306177329415e-07,
      "loss": 1.00366402,
      "memory(GiB)": 112.26,
      "step": 67445,
      "train_speed(iter/s)": 1.129224
    },
    {
      "acc": 0.74341989,
      "epoch": 1.711060375443937,
      "grad_norm": 3.28125,
      "learning_rate": 5.598483787666592e-07,
      "loss": 1.01883087,
      "memory(GiB)": 112.26,
      "step": 67450,
      "train_speed(iter/s)": 1.129238
    },
    {
      "acc": 0.74110923,
      "epoch": 1.711187214611872,
      "grad_norm": 4.375,
      "learning_rate": 5.593663350980693e-07,
      "loss": 1.07660971,
      "memory(GiB)": 112.26,
      "step": 67455,
      "train_speed(iter/s)": 1.129249
    },
    {
      "acc": 0.75357928,
      "epoch": 1.711314053779807,
      "grad_norm": 4.0,
      "learning_rate": 5.588844867483739e-07,
      "loss": 1.03612823,
      "memory(GiB)": 112.26,
      "step": 67460,
      "train_speed(iter/s)": 1.12926
    },
    {
      "acc": 0.75634484,
      "epoch": 1.7114408929477423,
      "grad_norm": 3.46875,
      "learning_rate": 5.58402833738767e-07,
      "loss": 0.95472393,
      "memory(GiB)": 112.26,
      "step": 67465,
      "train_speed(iter/s)": 1.129277
    },
    {
      "acc": 0.72622552,
      "epoch": 1.7115677321156775,
      "grad_norm": 3.03125,
      "learning_rate": 5.579213760904339e-07,
      "loss": 1.10652771,
      "memory(GiB)": 112.26,
      "step": 67470,
      "train_speed(iter/s)": 1.12929
    },
    {
      "acc": 0.73992691,
      "epoch": 1.7116945712836125,
      "grad_norm": 3.765625,
      "learning_rate": 5.574401138245511e-07,
      "loss": 1.05880356,
      "memory(GiB)": 112.26,
      "step": 67475,
      "train_speed(iter/s)": 1.129306
    },
    {
      "acc": 0.73829861,
      "epoch": 1.7118214104515475,
      "grad_norm": 3.40625,
      "learning_rate": 5.569590469622865e-07,
      "loss": 1.01510715,
      "memory(GiB)": 112.26,
      "step": 67480,
      "train_speed(iter/s)": 1.129319
    },
    {
      "acc": 0.7590436,
      "epoch": 1.7119482496194824,
      "grad_norm": 3.390625,
      "learning_rate": 5.564781755247989e-07,
      "loss": 1.01173534,
      "memory(GiB)": 112.26,
      "step": 67485,
      "train_speed(iter/s)": 1.129318
    },
    {
      "acc": 0.74481549,
      "epoch": 1.7120750887874174,
      "grad_norm": 4.65625,
      "learning_rate": 5.559974995332424e-07,
      "loss": 1.04544992,
      "memory(GiB)": 112.26,
      "step": 67490,
      "train_speed(iter/s)": 1.129326
    },
    {
      "acc": 0.73443861,
      "epoch": 1.7122019279553526,
      "grad_norm": 3.046875,
      "learning_rate": 5.555170190087556e-07,
      "loss": 1.03658791,
      "memory(GiB)": 112.26,
      "step": 67495,
      "train_speed(iter/s)": 1.129341
    },
    {
      "acc": 0.73604269,
      "epoch": 1.7123287671232876,
      "grad_norm": 3.984375,
      "learning_rate": 5.550367339724721e-07,
      "loss": 1.0709589,
      "memory(GiB)": 112.26,
      "step": 67500,
      "train_speed(iter/s)": 1.12935
    },
    {
      "acc": 0.7407485,
      "epoch": 1.7124556062912228,
      "grad_norm": 3.96875,
      "learning_rate": 5.545566444455198e-07,
      "loss": 1.04634352,
      "memory(GiB)": 112.26,
      "step": 67505,
      "train_speed(iter/s)": 1.129368
    },
    {
      "acc": 0.73749504,
      "epoch": 1.7125824454591578,
      "grad_norm": 3.984375,
      "learning_rate": 5.540767504490147e-07,
      "loss": 1.11815844,
      "memory(GiB)": 112.26,
      "step": 67510,
      "train_speed(iter/s)": 1.129378
    },
    {
      "acc": 0.7392457,
      "epoch": 1.7127092846270928,
      "grad_norm": 3.390625,
      "learning_rate": 5.535970520040629e-07,
      "loss": 1.00132685,
      "memory(GiB)": 112.26,
      "step": 67515,
      "train_speed(iter/s)": 1.129382
    },
    {
      "acc": 0.75184741,
      "epoch": 1.7128361237950278,
      "grad_norm": 2.984375,
      "learning_rate": 5.53117549131763e-07,
      "loss": 1.01345482,
      "memory(GiB)": 112.26,
      "step": 67520,
      "train_speed(iter/s)": 1.129391
    },
    {
      "acc": 0.75088587,
      "epoch": 1.7129629629629628,
      "grad_norm": 4.125,
      "learning_rate": 5.526382418532089e-07,
      "loss": 1.02000437,
      "memory(GiB)": 112.26,
      "step": 67525,
      "train_speed(iter/s)": 1.129403
    },
    {
      "acc": 0.74738736,
      "epoch": 1.713089802130898,
      "grad_norm": 4.6875,
      "learning_rate": 5.521591301894813e-07,
      "loss": 1.03185301,
      "memory(GiB)": 112.26,
      "step": 67530,
      "train_speed(iter/s)": 1.129417
    },
    {
      "acc": 0.74728212,
      "epoch": 1.7132166412988332,
      "grad_norm": 3.46875,
      "learning_rate": 5.516802141616517e-07,
      "loss": 1.07738647,
      "memory(GiB)": 112.26,
      "step": 67535,
      "train_speed(iter/s)": 1.129435
    },
    {
      "acc": 0.74010439,
      "epoch": 1.7133434804667682,
      "grad_norm": 3.25,
      "learning_rate": 5.512014937907872e-07,
      "loss": 1.06220188,
      "memory(GiB)": 112.26,
      "step": 67540,
      "train_speed(iter/s)": 1.129443
    },
    {
      "acc": 0.73535099,
      "epoch": 1.7134703196347032,
      "grad_norm": 3.609375,
      "learning_rate": 5.507229690979438e-07,
      "loss": 1.01284485,
      "memory(GiB)": 112.26,
      "step": 67545,
      "train_speed(iter/s)": 1.129451
    },
    {
      "acc": 0.73410692,
      "epoch": 1.7135971588026382,
      "grad_norm": 3.859375,
      "learning_rate": 5.5024464010417e-07,
      "loss": 1.07110567,
      "memory(GiB)": 112.26,
      "step": 67550,
      "train_speed(iter/s)": 1.129465
    },
    {
      "acc": 0.74843431,
      "epoch": 1.7137239979705732,
      "grad_norm": 4.0625,
      "learning_rate": 5.497665068305014e-07,
      "loss": 1.01726208,
      "memory(GiB)": 112.26,
      "step": 67555,
      "train_speed(iter/s)": 1.129472
    },
    {
      "acc": 0.73398943,
      "epoch": 1.7138508371385084,
      "grad_norm": 4.34375,
      "learning_rate": 5.492885692979716e-07,
      "loss": 1.08309097,
      "memory(GiB)": 112.26,
      "step": 67560,
      "train_speed(iter/s)": 1.129479
    },
    {
      "acc": 0.73979731,
      "epoch": 1.7139776763064434,
      "grad_norm": 3.9375,
      "learning_rate": 5.488108275276016e-07,
      "loss": 1.04645729,
      "memory(GiB)": 112.26,
      "step": 67565,
      "train_speed(iter/s)": 1.129484
    },
    {
      "acc": 0.74564877,
      "epoch": 1.7141045154743786,
      "grad_norm": 3.984375,
      "learning_rate": 5.483332815404046e-07,
      "loss": 1.02289095,
      "memory(GiB)": 112.26,
      "step": 67570,
      "train_speed(iter/s)": 1.129499
    },
    {
      "acc": 0.74214792,
      "epoch": 1.7142313546423136,
      "grad_norm": 3.609375,
      "learning_rate": 5.478559313573855e-07,
      "loss": 1.05393372,
      "memory(GiB)": 112.26,
      "step": 67575,
      "train_speed(iter/s)": 1.129508
    },
    {
      "acc": 0.74358864,
      "epoch": 1.7143581938102486,
      "grad_norm": 4.09375,
      "learning_rate": 5.473787769995392e-07,
      "loss": 1.04480724,
      "memory(GiB)": 112.26,
      "step": 67580,
      "train_speed(iter/s)": 1.129524
    },
    {
      "acc": 0.72397828,
      "epoch": 1.7144850329781836,
      "grad_norm": 4.15625,
      "learning_rate": 5.469018184878544e-07,
      "loss": 1.08387108,
      "memory(GiB)": 112.26,
      "step": 67585,
      "train_speed(iter/s)": 1.129534
    },
    {
      "acc": 0.73849487,
      "epoch": 1.7146118721461188,
      "grad_norm": 3.296875,
      "learning_rate": 5.464250558433088e-07,
      "loss": 1.05062923,
      "memory(GiB)": 112.26,
      "step": 67590,
      "train_speed(iter/s)": 1.129547
    },
    {
      "acc": 0.73051443,
      "epoch": 1.7147387113140538,
      "grad_norm": 3.328125,
      "learning_rate": 5.459484890868732e-07,
      "loss": 1.10935431,
      "memory(GiB)": 112.26,
      "step": 67595,
      "train_speed(iter/s)": 1.129563
    },
    {
      "acc": 0.74127693,
      "epoch": 1.714865550481989,
      "grad_norm": 4.53125,
      "learning_rate": 5.454721182395096e-07,
      "loss": 1.07434206,
      "memory(GiB)": 112.26,
      "step": 67600,
      "train_speed(iter/s)": 1.129577
    },
    {
      "acc": 0.74438715,
      "epoch": 1.714992389649924,
      "grad_norm": 3.609375,
      "learning_rate": 5.449959433221697e-07,
      "loss": 1.071457,
      "memory(GiB)": 112.26,
      "step": 67605,
      "train_speed(iter/s)": 1.129593
    },
    {
      "acc": 0.7381732,
      "epoch": 1.715119228817859,
      "grad_norm": 3.4375,
      "learning_rate": 5.44519964355798e-07,
      "loss": 1.07765045,
      "memory(GiB)": 112.26,
      "step": 67610,
      "train_speed(iter/s)": 1.129601
    },
    {
      "acc": 0.74217129,
      "epoch": 1.715246067985794,
      "grad_norm": 3.890625,
      "learning_rate": 5.440441813613312e-07,
      "loss": 1.08107538,
      "memory(GiB)": 112.26,
      "step": 67615,
      "train_speed(iter/s)": 1.129619
    },
    {
      "acc": 0.74788055,
      "epoch": 1.715372907153729,
      "grad_norm": 3.6875,
      "learning_rate": 5.435685943596953e-07,
      "loss": 1.05914783,
      "memory(GiB)": 112.26,
      "step": 67620,
      "train_speed(iter/s)": 1.129626
    },
    {
      "acc": 0.74622197,
      "epoch": 1.7154997463216641,
      "grad_norm": 3.328125,
      "learning_rate": 5.430932033718083e-07,
      "loss": 1.00335617,
      "memory(GiB)": 112.26,
      "step": 67625,
      "train_speed(iter/s)": 1.129639
    },
    {
      "acc": 0.74198618,
      "epoch": 1.7156265854895993,
      "grad_norm": 3.4375,
      "learning_rate": 5.426180084185828e-07,
      "loss": 1.05865402,
      "memory(GiB)": 112.26,
      "step": 67630,
      "train_speed(iter/s)": 1.129655
    },
    {
      "acc": 0.74337282,
      "epoch": 1.7157534246575343,
      "grad_norm": 4.90625,
      "learning_rate": 5.421430095209173e-07,
      "loss": 1.08791351,
      "memory(GiB)": 112.26,
      "step": 67635,
      "train_speed(iter/s)": 1.129667
    },
    {
      "acc": 0.72847757,
      "epoch": 1.7158802638254693,
      "grad_norm": 3.328125,
      "learning_rate": 5.416682066997048e-07,
      "loss": 1.06966877,
      "memory(GiB)": 112.26,
      "step": 67640,
      "train_speed(iter/s)": 1.129591
    },
    {
      "acc": 0.75625381,
      "epoch": 1.7160071029934043,
      "grad_norm": 3.5,
      "learning_rate": 5.411935999758288e-07,
      "loss": 1.06564045,
      "memory(GiB)": 112.26,
      "step": 67645,
      "train_speed(iter/s)": 1.129605
    },
    {
      "acc": 0.7451787,
      "epoch": 1.7161339421613393,
      "grad_norm": 4.21875,
      "learning_rate": 5.407191893701674e-07,
      "loss": 1.01446419,
      "memory(GiB)": 112.26,
      "step": 67650,
      "train_speed(iter/s)": 1.129616
    },
    {
      "acc": 0.7433239,
      "epoch": 1.7162607813292745,
      "grad_norm": 3.6875,
      "learning_rate": 5.402449749035843e-07,
      "loss": 1.04002542,
      "memory(GiB)": 112.26,
      "step": 67655,
      "train_speed(iter/s)": 1.129623
    },
    {
      "acc": 0.74473181,
      "epoch": 1.7163876204972095,
      "grad_norm": 3.8125,
      "learning_rate": 5.397709565969378e-07,
      "loss": 1.02327242,
      "memory(GiB)": 112.26,
      "step": 67660,
      "train_speed(iter/s)": 1.129635
    },
    {
      "acc": 0.74873133,
      "epoch": 1.7165144596651447,
      "grad_norm": 4.34375,
      "learning_rate": 5.392971344710785e-07,
      "loss": 1.081499,
      "memory(GiB)": 112.26,
      "step": 67665,
      "train_speed(iter/s)": 1.129646
    },
    {
      "acc": 0.73913107,
      "epoch": 1.7166412988330797,
      "grad_norm": 4.28125,
      "learning_rate": 5.388235085468485e-07,
      "loss": 1.10120792,
      "memory(GiB)": 112.26,
      "step": 67670,
      "train_speed(iter/s)": 1.129655
    },
    {
      "acc": 0.74228673,
      "epoch": 1.7167681380010147,
      "grad_norm": 3.90625,
      "learning_rate": 5.383500788450757e-07,
      "loss": 1.04936237,
      "memory(GiB)": 112.26,
      "step": 67675,
      "train_speed(iter/s)": 1.129672
    },
    {
      "acc": 0.74195108,
      "epoch": 1.7168949771689497,
      "grad_norm": 4.6875,
      "learning_rate": 5.378768453865879e-07,
      "loss": 1.08161001,
      "memory(GiB)": 112.26,
      "step": 67680,
      "train_speed(iter/s)": 1.129682
    },
    {
      "acc": 0.73592577,
      "epoch": 1.7170218163368847,
      "grad_norm": 4.3125,
      "learning_rate": 5.374038081921978e-07,
      "loss": 1.09808054,
      "memory(GiB)": 112.26,
      "step": 67685,
      "train_speed(iter/s)": 1.129697
    },
    {
      "acc": 0.7383791,
      "epoch": 1.7171486555048199,
      "grad_norm": 4.4375,
      "learning_rate": 5.369309672827139e-07,
      "loss": 1.0612833,
      "memory(GiB)": 112.26,
      "step": 67690,
      "train_speed(iter/s)": 1.129711
    },
    {
      "acc": 0.74866219,
      "epoch": 1.717275494672755,
      "grad_norm": 4.59375,
      "learning_rate": 5.364583226789299e-07,
      "loss": 1.0145937,
      "memory(GiB)": 112.26,
      "step": 67695,
      "train_speed(iter/s)": 1.129724
    },
    {
      "acc": 0.74699359,
      "epoch": 1.71740233384069,
      "grad_norm": 3.390625,
      "learning_rate": 5.359858744016378e-07,
      "loss": 1.06971092,
      "memory(GiB)": 112.26,
      "step": 67700,
      "train_speed(iter/s)": 1.129734
    },
    {
      "acc": 0.72716389,
      "epoch": 1.717529173008625,
      "grad_norm": 3.234375,
      "learning_rate": 5.355136224716179e-07,
      "loss": 1.05934,
      "memory(GiB)": 112.26,
      "step": 67705,
      "train_speed(iter/s)": 1.129748
    },
    {
      "acc": 0.74532909,
      "epoch": 1.71765601217656,
      "grad_norm": 3.3125,
      "learning_rate": 5.350415669096409e-07,
      "loss": 1.02378769,
      "memory(GiB)": 112.26,
      "step": 67710,
      "train_speed(iter/s)": 1.129758
    },
    {
      "acc": 0.74430089,
      "epoch": 1.717782851344495,
      "grad_norm": 4.3125,
      "learning_rate": 5.345697077364708e-07,
      "loss": 1.06595182,
      "memory(GiB)": 112.26,
      "step": 67715,
      "train_speed(iter/s)": 1.129769
    },
    {
      "acc": 0.72226729,
      "epoch": 1.7179096905124303,
      "grad_norm": 3.390625,
      "learning_rate": 5.340980449728617e-07,
      "loss": 1.12655802,
      "memory(GiB)": 112.26,
      "step": 67720,
      "train_speed(iter/s)": 1.129783
    },
    {
      "acc": 0.74697905,
      "epoch": 1.7180365296803652,
      "grad_norm": 3.75,
      "learning_rate": 5.336265786395589e-07,
      "loss": 0.9913681,
      "memory(GiB)": 112.26,
      "step": 67725,
      "train_speed(iter/s)": 1.129797
    },
    {
      "acc": 0.74959431,
      "epoch": 1.7181633688483005,
      "grad_norm": 3.921875,
      "learning_rate": 5.331553087573005e-07,
      "loss": 1.01619377,
      "memory(GiB)": 112.26,
      "step": 67730,
      "train_speed(iter/s)": 1.129806
    },
    {
      "acc": 0.73980732,
      "epoch": 1.7182902080162354,
      "grad_norm": 3.359375,
      "learning_rate": 5.326842353468148e-07,
      "loss": 1.07195959,
      "memory(GiB)": 112.26,
      "step": 67735,
      "train_speed(iter/s)": 1.129819
    },
    {
      "acc": 0.74815464,
      "epoch": 1.7184170471841704,
      "grad_norm": 4.78125,
      "learning_rate": 5.322133584288214e-07,
      "loss": 1.05752392,
      "memory(GiB)": 112.26,
      "step": 67740,
      "train_speed(iter/s)": 1.129831
    },
    {
      "acc": 0.73838367,
      "epoch": 1.7185438863521054,
      "grad_norm": 3.875,
      "learning_rate": 5.317426780240314e-07,
      "loss": 1.02365923,
      "memory(GiB)": 112.26,
      "step": 67745,
      "train_speed(iter/s)": 1.129842
    },
    {
      "acc": 0.7431632,
      "epoch": 1.7186707255200406,
      "grad_norm": 3.375,
      "learning_rate": 5.312721941531479e-07,
      "loss": 1.05322056,
      "memory(GiB)": 112.26,
      "step": 67750,
      "train_speed(iter/s)": 1.129853
    },
    {
      "acc": 0.7353467,
      "epoch": 1.7187975646879756,
      "grad_norm": 4.03125,
      "learning_rate": 5.308019068368647e-07,
      "loss": 1.08428211,
      "memory(GiB)": 112.26,
      "step": 67755,
      "train_speed(iter/s)": 1.129864
    },
    {
      "acc": 0.73903232,
      "epoch": 1.7189244038559108,
      "grad_norm": 3.671875,
      "learning_rate": 5.303318160958675e-07,
      "loss": 1.07561169,
      "memory(GiB)": 112.26,
      "step": 67760,
      "train_speed(iter/s)": 1.129874
    },
    {
      "acc": 0.74204612,
      "epoch": 1.7190512430238458,
      "grad_norm": 3.9375,
      "learning_rate": 5.298619219508317e-07,
      "loss": 1.04059448,
      "memory(GiB)": 112.26,
      "step": 67765,
      "train_speed(iter/s)": 1.129873
    },
    {
      "acc": 0.73483067,
      "epoch": 1.7191780821917808,
      "grad_norm": 3.25,
      "learning_rate": 5.293922244224275e-07,
      "loss": 1.10138359,
      "memory(GiB)": 112.26,
      "step": 67770,
      "train_speed(iter/s)": 1.129884
    },
    {
      "acc": 0.74480686,
      "epoch": 1.7193049213597158,
      "grad_norm": 3.859375,
      "learning_rate": 5.289227235313133e-07,
      "loss": 1.08776436,
      "memory(GiB)": 112.26,
      "step": 67775,
      "train_speed(iter/s)": 1.129897
    },
    {
      "acc": 0.7362793,
      "epoch": 1.7194317605276508,
      "grad_norm": 4.8125,
      "learning_rate": 5.284534192981389e-07,
      "loss": 1.10407963,
      "memory(GiB)": 112.26,
      "step": 67780,
      "train_speed(iter/s)": 1.129912
    },
    {
      "acc": 0.74592652,
      "epoch": 1.719558599695586,
      "grad_norm": 3.765625,
      "learning_rate": 5.279843117435463e-07,
      "loss": 1.05346317,
      "memory(GiB)": 112.26,
      "step": 67785,
      "train_speed(iter/s)": 1.129923
    },
    {
      "acc": 0.75610409,
      "epoch": 1.7196854388635212,
      "grad_norm": 4.875,
      "learning_rate": 5.275154008881716e-07,
      "loss": 1.01530056,
      "memory(GiB)": 112.26,
      "step": 67790,
      "train_speed(iter/s)": 1.129939
    },
    {
      "acc": 0.74158731,
      "epoch": 1.7198122780314562,
      "grad_norm": 3.96875,
      "learning_rate": 5.270466867526369e-07,
      "loss": 1.05482435,
      "memory(GiB)": 112.26,
      "step": 67795,
      "train_speed(iter/s)": 1.129958
    },
    {
      "acc": 0.74966764,
      "epoch": 1.7199391171993912,
      "grad_norm": 3.59375,
      "learning_rate": 5.265781693575578e-07,
      "loss": 1.05738516,
      "memory(GiB)": 112.26,
      "step": 67800,
      "train_speed(iter/s)": 1.12997
    },
    {
      "acc": 0.73021116,
      "epoch": 1.7200659563673262,
      "grad_norm": 3.421875,
      "learning_rate": 5.261098487235449e-07,
      "loss": 1.06032009,
      "memory(GiB)": 112.26,
      "step": 67805,
      "train_speed(iter/s)": 1.129978
    },
    {
      "acc": 0.74555926,
      "epoch": 1.7201927955352612,
      "grad_norm": 3.46875,
      "learning_rate": 5.256417248711959e-07,
      "loss": 1.04668274,
      "memory(GiB)": 112.26,
      "step": 67810,
      "train_speed(iter/s)": 1.129996
    },
    {
      "acc": 0.74432583,
      "epoch": 1.7203196347031964,
      "grad_norm": 3.46875,
      "learning_rate": 5.251737978210997e-07,
      "loss": 1.05052404,
      "memory(GiB)": 112.26,
      "step": 67815,
      "train_speed(iter/s)": 1.130008
    },
    {
      "acc": 0.72735052,
      "epoch": 1.7204464738711314,
      "grad_norm": 3.328125,
      "learning_rate": 5.247060675938376e-07,
      "loss": 1.10249023,
      "memory(GiB)": 112.26,
      "step": 67820,
      "train_speed(iter/s)": 1.130007
    },
    {
      "acc": 0.73950491,
      "epoch": 1.7205733130390666,
      "grad_norm": 3.953125,
      "learning_rate": 5.242385342099842e-07,
      "loss": 1.06332893,
      "memory(GiB)": 112.26,
      "step": 67825,
      "train_speed(iter/s)": 1.130025
    },
    {
      "acc": 0.75357628,
      "epoch": 1.7207001522070016,
      "grad_norm": 3.84375,
      "learning_rate": 5.237711976901039e-07,
      "loss": 1.01958752,
      "memory(GiB)": 112.26,
      "step": 67830,
      "train_speed(iter/s)": 1.130042
    },
    {
      "acc": 0.74051123,
      "epoch": 1.7208269913749366,
      "grad_norm": 3.609375,
      "learning_rate": 5.233040580547489e-07,
      "loss": 1.03540154,
      "memory(GiB)": 112.26,
      "step": 67835,
      "train_speed(iter/s)": 1.130048
    },
    {
      "acc": 0.72713165,
      "epoch": 1.7209538305428715,
      "grad_norm": 3.640625,
      "learning_rate": 5.228371153244699e-07,
      "loss": 1.08204527,
      "memory(GiB)": 112.26,
      "step": 67840,
      "train_speed(iter/s)": 1.130061
    },
    {
      "acc": 0.73099484,
      "epoch": 1.7210806697108065,
      "grad_norm": 4.875,
      "learning_rate": 5.223703695198034e-07,
      "loss": 1.15951042,
      "memory(GiB)": 112.26,
      "step": 67845,
      "train_speed(iter/s)": 1.130072
    },
    {
      "acc": 0.7432765,
      "epoch": 1.7212075088787417,
      "grad_norm": 4.25,
      "learning_rate": 5.219038206612798e-07,
      "loss": 1.03286619,
      "memory(GiB)": 112.26,
      "step": 67850,
      "train_speed(iter/s)": 1.130082
    },
    {
      "acc": 0.74074259,
      "epoch": 1.721334348046677,
      "grad_norm": 4.8125,
      "learning_rate": 5.214374687694191e-07,
      "loss": 1.08428411,
      "memory(GiB)": 112.26,
      "step": 67855,
      "train_speed(iter/s)": 1.130094
    },
    {
      "acc": 0.73660955,
      "epoch": 1.721461187214612,
      "grad_norm": 4.6875,
      "learning_rate": 5.209713138647332e-07,
      "loss": 1.01669025,
      "memory(GiB)": 112.26,
      "step": 67860,
      "train_speed(iter/s)": 1.130104
    },
    {
      "acc": 0.73214493,
      "epoch": 1.721588026382547,
      "grad_norm": 3.953125,
      "learning_rate": 5.20505355967727e-07,
      "loss": 1.13271761,
      "memory(GiB)": 112.26,
      "step": 67865,
      "train_speed(iter/s)": 1.130113
    },
    {
      "acc": 0.75953689,
      "epoch": 1.721714865550482,
      "grad_norm": 3.734375,
      "learning_rate": 5.200395950988945e-07,
      "loss": 1.00423231,
      "memory(GiB)": 112.26,
      "step": 67870,
      "train_speed(iter/s)": 1.130124
    },
    {
      "acc": 0.7434382,
      "epoch": 1.721841704718417,
      "grad_norm": 4.8125,
      "learning_rate": 5.195740312787229e-07,
      "loss": 1.14042788,
      "memory(GiB)": 112.26,
      "step": 67875,
      "train_speed(iter/s)": 1.130135
    },
    {
      "acc": 0.74587831,
      "epoch": 1.7219685438863521,
      "grad_norm": 4.25,
      "learning_rate": 5.191086645276883e-07,
      "loss": 1.03184376,
      "memory(GiB)": 112.26,
      "step": 67880,
      "train_speed(iter/s)": 1.130148
    },
    {
      "acc": 0.73893914,
      "epoch": 1.722095383054287,
      "grad_norm": 3.96875,
      "learning_rate": 5.186434948662605e-07,
      "loss": 1.03295298,
      "memory(GiB)": 112.26,
      "step": 67885,
      "train_speed(iter/s)": 1.130161
    },
    {
      "acc": 0.72998896,
      "epoch": 1.7222222222222223,
      "grad_norm": 4.6875,
      "learning_rate": 5.181785223148999e-07,
      "loss": 1.07515755,
      "memory(GiB)": 112.26,
      "step": 67890,
      "train_speed(iter/s)": 1.130172
    },
    {
      "acc": 0.73592906,
      "epoch": 1.7223490613901573,
      "grad_norm": 3.65625,
      "learning_rate": 5.177137468940574e-07,
      "loss": 1.02481222,
      "memory(GiB)": 112.26,
      "step": 67895,
      "train_speed(iter/s)": 1.130182
    },
    {
      "acc": 0.71997495,
      "epoch": 1.7224759005580923,
      "grad_norm": 3.65625,
      "learning_rate": 5.172491686241765e-07,
      "loss": 1.15870838,
      "memory(GiB)": 112.26,
      "step": 67900,
      "train_speed(iter/s)": 1.130197
    },
    {
      "acc": 0.75115943,
      "epoch": 1.7226027397260273,
      "grad_norm": 3.8125,
      "learning_rate": 5.167847875256904e-07,
      "loss": 1.03163366,
      "memory(GiB)": 112.26,
      "step": 67905,
      "train_speed(iter/s)": 1.13021
    },
    {
      "acc": 0.73931675,
      "epoch": 1.7227295788939625,
      "grad_norm": 3.71875,
      "learning_rate": 5.163206036190272e-07,
      "loss": 1.06791153,
      "memory(GiB)": 112.26,
      "step": 67910,
      "train_speed(iter/s)": 1.13022
    },
    {
      "acc": 0.7579494,
      "epoch": 1.7228564180618975,
      "grad_norm": 3.921875,
      "learning_rate": 5.15856616924601e-07,
      "loss": 0.99472494,
      "memory(GiB)": 112.26,
      "step": 67915,
      "train_speed(iter/s)": 1.130226
    },
    {
      "acc": 0.73440018,
      "epoch": 1.7229832572298327,
      "grad_norm": 3.84375,
      "learning_rate": 5.153928274628211e-07,
      "loss": 1.10455675,
      "memory(GiB)": 112.26,
      "step": 67920,
      "train_speed(iter/s)": 1.130242
    },
    {
      "acc": 0.73217835,
      "epoch": 1.7231100963977677,
      "grad_norm": 4.3125,
      "learning_rate": 5.149292352540857e-07,
      "loss": 1.10334072,
      "memory(GiB)": 112.26,
      "step": 67925,
      "train_speed(iter/s)": 1.130252
    },
    {
      "acc": 0.7496923,
      "epoch": 1.7232369355657027,
      "grad_norm": 3.9375,
      "learning_rate": 5.144658403187896e-07,
      "loss": 1.0692071,
      "memory(GiB)": 112.26,
      "step": 67930,
      "train_speed(iter/s)": 1.130259
    },
    {
      "acc": 0.73890362,
      "epoch": 1.7233637747336377,
      "grad_norm": 3.453125,
      "learning_rate": 5.14002642677311e-07,
      "loss": 1.0617053,
      "memory(GiB)": 112.26,
      "step": 67935,
      "train_speed(iter/s)": 1.130273
    },
    {
      "acc": 0.73162851,
      "epoch": 1.7234906139015727,
      "grad_norm": 3.625,
      "learning_rate": 5.135396423500233e-07,
      "loss": 1.07964745,
      "memory(GiB)": 112.26,
      "step": 67940,
      "train_speed(iter/s)": 1.130284
    },
    {
      "acc": 0.73268652,
      "epoch": 1.7236174530695079,
      "grad_norm": 3.234375,
      "learning_rate": 5.130768393572943e-07,
      "loss": 1.13530312,
      "memory(GiB)": 112.26,
      "step": 67945,
      "train_speed(iter/s)": 1.130299
    },
    {
      "acc": 0.73348341,
      "epoch": 1.723744292237443,
      "grad_norm": 3.25,
      "learning_rate": 5.126142337194795e-07,
      "loss": 1.06374321,
      "memory(GiB)": 112.26,
      "step": 67950,
      "train_speed(iter/s)": 1.130312
    },
    {
      "acc": 0.74911923,
      "epoch": 1.723871131405378,
      "grad_norm": 4.21875,
      "learning_rate": 5.121518254569241e-07,
      "loss": 0.99594593,
      "memory(GiB)": 112.26,
      "step": 67955,
      "train_speed(iter/s)": 1.130324
    },
    {
      "acc": 0.74960833,
      "epoch": 1.723997970573313,
      "grad_norm": 3.25,
      "learning_rate": 5.116896145899675e-07,
      "loss": 1.03812351,
      "memory(GiB)": 112.26,
      "step": 67960,
      "train_speed(iter/s)": 1.130339
    },
    {
      "acc": 0.72824206,
      "epoch": 1.724124809741248,
      "grad_norm": 3.4375,
      "learning_rate": 5.112276011389416e-07,
      "loss": 1.09283819,
      "memory(GiB)": 112.26,
      "step": 67965,
      "train_speed(iter/s)": 1.130342
    },
    {
      "acc": 0.73699546,
      "epoch": 1.724251648909183,
      "grad_norm": 3.8125,
      "learning_rate": 5.107657851241671e-07,
      "loss": 1.07081108,
      "memory(GiB)": 112.26,
      "step": 67970,
      "train_speed(iter/s)": 1.130352
    },
    {
      "acc": 0.74812641,
      "epoch": 1.7243784880771182,
      "grad_norm": 4.125,
      "learning_rate": 5.103041665659553e-07,
      "loss": 1.03462286,
      "memory(GiB)": 112.26,
      "step": 67975,
      "train_speed(iter/s)": 1.130367
    },
    {
      "acc": 0.7316947,
      "epoch": 1.7245053272450532,
      "grad_norm": 3.328125,
      "learning_rate": 5.098427454846116e-07,
      "loss": 1.12639704,
      "memory(GiB)": 112.26,
      "step": 67980,
      "train_speed(iter/s)": 1.130375
    },
    {
      "acc": 0.75613117,
      "epoch": 1.7246321664129884,
      "grad_norm": 3.984375,
      "learning_rate": 5.093815219004311e-07,
      "loss": 0.99910631,
      "memory(GiB)": 112.26,
      "step": 67985,
      "train_speed(iter/s)": 1.130387
    },
    {
      "acc": 0.74160662,
      "epoch": 1.7247590055809234,
      "grad_norm": 3.765625,
      "learning_rate": 5.089204958337018e-07,
      "loss": 1.03878479,
      "memory(GiB)": 112.26,
      "step": 67990,
      "train_speed(iter/s)": 1.130402
    },
    {
      "acc": 0.72424049,
      "epoch": 1.7248858447488584,
      "grad_norm": 3.375,
      "learning_rate": 5.084596673046982e-07,
      "loss": 1.13343039,
      "memory(GiB)": 112.26,
      "step": 67995,
      "train_speed(iter/s)": 1.130417
    },
    {
      "acc": 0.75180936,
      "epoch": 1.7250126839167934,
      "grad_norm": 4.0625,
      "learning_rate": 5.079990363336928e-07,
      "loss": 1.01502876,
      "memory(GiB)": 112.26,
      "step": 68000,
      "train_speed(iter/s)": 1.130431
    },
    {
      "epoch": 1.7250126839167934,
      "eval_acc": 0.7258279611658596,
      "eval_loss": 1.0440424680709839,
      "eval_runtime": 70.7656,
      "eval_samples_per_second": 90.015,
      "eval_steps_per_second": 22.511,
      "step": 68000
    }
  ],
  "logging_steps": 5,
  "max_steps": 78840,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.646619192048799e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}