{
  "best_metric": 0.34333334282040595,
  "best_model_checkpoint": "/mnt/data/user/zhao_jun/tangjixin/output/model/qwen2.5vl-7b-grpo_new_v20_5k/v13-20250325-021847/checkpoint-2475",
  "epoch": 1.0,
  "eval_steps": 250,
  "global_step": 2475,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 359.125,
      "epoch": 0.00040404040404040404,
      "grad_norm": 1.364031546421686,
      "kl": 0.0,
      "learning_rate": 1.6129032258064515e-09,
      "loss": -0.0474996417760849,
      "memory(GiB)": 81.93,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333432674408,
      "reward_std": 0.25746434926986694,
      "rewards/MultiModalAccuracyORM": 0.2083333432674408,
      "step": 1,
      "train_speed(iter/s)": 0.005983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.95833945274353,
      "epoch": 0.00202020202020202,
      "grad_norm": 1.6130071483346196,
      "kl": 0.00015279650688171387,
      "learning_rate": 8.064516129032257e-09,
      "loss": -0.0010303221642971039,
      "memory(GiB)": 86.73,
      "response_clip_ratio": 0.0,
      "reward": 0.052083334885537624,
      "reward_std": 0.13339675217866898,
      "rewards/MultiModalAccuracyORM": 0.052083334885537624,
      "step": 5,
      "train_speed(iter/s)": 0.019266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.46667594909667,
      "epoch": 0.00404040404040404,
      "grad_norm": 1.760454082663187,
      "kl": 0.000270843505859375,
      "learning_rate": 1.6129032258064514e-08,
      "loss": 0.005405974388122558,
      "memory(GiB)": 87.09,
      "response_clip_ratio": 0.0,
      "reward": 0.14166667312383652,
      "reward_std": 0.26492767333984374,
      "rewards/MultiModalAccuracyORM": 0.14166667312383652,
      "step": 10,
      "train_speed(iter/s)": 0.026623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.308349609375,
      "epoch": 0.006060606060606061,
      "grad_norm": 1.1507264780517972,
      "kl": 0.0002508640289306641,
      "learning_rate": 2.4193548387096773e-08,
      "loss": 0.013352996110916138,
      "memory(GiB)": 87.09,
      "response_clip_ratio": 0.02500000074505806,
      "reward": 0.34166667610406876,
      "reward_std": 0.36744636595249175,
      "rewards/MultiModalAccuracyORM": 0.34166667610406876,
      "step": 15,
      "train_speed(iter/s)": 0.027725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 291.9916717529297,
      "epoch": 0.00808080808080808,
      "grad_norm": 1.9440298564534324,
      "kl": 0.00028104782104492186,
      "learning_rate": 3.225806451612903e-08,
      "loss": 0.006416285037994384,
      "memory(GiB)": 87.09,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333373069763,
      "reward_std": 0.2916341096162796,
      "rewards/MultiModalAccuracyORM": 0.2833333373069763,
      "step": 20,
      "train_speed(iter/s)": 0.031051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 378.5500061035156,
      "epoch": 0.010101010101010102,
      "grad_norm": 1.6907685802618988,
      "kl": 0.0002666950225830078,
      "learning_rate": 4.032258064516129e-08,
      "loss": -0.018301564455032348,
      "memory(GiB)": 87.09,
      "response_clip_ratio": 0.0,
      "reward": 0.30833334624767306,
      "reward_std": 0.3720185041427612,
      "rewards/MultiModalAccuracyORM": 0.30833334624767306,
      "step": 25,
      "train_speed(iter/s)": 0.032339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 370.2333450317383,
      "epoch": 0.012121212121212121,
      "grad_norm": 1.5722363224769262,
      "kl": 0.0002593994140625,
      "learning_rate": 4.8387096774193546e-08,
      "loss": -0.027563482522964478,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000596046446,
      "reward_std": 0.3226982891559601,
      "rewards/MultiModalAccuracyORM": 0.25000000596046446,
      "step": 30,
      "train_speed(iter/s)": 0.032649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 398.5916778564453,
      "epoch": 0.014141414141414142,
      "grad_norm": 2.304234213678912,
      "kl": 0.00022954940795898436,
      "learning_rate": 5.645161290322581e-08,
      "loss": 0.048061671853065493,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.1416666716337204,
      "reward_std": 0.3226627051830292,
      "rewards/MultiModalAccuracyORM": 0.1416666716337204,
      "step": 35,
      "train_speed(iter/s)": 0.033014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.97500972747804,
      "epoch": 0.01616161616161616,
      "grad_norm": 1.6894032790709004,
      "kl": 0.0002648591995239258,
      "learning_rate": 6.451612903225806e-08,
      "loss": 0.012092837691307068,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666753590107,
      "reward_std": 0.222271066904068,
      "rewards/MultiModalAccuracyORM": 0.2666666753590107,
      "step": 40,
      "train_speed(iter/s)": 0.034411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.9333435058594,
      "epoch": 0.01818181818181818,
      "grad_norm": 1.9171038477045215,
      "kl": 0.00023059844970703126,
      "learning_rate": 7.258064516129032e-08,
      "loss": -0.0132610023021698,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333879709244,
      "reward_std": 0.2489179015159607,
      "rewards/MultiModalAccuracyORM": 0.15833333879709244,
      "step": 45,
      "train_speed(iter/s)": 0.034702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.20001525878905,
      "epoch": 0.020202020202020204,
      "grad_norm": 1.795783985834061,
      "kl": 0.00021610260009765624,
      "learning_rate": 8.064516129032257e-08,
      "loss": 0.055432689189910886,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333730697633,
      "reward_std": 0.320406436920166,
      "rewards/MultiModalAccuracyORM": 0.13333333730697633,
      "step": 50,
      "train_speed(iter/s)": 0.034713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 271.8500068664551,
      "epoch": 0.022222222222222223,
      "grad_norm": 1.570392013394559,
      "kl": 0.00024003982543945311,
      "learning_rate": 8.870967741935484e-08,
      "loss": 0.0527652382850647,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000968575477,
      "reward_std": 0.24862808585166932,
      "rewards/MultiModalAccuracyORM": 0.17500000968575477,
      "step": 55,
      "train_speed(iter/s)": 0.035397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 240.03333892822266,
      "epoch": 0.024242424242424242,
      "grad_norm": 1.7404447091659765,
      "kl": 0.00024061203002929689,
      "learning_rate": 9.677419354838709e-08,
      "loss": -0.06867231130599975,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667982935904,
      "reward_std": 0.33052347004413607,
      "rewards/MultiModalAccuracyORM": 0.39166667982935904,
      "step": 60,
      "train_speed(iter/s)": 0.036121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.5083480834961,
      "epoch": 0.026262626262626262,
      "grad_norm": 1.770871195621109,
      "kl": 0.0002596855163574219,
      "learning_rate": 1.0483870967741934e-07,
      "loss": 0.019220371544361115,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.1416666701436043,
      "reward_std": 0.27753120064735415,
      "rewards/MultiModalAccuracyORM": 0.1416666701436043,
      "step": 65,
      "train_speed(iter/s)": 0.035829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.05834197998047,
      "epoch": 0.028282828282828285,
      "grad_norm": 1.1236406922162803,
      "kl": 0.00025534629821777344,
      "learning_rate": 1.1290322580645162e-07,
      "loss": 0.006563323736190796,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833334252238274,
      "reward_std": 0.18108985424041749,
      "rewards/MultiModalAccuracyORM": 0.15833334252238274,
      "step": 70,
      "train_speed(iter/s)": 0.036273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.05833969116213,
      "epoch": 0.030303030303030304,
      "grad_norm": 2.2244576725130276,
      "kl": 0.00026721954345703124,
      "learning_rate": 1.2096774193548387e-07,
      "loss": 0.021188412606716157,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333805203437,
      "reward_std": 0.3494287371635437,
      "rewards/MultiModalAccuracyORM": 0.28333333805203437,
      "step": 75,
      "train_speed(iter/s)": 0.036577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 365.70000381469725,
      "epoch": 0.03232323232323232,
      "grad_norm": 2.238393674944575,
      "kl": 0.00026388168334960936,
      "learning_rate": 1.2903225806451611e-07,
      "loss": 0.029351598024368285,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.01666666716337204,
      "reward": 0.22500000521540642,
      "reward_std": 0.279270276427269,
      "rewards/MultiModalAccuracyORM": 0.22500000521540642,
      "step": 80,
      "train_speed(iter/s)": 0.036263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 245.05000381469728,
      "epoch": 0.03434343434343434,
      "grad_norm": 1.5092959560425367,
      "kl": 0.00028471946716308595,
      "learning_rate": 1.3709677419354838e-07,
      "loss": -0.036607831716537476,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334177732467,
      "reward_std": 0.39707074165344236,
      "rewards/MultiModalAccuracyORM": 0.28333334177732467,
      "step": 85,
      "train_speed(iter/s)": 0.035112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 359.3000152587891,
      "epoch": 0.03636363636363636,
      "grad_norm": 1.983727747725694,
      "kl": 0.0002570152282714844,
      "learning_rate": 1.4516129032258064e-07,
      "loss": 0.02973529100418091,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000447034836,
      "reward_std": 0.27928483188152314,
      "rewards/MultiModalAccuracyORM": 0.17500000447034836,
      "step": 90,
      "train_speed(iter/s)": 0.035019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 420.7333511352539,
      "epoch": 0.03838383838383838,
      "grad_norm": 1.6243054678942601,
      "kl": 0.00022783279418945313,
      "learning_rate": 1.5322580645161288e-07,
      "loss": -0.030441620945930482,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.23333333805203438,
      "reward_std": 0.35868159830570223,
      "rewards/MultiModalAccuracyORM": 0.23333333805203438,
      "step": 95,
      "train_speed(iter/s)": 0.035038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 320.6583419799805,
      "epoch": 0.04040404040404041,
      "grad_norm": 1.5278965004190905,
      "kl": 0.00023970603942871093,
      "learning_rate": 1.6129032258064515e-07,
      "loss": 0.014825087785720826,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333417773247,
      "reward_std": 0.24560283720493317,
      "rewards/MultiModalAccuracyORM": 0.3833333417773247,
      "step": 100,
      "train_speed(iter/s)": 0.035336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 367.6000091552734,
      "epoch": 0.04242424242424243,
      "grad_norm": 2.275003739183734,
      "kl": 0.0002989768981933594,
      "learning_rate": 1.6935483870967741e-07,
      "loss": 0.021370184421539307,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333410322666,
      "reward_std": 0.31520852744579314,
      "rewards/MultiModalAccuracyORM": 0.3083333410322666,
      "step": 105,
      "train_speed(iter/s)": 0.035535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 375.37500915527346,
      "epoch": 0.044444444444444446,
      "grad_norm": 1.3264840189361857,
      "kl": 0.00028629302978515624,
      "learning_rate": 1.7741935483870968e-07,
      "loss": 0.013422733545303345,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1416666701436043,
      "reward_std": 0.24885829985141755,
      "rewards/MultiModalAccuracyORM": 0.1416666701436043,
      "step": 110,
      "train_speed(iter/s)": 0.035867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 400.7583488464355,
      "epoch": 0.046464646464646465,
      "grad_norm": 0.0068729642108505875,
      "kl": 0.00022754669189453124,
      "learning_rate": 1.8548387096774192e-07,
      "loss": 0.007101482152938843,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.01666666716337204,
      "reward": 0.24166667386889457,
      "reward_std": 0.23854664266109465,
      "rewards/MultiModalAccuracyORM": 0.24166667386889457,
      "step": 115,
      "train_speed(iter/s)": 0.035529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 358.0500122070313,
      "epoch": 0.048484848484848485,
      "grad_norm": 1.666888807483155,
      "kl": 0.00029277801513671875,
      "learning_rate": 1.9354838709677418e-07,
      "loss": -0.013055479526519776,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20833334028720857,
      "reward_std": 0.24041947722434998,
      "rewards/MultiModalAccuracyORM": 0.20833334028720857,
      "step": 120,
      "train_speed(iter/s)": 0.035843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.0916717529297,
      "epoch": 0.050505050505050504,
      "grad_norm": 3.6057797063570765,
      "kl": 0.00020406246185302734,
      "learning_rate": 2e-07,
      "loss": 0.029223644733428956,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000052154064,
      "reward_std": 0.27371591329574585,
      "rewards/MultiModalAccuracyORM": 0.2750000052154064,
      "step": 125,
      "train_speed(iter/s)": 0.036026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.7583526611328,
      "epoch": 0.052525252525252523,
      "grad_norm": 1.7900187922950372,
      "kl": 0.00025043487548828127,
      "learning_rate": 2e-07,
      "loss": 0.0551780104637146,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333484828472,
      "reward_std": 0.3641817569732666,
      "rewards/MultiModalAccuracyORM": 0.2833333484828472,
      "step": 130,
      "train_speed(iter/s)": 0.036075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.5000072479248,
      "epoch": 0.05454545454545454,
      "grad_norm": 2.529917707084592,
      "kl": 0.0002529144287109375,
      "learning_rate": 2e-07,
      "loss": 0.02438216805458069,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.3416666708886623,
      "reward_std": 0.279270276427269,
      "rewards/MultiModalAccuracyORM": 0.3416666708886623,
      "step": 135,
      "train_speed(iter/s)": 0.036092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 373.6333465576172,
      "epoch": 0.05656565656565657,
      "grad_norm": 1.3049814649570146,
      "kl": 0.0002875804901123047,
      "learning_rate": 2e-07,
      "loss": -0.022501662373542786,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333469927311,
      "reward_std": 0.34958777129650115,
      "rewards/MultiModalAccuracyORM": 0.3833333469927311,
      "step": 140,
      "train_speed(iter/s)": 0.036095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.41668395996095,
      "epoch": 0.05858585858585859,
      "grad_norm": 1.8437868971897566,
      "kl": 0.00023627281188964844,
      "learning_rate": 2e-07,
      "loss": 0.06273630857467652,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.3666666768491268,
      "reward_std": 0.3914994150400162,
      "rewards/MultiModalAccuracyORM": 0.3666666768491268,
      "step": 145,
      "train_speed(iter/s)": 0.036226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 266.51667098999025,
      "epoch": 0.06060606060606061,
      "grad_norm": 1.0785517011291799,
      "kl": 0.00021938085556030273,
      "learning_rate": 2e-07,
      "loss": 0.02771698534488678,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.400000012665987,
      "reward_std": 0.3516494154930115,
      "rewards/MultiModalAccuracyORM": 0.400000012665987,
      "step": 150,
      "train_speed(iter/s)": 0.036427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 333.3500152587891,
      "epoch": 0.06262626262626263,
      "grad_norm": 12.619972342482905,
      "kl": 0.00030460357666015623,
      "learning_rate": 2e-07,
      "loss": -0.06058757305145264,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000074505806,
      "reward_std": 0.37600439190864565,
      "rewards/MultiModalAccuracyORM": 0.2250000074505806,
      "step": 155,
      "train_speed(iter/s)": 0.036609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 358.7416732788086,
      "epoch": 0.06464646464646465,
      "grad_norm": 1.306377595968382,
      "kl": 0.00027475357055664065,
      "learning_rate": 2e-07,
      "loss": -0.00979010909795761,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.15833333432674407,
      "reward_std": 0.28456337153911593,
      "rewards/MultiModalAccuracyORM": 0.15833333432674407,
      "step": 160,
      "train_speed(iter/s)": 0.036431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.9916763305664,
      "epoch": 0.06666666666666667,
      "grad_norm": 0.9830762972924579,
      "kl": 0.00030498504638671876,
      "learning_rate": 2e-07,
      "loss": -0.008201467990875243,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.10000000149011612,
      "reward_std": 0.2260383188724518,
      "rewards/MultiModalAccuracyORM": 0.10000000149011612,
      "step": 165,
      "train_speed(iter/s)": 0.036665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 249.37500610351563,
      "epoch": 0.06868686868686869,
      "grad_norm": 2.1917101699979287,
      "kl": 0.00025620460510253904,
      "learning_rate": 2e-07,
      "loss": 0.016992685198783875,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000037252903,
      "reward_std": 0.330559054017067,
      "rewards/MultiModalAccuracyORM": 0.3500000037252903,
      "step": 170,
      "train_speed(iter/s)": 0.036951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 358.87500762939453,
      "epoch": 0.0707070707070707,
      "grad_norm": 1.0748542635448965,
      "kl": 0.0002711296081542969,
      "learning_rate": 2e-07,
      "loss": 0.010954010486602783,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333656191827,
      "reward_std": 0.22400068640708923,
      "rewards/MultiModalAccuracyORM": 0.20833333656191827,
      "step": 175,
      "train_speed(iter/s)": 0.037203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 313.62500762939453,
      "epoch": 0.07272727272727272,
      "grad_norm": 2.2725379948331543,
      "kl": 0.00025653839111328125,
      "learning_rate": 2e-07,
      "loss": 0.03469780087471008,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.16666667237877847,
      "reward_std": 0.3332285821437836,
      "rewards/MultiModalAccuracyORM": 0.16666667237877847,
      "step": 180,
      "train_speed(iter/s)": 0.037355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 271.96667327880857,
      "epoch": 0.07474747474747474,
      "grad_norm": 1.4486054691502512,
      "kl": 0.0002918243408203125,
      "learning_rate": 2e-07,
      "loss": -0.009673595428466797,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333373069763,
      "reward_std": 0.102961727976799,
      "rewards/MultiModalAccuracyORM": 0.3083333373069763,
      "step": 185,
      "train_speed(iter/s)": 0.037564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.25834197998046,
      "epoch": 0.07676767676767676,
      "grad_norm": 3.170971594101629,
      "kl": 0.00025038719177246095,
      "learning_rate": 2e-07,
      "loss": 0.0012440800666809082,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.01666666716337204,
      "reward": 0.24166667014360427,
      "reward_std": 0.30789810717105864,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 190,
      "train_speed(iter/s)": 0.037415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.62500991821287,
      "epoch": 0.07878787878787878,
      "grad_norm": 1.98318367969525,
      "kl": 0.00029687881469726564,
      "learning_rate": 2e-07,
      "loss": 0.008435648679733277,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.33333334028720857,
      "reward_std": 0.24741607010364533,
      "rewards/MultiModalAccuracyORM": 0.33333334028720857,
      "step": 195,
      "train_speed(iter/s)": 0.037342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.6333465576172,
      "epoch": 0.08080808080808081,
      "grad_norm": 1.503273341785427,
      "kl": 0.000333404541015625,
      "learning_rate": 2e-07,
      "loss": 0.005708768963813782,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667237877845,
      "reward_std": 0.3603756338357925,
      "rewards/MultiModalAccuracyORM": 0.26666667237877845,
      "step": 200,
      "train_speed(iter/s)": 0.037521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.68334407806395,
      "epoch": 0.08282828282828283,
      "grad_norm": 0.5199716532978094,
      "kl": 0.0004832744598388672,
      "learning_rate": 2e-07,
      "loss": -0.014856468141078948,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.33937130570411683,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 205,
      "train_speed(iter/s)": 0.037585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 305.3916732788086,
      "epoch": 0.08484848484848485,
      "grad_norm": 2.1287930828371358,
      "kl": 0.000292205810546875,
      "learning_rate": 2e-07,
      "loss": 0.001297689974308014,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667386889457,
      "reward_std": 0.32771685123443606,
      "rewards/MultiModalAccuracyORM": 0.21666667386889457,
      "step": 210,
      "train_speed(iter/s)": 0.037751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.49167213439944,
      "epoch": 0.08686868686868687,
      "grad_norm": 1.7796242872827708,
      "kl": 0.00042543411254882815,
      "learning_rate": 2e-07,
      "loss": -0.006988461315631867,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333656191826,
      "reward_std": 0.2692273885011673,
      "rewards/MultiModalAccuracyORM": 0.23333333656191826,
      "step": 215,
      "train_speed(iter/s)": 0.037754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 314.81667442321776,
      "epoch": 0.08888888888888889,
      "grad_norm": 1.7638027896241226,
      "kl": 0.0006679534912109375,
      "learning_rate": 2e-07,
      "loss": 0.006352822482585907,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333507180214,
      "reward_std": 0.25008893609046934,
      "rewards/MultiModalAccuracyORM": 0.15833333507180214,
      "step": 220,
      "train_speed(iter/s)": 0.03785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.2750076293945,
      "epoch": 0.09090909090909091,
      "grad_norm": 0.012708836578688367,
      "kl": 0.00029745101928710935,
      "learning_rate": 2e-07,
      "loss": 0.0504034161567688,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000149011613,
      "reward_std": 0.3164917230606079,
      "rewards/MultiModalAccuracyORM": 0.30000000149011613,
      "step": 225,
      "train_speed(iter/s)": 0.038015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 265.6750061035156,
      "epoch": 0.09292929292929293,
      "grad_norm": 2.064611776487197,
      "kl": 0.000385284423828125,
      "learning_rate": 2e-07,
      "loss": 0.07023286819458008,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000298023225,
      "reward_std": 0.2650228708982468,
      "rewards/MultiModalAccuracyORM": 0.15000000298023225,
      "step": 230,
      "train_speed(iter/s)": 0.03818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 371.5416793823242,
      "epoch": 0.09494949494949495,
      "grad_norm": 1.949431436305181,
      "kl": 0.0002506256103515625,
      "learning_rate": 2e-07,
      "loss": 0.01011454164981842,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333469927311,
      "reward_std": 0.3637147039175034,
      "rewards/MultiModalAccuracyORM": 0.3333333469927311,
      "step": 235,
      "train_speed(iter/s)": 0.03819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 360.533341217041,
      "epoch": 0.09696969696969697,
      "grad_norm": 0.5471178347466235,
      "kl": 0.0010341405868530273,
      "learning_rate": 2e-07,
      "loss": -0.0015352100133895874,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.01666666716337204,
      "reward": 0.28333333805203437,
      "reward_std": 0.3511823683977127,
      "rewards/MultiModalAccuracyORM": 0.28333333805203437,
      "step": 240,
      "train_speed(iter/s)": 0.037977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 336.3000129699707,
      "epoch": 0.09898989898989899,
      "grad_norm": 2.3165413137247333,
      "kl": 0.00027217864990234373,
      "learning_rate": 2e-07,
      "loss": 0.0210051491856575,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.00833333358168602,
      "reward": 0.32500000968575476,
      "reward_std": 0.38450039029121397,
      "rewards/MultiModalAccuracyORM": 0.32500000968575476,
      "step": 245,
      "train_speed(iter/s)": 0.037993
    },
    {
      "epoch": 0.10101010101010101,
      "grad_norm": 2.645674704495033,
      "learning_rate": 2e-07,
      "loss": -0.03384391665458679,
      "memory(GiB)": 87.45,
      "step": 250,
      "train_speed(iter/s)": 0.038032
    },
    {
      "epoch": 0.10101010101010101,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 334.34500762939456,
      "eval_kl": 0.0004983329772949218,
      "eval_loss": 0.023834386840462685,
      "eval_response_clip_ratio": 0.003333333432674408,
      "eval_reward": 0.24666667267680167,
      "eval_reward_std": 0.30061395645141603,
      "eval_rewards/MultiModalAccuracyORM": 0.24666667267680167,
      "eval_runtime": 585.2435,
      "eval_samples_per_second": 0.085,
      "eval_steps_per_second": 0.009,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 369.79583778381345,
      "epoch": 0.10303030303030303,
      "grad_norm": 1.5910045148895993,
      "kl": 0.0006116151809692383,
      "learning_rate": 2e-07,
      "loss": -0.05511324405670166,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.34166667647659776,
      "reward_std": 0.3701108664274216,
      "rewards/MultiModalAccuracyORM": 0.34166667647659776,
      "step": 255,
      "train_speed(iter/s)": 0.03329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.85,
      "epoch": 0.10505050505050505,
      "grad_norm": 1.8789057522234565,
      "kl": 0.0006687164306640625,
      "learning_rate": 2e-07,
      "loss": 0.08147464394569397,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000037252903,
      "reward_std": 0.3494287371635437,
      "rewards/MultiModalAccuracyORM": 0.3500000037252903,
      "step": 260,
      "train_speed(iter/s)": 0.033421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 327.0,
      "epoch": 0.10707070707070707,
      "grad_norm": 1.685788699755795,
      "kl": 0.00030879974365234376,
      "learning_rate": 2e-07,
      "loss": 0.0021983295679092406,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333358168602,
      "reward_std": 0.3010816007852554,
      "rewards/MultiModalAccuracyORM": 0.2083333358168602,
      "step": 265,
      "train_speed(iter/s)": 0.033374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 380.5,
      "epoch": 0.10909090909090909,
      "grad_norm": 2.9700739773322695,
      "kl": 0.00040111541748046877,
      "learning_rate": 2e-07,
      "loss": -0.004064649343490601,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333730697632,
      "reward_std": 0.33526621460914613,
      "rewards/MultiModalAccuracyORM": 0.15833333730697632,
      "step": 270,
      "train_speed(iter/s)": 0.033364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.25,
      "epoch": 0.1111111111111111,
      "grad_norm": 1.5939506920216808,
      "kl": 0.00045032501220703124,
      "learning_rate": 2e-07,
      "loss": 0.026332959532737732,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.2526735752820969,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 275,
      "train_speed(iter/s)": 0.033468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.5,
      "epoch": 0.11313131313131314,
      "grad_norm": 1.3058289755881347,
      "kl": 0.000375831127166748,
      "learning_rate": 2e-07,
      "loss": 0.027166426181793213,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.32500001341104506,
      "reward_std": 0.37195890247821806,
      "rewards/MultiModalAccuracyORM": 0.32500001341104506,
      "step": 280,
      "train_speed(iter/s)": 0.033383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 361.05,
      "epoch": 0.11515151515151516,
      "grad_norm": 0.5211592745612927,
      "kl": 0.0004334449768066406,
      "learning_rate": 2e-07,
      "loss": -0.001045474410057068,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000149011612,
      "reward_std": 0.1808116167783737,
      "rewards/MultiModalAccuracyORM": 0.22500000149011612,
      "step": 285,
      "train_speed(iter/s)": 0.03333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.25,
      "epoch": 0.11717171717171718,
      "grad_norm": 1.9995357461573446,
      "kl": 0.0005333900451660156,
      "learning_rate": 2e-07,
      "loss": -0.00281745046377182,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333656191825,
      "reward_std": 0.3385071337223053,
      "rewards/MultiModalAccuracyORM": 0.18333333656191825,
      "step": 290,
      "train_speed(iter/s)": 0.033413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.1,
      "epoch": 0.1191919191919192,
      "grad_norm": 3.694756818436622,
      "kl": 0.0010143280029296874,
      "learning_rate": 2e-07,
      "loss": -0.003062787652015686,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333879709244,
      "reward_std": 0.314164274930954,
      "rewards/MultiModalAccuracyORM": 0.15833333879709244,
      "step": 295,
      "train_speed(iter/s)": 0.03345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 393.25,
      "epoch": 0.12121212121212122,
      "grad_norm": 1.5577866137872902,
      "kl": 0.00044269561767578124,
      "learning_rate": 2e-07,
      "loss": -0.022827643156051635,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333447575569,
      "reward_std": 0.3393001317977905,
      "rewards/MultiModalAccuracyORM": 0.2583333447575569,
      "step": 300,
      "train_speed(iter/s)": 0.033327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.25,
      "epoch": 0.12323232323232323,
      "grad_norm": 0.8793802822161716,
      "kl": 0.00045299530029296875,
      "learning_rate": 2e-07,
      "loss": 0.039026769995689395,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2333333395421505,
      "reward_std": 0.33277973234653474,
      "rewards/MultiModalAccuracyORM": 0.2333333395421505,
      "step": 305,
      "train_speed(iter/s)": 0.032887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.3,
      "epoch": 0.12525252525252525,
      "grad_norm": 1.9841151826732792,
      "kl": 0.0006313323974609375,
      "learning_rate": 2e-07,
      "loss": -0.006224775314331054,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334252238275,
      "reward_std": 0.31441850066184995,
      "rewards/MultiModalAccuracyORM": 0.23333334252238275,
      "step": 310,
      "train_speed(iter/s)": 0.032913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 537.7,
      "epoch": 0.12727272727272726,
      "grad_norm": 1.2729907719968943,
      "kl": 0.0007027626037597656,
      "learning_rate": 2e-07,
      "loss": 0.014832744002342224,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.11666666939854622,
      "reward_std": 0.25891573131084444,
      "rewards/MultiModalAccuracyORM": 0.11666666939854622,
      "step": 315,
      "train_speed(iter/s)": 0.032886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 282.8,
      "epoch": 0.1292929292929293,
      "grad_norm": 0.9148877498687834,
      "kl": 0.000760650634765625,
      "learning_rate": 2e-07,
      "loss": 0.06303757429122925,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.2323044866323471,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 320,
      "train_speed(iter/s)": 0.032974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 404.8,
      "epoch": 0.13131313131313133,
      "grad_norm": 2.00474803214382,
      "kl": 0.0007790565490722656,
      "learning_rate": 2e-07,
      "loss": 0.02660681903362274,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333656191826,
      "reward_std": 0.2486636757850647,
      "rewards/MultiModalAccuracyORM": 0.13333333656191826,
      "step": 325,
      "train_speed(iter/s)": 0.033068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 333.8,
      "epoch": 0.13333333333333333,
      "grad_norm": 1.6448765146368245,
      "kl": 0.0005625724792480469,
      "learning_rate": 2e-07,
      "loss": 0.024477413296699523,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.19166667237877846,
      "reward_std": 0.2629852324724197,
      "rewards/MultiModalAccuracyORM": 0.19166667237877846,
      "step": 330,
      "train_speed(iter/s)": 0.0332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.25,
      "epoch": 0.13535353535353536,
      "grad_norm": 2.2001765187520776,
      "kl": 0.0006697654724121093,
      "learning_rate": 2e-07,
      "loss": 0.07480921745300292,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500001043081285,
      "reward_std": 0.37195890247821806,
      "rewards/MultiModalAccuracyORM": 0.27500001043081285,
      "step": 335,
      "train_speed(iter/s)": 0.033276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.1,
      "epoch": 0.13737373737373737,
      "grad_norm": 0.6836764259374134,
      "kl": 0.0006744384765625,
      "learning_rate": 2e-07,
      "loss": 0.050872421264648436,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667386889457,
      "reward_std": 0.25897533297538755,
      "rewards/MultiModalAccuracyORM": 0.36666667386889457,
      "step": 340,
      "train_speed(iter/s)": 0.033397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.0,
      "epoch": 0.1393939393939394,
      "grad_norm": 0.02974363962833146,
      "kl": 0.0007775306701660156,
      "learning_rate": 2e-07,
      "loss": -0.00942653715610504,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1500000037252903,
      "reward_std": 0.1933199405670166,
      "rewards/MultiModalAccuracyORM": 0.1500000037252903,
      "step": 345,
      "train_speed(iter/s)": 0.033409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.15,
      "epoch": 0.1414141414141414,
      "grad_norm": 2.153809687333121,
      "kl": 0.00106048583984375,
      "learning_rate": 2e-07,
      "loss": -0.04788823127746582,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333425223827,
      "reward_std": 0.3908641755580902,
      "rewards/MultiModalAccuracyORM": 0.3833333425223827,
      "step": 350,
      "train_speed(iter/s)": 0.033484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.95,
      "epoch": 0.14343434343434344,
      "grad_norm": 2.9003800421035084,
      "kl": 0.001187896728515625,
      "learning_rate": 2e-07,
      "loss": -0.025590839982032775,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1500000014901161,
      "reward_std": 0.24484840035438538,
      "rewards/MultiModalAccuracyORM": 0.1500000014901161,
      "step": 355,
      "train_speed(iter/s)": 0.033613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 258.15,
      "epoch": 0.14545454545454545,
      "grad_norm": 1.3041121484800926,
      "kl": 0.001438140869140625,
      "learning_rate": 2e-07,
      "loss": 0.10738253593444824,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333656191825,
      "reward_std": 0.3196970522403717,
      "rewards/MultiModalAccuracyORM": 0.18333333656191825,
      "step": 360,
      "train_speed(iter/s)": 0.033727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 380.15,
      "epoch": 0.14747474747474748,
      "grad_norm": 0.8360441109730193,
      "kl": 0.00127105712890625,
      "learning_rate": 2e-07,
      "loss": -0.003975853323936462,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.05000000149011612,
      "reward_std": 0.13558491468429565,
      "rewards/MultiModalAccuracyORM": 0.05000000149011612,
      "step": 365,
      "train_speed(iter/s)": 0.033745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.6,
      "epoch": 0.1494949494949495,
      "grad_norm": 2.3979328705343153,
      "kl": 0.001323699951171875,
      "learning_rate": 2e-07,
      "loss": -0.048431962728500366,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000521540644,
      "reward_std": 0.35312480926513673,
      "rewards/MultiModalAccuracyORM": 0.25000000521540644,
      "step": 370,
      "train_speed(iter/s)": 0.033877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.2,
      "epoch": 0.15151515151515152,
      "grad_norm": 1.5241819642025198,
      "kl": 0.0015224456787109376,
      "learning_rate": 2e-07,
      "loss": 0.08156558275222778,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666768491268,
      "reward_std": 0.30183603167533873,
      "rewards/MultiModalAccuracyORM": 0.3916666768491268,
      "step": 375,
      "train_speed(iter/s)": 0.033941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 318.7,
      "epoch": 0.15353535353535352,
      "grad_norm": 1.4091270455051919,
      "kl": 0.0014804840087890626,
      "learning_rate": 2e-07,
      "loss": -0.005422207713127136,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333656191826,
      "reward_std": 0.29863070249557494,
      "rewards/MultiModalAccuracyORM": 0.25833333656191826,
      "step": 380,
      "train_speed(iter/s)": 0.03401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 332.4,
      "epoch": 0.15555555555555556,
      "grad_norm": 1.7741695775671322,
      "kl": 0.0017261505126953125,
      "learning_rate": 2e-07,
      "loss": 0.013069793581962585,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.35833334028720853,
      "reward_std": 0.41791602969169617,
      "rewards/MultiModalAccuracyORM": 0.35833334028720853,
      "step": 385,
      "train_speed(iter/s)": 0.034132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.15,
      "epoch": 0.15757575757575756,
      "grad_norm": 2.1621073881433954,
      "kl": 0.001946258544921875,
      "learning_rate": 2e-07,
      "loss": 0.018825350701808928,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2000000074505806,
      "reward_std": 0.329024064540863,
      "rewards/MultiModalAccuracyORM": 0.2000000074505806,
      "step": 390,
      "train_speed(iter/s)": 0.034186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 393.7,
      "epoch": 0.1595959595959596,
      "grad_norm": 1.8573956206789706,
      "kl": 0.0013622283935546876,
      "learning_rate": 2e-07,
      "loss": 0.01834181547164917,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333380520344,
      "reward_std": 0.33226497769355773,
      "rewards/MultiModalAccuracyORM": 0.2583333380520344,
      "step": 395,
      "train_speed(iter/s)": 0.034168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 319.05,
      "epoch": 0.16161616161616163,
      "grad_norm": 2.2110728171395646,
      "kl": 0.0019084930419921875,
      "learning_rate": 2e-07,
      "loss": 0.019550779461860658,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000521540642,
      "reward_std": 0.3008869707584381,
      "rewards/MultiModalAccuracyORM": 0.20000000521540642,
      "step": 400,
      "train_speed(iter/s)": 0.034255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 263.5,
      "epoch": 0.16363636363636364,
      "grad_norm": 2.2884019112467,
      "kl": 0.00233917236328125,
      "learning_rate": 2e-07,
      "loss": 0.00730045884847641,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000819563866,
      "reward_std": 0.32297652661800386,
      "rewards/MultiModalAccuracyORM": 0.30000000819563866,
      "step": 405,
      "train_speed(iter/s)": 0.034354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.95,
      "epoch": 0.16565656565656567,
      "grad_norm": 3.384921120442682,
      "kl": 0.001834869384765625,
      "learning_rate": 2e-07,
      "loss": 0.02867870032787323,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30833334401249884,
      "reward_std": 0.3604020655155182,
      "rewards/MultiModalAccuracyORM": 0.30833334401249884,
      "step": 410,
      "train_speed(iter/s)": 0.034303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 380.85,
      "epoch": 0.16767676767676767,
      "grad_norm": 2.578682884841481,
      "kl": 0.0019824981689453127,
      "learning_rate": 2e-07,
      "loss": 0.007520823180675507,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333656191827,
      "reward_std": 0.24105713665485382,
      "rewards/MultiModalAccuracyORM": 0.20833333656191827,
      "step": 415,
      "train_speed(iter/s)": 0.034306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 223.9,
      "epoch": 0.1696969696969697,
      "grad_norm": 2.841135168153006,
      "kl": 0.003629302978515625,
      "learning_rate": 2e-07,
      "loss": 0.008403807878494263,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4166666746139526,
      "reward_std": 0.31846399009227755,
      "rewards/MultiModalAccuracyORM": 0.4166666746139526,
      "step": 420,
      "train_speed(iter/s)": 0.034394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.0,
      "epoch": 0.1717171717171717,
      "grad_norm": 1.3952154788825455,
      "kl": 0.0026947021484375,
      "learning_rate": 2e-07,
      "loss": 0.016321972012519836,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3750000104308128,
      "reward_std": 0.3541358977556229,
      "rewards/MultiModalAccuracyORM": 0.3750000104308128,
      "step": 425,
      "train_speed(iter/s)": 0.034427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.85,
      "epoch": 0.17373737373737375,
      "grad_norm": 2.642228792263709,
      "kl": 0.0035511016845703124,
      "learning_rate": 2e-07,
      "loss": 0.04757256805896759,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000059604645,
      "reward_std": 0.27122943103313446,
      "rewards/MultiModalAccuracyORM": 0.3000000059604645,
      "step": 430,
      "train_speed(iter/s)": 0.034492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 357.9,
      "epoch": 0.17575757575757575,
      "grad_norm": 2.3061110590781433,
      "kl": 0.0025909423828125,
      "learning_rate": 2e-07,
      "loss": -0.02955559492111206,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000819563863,
      "reward_std": 0.42218015491962435,
      "rewards/MultiModalAccuracyORM": 0.27500000819563863,
      "step": 435,
      "train_speed(iter/s)": 0.034539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.9,
      "epoch": 0.17777777777777778,
      "grad_norm": 0.03487250614691778,
      "kl": 0.00295562744140625,
      "learning_rate": 2e-07,
      "loss": 0.03084596395492554,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333432674407,
      "reward_std": 0.2657532900571823,
      "rewards/MultiModalAccuracyORM": 0.15833333432674407,
      "step": 440,
      "train_speed(iter/s)": 0.034613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 357.5,
      "epoch": 0.1797979797979798,
      "grad_norm": 1.8186333166660678,
      "kl": 0.0029296875,
      "learning_rate": 2e-07,
      "loss": -0.008677978813648225,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333358168602,
      "reward_std": 0.23004821836948394,
      "rewards/MultiModalAccuracyORM": 0.3083333358168602,
      "step": 445,
      "train_speed(iter/s)": 0.034594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 277.7,
      "epoch": 0.18181818181818182,
      "grad_norm": 1.5483724144717876,
      "kl": 0.003802490234375,
      "learning_rate": 2e-07,
      "loss": -0.010931169986724854,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667461395264,
      "reward_std": 0.36794900298118594,
      "rewards/MultiModalAccuracyORM": 0.21666667461395264,
      "step": 450,
      "train_speed(iter/s)": 0.034617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 442.1,
      "epoch": 0.18383838383838383,
      "grad_norm": 0.8802169915779423,
      "kl": 0.00302734375,
      "learning_rate": 2e-07,
      "loss": -0.04651644229888916,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000596046448,
      "reward_std": 0.2963056802749634,
      "rewards/MultiModalAccuracyORM": 0.15000000596046448,
      "step": 455,
      "train_speed(iter/s)": 0.034674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 329.5,
      "epoch": 0.18585858585858586,
      "grad_norm": 1.6049021687383316,
      "kl": 0.00660247802734375,
      "learning_rate": 2e-07,
      "loss": 0.008616116642951966,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333656191826,
      "reward_std": 0.25741389989852903,
      "rewards/MultiModalAccuracyORM": 0.25833333656191826,
      "step": 460,
      "train_speed(iter/s)": 0.034754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 316.5,
      "epoch": 0.18787878787878787,
      "grad_norm": 2.893110887441056,
      "kl": 0.002629852294921875,
      "learning_rate": 2e-07,
      "loss": 0.0028022266924381256,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000001415610315,
      "reward_std": 0.4707459330558777,
      "rewards/MultiModalAccuracyORM": 0.40000001415610315,
      "step": 465,
      "train_speed(iter/s)": 0.034821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.5,
      "epoch": 0.1898989898989899,
      "grad_norm": 2.1102869760511584,
      "kl": 0.0035003662109375,
      "learning_rate": 2e-07,
      "loss": 0.0047733023762702945,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000670552254,
      "reward_std": 0.3082119345664978,
      "rewards/MultiModalAccuracyORM": 0.20000000670552254,
      "step": 470,
      "train_speed(iter/s)": 0.034862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.1,
      "epoch": 0.1919191919191919,
      "grad_norm": 2.403767582762209,
      "kl": 0.00347442626953125,
      "learning_rate": 2e-07,
      "loss": 0.0637534499168396,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.5083333484828472,
      "reward_std": 0.34557787179946897,
      "rewards/MultiModalAccuracyORM": 0.5083333484828472,
      "step": 475,
      "train_speed(iter/s)": 0.03495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 348.65,
      "epoch": 0.19393939393939394,
      "grad_norm": 0.6979791277265925,
      "kl": 0.00365142822265625,
      "learning_rate": 2e-07,
      "loss": -0.04180996119976044,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667088866236,
      "reward_std": 0.32826719582080843,
      "rewards/MultiModalAccuracyORM": 0.26666667088866236,
      "step": 480,
      "train_speed(iter/s)": 0.034951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.85,
      "epoch": 0.19595959595959597,
      "grad_norm": 0.0525932465492366,
      "kl": 0.00377197265625,
      "learning_rate": 2e-07,
      "loss": -0.014869007468223571,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4000000052154064,
      "reward_std": 0.20967912971973418,
      "rewards/MultiModalAccuracyORM": 0.4000000052154064,
      "step": 485,
      "train_speed(iter/s)": 0.035021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.1,
      "epoch": 0.19797979797979798,
      "grad_norm": 1.6281647114218305,
      "kl": 0.004177093505859375,
      "learning_rate": 2e-07,
      "loss": 0.015925824642181396,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.3227578908205032,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 490,
      "train_speed(iter/s)": 0.035088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 329.75,
      "epoch": 0.2,
      "grad_norm": 1.984961473458151,
      "kl": 0.00326995849609375,
      "learning_rate": 2e-07,
      "loss": -0.0037449508905410766,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000819563863,
      "reward_std": 0.2855509877204895,
      "rewards/MultiModalAccuracyORM": 0.27500000819563863,
      "step": 495,
      "train_speed(iter/s)": 0.035113
    },
    {
      "epoch": 0.20202020202020202,
      "grad_norm": 0.6734714455829673,
      "learning_rate": 2e-07,
      "loss": -0.013085539638996124,
      "memory(GiB)": 87.45,
      "step": 500,
      "train_speed(iter/s)": 0.035182
    },
    {
      "epoch": 0.20202020202020202,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 363.1450085449219,
      "eval_kl": 0.003147125244140625,
      "eval_loss": 0.024374496191740036,
      "eval_response_clip_ratio": 0.003333333432674408,
      "eval_reward": 0.26666667237877845,
      "eval_reward_std": 0.28797652542591096,
      "eval_rewards/MultiModalAccuracyORM": 0.26666667237877845,
      "eval_runtime": 597.4581,
      "eval_samples_per_second": 0.084,
      "eval_steps_per_second": 0.008,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.4,
      "epoch": 0.20404040404040405,
      "grad_norm": 2.0097245676314053,
      "kl": 0.002962684631347656,
      "learning_rate": 2e-07,
      "loss": 0.008341678977012634,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22916666902601718,
      "reward_std": 0.28844616413116453,
      "rewards/MultiModalAccuracyORM": 0.22916666902601718,
      "step": 505,
      "train_speed(iter/s)": 0.033026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.15,
      "epoch": 0.20606060606060606,
      "grad_norm": 0.04671524557136776,
      "kl": 0.004395294189453125,
      "learning_rate": 2e-07,
      "loss": 0.019101715087890624,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333656191827,
      "reward_std": 0.22704698145389557,
      "rewards/MultiModalAccuracyORM": 0.20833333656191827,
      "step": 510,
      "train_speed(iter/s)": 0.033029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 390.65,
      "epoch": 0.2080808080808081,
      "grad_norm": 1.7656462373703843,
      "kl": 0.003029632568359375,
      "learning_rate": 2e-07,
      "loss": 0.04230659604072571,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000521540642,
      "reward_std": 0.248858305811882,
      "rewards/MultiModalAccuracyORM": 0.22500000521540642,
      "step": 515,
      "train_speed(iter/s)": 0.032925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 313.8,
      "epoch": 0.2101010101010101,
      "grad_norm": 1.2593604182587,
      "kl": 0.0040802001953125,
      "learning_rate": 2e-07,
      "loss": -0.0020169973373413085,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4583333432674408,
      "reward_std": 0.4390155434608459,
      "rewards/MultiModalAccuracyORM": 0.4583333432674408,
      "step": 520,
      "train_speed(iter/s)": 0.032885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.7,
      "epoch": 0.21212121212121213,
      "grad_norm": 10.635733115288671,
      "kl": 0.006873321533203125,
      "learning_rate": 2e-07,
      "loss": 0.013639546930789948,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000447034837,
      "reward_std": 0.29108133912086487,
      "rewards/MultiModalAccuracyORM": 0.25000000447034837,
      "step": 525,
      "train_speed(iter/s)": 0.032731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 335.65,
      "epoch": 0.21414141414141413,
      "grad_norm": 2.2605304578434664,
      "kl": 0.00481109619140625,
      "learning_rate": 2e-07,
      "loss": 0.029361778497695924,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667610406877,
      "reward_std": 0.3948740750551224,
      "rewards/MultiModalAccuracyORM": 0.29166667610406877,
      "step": 530,
      "train_speed(iter/s)": 0.032671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 300.95,
      "epoch": 0.21616161616161617,
      "grad_norm": 3.233553935601456,
      "kl": 0.005239105224609375,
      "learning_rate": 2e-07,
      "loss": -0.02358839809894562,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000670552254,
      "reward_std": 0.39305841624736787,
      "rewards/MultiModalAccuracyORM": 0.32500000670552254,
      "step": 535,
      "train_speed(iter/s)": 0.032679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.15,
      "epoch": 0.21818181818181817,
      "grad_norm": 1.4435208932830024,
      "kl": 0.0038543701171875,
      "learning_rate": 2e-07,
      "loss": 0.012015002965927123,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.14166666939854622,
      "reward_std": 0.2184889554977417,
      "rewards/MultiModalAccuracyORM": 0.14166666939854622,
      "step": 540,
      "train_speed(iter/s)": 0.032663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 280.7,
      "epoch": 0.2202020202020202,
      "grad_norm": 2.124111886424564,
      "kl": 0.00633544921875,
      "learning_rate": 2e-07,
      "loss": 0.016453295946121216,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.43333334773778914,
      "reward_std": 0.40082641541957853,
      "rewards/MultiModalAccuracyORM": 0.43333334773778914,
      "step": 545,
      "train_speed(iter/s)": 0.032702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 405.4,
      "epoch": 0.2222222222222222,
      "grad_norm": 2.528384017814939,
      "kl": 0.004555511474609375,
      "learning_rate": 2e-07,
      "loss": -0.013006833195686341,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2333333410322666,
      "reward_std": 0.3478317141532898,
      "rewards/MultiModalAccuracyORM": 0.2333333410322666,
      "step": 550,
      "train_speed(iter/s)": 0.032503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.4,
      "epoch": 0.22424242424242424,
      "grad_norm": 2.5915001907307977,
      "kl": 0.00524749755859375,
      "learning_rate": 2e-07,
      "loss": 0.02111098766326904,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666753590107,
      "reward_std": 0.3644451290369034,
      "rewards/MultiModalAccuracyORM": 0.2916666753590107,
      "step": 555,
      "train_speed(iter/s)": 0.032469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.65,
      "epoch": 0.22626262626262628,
      "grad_norm": 1.5712795723400375,
      "kl": 0.004864501953125,
      "learning_rate": 2e-07,
      "loss": 0.06747217178344726,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667386889457,
      "reward_std": 0.30639870166778566,
      "rewards/MultiModalAccuracyORM": 0.21666667386889457,
      "step": 560,
      "train_speed(iter/s)": 0.032374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.25,
      "epoch": 0.22828282828282828,
      "grad_norm": 2.1872516406963483,
      "kl": 0.0059844970703125,
      "learning_rate": 2e-07,
      "loss": -0.01907222718000412,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333656191825,
      "reward_std": 0.27402731478214265,
      "rewards/MultiModalAccuracyORM": 0.18333333656191825,
      "step": 565,
      "train_speed(iter/s)": 0.03236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 252.8,
      "epoch": 0.23030303030303031,
      "grad_norm": 1.9388301349526922,
      "kl": 0.00828857421875,
      "learning_rate": 2e-07,
      "loss": 0.0710361123085022,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333507180214,
      "reward_std": 0.26670235097408296,
      "rewards/MultiModalAccuracyORM": 0.28333333507180214,
      "step": 570,
      "train_speed(iter/s)": 0.032388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.4,
      "epoch": 0.23232323232323232,
      "grad_norm": 2.0643763651689424,
      "kl": 0.0043544769287109375,
      "learning_rate": 2e-07,
      "loss": 0.038624811172485354,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667386889455,
      "reward_std": 0.38400964736938475,
      "rewards/MultiModalAccuracyORM": 0.29166667386889455,
      "step": 575,
      "train_speed(iter/s)": 0.032305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.45,
      "epoch": 0.23434343434343435,
      "grad_norm": 2.5185952971698566,
      "kl": 0.00495452880859375,
      "learning_rate": 2e-07,
      "loss": 0.02923307418823242,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667461395264,
      "reward_std": 0.35012357234954833,
      "rewards/MultiModalAccuracyORM": 0.36666667461395264,
      "step": 580,
      "train_speed(iter/s)": 0.032206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.9,
      "epoch": 0.23636363636363636,
      "grad_norm": 1.8128917450324007,
      "kl": 0.0055450439453125,
      "learning_rate": 2e-07,
      "loss": 0.013245610892772675,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333879709244,
      "reward_std": 0.23710441291332246,
      "rewards/MultiModalAccuracyORM": 0.28333333879709244,
      "step": 585,
      "train_speed(iter/s)": 0.032276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 355.4,
      "epoch": 0.2383838383838384,
      "grad_norm": 4.329439973170006,
      "kl": 0.00757293701171875,
      "learning_rate": 2e-07,
      "loss": -0.0028860807418823243,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000819563867,
      "reward_std": 0.30661733746528624,
      "rewards/MultiModalAccuracyORM": 0.25000000819563867,
      "step": 590,
      "train_speed(iter/s)": 0.032341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.8,
      "epoch": 0.2404040404040404,
      "grad_norm": 1.8156019329792383,
      "kl": 0.005291748046875,
      "learning_rate": 2e-07,
      "loss": -0.004809608310461044,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4166666753590107,
      "reward_std": 0.40967183113098143,
      "rewards/MultiModalAccuracyORM": 0.4166666753590107,
      "step": 595,
      "train_speed(iter/s)": 0.032425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.65,
      "epoch": 0.24242424242424243,
      "grad_norm": 1.6812944635615767,
      "kl": 0.0045440673828125,
      "learning_rate": 2e-07,
      "loss": 0.0016623079776763917,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667312383653,
      "reward_std": 0.35134140253067014,
      "rewards/MultiModalAccuracyORM": 0.21666667312383653,
      "step": 600,
      "train_speed(iter/s)": 0.032411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 344.4,
      "epoch": 0.24444444444444444,
      "grad_norm": 2.089820121690527,
      "kl": 0.00710906982421875,
      "learning_rate": 2e-07,
      "loss": -0.028999322652816774,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666738688946,
      "reward_std": 0.33552044034004214,
      "rewards/MultiModalAccuracyORM": 0.2666666738688946,
      "step": 605,
      "train_speed(iter/s)": 0.032494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 246.75,
      "epoch": 0.24646464646464647,
      "grad_norm": 2.728310100204588,
      "kl": 0.00543060302734375,
      "learning_rate": 2e-07,
      "loss": 0.03924176394939423,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666716337204,
      "reward_std": 0.27078639566898344,
      "rewards/MultiModalAccuracyORM": 0.1916666716337204,
      "step": 610,
      "train_speed(iter/s)": 0.032569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.2,
      "epoch": 0.24848484848484848,
      "grad_norm": 1.3175052417192106,
      "kl": 0.00468902587890625,
      "learning_rate": 2e-07,
      "loss": 0.038245481252670285,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000067055225,
      "reward_std": 0.4048719048500061,
      "rewards/MultiModalAccuracyORM": 0.2500000067055225,
      "step": 615,
      "train_speed(iter/s)": 0.032501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 344.7,
      "epoch": 0.2505050505050505,
      "grad_norm": 1.9529912685373527,
      "kl": 0.00550537109375,
      "learning_rate": 2e-07,
      "loss": 0.011770330369472504,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666753590107,
      "reward_std": 0.2895964771509171,
      "rewards/MultiModalAccuracyORM": 0.3916666753590107,
      "step": 620,
      "train_speed(iter/s)": 0.032477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 382.75,
      "epoch": 0.25252525252525254,
      "grad_norm": 0.05113023046556139,
      "kl": 0.00566864013671875,
      "learning_rate": 2e-07,
      "loss": 0.01361861228942871,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2333333358168602,
      "reward_std": 0.275274920463562,
      "rewards/MultiModalAccuracyORM": 0.2333333358168602,
      "step": 625,
      "train_speed(iter/s)": 0.032463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.15,
      "epoch": 0.2545454545454545,
      "grad_norm": 2.556743977258531,
      "kl": 0.005108642578125,
      "learning_rate": 2e-07,
      "loss": 0.014950770139694213,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333425223827,
      "reward_std": 0.34713688492774963,
      "rewards/MultiModalAccuracyORM": 0.3333333425223827,
      "step": 630,
      "train_speed(iter/s)": 0.032484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.15,
      "epoch": 0.25656565656565655,
      "grad_norm": 2.2423462644187624,
      "kl": 0.004283905029296875,
      "learning_rate": 2e-07,
      "loss": 0.008650130033493042,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333395421505,
      "reward_std": 0.28752902448177337,
      "rewards/MultiModalAccuracyORM": 0.1833333395421505,
      "step": 635,
      "train_speed(iter/s)": 0.032416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.15,
      "epoch": 0.2585858585858586,
      "grad_norm": 2.7318256637713327,
      "kl": 0.0051483154296875,
      "learning_rate": 2e-07,
      "loss": 0.021026265621185303,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000111758709,
      "reward_std": 0.29385479390621183,
      "rewards/MultiModalAccuracyORM": 0.2500000111758709,
      "step": 640,
      "train_speed(iter/s)": 0.032398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.9,
      "epoch": 0.2606060606060606,
      "grad_norm": 0.04170508484645814,
      "kl": 0.00531463623046875,
      "learning_rate": 2e-07,
      "loss": -0.04355872869491577,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000819563867,
      "reward_std": 0.3089067697525024,
      "rewards/MultiModalAccuracyORM": 0.25000000819563867,
      "step": 645,
      "train_speed(iter/s)": 0.032375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 407.55,
      "epoch": 0.26262626262626265,
      "grad_norm": 1.2451580073322923,
      "kl": 0.003839111328125,
      "learning_rate": 2e-07,
      "loss": 0.00021180734038352966,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667461395266,
      "reward_std": 0.2676923930644989,
      "rewards/MultiModalAccuracyORM": 0.26666667461395266,
      "step": 650,
      "train_speed(iter/s)": 0.032327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.75,
      "epoch": 0.26464646464646463,
      "grad_norm": 1.9808716749773743,
      "kl": 0.00391082763671875,
      "learning_rate": 2e-07,
      "loss": 0.026480630040168762,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000670552253,
      "reward_std": 0.2817953139543533,
      "rewards/MultiModalAccuracyORM": 0.22500000670552253,
      "step": 655,
      "train_speed(iter/s)": 0.032322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.85,
      "epoch": 0.26666666666666666,
      "grad_norm": 1.1399233339835215,
      "kl": 0.004100799560546875,
      "learning_rate": 2e-07,
      "loss": -0.02441052794456482,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333380520344,
      "reward_std": 0.25897533297538755,
      "rewards/MultiModalAccuracyORM": 0.1833333380520344,
      "step": 660,
      "train_speed(iter/s)": 0.032385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 254.3,
      "epoch": 0.2686868686868687,
      "grad_norm": 2.4222117834215964,
      "kl": 0.0057952880859375,
      "learning_rate": 2e-07,
      "loss": 0.01856023073196411,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2166666716337204,
      "reward_std": 0.3348231792449951,
      "rewards/MultiModalAccuracyORM": 0.2166666716337204,
      "step": 665,
      "train_speed(iter/s)": 0.032448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 360.55,
      "epoch": 0.27070707070707073,
      "grad_norm": 2.596880019981878,
      "kl": 0.0034820556640625,
      "learning_rate": 2e-07,
      "loss": -0.004870015382766724,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000001192092893,
      "reward_std": 0.3786772578954697,
      "rewards/MultiModalAccuracyORM": 0.40000001192092893,
      "step": 670,
      "train_speed(iter/s)": 0.032507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.2,
      "epoch": 0.2727272727272727,
      "grad_norm": 1.261892143617939,
      "kl": 0.003546142578125,
      "learning_rate": 2e-07,
      "loss": 0.018378911912441252,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667088866234,
      "reward_std": 0.25365822613239286,
      "rewards/MultiModalAccuracyORM": 0.24166667088866234,
      "step": 675,
      "train_speed(iter/s)": 0.032509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.15,
      "epoch": 0.27474747474747474,
      "grad_norm": 1.5125590979703638,
      "kl": 0.00487823486328125,
      "learning_rate": 2e-07,
      "loss": -0.004463189840316772,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000596046446,
      "reward_std": 0.2488823115825653,
      "rewards/MultiModalAccuracyORM": 0.25000000596046446,
      "step": 680,
      "train_speed(iter/s)": 0.03256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 461.15,
      "epoch": 0.2767676767676768,
      "grad_norm": 0.0206379809755319,
      "kl": 0.00426177978515625,
      "learning_rate": 2e-07,
      "loss": 0.021875476837158202,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.11666666865348815,
      "reward_std": 0.26496326327323916,
      "rewards/MultiModalAccuracyORM": 0.11666666865348815,
      "step": 685,
      "train_speed(iter/s)": 0.032514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 333.5,
      "epoch": 0.2787878787878788,
      "grad_norm": 2.5475669372401737,
      "kl": 0.00420379638671875,
      "learning_rate": 2e-07,
      "loss": 0.004043090343475342,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000447034836,
      "reward_std": 0.30210480093955994,
      "rewards/MultiModalAccuracyORM": 0.15000000447034836,
      "step": 690,
      "train_speed(iter/s)": 0.032521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.7,
      "epoch": 0.2808080808080808,
      "grad_norm": 1.5500150159182102,
      "kl": 0.00518798828125,
      "learning_rate": 2e-07,
      "loss": -0.023865307867527007,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333343267441,
      "reward_std": 0.1683032989501953,
      "rewards/MultiModalAccuracyORM": 0.1833333343267441,
      "step": 695,
      "train_speed(iter/s)": 0.032416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 372.35,
      "epoch": 0.2828282828282828,
      "grad_norm": 1.9962407432487237,
      "kl": 0.005457305908203125,
      "learning_rate": 2e-07,
      "loss": -0.028327393531799316,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.2250000037252903,
      "reward_std": 0.2099333554506302,
      "rewards/MultiModalAccuracyORM": 0.2250000037252903,
      "step": 700,
      "train_speed(iter/s)": 0.032361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 313.4,
      "epoch": 0.28484848484848485,
      "grad_norm": 1.6074003724487615,
      "kl": 0.00528717041015625,
      "learning_rate": 2e-07,
      "loss": 0.014926820993423462,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333410322666,
      "reward_std": 0.27223809361457824,
      "rewards/MultiModalAccuracyORM": 0.3083333410322666,
      "step": 705,
      "train_speed(iter/s)": 0.032343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 286.5,
      "epoch": 0.2868686868686869,
      "grad_norm": 1.6995014935336248,
      "kl": 0.0051483154296875,
      "learning_rate": 2e-07,
      "loss": -0.019916635751724244,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.24885829985141755,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 710,
      "train_speed(iter/s)": 0.032338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.3,
      "epoch": 0.28888888888888886,
      "grad_norm": 2.5308810289000134,
      "kl": 0.00496978759765625,
      "learning_rate": 2e-07,
      "loss": 0.01712719202041626,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000447034834,
      "reward_std": 0.3906455457210541,
      "rewards/MultiModalAccuracyORM": 0.40000000447034834,
      "step": 715,
      "train_speed(iter/s)": 0.03227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.2,
      "epoch": 0.2909090909090909,
      "grad_norm": 3.1179537828506865,
      "kl": 0.00511016845703125,
      "learning_rate": 2e-07,
      "loss": -0.0032517150044441222,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500001043081283,
      "reward_std": 0.3038526177406311,
      "rewards/MultiModalAccuracyORM": 0.22500001043081283,
      "step": 720,
      "train_speed(iter/s)": 0.032189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 339.9,
      "epoch": 0.29292929292929293,
      "grad_norm": 1.3264200657485663,
      "kl": 0.0060546875,
      "learning_rate": 2e-07,
      "loss": 0.005654716491699218,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000059604645,
      "reward_std": 0.2988493382930756,
      "rewards/MultiModalAccuracyORM": 0.2250000059604645,
      "step": 725,
      "train_speed(iter/s)": 0.032186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.65,
      "epoch": 0.29494949494949496,
      "grad_norm": 0.5240042260688945,
      "kl": 0.005621719360351563,
      "learning_rate": 2e-07,
      "loss": 0.010572614520788193,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1750000037252903,
      "reward_std": 0.2945852130651474,
      "rewards/MultiModalAccuracyORM": 0.1750000037252903,
      "step": 730,
      "train_speed(iter/s)": 0.032129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.2,
      "epoch": 0.296969696969697,
      "grad_norm": 2.049661779713074,
      "kl": 0.00519866943359375,
      "learning_rate": 2e-07,
      "loss": 0.022058649361133574,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333410322666,
      "reward_std": 0.38726511001586916,
      "rewards/MultiModalAccuracyORM": 0.2833333410322666,
      "step": 735,
      "train_speed(iter/s)": 0.032089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 391.25,
      "epoch": 0.298989898989899,
      "grad_norm": 0.962602559613357,
      "kl": 0.0046844482421875,
      "learning_rate": 2e-07,
      "loss": -0.0028517723083496095,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.23328913748264313,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 740,
      "train_speed(iter/s)": 0.032072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 364.5,
      "epoch": 0.301010101010101,
      "grad_norm": 2.0529334461639337,
      "kl": 0.00500030517578125,
      "learning_rate": 2e-07,
      "loss": 0.0314439594745636,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334177732468,
      "reward_std": 0.3212204694747925,
      "rewards/MultiModalAccuracyORM": 0.23333334177732468,
      "step": 745,
      "train_speed(iter/s)": 0.032037
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 1.3580773911974338,
      "learning_rate": 2e-07,
      "loss": -0.007335931062698364,
      "memory(GiB)": 87.45,
      "step": 750,
      "train_speed(iter/s)": 0.032014
    },
    {
      "epoch": 0.30303030303030304,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 352.49667709350587,
      "eval_kl": 0.00640625,
      "eval_loss": 0.002320815809071064,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.2716666729748249,
      "eval_reward_std": 0.33371097803115846,
      "eval_rewards/MultiModalAccuracyORM": 0.2716666729748249,
      "eval_runtime": 876.1057,
      "eval_samples_per_second": 0.057,
      "eval_steps_per_second": 0.006,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 392.55,
      "epoch": 0.30505050505050507,
      "grad_norm": 2.1426610619194815,
      "kl": 0.00631256103515625,
      "learning_rate": 2e-07,
      "loss": -0.040098315477371214,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333656191826,
      "reward_std": 0.22312387079000473,
      "rewards/MultiModalAccuracyORM": 0.13333333656191826,
      "step": 755,
      "train_speed(iter/s)": 0.029206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.4,
      "epoch": 0.30707070707070705,
      "grad_norm": 0.8717248302301553,
      "kl": 0.00636749267578125,
      "learning_rate": 2e-07,
      "loss": 0.015009742975234986,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333358168602,
      "reward_std": 0.2940850019454956,
      "rewards/MultiModalAccuracyORM": 0.2833333358168602,
      "step": 760,
      "train_speed(iter/s)": 0.029162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.8,
      "epoch": 0.3090909090909091,
      "grad_norm": 2.4403464428155925,
      "kl": 0.0062957763671875,
      "learning_rate": 2e-07,
      "loss": 0.019652032852172853,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.45000001043081284,
      "reward_std": 0.3222792655229568,
      "rewards/MultiModalAccuracyORM": 0.45000001043081284,
      "step": 765,
      "train_speed(iter/s)": 0.029211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.35,
      "epoch": 0.3111111111111111,
      "grad_norm": 1.6980769345505524,
      "kl": 0.0074066162109375,
      "learning_rate": 2e-07,
      "loss": 0.018609333038330077,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667833924295,
      "reward_std": 0.4026396483182907,
      "rewards/MultiModalAccuracyORM": 0.31666667833924295,
      "step": 770,
      "train_speed(iter/s)": 0.029164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.35,
      "epoch": 0.31313131313131315,
      "grad_norm": 1.4345330108808567,
      "kl": 0.00540924072265625,
      "learning_rate": 2e-07,
      "loss": 0.034766983985900876,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.26666667088866236,
      "reward_std": 0.3167103588581085,
      "rewards/MultiModalAccuracyORM": 0.26666667088866236,
      "step": 775,
      "train_speed(iter/s)": 0.029127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.5,
      "epoch": 0.3151515151515151,
      "grad_norm": 1.0920815430357467,
      "kl": 0.0054931640625,
      "learning_rate": 2e-07,
      "loss": -7.512569427490235e-05,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.10833333656191826,
      "reward_std": 0.22400068640708923,
      "rewards/MultiModalAccuracyORM": 0.10833333656191826,
      "step": 780,
      "train_speed(iter/s)": 0.029106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.7,
      "epoch": 0.31717171717171716,
      "grad_norm": 1.3732918705207908,
      "kl": 0.00477752685546875,
      "learning_rate": 2e-07,
      "loss": 0.015651023387908934,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2416666679084301,
      "reward_std": 0.23479096889495848,
      "rewards/MultiModalAccuracyORM": 0.2416666679084301,
      "step": 785,
      "train_speed(iter/s)": 0.029052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 453.35,
      "epoch": 0.3191919191919192,
      "grad_norm": 2.1057593122144005,
      "kl": 0.00804595947265625,
      "learning_rate": 2e-07,
      "loss": -0.0006304442882537842,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666753590107,
      "reward_std": 0.3619014710187912,
      "rewards/MultiModalAccuracyORM": 0.3166666753590107,
      "step": 790,
      "train_speed(iter/s)": 0.029057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.2,
      "epoch": 0.3212121212121212,
      "grad_norm": 2.3354800713445654,
      "kl": 0.0078216552734375,
      "learning_rate": 2e-07,
      "loss": 0.0310418963432312,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667759418486,
      "reward_std": 0.40556674003601073,
      "rewards/MultiModalAccuracyORM": 0.36666667759418486,
      "step": 795,
      "train_speed(iter/s)": 0.029005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 409.45,
      "epoch": 0.32323232323232326,
      "grad_norm": 2.4825567652901444,
      "kl": 0.0077880859375,
      "learning_rate": 2e-07,
      "loss": 0.021943604946136473,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3666666761040688,
      "reward_std": 0.3470627337694168,
      "rewards/MultiModalAccuracyORM": 0.3666666761040688,
      "step": 800,
      "train_speed(iter/s)": 0.028978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.9,
      "epoch": 0.32525252525252524,
      "grad_norm": 3.589672291824819,
      "kl": 0.00778350830078125,
      "learning_rate": 2e-07,
      "loss": 0.008873769640922546,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666753590107,
      "reward_std": 0.44790194034576414,
      "rewards/MultiModalAccuracyORM": 0.3166666753590107,
      "step": 805,
      "train_speed(iter/s)": 0.028982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.2,
      "epoch": 0.32727272727272727,
      "grad_norm": 2.1262920297539925,
      "kl": 0.0073883056640625,
      "learning_rate": 2e-07,
      "loss": -0.04254024624824524,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333447575569,
      "reward_std": 0.3589002341032028,
      "rewards/MultiModalAccuracyORM": 0.2833333447575569,
      "step": 810,
      "train_speed(iter/s)": 0.029003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 323.9,
      "epoch": 0.3292929292929293,
      "grad_norm": 2.6338345195445965,
      "kl": 0.0073974609375,
      "learning_rate": 2e-07,
      "loss": 0.008789122104644775,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333879709245,
      "reward_std": 0.3563657283782959,
      "rewards/MultiModalAccuracyORM": 0.35833333879709245,
      "step": 815,
      "train_speed(iter/s)": 0.028993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.85,
      "epoch": 0.33131313131313134,
      "grad_norm": 2.540831778543349,
      "kl": 0.0085357666015625,
      "learning_rate": 2e-07,
      "loss": 0.0017573148012161254,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333395421505,
      "reward_std": 0.33755565285682676,
      "rewards/MultiModalAccuracyORM": 0.2583333395421505,
      "step": 820,
      "train_speed(iter/s)": 0.02904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.3,
      "epoch": 0.3333333333333333,
      "grad_norm": 2.280326105508933,
      "kl": 0.011834716796875,
      "learning_rate": 2e-07,
      "loss": -0.016002975404262543,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000596046447,
      "reward_std": 0.24662604331970214,
      "rewards/MultiModalAccuracyORM": 0.17500000596046447,
      "step": 825,
      "train_speed(iter/s)": 0.02907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.05,
      "epoch": 0.33535353535353535,
      "grad_norm": 1.64256260222623,
      "kl": 0.00889892578125,
      "learning_rate": 2e-07,
      "loss": -0.008859094977378846,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000149011612,
      "reward_std": 0.3164917230606079,
      "rewards/MultiModalAccuracyORM": 0.20000000149011612,
      "step": 830,
      "train_speed(iter/s)": 0.029109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.15,
      "epoch": 0.3373737373737374,
      "grad_norm": 0.09646041600368084,
      "kl": 0.0067840576171875,
      "learning_rate": 2e-07,
      "loss": 0.02341327965259552,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000096857548,
      "reward_std": 0.3184880018234253,
      "rewards/MultiModalAccuracyORM": 0.2750000096857548,
      "step": 835,
      "train_speed(iter/s)": 0.028908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.35,
      "epoch": 0.3393939393939394,
      "grad_norm": 0.886588445568382,
      "kl": 0.0066741943359375,
      "learning_rate": 2e-07,
      "loss": 0.011455638706684113,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.34166667312383653,
      "reward_std": 0.3142238825559616,
      "rewards/MultiModalAccuracyORM": 0.34166667312383653,
      "step": 840,
      "train_speed(iter/s)": 0.02878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.75,
      "epoch": 0.3414141414141414,
      "grad_norm": 0.0732846157739433,
      "kl": 0.00753173828125,
      "learning_rate": 2e-07,
      "loss": 0.010994693636894226,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333507180213,
      "reward_std": 0.19786564111709595,
      "rewards/MultiModalAccuracyORM": 0.20833333507180213,
      "step": 845,
      "train_speed(iter/s)": 0.028759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.0,
      "epoch": 0.3434343434343434,
      "grad_norm": 2.016101823545884,
      "kl": 0.00940399169921875,
      "learning_rate": 2e-07,
      "loss": 0.0015551522374153137,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667386889457,
      "reward_std": 0.37221312820911406,
      "rewards/MultiModalAccuracyORM": 0.21666667386889457,
      "step": 850,
      "train_speed(iter/s)": 0.028759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 367.75,
      "epoch": 0.34545454545454546,
      "grad_norm": 1.4804689213107514,
      "kl": 0.0074249267578125,
      "learning_rate": 2e-07,
      "loss": 0.008444362878799438,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000521540644,
      "reward_std": 0.33937130570411683,
      "rewards/MultiModalAccuracyORM": 0.37500000521540644,
      "step": 855,
      "train_speed(iter/s)": 0.02876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 317.1,
      "epoch": 0.3474747474747475,
      "grad_norm": 2.368905519842238,
      "kl": 0.008038330078125,
      "learning_rate": 2e-07,
      "loss": 0.026756054162979125,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000111758709,
      "reward_std": 0.44455128610134126,
      "rewards/MultiModalAccuracyORM": 0.3500000111758709,
      "step": 860,
      "train_speed(iter/s)": 0.028787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 276.85,
      "epoch": 0.34949494949494947,
      "grad_norm": 2.3043935598394203,
      "kl": 0.0070343017578125,
      "learning_rate": 2e-07,
      "loss": 0.059600555896759035,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333432674408,
      "reward_std": 0.3885723173618317,
      "rewards/MultiModalAccuracyORM": 0.2833333432674408,
      "step": 865,
      "train_speed(iter/s)": 0.028814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.95,
      "epoch": 0.3515151515151515,
      "grad_norm": 1.9471040249213727,
      "kl": 0.0069305419921875,
      "learning_rate": 2e-07,
      "loss": 0.028457581996917725,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000596046447,
      "reward_std": 0.2940494120121002,
      "rewards/MultiModalAccuracyORM": 0.17500000596046447,
      "step": 870,
      "train_speed(iter/s)": 0.028708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.5,
      "epoch": 0.35353535353535354,
      "grad_norm": 2.196604109706096,
      "kl": 0.0058319091796875,
      "learning_rate": 2e-07,
      "loss": 0.04532061517238617,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666775941849,
      "reward_std": 0.42524099349975586,
      "rewards/MultiModalAccuracyORM": 0.3916666775941849,
      "step": 875,
      "train_speed(iter/s)": 0.028627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 349.05,
      "epoch": 0.35555555555555557,
      "grad_norm": 1.9101064459839039,
      "kl": 0.0102691650390625,
      "learning_rate": 2e-07,
      "loss": 0.04224415421485901,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000521540643,
      "reward_std": 0.3391170799732208,
      "rewards/MultiModalAccuracyORM": 0.30000000521540643,
      "step": 880,
      "train_speed(iter/s)": 0.028551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 317.75,
      "epoch": 0.3575757575757576,
      "grad_norm": 1.7650856984522036,
      "kl": 0.0097930908203125,
      "learning_rate": 2e-07,
      "loss": 0.031351178884506226,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333425223827,
      "reward_std": 0.27555315792560575,
      "rewards/MultiModalAccuracyORM": 0.3333333425223827,
      "step": 885,
      "train_speed(iter/s)": 0.028585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.05,
      "epoch": 0.3595959595959596,
      "grad_norm": 2.4394117877960615,
      "kl": 0.0123748779296875,
      "learning_rate": 2e-07,
      "loss": 0.01872892677783966,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000521540642,
      "reward_std": 0.30489687621593475,
      "rewards/MultiModalAccuracyORM": 0.22500000521540642,
      "step": 890,
      "train_speed(iter/s)": 0.028637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 476.05,
      "epoch": 0.3616161616161616,
      "grad_norm": 2.3682785721081854,
      "kl": 0.00737762451171875,
      "learning_rate": 2e-07,
      "loss": 0.02124558687210083,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000089406967,
      "reward_std": 0.41817026138305663,
      "rewards/MultiModalAccuracyORM": 0.3500000089406967,
      "step": 895,
      "train_speed(iter/s)": 0.028688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.85,
      "epoch": 0.36363636363636365,
      "grad_norm": 1.3234500775547358,
      "kl": 0.007550048828125,
      "learning_rate": 2e-07,
      "loss": 0.025475236773490905,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333656191825,
      "reward_std": 0.2260383188724518,
      "rewards/MultiModalAccuracyORM": 0.18333333656191825,
      "step": 900,
      "train_speed(iter/s)": 0.028712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.75,
      "epoch": 0.3656565656565657,
      "grad_norm": 3.0802331121314785,
      "kl": 0.0105621337890625,
      "learning_rate": 2e-07,
      "loss": 0.06260026693344116,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166666865348815,
      "reward_std": 0.3003867596387863,
      "rewards/MultiModalAccuracyORM": 0.24166666865348815,
      "step": 905,
      "train_speed(iter/s)": 0.028645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.9,
      "epoch": 0.36767676767676766,
      "grad_norm": 3.596137864021678,
      "kl": 0.01011199951171875,
      "learning_rate": 2e-07,
      "loss": 0.007353886961936951,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4833333432674408,
      "reward_std": 0.38523324131965636,
      "rewards/MultiModalAccuracyORM": 0.4833333432674408,
      "step": 910,
      "train_speed(iter/s)": 0.028662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.65,
      "epoch": 0.3696969696969697,
      "grad_norm": 1.4417889638729746,
      "kl": 0.01177978515625,
      "learning_rate": 2e-07,
      "loss": -0.006625932455062866,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666783392429,
      "reward_std": 0.37195890843868257,
      "rewards/MultiModalAccuracyORM": 0.3416666783392429,
      "step": 915,
      "train_speed(iter/s)": 0.028677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.05,
      "epoch": 0.3717171717171717,
      "grad_norm": 2.8875811253312333,
      "kl": 0.01148529052734375,
      "learning_rate": 2e-07,
      "loss": -3.943443298339844e-05,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667237877847,
      "reward_std": 0.3604352355003357,
      "rewards/MultiModalAccuracyORM": 0.41666667237877847,
      "step": 920,
      "train_speed(iter/s)": 0.028643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.3,
      "epoch": 0.37373737373737376,
      "grad_norm": 1.8636332228250176,
      "kl": 0.0091461181640625,
      "learning_rate": 2e-07,
      "loss": 0.004881632328033447,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333402872086,
      "reward_std": 0.3440760403871536,
      "rewards/MultiModalAccuracyORM": 0.2833333402872086,
      "step": 925,
      "train_speed(iter/s)": 0.028644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 357.4,
      "epoch": 0.37575757575757573,
      "grad_norm": 2.1407505535783242,
      "kl": 0.00869598388671875,
      "learning_rate": 2e-07,
      "loss": 0.05731675624847412,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833334103226663,
      "reward_std": 0.41186849772930145,
      "rewards/MultiModalAccuracyORM": 0.25833334103226663,
      "step": 930,
      "train_speed(iter/s)": 0.028644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.9,
      "epoch": 0.37777777777777777,
      "grad_norm": 3.79021329286614,
      "kl": 0.009942626953125,
      "learning_rate": 2e-07,
      "loss": 0.0477484941482544,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666716337204,
      "reward_std": 0.2674737572669983,
      "rewards/MultiModalAccuracyORM": 0.3166666716337204,
      "step": 935,
      "train_speed(iter/s)": 0.028648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 283.45,
      "epoch": 0.3797979797979798,
      "grad_norm": 2.2451102482111724,
      "kl": 0.012542724609375,
      "learning_rate": 2e-07,
      "loss": -1.335442066192627e-05,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000052154064,
      "reward_std": 0.25591449439525604,
      "rewards/MultiModalAccuracyORM": 0.3500000052154064,
      "step": 940,
      "train_speed(iter/s)": 0.028624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.15,
      "epoch": 0.38181818181818183,
      "grad_norm": 1.4018775780145751,
      "kl": 0.0094390869140625,
      "learning_rate": 2e-07,
      "loss": -0.003527042269706726,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667088866234,
      "reward_std": 0.31088480055332185,
      "rewards/MultiModalAccuracyORM": 0.24166667088866234,
      "step": 945,
      "train_speed(iter/s)": 0.028624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.7,
      "epoch": 0.3838383838383838,
      "grad_norm": 3.8112599620979117,
      "kl": 0.01011962890625,
      "learning_rate": 2e-07,
      "loss": 0.01941452920436859,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.34166667610406876,
      "reward_std": 0.34228681921958926,
      "rewards/MultiModalAccuracyORM": 0.34166667610406876,
      "step": 950,
      "train_speed(iter/s)": 0.028616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 260.35,
      "epoch": 0.38585858585858585,
      "grad_norm": 1.8716114512263384,
      "kl": 0.0135040283203125,
      "learning_rate": 2e-07,
      "loss": 0.01583598256111145,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666701436043,
      "reward_std": 0.26291108727455137,
      "rewards/MultiModalAccuracyORM": 0.3916666701436043,
      "step": 955,
      "train_speed(iter/s)": 0.028656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.0,
      "epoch": 0.3878787878787879,
      "grad_norm": 2.6882447296010508,
      "kl": 0.0098663330078125,
      "learning_rate": 2e-07,
      "loss": 0.008884111046791076,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333410322666,
      "reward_std": 0.3393357157707214,
      "rewards/MultiModalAccuracyORM": 0.2833333410322666,
      "step": 960,
      "train_speed(iter/s)": 0.02864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 288.3,
      "epoch": 0.3898989898989899,
      "grad_norm": 2.477942143166408,
      "kl": 0.013421630859375,
      "learning_rate": 2e-07,
      "loss": 0.013846510648727417,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667088866236,
      "reward_std": 0.3041278898715973,
      "rewards/MultiModalAccuracyORM": 0.39166667088866236,
      "step": 965,
      "train_speed(iter/s)": 0.028659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 288.35,
      "epoch": 0.39191919191919194,
      "grad_norm": 1.7487986972843892,
      "kl": 0.008868408203125,
      "learning_rate": 2e-07,
      "loss": 0.041995507478713986,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000037252903,
      "reward_std": 0.3277524411678314,
      "rewards/MultiModalAccuracyORM": 0.3250000037252903,
      "step": 970,
      "train_speed(iter/s)": 0.028675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 326.9,
      "epoch": 0.3939393939393939,
      "grad_norm": 1.040945452450775,
      "kl": 0.00943603515625,
      "learning_rate": 2e-07,
      "loss": 0.004313239455223083,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333656191825,
      "reward_std": 0.2722140818834305,
      "rewards/MultiModalAccuracyORM": 0.18333333656191825,
      "step": 975,
      "train_speed(iter/s)": 0.028693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 298.5,
      "epoch": 0.39595959595959596,
      "grad_norm": 1.987178230745996,
      "kl": 0.0092681884765625,
      "learning_rate": 2e-07,
      "loss": 0.01756379157304764,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333358168602,
      "reward_std": 0.3274982154369354,
      "rewards/MultiModalAccuracyORM": 0.1833333358168602,
      "step": 980,
      "train_speed(iter/s)": 0.028714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.4,
      "epoch": 0.397979797979798,
      "grad_norm": 1.9999919818314047,
      "kl": 0.012908935546875,
      "learning_rate": 2e-07,
      "loss": 0.04084535539150238,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.32500001341104506,
      "reward_std": 0.2752989321947098,
      "rewards/MultiModalAccuracyORM": 0.32500001341104506,
      "step": 985,
      "train_speed(iter/s)": 0.028744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 506.15,
      "epoch": 0.4,
      "grad_norm": 0.038170370656060805,
      "kl": 0.010888671875,
      "learning_rate": 2e-07,
      "loss": 0.07128549218177796,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000819563867,
      "reward_std": 0.30416645109653473,
      "rewards/MultiModalAccuracyORM": 0.25000000819563867,
      "step": 990,
      "train_speed(iter/s)": 0.028708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.45,
      "epoch": 0.402020202020202,
      "grad_norm": 2.632502419980814,
      "kl": 0.0100616455078125,
      "learning_rate": 2e-07,
      "loss": 0.016613197326660157,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667610406875,
      "reward_std": 0.37174026668071747,
      "rewards/MultiModalAccuracyORM": 0.39166667610406875,
      "step": 995,
      "train_speed(iter/s)": 0.028687
    },
    {
      "epoch": 0.40404040404040403,
      "grad_norm": 0.07099216395354724,
      "learning_rate": 2e-07,
      "loss": 0.02232474982738495,
      "memory(GiB)": 87.45,
      "step": 1000,
      "train_speed(iter/s)": 0.028672
    },
    {
      "epoch": 0.40404040404040403,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 346.9533413696289,
      "eval_kl": 0.013145751953125,
      "eval_loss": -0.00028896695584990084,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.281666671782732,
      "eval_reward_std": 0.3010890519618988,
      "eval_rewards/MultiModalAccuracyORM": 0.281666671782732,
      "eval_runtime": 1406.863,
      "eval_samples_per_second": 0.036,
      "eval_steps_per_second": 0.004,
      "step": 1000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.175,
      "epoch": 0.40606060606060607,
      "grad_norm": 1.905945440484278,
      "kl": 0.009429931640625,
      "learning_rate": 2e-07,
      "loss": -0.0033631980419158935,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2708333387970924,
      "reward_std": 0.24963780641555786,
      "rewards/MultiModalAccuracyORM": 0.2708333387970924,
      "step": 1005,
      "train_speed(iter/s)": 0.027262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 341.5,
      "epoch": 0.4080808080808081,
      "grad_norm": 1.6755020591769207,
      "kl": 0.0134246826171875,
      "learning_rate": 2e-07,
      "loss": 0.05349223613739014,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000037252903,
      "reward_std": 0.3494287371635437,
      "rewards/MultiModalAccuracyORM": 0.2500000037252903,
      "step": 1010,
      "train_speed(iter/s)": 0.027279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 351.25,
      "epoch": 0.4101010101010101,
      "grad_norm": 2.8913380726136872,
      "kl": 0.0107147216796875,
      "learning_rate": 2e-07,
      "loss": -0.02667723298072815,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.38333334103226663,
      "reward_std": 0.4211569488048553,
      "rewards/MultiModalAccuracyORM": 0.38333334103226663,
      "step": 1015,
      "train_speed(iter/s)": 0.027304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 339.65,
      "epoch": 0.4121212121212121,
      "grad_norm": 4.180952848080379,
      "kl": 0.0100433349609375,
      "learning_rate": 2e-07,
      "loss": 0.00991852581501007,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333447575569,
      "reward_std": 0.3088736057281494,
      "rewards/MultiModalAccuracyORM": 0.2083333447575569,
      "step": 1020,
      "train_speed(iter/s)": 0.027315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 367.55,
      "epoch": 0.41414141414141414,
      "grad_norm": 1.9667254904423306,
      "kl": 0.0121246337890625,
      "learning_rate": 2e-07,
      "loss": 0.01899299621582031,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333507180214,
      "reward_std": 0.3071291267871857,
      "rewards/MultiModalAccuracyORM": 0.15833333507180214,
      "step": 1025,
      "train_speed(iter/s)": 0.027329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.4,
      "epoch": 0.4161616161616162,
      "grad_norm": 1.7062594547415575,
      "kl": 0.0100616455078125,
      "learning_rate": 2e-07,
      "loss": 0.004674983024597168,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500001043081283,
      "reward_std": 0.3679134130477905,
      "rewards/MultiModalAccuracyORM": 0.22500001043081283,
      "step": 1030,
      "train_speed(iter/s)": 0.027298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 350.0,
      "epoch": 0.41818181818181815,
      "grad_norm": 72.23734764401382,
      "kl": 0.011712646484375,
      "learning_rate": 2e-07,
      "loss": 0.05118045210838318,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666775941849,
      "reward_std": 0.34735551476478577,
      "rewards/MultiModalAccuracyORM": 0.2666666775941849,
      "step": 1035,
      "train_speed(iter/s)": 0.027303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 311.15,
      "epoch": 0.4202020202020202,
      "grad_norm": 1.6715902563969363,
      "kl": 0.0135772705078125,
      "learning_rate": 2e-07,
      "loss": 0.045872822403907776,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2416666716337204,
      "reward_std": 0.287842845916748,
      "rewards/MultiModalAccuracyORM": 0.2416666716337204,
      "step": 1040,
      "train_speed(iter/s)": 0.027298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.15,
      "epoch": 0.4222222222222222,
      "grad_norm": 2.734745023688755,
      "kl": 0.012158203125,
      "learning_rate": 2e-07,
      "loss": 0.05562522411346436,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667237877844,
      "reward_std": 0.4314686059951782,
      "rewards/MultiModalAccuracyORM": 0.31666667237877844,
      "step": 1045,
      "train_speed(iter/s)": 0.027328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 359.3,
      "epoch": 0.42424242424242425,
      "grad_norm": 0.07598134741536419,
      "kl": 0.009765625,
      "learning_rate": 2e-07,
      "loss": 0.008748695254325867,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.18326250910758973,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 1050,
      "train_speed(iter/s)": 0.027308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 392.2,
      "epoch": 0.4262626262626263,
      "grad_norm": 9.627726509942965,
      "kl": 0.0136199951171875,
      "learning_rate": 2e-07,
      "loss": 0.03634963035583496,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666768491268,
      "reward_std": 0.36670139729976653,
      "rewards/MultiModalAccuracyORM": 0.3166666768491268,
      "step": 1055,
      "train_speed(iter/s)": 0.027311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 289.7,
      "epoch": 0.42828282828282827,
      "grad_norm": 1.2371668114044378,
      "kl": 0.0134979248046875,
      "learning_rate": 2e-07,
      "loss": 0.04366698265075684,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333373069763,
      "reward_std": 0.3498693466186523,
      "rewards/MultiModalAccuracyORM": 0.2083333373069763,
      "step": 1060,
      "train_speed(iter/s)": 0.027334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 321.05,
      "epoch": 0.4303030303030303,
      "grad_norm": 2.52858518092475,
      "kl": 0.0135711669921875,
      "learning_rate": 2e-07,
      "loss": 0.065219247341156,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000111758709,
      "reward_std": 0.37853889763355253,
      "rewards/MultiModalAccuracyORM": 0.3000000111758709,
      "step": 1065,
      "train_speed(iter/s)": 0.027352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.5,
      "epoch": 0.43232323232323233,
      "grad_norm": 2.3424705728855995,
      "kl": 0.0116546630859375,
      "learning_rate": 2e-07,
      "loss": 0.03819225430488586,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.3227578908205032,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 1070,
      "train_speed(iter/s)": 0.027305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.55,
      "epoch": 0.43434343434343436,
      "grad_norm": 2.798437729299758,
      "kl": 0.014569091796875,
      "learning_rate": 2e-07,
      "loss": 0.004848736524581909,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000819563863,
      "reward_std": 0.31416428089141846,
      "rewards/MultiModalAccuracyORM": 0.27500000819563863,
      "step": 1075,
      "train_speed(iter/s)": 0.027334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 300.8,
      "epoch": 0.43636363636363634,
      "grad_norm": 1.7741031757506147,
      "kl": 0.0157135009765625,
      "learning_rate": 2e-07,
      "loss": 0.00888105109333992,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000447034834,
      "reward_std": 0.312698033452034,
      "rewards/MultiModalAccuracyORM": 0.27500000447034834,
      "step": 1080,
      "train_speed(iter/s)": 0.027339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.6,
      "epoch": 0.4383838383838384,
      "grad_norm": 2.06880703867489,
      "kl": 0.0158050537109375,
      "learning_rate": 2e-07,
      "loss": -0.05194641947746277,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666716337204,
      "reward_std": 0.22603832483291625,
      "rewards/MultiModalAccuracyORM": 0.2666666716337204,
      "step": 1085,
      "train_speed(iter/s)": 0.027329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 223.4,
      "epoch": 0.4404040404040404,
      "grad_norm": 2.4630209071132656,
      "kl": 0.015411376953125,
      "learning_rate": 2e-07,
      "loss": -0.018011474609375,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20833333507180213,
      "reward_std": 0.3071291267871857,
      "rewards/MultiModalAccuracyORM": 0.20833333507180213,
      "step": 1090,
      "train_speed(iter/s)": 0.027372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 264.2,
      "epoch": 0.44242424242424244,
      "grad_norm": 2.265643619288025,
      "kl": 0.01461181640625,
      "learning_rate": 2e-07,
      "loss": 0.04221695959568024,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666701436043,
      "reward_std": 0.3329358011484146,
      "rewards/MultiModalAccuracyORM": 0.2666666701436043,
      "step": 1095,
      "train_speed(iter/s)": 0.027407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 357.95,
      "epoch": 0.4444444444444444,
      "grad_norm": 2.894324596003934,
      "kl": 0.009808349609375,
      "learning_rate": 2e-07,
      "loss": 0.02248055934906006,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4166666828095913,
      "reward_std": 0.44607712924480436,
      "rewards/MultiModalAccuracyORM": 0.4166666828095913,
      "step": 1100,
      "train_speed(iter/s)": 0.027442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.95,
      "epoch": 0.44646464646464645,
      "grad_norm": 0.9507289625656876,
      "kl": 0.0140777587890625,
      "learning_rate": 2e-07,
      "loss": -0.0001364484429359436,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.46666667237877846,
      "reward_std": 0.24261614382267,
      "rewards/MultiModalAccuracyORM": 0.46666667237877846,
      "step": 1105,
      "train_speed(iter/s)": 0.027471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 238.75,
      "epoch": 0.4484848484848485,
      "grad_norm": 4.493560880958603,
      "kl": 0.01422119140625,
      "learning_rate": 2e-07,
      "loss": 0.00024300813674926758,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4500000149011612,
      "reward_std": 0.345323646068573,
      "rewards/MultiModalAccuracyORM": 0.4500000149011612,
      "step": 1110,
      "train_speed(iter/s)": 0.027312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 368.15,
      "epoch": 0.4505050505050505,
      "grad_norm": 1.866809698039603,
      "kl": 0.0131317138671875,
      "learning_rate": 2e-07,
      "loss": -0.007444334030151367,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000298023224,
      "reward_std": 0.3281930506229401,
      "rewards/MultiModalAccuracyORM": 0.20000000298023224,
      "step": 1115,
      "train_speed(iter/s)": 0.027296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.45,
      "epoch": 0.45252525252525255,
      "grad_norm": 0.04083454065583723,
      "kl": 0.0086578369140625,
      "learning_rate": 2e-07,
      "loss": 0.009036242961883545,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000447034835,
      "reward_std": 0.24710224866867064,
      "rewards/MultiModalAccuracyORM": 0.22500000447034835,
      "step": 1120,
      "train_speed(iter/s)": 0.027256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 299.75,
      "epoch": 0.45454545454545453,
      "grad_norm": 2.1257862237671588,
      "kl": 0.01603851318359375,
      "learning_rate": 2e-07,
      "loss": -0.014222325384616851,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333432674408,
      "reward_std": 0.4078585982322693,
      "rewards/MultiModalAccuracyORM": 0.4333333432674408,
      "step": 1125,
      "train_speed(iter/s)": 0.027299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.15,
      "epoch": 0.45656565656565656,
      "grad_norm": 48.10712707725128,
      "kl": 0.0124542236328125,
      "learning_rate": 2e-07,
      "loss": 0.009453803300857544,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30833333879709246,
      "reward_std": 0.32858102321624755,
      "rewards/MultiModalAccuracyORM": 0.30833333879709246,
      "step": 1130,
      "train_speed(iter/s)": 0.027339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.6,
      "epoch": 0.4585858585858586,
      "grad_norm": 0.8869001794016839,
      "kl": 0.01041259765625,
      "learning_rate": 2e-07,
      "loss": -0.002349555492401123,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333730697633,
      "reward_std": 0.29003951847553255,
      "rewards/MultiModalAccuracyORM": 0.13333333730697633,
      "step": 1135,
      "train_speed(iter/s)": 0.027364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.0,
      "epoch": 0.46060606060606063,
      "grad_norm": 2.2315283680448346,
      "kl": 0.0132476806640625,
      "learning_rate": 2e-07,
      "loss": -0.010060985386371613,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000745058059,
      "reward_std": 0.3043610692024231,
      "rewards/MultiModalAccuracyORM": 0.17500000745058059,
      "step": 1140,
      "train_speed(iter/s)": 0.027393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.2,
      "epoch": 0.4626262626262626,
      "grad_norm": 0.04850876090724914,
      "kl": 0.0081451416015625,
      "learning_rate": 2e-07,
      "loss": -0.022587394714355467,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.10833333656191826,
      "reward_std": 0.20343697369098662,
      "rewards/MultiModalAccuracyORM": 0.10833333656191826,
      "step": 1145,
      "train_speed(iter/s)": 0.027421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 376.05,
      "epoch": 0.46464646464646464,
      "grad_norm": 2.2096178690715,
      "kl": 0.0104400634765625,
      "learning_rate": 2e-07,
      "loss": 0.01734369993209839,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000074505806,
      "reward_std": 0.33700530230998993,
      "rewards/MultiModalAccuracyORM": 0.3250000074505806,
      "step": 1150,
      "train_speed(iter/s)": 0.027419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.65,
      "epoch": 0.4666666666666667,
      "grad_norm": 1.3995623416059861,
      "kl": 0.020782470703125,
      "learning_rate": 2e-07,
      "loss": 0.004217700660228729,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000447034834,
      "reward_std": 0.20594746768474578,
      "rewards/MultiModalAccuracyORM": 0.27500000447034834,
      "step": 1155,
      "train_speed(iter/s)": 0.027419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 229.45,
      "epoch": 0.4686868686868687,
      "grad_norm": 7.604841869136694,
      "kl": 0.017425537109375,
      "learning_rate": 2e-07,
      "loss": 0.04910666048526764,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000029802322,
      "reward_std": 0.3408561676740646,
      "rewards/MultiModalAccuracyORM": 0.3000000029802322,
      "step": 1160,
      "train_speed(iter/s)": 0.02739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.1,
      "epoch": 0.4707070707070707,
      "grad_norm": 1.7338556861412973,
      "kl": 0.009881591796875,
      "learning_rate": 2e-07,
      "loss": -0.02307046055793762,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000149011613,
      "reward_std": 0.18081162869930267,
      "rewards/MultiModalAccuracyORM": 0.17500000149011613,
      "step": 1165,
      "train_speed(iter/s)": 0.027388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.15,
      "epoch": 0.4727272727272727,
      "grad_norm": 1.2587552234540058,
      "kl": 0.0092010498046875,
      "learning_rate": 2e-07,
      "loss": -0.05895323753356933,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666668429970743,
      "reward_std": 0.40890581607818605,
      "rewards/MultiModalAccuracyORM": 0.41666668429970743,
      "step": 1170,
      "train_speed(iter/s)": 0.027373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 381.2,
      "epoch": 0.47474747474747475,
      "grad_norm": 0.06683334066144007,
      "kl": 0.01002349853515625,
      "learning_rate": 2e-07,
      "loss": 0.02935360074043274,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2416666716337204,
      "reward_std": 0.27523933053016664,
      "rewards/MultiModalAccuracyORM": 0.2416666716337204,
      "step": 1175,
      "train_speed(iter/s)": 0.027312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.15,
      "epoch": 0.4767676767676768,
      "grad_norm": 27.070556493942583,
      "kl": 0.00930938720703125,
      "learning_rate": 2e-07,
      "loss": 0.0851466953754425,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000223517416,
      "reward_std": 0.3342405825853348,
      "rewards/MultiModalAccuracyORM": 0.25000000223517416,
      "step": 1180,
      "train_speed(iter/s)": 0.027331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.55,
      "epoch": 0.47878787878787876,
      "grad_norm": 1.5534177345271625,
      "kl": 0.0102996826171875,
      "learning_rate": 2e-07,
      "loss": 0.028819066286087037,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.266666679084301,
      "reward_std": 0.3129431068897247,
      "rewards/MultiModalAccuracyORM": 0.266666679084301,
      "step": 1185,
      "train_speed(iter/s)": 0.027335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 327.65,
      "epoch": 0.4808080808080808,
      "grad_norm": 2.8838868478156816,
      "kl": 0.02685546875,
      "learning_rate": 2e-07,
      "loss": 0.006991004943847657,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000447034836,
      "reward_std": 0.2323400765657425,
      "rewards/MultiModalAccuracyORM": 0.17500000447034836,
      "step": 1190,
      "train_speed(iter/s)": 0.027082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.2,
      "epoch": 0.48282828282828283,
      "grad_norm": 2.6317167816627993,
      "kl": 0.014031982421875,
      "learning_rate": 2e-07,
      "loss": -0.003238886594772339,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.20000000596046447,
      "reward_std": 0.30388820767402647,
      "rewards/MultiModalAccuracyORM": 0.20000000596046447,
      "step": 1195,
      "train_speed(iter/s)": 0.026955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 259.35,
      "epoch": 0.48484848484848486,
      "grad_norm": 53.95756362621299,
      "kl": 0.0124114990234375,
      "learning_rate": 2e-07,
      "loss": -0.00888831913471222,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000029802322,
      "reward_std": 0.29782613217830656,
      "rewards/MultiModalAccuracyORM": 0.3000000029802322,
      "step": 1200,
      "train_speed(iter/s)": 0.026995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 287.0,
      "epoch": 0.4868686868686869,
      "grad_norm": 1.8840812265683782,
      "kl": 0.016448974609375,
      "learning_rate": 2e-07,
      "loss": 0.024408812820911407,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.34166667610406876,
      "reward_std": 0.4253006011247635,
      "rewards/MultiModalAccuracyORM": 0.34166667610406876,
      "step": 1205,
      "train_speed(iter/s)": 0.02702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 263.2,
      "epoch": 0.4888888888888889,
      "grad_norm": 2.267475237086073,
      "kl": 0.01165771484375,
      "learning_rate": 2e-07,
      "loss": -0.02959960699081421,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4416666813194752,
      "reward_std": 0.3111630380153656,
      "rewards/MultiModalAccuracyORM": 0.4416666813194752,
      "step": 1210,
      "train_speed(iter/s)": 0.027058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 341.55,
      "epoch": 0.4909090909090909,
      "grad_norm": 1.53249738300366,
      "kl": 0.01207275390625,
      "learning_rate": 2e-07,
      "loss": 0.01664416640996933,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000089406967,
      "reward_std": 0.39155901670455934,
      "rewards/MultiModalAccuracyORM": 0.3500000089406967,
      "step": 1215,
      "train_speed(iter/s)": 0.027075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.35,
      "epoch": 0.49292929292929294,
      "grad_norm": 2.838473944184638,
      "kl": 0.0138153076171875,
      "learning_rate": 2e-07,
      "loss": 0.011857110261917114,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.16666667237877847,
      "reward_std": 0.32422170639038084,
      "rewards/MultiModalAccuracyORM": 0.16666667237877847,
      "step": 1220,
      "train_speed(iter/s)": 0.027075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 340.2,
      "epoch": 0.494949494949495,
      "grad_norm": 2.239419757076915,
      "kl": 0.0130462646484375,
      "learning_rate": 2e-07,
      "loss": 0.03971967101097107,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667088866234,
      "reward_std": 0.23224489092826844,
      "rewards/MultiModalAccuracyORM": 0.36666667088866234,
      "step": 1225,
      "train_speed(iter/s)": 0.027083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 244.8,
      "epoch": 0.49696969696969695,
      "grad_norm": 2.1763944900135637,
      "kl": 0.0342437744140625,
      "learning_rate": 2e-07,
      "loss": -0.010297659039497375,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3583333410322666,
      "reward_std": 0.3408351272344589,
      "rewards/MultiModalAccuracyORM": 0.3583333410322666,
      "step": 1230,
      "train_speed(iter/s)": 0.027096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 293.45,
      "epoch": 0.498989898989899,
      "grad_norm": 6.002103596814289,
      "kl": 0.020233154296875,
      "learning_rate": 2e-07,
      "loss": 0.08779069185256957,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000670552255,
      "reward_std": 0.35311026573181153,
      "rewards/MultiModalAccuracyORM": 0.40000000670552255,
      "step": 1235,
      "train_speed(iter/s)": 0.027106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.45,
      "epoch": 0.501010101010101,
      "grad_norm": 1.7067044601090864,
      "kl": 0.00786285400390625,
      "learning_rate": 2e-07,
      "loss": 0.05108952522277832,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000089406967,
      "reward_std": 0.3033378630876541,
      "rewards/MultiModalAccuracyORM": 0.3500000089406967,
      "step": 1240,
      "train_speed(iter/s)": 0.027091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.4,
      "epoch": 0.503030303030303,
      "grad_norm": 0.8938521798548926,
      "kl": 0.009466552734375,
      "learning_rate": 2e-07,
      "loss": -0.01685338616371155,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333656191826,
      "reward_std": 0.2292436480522156,
      "rewards/MultiModalAccuracyORM": 0.13333333656191826,
      "step": 1245,
      "train_speed(iter/s)": 0.02707
    },
    {
      "epoch": 0.5050505050505051,
      "grad_norm": 3.702370322108623,
      "learning_rate": 2e-07,
      "loss": 0.036279809474945066,
      "memory(GiB)": 87.45,
      "step": 1250,
      "train_speed(iter/s)": 0.027086
    },
    {
      "epoch": 0.5050505050505051,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 321.4716763305664,
      "eval_kl": 0.015718994140625,
      "eval_loss": 0.013520264066755772,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.3033333399891853,
      "eval_reward_std": 0.3383384072780609,
      "eval_rewards/MultiModalAccuracyORM": 0.3033333399891853,
      "eval_runtime": 765.5729,
      "eval_samples_per_second": 0.065,
      "eval_steps_per_second": 0.007,
      "step": 1250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 349.475,
      "epoch": 0.5070707070707071,
      "grad_norm": 1.4811421198816048,
      "kl": 0.01293487548828125,
      "learning_rate": 2e-07,
      "loss": 0.03056705594062805,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.35833334140479567,
      "reward_std": 0.38048321902751925,
      "rewards/MultiModalAccuracyORM": 0.35833334140479567,
      "step": 1255,
      "train_speed(iter/s)": 0.026435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 209.15,
      "epoch": 0.509090909090909,
      "grad_norm": 2.0552411044504764,
      "kl": 0.0252899169921875,
      "learning_rate": 2e-07,
      "loss": 0.028329643607139587,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334177732465,
      "reward_std": 0.281466943025589,
      "rewards/MultiModalAccuracyORM": 0.33333334177732465,
      "step": 1260,
      "train_speed(iter/s)": 0.026464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 380.4,
      "epoch": 0.5111111111111111,
      "grad_norm": 2.615766039038286,
      "kl": 0.01002197265625,
      "learning_rate": 2e-07,
      "loss": 0.002955615520477295,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000521540644,
      "reward_std": 0.2292436480522156,
      "rewards/MultiModalAccuracyORM": 0.25000000521540644,
      "step": 1265,
      "train_speed(iter/s)": 0.02646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.85,
      "epoch": 0.5131313131313131,
      "grad_norm": 1.9893529067484352,
      "kl": 0.011163330078125,
      "learning_rate": 2e-07,
      "loss": 0.018701747059822083,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.300000012665987,
      "reward_std": 0.3127244770526886,
      "rewards/MultiModalAccuracyORM": 0.300000012665987,
      "step": 1270,
      "train_speed(iter/s)": 0.026466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 253.65,
      "epoch": 0.5151515151515151,
      "grad_norm": 1.6843559930041148,
      "kl": 0.0115509033203125,
      "learning_rate": 2e-07,
      "loss": 0.012320590019226075,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.5000000111758709,
      "reward_std": 0.345323646068573,
      "rewards/MultiModalAccuracyORM": 0.5000000111758709,
      "step": 1275,
      "train_speed(iter/s)": 0.026464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.25,
      "epoch": 0.5171717171717172,
      "grad_norm": 3.0894548096911407,
      "kl": 0.010302734375,
      "learning_rate": 2e-07,
      "loss": -0.02475722283124924,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000074505806,
      "reward_std": 0.21999078691005708,
      "rewards/MultiModalAccuracyORM": 0.2500000074505806,
      "step": 1280,
      "train_speed(iter/s)": 0.026449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 286.45,
      "epoch": 0.5191919191919192,
      "grad_norm": 0.056162470903676515,
      "kl": 0.010772705078125,
      "learning_rate": 2e-07,
      "loss": -0.0004087850451469421,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667386889457,
      "reward_std": 0.23105688095092775,
      "rewards/MultiModalAccuracyORM": 0.21666667386889457,
      "step": 1285,
      "train_speed(iter/s)": 0.026422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.55,
      "epoch": 0.5212121212121212,
      "grad_norm": 1.7176303706462466,
      "kl": 0.011578369140625,
      "learning_rate": 2e-07,
      "loss": 0.023639577627182006,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666693985462,
      "reward_std": 0.28077210783958434,
      "rewards/MultiModalAccuracyORM": 0.2666666693985462,
      "step": 1290,
      "train_speed(iter/s)": 0.026422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.65,
      "epoch": 0.5232323232323233,
      "grad_norm": 1.244445708488179,
      "kl": 0.0103790283203125,
      "learning_rate": 2e-07,
      "loss": -0.017145507037639618,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333395421505,
      "reward_std": 0.4086130350828171,
      "rewards/MultiModalAccuracyORM": 0.3833333395421505,
      "step": 1295,
      "train_speed(iter/s)": 0.026442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 321.2,
      "epoch": 0.5252525252525253,
      "grad_norm": 1.7914388567184454,
      "kl": 0.0092559814453125,
      "learning_rate": 2e-07,
      "loss": 0.054825717210769655,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333417773247,
      "reward_std": 0.3536572724580765,
      "rewards/MultiModalAccuracyORM": 0.3083333417773247,
      "step": 1300,
      "train_speed(iter/s)": 0.026415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 251.9,
      "epoch": 0.5272727272727272,
      "grad_norm": 2.6174114359405976,
      "kl": 0.010308837890625,
      "learning_rate": 2e-07,
      "loss": -0.019986753165721894,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4500000074505806,
      "reward_std": 0.3099655658006668,
      "rewards/MultiModalAccuracyORM": 0.4500000074505806,
      "step": 1305,
      "train_speed(iter/s)": 0.026387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 264.9,
      "epoch": 0.5292929292929293,
      "grad_norm": 32.625329420627345,
      "kl": 0.00882568359375,
      "learning_rate": 2e-07,
      "loss": 0.008027985692024231,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667312383654,
      "reward_std": 0.40485736131668093,
      "rewards/MultiModalAccuracyORM": 0.41666667312383654,
      "step": 1310,
      "train_speed(iter/s)": 0.026366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.3,
      "epoch": 0.5313131313131313,
      "grad_norm": 1.6706902692989012,
      "kl": 0.0086761474609375,
      "learning_rate": 2e-07,
      "loss": 0.028931498527526855,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334624767303,
      "reward_std": 0.3558539390563965,
      "rewards/MultiModalAccuracyORM": 0.28333334624767303,
      "step": 1315,
      "train_speed(iter/s)": 0.026338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.25,
      "epoch": 0.5333333333333333,
      "grad_norm": 1.8800912459209826,
      "kl": 0.0249176025390625,
      "learning_rate": 2e-07,
      "loss": 0.048329290747642514,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667237877844,
      "reward_std": 0.25897533297538755,
      "rewards/MultiModalAccuracyORM": 0.31666667237877844,
      "step": 1320,
      "train_speed(iter/s)": 0.026308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.3,
      "epoch": 0.5353535353535354,
      "grad_norm": 3.1086990293234904,
      "kl": 0.01292724609375,
      "learning_rate": 2e-07,
      "loss": 0.006182897090911865,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.34166667312383653,
      "reward_std": 0.3867922484874725,
      "rewards/MultiModalAccuracyORM": 0.34166667312383653,
      "step": 1325,
      "train_speed(iter/s)": 0.026274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 404.3,
      "epoch": 0.5373737373737374,
      "grad_norm": 0.08070215671871471,
      "kl": 0.0099578857421875,
      "learning_rate": 2e-07,
      "loss": 0.062343114614486696,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000059604645,
      "reward_std": 0.22625695466995238,
      "rewards/MultiModalAccuracyORM": 0.3000000059604645,
      "step": 1330,
      "train_speed(iter/s)": 0.026241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 360.75,
      "epoch": 0.5393939393939394,
      "grad_norm": 3.4146119265895893,
      "kl": 0.0290008544921875,
      "learning_rate": 2e-07,
      "loss": -0.02337663769721985,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000819563863,
      "reward_std": 0.31852359175682066,
      "rewards/MultiModalAccuracyORM": 0.40000000819563863,
      "step": 1335,
      "train_speed(iter/s)": 0.026231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 300.85,
      "epoch": 0.5414141414141415,
      "grad_norm": 1.014030648475331,
      "kl": 0.0152801513671875,
      "learning_rate": 2e-07,
      "loss": 0.03424631953239441,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333425223827,
      "reward_std": 0.22807018756866454,
      "rewards/MultiModalAccuracyORM": 0.3333333425223827,
      "step": 1340,
      "train_speed(iter/s)": 0.026218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.5,
      "epoch": 0.5434343434343434,
      "grad_norm": 2.579076344272663,
      "kl": 0.0294189453125,
      "learning_rate": 2e-07,
      "loss": -0.004431784152984619,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.425000012665987,
      "reward_std": 0.3433456152677536,
      "rewards/MultiModalAccuracyORM": 0.425000012665987,
      "step": 1345,
      "train_speed(iter/s)": 0.026212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 365.2,
      "epoch": 0.5454545454545454,
      "grad_norm": 0.09604007460689165,
      "kl": 0.0132415771484375,
      "learning_rate": 2e-07,
      "loss": 0.011541323363780975,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333730697632,
      "reward_std": 0.24961273670196532,
      "rewards/MultiModalAccuracyORM": 0.15833333730697632,
      "step": 1350,
      "train_speed(iter/s)": 0.026199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.2,
      "epoch": 0.5474747474747474,
      "grad_norm": 2.8630066616840306,
      "kl": 0.0131500244140625,
      "learning_rate": 2e-07,
      "loss": 0.0038095355033874513,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333484828472,
      "reward_std": 0.371958914399147,
      "rewards/MultiModalAccuracyORM": 0.4083333484828472,
      "step": 1355,
      "train_speed(iter/s)": 0.026195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 290.35,
      "epoch": 0.5494949494949495,
      "grad_norm": 2.8462264230542202,
      "kl": 0.0113922119140625,
      "learning_rate": 2e-07,
      "loss": -0.013850301504135132,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.13333333879709244,
      "reward_std": 0.23857065439224243,
      "rewards/MultiModalAccuracyORM": 0.13333333879709244,
      "step": 1360,
      "train_speed(iter/s)": 0.026178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.8,
      "epoch": 0.5515151515151515,
      "grad_norm": 1.9037157526983224,
      "kl": 0.0115966796875,
      "learning_rate": 2e-07,
      "loss": 0.061475354433059695,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334252238274,
      "reward_std": 0.37644500732421876,
      "rewards/MultiModalAccuracyORM": 0.28333334252238274,
      "step": 1365,
      "train_speed(iter/s)": 0.026169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 290.25,
      "epoch": 0.5535353535353535,
      "grad_norm": 1.5230914677267515,
      "kl": 0.012347412109375,
      "learning_rate": 2e-07,
      "loss": 0.02505878210067749,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667386889457,
      "reward_std": 0.26496326327323916,
      "rewards/MultiModalAccuracyORM": 0.36666667386889457,
      "step": 1370,
      "train_speed(iter/s)": 0.026162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.7,
      "epoch": 0.5555555555555556,
      "grad_norm": 1.9879722073308892,
      "kl": 0.0135223388671875,
      "learning_rate": 2e-07,
      "loss": 0.010433109104633331,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000447034834,
      "reward_std": 0.18332211077213287,
      "rewards/MultiModalAccuracyORM": 0.27500000447034834,
      "step": 1375,
      "train_speed(iter/s)": 0.026157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 319.9,
      "epoch": 0.5575757575757576,
      "grad_norm": 2.649637312336083,
      "kl": 0.012469482421875,
      "learning_rate": 2e-07,
      "loss": 0.009650683403015137,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333805203438,
      "reward_std": 0.3890485167503357,
      "rewards/MultiModalAccuracyORM": 0.23333333805203438,
      "step": 1380,
      "train_speed(iter/s)": 0.02615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 355.05,
      "epoch": 0.5595959595959596,
      "grad_norm": 0.05006149717815439,
      "kl": 0.016656494140625,
      "learning_rate": 2e-07,
      "loss": -0.007993972301483155,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667386889455,
      "reward_std": 0.3541334718465805,
      "rewards/MultiModalAccuracyORM": 0.29166667386889455,
      "step": 1385,
      "train_speed(iter/s)": 0.026129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 155.65,
      "epoch": 0.5616161616161616,
      "grad_norm": 0.08079407011077554,
      "kl": 0.01981201171875,
      "learning_rate": 2e-07,
      "loss": 0.03422499895095825,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833334103226663,
      "reward_std": 0.3597048044204712,
      "rewards/MultiModalAccuracyORM": 0.25833334103226663,
      "step": 1390,
      "train_speed(iter/s)": 0.026124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.3,
      "epoch": 0.5636363636363636,
      "grad_norm": 2.595093461800728,
      "kl": 0.016748046875,
      "learning_rate": 2e-07,
      "loss": 0.0661674439907074,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667610406877,
      "reward_std": 0.41412476599216463,
      "rewards/MultiModalAccuracyORM": 0.41666667610406877,
      "step": 1395,
      "train_speed(iter/s)": 0.02611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.3,
      "epoch": 0.5656565656565656,
      "grad_norm": 1.8524460034780388,
      "kl": 0.0219970703125,
      "learning_rate": 2e-07,
      "loss": 0.0748141050338745,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333410322666,
      "reward_std": 0.3222051203250885,
      "rewards/MultiModalAccuracyORM": 0.2833333410322666,
      "step": 1400,
      "train_speed(iter/s)": 0.026104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 284.7,
      "epoch": 0.5676767676767677,
      "grad_norm": 1.8645433263018287,
      "kl": 0.020556640625,
      "learning_rate": 2e-07,
      "loss": -0.019703832268714905,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333402872086,
      "reward_std": 0.23230449855327606,
      "rewards/MultiModalAccuracyORM": 0.2833333402872086,
      "step": 1405,
      "train_speed(iter/s)": 0.026096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 301.15,
      "epoch": 0.5696969696969697,
      "grad_norm": 2.007508731899272,
      "kl": 0.014324951171875,
      "learning_rate": 2e-07,
      "loss": 0.026613450050354003,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000000819563863,
      "reward_std": 0.26928699016571045,
      "rewards/MultiModalAccuracyORM": 0.40000000819563863,
      "step": 1410,
      "train_speed(iter/s)": 0.026082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 384.6,
      "epoch": 0.5717171717171717,
      "grad_norm": 1.3049808616717113,
      "kl": 0.0161651611328125,
      "learning_rate": 2e-07,
      "loss": -0.019157709181308748,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833334103226663,
      "reward_std": 0.3352662205696106,
      "rewards/MultiModalAccuracyORM": 0.25833334103226663,
      "step": 1415,
      "train_speed(iter/s)": 0.026066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.4,
      "epoch": 0.5737373737373738,
      "grad_norm": 1.7990652267186868,
      "kl": 0.021240234375,
      "learning_rate": 2e-07,
      "loss": 0.043132427334785464,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000298023224,
      "reward_std": 0.2159808874130249,
      "rewards/MultiModalAccuracyORM": 0.17500000298023224,
      "step": 1420,
      "train_speed(iter/s)": 0.026059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 288.85,
      "epoch": 0.5757575757575758,
      "grad_norm": 1.3873829792776142,
      "kl": 0.017431640625,
      "learning_rate": 2e-07,
      "loss": 0.010021258890628815,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.45833334475755694,
      "reward_std": 0.2770525634288788,
      "rewards/MultiModalAccuracyORM": 0.45833334475755694,
      "step": 1425,
      "train_speed(iter/s)": 0.026059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 296.05,
      "epoch": 0.5777777777777777,
      "grad_norm": 1.6565432442769377,
      "kl": 0.0139190673828125,
      "learning_rate": 2e-07,
      "loss": 0.016829773783683777,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667312383654,
      "reward_std": 0.40086200535297395,
      "rewards/MultiModalAccuracyORM": 0.29166667312383654,
      "step": 1430,
      "train_speed(iter/s)": 0.026063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 370.7,
      "epoch": 0.5797979797979798,
      "grad_norm": 1.2410328295318487,
      "kl": 0.015863037109375,
      "learning_rate": 2e-07,
      "loss": -0.04091094434261322,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666731238365,
      "reward_std": 0.3603756338357925,
      "rewards/MultiModalAccuracyORM": 0.3166666731238365,
      "step": 1435,
      "train_speed(iter/s)": 0.026053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 305.7,
      "epoch": 0.5818181818181818,
      "grad_norm": 2.659138324217993,
      "kl": 0.01724853515625,
      "learning_rate": 2e-07,
      "loss": 0.08770001530647278,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3333333425223827,
      "reward_std": 0.4456100821495056,
      "rewards/MultiModalAccuracyORM": 0.3333333425223827,
      "step": 1440,
      "train_speed(iter/s)": 0.026045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 321.15,
      "epoch": 0.5838383838383838,
      "grad_norm": 2.6855533659279462,
      "kl": 0.015350341796875,
      "learning_rate": 2e-07,
      "loss": -0.03101794719696045,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1666666716337204,
      "reward_std": 0.2644129186868668,
      "rewards/MultiModalAccuracyORM": 0.1666666716337204,
      "step": 1445,
      "train_speed(iter/s)": 0.026039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.85,
      "epoch": 0.5858585858585859,
      "grad_norm": 0.8787033948980154,
      "kl": 0.018048095703125,
      "learning_rate": 2e-07,
      "loss": 0.021743962168693544,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1500000014901161,
      "reward_std": 0.2496483266353607,
      "rewards/MultiModalAccuracyORM": 0.1500000014901161,
      "step": 1450,
      "train_speed(iter/s)": 0.026027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 329.65,
      "epoch": 0.5878787878787879,
      "grad_norm": 2.6089377973235917,
      "kl": 0.0154541015625,
      "learning_rate": 2e-07,
      "loss": -0.0126606285572052,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333730697633,
      "reward_std": 0.287842845916748,
      "rewards/MultiModalAccuracyORM": 0.25833333730697633,
      "step": 1455,
      "train_speed(iter/s)": 0.026012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.55,
      "epoch": 0.5898989898989899,
      "grad_norm": 3.1599228273908895,
      "kl": 0.017535400390625,
      "learning_rate": 2e-07,
      "loss": 0.03227808475494385,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000089406967,
      "reward_std": 0.2754935622215271,
      "rewards/MultiModalAccuracyORM": 0.3500000089406967,
      "step": 1460,
      "train_speed(iter/s)": 0.025992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 247.35,
      "epoch": 0.591919191919192,
      "grad_norm": 3.772779516485284,
      "kl": 0.016162109375,
      "learning_rate": 2e-07,
      "loss": -0.006427288055419922,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667088866234,
      "reward_std": 0.3214506834745407,
      "rewards/MultiModalAccuracyORM": 0.21666667088866234,
      "step": 1465,
      "train_speed(iter/s)": 0.02598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 300.7,
      "epoch": 0.593939393939394,
      "grad_norm": 1.9048234622524929,
      "kl": 0.019964599609375,
      "learning_rate": 2e-07,
      "loss": 0.02089463174343109,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334550261495,
      "reward_std": 0.39707074165344236,
      "rewards/MultiModalAccuracyORM": 0.33333334550261495,
      "step": 1470,
      "train_speed(iter/s)": 0.025963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 372.2,
      "epoch": 0.5959595959595959,
      "grad_norm": 1.7167051608215667,
      "kl": 0.0126953125,
      "learning_rate": 2e-07,
      "loss": 0.0002398371696472168,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.3485645651817322,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 1475,
      "train_speed(iter/s)": 0.025929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 286.9,
      "epoch": 0.597979797979798,
      "grad_norm": 2.018355689891589,
      "kl": 0.014324951171875,
      "learning_rate": 2e-07,
      "loss": 0.025476664304733276,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.5250000104308128,
      "reward_std": 0.3463323086500168,
      "rewards/MultiModalAccuracyORM": 0.5250000104308128,
      "step": 1480,
      "train_speed(iter/s)": 0.025899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 286.35,
      "epoch": 0.6,
      "grad_norm": 1.9564498539046626,
      "kl": 0.013104248046875,
      "learning_rate": 2e-07,
      "loss": -0.0017219483852386475,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666753590107,
      "reward_std": 0.3392761141061783,
      "rewards/MultiModalAccuracyORM": 0.2666666753590107,
      "step": 1485,
      "train_speed(iter/s)": 0.025884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 371.55,
      "epoch": 0.602020202020202,
      "grad_norm": 3.3586873596373836,
      "kl": 0.0190948486328125,
      "learning_rate": 2e-07,
      "loss": -0.015026980638504028,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334550261495,
      "reward_std": 0.43529842495918275,
      "rewards/MultiModalAccuracyORM": 0.33333334550261495,
      "step": 1490,
      "train_speed(iter/s)": 0.02585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.1,
      "epoch": 0.604040404040404,
      "grad_norm": 1.5566031738878978,
      "kl": 0.0152313232421875,
      "learning_rate": 2e-07,
      "loss": 0.05221402645111084,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4666666716337204,
      "reward_std": 0.3853524446487427,
      "rewards/MultiModalAccuracyORM": 0.4666666716337204,
      "step": 1495,
      "train_speed(iter/s)": 0.025826
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 1.092725055214899,
      "learning_rate": 2e-07,
      "loss": 0.044440290331840514,
      "memory(GiB)": 87.45,
      "step": 1500,
      "train_speed(iter/s)": 0.025794
    },
    {
      "epoch": 0.6060606060606061,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 332.07667766571046,
      "eval_kl": 0.03210205078125,
      "eval_loss": 0.03433879837393761,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.32333334147930143,
      "eval_reward_std": 0.34949765503406527,
      "eval_rewards/MultiModalAccuracyORM": 0.32333334147930143,
      "eval_runtime": 946.9078,
      "eval_samples_per_second": 0.053,
      "eval_steps_per_second": 0.005,
      "step": 1500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.3,
      "epoch": 0.6080808080808081,
      "grad_norm": 1.594406200527781,
      "kl": 0.01402130126953125,
      "learning_rate": 2e-07,
      "loss": 0.011821150779724121,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30000000447034836,
      "reward_std": 0.29021300822496415,
      "rewards/MultiModalAccuracyORM": 0.30000000447034836,
      "step": 1505,
      "train_speed(iter/s)": 0.02519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.35,
      "epoch": 0.6101010101010101,
      "grad_norm": 1.872354266566466,
      "kl": 0.01295166015625,
      "learning_rate": 2e-07,
      "loss": 0.040472963452339174,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667237877845,
      "reward_std": 0.24481281042098998,
      "rewards/MultiModalAccuracyORM": 0.39166667237877845,
      "step": 1510,
      "train_speed(iter/s)": 0.025138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.25,
      "epoch": 0.6121212121212121,
      "grad_norm": 2.2298458448624032,
      "kl": 0.017498779296875,
      "learning_rate": 2e-07,
      "loss": -0.003679761290550232,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666753590107,
      "reward_std": 0.33752005696296694,
      "rewards/MultiModalAccuracyORM": 0.2666666753590107,
      "step": 1515,
      "train_speed(iter/s)": 0.02512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.3,
      "epoch": 0.6141414141414141,
      "grad_norm": 2.1057358539094637,
      "kl": 0.013360595703125,
      "learning_rate": 2e-07,
      "loss": -0.040804427862167356,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.11666667088866234,
      "reward_std": 0.22625695466995238,
      "rewards/MultiModalAccuracyORM": 0.11666667088866234,
      "step": 1520,
      "train_speed(iter/s)": 0.025038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 355.45,
      "epoch": 0.6161616161616161,
      "grad_norm": 1.7271901034384924,
      "kl": 0.01778564453125,
      "learning_rate": 2e-07,
      "loss": 0.04612007737159729,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667759418485,
      "reward_std": 0.385197651386261,
      "rewards/MultiModalAccuracyORM": 0.29166667759418485,
      "step": 1525,
      "train_speed(iter/s)": 0.025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 331.4,
      "epoch": 0.6181818181818182,
      "grad_norm": 2.251271699623951,
      "kl": 0.015338134765625,
      "learning_rate": 2e-07,
      "loss": 0.07724932432174683,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40833334177732467,
      "reward_std": 0.39786076843738555,
      "rewards/MultiModalAccuracyORM": 0.40833334177732467,
      "step": 1530,
      "train_speed(iter/s)": 0.024971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.35,
      "epoch": 0.6202020202020202,
      "grad_norm": 3.517799255266591,
      "kl": 0.021319580078125,
      "learning_rate": 2e-07,
      "loss": -0.042039293050765994,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2000000074505806,
      "reward_std": 0.27122943103313446,
      "rewards/MultiModalAccuracyORM": 0.2000000074505806,
      "step": 1535,
      "train_speed(iter/s)": 0.02492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.3,
      "epoch": 0.6222222222222222,
      "grad_norm": 2.5032184616862736,
      "kl": 0.023309326171875,
      "learning_rate": 2e-07,
      "loss": 0.004111546277999878,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667386889457,
      "reward_std": 0.36037562787532806,
      "rewards/MultiModalAccuracyORM": 0.36666667386889457,
      "step": 1540,
      "train_speed(iter/s)": 0.024886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.65,
      "epoch": 0.6242424242424243,
      "grad_norm": 1.3788944987112297,
      "kl": 0.018865966796875,
      "learning_rate": 2e-07,
      "loss": 0.03875549137592316,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.14166666939854622,
      "reward_std": 0.275529146194458,
      "rewards/MultiModalAccuracyORM": 0.14166666939854622,
      "step": 1545,
      "train_speed(iter/s)": 0.02484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 418.9,
      "epoch": 0.6262626262626263,
      "grad_norm": 1.8495513561932837,
      "kl": 0.02667236328125,
      "learning_rate": 2e-07,
      "loss": 0.006523740291595459,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333656191825,
      "reward_std": 0.3144540905952454,
      "rewards/MultiModalAccuracyORM": 0.15833333656191825,
      "step": 1550,
      "train_speed(iter/s)": 0.024776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.2,
      "epoch": 0.6282828282828283,
      "grad_norm": 1.753463603338966,
      "kl": 0.030621337890625,
      "learning_rate": 2e-07,
      "loss": -0.08293852806091309,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000149011614,
      "reward_std": 0.23083824515342713,
      "rewards/MultiModalAccuracyORM": 0.25000000149011614,
      "step": 1555,
      "train_speed(iter/s)": 0.02475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 382.7,
      "epoch": 0.6303030303030303,
      "grad_norm": 2.663595112199716,
      "kl": 0.0219970703125,
      "learning_rate": 2e-07,
      "loss": -0.002608485519886017,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.35000000447034835,
      "reward_std": 0.27756678462028506,
      "rewards/MultiModalAccuracyORM": 0.35000000447034835,
      "step": 1560,
      "train_speed(iter/s)": 0.024719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.55,
      "epoch": 0.6323232323232323,
      "grad_norm": 1.803682568463378,
      "kl": 0.02052001953125,
      "learning_rate": 2e-07,
      "loss": -0.031521540880203244,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333440124989,
      "reward_std": 0.24935851097106934,
      "rewards/MultiModalAccuracyORM": 0.2833333440124989,
      "step": 1565,
      "train_speed(iter/s)": 0.024694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.5,
      "epoch": 0.6343434343434343,
      "grad_norm": 1.9551331787297712,
      "kl": 0.012725830078125,
      "learning_rate": 2e-07,
      "loss": 0.016904991865158082,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000059604645,
      "reward_std": 0.3863160490989685,
      "rewards/MultiModalAccuracyORM": 0.2250000059604645,
      "step": 1570,
      "train_speed(iter/s)": 0.024625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 280.85,
      "epoch": 0.6363636363636364,
      "grad_norm": 2.19696821448914,
      "kl": 0.016156005859375,
      "learning_rate": 2e-07,
      "loss": 0.00793578326702118,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.38333333656191826,
      "reward_std": 0.2260383188724518,
      "rewards/MultiModalAccuracyORM": 0.38333333656191826,
      "step": 1575,
      "train_speed(iter/s)": 0.024598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.35,
      "epoch": 0.6383838383838384,
      "grad_norm": 0.10124868688137513,
      "kl": 0.016912841796875,
      "learning_rate": 2e-07,
      "loss": -0.007649339735507965,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.26666666865348815,
      "reward_std": 0.23634997606277466,
      "rewards/MultiModalAccuracyORM": 0.26666666865348815,
      "step": 1580,
      "train_speed(iter/s)": 0.024579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 409.0,
      "epoch": 0.6404040404040404,
      "grad_norm": 1.6301877045933517,
      "kl": 0.012744140625,
      "learning_rate": 2e-07,
      "loss": 0.013163220882415772,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000052154064,
      "reward_std": 0.3906099498271942,
      "rewards/MultiModalAccuracyORM": 0.3250000052154064,
      "step": 1585,
      "train_speed(iter/s)": 0.024565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 359.05,
      "epoch": 0.6424242424242425,
      "grad_norm": 2.155746940066879,
      "kl": 0.016387939453125,
      "learning_rate": 2e-07,
      "loss": -0.006454774737358093,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2333333373069763,
      "reward_std": 0.2855865776538849,
      "rewards/MultiModalAccuracyORM": 0.2333333373069763,
      "step": 1590,
      "train_speed(iter/s)": 0.024526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 369.0,
      "epoch": 0.6444444444444445,
      "grad_norm": 2.831254989761031,
      "kl": 0.0135467529296875,
      "learning_rate": 2e-07,
      "loss": 0.04445863664150238,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000149011612,
      "reward_std": 0.28787843585014344,
      "rewards/MultiModalAccuracyORM": 0.20000000149011612,
      "step": 1595,
      "train_speed(iter/s)": 0.024495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.45,
      "epoch": 0.6464646464646465,
      "grad_norm": 1.4752518445027274,
      "kl": 0.017083740234375,
      "learning_rate": 2e-07,
      "loss": 0.03578461408615112,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666668131947516,
      "reward_std": 0.33704385757446287,
      "rewards/MultiModalAccuracyORM": 0.36666668131947516,
      "step": 1600,
      "train_speed(iter/s)": 0.024476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 355.65,
      "epoch": 0.6484848484848484,
      "grad_norm": 0.9187218241799472,
      "kl": 0.016937255859375,
      "learning_rate": 2e-07,
      "loss": 0.02192138433456421,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000111758709,
      "reward_std": 0.3222196638584137,
      "rewards/MultiModalAccuracyORM": 0.3500000111758709,
      "step": 1605,
      "train_speed(iter/s)": 0.024426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 388.35,
      "epoch": 0.6505050505050505,
      "grad_norm": 1.7973159194566164,
      "kl": 0.0144775390625,
      "learning_rate": 2e-07,
      "loss": 0.01784837543964386,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.12500000298023223,
      "reward_std": 0.2689731627702713,
      "rewards/MultiModalAccuracyORM": 0.12500000298023223,
      "step": 1610,
      "train_speed(iter/s)": 0.024388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.55,
      "epoch": 0.6525252525252525,
      "grad_norm": 2.0318711993448617,
      "kl": 0.018182373046875,
      "learning_rate": 2e-07,
      "loss": -0.02051687240600586,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333380520344,
      "reward_std": 0.261207589507103,
      "rewards/MultiModalAccuracyORM": 0.4333333380520344,
      "step": 1615,
      "train_speed(iter/s)": 0.024346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 339.3,
      "epoch": 0.6545454545454545,
      "grad_norm": 1.9030819605130962,
      "kl": 0.0175079345703125,
      "learning_rate": 2e-07,
      "loss": 0.06623161435127259,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.37500000596046446,
      "reward_std": 0.24885829985141755,
      "rewards/MultiModalAccuracyORM": 0.37500000596046446,
      "step": 1620,
      "train_speed(iter/s)": 0.024315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 280.4,
      "epoch": 0.6565656565656566,
      "grad_norm": 2.08045815446475,
      "kl": 0.0169708251953125,
      "learning_rate": 2e-07,
      "loss": -0.013642898201942444,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000029802322,
      "reward_std": 0.3378098726272583,
      "rewards/MultiModalAccuracyORM": 0.2500000029802322,
      "step": 1625,
      "train_speed(iter/s)": 0.024289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 400.75,
      "epoch": 0.6585858585858586,
      "grad_norm": 1.436661872799103,
      "kl": 0.0193359375,
      "learning_rate": 2e-07,
      "loss": 0.02239292562007904,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333805203437,
      "reward_std": 0.2629852324724197,
      "rewards/MultiModalAccuracyORM": 0.15833333805203437,
      "step": 1630,
      "train_speed(iter/s)": 0.024248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 270.4,
      "epoch": 0.6606060606060606,
      "grad_norm": 2.5008411774286494,
      "kl": 0.020758056640625,
      "learning_rate": 2e-07,
      "loss": 0.02127687931060791,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333432674408,
      "reward_std": 0.3023863762617111,
      "rewards/MultiModalAccuracyORM": 0.4083333432674408,
      "step": 1635,
      "train_speed(iter/s)": 0.024227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.8,
      "epoch": 0.6626262626262627,
      "grad_norm": 2.6410537415459125,
      "kl": 0.02030029296875,
      "learning_rate": 2e-07,
      "loss": 0.05219934582710266,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667684912684,
      "reward_std": 0.35006397068500517,
      "rewards/MultiModalAccuracyORM": 0.41666667684912684,
      "step": 1640,
      "train_speed(iter/s)": 0.024199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.0,
      "epoch": 0.6646464646464646,
      "grad_norm": 2.4569826375450914,
      "kl": 0.01795654296875,
      "learning_rate": 2e-07,
      "loss": 0.013086378574371338,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.45000001341104506,
      "reward_std": 0.3337643891572952,
      "rewards/MultiModalAccuracyORM": 0.45000001341104506,
      "step": 1645,
      "train_speed(iter/s)": 0.024168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.8,
      "epoch": 0.6666666666666666,
      "grad_norm": 1.9280627341583514,
      "kl": 0.015191650390625,
      "learning_rate": 2e-07,
      "loss": 0.01907120943069458,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000447034836,
      "reward_std": 0.30035116970539094,
      "rewards/MultiModalAccuracyORM": 0.15000000447034836,
      "step": 1650,
      "train_speed(iter/s)": 0.024141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.0,
      "epoch": 0.6686868686868687,
      "grad_norm": 2.6312715310589687,
      "kl": 0.015863037109375,
      "learning_rate": 2e-07,
      "loss": -0.04063203632831573,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333656191825,
      "reward_std": 0.25741389989852903,
      "rewards/MultiModalAccuracyORM": 0.15833333656191825,
      "step": 1655,
      "train_speed(iter/s)": 0.024076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 394.05,
      "epoch": 0.6707070707070707,
      "grad_norm": 0.9566291807644657,
      "kl": 0.015057373046875,
      "learning_rate": 2e-07,
      "loss": 0.018163633346557618,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667610406875,
      "reward_std": 0.28446817994117735,
      "rewards/MultiModalAccuracyORM": 0.26666667610406875,
      "step": 1660,
      "train_speed(iter/s)": 0.024043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 326.85,
      "epoch": 0.6727272727272727,
      "grad_norm": 1.9521868347750622,
      "kl": 0.019769287109375,
      "learning_rate": 2e-07,
      "loss": -5.202591419219971e-05,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667535901069,
      "reward_std": 0.23481498062610626,
      "rewards/MultiModalAccuracyORM": 0.21666667535901069,
      "step": 1665,
      "train_speed(iter/s)": 0.024026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 316.4,
      "epoch": 0.6747474747474748,
      "grad_norm": 2.1472683375029757,
      "kl": 0.01842041015625,
      "learning_rate": 2e-07,
      "loss": 0.08016844987869262,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667461395264,
      "reward_std": 0.29655990600585935,
      "rewards/MultiModalAccuracyORM": 0.24166667461395264,
      "step": 1670,
      "train_speed(iter/s)": 0.024002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.15,
      "epoch": 0.6767676767676768,
      "grad_norm": 2.136669782149022,
      "kl": 0.012603759765625,
      "learning_rate": 2e-07,
      "loss": 0.03559441566467285,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333334103226662,
      "reward_std": 0.31266487538814547,
      "rewards/MultiModalAccuracyORM": 0.18333334103226662,
      "step": 1675,
      "train_speed(iter/s)": 0.023983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 349.7,
      "epoch": 0.6787878787878788,
      "grad_norm": 2.5120224393696056,
      "kl": 0.033984375,
      "learning_rate": 2e-07,
      "loss": -0.02109343409538269,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333410322666,
      "reward_std": 0.2629852324724197,
      "rewards/MultiModalAccuracyORM": 0.2083333410322666,
      "step": 1680,
      "train_speed(iter/s)": 0.02395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 224.85,
      "epoch": 0.6808080808080809,
      "grad_norm": 2.7291188101039268,
      "kl": 0.0185638427734375,
      "learning_rate": 2e-07,
      "loss": 0.06400806307792664,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.441666679084301,
      "reward_std": 0.3586460083723068,
      "rewards/MultiModalAccuracyORM": 0.441666679084301,
      "step": 1685,
      "train_speed(iter/s)": 0.023931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 204.25,
      "epoch": 0.6828282828282828,
      "grad_norm": 2.473418035792826,
      "kl": 0.03394775390625,
      "learning_rate": 2e-07,
      "loss": 0.042749062180519104,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000044703484,
      "reward_std": 0.30718872845172884,
      "rewards/MultiModalAccuracyORM": 0.3250000044703484,
      "step": 1690,
      "train_speed(iter/s)": 0.023921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 321.45,
      "epoch": 0.6848484848484848,
      "grad_norm": 1.4363881715878042,
      "kl": 0.023870849609375,
      "learning_rate": 2e-07,
      "loss": 0.007241478562355042,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000022351742,
      "reward_std": 0.3244373768568039,
      "rewards/MultiModalAccuracyORM": 0.3500000022351742,
      "step": 1695,
      "train_speed(iter/s)": 0.023909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.0,
      "epoch": 0.6868686868686869,
      "grad_norm": 2.953319073134284,
      "kl": 0.023052978515625,
      "learning_rate": 2e-07,
      "loss": -0.010269761085510254,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000596046447,
      "reward_std": 0.3144540905952454,
      "rewards/MultiModalAccuracyORM": 0.32500000596046447,
      "step": 1700,
      "train_speed(iter/s)": 0.023894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 281.35,
      "epoch": 0.6888888888888889,
      "grad_norm": 2.565868939994401,
      "kl": 0.02255859375,
      "learning_rate": 2e-07,
      "loss": 0.018953490257263183,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3583333417773247,
      "reward_std": 0.30840655863285066,
      "rewards/MultiModalAccuracyORM": 0.3583333417773247,
      "step": 1705,
      "train_speed(iter/s)": 0.023885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 375.9,
      "epoch": 0.6909090909090909,
      "grad_norm": 0.6694533298035624,
      "kl": 0.01932373046875,
      "learning_rate": 2e-07,
      "loss": 0.008337923884391784,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667535901069,
      "reward_std": 0.2652415007352829,
      "rewards/MultiModalAccuracyORM": 0.21666667535901069,
      "step": 1710,
      "train_speed(iter/s)": 0.02387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 275.95,
      "epoch": 0.692929292929293,
      "grad_norm": 1.567189433294113,
      "kl": 0.030279541015625,
      "learning_rate": 2e-07,
      "loss": 0.03896563053131104,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667759418485,
      "reward_std": 0.35563530325889586,
      "rewards/MultiModalAccuracyORM": 0.41666667759418485,
      "step": 1715,
      "train_speed(iter/s)": 0.023857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 263.45,
      "epoch": 0.694949494949495,
      "grad_norm": 1.8167696383064045,
      "kl": 0.0214141845703125,
      "learning_rate": 2e-07,
      "loss": 0.020650827884674074,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4333333484828472,
      "reward_std": 0.39936017990112305,
      "rewards/MultiModalAccuracyORM": 0.4333333484828472,
      "step": 1720,
      "train_speed(iter/s)": 0.023843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.55,
      "epoch": 0.696969696969697,
      "grad_norm": 2.213186558232037,
      "kl": 0.0275634765625,
      "learning_rate": 2e-07,
      "loss": -0.008746334910392761,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.341666679084301,
      "reward_std": 0.35490245223045347,
      "rewards/MultiModalAccuracyORM": 0.341666679084301,
      "step": 1725,
      "train_speed(iter/s)": 0.023835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 343.9,
      "epoch": 0.6989898989898989,
      "grad_norm": 2.601045176615316,
      "kl": 0.021826171875,
      "learning_rate": 2e-07,
      "loss": -0.03737230598926544,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667461395265,
      "reward_std": 0.38179769814014436,
      "rewards/MultiModalAccuracyORM": 0.31666667461395265,
      "step": 1730,
      "train_speed(iter/s)": 0.023822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.3,
      "epoch": 0.701010101010101,
      "grad_norm": 0.9407841462948962,
      "kl": 0.0240234375,
      "learning_rate": 2e-07,
      "loss": -0.0031855762004852294,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000089406967,
      "reward_std": 0.2511385798454285,
      "rewards/MultiModalAccuracyORM": 0.2750000089406967,
      "step": 1735,
      "train_speed(iter/s)": 0.023807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 262.95,
      "epoch": 0.703030303030303,
      "grad_norm": 2.6759259468484413,
      "kl": 0.0215087890625,
      "learning_rate": 2e-07,
      "loss": 0.025629484653472902,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.34166667312383653,
      "reward_std": 0.3390218883752823,
      "rewards/MultiModalAccuracyORM": 0.34166667312383653,
      "step": 1740,
      "train_speed(iter/s)": 0.023819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 280.85,
      "epoch": 0.705050505050505,
      "grad_norm": 1.6215662631256935,
      "kl": 0.043084716796875,
      "learning_rate": 2e-07,
      "loss": 0.01873619556427002,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333395421505,
      "reward_std": 0.23631438612937927,
      "rewards/MultiModalAccuracyORM": 0.3083333395421505,
      "step": 1745,
      "train_speed(iter/s)": 0.023814
    },
    {
      "epoch": 0.7070707070707071,
      "grad_norm": 3.313730122510265,
      "learning_rate": 2e-07,
      "loss": -0.041856271028518674,
      "memory(GiB)": 87.45,
      "step": 1750,
      "train_speed(iter/s)": 0.023773
    },
    {
      "epoch": 0.7070707070707071,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 318.58167419433596,
      "eval_kl": 0.0221929931640625,
      "eval_loss": 0.0349855050444603,
      "eval_response_clip_ratio": 0.001666666716337204,
      "eval_reward": 0.2950000064074993,
      "eval_reward_std": 0.3137217426300049,
      "eval_rewards/MultiModalAccuracyORM": 0.2950000064074993,
      "eval_runtime": 782.5117,
      "eval_samples_per_second": 0.064,
      "eval_steps_per_second": 0.006,
      "step": 1750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.775,
      "epoch": 0.7090909090909091,
      "grad_norm": 1.446054468361364,
      "kl": 0.0215576171875,
      "learning_rate": 2e-07,
      "loss": 0.013345304131507873,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333805203438,
      "reward_std": 0.3380433991551399,
      "rewards/MultiModalAccuracyORM": 0.23333333805203438,
      "step": 1755,
      "train_speed(iter/s)": 0.023419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 307.45,
      "epoch": 0.7111111111111111,
      "grad_norm": 1.3947630704883345,
      "kl": 0.018634033203125,
      "learning_rate": 2e-07,
      "loss": 0.010007500648498535,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000521540643,
      "reward_std": 0.27148365676403047,
      "rewards/MultiModalAccuracyORM": 0.17500000521540643,
      "step": 1760,
      "train_speed(iter/s)": 0.023454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 283.5,
      "epoch": 0.7131313131313132,
      "grad_norm": 2.218781010019711,
      "kl": 0.021832275390625,
      "learning_rate": 2e-07,
      "loss": -0.013157431781291962,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333656191825,
      "reward_std": 0.2652770906686783,
      "rewards/MultiModalAccuracyORM": 0.15833333656191825,
      "step": 1765,
      "train_speed(iter/s)": 0.023491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 256.75,
      "epoch": 0.7151515151515152,
      "grad_norm": 1.7430710535513718,
      "kl": 0.01793212890625,
      "learning_rate": 2e-07,
      "loss": 0.021530145406723024,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.26666667610406875,
      "reward_std": 0.3066769391298294,
      "rewards/MultiModalAccuracyORM": 0.26666667610406875,
      "step": 1770,
      "train_speed(iter/s)": 0.023528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 265.35,
      "epoch": 0.7171717171717171,
      "grad_norm": 1.7339756470338048,
      "kl": 0.014569091796875,
      "learning_rate": 2e-07,
      "loss": -0.058446085453033446,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667237877844,
      "reward_std": 0.2820172876119614,
      "rewards/MultiModalAccuracyORM": 0.31666667237877844,
      "step": 1775,
      "train_speed(iter/s)": 0.023563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.0,
      "epoch": 0.7191919191919192,
      "grad_norm": 1.6384172396752068,
      "kl": 0.0145233154296875,
      "learning_rate": 2e-07,
      "loss": -0.00234740674495697,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.33333334177732465,
      "reward_std": 0.3890485167503357,
      "rewards/MultiModalAccuracyORM": 0.33333334177732465,
      "step": 1780,
      "train_speed(iter/s)": 0.02359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 391.6,
      "epoch": 0.7212121212121212,
      "grad_norm": 2.6878660022854333,
      "kl": 0.016748046875,
      "learning_rate": 2e-07,
      "loss": 0.03554516434669495,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333395421505,
      "reward_std": 0.35974039435386657,
      "rewards/MultiModalAccuracyORM": 0.2833333395421505,
      "step": 1785,
      "train_speed(iter/s)": 0.023622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.25,
      "epoch": 0.7232323232323232,
      "grad_norm": 2.4324428426946834,
      "kl": 0.0128204345703125,
      "learning_rate": 2e-07,
      "loss": -0.047456872463226316,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833333730697633,
      "reward_std": 0.2970361053943634,
      "rewards/MultiModalAccuracyORM": 0.25833333730697633,
      "step": 1790,
      "train_speed(iter/s)": 0.023655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 343.65,
      "epoch": 0.7252525252525253,
      "grad_norm": 1.8618904482502028,
      "kl": 0.0149169921875,
      "learning_rate": 2e-07,
      "loss": 0.009033694863319397,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2583333387970924,
      "reward_std": 0.21750431060791015,
      "rewards/MultiModalAccuracyORM": 0.2583333387970924,
      "step": 1795,
      "train_speed(iter/s)": 0.023686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 369.05,
      "epoch": 0.7272727272727273,
      "grad_norm": 3.36471551001556,
      "kl": 0.02044677734375,
      "learning_rate": 2e-07,
      "loss": 0.010516098141670227,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666731238365,
      "reward_std": 0.21218962371349334,
      "rewards/MultiModalAccuracyORM": 0.3166666731238365,
      "step": 1800,
      "train_speed(iter/s)": 0.023721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 351.05,
      "epoch": 0.7292929292929293,
      "grad_norm": 3.723751882855137,
      "kl": 0.023046875,
      "learning_rate": 2e-07,
      "loss": -0.02001919746398926,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333447575569,
      "reward_std": 0.28128686249256135,
      "rewards/MultiModalAccuracyORM": 0.4083333447575569,
      "step": 1805,
      "train_speed(iter/s)": 0.023755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 335.35,
      "epoch": 0.7313131313131314,
      "grad_norm": 54.701999328620005,
      "kl": 0.02723388671875,
      "learning_rate": 2e-07,
      "loss": 0.03721327781677246,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2416666753590107,
      "reward_std": 0.2910481750965118,
      "rewards/MultiModalAccuracyORM": 0.2416666753590107,
      "step": 1810,
      "train_speed(iter/s)": 0.02379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 225.45,
      "epoch": 0.7333333333333333,
      "grad_norm": 3.0855092667576733,
      "kl": 0.015704345703125,
      "learning_rate": 2e-07,
      "loss": -0.037659955024719236,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667759418486,
      "reward_std": 0.36648276150226594,
      "rewards/MultiModalAccuracyORM": 0.36666667759418486,
      "step": 1815,
      "train_speed(iter/s)": 0.023829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 306.3,
      "epoch": 0.7353535353535353,
      "grad_norm": 2.1896027058768217,
      "kl": 0.01336669921875,
      "learning_rate": 2e-07,
      "loss": 0.02186403125524521,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4416666753590107,
      "reward_std": 0.2956440091133118,
      "rewards/MultiModalAccuracyORM": 0.4416666753590107,
      "step": 1820,
      "train_speed(iter/s)": 0.023865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.95,
      "epoch": 0.7373737373737373,
      "grad_norm": 1.540468825830471,
      "kl": 0.010992431640625,
      "learning_rate": 2e-07,
      "loss": 0.03888830542564392,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1583333395421505,
      "reward_std": 0.21368902921676636,
      "rewards/MultiModalAccuracyORM": 0.1583333395421505,
      "step": 1825,
      "train_speed(iter/s)": 0.023899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.15,
      "epoch": 0.7393939393939394,
      "grad_norm": 49.26742721312377,
      "kl": 0.0157135009765625,
      "learning_rate": 2e-07,
      "loss": -0.0031795650720596313,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1333333395421505,
      "reward_std": 0.2736803233623505,
      "rewards/MultiModalAccuracyORM": 0.1333333395421505,
      "step": 1830,
      "train_speed(iter/s)": 0.023929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.0,
      "epoch": 0.7414141414141414,
      "grad_norm": 1.2425141205561836,
      "kl": 0.0211181640625,
      "learning_rate": 2e-07,
      "loss": -0.01690070778131485,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667237877844,
      "reward_std": 0.33905747830867766,
      "rewards/MultiModalAccuracyORM": 0.31666667237877844,
      "step": 1835,
      "train_speed(iter/s)": 0.023961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 377.15,
      "epoch": 0.7434343434343434,
      "grad_norm": 2.8910783603707144,
      "kl": 0.0198638916015625,
      "learning_rate": 2e-07,
      "loss": 0.06207960844039917,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.40000001043081285,
      "reward_std": 0.38306058645248414,
      "rewards/MultiModalAccuracyORM": 0.40000001043081285,
      "step": 1840,
      "train_speed(iter/s)": 0.023987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 398.35,
      "epoch": 0.7454545454545455,
      "grad_norm": 14.235626745032626,
      "kl": 0.019775390625,
      "learning_rate": 2e-07,
      "loss": 0.037658247351646426,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.16666666865348817,
      "reward_std": 0.12708649039268494,
      "rewards/MultiModalAccuracyORM": 0.16666666865348817,
      "step": 1845,
      "train_speed(iter/s)": 0.024018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 328.4,
      "epoch": 0.7474747474747475,
      "grad_norm": 1.833635434555557,
      "kl": 0.018505859375,
      "learning_rate": 2e-07,
      "loss": -0.026553609967231752,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3750000111758709,
      "reward_std": 0.34710129499435427,
      "rewards/MultiModalAccuracyORM": 0.3750000111758709,
      "step": 1850,
      "train_speed(iter/s)": 0.024051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 394.6,
      "epoch": 0.7494949494949495,
      "grad_norm": 1.825594490175896,
      "kl": 0.02091064453125,
      "learning_rate": 2e-07,
      "loss": 0.02868058383464813,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334550261495,
      "reward_std": 0.3127244710922241,
      "rewards/MultiModalAccuracyORM": 0.33333334550261495,
      "step": 1855,
      "train_speed(iter/s)": 0.024084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.45,
      "epoch": 0.7515151515151515,
      "grad_norm": 1.3722283938123239,
      "kl": 0.023919677734375,
      "learning_rate": 2e-07,
      "loss": 0.017566892504692077,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.14166666865348815,
      "reward_std": 0.32900004684925077,
      "rewards/MultiModalAccuracyORM": 0.14166666865348815,
      "step": 1860,
      "train_speed(iter/s)": 0.024119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 370.25,
      "epoch": 0.7535353535353535,
      "grad_norm": 3.3603602877653964,
      "kl": 0.023779296875,
      "learning_rate": 2e-07,
      "loss": 0.051629495620727536,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334177732465,
      "reward_std": 0.4036242991685867,
      "rewards/MultiModalAccuracyORM": 0.33333334177732465,
      "step": 1865,
      "train_speed(iter/s)": 0.02415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 306.4,
      "epoch": 0.7555555555555555,
      "grad_norm": 4.690429815238561,
      "kl": 0.0260162353515625,
      "learning_rate": 2e-07,
      "loss": -0.004315692186355591,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000029802322,
      "reward_std": 0.2940108567476273,
      "rewards/MultiModalAccuracyORM": 0.2500000029802322,
      "step": 1870,
      "train_speed(iter/s)": 0.024182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 274.45,
      "epoch": 0.7575757575757576,
      "grad_norm": 2.7051519330762646,
      "kl": 0.0303466796875,
      "learning_rate": 2e-07,
      "loss": -0.008211909234523774,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25833334103226663,
      "reward_std": 0.3237069517374039,
      "rewards/MultiModalAccuracyORM": 0.25833334103226663,
      "step": 1875,
      "train_speed(iter/s)": 0.024217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 409.5,
      "epoch": 0.7595959595959596,
      "grad_norm": 2.8417211154013895,
      "kl": 0.02593994140625,
      "learning_rate": 2e-07,
      "loss": 0.061132901906967164,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.27500000670552255,
      "reward_std": 0.40261563658714294,
      "rewards/MultiModalAccuracyORM": 0.27500000670552255,
      "step": 1880,
      "train_speed(iter/s)": 0.024247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 396.45,
      "epoch": 0.7616161616161616,
      "grad_norm": 2.730755662335053,
      "kl": 0.026220703125,
      "learning_rate": 2e-07,
      "loss": 0.036236304044723514,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1666666731238365,
      "reward_std": 0.3101543754339218,
      "rewards/MultiModalAccuracyORM": 0.1666666731238365,
      "step": 1885,
      "train_speed(iter/s)": 0.024279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 275.0,
      "epoch": 0.7636363636363637,
      "grad_norm": 1.777471986992103,
      "kl": 0.025811767578125,
      "learning_rate": 2e-07,
      "loss": 0.010323920845985412,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666701436043,
      "reward_std": 0.2506715327501297,
      "rewards/MultiModalAccuracyORM": 0.3916666701436043,
      "step": 1890,
      "train_speed(iter/s)": 0.024315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.5,
      "epoch": 0.7656565656565657,
      "grad_norm": 0.13037300867268706,
      "kl": 0.030450439453125,
      "learning_rate": 2e-07,
      "loss": 0.0042250391095876695,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.35000001043081286,
      "reward_std": 0.3182337760925293,
      "rewards/MultiModalAccuracyORM": 0.35000001043081286,
      "step": 1895,
      "train_speed(iter/s)": 0.024345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 329.7,
      "epoch": 0.7676767676767676,
      "grad_norm": 1.7511437916198835,
      "kl": 0.016363525390625,
      "learning_rate": 2e-07,
      "loss": 0.006176537275314331,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.44166667461395265,
      "reward_std": 0.2988493382930756,
      "rewards/MultiModalAccuracyORM": 0.44166667461395265,
      "step": 1900,
      "train_speed(iter/s)": 0.024374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 262.25,
      "epoch": 0.7696969696969697,
      "grad_norm": 2.6784748457723992,
      "kl": 0.026043701171875,
      "learning_rate": 2e-07,
      "loss": -0.0650195300579071,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4416666753590107,
      "reward_std": 0.4098664551973343,
      "rewards/MultiModalAccuracyORM": 0.4416666753590107,
      "step": 1905,
      "train_speed(iter/s)": 0.024412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.75,
      "epoch": 0.7717171717171717,
      "grad_norm": 2.0646305839430648,
      "kl": 0.027471923828125,
      "learning_rate": 2e-07,
      "loss": 0.023633481562137605,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30833334401249884,
      "reward_std": 0.375223833322525,
      "rewards/MultiModalAccuracyORM": 0.30833334401249884,
      "step": 1910,
      "train_speed(iter/s)": 0.024446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.0,
      "epoch": 0.7737373737373737,
      "grad_norm": 1.9430903927913294,
      "kl": 0.018585205078125,
      "learning_rate": 2e-07,
      "loss": -0.023164969682693482,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667237877844,
      "reward_std": 0.3330695480108261,
      "rewards/MultiModalAccuracyORM": 0.31666667237877844,
      "step": 1915,
      "train_speed(iter/s)": 0.024483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.55,
      "epoch": 0.7757575757575758,
      "grad_norm": 1.2487710271189274,
      "kl": 0.0145263671875,
      "learning_rate": 2e-07,
      "loss": 0.014984607696533203,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.38333334028720856,
      "reward_std": 0.2784802496433258,
      "rewards/MultiModalAccuracyORM": 0.38333334028720856,
      "step": 1920,
      "train_speed(iter/s)": 0.024514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 301.65,
      "epoch": 0.7777777777777778,
      "grad_norm": 3.397172729657377,
      "kl": 0.025823974609375,
      "learning_rate": 2e-07,
      "loss": 0.010728538036346436,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.45000001341104506,
      "reward_std": 0.36237767040729524,
      "rewards/MultiModalAccuracyORM": 0.45000001341104506,
      "step": 1925,
      "train_speed(iter/s)": 0.024547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.9,
      "epoch": 0.7797979797979798,
      "grad_norm": 2.445242624274772,
      "kl": 0.02085418701171875,
      "learning_rate": 2e-07,
      "loss": 0.0506191611289978,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.366666679084301,
      "reward_std": 0.3425410449504852,
      "rewards/MultiModalAccuracyORM": 0.366666679084301,
      "step": 1930,
      "train_speed(iter/s)": 0.024581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.95,
      "epoch": 0.7818181818181819,
      "grad_norm": 2.2267041732312953,
      "kl": 0.0191650390625,
      "learning_rate": 2e-07,
      "loss": 0.07460187673568726,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1750000037252903,
      "reward_std": 0.27998208105564115,
      "rewards/MultiModalAccuracyORM": 0.1750000037252903,
      "step": 1935,
      "train_speed(iter/s)": 0.024609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 358.15,
      "epoch": 0.7838383838383839,
      "grad_norm": 0.08307319969608204,
      "kl": 0.01834716796875,
      "learning_rate": 2e-07,
      "loss": 0.01801389306783676,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334028720856,
      "reward_std": 0.2292436480522156,
      "rewards/MultiModalAccuracyORM": 0.23333334028720856,
      "step": 1940,
      "train_speed(iter/s)": 0.024633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 351.25,
      "epoch": 0.7858585858585858,
      "grad_norm": 2.4956737169852876,
      "kl": 0.0243896484375,
      "learning_rate": 2e-07,
      "loss": 0.02604297399520874,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4416666768491268,
      "reward_std": 0.23860624432563782,
      "rewards/MultiModalAccuracyORM": 0.4416666768491268,
      "step": 1945,
      "train_speed(iter/s)": 0.024666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 365.6,
      "epoch": 0.7878787878787878,
      "grad_norm": 1.412421381873315,
      "kl": 0.03074951171875,
      "learning_rate": 2e-07,
      "loss": -0.008066686987876891,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666753590107,
      "reward_std": 0.3619014710187912,
      "rewards/MultiModalAccuracyORM": 0.3166666753590107,
      "step": 1950,
      "train_speed(iter/s)": 0.0247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 316.4,
      "epoch": 0.7898989898989899,
      "grad_norm": 2.581974028906461,
      "kl": 0.0264404296875,
      "learning_rate": 2e-07,
      "loss": 0.0021781913936138155,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.6333333432674408,
      "reward_std": 0.34636789858341216,
      "rewards/MultiModalAccuracyORM": 0.6333333432674408,
      "step": 1955,
      "train_speed(iter/s)": 0.024735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.8,
      "epoch": 0.7919191919191919,
      "grad_norm": 2.7977079078012546,
      "kl": 0.030804443359375,
      "learning_rate": 2e-07,
      "loss": 0.028843042254447938,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333879709245,
      "reward_std": 0.18488111793994905,
      "rewards/MultiModalAccuracyORM": 0.23333333879709245,
      "step": 1960,
      "train_speed(iter/s)": 0.02477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.4,
      "epoch": 0.793939393939394,
      "grad_norm": 2.3766146998216606,
      "kl": 0.029986572265625,
      "learning_rate": 2e-07,
      "loss": 0.01644158363342285,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.5250000111758709,
      "reward_std": 0.3782962501049042,
      "rewards/MultiModalAccuracyORM": 0.5250000111758709,
      "step": 1965,
      "train_speed(iter/s)": 0.024803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 413.2,
      "epoch": 0.795959595959596,
      "grad_norm": 1.6454459000922825,
      "kl": 0.03331298828125,
      "learning_rate": 2e-07,
      "loss": 0.04098441600799561,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666805744171,
      "reward_std": 0.31651573479175565,
      "rewards/MultiModalAccuracyORM": 0.3916666805744171,
      "step": 1970,
      "train_speed(iter/s)": 0.024833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.5,
      "epoch": 0.797979797979798,
      "grad_norm": 2.676941712540541,
      "kl": 0.033160400390625,
      "learning_rate": 2e-07,
      "loss": -0.06822603344917297,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333395421505,
      "reward_std": 0.26591232419013977,
      "rewards/MultiModalAccuracyORM": 0.4083333395421505,
      "step": 1975,
      "train_speed(iter/s)": 0.024862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.05,
      "epoch": 0.8,
      "grad_norm": 2.6654647292288565,
      "kl": 0.03338623046875,
      "learning_rate": 2e-07,
      "loss": 0.018979550898075105,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333410322666,
      "reward_std": 0.2988493382930756,
      "rewards/MultiModalAccuracyORM": 0.3083333410322666,
      "step": 1980,
      "train_speed(iter/s)": 0.024892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.9,
      "epoch": 0.802020202020202,
      "grad_norm": 1.2773941729876779,
      "kl": 0.02757568359375,
      "learning_rate": 2e-07,
      "loss": 0.0032975614070892335,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3666666716337204,
      "reward_std": 0.21999078691005708,
      "rewards/MultiModalAccuracyORM": 0.3666666716337204,
      "step": 1985,
      "train_speed(iter/s)": 0.024918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 318.45,
      "epoch": 0.804040404040404,
      "grad_norm": 3.249804741680811,
      "kl": 0.0233734130859375,
      "learning_rate": 2e-07,
      "loss": -0.0009274959564208984,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.25000000447034837,
      "reward_std": 0.3111390322446823,
      "rewards/MultiModalAccuracyORM": 0.25000000447034837,
      "step": 1990,
      "train_speed(iter/s)": 0.024952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 356.3,
      "epoch": 0.806060606060606,
      "grad_norm": 1.6358353140611315,
      "kl": 0.02435302734375,
      "learning_rate": 2e-07,
      "loss": 0.01845797598361969,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3083333380520344,
      "reward_std": 0.31345489621162415,
      "rewards/MultiModalAccuracyORM": 0.3083333380520344,
      "step": 1995,
      "train_speed(iter/s)": 0.024983
    },
    {
      "epoch": 0.8080808080808081,
      "grad_norm": 2.5769756858186366,
      "learning_rate": 2e-07,
      "loss": -0.03718583881855011,
      "memory(GiB)": 87.45,
      "step": 2000,
      "train_speed(iter/s)": 0.025016
    },
    {
      "epoch": 0.8080808080808081,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 323.9533418273926,
      "eval_kl": 0.0281341552734375,
      "eval_loss": 0.006039996165782213,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.318333340883255,
      "eval_reward_std": 0.32694393634796143,
      "eval_rewards/MultiModalAccuracyORM": 0.318333340883255,
      "eval_runtime": 462.0456,
      "eval_samples_per_second": 0.108,
      "eval_steps_per_second": 0.011,
      "step": 2000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.125,
      "epoch": 0.8101010101010101,
      "grad_norm": 1.7033276169087128,
      "kl": 0.02674102783203125,
      "learning_rate": 2e-07,
      "loss": 0.03609513640403748,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23750001043081284,
      "reward_std": 0.24687736183404924,
      "rewards/MultiModalAccuracyORM": 0.23750001043081284,
      "step": 2005,
      "train_speed(iter/s)": 0.024793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 325.55,
      "epoch": 0.8121212121212121,
      "grad_norm": 1.77522203951707,
      "kl": 0.0292724609375,
      "learning_rate": 2e-07,
      "loss": 0.01515505015850067,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000059604645,
      "reward_std": 0.38405978083610537,
      "rewards/MultiModalAccuracyORM": 0.3500000059604645,
      "step": 2010,
      "train_speed(iter/s)": 0.024823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 288.5,
      "epoch": 0.8141414141414142,
      "grad_norm": 2.047124696336966,
      "kl": 0.02886962890625,
      "learning_rate": 2e-07,
      "loss": -0.056891226768493654,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.350000012665987,
      "reward_std": 0.3127244710922241,
      "rewards/MultiModalAccuracyORM": 0.350000012665987,
      "step": 2015,
      "train_speed(iter/s)": 0.024857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 273.0,
      "epoch": 0.8161616161616162,
      "grad_norm": 2.933718360724764,
      "kl": 0.0226837158203125,
      "learning_rate": 2e-07,
      "loss": 0.04815356135368347,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666753590107,
      "reward_std": 0.3597048044204712,
      "rewards/MultiModalAccuracyORM": 0.3916666753590107,
      "step": 2020,
      "train_speed(iter/s)": 0.024891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.85,
      "epoch": 0.8181818181818182,
      "grad_norm": 2.3099689560601595,
      "kl": 0.015521240234375,
      "learning_rate": 2e-07,
      "loss": 0.00659940093755722,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4250000067055225,
      "reward_std": 0.2574163258075714,
      "rewards/MultiModalAccuracyORM": 0.4250000067055225,
      "step": 2025,
      "train_speed(iter/s)": 0.024922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.5,
      "epoch": 0.8202020202020202,
      "grad_norm": 2.5439305675732165,
      "kl": 0.019085693359375,
      "learning_rate": 2e-07,
      "loss": 0.0326183021068573,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3750000074505806,
      "reward_std": 0.31040860116481783,
      "rewards/MultiModalAccuracyORM": 0.3750000074505806,
      "step": 2030,
      "train_speed(iter/s)": 0.024949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.5,
      "epoch": 0.8222222222222222,
      "grad_norm": 3.2829060035742557,
      "kl": 0.023626708984375,
      "learning_rate": 2e-07,
      "loss": 0.015071746706962586,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666693985462,
      "reward_std": 0.205923455953598,
      "rewards/MultiModalAccuracyORM": 0.2666666693985462,
      "step": 2035,
      "train_speed(iter/s)": 0.024973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.55,
      "epoch": 0.8242424242424242,
      "grad_norm": 2.658698100364113,
      "kl": 0.0230712890625,
      "learning_rate": 2e-07,
      "loss": 0.013616405427455902,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333333879709244,
      "reward_std": 0.34936913549900056,
      "rewards/MultiModalAccuracyORM": 0.28333333879709244,
      "step": 2040,
      "train_speed(iter/s)": 0.024998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 238.15,
      "epoch": 0.8262626262626263,
      "grad_norm": 2.342715529046246,
      "kl": 0.029901123046875,
      "learning_rate": 2e-07,
      "loss": 0.037117105722427365,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3166666753590107,
      "reward_std": 0.36670139729976653,
      "rewards/MultiModalAccuracyORM": 0.3166666753590107,
      "step": 2045,
      "train_speed(iter/s)": 0.025033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.45,
      "epoch": 0.8282828282828283,
      "grad_norm": 0.9452733042514408,
      "kl": 0.025860595703125,
      "learning_rate": 2e-07,
      "loss": 0.03209388256072998,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000074505805,
      "reward_std": 0.26750934720039365,
      "rewards/MultiModalAccuracyORM": 0.22500000074505805,
      "step": 2050,
      "train_speed(iter/s)": 0.025068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 361.15,
      "epoch": 0.8303030303030303,
      "grad_norm": 2.136815117405037,
      "kl": 0.0298553466796875,
      "learning_rate": 2e-07,
      "loss": 0.04463410079479217,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666753590107,
      "reward_std": 0.4307381808757782,
      "rewards/MultiModalAccuracyORM": 0.3416666753590107,
      "step": 2055,
      "train_speed(iter/s)": 0.025094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.85,
      "epoch": 0.8323232323232324,
      "grad_norm": 1.7941689466428354,
      "kl": 0.018414306640625,
      "learning_rate": 2e-07,
      "loss": -0.013085222244262696,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333333432674406,
      "reward_std": 0.27756677865982055,
      "rewards/MultiModalAccuracyORM": 0.33333333432674406,
      "step": 2060,
      "train_speed(iter/s)": 0.025121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 373.6,
      "epoch": 0.8343434343434344,
      "grad_norm": 2.741809894885581,
      "kl": 0.0217803955078125,
      "learning_rate": 2e-07,
      "loss": 0.032400667667388916,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333395421505,
      "reward_std": 0.3207202583551407,
      "rewards/MultiModalAccuracyORM": 0.2083333395421505,
      "step": 2065,
      "train_speed(iter/s)": 0.025146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 380.7,
      "epoch": 0.8363636363636363,
      "grad_norm": 1.5317649365927353,
      "kl": 0.02591552734375,
      "learning_rate": 2e-07,
      "loss": 0.026116135716438293,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666746139526,
      "reward_std": 0.3315081149339676,
      "rewards/MultiModalAccuracyORM": 0.2916666746139526,
      "step": 2070,
      "train_speed(iter/s)": 0.02517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 298.3,
      "epoch": 0.8383838383838383,
      "grad_norm": 2.2493040161672164,
      "kl": 0.023297119140625,
      "learning_rate": 2e-07,
      "loss": 0.011263298988342284,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3666666723787785,
      "reward_std": 0.27122943103313446,
      "rewards/MultiModalAccuracyORM": 0.3666666723787785,
      "step": 2075,
      "train_speed(iter/s)": 0.025195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 327.35,
      "epoch": 0.8404040404040404,
      "grad_norm": 1.6803752878651963,
      "kl": 0.05001220703125,
      "learning_rate": 2e-07,
      "loss": 0.021441753208637237,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3833333387970924,
      "reward_std": 0.3531844109296799,
      "rewards/MultiModalAccuracyORM": 0.3833333387970924,
      "step": 2080,
      "train_speed(iter/s)": 0.025225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.15,
      "epoch": 0.8424242424242424,
      "grad_norm": 1.980173450589181,
      "kl": 0.0163818359375,
      "learning_rate": 2e-07,
      "loss": 0.013161852955818176,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667088866234,
      "reward_std": 0.22625695466995238,
      "rewards/MultiModalAccuracyORM": 0.21666667088866234,
      "step": 2085,
      "train_speed(iter/s)": 0.025254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 367.1,
      "epoch": 0.8444444444444444,
      "grad_norm": 1.0010632093343366,
      "kl": 0.017938232421875,
      "learning_rate": 2e-07,
      "loss": -0.0012541890144348144,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15000000223517418,
      "reward_std": 0.2916341096162796,
      "rewards/MultiModalAccuracyORM": 0.15000000223517418,
      "step": 2090,
      "train_speed(iter/s)": 0.025273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 326.0,
      "epoch": 0.8464646464646465,
      "grad_norm": 1.8276205217385537,
      "kl": 0.0211029052734375,
      "learning_rate": 2e-07,
      "loss": 0.018240103125572206,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2916666708886623,
      "reward_std": 0.35748412609100344,
      "rewards/MultiModalAccuracyORM": 0.2916666708886623,
      "step": 2095,
      "train_speed(iter/s)": 0.0253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 351.3,
      "epoch": 0.8484848484848485,
      "grad_norm": 2.25183174936328,
      "kl": 0.0171142578125,
      "learning_rate": 2e-07,
      "loss": -0.0015764832496643066,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666775941849,
      "reward_std": 0.2782260239124298,
      "rewards/MultiModalAccuracyORM": 0.3916666775941849,
      "step": 2100,
      "train_speed(iter/s)": 0.02533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.65,
      "epoch": 0.8505050505050505,
      "grad_norm": 2.301476369720727,
      "kl": 0.02381591796875,
      "learning_rate": 2e-07,
      "loss": 0.02723083198070526,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.2500000037252903,
      "reward_std": 0.3780420243740082,
      "rewards/MultiModalAccuracyORM": 0.2500000037252903,
      "step": 2105,
      "train_speed(iter/s)": 0.025351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 342.2,
      "epoch": 0.8525252525252526,
      "grad_norm": 2.2465362796243915,
      "kl": 0.031561279296875,
      "learning_rate": 2e-07,
      "loss": -0.006004461646080017,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4500000111758709,
      "reward_std": 0.386061829328537,
      "rewards/MultiModalAccuracyORM": 0.4500000111758709,
      "step": 2110,
      "train_speed(iter/s)": 0.025381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.45,
      "epoch": 0.8545454545454545,
      "grad_norm": 0.034882262330713364,
      "kl": 0.01632537841796875,
      "learning_rate": 2e-07,
      "loss": 0.07573002576828003,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2083333358168602,
      "reward_std": 0.3058815211057663,
      "rewards/MultiModalAccuracyORM": 0.2083333358168602,
      "step": 2115,
      "train_speed(iter/s)": 0.025404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 278.3,
      "epoch": 0.8565656565656565,
      "grad_norm": 1.8179385747560524,
      "kl": 0.01519775390625,
      "learning_rate": 2e-07,
      "loss": 0.046589908003807065,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000596046447,
      "reward_std": 0.28446818590164186,
      "rewards/MultiModalAccuracyORM": 0.20000000596046447,
      "step": 2120,
      "train_speed(iter/s)": 0.025437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 303.8,
      "epoch": 0.8585858585858586,
      "grad_norm": 1.842386637827148,
      "kl": 0.023931884765625,
      "learning_rate": 2e-07,
      "loss": 0.0047568708658218386,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2500000141561031,
      "reward_std": 0.32924269437789916,
      "rewards/MultiModalAccuracyORM": 0.2500000141561031,
      "step": 2125,
      "train_speed(iter/s)": 0.025467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 412.4,
      "epoch": 0.8606060606060606,
      "grad_norm": 3.12980971819249,
      "kl": 0.0230224609375,
      "learning_rate": 2e-07,
      "loss": 0.012965646386146546,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.3833333387970924,
      "reward_std": 0.3985911935567856,
      "rewards/MultiModalAccuracyORM": 0.3833333387970924,
      "step": 2130,
      "train_speed(iter/s)": 0.025486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 322.65,
      "epoch": 0.8626262626262626,
      "grad_norm": 0.9262722343921138,
      "kl": 0.018023681640625,
      "learning_rate": 2e-07,
      "loss": 0.0012422390282154083,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000149011613,
      "reward_std": 0.1808116167783737,
      "rewards/MultiModalAccuracyORM": 0.17500000149011613,
      "step": 2135,
      "train_speed(iter/s)": 0.025513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 335.7,
      "epoch": 0.8646464646464647,
      "grad_norm": 1.0357905764180717,
      "kl": 0.01571044921875,
      "learning_rate": 2e-07,
      "loss": 0.0018387317657470703,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667014360426,
      "reward_std": 0.25490583181381227,
      "rewards/MultiModalAccuracyORM": 0.29166667014360426,
      "step": 2140,
      "train_speed(iter/s)": 0.025545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.1,
      "epoch": 0.8666666666666667,
      "grad_norm": 2.379354282182724,
      "kl": 0.019244384765625,
      "learning_rate": 2e-07,
      "loss": 0.028354501724243163,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000111758709,
      "reward_std": 0.2963056802749634,
      "rewards/MultiModalAccuracyORM": 0.3000000111758709,
      "step": 2145,
      "train_speed(iter/s)": 0.025579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.1,
      "epoch": 0.8686868686868687,
      "grad_norm": 1.257926920186221,
      "kl": 0.0236419677734375,
      "learning_rate": 2e-07,
      "loss": 0.05731485486030578,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4500000074505806,
      "reward_std": 0.24860407412052155,
      "rewards/MultiModalAccuracyORM": 0.4500000074505806,
      "step": 2150,
      "train_speed(iter/s)": 0.025607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 370.65,
      "epoch": 0.8707070707070707,
      "grad_norm": 0.4145211028011141,
      "kl": 0.035430908203125,
      "learning_rate": 2e-07,
      "loss": -0.008838014304637909,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.12552748322486879,
      "rewards/MultiModalAccuracyORM": 0.0416666679084301,
      "step": 2155,
      "train_speed(iter/s)": 0.025637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.6,
      "epoch": 0.8727272727272727,
      "grad_norm": 3.5679392309928852,
      "kl": 0.020635986328125,
      "learning_rate": 2e-07,
      "loss": -0.04596620798110962,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.21666667237877846,
      "reward_std": 0.3494287371635437,
      "rewards/MultiModalAccuracyORM": 0.21666667237877846,
      "step": 2160,
      "train_speed(iter/s)": 0.02566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 312.8,
      "epoch": 0.8747474747474747,
      "grad_norm": 2.915431806582569,
      "kl": 0.03173828125,
      "learning_rate": 2e-07,
      "loss": 0.03424719870090485,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.45000000670552254,
      "reward_std": 0.3579271614551544,
      "rewards/MultiModalAccuracyORM": 0.45000000670552254,
      "step": 2165,
      "train_speed(iter/s)": 0.025692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 347.9,
      "epoch": 0.8767676767676768,
      "grad_norm": 1.2438809288674397,
      "kl": 0.02581787109375,
      "learning_rate": 2e-07,
      "loss": 0.022351789474487304,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2250000022351742,
      "reward_std": 0.2556006669998169,
      "rewards/MultiModalAccuracyORM": 0.2250000022351742,
      "step": 2170,
      "train_speed(iter/s)": 0.025718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.35,
      "epoch": 0.8787878787878788,
      "grad_norm": 0.08213166464110444,
      "kl": 0.0291015625,
      "learning_rate": 2e-07,
      "loss": -0.04905802011489868,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334028720856,
      "reward_std": 0.3343147337436676,
      "rewards/MultiModalAccuracyORM": 0.23333334028720856,
      "step": 2175,
      "train_speed(iter/s)": 0.025744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.8,
      "epoch": 0.8808080808080808,
      "grad_norm": 1.2558474815848573,
      "kl": 0.0392333984375,
      "learning_rate": 2e-07,
      "loss": 0.03639570772647858,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000052154064,
      "reward_std": 0.40410049855709074,
      "rewards/MultiModalAccuracyORM": 0.3500000052154064,
      "step": 2180,
      "train_speed(iter/s)": 0.025763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 295.25,
      "epoch": 0.8828282828282829,
      "grad_norm": 2.2083604873690255,
      "kl": 0.02174072265625,
      "learning_rate": 2e-07,
      "loss": 0.04861523509025574,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.36666667386889457,
      "reward_std": 0.4242177873849869,
      "rewards/MultiModalAccuracyORM": 0.36666667386889457,
      "step": 2185,
      "train_speed(iter/s)": 0.025791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.4,
      "epoch": 0.8848484848484849,
      "grad_norm": 1.9173115593509535,
      "kl": 0.02357177734375,
      "learning_rate": 2e-07,
      "loss": 0.013380092382431031,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000074505806,
      "reward_std": 0.311967608332634,
      "rewards/MultiModalAccuracyORM": 0.3000000074505806,
      "step": 2190,
      "train_speed(iter/s)": 0.025813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.5,
      "epoch": 0.8868686868686869,
      "grad_norm": 1.3588226440942046,
      "kl": 0.025439453125,
      "learning_rate": 2e-07,
      "loss": 0.011188817024230958,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.18326250910758973,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 2195,
      "train_speed(iter/s)": 0.025832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 324.1,
      "epoch": 0.8888888888888888,
      "grad_norm": 1.8037621160022852,
      "kl": 0.034747314453125,
      "learning_rate": 2e-07,
      "loss": 0.04917380511760712,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333333879709245,
      "reward_std": 0.3719944924116135,
      "rewards/MultiModalAccuracyORM": 0.23333333879709245,
      "step": 2200,
      "train_speed(iter/s)": 0.025862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.15,
      "epoch": 0.8909090909090909,
      "grad_norm": 2.141711868124079,
      "kl": 0.0226776123046875,
      "learning_rate": 2e-07,
      "loss": -0.018071025609970093,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.11666666939854622,
      "reward_std": 0.23030244410037995,
      "rewards/MultiModalAccuracyORM": 0.11666666939854622,
      "step": 2205,
      "train_speed(iter/s)": 0.025882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.4,
      "epoch": 0.8929292929292929,
      "grad_norm": 1.4394465065225663,
      "kl": 0.03128662109375,
      "learning_rate": 2e-07,
      "loss": 0.019231194257736207,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1833333380520344,
      "reward_std": 0.31740519404411316,
      "rewards/MultiModalAccuracyORM": 0.1833333380520344,
      "step": 2210,
      "train_speed(iter/s)": 0.025901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.9,
      "epoch": 0.8949494949494949,
      "grad_norm": 1.8778711843519251,
      "kl": 0.03623046875,
      "learning_rate": 2e-07,
      "loss": 0.042392924427986145,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3000000104308128,
      "reward_std": 0.24866368174552916,
      "rewards/MultiModalAccuracyORM": 0.3000000104308128,
      "step": 2215,
      "train_speed(iter/s)": 0.025928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.6,
      "epoch": 0.896969696969697,
      "grad_norm": 2.783501622971831,
      "kl": 0.02158203125,
      "learning_rate": 2e-07,
      "loss": -0.009627214074134827,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000074505806,
      "reward_std": 0.30665292739868166,
      "rewards/MultiModalAccuracyORM": 0.3250000074505806,
      "step": 2220,
      "train_speed(iter/s)": 0.025959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 304.35,
      "epoch": 0.898989898989899,
      "grad_norm": 64.84162647185127,
      "kl": 0.042742919921875,
      "learning_rate": 2e-07,
      "loss": 0.027672123908996583,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1250000014901161,
      "reward_std": 0.24265173375606536,
      "rewards/MultiModalAccuracyORM": 0.1250000014901161,
      "step": 2225,
      "train_speed(iter/s)": 0.025989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 285.25,
      "epoch": 0.901010101010101,
      "grad_norm": 2.756817795935333,
      "kl": 0.027203369140625,
      "learning_rate": 2e-07,
      "loss": -0.0488799124956131,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.20000000149011612,
      "reward_std": 0.2922547996044159,
      "rewards/MultiModalAccuracyORM": 0.20000000149011612,
      "step": 2230,
      "train_speed(iter/s)": 0.026019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 331.1,
      "epoch": 0.9030303030303031,
      "grad_norm": 3.484265646880912,
      "kl": 0.0185455322265625,
      "learning_rate": 2e-07,
      "loss": -0.006375116109848022,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333447575569,
      "reward_std": 0.2692514002323151,
      "rewards/MultiModalAccuracyORM": 0.4083333447575569,
      "step": 2235,
      "train_speed(iter/s)": 0.026045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 310.6,
      "epoch": 0.9050505050505051,
      "grad_norm": 0.08112989718996635,
      "kl": 0.026385498046875,
      "learning_rate": 2e-07,
      "loss": 0.07493855953216552,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.22500000670552253,
      "reward_std": 0.2915985196828842,
      "rewards/MultiModalAccuracyORM": 0.22500000670552253,
      "step": 2240,
      "train_speed(iter/s)": 0.026071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 383.5,
      "epoch": 0.907070707070707,
      "grad_norm": 2.1571772688182276,
      "kl": 0.02109375,
      "learning_rate": 2e-07,
      "loss": -0.008470755815505982,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333656191825,
      "reward_std": 0.1808116227388382,
      "rewards/MultiModalAccuracyORM": 0.15833333656191825,
      "step": 2245,
      "train_speed(iter/s)": 0.026093
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 2.4521268907747036,
      "learning_rate": 2e-07,
      "loss": 0.02900133728981018,
      "memory(GiB)": 87.45,
      "step": 2250,
      "train_speed(iter/s)": 0.026122
    },
    {
      "epoch": 0.9090909090909091,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 326.39667755126953,
      "eval_kl": 0.0267205810546875,
      "eval_loss": 0.02248476631939411,
      "eval_response_clip_ratio": 0.0,
      "eval_reward": 0.3383333416283131,
      "eval_reward_std": 0.30222029507160186,
      "eval_rewards/MultiModalAccuracyORM": 0.3383333416283131,
      "eval_runtime": 479.1069,
      "eval_samples_per_second": 0.104,
      "eval_steps_per_second": 0.01,
      "step": 2250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 293.825,
      "epoch": 0.9111111111111111,
      "grad_norm": 2.997368813220566,
      "kl": 0.02721710205078125,
      "learning_rate": 2e-07,
      "loss": 0.003950953483581543,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4541666753590107,
      "reward_std": 0.3525440260767937,
      "rewards/MultiModalAccuracyORM": 0.4541666753590107,
      "step": 2255,
      "train_speed(iter/s)": 0.025886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 221.3,
      "epoch": 0.9131313131313131,
      "grad_norm": 3.095107484502175,
      "kl": 0.0549560546875,
      "learning_rate": 2e-07,
      "loss": 0.006377041339874268,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4750000052154064,
      "reward_std": 0.30114119648933413,
      "rewards/MultiModalAccuracyORM": 0.4750000052154064,
      "step": 2260,
      "train_speed(iter/s)": 0.025918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 326.8,
      "epoch": 0.9151515151515152,
      "grad_norm": 2.764452940040707,
      "kl": 0.025128173828125,
      "learning_rate": 2e-07,
      "loss": -0.060949933528900144,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2833333402872086,
      "reward_std": 0.3563301384449005,
      "rewards/MultiModalAccuracyORM": 0.2833333402872086,
      "step": 2265,
      "train_speed(iter/s)": 0.025947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.85,
      "epoch": 0.9171717171717172,
      "grad_norm": 1.6613189303519411,
      "kl": 0.0338897705078125,
      "learning_rate": 2e-07,
      "loss": 0.030397918820381165,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334177732468,
      "reward_std": 0.21600489914417267,
      "rewards/MultiModalAccuracyORM": 0.23333334177732468,
      "step": 2270,
      "train_speed(iter/s)": 0.025974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 268.75,
      "epoch": 0.9191919191919192,
      "grad_norm": 2.4104355223612903,
      "kl": 0.043646240234375,
      "learning_rate": 2e-07,
      "loss": 0.02471620440483093,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667088866236,
      "reward_std": 0.22880061268806456,
      "rewards/MultiModalAccuracyORM": 0.39166667088866236,
      "step": 2275,
      "train_speed(iter/s)": 0.026005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 223.65,
      "epoch": 0.9212121212121213,
      "grad_norm": 0.9890862252945101,
      "kl": 0.0232696533203125,
      "learning_rate": 2e-07,
      "loss": -0.019132834672927857,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.43333334773778914,
      "reward_std": 0.28934226334095003,
      "rewards/MultiModalAccuracyORM": 0.43333334773778914,
      "step": 2280,
      "train_speed(iter/s)": 0.026037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 290.95,
      "epoch": 0.9232323232323232,
      "grad_norm": 2.8529813646862565,
      "kl": 0.016925048828125,
      "learning_rate": 2e-07,
      "loss": 0.02090049088001251,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.33333334401249887,
      "reward_std": 0.25286819934844973,
      "rewards/MultiModalAccuracyORM": 0.33333334401249887,
      "step": 2285,
      "train_speed(iter/s)": 0.026068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 351.05,
      "epoch": 0.9252525252525252,
      "grad_norm": 1.89117356154723,
      "kl": 0.0194671630859375,
      "learning_rate": 2e-07,
      "loss": 0.006132407486438752,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.24166667014360427,
      "reward_std": 0.33449481427669525,
      "rewards/MultiModalAccuracyORM": 0.24166667014360427,
      "step": 2290,
      "train_speed(iter/s)": 0.026093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 294.9,
      "epoch": 0.9272727272727272,
      "grad_norm": 1.5821722224404322,
      "kl": 0.0285491943359375,
      "learning_rate": 2e-07,
      "loss": -0.055334615707397464,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3250000089406967,
      "reward_std": 0.3450992465019226,
      "rewards/MultiModalAccuracyORM": 0.3250000089406967,
      "step": 2295,
      "train_speed(iter/s)": 0.026121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.45,
      "epoch": 0.9292929292929293,
      "grad_norm": 1.0631048809606616,
      "kl": 0.0221282958984375,
      "learning_rate": 2e-07,
      "loss": 0.04601133763790131,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.17500000298023224,
      "reward_std": 0.3211964577436447,
      "rewards/MultiModalAccuracyORM": 0.17500000298023224,
      "step": 2300,
      "train_speed(iter/s)": 0.026144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 383.7,
      "epoch": 0.9313131313131313,
      "grad_norm": 2.2872062972102016,
      "kl": 0.013800048828125,
      "learning_rate": 2e-07,
      "loss": -0.06729268431663513,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.308333345502615,
      "reward_std": 0.42669269144535066,
      "rewards/MultiModalAccuracyORM": 0.308333345502615,
      "step": 2305,
      "train_speed(iter/s)": 0.026168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 301.05,
      "epoch": 0.9333333333333333,
      "grad_norm": 1.5571796305098269,
      "kl": 0.015960693359375,
      "learning_rate": 2e-07,
      "loss": 0.019453226029872893,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2750000111758709,
      "reward_std": 0.2812868684530258,
      "rewards/MultiModalAccuracyORM": 0.2750000111758709,
      "step": 2310,
      "train_speed(iter/s)": 0.02619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 354.5,
      "epoch": 0.9353535353535354,
      "grad_norm": 1.2789781364913986,
      "kl": 0.0262939453125,
      "learning_rate": 2e-07,
      "loss": -0.014371034502983094,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.39166667610406875,
      "reward_std": 0.35789157152175904,
      "rewards/MultiModalAccuracyORM": 0.39166667610406875,
      "step": 2315,
      "train_speed(iter/s)": 0.026212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.75,
      "epoch": 0.9373737373737374,
      "grad_norm": 2.0043648431803742,
      "kl": 0.0160247802734375,
      "learning_rate": 2e-07,
      "loss": 0.004941976815462113,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.2666666753590107,
      "reward_std": 0.3945602476596832,
      "rewards/MultiModalAccuracyORM": 0.2666666753590107,
      "step": 2320,
      "train_speed(iter/s)": 0.026239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.45,
      "epoch": 0.9393939393939394,
      "grad_norm": 2.434275159571036,
      "kl": 0.0218505859375,
      "learning_rate": 2e-07,
      "loss": 0.015783283114433288,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.30000001192092896,
      "reward_std": 0.44407508671283724,
      "rewards/MultiModalAccuracyORM": 0.30000001192092896,
      "step": 2325,
      "train_speed(iter/s)": 0.026266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 341.45,
      "epoch": 0.9414141414141414,
      "grad_norm": 3.3518880188766262,
      "kl": 0.0180023193359375,
      "learning_rate": 2e-07,
      "loss": 0.004853534698486328,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.37500001266598704,
      "reward_std": 0.3925822228193283,
      "rewards/MultiModalAccuracyORM": 0.37500001266598704,
      "step": 2330,
      "train_speed(iter/s)": 0.026293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.3,
      "epoch": 0.9434343434343434,
      "grad_norm": 2.162505598086888,
      "kl": 0.018927001953125,
      "learning_rate": 2e-07,
      "loss": 0.06589244604110718,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.05,
      "reward": 0.3666666693985462,
      "reward_std": 0.2581467509269714,
      "rewards/MultiModalAccuracyORM": 0.3666666693985462,
      "step": 2335,
      "train_speed(iter/s)": 0.026311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 323.1,
      "epoch": 0.9454545454545454,
      "grad_norm": 2.6990455984773494,
      "kl": 0.0258880615234375,
      "learning_rate": 2e-07,
      "loss": 0.007903063297271728,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.15833333656191825,
      "reward_std": 0.3127004593610764,
      "rewards/MultiModalAccuracyORM": 0.15833333656191825,
      "step": 2340,
      "train_speed(iter/s)": 0.026336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 189.5,
      "epoch": 0.9474747474747475,
      "grad_norm": 31.778104916563368,
      "kl": 0.046075439453125,
      "learning_rate": 2e-07,
      "loss": -0.046237149834632875,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.28333334624767303,
      "reward_std": 0.3485885769128799,
      "rewards/MultiModalAccuracyORM": 0.28333334624767303,
      "step": 2345,
      "train_speed(iter/s)": 0.026363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 413.05,
      "epoch": 0.9494949494949495,
      "grad_norm": 1.8887972983852979,
      "kl": 0.0284271240234375,
      "learning_rate": 2e-07,
      "loss": -0.044114714860916136,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.29166667610406877,
      "reward_std": 0.3408351272344589,
      "rewards/MultiModalAccuracyORM": 0.29166667610406877,
      "step": 2350,
      "train_speed(iter/s)": 0.026385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.95,
      "epoch": 0.9515151515151515,
      "grad_norm": 2.719100446764501,
      "kl": 0.0343994140625,
      "learning_rate": 2e-07,
      "loss": 0.030634421110153198,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.38333334028720856,
      "reward_std": 0.379781112074852,
      "rewards/MultiModalAccuracyORM": 0.38333334028720856,
      "step": 2355,
      "train_speed(iter/s)": 0.026406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.7,
      "epoch": 0.9535353535353536,
      "grad_norm": 2.4658627482626816,
      "kl": 0.033807373046875,
      "learning_rate": 2e-07,
      "loss": 0.026800933480262756,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4916666731238365,
      "reward_std": 0.2393606811761856,
      "rewards/MultiModalAccuracyORM": 0.4916666731238365,
      "step": 2360,
      "train_speed(iter/s)": 0.026436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 360.25,
      "epoch": 0.9555555555555556,
      "grad_norm": 2.851734873550529,
      "kl": 0.027685546875,
      "learning_rate": 2e-07,
      "loss": 0.013045597076416015,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3500000052154064,
      "reward_std": 0.43759028911590575,
      "rewards/MultiModalAccuracyORM": 0.3500000052154064,
      "step": 2365,
      "train_speed(iter/s)": 0.026463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 315.05,
      "epoch": 0.9575757575757575,
      "grad_norm": 1.448742319519302,
      "kl": 0.02066650390625,
      "learning_rate": 2e-07,
      "loss": -0.010880425572395325,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667237877847,
      "reward_std": 0.3780420243740082,
      "rewards/MultiModalAccuracyORM": 0.41666667237877847,
      "step": 2370,
      "train_speed(iter/s)": 0.026491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 284.3,
      "epoch": 0.9595959595959596,
      "grad_norm": 1.7573565404253169,
      "kl": 0.05279541015625,
      "learning_rate": 2e-07,
      "loss": -0.009101217985153199,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3916666805744171,
      "reward_std": 0.32049004435539247,
      "rewards/MultiModalAccuracyORM": 0.3916666805744171,
      "step": 2375,
      "train_speed(iter/s)": 0.026519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.75,
      "epoch": 0.9616161616161616,
      "grad_norm": 1.3965100041612641,
      "kl": 0.02640380859375,
      "learning_rate": 2e-07,
      "loss": 0.01602880358695984,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.41666667759418485,
      "reward_std": 0.3471368789672852,
      "rewards/MultiModalAccuracyORM": 0.41666667759418485,
      "step": 2380,
      "train_speed(iter/s)": 0.026544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.25,
      "epoch": 0.9636363636363636,
      "grad_norm": 2.2883768350459732,
      "kl": 0.0283721923828125,
      "learning_rate": 2e-07,
      "loss": -0.02478056252002716,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.18333333730697632,
      "reward_std": 0.3252063632011414,
      "rewards/MultiModalAccuracyORM": 0.18333333730697632,
      "step": 2385,
      "train_speed(iter/s)": 0.02657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 269.4,
      "epoch": 0.9656565656565657,
      "grad_norm": 2.3698939133503027,
      "kl": 0.027130126953125,
      "learning_rate": 2e-07,
      "loss": 0.0352479875087738,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.316666679084301,
      "reward_std": 0.2815410941839218,
      "rewards/MultiModalAccuracyORM": 0.316666679084301,
      "step": 2390,
      "train_speed(iter/s)": 0.0266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 409.3,
      "epoch": 0.9676767676767677,
      "grad_norm": 2.6455515972771577,
      "kl": 0.0282379150390625,
      "learning_rate": 2e-07,
      "loss": 0.02145477384328842,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.3416666738688946,
      "reward_std": 0.43726191222667693,
      "rewards/MultiModalAccuracyORM": 0.3416666738688946,
      "step": 2395,
      "train_speed(iter/s)": 0.026624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 321.1,
      "epoch": 0.9696969696969697,
      "grad_norm": 1.3800009626988052,
      "kl": 0.023291015625,
      "learning_rate": 2e-07,
      "loss": 0.009223046898841857,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.09166666939854622,
      "reward_std": 0.1850757420063019,
      "rewards/MultiModalAccuracyORM": 0.09166666939854622,
      "step": 2400,
      "train_speed(iter/s)": 0.02665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 264.95,
      "epoch": 0.9717171717171718,
      "grad_norm": 2.707313244667536,
      "kl": 0.0386138916015625,
      "learning_rate": 2e-07,
      "loss": -0.016336160898208617,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.38333333730697633,
      "reward_std": 0.24860407412052155,
      "rewards/MultiModalAccuracyORM": 0.38333333730697633,
      "step": 2405,
      "train_speed(iter/s)": 0.026681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 403.65,
      "epoch": 0.9737373737373738,
      "grad_norm": 2.6298064760318223,
      "kl": 0.031060791015625,
      "learning_rate": 2e-07,
      "loss": -0.026252752542495726,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.21666667014360427,
      "reward_std": 0.3385047078132629,
      "rewards/MultiModalAccuracyORM": 0.21666667014360427,
      "step": 2410,
      "train_speed(iter/s)": 0.0267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 270.65,
      "epoch": 0.9757575757575757,
      "grad_norm": 2.0364458058384423,
      "kl": 0.018072509765625,
      "learning_rate": 2e-07,
      "loss": -0.022683143615722656,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.483333345502615,
      "reward_std": 0.2900991141796112,
      "rewards/MultiModalAccuracyORM": 0.483333345502615,
      "step": 2415,
      "train_speed(iter/s)": 0.026729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 279.65,
      "epoch": 0.9777777777777777,
      "grad_norm": 3.0539530097221843,
      "kl": 0.0236175537109375,
      "learning_rate": 2e-07,
      "loss": -0.025200226902961732,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.5166666835546494,
      "reward_std": 0.3579155892133713,
      "rewards/MultiModalAccuracyORM": 0.5166666835546494,
      "step": 2420,
      "train_speed(iter/s)": 0.026757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 319.65,
      "epoch": 0.9797979797979798,
      "grad_norm": 2.837404902371068,
      "kl": 0.0191802978515625,
      "learning_rate": 2e-07,
      "loss": -0.05283277034759522,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666679084301,
      "reward_std": 0.24939410090446473,
      "rewards/MultiModalAccuracyORM": 0.1916666679084301,
      "step": 2425,
      "train_speed(iter/s)": 0.026783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.05,
      "epoch": 0.9818181818181818,
      "grad_norm": 1.2637214917941955,
      "kl": 0.0302001953125,
      "learning_rate": 2e-07,
      "loss": 0.013781133294105529,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.37500001266598704,
      "reward_std": 0.4204265236854553,
      "rewards/MultiModalAccuracyORM": 0.37500001266598704,
      "step": 2430,
      "train_speed(iter/s)": 0.026802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 297.8,
      "epoch": 0.9838383838383838,
      "grad_norm": 0.058208298350106734,
      "kl": 0.0239227294921875,
      "learning_rate": 2e-07,
      "loss": 0.03573224246501923,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.32500000670552254,
      "reward_std": 0.26597192585468293,
      "rewards/MultiModalAccuracyORM": 0.32500000670552254,
      "step": 2435,
      "train_speed(iter/s)": 0.02683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 346.85,
      "epoch": 0.9858585858585859,
      "grad_norm": 1.6302602474729853,
      "kl": 0.0171844482421875,
      "learning_rate": 2e-07,
      "loss": -0.012005738914012909,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.1916666679084301,
      "reward_std": 0.19717081785202026,
      "rewards/MultiModalAccuracyORM": 0.1916666679084301,
      "step": 2440,
      "train_speed(iter/s)": 0.026853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 369.0,
      "epoch": 0.9878787878787879,
      "grad_norm": 2.5433362450025765,
      "kl": 0.0248321533203125,
      "learning_rate": 2e-07,
      "loss": -0.030718517303466798,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.35833333879709245,
      "reward_std": 0.30894235968589784,
      "rewards/MultiModalAccuracyORM": 0.35833333879709245,
      "step": 2445,
      "train_speed(iter/s)": 0.026875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.35,
      "epoch": 0.98989898989899,
      "grad_norm": 1.0906797325242925,
      "kl": 0.024761962890625,
      "learning_rate": 2e-07,
      "loss": -0.007297384738922119,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.23333334028720856,
      "reward_std": 0.3393357157707214,
      "rewards/MultiModalAccuracyORM": 0.23333334028720856,
      "step": 2450,
      "train_speed(iter/s)": 0.026893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 355.7,
      "epoch": 0.9919191919191919,
      "grad_norm": 1.8168984918524227,
      "kl": 0.0161956787109375,
      "learning_rate": 2e-07,
      "loss": 0.03163195252418518,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.450000011920929,
      "reward_std": 0.37525942325592043,
      "rewards/MultiModalAccuracyORM": 0.450000011920929,
      "step": 2455,
      "train_speed(iter/s)": 0.026915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 340.05,
      "epoch": 0.9939393939393939,
      "grad_norm": 1.171315154121709,
      "kl": 0.02081298828125,
      "learning_rate": 2e-07,
      "loss": 0.014726841449737548,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.4083333402872086,
      "reward_std": 0.29634127020835876,
      "rewards/MultiModalAccuracyORM": 0.4083333402872086,
      "step": 2460,
      "train_speed(iter/s)": 0.026936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 302.6,
      "epoch": 0.9959595959595959,
      "grad_norm": 0.9872275853532635,
      "kl": 0.01080322265625,
      "learning_rate": 2e-07,
      "loss": 0.01651265621185303,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.5666666753590107,
      "reward_std": 0.2488823115825653,
      "rewards/MultiModalAccuracyORM": 0.5666666753590107,
      "step": 2465,
      "train_speed(iter/s)": 0.026959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 438.75,
      "epoch": 0.997979797979798,
      "grad_norm": 1.8423007639906985,
      "kl": 0.0185638427734375,
      "learning_rate": 2e-07,
      "loss": -0.006967762112617492,
      "memory(GiB)": 87.45,
      "response_clip_ratio": 0.0,
      "reward": 0.31666667237877844,
      "reward_std": 0.21999078691005708,
      "rewards/MultiModalAccuracyORM": 0.31666667237877844,
      "step": 2470,
      "train_speed(iter/s)": 0.02698
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.4251028884123285,
      "learning_rate": 2e-07,
      "loss": -0.04546417593955994,
      "memory(GiB)": 87.45,
      "step": 2475,
      "train_speed(iter/s)": 0.026999
    },
    {
      "epoch": 1.0,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 364.18834014892576,
      "eval_kl": 0.0238104248046875,
      "eval_loss": 0.01933932490646839,
      "eval_response_clip_ratio": 0.00833333358168602,
      "eval_reward": 0.34333334282040595,
      "eval_reward_std": 0.295663959980011,
      "eval_rewards/MultiModalAccuracyORM": 0.34333334282040595,
      "eval_runtime": 580.8644,
      "eval_samples_per_second": 0.086,
      "eval_steps_per_second": 0.009,
      "step": 2475
    }
  ],
  "logging_steps": 5,
  "max_steps": 2475,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}