{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9983500824958752,
  "eval_steps": 100,
  "global_step": 416,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 579.5451488494873,
      "epoch": 0.0023998800059997,
      "grad_norm": 0.023609351366758347,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.4967548958957195,
      "reward_std": 0.5467220321297646,
      "rewards/semantic_entropy_math_reward": -1.4967548958957195,
      "step": 1
    },
    {
      "completion_length": 555.8125,
      "epoch": 0.0047997600119994,
      "grad_norm": 0.023468418046832085,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2350558526813984,
      "reward_std": 0.47530375327914953,
      "rewards/semantic_entropy_math_reward": -1.2350558526813984,
      "step": 2
    },
    {
      "completion_length": 593.9114570617676,
      "epoch": 0.0071996400179991,
      "grad_norm": 0.020463040098547935,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1972830928862095,
      "reward_std": 0.41670812107622623,
      "rewards/semantic_entropy_math_reward": -1.1972830928862095,
      "step": 3
    },
    {
      "completion_length": 534.1493110656738,
      "epoch": 0.0095995200239988,
      "grad_norm": 0.02234843000769615,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2397769559174776,
      "reward_std": 0.45711124083027244,
      "rewards/semantic_entropy_math_reward": -1.2397769559174776,
      "step": 4
    },
    {
      "completion_length": 557.0486125946045,
      "epoch": 0.0119994000299985,
      "grad_norm": 0.022175000980496407,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0718507505953312,
      "reward_std": 0.40449281968176365,
      "rewards/semantic_entropy_math_reward": -1.0718507505953312,
      "step": 5
    },
    {
      "completion_length": 532.0104236602783,
      "epoch": 0.0143992800359982,
      "grad_norm": 0.023260876536369324,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2149364296346903,
      "reward_std": 0.5302340695634484,
      "rewards/semantic_entropy_math_reward": -1.2149364296346903,
      "step": 6
    },
    {
      "completion_length": 585.7517433166504,
      "epoch": 0.0167991600419979,
      "grad_norm": 0.02340966835618019,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.164964143652469,
      "reward_std": 0.4511878960765898,
      "rewards/semantic_entropy_math_reward": -1.164964143652469,
      "step": 7
    },
    {
      "completion_length": 610.2152843475342,
      "epoch": 0.0191990400479976,
      "grad_norm": 0.025966230779886246,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1972486525774002,
      "reward_std": 0.4742407090961933,
      "rewards/semantic_entropy_math_reward": -1.1972486525774002,
      "step": 8
    },
    {
      "completion_length": 661.5781269073486,
      "epoch": 0.0215989200539973,
      "grad_norm": 0.019320230931043625,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0158138242550194,
      "reward_std": 0.3856792887672782,
      "rewards/semantic_entropy_math_reward": -1.0158138242550194,
      "step": 9
    },
    {
      "completion_length": 553.5677089691162,
      "epoch": 0.023998800059997,
      "grad_norm": 0.02017727680504322,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2822860479354858,
      "reward_std": 0.5186142511665821,
      "rewards/semantic_entropy_math_reward": -1.2822860479354858,
      "step": 10
    },
    {
      "completion_length": 689.8593769073486,
      "epoch": 0.0263986800659967,
      "grad_norm": 0.016234688460826874,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1487259063869715,
      "reward_std": 0.39036796567961574,
      "rewards/semantic_entropy_math_reward": -1.1487259063869715,
      "step": 11
    },
    {
      "completion_length": 613.6718845367432,
      "epoch": 0.0287985600719964,
      "grad_norm": 0.01803727075457573,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0811139764264226,
      "reward_std": 0.4259672285988927,
      "rewards/semantic_entropy_math_reward": -1.0811139764264226,
      "step": 12
    },
    {
      "completion_length": 620.7552165985107,
      "epoch": 0.0311984400779961,
      "grad_norm": 0.015589025802910328,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.9830317534506321,
      "reward_std": 0.36907480750232935,
      "rewards/semantic_entropy_math_reward": -0.9830317534506321,
      "step": 13
    },
    {
      "completion_length": 657.2968921661377,
      "epoch": 0.0335983200839958,
      "grad_norm": 0.016835488379001617,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1987630133517087,
      "reward_std": 0.5184819111600518,
      "rewards/semantic_entropy_math_reward": -1.1987630133517087,
      "step": 14
    },
    {
      "completion_length": 610.79514503479,
      "epoch": 0.0359982000899955,
      "grad_norm": 0.0162822213023901,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0888072960078716,
      "reward_std": 0.39932171534746885,
      "rewards/semantic_entropy_math_reward": -1.0888072960078716,
      "step": 15
    },
    {
      "completion_length": 563.517370223999,
      "epoch": 0.0383980800959952,
      "grad_norm": 0.019534002989530563,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.09929908066988,
      "reward_std": 0.41265817545354366,
      "rewards/semantic_entropy_math_reward": -1.09929908066988,
      "step": 16
    },
    {
      "completion_length": 637.720495223999,
      "epoch": 0.0407979601019949,
      "grad_norm": 0.01697668805718422,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1787171624600887,
      "reward_std": 0.428286274895072,
      "rewards/semantic_entropy_math_reward": -1.1787171624600887,
      "step": 17
    },
    {
      "completion_length": 621.3993148803711,
      "epoch": 0.0431978401079946,
      "grad_norm": 0.017321443185210228,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2735732290893793,
      "reward_std": 0.43550457525998354,
      "rewards/semantic_entropy_math_reward": -1.2735732290893793,
      "step": 18
    },
    {
      "completion_length": 586.9704875946045,
      "epoch": 0.0455977201139943,
      "grad_norm": 0.02127678506076336,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2064109002240002,
      "reward_std": 0.4663712582550943,
      "rewards/semantic_entropy_math_reward": -1.2064109002240002,
      "step": 19
    },
    {
      "completion_length": 626.7257080078125,
      "epoch": 0.047997600119994,
      "grad_norm": 0.016206126660108566,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.152345221489668,
      "reward_std": 0.39662991324439645,
      "rewards/semantic_entropy_math_reward": -1.152345221489668,
      "step": 20
    },
    {
      "completion_length": 583.7916679382324,
      "epoch": 0.0503974801259937,
      "grad_norm": 0.019242137670516968,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1798701924271882,
      "reward_std": 0.4554295316338539,
      "rewards/semantic_entropy_math_reward": -1.1798701924271882,
      "step": 21
    },
    {
      "completion_length": 587.8559036254883,
      "epoch": 0.0527973601319934,
      "grad_norm": 0.020106367766857147,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.211361431516707,
      "reward_std": 0.5777098424732685,
      "rewards/semantic_entropy_math_reward": -1.211361431516707,
      "step": 22
    },
    {
      "completion_length": 613.4635486602783,
      "epoch": 0.0551972401379931,
      "grad_norm": 0.019849685952067375,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.3117065764963627,
      "reward_std": 0.45542027335613966,
      "rewards/semantic_entropy_math_reward": -1.3117065764963627,
      "step": 23
    },
    {
      "completion_length": 609.819450378418,
      "epoch": 0.0575971201439928,
      "grad_norm": 0.019817881286144257,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2621403858065605,
      "reward_std": 0.4839176032692194,
      "rewards/semantic_entropy_math_reward": -1.2621403858065605,
      "step": 24
    },
    {
      "completion_length": 730.8524436950684,
      "epoch": 0.0599970001499925,
      "grad_norm": 0.014975810423493385,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2369180954992771,
      "reward_std": 0.43273931834846735,
      "rewards/semantic_entropy_math_reward": -1.2369180954992771,
      "step": 25
    },
    {
      "completion_length": 594.288200378418,
      "epoch": 0.0623968801559922,
      "grad_norm": 0.01721040904521942,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1034620627760887,
      "reward_std": 0.4124642931856215,
      "rewards/semantic_entropy_math_reward": -1.1034620627760887,
      "step": 26
    },
    {
      "completion_length": 553.0868148803711,
      "epoch": 0.0647967601619919,
      "grad_norm": 0.019415754824876785,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.130167681723833,
      "reward_std": 0.5143290963023901,
      "rewards/semantic_entropy_math_reward": -1.130167681723833,
      "step": 27
    },
    {
      "completion_length": 653.2829856872559,
      "epoch": 0.0671966401679916,
      "grad_norm": 0.017851749435067177,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.989163676276803,
      "reward_std": 0.4082563756965101,
      "rewards/semantic_entropy_math_reward": -0.989163676276803,
      "step": 28
    },
    {
      "completion_length": 605.6371650695801,
      "epoch": 0.0695965201739913,
      "grad_norm": 0.023129364475607872,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.4734891951084137,
      "reward_std": 0.5043481979519129,
      "rewards/semantic_entropy_math_reward": -1.4734891951084137,
      "step": 29
    },
    {
      "completion_length": 654.7951488494873,
      "epoch": 0.071996400179991,
      "grad_norm": 0.020585162565112114,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.37895911000669,
      "reward_std": 0.4850574918091297,
      "rewards/semantic_entropy_math_reward": -1.37895911000669,
      "step": 30
    },
    {
      "completion_length": 601.3628540039062,
      "epoch": 0.0743962801859907,
      "grad_norm": 0.02046247385442257,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0621395409107208,
      "reward_std": 0.4105358109809458,
      "rewards/semantic_entropy_math_reward": -1.0621395409107208,
      "step": 31
    },
    {
      "completion_length": 656.0902843475342,
      "epoch": 0.0767961601919904,
      "grad_norm": 0.021095257252454758,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.328016122803092,
      "reward_std": 0.4542691232636571,
      "rewards/semantic_entropy_math_reward": -1.328016122803092,
      "step": 32
    },
    {
      "completion_length": 585.4427185058594,
      "epoch": 0.0791960401979901,
      "grad_norm": 0.01907271519303322,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0881526842713356,
      "reward_std": 0.4317492740228772,
      "rewards/semantic_entropy_math_reward": -1.0881526842713356,
      "step": 33
    },
    {
      "completion_length": 617.6753482818604,
      "epoch": 0.0815959202039898,
      "grad_norm": 0.022275349125266075,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2841743230819702,
      "reward_std": 0.47124351374804974,
      "rewards/semantic_entropy_math_reward": -1.2841743230819702,
      "step": 34
    },
    {
      "completion_length": 591.3628520965576,
      "epoch": 0.08399580020998951,
      "grad_norm": 0.021941347047686577,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0643355981446803,
      "reward_std": 0.4094805922359228,
      "rewards/semantic_entropy_math_reward": -1.0643355981446803,
      "step": 35
    },
    {
      "completion_length": 519.338544845581,
      "epoch": 0.0863956802159892,
      "grad_norm": 0.026442214846611023,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.9271132331341505,
      "reward_std": 0.4420350408181548,
      "rewards/semantic_entropy_math_reward": -0.9271132331341505,
      "step": 36
    },
    {
      "completion_length": 628.0937614440918,
      "epoch": 0.0887955602219889,
      "grad_norm": 0.022040951997041702,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0198373273015022,
      "reward_std": 0.41784033365547657,
      "rewards/semantic_entropy_math_reward": -1.0198373273015022,
      "step": 37
    },
    {
      "completion_length": 608.0572986602783,
      "epoch": 0.0911954402279886,
      "grad_norm": 0.026434265077114105,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.3598360251635313,
      "reward_std": 0.41981533356010914,
      "rewards/semantic_entropy_math_reward": -1.3598360251635313,
      "step": 38
    },
    {
      "completion_length": 626.1857681274414,
      "epoch": 0.0935953202339883,
      "grad_norm": 0.042337119579315186,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.3184345178306103,
      "reward_std": 0.48870162200182676,
      "rewards/semantic_entropy_math_reward": -1.3184345178306103,
      "step": 39
    },
    {
      "completion_length": 627.5381984710693,
      "epoch": 0.095995200239988,
      "grad_norm": 0.03428055718541145,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.3468139134347439,
      "reward_std": 0.4769498906098306,
      "rewards/semantic_entropy_math_reward": -1.3468139134347439,
      "step": 40
    },
    {
      "completion_length": 633.9496536254883,
      "epoch": 0.0983950802459877,
      "grad_norm": 0.030928973108530045,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.132771894801408,
      "reward_std": 0.5021341033279896,
      "rewards/semantic_entropy_math_reward": -1.132771894801408,
      "step": 41
    },
    {
      "completion_length": 569.9253540039062,
      "epoch": 0.1007949602519874,
      "grad_norm": 0.026956375688314438,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1975932940840721,
      "reward_std": 0.467874969355762,
      "rewards/semantic_entropy_math_reward": -1.1975932940840721,
      "step": 42
    },
    {
      "completion_length": 608.6944522857666,
      "epoch": 0.1031948402579871,
      "grad_norm": 0.0328996405005455,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2175438068807125,
      "reward_std": 0.4515871210023761,
      "rewards/semantic_entropy_math_reward": -1.2175438068807125,
      "step": 43
    },
    {
      "completion_length": 619.1527767181396,
      "epoch": 0.1055947202639868,
      "grad_norm": 0.03257475048303604,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2264893371611834,
      "reward_std": 0.4431668370962143,
      "rewards/semantic_entropy_math_reward": -1.2264893371611834,
      "step": 44
    },
    {
      "completion_length": 562.6493148803711,
      "epoch": 0.1079946002699865,
      "grad_norm": 0.03283218294382095,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0574581907130778,
      "reward_std": 0.48819410149008036,
      "rewards/semantic_entropy_math_reward": -1.0574581907130778,
      "step": 45
    },
    {
      "completion_length": 597.8142395019531,
      "epoch": 0.1103944802759862,
      "grad_norm": 0.03596136346459389,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.3064512498676777,
      "reward_std": 0.5052206655964255,
      "rewards/semantic_entropy_math_reward": -1.3064512498676777,
      "step": 46
    },
    {
      "completion_length": 559.2951469421387,
      "epoch": 0.1127943602819859,
      "grad_norm": 0.04295654594898224,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2744261305779219,
      "reward_std": 0.4529256196692586,
      "rewards/semantic_entropy_math_reward": -1.2744261305779219,
      "step": 47
    },
    {
      "completion_length": 574.0347270965576,
      "epoch": 0.1151942402879856,
      "grad_norm": 0.037087395787239075,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1887072566896677,
      "reward_std": 0.5219112485647202,
      "rewards/semantic_entropy_math_reward": -1.1887072566896677,
      "step": 48
    },
    {
      "completion_length": 576.9548645019531,
      "epoch": 0.1175941202939853,
      "grad_norm": 0.0523596853017807,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2185893571004272,
      "reward_std": 0.5283103645779192,
      "rewards/semantic_entropy_math_reward": -1.2185893571004272,
      "step": 49
    },
    {
      "completion_length": 587.7326488494873,
      "epoch": 0.119994000299985,
      "grad_norm": 0.07026118040084839,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.424642201513052,
      "reward_std": 0.5118397288024426,
      "rewards/semantic_entropy_math_reward": -1.424642201513052,
      "step": 50
    },
    {
      "completion_length": 607.8958377838135,
      "epoch": 0.1223938803059847,
      "grad_norm": 0.11793287098407745,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2733404748141766,
      "reward_std": 0.4436110374517739,
      "rewards/semantic_entropy_math_reward": -1.2733404748141766,
      "step": 51
    },
    {
      "completion_length": 592.35764503479,
      "epoch": 0.1247937603119844,
      "grad_norm": 0.2582877576351166,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.28734240680933,
      "reward_std": 0.43458423344418406,
      "rewards/semantic_entropy_math_reward": -1.28734240680933,
      "step": 52
    },
    {
      "completion_length": 591.2170181274414,
      "epoch": 0.1271936403179841,
      "grad_norm": 0.9619891047477722,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.335528964176774,
      "reward_std": 0.480956160929054,
      "rewards/semantic_entropy_math_reward": -1.335528964176774,
      "step": 53
    },
    {
      "completion_length": 601.8802165985107,
      "epoch": 0.1295935203239838,
      "grad_norm": 1.464898705482483,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0449805338867009,
      "reward_std": 0.3896405389532447,
      "rewards/semantic_entropy_math_reward": -1.0449805338867009,
      "step": 54
    },
    {
      "completion_length": 745.2829933166504,
      "epoch": 0.1319934003299835,
      "grad_norm": 2.908984422683716,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.8210013713687658,
      "reward_std": 0.28385873371735215,
      "rewards/semantic_entropy_math_reward": -0.8210013713687658,
      "step": 55
    },
    {
      "completion_length": 888.5954971313477,
      "epoch": 0.1343932803359832,
      "grad_norm": 2.303511381149292,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.28092469088733196,
      "reward_std": 0.07076533045619726,
      "rewards/semantic_entropy_math_reward": -0.28092469088733196,
      "step": 56
    },
    {
      "completion_length": 901.1823043823242,
      "epoch": 0.1367931603419829,
      "grad_norm": 1.215346336364746,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.24043410643935204,
      "reward_std": 0.0535881663672626,
      "rewards/semantic_entropy_math_reward": -0.24043410643935204,
      "step": 57
    },
    {
      "completion_length": 945.3715286254883,
      "epoch": 0.1391930403479826,
      "grad_norm": 0.24487844109535217,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": -0.04936212673783302,
      "reward_std": 0.005620982963591814,
      "rewards/semantic_entropy_math_reward": -0.04936212673783302,
      "step": 58
    },
    {
      "completion_length": 958.8437576293945,
      "epoch": 0.1415929203539823,
      "grad_norm": 0.3599923551082611,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.0954090766608715,
      "reward_std": 0.015972360502928495,
      "rewards/semantic_entropy_math_reward": -0.0954090766608715,
      "step": 59
    },
    {
      "completion_length": 919.9392471313477,
      "epoch": 0.143992800359982,
      "grad_norm": 0.6720292568206787,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": -0.04936212673783302,
      "reward_std": 0.005620982963591814,
      "rewards/semantic_entropy_math_reward": -0.04936212673783302,
      "step": 60
    },
    {
      "completion_length": 872.0069389343262,
      "epoch": 0.14639268036598171,
      "grad_norm": 0.7852513790130615,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.24349546059966087,
      "reward_std": 0.03283530939370394,
      "rewards/semantic_entropy_math_reward": -0.24349546059966087,
      "step": 61
    },
    {
      "completion_length": 885.3871574401855,
      "epoch": 0.1487925603719814,
      "grad_norm": 0.051829516887664795,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": -0.04936212673783302,
      "reward_std": 0.005620982963591814,
      "rewards/semantic_entropy_math_reward": -0.04936212673783302,
      "step": 62
    },
    {
      "completion_length": 852.8298721313477,
      "epoch": 0.1511924403779811,
      "grad_norm": 0.0997152253985405,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.1974485069513321,
      "reward_std": 0.022483931854367256,
      "rewards/semantic_entropy_math_reward": -0.1974485069513321,
      "step": 63
    },
    {
      "completion_length": 666.3194484710693,
      "epoch": 0.1535923203839808,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 64
    },
    {
      "completion_length": 453.2257013320923,
      "epoch": 0.1559922003899805,
      "grad_norm": 0.12662464380264282,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.48036056384444237,
      "reward_std": 0.07513140747323632,
      "rewards/semantic_entropy_math_reward": -0.48036056384444237,
      "step": 65
    },
    {
      "completion_length": 428.5538215637207,
      "epoch": 0.1583920803959802,
      "grad_norm": 0.11950503289699554,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.3143479097634554,
      "reward_std": 0.06879218481481075,
      "rewards/semantic_entropy_math_reward": -0.3143479097634554,
      "step": 66
    },
    {
      "completion_length": 372.9236145019531,
      "epoch": 0.1607919604019799,
      "grad_norm": 1.306576132774353,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2195042371749878,
      "reward_std": 0.30455823382362723,
      "rewards/semantic_entropy_math_reward": -1.2195042371749878,
      "step": 67
    },
    {
      "completion_length": 405.38021087646484,
      "epoch": 0.1631918404079796,
      "grad_norm": 3.1170105934143066,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.187372762709856,
      "reward_std": 0.4900816101580858,
      "rewards/semantic_entropy_math_reward": -1.187372762709856,
      "step": 68
    },
    {
      "completion_length": 401.2066020965576,
      "epoch": 0.1655917204139793,
      "grad_norm": 1.0041663646697998,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.7445017509162426,
      "reward_std": 0.19908591220155358,
      "rewards/semantic_entropy_math_reward": -0.7445017509162426,
      "step": 69
    },
    {
      "completion_length": 368.0833320617676,
      "epoch": 0.16799160041997901,
      "grad_norm": 0.262119323015213,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.25673690997064114,
      "reward_std": 0.0700853606685996,
      "rewards/semantic_entropy_math_reward": -0.25673690997064114,
      "step": 70
    },
    {
      "completion_length": 295.34201431274414,
      "epoch": 0.1703914804259787,
      "grad_norm": 0.4609036445617676,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.18782146647572517,
      "reward_std": 0.030400068033486605,
      "rewards/semantic_entropy_math_reward": -0.18782146647572517,
      "step": 71
    },
    {
      "completion_length": 362.2968807220459,
      "epoch": 0.1727913604319784,
      "grad_norm": 0.1498037576675415,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.20401418767869473,
      "reward_std": 0.0741230258718133,
      "rewards/semantic_entropy_math_reward": -0.20401418767869473,
      "step": 72
    },
    {
      "completion_length": 398.3211898803711,
      "epoch": 0.1751912404379781,
      "grad_norm": 0.20637626945972443,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.33969277516007423,
      "reward_std": 0.08184323832392693,
      "rewards/semantic_entropy_math_reward": -0.33969277516007423,
      "step": 73
    },
    {
      "completion_length": 364.69270610809326,
      "epoch": 0.1775911204439778,
      "grad_norm": 0.3202667236328125,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.5564979244954884,
      "reward_std": 0.17949713906273246,
      "rewards/semantic_entropy_math_reward": -0.5564979244954884,
      "step": 74
    },
    {
      "completion_length": 398.5538263320923,
      "epoch": 0.1799910004499775,
      "grad_norm": 0.4271727502346039,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.5178813878446817,
      "reward_std": 0.19856971083208919,
      "rewards/semantic_entropy_math_reward": -0.5178813878446817,
      "step": 75
    },
    {
      "completion_length": 328.8177137374878,
      "epoch": 0.1823908804559772,
      "grad_norm": 1.2274174690246582,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.730956120416522,
      "reward_std": 0.17488946160301566,
      "rewards/semantic_entropy_math_reward": -0.730956120416522,
      "step": 76
    },
    {
      "completion_length": 435.6927089691162,
      "epoch": 0.1847907604619769,
      "grad_norm": 1.0755140781402588,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0360593143850565,
      "reward_std": 0.31746397400274873,
      "rewards/semantic_entropy_math_reward": -1.0360593143850565,
      "step": 77
    },
    {
      "completion_length": 396.92187881469727,
      "epoch": 0.1871906404679766,
      "grad_norm": 0.49259528517723083,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0349559504538774,
      "reward_std": 0.30292816972360015,
      "rewards/semantic_entropy_math_reward": -1.0349559504538774,
      "step": 78
    },
    {
      "completion_length": 303.45312213897705,
      "epoch": 0.18959052047397632,
      "grad_norm": 0.49153009057044983,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.5245293974876404,
      "reward_std": 0.18332215631380677,
      "rewards/semantic_entropy_math_reward": -0.5245293974876404,
      "step": 79
    },
    {
      "completion_length": 241.1944465637207,
      "epoch": 0.191990400479976,
      "grad_norm": 1.309309482574463,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.7875159978866577,
      "reward_std": 0.2404517256654799,
      "rewards/semantic_entropy_math_reward": -0.7875159978866577,
      "step": 80
    },
    {
      "completion_length": 106.01736164093018,
      "epoch": 0.1943902804859757,
      "grad_norm": 1.159730076789856,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.3929096572101116,
      "reward_std": 0.10203729756176472,
      "rewards/semantic_entropy_math_reward": -0.3929096572101116,
      "step": 81
    },
    {
      "completion_length": 64.85590314865112,
      "epoch": 0.1967901604919754,
      "grad_norm": 2.622030258178711,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.7893553748726845,
      "reward_std": 0.1765661663375795,
      "rewards/semantic_entropy_math_reward": -0.7893553748726845,
      "step": 82
    },
    {
      "completion_length": 233.77778005599976,
      "epoch": 0.1991900404979751,
      "grad_norm": 6.741254806518555,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.8342948034405708,
      "reward_std": 0.30480349250137806,
      "rewards/semantic_entropy_math_reward": -0.8342948034405708,
      "step": 83
    },
    {
      "completion_length": 252.50521039962769,
      "epoch": 0.2015899205039748,
      "grad_norm": 6.380768299102783,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1298357415944338,
      "reward_std": 0.4231584039516747,
      "rewards/semantic_entropy_math_reward": -1.1298357415944338,
      "step": 84
    },
    {
      "completion_length": 85.42708444595337,
      "epoch": 0.2039898005099745,
      "grad_norm": 1.255273461341858,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.9342016261070967,
      "reward_std": 0.37867429945617914,
      "rewards/semantic_entropy_math_reward": -0.9342016261070967,
      "step": 85
    },
    {
      "completion_length": 83.58854204416275,
      "epoch": 0.2063896805159742,
      "grad_norm": 1.491475224494934,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1672791484743357,
      "reward_std": 0.411985841114074,
      "rewards/semantic_entropy_math_reward": -1.1672791484743357,
      "step": 86
    },
    {
      "completion_length": 147.82638984918594,
      "epoch": 0.2087895605219739,
      "grad_norm": 1.796517252922058,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.186328262090683,
      "reward_std": 0.5614343388006091,
      "rewards/semantic_entropy_math_reward": -1.186328262090683,
      "step": 87
    },
    {
      "completion_length": 266.8281271457672,
      "epoch": 0.2111894405279736,
      "grad_norm": 0.8293857574462891,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.7227916922420263,
      "reward_std": 0.5203290600329638,
      "rewards/semantic_entropy_math_reward": -0.7227916922420263,
      "step": 88
    },
    {
      "completion_length": 419.9079918861389,
      "epoch": 0.2135893205339733,
      "grad_norm": 1.5567965507507324,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.6697393516078591,
      "reward_std": 0.3471951074898243,
      "rewards/semantic_entropy_math_reward": -0.6697393516078591,
      "step": 89
    },
    {
      "completion_length": 848.0347213745117,
      "epoch": 0.215989200539973,
      "grad_norm": 0.7054896354675293,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.4150713551789522,
      "reward_std": 0.18047819379717112,
      "rewards/semantic_entropy_math_reward": -0.4150713551789522,
      "step": 90
    },
    {
      "completion_length": 508.8593807220459,
      "epoch": 0.2183890805459727,
      "grad_norm": 3.7869491577148438,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.4939053989946842,
      "reward_std": 0.6185994260013103,
      "rewards/semantic_entropy_math_reward": -1.4939053989946842,
      "step": 91
    },
    {
      "completion_length": 589.859375,
      "epoch": 0.2207889605519724,
      "grad_norm": 0.05026252567768097,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.0941957477480173,
      "reward_std": 0.5725127439945936,
      "rewards/semantic_entropy_math_reward": -1.0941957477480173,
      "step": 92
    },
    {
      "completion_length": 605.2968769073486,
      "epoch": 0.2231888405579721,
      "grad_norm": 0.056097887456417084,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.2516395896673203,
      "reward_std": 0.6146153416484594,
      "rewards/semantic_entropy_math_reward": -1.2516395896673203,
      "step": 93
    },
    {
      "completion_length": 539.8055553436279,
      "epoch": 0.2255887205639718,
      "grad_norm": 0.07102109491825104,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.312748797237873,
      "reward_std": 0.5412911372259259,
      "rewards/semantic_entropy_math_reward": -1.312748797237873,
      "step": 94
    },
    {
      "completion_length": 502.1197929382324,
      "epoch": 0.2279886005699715,
      "grad_norm": 0.06010741740465164,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.9112661816179752,
      "reward_std": 0.5259749758988619,
      "rewards/semantic_entropy_math_reward": -0.9112661816179752,
      "step": 95
    },
    {
      "completion_length": 546.5416793823242,
      "epoch": 0.2303884805759712,
      "grad_norm": 0.05066002905368805,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.128136644139886,
      "reward_std": 0.5719058271497488,
      "rewards/semantic_entropy_math_reward": -1.128136644139886,
      "step": 96
    },
    {
      "completion_length": 492.8194522857666,
      "epoch": 0.2327883605819709,
      "grad_norm": 0.0559186227619648,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -1.1546523049473763,
      "reward_std": 0.5111725647002459,
      "rewards/semantic_entropy_math_reward": -1.1546523049473763,
      "step": 97
    },
    {
      "completion_length": 473.44097900390625,
      "epoch": 0.2351882405879706,
      "grad_norm": 0.05957731232047081,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.9957732241600752,
      "reward_std": 0.5401759054511786,
      "rewards/semantic_entropy_math_reward": -0.9957732241600752,
      "step": 98
    },
    {
      "completion_length": 489.8177146911621,
      "epoch": 0.2375881205939703,
      "grad_norm": 0.06533516943454742,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.8187971916049719,
      "reward_std": 0.4784417259506881,
      "rewards/semantic_entropy_math_reward": -0.8187971916049719,
      "step": 99
    },
    {
      "completion_length": 571.5191040039062,
      "epoch": 0.23998800059997,
      "grad_norm": 0.25294971466064453,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.9735191389918327,
      "reward_std": 0.6345395464450121,
      "rewards/semantic_entropy_math_reward": -0.9735191389918327,
      "step": 100
    },
    {
      "completion_length": 400.6996593475342,
      "epoch": 0.2423878806059697,
      "grad_norm": 0.3172270357608795,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.6215638350695372,
      "reward_std": 0.38559078332036734,
      "rewards/semantic_entropy_math_reward": -0.6215638350695372,
      "step": 101
    },
    {
      "completion_length": 238.6892409324646,
      "epoch": 0.2447877606119694,
      "grad_norm": 1.6551789045333862,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.39494438795372844,
      "reward_std": 0.3323068944737315,
      "rewards/semantic_entropy_math_reward": -0.39494438795372844,
      "step": 102
    },
    {
      "completion_length": 10.09375,
      "epoch": 0.2471876406179691,
      "grad_norm": 0.430303156375885,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.0410688160918653,
      "reward_std": 0.07188181672245264,
      "rewards/semantic_entropy_math_reward": -0.0410688160918653,
      "step": 103
    },
    {
      "completion_length": 10.078125059604645,
      "epoch": 0.2495875206239688,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 104
    },
    {
      "completion_length": 10.062499940395355,
      "epoch": 0.2519874006299685,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 105
    },
    {
      "completion_length": 10.045138835906982,
      "epoch": 0.2543872806359682,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 106
    },
    {
      "completion_length": 10.057291746139526,
      "epoch": 0.2567871606419679,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 107
    },
    {
      "completion_length": 10.008680582046509,
      "epoch": 0.2591870406479676,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 108
    },
    {
      "completion_length": 10.036458432674408,
      "epoch": 0.2615869206539673,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 109
    },
    {
      "completion_length": 10.032986104488373,
      "epoch": 0.263986800659967,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 110
    },
    {
      "completion_length": 10.013888835906982,
      "epoch": 0.2663866806659667,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 111
    },
    {
      "completion_length": 10.052083313465118,
      "epoch": 0.2687865606719664,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 112
    },
    {
      "completion_length": 10.013888895511627,
      "epoch": 0.2711864406779661,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 113
    },
    {
      "completion_length": 10.020833313465118,
      "epoch": 0.2735863206839658,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 114
    },
    {
      "completion_length": 10.019097208976746,
      "epoch": 0.2759862006899655,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 115
    },
    {
      "completion_length": 10.071180582046509,
      "epoch": 0.2783860806959652,
      "grad_norm": 0.2876928746700287,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": -0.011715315282344818,
      "reward_std": 0.010351377539336681,
      "rewards/semantic_entropy_math_reward": -0.011715315282344818,
      "step": 116
    },
    {
      "completion_length": 10.093750059604645,
      "epoch": 0.2807859607019649,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 117
    },
    {
      "completion_length": 10.124999940395355,
      "epoch": 0.2831858407079646,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 118
    },
    {
      "completion_length": 10.423611223697662,
      "epoch": 0.2855857207139643,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 119
    },
    {
      "completion_length": 10.47569453716278,
      "epoch": 0.287985600719964,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 120
    },
    {
      "completion_length": 10.59375011920929,
      "epoch": 0.2903854807259637,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 121
    },
    {
      "completion_length": 10.640625178813934,
      "epoch": 0.29278536073196343,
      "grad_norm": 0.23409874737262726,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": -0.005975749809294939,
      "reward_std": 0.014421098865568638,
      "rewards/semantic_entropy_math_reward": -0.005975749809294939,
      "step": 122
    },
    {
      "completion_length": 10.890625178813934,
      "epoch": 0.2951852407379631,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 123
    },
    {
      "completion_length": 10.881944596767426,
      "epoch": 0.2975851207439628,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 124
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.2999850007499625,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 125
    },
    {
      "completion_length": 10.973958432674408,
      "epoch": 0.3023848807559622,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 126
    },
    {
      "completion_length": 10.987847208976746,
      "epoch": 0.3047847607619619,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 127
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.3071846407679616,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 128
    },
    {
      "completion_length": 10.984375,
      "epoch": 0.3095845207739613,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 129
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.311984400779961,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 130
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.3143842807859607,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 131
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3167841607919604,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 132
    },
    {
      "completion_length": 11.01909726858139,
      "epoch": 0.3191840407979601,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 133
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3215839208039598,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 134
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3239838008099595,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 135
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.3263836808159592,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 136
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.3287835608219589,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 137
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3311834408279586,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 138
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.3335833208339583,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 139
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.33598320083995803,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 140
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3383830808459577,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 141
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.3407829608519574,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 142
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3431828408579571,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 143
    },
    {
      "completion_length": 11.017361164093018,
      "epoch": 0.3455827208639568,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 144
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.3479826008699565,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 145
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.3503824808759562,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 146
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3527823608819559,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 147
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3551822408879556,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 148
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3575821208939553,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 149
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.359982000899955,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 150
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3623818809059547,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 151
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3647817609119544,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 152
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.3671816409179541,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 153
    },
    {
      "completion_length": 10.984375,
      "epoch": 0.3695815209239538,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 154
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3719814009299535,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 155
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.3743812809359532,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 156
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.3767811609419529,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 157
    },
    {
      "completion_length": 11.0,
      "epoch": 0.37918104094795263,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 158
    },
    {
      "completion_length": 11.013888895511627,
      "epoch": 0.3815809209539523,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 159
    },
    {
      "completion_length": 11.0,
      "epoch": 0.383980800959952,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 160
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3863806809659517,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 161
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3887805609719514,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 162
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.3911804409779511,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 163
    },
    {
      "completion_length": 11.0,
      "epoch": 0.3935803209839508,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 164
    },
    {
      "completion_length": 11.024305582046509,
      "epoch": 0.3959802009899505,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 165
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.3983800809959502,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 166
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.4007799610019499,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 167
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4031798410079496,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 168
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4055797210139493,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 169
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.407979601019949,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 170
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4103794810259487,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 171
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4127793610319484,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 172
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4151792410379481,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 173
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4175791210439478,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 174
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4199790010499475,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 175
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4223788810559472,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 176
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4247787610619469,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 177
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4271786410679466,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 178
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.4295785210739463,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 179
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.431978401079946,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 180
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4343782810859457,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 181
    },
    {
      "completion_length": 10.980902791023254,
      "epoch": 0.4367781610919454,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 182
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4391780410979451,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 183
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4415779211039448,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 184
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4439778011099445,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 185
    },
    {
      "completion_length": 10.986111104488373,
      "epoch": 0.4463776811159442,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 186
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.4487775611219439,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 187
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4511774411279436,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 188
    },
    {
      "completion_length": 10.984375,
      "epoch": 0.4535773211339433,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 189
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.455977201139943,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 190
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4583770811459427,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 191
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4607769611519424,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 192
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4631768411579421,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 193
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4655767211639418,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 194
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4679766011699415,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 195
    },
    {
      "completion_length": 10.989583313465118,
      "epoch": 0.4703764811759412,
      "grad_norm": 0.07069958746433258,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.005975749809294939,
      "reward_std": 0.014421098865568638,
      "rewards/semantic_entropy_math_reward": -0.005975749809294939,
      "step": 196
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4727763611819409,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 197
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4751762411879406,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 198
    },
    {
      "completion_length": 11.0,
      "epoch": 0.47757612119394033,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 199
    },
    {
      "completion_length": 11.0,
      "epoch": 0.47997600119994,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 200
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.4823758812059397,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 201
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.4847757612119394,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 202
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4871756412179391,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 203
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4895755212239388,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 204
    },
    {
      "completion_length": 10.987847208976746,
      "epoch": 0.4919754012299385,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 205
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4943752812359382,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 206
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4967751612419379,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 207
    },
    {
      "completion_length": 11.0,
      "epoch": 0.4991750412479376,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 208
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5015749212539373,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 209
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.503974801259937,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 210
    },
    {
      "completion_length": 10.980902791023254,
      "epoch": 0.5063746812659367,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 211
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5087745612719364,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 212
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5111744412779361,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 213
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5135743212839358,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 214
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5159742012899355,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 215
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5183740812959352,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 216
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5207739613019349,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 217
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5231738413079347,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 218
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5255737213139343,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 219
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.527973601319934,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 220
    },
    {
      "completion_length": 11.020833313465118,
      "epoch": 0.5303734813259336,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 221
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5327733613319334,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 222
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.5351732413379331,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 223
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5375731213439328,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 224
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5399730013499325,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 225
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5423728813559322,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 226
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5447727613619319,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 227
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5471726413679316,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 228
    },
    {
      "completion_length": 10.98784726858139,
      "epoch": 0.5495725213739313,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 229
    },
    {
      "completion_length": 11.0,
      "epoch": 0.551972401379931,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 230
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5543722813859308,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 231
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5567721613919304,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 232
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5591720413979301,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 233
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5615719214039298,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 234
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5639718014099295,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 235
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.5663716814159292,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 236
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.5687715614219289,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 237
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.5711714414279286,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 238
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5735713214339283,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 239
    },
    {
      "completion_length": 10.991319477558136,
      "epoch": 0.575971201439928,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 240
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5783710814459277,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 241
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5807709614519274,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 242
    },
    {
      "completion_length": 11.022569477558136,
      "epoch": 0.5831708414579271,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 243
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5855707214639269,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 244
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5879706014699265,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 245
    },
    {
      "completion_length": 11.0,
      "epoch": 0.5903704814759262,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 246
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5927703614819259,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 247
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.5951702414879256,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 248
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.5975701214939253,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 249
    },
    {
      "completion_length": 10.991319477558136,
      "epoch": 0.599970001499925,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 250
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6023698815059247,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 251
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6047697615119244,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 252
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6071696415179241,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 253
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.6095695215239239,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 254
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6119694015299235,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 255
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6143692815359232,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 256
    },
    {
      "completion_length": 10.987847208976746,
      "epoch": 0.6167691615419229,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 257
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.6191690415479226,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 258
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.6215689215539223,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 259
    },
    {
      "completion_length": 11.012152791023254,
      "epoch": 0.623968801559922,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 260
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6263686815659217,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 261
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6287685615719214,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 262
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.6311684415779211,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 263
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6335683215839208,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 264
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6359682015899205,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 265
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6383680815959202,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 266
    },
    {
      "completion_length": 11.0,
      "epoch": 0.64076796160192,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 267
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.6431678416079196,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 268
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6455677216139193,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 269
    },
    {
      "completion_length": 11.0,
      "epoch": 0.647967601619919,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 270
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6503674816259187,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 271
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6527673616319184,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 272
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6551672416379181,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 273
    },
    {
      "completion_length": 10.984375059604645,
      "epoch": 0.6575671216439178,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 274
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6599670016499175,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 275
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6623668816559172,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 276
    },
    {
      "completion_length": 11.0,
      "epoch": 0.664766761661917,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 277
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6671666416679166,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 278
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6695665216739163,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 279
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6719664016799161,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 280
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.6743662816859157,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 281
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.6767661616919154,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 282
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6791660416979151,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 283
    },
    {
      "completion_length": 10.980902791023254,
      "epoch": 0.6815659217039148,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 284
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6839658017099145,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 285
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6863656817159142,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 286
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.6887655617219139,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 287
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6911654417279136,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 288
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.6935653217339133,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 289
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.695965201739913,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 290
    },
    {
      "completion_length": 11.0,
      "epoch": 0.6983650817459127,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 291
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7007649617519124,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 292
    },
    {
      "completion_length": 11.0,
      "epoch": 0.703164841757912,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 293
    },
    {
      "completion_length": 10.987847208976746,
      "epoch": 0.7055647217639118,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 294
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.7079646017699115,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 295
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7103644817759112,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 296
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7127643617819109,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 297
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7151642417879106,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 298
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.7175641217939103,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 299
    },
    {
      "completion_length": 11.0,
      "epoch": 0.71996400179991,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 300
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7223638818059097,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 301
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7247637618119094,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 302
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7271636418179092,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 303
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7295635218239088,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 304
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.7319634018299085,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 305
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7343632818359082,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 306
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7367631618419079,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 307
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.7391630418479076,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 308
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.7415629218539073,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 309
    },
    {
      "completion_length": 11.0,
      "epoch": 0.743962801859907,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 310
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7463626818659067,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 311
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7487625618719064,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 312
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7511624418779062,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 313
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.7535623218839058,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 314
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.7559622018899055,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 315
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.7583620818959053,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 316
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.7607619619019049,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 317
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7631618419079046,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 318
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.7655617219139043,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 319
    },
    {
      "completion_length": 11.0,
      "epoch": 0.767961601919904,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 320
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.7703614819259037,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 321
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7727613619319034,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 322
    },
    {
      "completion_length": 10.979166686534882,
      "epoch": 0.7751612419379031,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 323
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7775611219439028,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 324
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.7799610019499025,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 325
    },
    {
      "completion_length": 10.991319477558136,
      "epoch": 0.7823608819559023,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 326
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7847607619619019,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 327
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7871606419679016,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 328
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7895605219739013,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 329
    },
    {
      "completion_length": 11.0,
      "epoch": 0.791960401979901,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 330
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.7943602819859007,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 331
    },
    {
      "completion_length": 10.98784726858139,
      "epoch": 0.7967601619919004,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 332
    },
    {
      "completion_length": 11.0,
      "epoch": 0.7991600419979001,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 333
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8015599220038998,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 334
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.8039598020098995,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 335
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8063596820158992,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 336
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8087595620218989,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 337
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8111594420278986,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 338
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.8135593220338984,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 339
    },
    {
      "completion_length": 11.0,
      "epoch": 0.815959202039898,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 340
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8183590820458977,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 341
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8207589620518974,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 342
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8231588420578971,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 343
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8255587220638968,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 344
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8279586020698965,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 345
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8303584820758962,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 346
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8327583620818959,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 347
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8351582420878956,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 348
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8375581220938954,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 349
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.839958002099895,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 350
    },
    {
      "completion_length": 10.979166686534882,
      "epoch": 0.8423578821058947,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 351
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8447577621118944,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 352
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8471576421178941,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 353
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8495575221238938,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 354
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8519574021298935,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 355
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8543572821358932,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 356
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8567571621418929,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 357
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8591570421478926,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 358
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8615569221538923,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 359
    },
    {
      "completion_length": 11.0,
      "epoch": 0.863956802159892,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 360
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8663566821658917,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 361
    },
    {
      "completion_length": 11.022569477558136,
      "epoch": 0.8687565621718915,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 362
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8711564421778911,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 363
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8735563221838908,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 364
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.8759562021898905,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 365
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8783560821958902,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 366
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8807559622018899,
      "grad_norm": 0.02790955826640129,
      "learning_rate": 1e-06,
      "loss": -0.0,
      "reward": -0.005975749343633652,
      "reward_std": 0.014421098865568638,
      "rewards/semantic_entropy_math_reward": -0.005975749343633652,
      "step": 367
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8831558422078896,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 368
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8855557222138893,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 369
    },
    {
      "completion_length": 11.0,
      "epoch": 0.887955602219889,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 370
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8903554822258887,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 371
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8927553622318884,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 372
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.8951552422378881,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 373
    },
    {
      "completion_length": 11.0,
      "epoch": 0.8975551222438878,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 374
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.8999550022498876,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 375
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9023548822558872,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 376
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9047547622618869,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 377
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9071546422678866,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 378
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9095545222738863,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 379
    },
    {
      "completion_length": 11.0,
      "epoch": 0.911954402279886,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 380
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9143542822858857,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 381
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9167541622918854,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 382
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9191540422978851,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 383
    },
    {
      "completion_length": 10.993055582046509,
      "epoch": 0.9215539223038848,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 384
    },
    {
      "completion_length": 10.979166686534882,
      "epoch": 0.9239538023098846,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 385
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.9263536823158842,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 386
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.9287535623218839,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 387
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9311534423278836,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 388
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.9335533223338833,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 389
    },
    {
      "completion_length": 11.0,
      "epoch": 0.935953202339883,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 390
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9383530823458827,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 391
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9407529623518824,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 392
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9431528423578821,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 393
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9455527223638818,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 394
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9479526023698815,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 395
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9503524823758812,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 396
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.9527523623818809,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 397
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9551522423878807,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 398
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9575521223938803,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 399
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.95995200239988,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 400
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9623518824058797,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 401
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9647517624118794,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 402
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9671516424178791,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 403
    },
    {
      "completion_length": 10.996527791023254,
      "epoch": 0.9695515224238788,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 404
    },
    {
      "completion_length": 10.994791686534882,
      "epoch": 0.9719514024298785,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 405
    },
    {
      "completion_length": 11.038194477558136,
      "epoch": 0.9743512824358782,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 406
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9767511624418779,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 407
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9791510424478777,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 408
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9815509224538773,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 409
    },
    {
      "completion_length": 11.0,
      "epoch": 0.983950802459877,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 410
    },
    {
      "completion_length": 10.998263895511627,
      "epoch": 0.9863506824658768,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 411
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9887505624718764,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 412
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9911504424778761,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 413
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9935503224838758,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 414
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9959502024898755,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 415
    },
    {
      "completion_length": 11.0,
      "epoch": 0.9983500824958752,
      "grad_norm": 0.0,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/semantic_entropy_math_reward": 0.0,
      "step": 416
    },
    {
      "epoch": 0.9983500824958752,
      "step": 416,
      "total_flos": 0.0,
      "train_loss": -8.8036603985719e-09,
      "train_runtime": 28166.6905,
      "train_samples_per_second": 0.71,
      "train_steps_per_second": 0.015
    }
  ],
  "logging_steps": 1,
  "max_steps": 416,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}