{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.06428783416660959,
  "eval_steps": 500,
  "global_step": 44,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001461087140150218,
      "grad_norm": 2.4780876636505127,
      "learning_rate": 1.4285714285714286e-06,
      "log_odds_chosen": 0.016244888305664062,
      "log_odds_ratio": -0.6993749141693115,
      "logits/chosen": -2.2119967937469482,
      "logits/rejected": -2.212354898452759,
      "logps/chosen": -1.583775520324707,
      "logps/rejected": -1.594750165939331,
      "loss": 1.8606,
      "nll_loss": 1.7906217575073242,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -0.1583775281906128,
      "rewards/margins": 0.0010974762262776494,
      "rewards/rejected": -0.15947501361370087,
      "step": 1
    },
    {
      "epoch": 0.002922174280300436,
      "grad_norm": 2.627044200897217,
      "learning_rate": 2.8571428571428573e-06,
      "log_odds_chosen": 0.11979679018259048,
      "log_odds_ratio": -0.6573244333267212,
      "logits/chosen": -2.2274065017700195,
      "logits/rejected": -2.243682622909546,
      "logps/chosen": -1.5664572715759277,
      "logps/rejected": -1.6658927202224731,
      "loss": 1.8544,
      "nll_loss": 1.7886956930160522,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -0.156645730137825,
      "rewards/margins": 0.009943531826138496,
      "rewards/rejected": -0.16658926010131836,
      "step": 2
    },
    {
      "epoch": 0.004383261420450654,
      "grad_norm": 2.113027334213257,
      "learning_rate": 4.2857142857142855e-06,
      "log_odds_chosen": 0.058733537793159485,
      "log_odds_ratio": -0.6822808980941772,
      "logits/chosen": -2.1965179443359375,
      "logits/rejected": -2.195549964904785,
      "logps/chosen": -1.4528911113739014,
      "logps/rejected": -1.498779296875,
      "loss": 1.7314,
      "nll_loss": 1.6631801128387451,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.1452891230583191,
      "rewards/margins": 0.004588826093822718,
      "rewards/rejected": -0.14987793564796448,
      "step": 3
    },
    {
      "epoch": 0.005844348560600872,
      "grad_norm": 1.8004069328308105,
      "learning_rate": 5.7142857142857145e-06,
      "log_odds_chosen": 0.09058406949043274,
      "log_odds_ratio": -0.6622194051742554,
      "logits/chosen": -2.240548849105835,
      "logits/rejected": -2.276327133178711,
      "logps/chosen": -1.469621181488037,
      "logps/rejected": -1.5354365110397339,
      "loss": 1.8061,
      "nll_loss": 1.7399120330810547,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -0.14696213603019714,
      "rewards/margins": 0.006581515539437532,
      "rewards/rejected": -0.1535436362028122,
      "step": 4
    },
    {
      "epoch": 0.00730543570075109,
      "grad_norm": 1.565532922744751,
      "learning_rate": 7.1428571428571436e-06,
      "log_odds_chosen": 0.052982207387685776,
      "log_odds_ratio": -0.6897823214530945,
      "logits/chosen": -2.2151541709899902,
      "logits/rejected": -2.215179681777954,
      "logps/chosen": -1.5283693075180054,
      "logps/rejected": -1.5738036632537842,
      "loss": 1.8656,
      "nll_loss": 1.7966063022613525,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.15283691883087158,
      "rewards/margins": 0.004543437156826258,
      "rewards/rejected": -0.1573803573846817,
      "step": 5
    },
    {
      "epoch": 0.008766522840901307,
      "grad_norm": 1.689719557762146,
      "learning_rate": 8.571428571428571e-06,
      "log_odds_chosen": -0.021141668781638145,
      "log_odds_ratio": -0.7178523540496826,
      "logits/chosen": -2.180445432662964,
      "logits/rejected": -2.216461658477783,
      "logps/chosen": -1.423187255859375,
      "logps/rejected": -1.4068344831466675,
      "loss": 1.7435,
      "nll_loss": 1.671682357788086,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.1423187255859375,
      "rewards/margins": -0.0016352771781384945,
      "rewards/rejected": -0.14068344235420227,
      "step": 6
    },
    {
      "epoch": 0.010227609981051527,
      "grad_norm": 1.432656168937683,
      "learning_rate": 1e-05,
      "log_odds_chosen": -0.045114632695913315,
      "log_odds_ratio": -0.7312092781066895,
      "logits/chosen": -2.2011773586273193,
      "logits/rejected": -2.201080799102783,
      "logps/chosen": -1.5241130590438843,
      "logps/rejected": -1.4893730878829956,
      "loss": 1.793,
      "nll_loss": 1.719857931137085,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.1524112969636917,
      "rewards/margins": -0.003474000608548522,
      "rewards/rejected": -0.14893729984760284,
      "step": 7
    },
    {
      "epoch": 0.011688697121201744,
      "grad_norm": 1.520970106124878,
      "learning_rate": 9.9999461653818e-06,
      "log_odds_chosen": -0.08909691870212555,
      "log_odds_ratio": -0.7692862153053284,
      "logits/chosen": -2.243410110473633,
      "logits/rejected": -2.2267463207244873,
      "logps/chosen": -1.446630597114563,
      "logps/rejected": -1.396761417388916,
      "loss": 1.759,
      "nll_loss": 1.682105541229248,
      "rewards/accuracies": 0.390625,
      "rewards/chosen": -0.14466306567192078,
      "rewards/margins": -0.00498693622648716,
      "rewards/rejected": -0.13967613875865936,
      "step": 8
    },
    {
      "epoch": 0.013149784261351962,
      "grad_norm": 1.2674661874771118,
      "learning_rate": 9.999784662686462e-06,
      "log_odds_chosen": 0.03795226663351059,
      "log_odds_ratio": -0.7072824835777283,
      "logits/chosen": -2.1986892223358154,
      "logits/rejected": -2.2072536945343018,
      "logps/chosen": -1.4396700859069824,
      "logps/rejected": -1.471963882446289,
      "loss": 1.7775,
      "nll_loss": 1.7067829370498657,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.14396700263023376,
      "rewards/margins": 0.0032293866388499737,
      "rewards/rejected": -0.14719641208648682,
      "step": 9
    },
    {
      "epoch": 0.01461087140150218,
      "grad_norm": 0.984953761100769,
      "learning_rate": 9.999515495391765e-06,
      "log_odds_chosen": -0.1402886062860489,
      "log_odds_ratio": -0.7837027907371521,
      "logits/chosen": -2.173368453979492,
      "logits/rejected": -2.152172803878784,
      "logps/chosen": -1.3456827402114868,
      "logps/rejected": -1.2599360942840576,
      "loss": 1.6237,
      "nll_loss": 1.5452890396118164,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.13456827402114868,
      "rewards/margins": -0.008574655279517174,
      "rewards/rejected": -0.12599360942840576,
      "step": 10
    },
    {
      "epoch": 0.016071958541652397,
      "grad_norm": 0.9352578520774841,
      "learning_rate": 9.999138669293913e-06,
      "log_odds_chosen": 0.030955376103520393,
      "log_odds_ratio": -0.6955101490020752,
      "logits/chosen": -2.242959976196289,
      "logits/rejected": -2.2378480434417725,
      "logps/chosen": -1.3454885482788086,
      "logps/rejected": -1.3571863174438477,
      "loss": 1.6984,
      "nll_loss": 1.6288717985153198,
      "rewards/accuracies": 0.453125,
      "rewards/chosen": -0.1345488578081131,
      "rewards/margins": 0.0011697756126523018,
      "rewards/rejected": -0.13571862876415253,
      "step": 11
    },
    {
      "epoch": 0.017533045681802615,
      "grad_norm": 0.7604814171791077,
      "learning_rate": 9.998654192507421e-06,
      "log_odds_chosen": -0.025142917409539223,
      "log_odds_ratio": -0.7221760153770447,
      "logits/chosen": -2.1557188034057617,
      "logits/rejected": -2.181380271911621,
      "logps/chosen": -1.3569337129592896,
      "logps/rejected": -1.342216968536377,
      "loss": 1.6662,
      "nll_loss": 1.59402596950531,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.13569337129592896,
      "rewards/margins": -0.0014716808218508959,
      "rewards/rejected": -0.13422170281410217,
      "step": 12
    },
    {
      "epoch": 0.018994132821952833,
      "grad_norm": 0.7423222064971924,
      "learning_rate": 9.998062075464943e-06,
      "log_odds_chosen": -0.11804741621017456,
      "log_odds_ratio": -0.7873090505599976,
      "logits/chosen": -2.200981616973877,
      "logits/rejected": -2.1934943199157715,
      "logps/chosen": -1.2868025302886963,
      "logps/rejected": -1.2002918720245361,
      "loss": 1.6073,
      "nll_loss": 1.5285530090332031,
      "rewards/accuracies": 0.3125,
      "rewards/chosen": -0.1286802589893341,
      "rewards/margins": -0.008651047013700008,
      "rewards/rejected": -0.12002921104431152,
      "step": 13
    },
    {
      "epoch": 0.020455219962103054,
      "grad_norm": 0.6683437824249268,
      "learning_rate": 9.997362330917032e-06,
      "log_odds_chosen": -0.012934267520904541,
      "log_odds_ratio": -0.7275698184967041,
      "logits/chosen": -2.1948914527893066,
      "logits/rejected": -2.200413227081299,
      "logps/chosen": -1.3400592803955078,
      "logps/rejected": -1.3343003988265991,
      "loss": 1.6521,
      "nll_loss": 1.5793243646621704,
      "rewards/accuracies": 0.453125,
      "rewards/chosen": -0.13400591909885406,
      "rewards/margins": -0.0005758859915658832,
      "rewards/rejected": -0.13343004882335663,
      "step": 14
    },
    {
      "epoch": 0.02191630710225327,
      "grad_norm": 0.6963202357292175,
      "learning_rate": 9.996554973931884e-06,
      "log_odds_chosen": -0.11072862148284912,
      "log_odds_ratio": -0.7919189929962158,
      "logits/chosen": -2.1773252487182617,
      "logits/rejected": -2.162838935852051,
      "logps/chosen": -1.305843710899353,
      "logps/rejected": -1.2427345514297485,
      "loss": 1.6167,
      "nll_loss": 1.5374785661697388,
      "rewards/accuracies": 0.359375,
      "rewards/chosen": -0.13058437407016754,
      "rewards/margins": -0.006310915574431419,
      "rewards/rejected": -0.12427344918251038,
      "step": 15
    },
    {
      "epoch": 0.02337739424240349,
      "grad_norm": 0.6812885999679565,
      "learning_rate": 9.995640021894996e-06,
      "log_odds_chosen": -0.03462236002087593,
      "log_odds_ratio": -0.7293962836265564,
      "logits/chosen": -2.1697518825531006,
      "logits/rejected": -2.1682655811309814,
      "logps/chosen": -1.2563740015029907,
      "logps/rejected": -1.2293565273284912,
      "loss": 1.5666,
      "nll_loss": 1.4936596155166626,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.12563739717006683,
      "rewards/margins": -0.0027017316315323114,
      "rewards/rejected": -0.12293566763401031,
      "step": 16
    },
    {
      "epoch": 0.024838481382553707,
      "grad_norm": 0.6587896943092346,
      "learning_rate": 9.994617494508811e-06,
      "log_odds_chosen": -0.010003458708524704,
      "log_odds_ratio": -0.7430539727210999,
      "logits/chosen": -2.200150966644287,
      "logits/rejected": -2.1906399726867676,
      "logps/chosen": -1.2153267860412598,
      "logps/rejected": -1.1962745189666748,
      "loss": 1.5641,
      "nll_loss": 1.4898183345794678,
      "rewards/accuracies": 0.390625,
      "rewards/chosen": -0.12153266370296478,
      "rewards/margins": -0.001905218348838389,
      "rewards/rejected": -0.119627445936203,
      "step": 17
    },
    {
      "epoch": 0.026299568522703924,
      "grad_norm": 0.5830309987068176,
      "learning_rate": 9.993487413792276e-06,
      "log_odds_chosen": -0.1340780407190323,
      "log_odds_ratio": -0.7850849628448486,
      "logits/chosen": -2.1663918495178223,
      "logits/rejected": -2.145009756088257,
      "logps/chosen": -1.2580608129501343,
      "logps/rejected": -1.188957929611206,
      "loss": 1.5591,
      "nll_loss": 1.4806358814239502,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.1258060783147812,
      "rewards/margins": -0.006910297088325024,
      "rewards/rejected": -0.11889579892158508,
      "step": 18
    },
    {
      "epoch": 0.027760655662854142,
      "grad_norm": 0.5536736249923706,
      "learning_rate": 9.992249804080372e-06,
      "log_odds_chosen": -0.021063022315502167,
      "log_odds_ratio": -0.7351462244987488,
      "logits/chosen": -2.1682121753692627,
      "logits/rejected": -2.163313150405884,
      "logps/chosen": -1.2965900897979736,
      "logps/rejected": -1.2690778970718384,
      "loss": 1.6294,
      "nll_loss": 1.5559338331222534,
      "rewards/accuracies": 0.421875,
      "rewards/chosen": -0.1296590119600296,
      "rewards/margins": -0.0027512230444699526,
      "rewards/rejected": -0.12690778076648712,
      "step": 19
    },
    {
      "epoch": 0.02922174280300436,
      "grad_norm": 0.5634390711784363,
      "learning_rate": 9.990904692023604e-06,
      "log_odds_chosen": 0.025263303890824318,
      "log_odds_ratio": -0.7174615263938904,
      "logits/chosen": -2.26141357421875,
      "logits/rejected": -2.250270366668701,
      "logps/chosen": -1.3806607723236084,
      "logps/rejected": -1.3875806331634521,
      "loss": 1.7203,
      "nll_loss": 1.6485247611999512,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.13806606829166412,
      "rewards/margins": 0.0006919947918504477,
      "rewards/rejected": -0.1387580782175064,
      "step": 20
    },
    {
      "epoch": 0.030682829943154577,
      "grad_norm": 0.5434465408325195,
      "learning_rate": 9.989452106587406e-06,
      "log_odds_chosen": 0.012862562201917171,
      "log_odds_ratio": -0.7206666469573975,
      "logits/chosen": -2.1785006523132324,
      "logits/rejected": -2.181265354156494,
      "logps/chosen": -1.2523807287216187,
      "logps/rejected": -1.2531023025512695,
      "loss": 1.5781,
      "nll_loss": 1.5060465335845947,
      "rewards/accuracies": 0.421875,
      "rewards/chosen": -0.1252380609512329,
      "rewards/margins": 7.216550875455141e-05,
      "rewards/rejected": -0.1253102421760559,
      "step": 21
    },
    {
      "epoch": 0.032143917083304795,
      "grad_norm": 0.6211642026901245,
      "learning_rate": 9.987892079051531e-06,
      "log_odds_chosen": 0.012624351307749748,
      "log_odds_ratio": -0.7291357517242432,
      "logits/chosen": -2.179482936859131,
      "logits/rejected": -2.176547050476074,
      "logps/chosen": -1.3581693172454834,
      "logps/rejected": -1.3609216213226318,
      "loss": 1.6565,
      "nll_loss": 1.5835901498794556,
      "rewards/accuracies": 0.359375,
      "rewards/chosen": -0.13581693172454834,
      "rewards/margins": 0.0002752433065325022,
      "rewards/rejected": -0.1360921710729599,
      "step": 22
    },
    {
      "epoch": 0.03360500422345501,
      "grad_norm": 0.769701361656189,
      "learning_rate": 9.986224643009375e-06,
      "log_odds_chosen": 0.03776140883564949,
      "log_odds_ratio": -0.6954489946365356,
      "logits/chosen": -2.1131434440612793,
      "logits/rejected": -2.1170055866241455,
      "logps/chosen": -1.2192529439926147,
      "logps/rejected": -1.2428308725357056,
      "loss": 1.519,
      "nll_loss": 1.4494192600250244,
      "rewards/accuracies": 0.453125,
      "rewards/chosen": -0.12192529439926147,
      "rewards/margins": 0.0023577904794365168,
      "rewards/rejected": -0.1242830902338028,
      "step": 23
    },
    {
      "epoch": 0.03506609136360523,
      "grad_norm": 0.6579698324203491,
      "learning_rate": 9.984449834367251e-06,
      "log_odds_chosen": -0.08287765085697174,
      "log_odds_ratio": -0.7655948400497437,
      "logits/chosen": -2.117600440979004,
      "logits/rejected": -2.118288993835449,
      "logps/chosen": -1.3066436052322388,
      "logps/rejected": -1.2814935445785522,
      "loss": 1.5987,
      "nll_loss": 1.5221776962280273,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.13066436350345612,
      "rewards/margins": -0.0025150016881525517,
      "rewards/rejected": -0.1281493604183197,
      "step": 24
    },
    {
      "epoch": 0.03652717850375545,
      "grad_norm": 0.5370662808418274,
      "learning_rate": 9.982567691343617e-06,
      "log_odds_chosen": -0.041301436722278595,
      "log_odds_ratio": -0.7494814395904541,
      "logits/chosen": -2.1119844913482666,
      "logits/rejected": -2.1228156089782715,
      "logps/chosen": -1.2678842544555664,
      "logps/rejected": -1.2463194131851196,
      "loss": 1.5457,
      "nll_loss": 1.4707541465759277,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.1267884224653244,
      "rewards/margins": -0.0021564930211752653,
      "rewards/rejected": -0.12463192641735077,
      "step": 25
    },
    {
      "epoch": 0.037988265643905665,
      "grad_norm": 0.5143423080444336,
      "learning_rate": 9.980578254468252e-06,
      "log_odds_chosen": -0.05193250998854637,
      "log_odds_ratio": -0.7482390403747559,
      "logits/chosen": -2.1540181636810303,
      "logits/rejected": -2.136885166168213,
      "logps/chosen": -1.3168916702270508,
      "logps/rejected": -1.2728286981582642,
      "loss": 1.6123,
      "nll_loss": 1.5374691486358643,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.1316891610622406,
      "rewards/margins": -0.004406292457133532,
      "rewards/rejected": -0.12728287279605865,
      "step": 26
    },
    {
      "epoch": 0.03944935278405589,
      "grad_norm": 0.5746509432792664,
      "learning_rate": 9.978481566581388e-06,
      "log_odds_chosen": -0.09941092133522034,
      "log_odds_ratio": -0.7670192122459412,
      "logits/chosen": -2.0658328533172607,
      "logits/rejected": -2.053611993789673,
      "logps/chosen": -1.3229994773864746,
      "logps/rejected": -1.2689064741134644,
      "loss": 1.5754,
      "nll_loss": 1.4986768960952759,
      "rewards/accuracies": 0.265625,
      "rewards/chosen": -0.13229995965957642,
      "rewards/margins": -0.005409288220107555,
      "rewards/rejected": -0.1268906593322754,
      "step": 27
    },
    {
      "epoch": 0.04091043992420611,
      "grad_norm": 0.5285203456878662,
      "learning_rate": 9.976277672832782e-06,
      "log_odds_chosen": -0.009130319580435753,
      "log_odds_ratio": -0.7242738008499146,
      "logits/chosen": -2.119077682495117,
      "logits/rejected": -2.109398365020752,
      "logps/chosen": -1.311572790145874,
      "logps/rejected": -1.3026206493377686,
      "loss": 1.596,
      "nll_loss": 1.5235313177108765,
      "rewards/accuracies": 0.28125,
      "rewards/chosen": -0.1311572790145874,
      "rewards/margins": -0.0008952060015872121,
      "rewards/rejected": -0.1302620768547058,
      "step": 28
    },
    {
      "epoch": 0.042371527064356325,
      "grad_norm": 0.5054935812950134,
      "learning_rate": 9.973966620680741e-06,
      "log_odds_chosen": 9.676720947027206e-05,
      "log_odds_ratio": -0.7112984657287598,
      "logits/chosen": -2.0804967880249023,
      "logits/rejected": -2.0964128971099854,
      "logps/chosen": -1.3590530157089233,
      "logps/rejected": -1.3668309450149536,
      "loss": 1.6081,
      "nll_loss": 1.5369728803634644,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.13590531051158905,
      "rewards/margins": 0.0007777921855449677,
      "rewards/rejected": -0.13668310642242432,
      "step": 29
    },
    {
      "epoch": 0.04383261420450654,
      "grad_norm": 0.5947529077529907,
      "learning_rate": 9.971548459891113e-06,
      "log_odds_chosen": -0.005686625838279724,
      "log_odds_ratio": -0.7236043810844421,
      "logits/chosen": -2.040478229522705,
      "logits/rejected": -2.050001859664917,
      "logps/chosen": -1.3079044818878174,
      "logps/rejected": -1.3112431764602661,
      "loss": 1.6105,
      "nll_loss": 1.5381548404693604,
      "rewards/accuracies": 0.390625,
      "rewards/chosen": -0.13079045712947845,
      "rewards/margins": 0.0003338647074997425,
      "rewards/rejected": -0.1311243176460266,
      "step": 30
    },
    {
      "epoch": 0.04529370134465676,
      "grad_norm": 0.541822075843811,
      "learning_rate": 9.969023242536206e-06,
      "log_odds_chosen": -0.03166639059782028,
      "log_odds_ratio": -0.7292428612709045,
      "logits/chosen": -2.040898323059082,
      "logits/rejected": -2.0398669242858887,
      "logps/chosen": -1.2686175107955933,
      "logps/rejected": -1.261348843574524,
      "loss": 1.541,
      "nll_loss": 1.4681065082550049,
      "rewards/accuracies": 0.484375,
      "rewards/chosen": -0.12686176598072052,
      "rewards/margins": -0.0007268765475600958,
      "rewards/rejected": -0.12613488733768463,
      "step": 31
    },
    {
      "epoch": 0.04675478848480698,
      "grad_norm": 0.6896752715110779,
      "learning_rate": 9.966391022993658e-06,
      "log_odds_chosen": 0.13857628405094147,
      "log_odds_ratio": -0.6746503114700317,
      "logits/chosen": -2.005702495574951,
      "logits/rejected": -2.009239912033081,
      "logps/chosen": -1.14279043674469,
      "logps/rejected": -1.2037732601165771,
      "loss": 1.475,
      "nll_loss": 1.4074950218200684,
      "rewards/accuracies": 0.484375,
      "rewards/chosen": -0.11427903920412064,
      "rewards/margins": 0.00609829043969512,
      "rewards/rejected": -0.12037733197212219,
      "step": 32
    },
    {
      "epoch": 0.048215875624957195,
      "grad_norm": 0.4958839416503906,
      "learning_rate": 9.963651857945286e-06,
      "log_odds_chosen": -0.07793000340461731,
      "log_odds_ratio": -0.7607824206352234,
      "logits/chosen": -2.067959785461426,
      "logits/rejected": -2.06540584564209,
      "logps/chosen": -1.3159579038619995,
      "logps/rejected": -1.2743453979492188,
      "loss": 1.657,
      "nll_loss": 1.5809520483016968,
      "rewards/accuracies": 0.390625,
      "rewards/chosen": -0.13159577548503876,
      "rewards/margins": -0.004161248914897442,
      "rewards/rejected": -0.12743453681468964,
      "step": 33
    },
    {
      "epoch": 0.04967696276510741,
      "grad_norm": 0.530023992061615,
      "learning_rate": 9.960805806375854e-06,
      "log_odds_chosen": 0.017400667071342468,
      "log_odds_ratio": -0.7287170886993408,
      "logits/chosen": -2.049931526184082,
      "logits/rejected": -2.067579984664917,
      "logps/chosen": -1.313307285308838,
      "logps/rejected": -1.3060802221298218,
      "loss": 1.5791,
      "nll_loss": 1.506237268447876,
      "rewards/accuracies": 0.390625,
      "rewards/chosen": -0.1313307285308838,
      "rewards/margins": -0.0007226967136375606,
      "rewards/rejected": -0.13060802221298218,
      "step": 34
    },
    {
      "epoch": 0.05113804990525763,
      "grad_norm": 0.5267317891120911,
      "learning_rate": 9.957852929571799e-06,
      "log_odds_chosen": -0.08755096048116684,
      "log_odds_ratio": -0.7537316679954529,
      "logits/chosen": -2.0170559883117676,
      "logits/rejected": -2.0241918563842773,
      "logps/chosen": -1.3282378911972046,
      "logps/rejected": -1.267946481704712,
      "loss": 1.5959,
      "nll_loss": 1.5205148458480835,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.13282378017902374,
      "rewards/margins": -0.006029147654771805,
      "rewards/rejected": -0.12679465115070343,
      "step": 35
    },
    {
      "epoch": 0.05259913704540785,
      "grad_norm": 0.5598548054695129,
      "learning_rate": 9.954793291119917e-06,
      "log_odds_chosen": -0.07335270196199417,
      "log_odds_ratio": -0.7724658846855164,
      "logits/chosen": -2.0005574226379395,
      "logits/rejected": -1.985095739364624,
      "logps/chosen": -1.2228074073791504,
      "logps/rejected": -1.1555684804916382,
      "loss": 1.5164,
      "nll_loss": 1.4391915798187256,
      "rewards/accuracies": 0.359375,
      "rewards/chosen": -0.12228074669837952,
      "rewards/margins": -0.006723896134644747,
      "rewards/rejected": -0.11555685847997665,
      "step": 36
    },
    {
      "epoch": 0.054060224185558066,
      "grad_norm": 0.5158045887947083,
      "learning_rate": 9.951626956906001e-06,
      "log_odds_chosen": -0.1070481538772583,
      "log_odds_ratio": -0.767937421798706,
      "logits/chosen": -2.022592067718506,
      "logits/rejected": -2.0269908905029297,
      "logps/chosen": -1.3267402648925781,
      "logps/rejected": -1.2489224672317505,
      "loss": 1.5828,
      "nll_loss": 1.5060540437698364,
      "rewards/accuracies": 0.390625,
      "rewards/chosen": -0.13267403841018677,
      "rewards/margins": -0.0077817970886826515,
      "rewards/rejected": -0.1248922348022461,
      "step": 37
    },
    {
      "epoch": 0.055521311325708284,
      "grad_norm": 0.5369778275489807,
      "learning_rate": 9.948353995113405e-06,
      "log_odds_chosen": 0.02357397973537445,
      "log_odds_ratio": -0.7277624011039734,
      "logits/chosen": -1.971970796585083,
      "logits/rejected": -2.0005533695220947,
      "logps/chosen": -1.190409541130066,
      "logps/rejected": -1.1846762895584106,
      "loss": 1.4772,
      "nll_loss": 1.404414176940918,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.11904095858335495,
      "rewards/margins": -0.0005733318976126611,
      "rewards/rejected": -0.11846762895584106,
      "step": 38
    },
    {
      "epoch": 0.0569823984658585,
      "grad_norm": 0.5577079057693481,
      "learning_rate": 9.944974476221587e-06,
      "log_odds_chosen": 0.05960956960916519,
      "log_odds_ratio": -0.694072425365448,
      "logits/chosen": -2.0205910205841064,
      "logits/rejected": -2.010025978088379,
      "logps/chosen": -1.2545329332351685,
      "logps/rejected": -1.2769423723220825,
      "loss": 1.5708,
      "nll_loss": 1.5014022588729858,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.12545329332351685,
      "rewards/margins": 0.002240956760942936,
      "rewards/rejected": -0.1276942491531372,
      "step": 39
    },
    {
      "epoch": 0.05844348560600872,
      "grad_norm": 0.5200385451316833,
      "learning_rate": 9.941488473004594e-06,
      "log_odds_chosen": -0.016573341563344002,
      "log_odds_ratio": -0.7171596884727478,
      "logits/chosen": -2.0057106018066406,
      "logits/rejected": -2.004528760910034,
      "logps/chosen": -1.4052870273590088,
      "logps/rejected": -1.3805549144744873,
      "loss": 1.6515,
      "nll_loss": 1.5797675848007202,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.14052869379520416,
      "rewards/margins": -0.0024731969460844994,
      "rewards/rejected": -0.13805550336837769,
      "step": 40
    },
    {
      "epoch": 0.059904572746158936,
      "grad_norm": 0.5273575186729431,
      "learning_rate": 9.937896060529485e-06,
      "log_odds_chosen": -0.08113294094800949,
      "log_odds_ratio": -0.7743253707885742,
      "logits/chosen": -1.9785962104797363,
      "logits/rejected": -1.9705551862716675,
      "logps/chosen": -1.2821004390716553,
      "logps/rejected": -1.208033561706543,
      "loss": 1.5836,
      "nll_loss": 1.5061376094818115,
      "rewards/accuracies": 0.234375,
      "rewards/chosen": -0.12821003794670105,
      "rewards/margins": -0.007406666409224272,
      "rewards/rejected": -0.12080337107181549,
      "step": 41
    },
    {
      "epoch": 0.061365659886309154,
      "grad_norm": 0.5236508250236511,
      "learning_rate": 9.934197316154721e-06,
      "log_odds_chosen": -0.13003796339035034,
      "log_odds_ratio": -0.7939882278442383,
      "logits/chosen": -1.9101815223693848,
      "logits/rejected": -1.943664312362671,
      "logps/chosen": -1.155348777770996,
      "logps/rejected": -1.0918152332305908,
      "loss": 1.4569,
      "nll_loss": 1.377458095550537,
      "rewards/accuracies": 0.328125,
      "rewards/chosen": -0.11553487926721573,
      "rewards/margins": -0.006353363860398531,
      "rewards/rejected": -0.10918151587247849,
      "step": 42
    },
    {
      "epoch": 0.06282674702645938,
      "grad_norm": 0.4699207842350006,
      "learning_rate": 9.9303923195285e-06,
      "log_odds_chosen": -0.041184213012456894,
      "log_odds_ratio": -0.7406144142150879,
      "logits/chosen": -1.9506869316101074,
      "logits/rejected": -1.9735560417175293,
      "logps/chosen": -1.2942121028900146,
      "logps/rejected": -1.2584986686706543,
      "loss": 1.5464,
      "nll_loss": 1.4723409414291382,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.12942121922969818,
      "rewards/margins": -0.0035713440738618374,
      "rewards/rejected": -0.1258498728275299,
      "step": 43
    },
    {
      "epoch": 0.06428783416660959,
      "grad_norm": 0.5235589742660522,
      "learning_rate": 9.92648115258704e-06,
      "log_odds_chosen": 0.04650488868355751,
      "log_odds_ratio": -0.7010443806648254,
      "logits/chosen": -1.9501118659973145,
      "logits/rejected": -1.9561800956726074,
      "logps/chosen": -1.1499981880187988,
      "logps/rejected": -1.1835464239120483,
      "loss": 1.4224,
      "nll_loss": 1.3523142337799072,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.11499983072280884,
      "rewards/margins": 0.003354821354150772,
      "rewards/rejected": -0.11835464835166931,
      "step": 44
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 684,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 4,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}