Qwen2.5-VL-3B-Instruct-SFT / trainer_state.json

Model save

03358bc verified about 2 months ago

106 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 2361,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0021177467174925877,
	"grad_norm": 83.68173840087012,
	"learning_rate": 4.219409282700422e-07,
	"loss": 2.1661,
	"mean_token_accuracy": 0.5976044356822967,
	"step": 5
	},
	{
	"epoch": 0.004235493434985175,
	"grad_norm": 71.11062161153062,
	"learning_rate": 8.438818565400844e-07,
	"loss": 2.1622,
	"mean_token_accuracy": 0.5995522707700729,
	"step": 10
	},
	{
	"epoch": 0.0063532401524777635,
	"grad_norm": 34.572128830715705,
	"learning_rate": 1.2658227848101267e-06,
	"loss": 2.0632,
	"mean_token_accuracy": 0.5944636166095734,
	"step": 15
	},
	{
	"epoch": 0.00847098686997035,
	"grad_norm": 17.011229671312382,
	"learning_rate": 1.6877637130801689e-06,
	"loss": 1.7723,
	"mean_token_accuracy": 0.6232941240072251,
	"step": 20
	},
	{
	"epoch": 0.010588733587462939,
	"grad_norm": 9.74778063232665,
	"learning_rate": 2.1097046413502114e-06,
	"loss": 1.5731,
	"mean_token_accuracy": 0.63005710542202,
	"step": 25
	},
	{
	"epoch": 0.012706480304955527,
	"grad_norm": 7.914154804733739,
	"learning_rate": 2.5316455696202535e-06,
	"loss": 1.3488,
	"mean_token_accuracy": 0.6629315137863159,
	"step": 30
	},
	{
	"epoch": 0.014824227022448115,
	"grad_norm": 7.497303646153751,
	"learning_rate": 2.9535864978902956e-06,
	"loss": 1.1306,
	"mean_token_accuracy": 0.6912301659584046,
	"step": 35
	},
	{
	"epoch": 0.0169419737399407,
	"grad_norm": 3.0571735289067807,
	"learning_rate": 3.3755274261603377e-06,
	"loss": 0.9338,
	"mean_token_accuracy": 0.7339568644762039,
	"step": 40
	},
	{
	"epoch": 0.01905972045743329,
	"grad_norm": 3.7299236330227674,
	"learning_rate": 3.7974683544303802e-06,
	"loss": 0.8366,
	"mean_token_accuracy": 0.7472610950469971,
	"step": 45
	},
	{
	"epoch": 0.021177467174925878,
	"grad_norm": 1.94550213470537,
	"learning_rate": 4.219409282700423e-06,
	"loss": 0.813,
	"mean_token_accuracy": 0.7466759532690048,
	"step": 50
	},
	{
	"epoch": 0.023295213892418468,
	"grad_norm": 1.9631003842444021,
	"learning_rate": 4.641350210970465e-06,
	"loss": 0.7409,
	"mean_token_accuracy": 0.7591830432415009,
	"step": 55
	},
	{
	"epoch": 0.025412960609911054,
	"grad_norm": 2.126411421817186,
	"learning_rate": 5.063291139240507e-06,
	"loss": 0.6999,
	"mean_token_accuracy": 0.7653463244438171,
	"step": 60
	},
	{
	"epoch": 0.027530707327403644,
	"grad_norm": 2.431633067673993,
	"learning_rate": 5.485232067510548e-06,
	"loss": 0.6803,
	"mean_token_accuracy": 0.7705583959817887,
	"step": 65
	},
	{
	"epoch": 0.02964845404489623,
	"grad_norm": 2.1470463103072706,
	"learning_rate": 5.907172995780591e-06,
	"loss": 0.6716,
	"mean_token_accuracy": 0.7747641324996948,
	"step": 70
	},
	{
	"epoch": 0.03176620076238882,
	"grad_norm": 1.8134772555606546,
	"learning_rate": 6.329113924050634e-06,
	"loss": 0.6442,
	"mean_token_accuracy": 0.7782594561576843,
	"step": 75
	},
	{
	"epoch": 0.0338839474798814,
	"grad_norm": 1.828059395701887,
	"learning_rate": 6.751054852320675e-06,
	"loss": 0.654,
	"mean_token_accuracy": 0.7730626821517944,
	"step": 80
	},
	{
	"epoch": 0.03600169419737399,
	"grad_norm": 2.144653892020441,
	"learning_rate": 7.172995780590718e-06,
	"loss": 0.5866,
	"mean_token_accuracy": 0.7909977465867997,
	"step": 85
	},
	{
	"epoch": 0.03811944091486658,
	"grad_norm": 1.8471427217270429,
	"learning_rate": 7.5949367088607605e-06,
	"loss": 0.6343,
	"mean_token_accuracy": 0.7756380766630173,
	"step": 90
	},
	{
	"epoch": 0.04023718763235917,
	"grad_norm": 2.3290876362673916,
	"learning_rate": 8.016877637130802e-06,
	"loss": 0.6006,
	"mean_token_accuracy": 0.7818532437086105,
	"step": 95
	},
	{
	"epoch": 0.042354934349851756,
	"grad_norm": 2.038115409634727,
	"learning_rate": 8.438818565400846e-06,
	"loss": 0.6123,
	"mean_token_accuracy": 0.7774519264698029,
	"step": 100
	},
	{
	"epoch": 0.044472681067344345,
	"grad_norm": 1.8512017533544443,
	"learning_rate": 8.860759493670886e-06,
	"loss": 0.5782,
	"mean_token_accuracy": 0.787897452712059,
	"step": 105
	},
	{
	"epoch": 0.046590427784836935,
	"grad_norm": 1.7617335354592987,
	"learning_rate": 9.28270042194093e-06,
	"loss": 0.5646,
	"mean_token_accuracy": 0.7916492879390716,
	"step": 110
	},
	{
	"epoch": 0.04870817450232952,
	"grad_norm": 1.7594677346726018,
	"learning_rate": 9.704641350210972e-06,
	"loss": 0.5741,
	"mean_token_accuracy": 0.7923983573913574,
	"step": 115
	},
	{
	"epoch": 0.05082592121982211,
	"grad_norm": 2.074930275455498,
	"learning_rate": 1.0126582278481014e-05,
	"loss": 0.5872,
	"mean_token_accuracy": 0.7833609640598297,
	"step": 120
	},
	{
	"epoch": 0.0529436679373147,
	"grad_norm": 1.9672826514728756,
	"learning_rate": 1.0548523206751056e-05,
	"loss": 0.5525,
	"mean_token_accuracy": 0.7987953841686248,
	"step": 125
	},
	{
	"epoch": 0.05506141465480729,
	"grad_norm": 1.8715882057544604,
	"learning_rate": 1.0970464135021096e-05,
	"loss": 0.5825,
	"mean_token_accuracy": 0.788796243071556,
	"step": 130
	},
	{
	"epoch": 0.05717916137229987,
	"grad_norm": 2.055120934997949,
	"learning_rate": 1.139240506329114e-05,
	"loss": 0.5668,
	"mean_token_accuracy": 0.794330358505249,
	"step": 135
	},
	{
	"epoch": 0.05929690808979246,
	"grad_norm": 2.1751457050987213,
	"learning_rate": 1.1814345991561182e-05,
	"loss": 0.5504,
	"mean_token_accuracy": 0.7986414194107055,
	"step": 140
	},
	{
	"epoch": 0.06141465480728505,
	"grad_norm": 2.6530737679742735,
	"learning_rate": 1.2236286919831224e-05,
	"loss": 0.5825,
	"mean_token_accuracy": 0.787852120399475,
	"step": 145
	},
	{
	"epoch": 0.06353240152477764,
	"grad_norm": 1.7772714746257652,
	"learning_rate": 1.2658227848101268e-05,
	"loss": 0.5321,
	"mean_token_accuracy": 0.7960227221250534,
	"step": 150
	},
	{
	"epoch": 0.06565014824227022,
	"grad_norm": 2.007446829510951,
	"learning_rate": 1.3080168776371309e-05,
	"loss": 0.5652,
	"mean_token_accuracy": 0.7959463059902191,
	"step": 155
	},
	{
	"epoch": 0.0677678949597628,
	"grad_norm": 1.5240825493431345,
	"learning_rate": 1.350210970464135e-05,
	"loss": 0.5471,
	"mean_token_accuracy": 0.7939142495393753,
	"step": 160
	},
	{
	"epoch": 0.0698856416772554,
	"grad_norm": 2.1050082197685573,
	"learning_rate": 1.3924050632911395e-05,
	"loss": 0.5283,
	"mean_token_accuracy": 0.8012055605649948,
	"step": 165
	},
	{
	"epoch": 0.07200338839474799,
	"grad_norm": 1.8465069166680506,
	"learning_rate": 1.4345991561181437e-05,
	"loss": 0.5525,
	"mean_token_accuracy": 0.8044249504804611,
	"step": 170
	},
	{
	"epoch": 0.07412113511224058,
	"grad_norm": 1.6175686507972196,
	"learning_rate": 1.4767932489451477e-05,
	"loss": 0.5561,
	"mean_token_accuracy": 0.8003985285758972,
	"step": 175
	},
	{
	"epoch": 0.07623888182973317,
	"grad_norm": 1.987593615824268,
	"learning_rate": 1.5189873417721521e-05,
	"loss": 0.5637,
	"mean_token_accuracy": 0.7922172099351883,
	"step": 180
	},
	{
	"epoch": 0.07835662854722575,
	"grad_norm": 1.6436094243541917,
	"learning_rate": 1.5611814345991563e-05,
	"loss": 0.5662,
	"mean_token_accuracy": 0.7916066467761993,
	"step": 185
	},
	{
	"epoch": 0.08047437526471835,
	"grad_norm": 1.6236359809975813,
	"learning_rate": 1.6033755274261603e-05,
	"loss": 0.5432,
	"mean_token_accuracy": 0.8009026974439621,
	"step": 190
	},
	{
	"epoch": 0.08259212198221093,
	"grad_norm": 1.5274031981451834,
	"learning_rate": 1.6455696202531647e-05,
	"loss": 0.5484,
	"mean_token_accuracy": 0.7982567459344864,
	"step": 195
	},
	{
	"epoch": 0.08470986869970351,
	"grad_norm": 2.03018219248001,
	"learning_rate": 1.687763713080169e-05,
	"loss": 0.5407,
	"mean_token_accuracy": 0.8011936664581298,
	"step": 200
	},
	{
	"epoch": 0.08682761541719611,
	"grad_norm": 1.8014465384883518,
	"learning_rate": 1.729957805907173e-05,
	"loss": 0.5247,
	"mean_token_accuracy": 0.8084624141454697,
	"step": 205
	},
	{
	"epoch": 0.08894536213468869,
	"grad_norm": 1.7271306151793162,
	"learning_rate": 1.7721518987341772e-05,
	"loss": 0.5708,
	"mean_token_accuracy": 0.7947988003492356,
	"step": 210
	},
	{
	"epoch": 0.09106310885218127,
	"grad_norm": 1.9191596287336676,
	"learning_rate": 1.8143459915611816e-05,
	"loss": 0.5363,
	"mean_token_accuracy": 0.8047021597623825,
	"step": 215
	},
	{
	"epoch": 0.09318085556967387,
	"grad_norm": 1.7320574921982606,
	"learning_rate": 1.856540084388186e-05,
	"loss": 0.5658,
	"mean_token_accuracy": 0.7928981482982635,
	"step": 220
	},
	{
	"epoch": 0.09529860228716645,
	"grad_norm": 1.8013279459762328,
	"learning_rate": 1.89873417721519e-05,
	"loss": 0.5283,
	"mean_token_accuracy": 0.8064373075962067,
	"step": 225
	},
	{
	"epoch": 0.09741634900465904,
	"grad_norm": 1.6963994963949376,
	"learning_rate": 1.9409282700421944e-05,
	"loss": 0.541,
	"mean_token_accuracy": 0.798399469256401,
	"step": 230
	},
	{
	"epoch": 0.09953409572215163,
	"grad_norm": 1.8211709634602606,
	"learning_rate": 1.9831223628691984e-05,
	"loss": 0.5529,
	"mean_token_accuracy": 0.7973109990358352,
	"step": 235
	},
	{
	"epoch": 0.10165184243964422,
	"grad_norm": 1.800221940229098,
	"learning_rate": 1.9999901552991966e-05,
	"loss": 0.5297,
	"mean_token_accuracy": 0.8061769932508469,
	"step": 240
	},
	{
	"epoch": 0.10376958915713681,
	"grad_norm": 3.118430462846644,
	"learning_rate": 1.9999299939406875e-05,
	"loss": 0.567,
	"mean_token_accuracy": 0.7869770050048828,
	"step": 245
	},
	{
	"epoch": 0.1058873358746294,
	"grad_norm": 6.373265842936888,
	"learning_rate": 1.9998151437882874e-05,
	"loss": 0.5194,
	"mean_token_accuracy": 0.8079254150390625,
	"step": 250
	},
	{
	"epoch": 0.10800508259212198,
	"grad_norm": 1.7643542086224073,
	"learning_rate": 1.999645611123453e-05,
	"loss": 0.5476,
	"mean_token_accuracy": 0.8036489874124527,
	"step": 255
	},
	{
	"epoch": 0.11012282930961458,
	"grad_norm": 1.7570808876197173,
	"learning_rate": 1.999421405218369e-05,
	"loss": 0.5183,
	"mean_token_accuracy": 0.8039919883012772,
	"step": 260
	},
	{
	"epoch": 0.11224057602710716,
	"grad_norm": 1.4650600928842654,
	"learning_rate": 1.9991425383354462e-05,
	"loss": 0.5575,
	"mean_token_accuracy": 0.7989150047302246,
	"step": 265
	},
	{
	"epoch": 0.11435832274459974,
	"grad_norm": 1.5715508311626518,
	"learning_rate": 1.9988090257266442e-05,
	"loss": 0.5276,
	"mean_token_accuracy": 0.8024184852838516,
	"step": 270
	},
	{
	"epoch": 0.11647606946209234,
	"grad_norm": 1.5012575844730074,
	"learning_rate": 1.9984208856326433e-05,
	"loss": 0.511,
	"mean_token_accuracy": 0.810269170999527,
	"step": 275
	},
	{
	"epoch": 0.11859381617958492,
	"grad_norm": 2.1674114266205553,
	"learning_rate": 1.9979781392818424e-05,
	"loss": 0.5069,
	"mean_token_accuracy": 0.8049084335565567,
	"step": 280
	},
	{
	"epoch": 0.1207115628970775,
	"grad_norm": 1.597566985653751,
	"learning_rate": 1.9974808108892017e-05,
	"loss": 0.5097,
	"mean_token_accuracy": 0.810433080792427,
	"step": 285
	},
	{
	"epoch": 0.1228293096145701,
	"grad_norm": 2.721798223377223,
	"learning_rate": 1.9969289276549144e-05,
	"loss": 0.526,
	"mean_token_accuracy": 0.8058519691228867,
	"step": 290
	},
	{
	"epoch": 0.12494705633206268,
	"grad_norm": 1.526771766492988,
	"learning_rate": 1.9963225197629223e-05,
	"loss": 0.5172,
	"mean_token_accuracy": 0.8079220175743103,
	"step": 295
	},
	{
	"epoch": 0.12706480304955528,
	"grad_norm": 1.3424112355487237,
	"learning_rate": 1.9956616203792636e-05,
	"loss": 0.5135,
	"mean_token_accuracy": 0.806724363565445,
	"step": 300
	},
	{
	"epoch": 0.12918254976704785,
	"grad_norm": 1.5824773036593809,
	"learning_rate": 1.9949462656502588e-05,
	"loss": 0.5383,
	"mean_token_accuracy": 0.8001780599355698,
	"step": 305
	},
	{
	"epoch": 0.13130029648454045,
	"grad_norm": 1.5157834737082827,
	"learning_rate": 1.994176494700534e-05,
	"loss": 0.5466,
	"mean_token_accuracy": 0.7970251202583313,
	"step": 310
	},
	{
	"epoch": 0.13341804320203304,
	"grad_norm": 1.8369627378901519,
	"learning_rate": 1.993352349630882e-05,
	"loss": 0.5218,
	"mean_token_accuracy": 0.8072717070579529,
	"step": 315
	},
	{
	"epoch": 0.1355357899195256,
	"grad_norm": 1.5676620169867563,
	"learning_rate": 1.9924738755159573e-05,
	"loss": 0.5116,
	"mean_token_accuracy": 0.8025958120822907,
	"step": 320
	},
	{
	"epoch": 0.1376535366370182,
	"grad_norm": 1.5442271717658778,
	"learning_rate": 1.9915411204018137e-05,
	"loss": 0.495,
	"mean_token_accuracy": 0.8155842959880829,
	"step": 325
	},
	{
	"epoch": 0.1397712833545108,
	"grad_norm": 1.9104862823035134,
	"learning_rate": 1.9905541353032744e-05,
	"loss": 0.4707,
	"mean_token_accuracy": 0.8196403324604035,
	"step": 330
	},
	{
	"epoch": 0.14188903007200337,
	"grad_norm": 1.8843041038781683,
	"learning_rate": 1.9895129742011434e-05,
	"loss": 0.5359,
	"mean_token_accuracy": 0.8036209732294083,
	"step": 335
	},
	{
	"epoch": 0.14400677678949597,
	"grad_norm": 1.2996290243783448,
	"learning_rate": 1.9884176940392522e-05,
	"loss": 0.5355,
	"mean_token_accuracy": 0.7970023989677429,
	"step": 340
	},
	{
	"epoch": 0.14612452350698857,
	"grad_norm": 1.7409691547169837,
	"learning_rate": 1.9872683547213446e-05,
	"loss": 0.5222,
	"mean_token_accuracy": 0.8015773713588714,
	"step": 345
	},
	{
	"epoch": 0.14824227022448117,
	"grad_norm": 1.3236145792783143,
	"learning_rate": 1.9860650191078033e-05,
	"loss": 0.5165,
	"mean_token_accuracy": 0.8045854181051254,
	"step": 350
	},
	{
	"epoch": 0.15036001694197373,
	"grad_norm": 1.5674402609006048,
	"learning_rate": 1.9848077530122083e-05,
	"loss": 0.5141,
	"mean_token_accuracy": 0.8047444432973861,
	"step": 355
	},
	{
	"epoch": 0.15247776365946633,
	"grad_norm": 1.4948547674340282,
	"learning_rate": 1.98349662519774e-05,
	"loss": 0.493,
	"mean_token_accuracy": 0.8128765910863877,
	"step": 360
	},
	{
	"epoch": 0.15459551037695893,
	"grad_norm": 1.57285942684427,
	"learning_rate": 1.9821317073734173e-05,
	"loss": 0.5114,
	"mean_token_accuracy": 0.8024025142192841,
	"step": 365
	},
	{
	"epoch": 0.1567132570944515,
	"grad_norm": 1.3725667498479879,
	"learning_rate": 1.9807130741901756e-05,
	"loss": 0.5552,
	"mean_token_accuracy": 0.7975639194250107,
	"step": 370
	},
	{
	"epoch": 0.1588310038119441,
	"grad_norm": 1.6323326415858614,
	"learning_rate": 1.979240803236785e-05,
	"loss": 0.5101,
	"mean_token_accuracy": 0.8058428287506103,
	"step": 375
	},
	{
	"epoch": 0.1609487505294367,
	"grad_norm": 1.293657741608038,
	"learning_rate": 1.9777149750356044e-05,
	"loss": 0.4931,
	"mean_token_accuracy": 0.8156037211418152,
	"step": 380
	},
	{
	"epoch": 0.16306649724692926,
	"grad_norm": 1.584456213127757,
	"learning_rate": 1.9761356730381806e-05,
	"loss": 0.5066,
	"mean_token_accuracy": 0.8106210082769394,
	"step": 385
	},
	{
	"epoch": 0.16518424396442186,
	"grad_norm": 1.3531024564685128,
	"learning_rate": 1.9745029836206813e-05,
	"loss": 0.4862,
	"mean_token_accuracy": 0.8180296182632446,
	"step": 390
	},
	{
	"epoch": 0.16730199068191445,
	"grad_norm": 1.5992771952291873,
	"learning_rate": 1.9728169960791736e-05,
	"loss": 0.5158,
	"mean_token_accuracy": 0.8020082831382751,
	"step": 395
	},
	{
	"epoch": 0.16941973739940702,
	"grad_norm": 1.3875752393035827,
	"learning_rate": 1.9710778026247367e-05,
	"loss": 0.5268,
	"mean_token_accuracy": 0.8021057844161987,
	"step": 400
	},
	{
	"epoch": 0.17153748411689962,
	"grad_norm": 1.4892475787998831,
	"learning_rate": 1.9692854983784235e-05,
	"loss": 0.5031,
	"mean_token_accuracy": 0.8153967589139939,
	"step": 405
	},
	{
	"epoch": 0.17365523083439222,
	"grad_norm": 1.3435721015179996,
	"learning_rate": 1.9674401813660532e-05,
	"loss": 0.5151,
	"mean_token_accuracy": 0.8066144526004791,
	"step": 410
	},
	{
	"epoch": 0.17577297755188478,
	"grad_norm": 1.4757784795296558,
	"learning_rate": 1.9655419525128528e-05,
	"loss": 0.5197,
	"mean_token_accuracy": 0.8056324630975723,
	"step": 415
	},
	{
	"epoch": 0.17789072426937738,
	"grad_norm": 1.8586890907074842,
	"learning_rate": 1.9635909156379373e-05,
	"loss": 0.4817,
	"mean_token_accuracy": 0.8227346748113632,
	"step": 420
	},
	{
	"epoch": 0.18000847098686998,
	"grad_norm": 1.3338010634125226,
	"learning_rate": 1.9615871774486293e-05,
	"loss": 0.476,
	"mean_token_accuracy": 0.8171389639377594,
	"step": 425
	},
	{
	"epoch": 0.18212621770436255,
	"grad_norm": 1.467996639944381,
	"learning_rate": 1.959530847534627e-05,
	"loss": 0.4857,
	"mean_token_accuracy": 0.8151497721672059,
	"step": 430
	},
	{
	"epoch": 0.18424396442185514,
	"grad_norm": 1.482953746737999,
	"learning_rate": 1.9574220383620054e-05,
	"loss": 0.4922,
	"mean_token_accuracy": 0.8100210309028626,
	"step": 435
	},
	{
	"epoch": 0.18636171113934774,
	"grad_norm": 5.208401516653082,
	"learning_rate": 1.95526086526707e-05,
	"loss": 0.5263,
	"mean_token_accuracy": 0.8080328673124313,
	"step": 440
	},
	{
	"epoch": 0.1884794578568403,
	"grad_norm": 1.5834873689672437,
	"learning_rate": 1.9530474464500445e-05,
	"loss": 0.514,
	"mean_token_accuracy": 0.8094299465417862,
	"step": 445
	},
	{
	"epoch": 0.1905972045743329,
	"grad_norm": 1.3405671636751928,
	"learning_rate": 1.9507819029686094e-05,
	"loss": 0.5119,
	"mean_token_accuracy": 0.8087350040674209,
	"step": 450
	},
	{
	"epoch": 0.1927149512918255,
	"grad_norm": 1.3993020572279387,
	"learning_rate": 1.94846435873128e-05,
	"loss": 0.5153,
	"mean_token_accuracy": 0.8082747459411621,
	"step": 455
	},
	{
	"epoch": 0.19483269800931807,
	"grad_norm": 1.3011551512989479,
	"learning_rate": 1.9460949404906285e-05,
	"loss": 0.5028,
	"mean_token_accuracy": 0.8120961904525756,
	"step": 460
	},
	{
	"epoch": 0.19695044472681067,
	"grad_norm": 1.6479875272294309,
	"learning_rate": 1.9436737778363526e-05,
	"loss": 0.4787,
	"mean_token_accuracy": 0.8184203952550888,
	"step": 465
	},
	{
	"epoch": 0.19906819144430327,
	"grad_norm": 1.2952323822215526,
	"learning_rate": 1.9412010031881884e-05,
	"loss": 0.4811,
	"mean_token_accuracy": 0.8196297824382782,
	"step": 470
	},
	{
	"epoch": 0.20118593816179586,
	"grad_norm": 1.2434980503550659,
	"learning_rate": 1.9386767517886666e-05,
	"loss": 0.4992,
	"mean_token_accuracy": 0.8126247316598892,
	"step": 475
	},
	{
	"epoch": 0.20330368487928843,
	"grad_norm": 1.2749730489780189,
	"learning_rate": 1.9361011616957165e-05,
	"loss": 0.5013,
	"mean_token_accuracy": 0.8094296991825104,
	"step": 480
	},
	{
	"epoch": 0.20542143159678103,
	"grad_norm": 1.2801081991950354,
	"learning_rate": 1.933474373775115e-05,
	"loss": 0.4914,
	"mean_token_accuracy": 0.8103417336940766,
	"step": 485
	},
	{
	"epoch": 0.20753917831427363,
	"grad_norm": 1.3841139586738282,
	"learning_rate": 1.930796531692783e-05,
	"loss": 0.503,
	"mean_token_accuracy": 0.8150111019611359,
	"step": 490
	},
	{
	"epoch": 0.2096569250317662,
	"grad_norm": 1.2895819374549709,
	"learning_rate": 1.9280677819069273e-05,
	"loss": 0.4938,
	"mean_token_accuracy": 0.8058139503002166,
	"step": 495
	},
	{
	"epoch": 0.2117746717492588,
	"grad_norm": 1.2705506609214867,
	"learning_rate": 1.9252882736600302e-05,
	"loss": 0.5041,
	"mean_token_accuracy": 0.8078715801239014,
	"step": 500
	},
	{
	"epoch": 0.2138924184667514,
	"grad_norm": 1.3700128773821674,
	"learning_rate": 1.922458158970688e-05,
	"loss": 0.5122,
	"mean_token_accuracy": 0.805089196562767,
	"step": 505
	},
	{
	"epoch": 0.21601016518424396,
	"grad_norm": 1.4292612681859336,
	"learning_rate": 1.9195775926252952e-05,
	"loss": 0.4799,
	"mean_token_accuracy": 0.8134547978639602,
	"step": 510
	},
	{
	"epoch": 0.21812791190173655,
	"grad_norm": 2.589810653355124,
	"learning_rate": 1.91664673216958e-05,
	"loss": 0.4686,
	"mean_token_accuracy": 0.8232874065637589,
	"step": 515
	},
	{
	"epoch": 0.22024565861922915,
	"grad_norm": 1.4425686621750156,
	"learning_rate": 1.913665737899988e-05,
	"loss": 0.4885,
	"mean_token_accuracy": 0.815599313378334,
	"step": 520
	},
	{
	"epoch": 0.22236340533672172,
	"grad_norm": 1.4823410740282665,
	"learning_rate": 1.9106347728549134e-05,
	"loss": 0.4832,
	"mean_token_accuracy": 0.8109551817178726,
	"step": 525
	},
	{
	"epoch": 0.22448115205421432,
	"grad_norm": 1.1459009249468546,
	"learning_rate": 1.9075540028057844e-05,
	"loss": 0.5156,
	"mean_token_accuracy": 0.8015700995922088,
	"step": 530
	},
	{
	"epoch": 0.2265988987717069,
	"grad_norm": 1.273350806844229,
	"learning_rate": 1.9044235962479945e-05,
	"loss": 0.4901,
	"mean_token_accuracy": 0.8163118690252305,
	"step": 535
	},
	{
	"epoch": 0.22871664548919948,
	"grad_norm": 1.2736969034780394,
	"learning_rate": 1.9012437243916895e-05,
	"loss": 0.475,
	"mean_token_accuracy": 0.8155727684497833,
	"step": 540
	},
	{
	"epoch": 0.23083439220669208,
	"grad_norm": 1.1644155017049156,
	"learning_rate": 1.8980145611523996e-05,
	"loss": 0.5041,
	"mean_token_accuracy": 0.8130400031805038,
	"step": 545
	},
	{
	"epoch": 0.23295213892418468,
	"grad_norm": 1.3543018612133357,
	"learning_rate": 1.8947362831415327e-05,
	"loss": 0.4668,
	"mean_token_accuracy": 0.8260669410228729,
	"step": 550
	},
	{
	"epoch": 0.23506988564167725,
	"grad_norm": 1.2391111005758269,
	"learning_rate": 1.8914090696567104e-05,
	"loss": 0.4809,
	"mean_token_accuracy": 0.8127309769392014,
	"step": 555
	},
	{
	"epoch": 0.23718763235916984,
	"grad_norm": 2.2015980143710583,
	"learning_rate": 1.888033102671965e-05,
	"loss": 0.4922,
	"mean_token_accuracy": 0.8155588954687119,
	"step": 560
	},
	{
	"epoch": 0.23930537907666244,
	"grad_norm": 1.2198454979455773,
	"learning_rate": 1.884608566827785e-05,
	"loss": 0.5168,
	"mean_token_accuracy": 0.8062847316265106,
	"step": 565
	},
	{
	"epoch": 0.241423125794155,
	"grad_norm": 1.184969374617232,
	"learning_rate": 1.8811356494210166e-05,
	"loss": 0.4805,
	"mean_token_accuracy": 0.8132707148790359,
	"step": 570
	},
	{
	"epoch": 0.2435408725116476,
	"grad_norm": 1.187126766493632,
	"learning_rate": 1.8776145403946226e-05,
	"loss": 0.4955,
	"mean_token_accuracy": 0.8102918237447738,
	"step": 575
	},
	{
	"epoch": 0.2456586192291402,
	"grad_norm": 1.3821096957818944,
	"learning_rate": 1.874045432327289e-05,
	"loss": 0.4985,
	"mean_token_accuracy": 0.8098550081253052,
	"step": 580
	},
	{
	"epoch": 0.24777636594663277,
	"grad_norm": 1.214604218577671,
	"learning_rate": 1.8704285204228973e-05,
	"loss": 0.4627,
	"mean_token_accuracy": 0.8165160745382309,
	"step": 585
	},
	{
	"epoch": 0.24989411266412537,
	"grad_norm": 1.4526314855211653,
	"learning_rate": 1.866764002499846e-05,
	"loss": 0.4909,
	"mean_token_accuracy": 0.8122711658477784,
	"step": 590
	},
	{
	"epoch": 0.25201185938161796,
	"grad_norm": 1.1543877428891598,
	"learning_rate": 1.8630520789802308e-05,
	"loss": 0.4782,
	"mean_token_accuracy": 0.8182896554470063,
	"step": 595
	},
	{
	"epoch": 0.25412960609911056,
	"grad_norm": 1.3086338857944744,
	"learning_rate": 1.8592929528788844e-05,
	"loss": 0.4753,
	"mean_token_accuracy": 0.8180733859539032,
	"step": 600
	},
	{
	"epoch": 0.25624735281660316,
	"grad_norm": 1.3557276365311686,
	"learning_rate": 1.8554868297922728e-05,
	"loss": 0.4708,
	"mean_token_accuracy": 0.8193376958370209,
	"step": 605
	},
	{
	"epoch": 0.2583650995340957,
	"grad_norm": 1.2996719117152657,
	"learning_rate": 1.8516339178872492e-05,
	"loss": 0.4518,
	"mean_token_accuracy": 0.8204487860202789,
	"step": 610
	},
	{
	"epoch": 0.2604828462515883,
	"grad_norm": 1.3696724777806233,
	"learning_rate": 1.8477344278896708e-05,
	"loss": 0.5072,
	"mean_token_accuracy": 0.8076569020748139,
	"step": 615
	},
	{
	"epoch": 0.2626005929690809,
	"grad_norm": 1.2308629288247015,
	"learning_rate": 1.8437885730728738e-05,
	"loss": 0.5113,
	"mean_token_accuracy": 0.8088377475738525,
	"step": 620
	},
	{
	"epoch": 0.2647183396865735,
	"grad_norm": 1.2397238918015017,
	"learning_rate": 1.839796569246006e-05,
	"loss": 0.494,
	"mean_token_accuracy": 0.8118572622537613,
	"step": 625
	},
	{
	"epoch": 0.2668360864040661,
	"grad_norm": 1.3479748389387212,
	"learning_rate": 1.8357586347422266e-05,
	"loss": 0.5081,
	"mean_token_accuracy": 0.8135558038949966,
	"step": 630
	},
	{
	"epoch": 0.2689538331215587,
	"grad_norm": 1.1063564395200467,
	"learning_rate": 1.8316749904067637e-05,
	"loss": 0.4653,
	"mean_token_accuracy": 0.8218313783407212,
	"step": 635
	},
	{
	"epoch": 0.2710715798390512,
	"grad_norm": 1.1492824512346658,
	"learning_rate": 1.8275458595848376e-05,
	"loss": 0.4817,
	"mean_token_accuracy": 0.8135390222072602,
	"step": 640
	},
	{
	"epoch": 0.2731893265565438,
	"grad_norm": 1.4159749106872088,
	"learning_rate": 1.8233714681094405e-05,
	"loss": 0.4616,
	"mean_token_accuracy": 0.8250806093215942,
	"step": 645
	},
	{
	"epoch": 0.2753070732740364,
	"grad_norm": 1.1611107224498594,
	"learning_rate": 1.819152044288992e-05,
	"loss": 0.488,
	"mean_token_accuracy": 0.8166846603155136,
	"step": 650
	},
	{
	"epoch": 0.277424819991529,
	"grad_norm": 1.3205339840836507,
	"learning_rate": 1.814887818894846e-05,
	"loss": 0.5036,
	"mean_token_accuracy": 0.810426139831543,
	"step": 655
	},
	{
	"epoch": 0.2795425667090216,
	"grad_norm": 1.2642547117014469,
	"learning_rate": 1.810579025148674e-05,
	"loss": 0.5063,
	"mean_token_accuracy": 0.8112012058496475,
	"step": 660
	},
	{
	"epoch": 0.2816603134265142,
	"grad_norm": 5.33401159048522,
	"learning_rate": 1.8062258987097062e-05,
	"loss": 0.4478,
	"mean_token_accuracy": 0.8289118260145187,
	"step": 665
	},
	{
	"epoch": 0.28377806014400675,
	"grad_norm": 1.3752087188227111,
	"learning_rate": 1.8018286776618446e-05,
	"loss": 0.4963,
	"mean_token_accuracy": 0.8137694984674454,
	"step": 670
	},
	{
	"epoch": 0.28589580686149935,
	"grad_norm": 1.176266427707403,
	"learning_rate": 1.7973876025006407e-05,
	"loss": 0.4976,
	"mean_token_accuracy": 0.8188654541969299,
	"step": 675
	},
	{
	"epoch": 0.28801355357899194,
	"grad_norm": 1.331341038204072,
	"learning_rate": 1.792902916120143e-05,
	"loss": 0.4939,
	"mean_token_accuracy": 0.8163222283124923,
	"step": 680
	},
	{
	"epoch": 0.29013130029648454,
	"grad_norm": 1.1914829607255677,
	"learning_rate": 1.7883748637996113e-05,
	"loss": 0.4881,
	"mean_token_accuracy": 0.8130565702915191,
	"step": 685
	},
	{
	"epoch": 0.29224904701397714,
	"grad_norm": 1.2277506964948814,
	"learning_rate": 1.7838036931901033e-05,
	"loss": 0.4559,
	"mean_token_accuracy": 0.824514701962471,
	"step": 690
	},
	{
	"epoch": 0.29436679373146973,
	"grad_norm": 1.0800320597549389,
	"learning_rate": 1.7791896543009282e-05,
	"loss": 0.4891,
	"mean_token_accuracy": 0.8174144089221954,
	"step": 695
	},
	{
	"epoch": 0.29648454044896233,
	"grad_norm": 1.5694294317697621,
	"learning_rate": 1.7745329994859746e-05,
	"loss": 0.4914,
	"mean_token_accuracy": 0.8185641199350357,
	"step": 700
	},
	{
	"epoch": 0.29860228716645487,
	"grad_norm": 1.1923041867729132,
	"learning_rate": 1.7698339834299064e-05,
	"loss": 0.5008,
	"mean_token_accuracy": 0.8142161637544632,
	"step": 705
	},
	{
	"epoch": 0.30072003388394747,
	"grad_norm": 1.3729946102267174,
	"learning_rate": 1.7650928631342364e-05,
	"loss": 0.4845,
	"mean_token_accuracy": 0.8133604645729064,
	"step": 710
	},
	{
	"epoch": 0.30283778060144007,
	"grad_norm": 1.174456646604131,
	"learning_rate": 1.7603098979032683e-05,
	"loss": 0.4777,
	"mean_token_accuracy": 0.813685166835785,
	"step": 715
	},
	{
	"epoch": 0.30495552731893266,
	"grad_norm": 1.158532302748484,
	"learning_rate": 1.7554853493299142e-05,
	"loss": 0.504,
	"mean_token_accuracy": 0.8088937163352966,
	"step": 720
	},
	{
	"epoch": 0.30707327403642526,
	"grad_norm": 1.2620596837516858,
	"learning_rate": 1.7506194812813896e-05,
	"loss": 0.4817,
	"mean_token_accuracy": 0.8206409096717835,
	"step": 725
	},
	{
	"epoch": 0.30919102075391786,
	"grad_norm": 1.148012521360775,
	"learning_rate": 1.74571255988478e-05,
	"loss": 0.4819,
	"mean_token_accuracy": 0.812398812174797,
	"step": 730
	},
	{
	"epoch": 0.3113087674714104,
	"grad_norm": 1.2373133691587057,
	"learning_rate": 1.740764853512485e-05,
	"loss": 0.49,
	"mean_token_accuracy": 0.8143349289894104,
	"step": 735
	},
	{
	"epoch": 0.313426514188903,
	"grad_norm": 2.100740115519466,
	"learning_rate": 1.7357766327675433e-05,
	"loss": 0.4651,
	"mean_token_accuracy": 0.8216336488723754,
	"step": 740
	},
	{
	"epoch": 0.3155442609063956,
	"grad_norm": 1.4189894877798284,
	"learning_rate": 1.73074817046883e-05,
	"loss": 0.4801,
	"mean_token_accuracy": 0.8188165038824081,
	"step": 745
	},
	{
	"epoch": 0.3176620076238882,
	"grad_norm": 1.2994480429040771,
	"learning_rate": 1.725679741636136e-05,
	"loss": 0.4614,
	"mean_token_accuracy": 0.8237657248973846,
	"step": 750
	},
	{
	"epoch": 0.3197797543413808,
	"grad_norm": 1.2308603791930401,
	"learning_rate": 1.720571623475128e-05,
	"loss": 0.492,
	"mean_token_accuracy": 0.8165101200342179,
	"step": 755
	},
	{
	"epoch": 0.3218975010588734,
	"grad_norm": 1.3843077010151197,
	"learning_rate": 1.7154240953621844e-05,
	"loss": 0.4564,
	"mean_token_accuracy": 0.825025874376297,
	"step": 760
	},
	{
	"epoch": 0.3240152477763659,
	"grad_norm": 1.1848129565884666,
	"learning_rate": 1.7102374388291182e-05,
	"loss": 0.4575,
	"mean_token_accuracy": 0.8252220988273621,
	"step": 765
	},
	{
	"epoch": 0.3261329944938585,
	"grad_norm": 1.3217187216198285,
	"learning_rate": 1.705011937547779e-05,
	"loss": 0.4629,
	"mean_token_accuracy": 0.8198304086923599,
	"step": 770
	},
	{
	"epoch": 0.3282507412113511,
	"grad_norm": 1.3851637896221318,
	"learning_rate": 1.6997478773145363e-05,
	"loss": 0.4337,
	"mean_token_accuracy": 0.8338131695985794,
	"step": 775
	},
	{
	"epoch": 0.3303684879288437,
	"grad_norm": 1.423775789920787,
	"learning_rate": 1.6944455460346503e-05,
	"loss": 0.4807,
	"mean_token_accuracy": 0.8188902169466019,
	"step": 780
	},
	{
	"epoch": 0.3324862346463363,
	"grad_norm": 1.3680154210297841,
	"learning_rate": 1.6891052337065256e-05,
	"loss": 0.4841,
	"mean_token_accuracy": 0.8188378721475601,
	"step": 785
	},
	{
	"epoch": 0.3346039813638289,
	"grad_norm": 1.1670007538420892,
	"learning_rate": 1.6837272324058487e-05,
	"loss": 0.4209,
	"mean_token_accuracy": 0.8359328061342239,
	"step": 790
	},
	{
	"epoch": 0.33672172808132145,
	"grad_norm": 1.2238185684348435,
	"learning_rate": 1.6783118362696162e-05,
	"loss": 0.4687,
	"mean_token_accuracy": 0.8194981902837754,
	"step": 795
	},
	{
	"epoch": 0.33883947479881404,
	"grad_norm": 1.3104844364549155,
	"learning_rate": 1.672859341480046e-05,
	"loss": 0.4605,
	"mean_token_accuracy": 0.8169092148542404,
	"step": 800
	},
	{
	"epoch": 0.34095722151630664,
	"grad_norm": 1.1074420443801423,
	"learning_rate": 1.6673700462483776e-05,
	"loss": 0.4424,
	"mean_token_accuracy": 0.8315922617912292,
	"step": 805
	},
	{
	"epoch": 0.34307496823379924,
	"grad_norm": 1.2002465546594834,
	"learning_rate": 1.661844250798565e-05,
	"loss": 0.4773,
	"mean_token_accuracy": 0.8234172344207764,
	"step": 810
	},
	{
	"epoch": 0.34519271495129183,
	"grad_norm": 1.3643314568341807,
	"learning_rate": 1.6562822573508533e-05,
	"loss": 0.4803,
	"mean_token_accuracy": 0.8155502796173095,
	"step": 815
	},
	{
	"epoch": 0.34731046166878443,
	"grad_norm": 1.1653511889703811,
	"learning_rate": 1.650684370105252e-05,
	"loss": 0.4907,
	"mean_token_accuracy": 0.8095988690853119,
	"step": 820
	},
	{
	"epoch": 0.34942820838627703,
	"grad_norm": 1.2052540958169133,
	"learning_rate": 1.6450508952248957e-05,
	"loss": 0.4664,
	"mean_token_accuracy": 0.8265933513641357,
	"step": 825
	},
	{
	"epoch": 0.35154595510376957,
	"grad_norm": 1.5477552328113091,
	"learning_rate": 1.6393821408193007e-05,
	"loss": 0.4783,
	"mean_token_accuracy": 0.8169477820396424,
	"step": 830
	},
	{
	"epoch": 0.35366370182126217,
	"grad_norm": 1.8070494772139423,
	"learning_rate": 1.6336784169275132e-05,
	"loss": 0.454,
	"mean_token_accuracy": 0.8248355984687805,
	"step": 835
	},
	{
	"epoch": 0.35578144853875476,
	"grad_norm": 1.2257376390653825,
	"learning_rate": 1.627940035501152e-05,
	"loss": 0.4506,
	"mean_token_accuracy": 0.8257219165563583,
	"step": 840
	},
	{
	"epoch": 0.35789919525624736,
	"grad_norm": 1.3198794046839721,
	"learning_rate": 1.6221673103873474e-05,
	"loss": 0.4427,
	"mean_token_accuracy": 0.8296634495258332,
	"step": 845
	},
	{
	"epoch": 0.36001694197373996,
	"grad_norm": 2.109231295857473,
	"learning_rate": 1.616360557311575e-05,
	"loss": 0.489,
	"mean_token_accuracy": 0.8102859228849411,
	"step": 850
	},
	{
	"epoch": 0.36213468869123255,
	"grad_norm": 1.1872292152679083,
	"learning_rate": 1.6105200938603917e-05,
	"loss": 0.4681,
	"mean_token_accuracy": 0.8261395335197449,
	"step": 855
	},
	{
	"epoch": 0.3642524354087251,
	"grad_norm": 1.214005452933459,
	"learning_rate": 1.60464623946406e-05,
	"loss": 0.4852,
	"mean_token_accuracy": 0.8179385870695114,
	"step": 860
	},
	{
	"epoch": 0.3663701821262177,
	"grad_norm": 1.0907256335398452,
	"learning_rate": 1.5987393153790832e-05,
	"loss": 0.4623,
	"mean_token_accuracy": 0.8248693764209747,
	"step": 865
	},
	{
	"epoch": 0.3684879288437103,
	"grad_norm": 1.061691508146564,
	"learning_rate": 1.5927996446706308e-05,
	"loss": 0.4803,
	"mean_token_accuracy": 0.8169174045324326,
	"step": 870
	},
	{
	"epoch": 0.3706056755612029,
	"grad_norm": 1.1759352091149649,
	"learning_rate": 1.5868275521948726e-05,
	"loss": 0.4563,
	"mean_token_accuracy": 0.8279780805110931,
	"step": 875
	},
	{
	"epoch": 0.3727234222786955,
	"grad_norm": 1.2135030886876705,
	"learning_rate": 1.5808233645812087e-05,
	"loss": 0.4418,
	"mean_token_accuracy": 0.8301020473241806,
	"step": 880
	},
	{
	"epoch": 0.3748411689961881,
	"grad_norm": 1.1266881444254488,
	"learning_rate": 1.5747874102144073e-05,
	"loss": 0.4626,
	"mean_token_accuracy": 0.8214969336986542,
	"step": 885
	},
	{
	"epoch": 0.3769589157136806,
	"grad_norm": 1.0911244736489776,
	"learning_rate": 1.5687200192166424e-05,
	"loss": 0.4635,
	"mean_token_accuracy": 0.8221491903066636,
	"step": 890
	},
	{
	"epoch": 0.3790766624311732,
	"grad_norm": 1.0852849507203284,
	"learning_rate": 1.5626215234294416e-05,
	"loss": 0.451,
	"mean_token_accuracy": 0.8251518607139587,
	"step": 895
	},
	{
	"epoch": 0.3811944091486658,
	"grad_norm": 1.1215853338868707,
	"learning_rate": 1.5564922563955337e-05,
	"loss": 0.4608,
	"mean_token_accuracy": 0.8237892210483551,
	"step": 900
	},
	{
	"epoch": 0.3833121558661584,
	"grad_norm": 0.9235255903522734,
	"learning_rate": 1.5503325533406076e-05,
	"loss": 0.4676,
	"mean_token_accuracy": 0.8222286731004715,
	"step": 905
	},
	{
	"epoch": 0.385429902583651,
	"grad_norm": 1.0494173037764836,
	"learning_rate": 1.5441427511549795e-05,
	"loss": 0.4652,
	"mean_token_accuracy": 0.8235789179801941,
	"step": 910
	},
	{
	"epoch": 0.3875476493011436,
	"grad_norm": 1.2934333868332708,
	"learning_rate": 1.537923188375164e-05,
	"loss": 0.459,
	"mean_token_accuracy": 0.8253506690263748,
	"step": 915
	},
	{
	"epoch": 0.38966539601863615,
	"grad_norm": 1.045643086378396,
	"learning_rate": 1.5316742051653624e-05,
	"loss": 0.4487,
	"mean_token_accuracy": 0.8300421804189682,
	"step": 920
	},
	{
	"epoch": 0.39178314273612874,
	"grad_norm": 1.0549731687620314,
	"learning_rate": 1.5253961432988548e-05,
	"loss": 0.4756,
	"mean_token_accuracy": 0.8141780078411103,
	"step": 925
	},
	{
	"epoch": 0.39390088945362134,
	"grad_norm": 1.1263426428393677,
	"learning_rate": 1.5190893461393108e-05,
	"loss": 0.4698,
	"mean_token_accuracy": 0.8173887878656387,
	"step": 930
	},
	{
	"epoch": 0.39601863617111394,
	"grad_norm": 1.1982411204873675,
	"learning_rate": 1.5127541586220077e-05,
	"loss": 0.4595,
	"mean_token_accuracy": 0.8246693462133408,
	"step": 935
	},
	{
	"epoch": 0.39813638288860653,
	"grad_norm": 1.331125977750805,
	"learning_rate": 1.5063909272349664e-05,
	"loss": 0.466,
	"mean_token_accuracy": 0.8266402333974838,
	"step": 940
	},
	{
	"epoch": 0.40025412960609913,
	"grad_norm": 1.165754254305497,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.435,
	"mean_token_accuracy": 0.8271202713251113,
	"step": 945
	},
	{
	"epoch": 0.4023718763235917,
	"grad_norm": 1.1585938088360928,
	"learning_rate": 1.4935817264536809e-05,
	"loss": 0.4386,
	"mean_token_accuracy": 0.8255492657423019,
	"step": 950
	},
	{
	"epoch": 0.40448962304108427,
	"grad_norm": 1.1542702135186313,
	"learning_rate": 1.4871364576282223e-05,
	"loss": 0.4769,
	"mean_token_accuracy": 0.8163278847932816,
	"step": 955
	},
	{
	"epoch": 0.40660736975857686,
	"grad_norm": 1.1855267108232739,
	"learning_rate": 1.4806645460322804e-05,
	"loss": 0.4938,
	"mean_token_accuracy": 0.8140994518995285,
	"step": 960
	},
	{
	"epoch": 0.40872511647606946,
	"grad_norm": 1.0583179034757253,
	"learning_rate": 1.4741663456316742e-05,
	"loss": 0.4694,
	"mean_token_accuracy": 0.8194496780633926,
	"step": 965
	},
	{
	"epoch": 0.41084286319356206,
	"grad_norm": 1.2166297794886325,
	"learning_rate": 1.4676422118300266e-05,
	"loss": 0.4583,
	"mean_token_accuracy": 0.8240072697401046,
	"step": 970
	},
	{
	"epoch": 0.41296060991105465,
	"grad_norm": 1.2077033819076497,
	"learning_rate": 1.461092501449326e-05,
	"loss": 0.4683,
	"mean_token_accuracy": 0.8127462983131408,
	"step": 975
	},
	{
	"epoch": 0.41507835662854725,
	"grad_norm": 1.2024839451726628,
	"learning_rate": 1.4545175727104113e-05,
	"loss": 0.4746,
	"mean_token_accuracy": 0.817327806353569,
	"step": 980
	},
	{
	"epoch": 0.4171961033460398,
	"grad_norm": 43.895890122529586,
	"learning_rate": 1.4479177852133787e-05,
	"loss": 0.4339,
	"mean_token_accuracy": 0.83043053150177,
	"step": 985
	},
	{
	"epoch": 0.4193138500635324,
	"grad_norm": 1.3761452239892333,
	"learning_rate": 1.4412934999179169e-05,
	"loss": 0.4682,
	"mean_token_accuracy": 0.82216075360775,
	"step": 990
	},
	{
	"epoch": 0.421431596781025,
	"grad_norm": 9.553572882081992,
	"learning_rate": 1.4346450791235611e-05,
	"loss": 0.425,
	"mean_token_accuracy": 0.8346862554550171,
	"step": 995
	},
	{
	"epoch": 0.4235493434985176,
	"grad_norm": 1.19535922636142,
	"learning_rate": 1.427972886449882e-05,
	"loss": 0.4916,
	"mean_token_accuracy": 0.8201052099466324,
	"step": 1000
	},
	{
	"epoch": 0.4256670902160102,
	"grad_norm": 1.487407000401354,
	"learning_rate": 1.4212772868165957e-05,
	"loss": 0.4759,
	"mean_token_accuracy": 0.8201690822839737,
	"step": 1005
	},
	{
	"epoch": 0.4277848369335028,
	"grad_norm": 1.2209557581398112,
	"learning_rate": 1.4145586464236074e-05,
	"loss": 0.4776,
	"mean_token_accuracy": 0.8144995361566544,
	"step": 1010
	},
	{
	"epoch": 0.4299025836509953,
	"grad_norm": 1.4175123984588354,
	"learning_rate": 1.4078173327309807e-05,
	"loss": 0.4697,
	"mean_token_accuracy": 0.820775744318962,
	"step": 1015
	},
	{
	"epoch": 0.4320203303684879,
	"grad_norm": 1.2129818965934513,
	"learning_rate": 1.4010537144388416e-05,
	"loss": 0.463,
	"mean_token_accuracy": 0.8259893089532853,
	"step": 1020
	},
	{
	"epoch": 0.4341380770859805,
	"grad_norm": 1.12010970838833,
	"learning_rate": 1.3942681614672144e-05,
	"loss": 0.4629,
	"mean_token_accuracy": 0.8218669801950454,
	"step": 1025
	},
	{
	"epoch": 0.4362558238034731,
	"grad_norm": 1.1464961804103622,
	"learning_rate": 1.3874610449357873e-05,
	"loss": 0.4238,
	"mean_token_accuracy": 0.8335713416337966,
	"step": 1030
	},
	{
	"epoch": 0.4383735705209657,
	"grad_norm": 1.1351310993680606,
	"learning_rate": 1.3806327371436159e-05,
	"loss": 0.4394,
	"mean_token_accuracy": 0.8307629436254501,
	"step": 1035
	},
	{
	"epoch": 0.4404913172384583,
	"grad_norm": 1.1188266853744508,
	"learning_rate": 1.3737836115487624e-05,
	"loss": 0.4663,
	"mean_token_accuracy": 0.8193978488445282,
	"step": 1040
	},
	{
	"epoch": 0.44260906395595084,
	"grad_norm": 1.1620199858915772,
	"learning_rate": 1.3669140427478693e-05,
	"loss": 0.4705,
	"mean_token_accuracy": 0.8229668527841568,
	"step": 1045
	},
	{
	"epoch": 0.44472681067344344,
	"grad_norm": 1.110101616240863,
	"learning_rate": 1.3600244064556702e-05,
	"loss": 0.4747,
	"mean_token_accuracy": 0.8179006308317185,
	"step": 1050
	},
	{
	"epoch": 0.44684455739093604,
	"grad_norm": 1.2783615446297392,
	"learning_rate": 1.353115079484444e-05,
	"loss": 0.4458,
	"mean_token_accuracy": 0.8308207571506501,
	"step": 1055
	},
	{
	"epoch": 0.44896230410842863,
	"grad_norm": 1.1007302332610067,
	"learning_rate": 1.3461864397234041e-05,
	"loss": 0.4598,
	"mean_token_accuracy": 0.8242943733930588,
	"step": 1060
	},
	{
	"epoch": 0.45108005082592123,
	"grad_norm": 1.2199483732995027,
	"learning_rate": 1.3392388661180303e-05,
	"loss": 0.445,
	"mean_token_accuracy": 0.824502220749855,
	"step": 1065
	},
	{
	"epoch": 0.4531977975434138,
	"grad_norm": 1.0010509955815885,
	"learning_rate": 1.332272738649345e-05,
	"loss": 0.4583,
	"mean_token_accuracy": 0.8303744524717331,
	"step": 1070
	},
	{
	"epoch": 0.45531554426090637,
	"grad_norm": 1.918284418636839,
	"learning_rate": 1.325288438313129e-05,
	"loss": 0.4269,
	"mean_token_accuracy": 0.8296439230442048,
	"step": 1075
	},
	{
	"epoch": 0.45743329097839897,
	"grad_norm": 1.1887902164021535,
	"learning_rate": 1.318286347099086e-05,
	"loss": 0.4625,
	"mean_token_accuracy": 0.8217881232500076,
	"step": 1080
	},
	{
	"epoch": 0.45955103769589156,
	"grad_norm": 1.1360766453253965,
	"learning_rate": 1.3112668479699486e-05,
	"loss": 0.4589,
	"mean_token_accuracy": 0.8269425123929978,
	"step": 1085
	},
	{
	"epoch": 0.46166878441338416,
	"grad_norm": 1.2399254503178083,
	"learning_rate": 1.3042303248405346e-05,
	"loss": 0.4555,
	"mean_token_accuracy": 0.8309968203306198,
	"step": 1090
	},
	{
	"epoch": 0.46378653113087676,
	"grad_norm": 1.0508779611719044,
	"learning_rate": 1.297177162556748e-05,
	"loss": 0.4545,
	"mean_token_accuracy": 0.824161484837532,
	"step": 1095
	},
	{
	"epoch": 0.46590427784836935,
	"grad_norm": 1.0822262810815348,
	"learning_rate": 1.2901077468745329e-05,
	"loss": 0.4571,
	"mean_token_accuracy": 0.8281063556671142,
	"step": 1100
	},
	{
	"epoch": 0.46802202456586195,
	"grad_norm": 1.0744745429140576,
	"learning_rate": 1.2830224644387742e-05,
	"loss": 0.471,
	"mean_token_accuracy": 0.8183866649866104,
	"step": 1105
	},
	{
	"epoch": 0.4701397712833545,
	"grad_norm": 1.2108459211634035,
	"learning_rate": 1.2759217027621507e-05,
	"loss": 0.4445,
	"mean_token_accuracy": 0.8313823521137238,
	"step": 1110
	},
	{
	"epoch": 0.4722575180008471,
	"grad_norm": 1.1385271166035913,
	"learning_rate": 1.2688058502039416e-05,
	"loss": 0.4724,
	"mean_token_accuracy": 0.8208224922418594,
	"step": 1115
	},
	{
	"epoch": 0.4743752647183397,
	"grad_norm": 1.1608922255857643,
	"learning_rate": 1.261675295948786e-05,
	"loss": 0.4402,
	"mean_token_accuracy": 0.8260656505823135,
	"step": 1120
	},
	{
	"epoch": 0.4764930114358323,
	"grad_norm": 1.2001870807148136,
	"learning_rate": 1.2545304299853977e-05,
	"loss": 0.4676,
	"mean_token_accuracy": 0.8217555999755859,
	"step": 1125
	},
	{
	"epoch": 0.4786107581533249,
	"grad_norm": 1.099496727008847,
	"learning_rate": 1.2473716430852353e-05,
	"loss": 0.436,
	"mean_token_accuracy": 0.8312188684940338,
	"step": 1130
	},
	{
	"epoch": 0.4807285048708175,
	"grad_norm": 2.032998570634967,
	"learning_rate": 1.2401993267811293e-05,
	"loss": 0.4317,
	"mean_token_accuracy": 0.8295620054006576,
	"step": 1135
	},
	{
	"epoch": 0.48284625158831,
	"grad_norm": 1.1812725212971202,
	"learning_rate": 1.2330138733458693e-05,
	"loss": 0.4156,
	"mean_token_accuracy": 0.8353513538837433,
	"step": 1140
	},
	{
	"epoch": 0.4849639983058026,
	"grad_norm": 1.138821301405385,
	"learning_rate": 1.2258156757707496e-05,
	"loss": 0.4506,
	"mean_token_accuracy": 0.8284595161676407,
	"step": 1145
	},
	{
	"epoch": 0.4870817450232952,
	"grad_norm": 1.039456646381961,
	"learning_rate": 1.2186051277440739e-05,
	"loss": 0.4281,
	"mean_token_accuracy": 0.8340547412633896,
	"step": 1150
	},
	{
	"epoch": 0.4891994917407878,
	"grad_norm": 1.0935441587184827,
	"learning_rate": 1.2113826236296245e-05,
	"loss": 0.4368,
	"mean_token_accuracy": 0.8294982463121414,
	"step": 1155
	},
	{
	"epoch": 0.4913172384582804,
	"grad_norm": 1.0601849025025707,
	"learning_rate": 1.2041485584450945e-05,
	"loss": 0.4496,
	"mean_token_accuracy": 0.8288684636354446,
	"step": 1160
	},
	{
	"epoch": 0.493434985175773,
	"grad_norm": 1.1432826242197904,
	"learning_rate": 1.1969033278404816e-05,
	"loss": 0.472,
	"mean_token_accuracy": 0.8184500396251678,
	"step": 1165
	},
	{
	"epoch": 0.49555273189326554,
	"grad_norm": 1.178255399480397,
	"learning_rate": 1.1896473280764498e-05,
	"loss": 0.453,
	"mean_token_accuracy": 0.82464899122715,
	"step": 1170
	},
	{
	"epoch": 0.49767047861075814,
	"grad_norm": 1.2123556499205794,
	"learning_rate": 1.1823809560026558e-05,
	"loss": 0.442,
	"mean_token_accuracy": 0.8262520909309388,
	"step": 1175
	},
	{
	"epoch": 0.49978822532825073,
	"grad_norm": 1.490671459887953,
	"learning_rate": 1.175104609036047e-05,
	"loss": 0.4493,
	"mean_token_accuracy": 0.8295370072126389,
	"step": 1180
	},
	{
	"epoch": 0.5019059720457433,
	"grad_norm": 3.5058816478434993,
	"learning_rate": 1.1678186851391218e-05,
	"loss": 0.4593,
	"mean_token_accuracy": 0.8269213020801545,
	"step": 1185
	},
	{
	"epoch": 0.5040237187632359,
	"grad_norm": 1.1384716073513477,
	"learning_rate": 1.1605235827981673e-05,
	"loss": 0.4463,
	"mean_token_accuracy": 0.8314786165952682,
	"step": 1190
	},
	{
	"epoch": 0.5061414654807285,
	"grad_norm": 1.1752572701433124,
	"learning_rate": 1.1532197010014636e-05,
	"loss": 0.4453,
	"mean_token_accuracy": 0.8288865953683853,
	"step": 1195
	},
	{
	"epoch": 0.5082592121982211,
	"grad_norm": 1.0006379736398943,
	"learning_rate": 1.1459074392174619e-05,
	"loss": 0.4293,
	"mean_token_accuracy": 0.8350226402282714,
	"step": 1200
	},
	{
	"epoch": 0.5103769589157137,
	"grad_norm": 1.1784455736187447,
	"learning_rate": 1.138587197372937e-05,
	"loss": 0.4612,
	"mean_token_accuracy": 0.8215854614973068,
	"step": 1205
	},
	{
	"epoch": 0.5124947056332063,
	"grad_norm": 1.1048766566547503,
	"learning_rate": 1.1312593758311143e-05,
	"loss": 0.4279,
	"mean_token_accuracy": 0.8407860666513443,
	"step": 1210
	},
	{
	"epoch": 0.5146124523506989,
	"grad_norm": 1.0718700385713946,
	"learning_rate": 1.1239243753697728e-05,
	"loss": 0.4288,
	"mean_token_accuracy": 0.8378984898328781,
	"step": 1215
	},
	{
	"epoch": 0.5167301990681914,
	"grad_norm": 1.558568433227081,
	"learning_rate": 1.1165825971593251e-05,
	"loss": 0.4678,
	"mean_token_accuracy": 0.825000548362732,
	"step": 1220
	},
	{
	"epoch": 0.518847945785684,
	"grad_norm": 1.082392246698731,
	"learning_rate": 1.1092344427408767e-05,
	"loss": 0.4276,
	"mean_token_accuracy": 0.8359992414712906,
	"step": 1225
	},
	{
	"epoch": 0.5209656925031766,
	"grad_norm": 1.256334909576375,
	"learning_rate": 1.1018803140042651e-05,
	"loss": 0.4633,
	"mean_token_accuracy": 0.8229638338088989,
	"step": 1230
	},
	{
	"epoch": 0.5230834392206692,
	"grad_norm": 1.303814596864245,
	"learning_rate": 1.0945206131660787e-05,
	"loss": 0.469,
	"mean_token_accuracy": 0.8193328499794006,
	"step": 1235
	},
	{
	"epoch": 0.5252011859381618,
	"grad_norm": 1.0507039996160834,
	"learning_rate": 1.0871557427476585e-05,
	"loss": 0.4414,
	"mean_token_accuracy": 0.8317544460296631,
	"step": 1240
	},
	{
	"epoch": 0.5273189326556544,
	"grad_norm": 1.015866344156703,
	"learning_rate": 1.0797861055530832e-05,
	"loss": 0.428,
	"mean_token_accuracy": 0.8305379122495651,
	"step": 1245
	},
	{
	"epoch": 0.529436679373147,
	"grad_norm": 1.1624992956977676,
	"learning_rate": 1.07241210464714e-05,
	"loss": 0.467,
	"mean_token_accuracy": 0.820591053366661,
	"step": 1250
	},
	{
	"epoch": 0.5315544260906395,
	"grad_norm": 1.2782647412686758,
	"learning_rate": 1.0650341433332778e-05,
	"loss": 0.4689,
	"mean_token_accuracy": 0.8219984292984008,
	"step": 1255
	},
	{
	"epoch": 0.5336721728081322,
	"grad_norm": 1.1784870838731618,
	"learning_rate": 1.0576526251315515e-05,
	"loss": 0.4596,
	"mean_token_accuracy": 0.8260756641626358,
	"step": 1260
	},
	{
	"epoch": 0.5357899195256247,
	"grad_norm": 1.1204805080469906,
	"learning_rate": 1.0502679537565507e-05,
	"loss": 0.442,
	"mean_token_accuracy": 0.8296466141939163,
	"step": 1265
	},
	{
	"epoch": 0.5379076662431174,
	"grad_norm": 1.0718296420595828,
	"learning_rate": 1.0428805330953209e-05,
	"loss": 0.4215,
	"mean_token_accuracy": 0.8308669030666351,
	"step": 1270
	},
	{
	"epoch": 0.5400254129606099,
	"grad_norm": 1.1125024136410944,
	"learning_rate": 1.0354907671852733e-05,
	"loss": 0.4363,
	"mean_token_accuracy": 0.8332655102014541,
	"step": 1275
	},
	{
	"epoch": 0.5421431596781024,
	"grad_norm": 1.090167844275342,
	"learning_rate": 1.0280990601920863e-05,
	"loss": 0.4435,
	"mean_token_accuracy": 0.8282716870307922,
	"step": 1280
	},
	{
	"epoch": 0.5442609063955951,
	"grad_norm": 1.0290238619990948,
	"learning_rate": 1.0207058163876021e-05,
	"loss": 0.4413,
	"mean_token_accuracy": 0.8311887979507446,
	"step": 1285
	},
	{
	"epoch": 0.5463786531130876,
	"grad_norm": 1.0778232888370207,
	"learning_rate": 1.013311440127714e-05,
	"loss": 0.4386,
	"mean_token_accuracy": 0.8266764581203461,
	"step": 1290
	},
	{
	"epoch": 0.5484963998305803,
	"grad_norm": 1.1219731141973122,
	"learning_rate": 1.0059163358302537e-05,
	"loss": 0.4103,
	"mean_token_accuracy": 0.8391000181436539,
	"step": 1295
	},
	{
	"epoch": 0.5506141465480728,
	"grad_norm": 1.1468466517999107,
	"learning_rate": 9.9852090795287e-06,
	"loss": 0.4391,
	"mean_token_accuracy": 0.8361193478107453,
	"step": 1300
	},
	{
	"epoch": 0.5527318932655655,
	"grad_norm": 1.0284132663014267,
	"learning_rate": 9.911255609709089e-06,
	"loss": 0.4409,
	"mean_token_accuracy": 0.8269284754991532,
	"step": 1305
	},
	{
	"epoch": 0.554849639983058,
	"grad_norm": 1.0310999165822667,
	"learning_rate": 9.83730699355294e-06,
	"loss": 0.4071,
	"mean_token_accuracy": 0.835135304927826,
	"step": 1310
	},
	{
	"epoch": 0.5569673867005506,
	"grad_norm": 1.2728900066425748,
	"learning_rate": 9.76336727550401e-06,
	"loss": 0.4601,
	"mean_token_accuracy": 0.8267913639545441,
	"step": 1315
	},
	{
	"epoch": 0.5590851334180432,
	"grad_norm": 1.2269899407592741,
	"learning_rate": 9.689440499519395e-06,
	"loss": 0.4322,
	"mean_token_accuracy": 0.8314703017473221,
	"step": 1320
	},
	{
	"epoch": 0.5612028801355358,
	"grad_norm": 1.1418757049837882,
	"learning_rate": 9.615530708848373e-06,
	"loss": 0.4231,
	"mean_token_accuracy": 0.8340400338172913,
	"step": 1325
	},
	{
	"epoch": 0.5633206268530284,
	"grad_norm": 1.1108149486798655,
	"learning_rate": 9.541641945811233e-06,
	"loss": 0.4492,
	"mean_token_accuracy": 0.8232677519321442,
	"step": 1330
	},
	{
	"epoch": 0.565438373570521,
	"grad_norm": 1.1088127297572268,
	"learning_rate": 9.467778251578217e-06,
	"loss": 0.4549,
	"mean_token_accuracy": 0.8236530691385269,
	"step": 1335
	},
	{
	"epoch": 0.5675561202880135,
	"grad_norm": 0.9179664771961787,
	"learning_rate": 9.393943665948478e-06,
	"loss": 0.4763,
	"mean_token_accuracy": 0.8244054973125458,
	"step": 1340
	},
	{
	"epoch": 0.5696738670055062,
	"grad_norm": 1.1777867866273308,
	"learning_rate": 9.320142227129158e-06,
	"loss": 0.4348,
	"mean_token_accuracy": 0.8331925332546234,
	"step": 1345
	},
	{
	"epoch": 0.5717916137229987,
	"grad_norm": 1.0020743360016087,
	"learning_rate": 9.246377971514504e-06,
	"loss": 0.4161,
	"mean_token_accuracy": 0.8360674440860748,
	"step": 1350
	},
	{
	"epoch": 0.5739093604404913,
	"grad_norm": 1.346066080223308,
	"learning_rate": 9.172654933465114e-06,
	"loss": 0.448,
	"mean_token_accuracy": 0.8250635206699372,
	"step": 1355
	},
	{
	"epoch": 0.5760271071579839,
	"grad_norm": 1.3221207747875352,
	"learning_rate": 9.0989771450873e-06,
	"loss": 0.4228,
	"mean_token_accuracy": 0.8357968628406525,
	"step": 1360
	},
	{
	"epoch": 0.5781448538754765,
	"grad_norm": 1.1501989319658534,
	"learning_rate": 9.025348636012537e-06,
	"loss": 0.4411,
	"mean_token_accuracy": 0.8290417343378067,
	"step": 1365
	},
	{
	"epoch": 0.5802626005929691,
	"grad_norm": 1.1694331116554113,
	"learning_rate": 8.951773433177095e-06,
	"loss": 0.4343,
	"mean_token_accuracy": 0.8303040146827698,
	"step": 1370
	},
	{
	"epoch": 0.5823803473104616,
	"grad_norm": 1.2089472872967426,
	"learning_rate": 8.878255560601781e-06,
	"loss": 0.4285,
	"mean_token_accuracy": 0.8339911371469497,
	"step": 1375
	},
	{
	"epoch": 0.5844980940279543,
	"grad_norm": 1.1555334960481487,
	"learning_rate": 8.804799039171863e-06,
	"loss": 0.4225,
	"mean_token_accuracy": 0.8346673488616944,
	"step": 1380
	},
	{
	"epoch": 0.5866158407454468,
	"grad_norm": 0.9976941601020334,
	"learning_rate": 8.731407886417155e-06,
	"loss": 0.4538,
	"mean_token_accuracy": 0.8272438108921051,
	"step": 1385
	},
	{
	"epoch": 0.5887335874629395,
	"grad_norm": 1.0977726966561636,
	"learning_rate": 8.658086116292283e-06,
	"loss": 0.4297,
	"mean_token_accuracy": 0.8334219962358475,
	"step": 1390
	},
	{
	"epoch": 0.590851334180432,
	"grad_norm": 2.0194878160007987,
	"learning_rate": 8.584837738957155e-06,
	"loss": 0.4413,
	"mean_token_accuracy": 0.8283408343791961,
	"step": 1395
	},
	{
	"epoch": 0.5929690808979247,
	"grad_norm": 1.2186719145281468,
	"learning_rate": 8.511666760557638e-06,
	"loss": 0.4693,
	"mean_token_accuracy": 0.8232256740331649,
	"step": 1400
	},
	{
	"epoch": 0.5950868276154172,
	"grad_norm": 1.1198588684752515,
	"learning_rate": 8.438577183006448e-06,
	"loss": 0.4221,
	"mean_token_accuracy": 0.8324928849935531,
	"step": 1405
	},
	{
	"epoch": 0.5972045743329097,
	"grad_norm": 1.1215071963961742,
	"learning_rate": 8.36557300376427e-06,
	"loss": 0.4392,
	"mean_token_accuracy": 0.8286356210708619,
	"step": 1410
	},
	{
	"epoch": 0.5993223210504024,
	"grad_norm": 1.107475266800191,
	"learning_rate": 8.292658215621139e-06,
	"loss": 0.4344,
	"mean_token_accuracy": 0.8313880443572998,
	"step": 1415
	},
	{
	"epoch": 0.6014400677678949,
	"grad_norm": 1.1686631557802003,
	"learning_rate": 8.219836806478049e-06,
	"loss": 0.4336,
	"mean_token_accuracy": 0.8312123149633408,
	"step": 1420
	},
	{
	"epoch": 0.6035578144853876,
	"grad_norm": 1.230978585871069,
	"learning_rate": 8.147112759128859e-06,
	"loss": 0.4647,
	"mean_token_accuracy": 0.8231993585824966,
	"step": 1425
	},
	{
	"epoch": 0.6056755612028801,
	"grad_norm": 1.0717890273842352,
	"learning_rate": 8.074490051042447e-06,
	"loss": 0.4353,
	"mean_token_accuracy": 0.8321529895067215,
	"step": 1430
	},
	{
	"epoch": 0.6077933079203727,
	"grad_norm": 1.085108371368418,
	"learning_rate": 8.001972654145194e-06,
	"loss": 0.4415,
	"mean_token_accuracy": 0.8277548223733902,
	"step": 1435
	},
	{
	"epoch": 0.6099110546378653,
	"grad_norm": 1.2119593900205077,
	"learning_rate": 7.929564534603722e-06,
	"loss": 0.4571,
	"mean_token_accuracy": 0.8255878984928131,
	"step": 1440
	},
	{
	"epoch": 0.6120288013553579,
	"grad_norm": 1.1055437345283827,
	"learning_rate": 7.857269652607995e-06,
	"loss": 0.4406,
	"mean_token_accuracy": 0.8275179982185363,
	"step": 1445
	},
	{
	"epoch": 0.6141465480728505,
	"grad_norm": 1.1275451956189597,
	"learning_rate": 7.78509196215472e-06,
	"loss": 0.4308,
	"mean_token_accuracy": 0.8301453530788422,
	"step": 1450
	},
	{
	"epoch": 0.6162642947903431,
	"grad_norm": 1.2886494426253579,
	"learning_rate": 7.713035410831086e-06,
	"loss": 0.4573,
	"mean_token_accuracy": 0.8251194447278977,
	"step": 1455
	},
	{
	"epoch": 0.6183820415078357,
	"grad_norm": 1.1109768793864798,
	"learning_rate": 7.64110393959887e-06,
	"loss": 0.4279,
	"mean_token_accuracy": 0.8380070447921752,
	"step": 1460
	},
	{
	"epoch": 0.6204997882253283,
	"grad_norm": 1.0182035864318235,
	"learning_rate": 7.569301482578885e-06,
	"loss": 0.4281,
	"mean_token_accuracy": 0.8316156834363937,
	"step": 1465
	},
	{
	"epoch": 0.6226175349428208,
	"grad_norm": 1.2074345207100396,
	"learning_rate": 7.497631966835828e-06,
	"loss": 0.4527,
	"mean_token_accuracy": 0.8231601238250732,
	"step": 1470
	},
	{
	"epoch": 0.6247352816603134,
	"grad_norm": 0.991329003303421,
	"learning_rate": 7.42609931216348e-06,
	"loss": 0.442,
	"mean_token_accuracy": 0.8327670186758042,
	"step": 1475
	},
	{
	"epoch": 0.626853028377806,
	"grad_norm": 1.38024365126256,
	"learning_rate": 7.354707430870332e-06,
	"loss": 0.4335,
	"mean_token_accuracy": 0.8324557185173035,
	"step": 1480
	},
	{
	"epoch": 0.6289707750952986,
	"grad_norm": 1.2263457500699402,
	"learning_rate": 7.283460227565614e-06,
	"loss": 0.4289,
	"mean_token_accuracy": 0.8289420217275619,
	"step": 1485
	},
	{
	"epoch": 0.6310885218127912,
	"grad_norm": 1.1601375730316865,
	"learning_rate": 7.2123615989457364e-06,
	"loss": 0.4465,
	"mean_token_accuracy": 0.832300814986229,
	"step": 1490
	},
	{
	"epoch": 0.6332062685302838,
	"grad_norm": 1.3029839142463893,
	"learning_rate": 7.141415433581169e-06,
	"loss": 0.4167,
	"mean_token_accuracy": 0.8393772184848786,
	"step": 1495
	},
	{
	"epoch": 0.6353240152477764,
	"grad_norm": 1.0421344337402514,
	"learning_rate": 7.070625611703762e-06,
	"loss": 0.4537,
	"mean_token_accuracy": 0.8257811456918717,
	"step": 1500
	},
	{
	"epoch": 0.6374417619652689,
	"grad_norm": 1.1352186472493642,
	"learning_rate": 6.9999960049945406e-06,
	"loss": 0.4227,
	"mean_token_accuracy": 0.8368300348520279,
	"step": 1505
	},
	{
	"epoch": 0.6395595086827616,
	"grad_norm": 0.9884985072070904,
	"learning_rate": 6.929530476371935e-06,
	"loss": 0.4189,
	"mean_token_accuracy": 0.8349219173192978,
	"step": 1510
	},
	{
	"epoch": 0.6416772554002541,
	"grad_norm": 1.7766008455284357,
	"learning_rate": 6.859232879780515e-06,
	"loss": 0.4288,
	"mean_token_accuracy": 0.8374936401844024,
	"step": 1515
	},
	{
	"epoch": 0.6437950021177468,
	"grad_norm": 1.012934970024209,
	"learning_rate": 6.7891070599802045e-06,
	"loss": 0.4549,
	"mean_token_accuracy": 0.8239244252443314,
	"step": 1520
	},
	{
	"epoch": 0.6459127488352393,
	"grad_norm": 0.9859441855867837,
	"learning_rate": 6.719156852336015e-06,
	"loss": 0.4293,
	"mean_token_accuracy": 0.8353272944688797,
	"step": 1525
	},
	{
	"epoch": 0.6480304955527318,
	"grad_norm": 1.261329902420831,
	"learning_rate": 6.649386082608256e-06,
	"loss": 0.428,
	"mean_token_accuracy": 0.8329044044017792,
	"step": 1530
	},
	{
	"epoch": 0.6501482422702245,
	"grad_norm": 1.2457535519058567,
	"learning_rate": 6.579798566743314e-06,
	"loss": 0.4324,
	"mean_token_accuracy": 0.8307075470685958,
	"step": 1535
	},
	{
	"epoch": 0.652265988987717,
	"grad_norm": 1.213114456712863,
	"learning_rate": 6.510398110664939e-06,
	"loss": 0.4223,
	"mean_token_accuracy": 0.8351607590913772,
	"step": 1540
	},
	{
	"epoch": 0.6543837357052097,
	"grad_norm": 1.155264435257233,
	"learning_rate": 6.441188510066092e-06,
	"loss": 0.4207,
	"mean_token_accuracy": 0.8374445289373398,
	"step": 1545
	},
	{
	"epoch": 0.6565014824227022,
	"grad_norm": 1.1756119576548756,
	"learning_rate": 6.372173550201346e-06,
	"loss": 0.4119,
	"mean_token_accuracy": 0.8390755444765091,
	"step": 1550
	},
	{
	"epoch": 0.6586192291401949,
	"grad_norm": 1.0243897900651528,
	"learning_rate": 6.303357005679858e-06,
	"loss": 0.4478,
	"mean_token_accuracy": 0.8277173846960068,
	"step": 1555
	},
	{
	"epoch": 0.6607369758576874,
	"grad_norm": 1.0868676429874986,
	"learning_rate": 6.234742640258938e-06,
	"loss": 0.4552,
	"mean_token_accuracy": 0.827509269118309,
	"step": 1560
	},
	{
	"epoch": 0.66285472257518,
	"grad_norm": 1.1792649536698685,
	"learning_rate": 6.166334206638186e-06,
	"loss": 0.4396,
	"mean_token_accuracy": 0.8288001954555512,
	"step": 1565
	},
	{
	"epoch": 0.6649724692926726,
	"grad_norm": 1.171894663481444,
	"learning_rate": 6.0981354462542456e-06,
	"loss": 0.4365,
	"mean_token_accuracy": 0.8315492898225785,
	"step": 1570
	},
	{
	"epoch": 0.6670902160101652,
	"grad_norm": 1.1333037764256397,
	"learning_rate": 6.030150089076199e-06,
	"loss": 0.4319,
	"mean_token_accuracy": 0.8316318243741989,
	"step": 1575
	},
	{
	"epoch": 0.6692079627276578,
	"grad_norm": 1.1892286300854609,
	"learning_rate": 5.9623818534015275e-06,
	"loss": 0.4275,
	"mean_token_accuracy": 0.8352140128612519,
	"step": 1580
	},
	{
	"epoch": 0.6713257094451504,
	"grad_norm": 4.250523219515856,
	"learning_rate": 5.894834445652777e-06,
	"loss": 0.411,
	"mean_token_accuracy": 0.8329778879880905,
	"step": 1585
	},
	{
	"epoch": 0.6734434561626429,
	"grad_norm": 1.157008090047474,
	"learning_rate": 5.827511560174835e-06,
	"loss": 0.4242,
	"mean_token_accuracy": 0.832972839474678,
	"step": 1590
	},
	{
	"epoch": 0.6755612028801355,
	"grad_norm": 1.1834078816860993,
	"learning_rate": 5.7604168790328774e-06,
	"loss": 0.3931,
	"mean_token_accuracy": 0.8443128287792205,
	"step": 1595
	},
	{
	"epoch": 0.6776789495976281,
	"grad_norm": 1.0766345733639675,
	"learning_rate": 5.693554071810987e-06,
	"loss": 0.4478,
	"mean_token_accuracy": 0.8282081812620163,
	"step": 1600
	},
	{
	"epoch": 0.6797966963151207,
	"grad_norm": 1.0314594529031804,
	"learning_rate": 5.626926795411447e-06,
	"loss": 0.4246,
	"mean_token_accuracy": 0.8321157455444336,
	"step": 1605
	},
	{
	"epoch": 0.6819144430326133,
	"grad_norm": 1.055274137880832,
	"learning_rate": 5.560538693854751e-06,
	"loss": 0.4193,
	"mean_token_accuracy": 0.8316533505916596,
	"step": 1610
	},
	{
	"epoch": 0.6840321897501059,
	"grad_norm": 1.1972782090907812,
	"learning_rate": 5.494393398080292e-06,
	"loss": 0.4313,
	"mean_token_accuracy": 0.834712353348732,
	"step": 1615
	},
	{
	"epoch": 0.6861499364675985,
	"grad_norm": 1.0962501568970522,
	"learning_rate": 5.428494525747769e-06,
	"loss": 0.4597,
	"mean_token_accuracy": 0.8248083680868149,
	"step": 1620
	},
	{
	"epoch": 0.688267683185091,
	"grad_norm": 1.0751444988160856,
	"learning_rate": 5.362845681039348e-06,
	"loss": 0.4321,
	"mean_token_accuracy": 0.8374727904796601,
	"step": 1625
	},
	{
	"epoch": 0.6903854299025837,
	"grad_norm": 1.1471090324016462,
	"learning_rate": 5.297450454462526e-06,
	"loss": 0.4328,
	"mean_token_accuracy": 0.8296476870775222,
	"step": 1630
	},
	{
	"epoch": 0.6925031766200762,
	"grad_norm": 0.962534660265453,
	"learning_rate": 5.23231242265375e-06,
	"loss": 0.4181,
	"mean_token_accuracy": 0.83418510556221,
	"step": 1635
	},
	{
	"epoch": 0.6946209233375689,
	"grad_norm": 1.1168651450432128,
	"learning_rate": 5.167435148182824e-06,
	"loss": 0.4176,
	"mean_token_accuracy": 0.8372534781694412,
	"step": 1640
	},
	{
	"epoch": 0.6967386700550614,
	"grad_norm": 1.2186341287706137,
	"learning_rate": 5.102822179358037e-06,
	"loss": 0.4075,
	"mean_token_accuracy": 0.8409687280654907,
	"step": 1645
	},
	{
	"epoch": 0.6988564167725541,
	"grad_norm": 0.9820636174800459,
	"learning_rate": 5.0384770500321175e-06,
	"loss": 0.4128,
	"mean_token_accuracy": 0.8384972155094147,
	"step": 1650
	},
	{
	"epoch": 0.7009741634900466,
	"grad_norm": 0.943830506781205,
	"learning_rate": 4.97440327940895e-06,
	"loss": 0.4027,
	"mean_token_accuracy": 0.8365049093961716,
	"step": 1655
	},
	{
	"epoch": 0.7030919102075391,
	"grad_norm": 1.0574783345670844,
	"learning_rate": 4.910604371851091e-06,
	"loss": 0.4308,
	"mean_token_accuracy": 0.8333552926778793,
	"step": 1660
	},
	{
	"epoch": 0.7052096569250318,
	"grad_norm": 1.103380699456734,
	"learning_rate": 4.847083816688123e-06,
	"loss": 0.412,
	"mean_token_accuracy": 0.8425119102001191,
	"step": 1665
	},
	{
	"epoch": 0.7073274036425243,
	"grad_norm": 1.117253769501395,
	"learning_rate": 4.783845088025807e-06,
	"loss": 0.4346,
	"mean_token_accuracy": 0.8330845534801483,
	"step": 1670
	},
	{
	"epoch": 0.709445150360017,
	"grad_norm": 1.4108563780024128,
	"learning_rate": 4.7208916445560625e-06,
	"loss": 0.414,
	"mean_token_accuracy": 0.8379091322422028,
	"step": 1675
	},
	{
	"epoch": 0.7115628970775095,
	"grad_norm": 1.031565575748758,
	"learning_rate": 4.658226929367826e-06,
	"loss": 0.4598,
	"mean_token_accuracy": 0.8240681082010269,
	"step": 1680
	},
	{
	"epoch": 0.7136806437950021,
	"grad_norm": 1.2248996065912452,
	"learning_rate": 4.595854369758727e-06,
	"loss": 0.4299,
	"mean_token_accuracy": 0.8363937050104141,
	"step": 1685
	},
	{
	"epoch": 0.7157983905124947,
	"grad_norm": 1.1049025661918381,
	"learning_rate": 4.5337773770476245e-06,
	"loss": 0.4273,
	"mean_token_accuracy": 0.8340339243412018,
	"step": 1690
	},
	{
	"epoch": 0.7179161372299873,
	"grad_norm": 1.1244170950870136,
	"learning_rate": 4.4719993463880695e-06,
	"loss": 0.4571,
	"mean_token_accuracy": 0.8225684702396393,
	"step": 1695
	},
	{
	"epoch": 0.7200338839474799,
	"grad_norm": 1.1969285633316296,
	"learning_rate": 4.410523656582576e-06,
	"loss": 0.4025,
	"mean_token_accuracy": 0.8440569192171097,
	"step": 1700
	},
	{
	"epoch": 0.7221516306649725,
	"grad_norm": 1.122866308313561,
	"learning_rate": 4.349353669897856e-06,
	"loss": 0.4208,
	"mean_token_accuracy": 0.837623131275177,
	"step": 1705
	},
	{
	"epoch": 0.7242693773824651,
	"grad_norm": 1.0173115464088704,
	"learning_rate": 4.288492731880917e-06,
	"loss": 0.4148,
	"mean_token_accuracy": 0.8388867497444152,
	"step": 1710
	},
	{
	"epoch": 0.7263871240999576,
	"grad_norm": 1.1018457774189827,
	"learning_rate": 4.227944171176072e-06,
	"loss": 0.4003,
	"mean_token_accuracy": 0.8392677456140518,
	"step": 1715
	},
	{
	"epoch": 0.7285048708174502,
	"grad_norm": 1.2471156860459571,
	"learning_rate": 4.167711299342909e-06,
	"loss": 0.4459,
	"mean_token_accuracy": 0.8256678134202957,
	"step": 1720
	},
	{
	"epoch": 0.7306226175349428,
	"grad_norm": 1.1273568017592417,
	"learning_rate": 4.107797410675166e-06,
	"loss": 0.4068,
	"mean_token_accuracy": 0.8386416286230087,
	"step": 1725
	},
	{
	"epoch": 0.7327403642524354,
	"grad_norm": 1.20918067568615,
	"learning_rate": 4.048205782020544e-06,
	"loss": 0.4539,
	"mean_token_accuracy": 0.8220532357692718,
	"step": 1730
	},
	{
	"epoch": 0.734858110969928,
	"grad_norm": 1.1573583276355073,
	"learning_rate": 3.988939672601509e-06,
	"loss": 0.395,
	"mean_token_accuracy": 0.844212406873703,
	"step": 1735
	},
	{
	"epoch": 0.7369758576874206,
	"grad_norm": 1.1516374922245958,
	"learning_rate": 3.930002323837026e-06,
	"loss": 0.4251,
	"mean_token_accuracy": 0.8371291518211365,
	"step": 1740
	},
	{
	"epoch": 0.7390936044049131,
	"grad_norm": 1.274643963255776,
	"learning_rate": 3.871396959165267e-06,
	"loss": 0.429,
	"mean_token_accuracy": 0.8348165363073349,
	"step": 1745
	},
	{
	"epoch": 0.7412113511224058,
	"grad_norm": 1.025583507042276,
	"learning_rate": 3.8131267838673336e-06,
	"loss": 0.4262,
	"mean_token_accuracy": 0.8343986541032791,
	"step": 1750
	},
	{
	"epoch": 0.7433290978398983,
	"grad_norm": 1.1299748085754966,
	"learning_rate": 3.755194984891943e-06,
	"loss": 0.4081,
	"mean_token_accuracy": 0.8430469453334808,
	"step": 1755
	},
	{
	"epoch": 0.745446844557391,
	"grad_norm": 1.0603027089656643,
	"learning_rate": 3.6976047306811115e-06,
	"loss": 0.4256,
	"mean_token_accuracy": 0.8382641762495041,
	"step": 1760
	},
	{
	"epoch": 0.7475645912748835,
	"grad_norm": 1.1281590494510496,
	"learning_rate": 3.6403591709968924e-06,
	"loss": 0.4357,
	"mean_token_accuracy": 0.8320927768945694,
	"step": 1765
	},
	{
	"epoch": 0.7496823379923762,
	"grad_norm": 1.0367839611389602,
	"learning_rate": 3.5834614367490706e-06,
	"loss": 0.4221,
	"mean_token_accuracy": 0.835366889834404,
	"step": 1770
	},
	{
	"epoch": 0.7518000847098687,
	"grad_norm": 1.0958827736818129,
	"learning_rate": 3.526914639823973e-06,
	"loss": 0.4381,
	"mean_token_accuracy": 0.8301591634750366,
	"step": 1775
	},
	{
	"epoch": 0.7539178314273612,
	"grad_norm": 1.0559223618431266,
	"learning_rate": 3.4707218729142224e-06,
	"loss": 0.4291,
	"mean_token_accuracy": 0.8316712707281113,
	"step": 1780
	},
	{
	"epoch": 0.7560355781448539,
	"grad_norm": 1.0792688197107765,
	"learning_rate": 3.414886209349615e-06,
	"loss": 0.4269,
	"mean_token_accuracy": 0.835688841342926,
	"step": 1785
	},
	{
	"epoch": 0.7581533248623464,
	"grad_norm": 1.1979681287726258,
	"learning_rate": 3.3594107029290347e-06,
	"loss": 0.4269,
	"mean_token_accuracy": 0.8371979027986527,
	"step": 1790
	},
	{
	"epoch": 0.7602710715798391,
	"grad_norm": 1.1468783022113433,
	"learning_rate": 3.304298387753426e-06,
	"loss": 0.4311,
	"mean_token_accuracy": 0.8341523915529251,
	"step": 1795
	},
	{
	"epoch": 0.7623888182973316,
	"grad_norm": 1.142335742385377,
	"learning_rate": 3.2495522780598442e-06,
	"loss": 0.4174,
	"mean_token_accuracy": 0.8298469454050064,
	"step": 1800
	},
	{
	"epoch": 0.7645065650148243,
	"grad_norm": 1.1968773332651736,
	"learning_rate": 3.1951753680566143e-06,
	"loss": 0.4383,
	"mean_token_accuracy": 0.8313175171613694,
	"step": 1805
	},
	{
	"epoch": 0.7666243117323168,
	"grad_norm": 1.0804618708583653,
	"learning_rate": 3.141170631759558e-06,
	"loss": 0.4086,
	"mean_token_accuracy": 0.8373444229364395,
	"step": 1810
	},
	{
	"epoch": 0.7687420584498094,
	"grad_norm": 1.0872538790077677,
	"learning_rate": 3.087541022829347e-06,
	"loss": 0.4221,
	"mean_token_accuracy": 0.8371105402708053,
	"step": 1815
	},
	{
	"epoch": 0.770859805167302,
	"grad_norm": 0.9905135006363225,
	"learning_rate": 3.034289474409943e-06,
	"loss": 0.4133,
	"mean_token_accuracy": 0.8365035742521286,
	"step": 1820
	},
	{
	"epoch": 0.7729775518847946,
	"grad_norm": 1.0890914888672922,
	"learning_rate": 2.981418898968186e-06,
	"loss": 0.4189,
	"mean_token_accuracy": 0.838862606883049,
	"step": 1825
	},
	{
	"epoch": 0.7750952986022872,
	"grad_norm": 1.1417209565486737,
	"learning_rate": 2.9289321881345257e-06,
	"loss": 0.4169,
	"mean_token_accuracy": 0.833648070693016,
	"step": 1830
	},
	{
	"epoch": 0.7772130453197797,
	"grad_norm": 1.1684616910176908,
	"learning_rate": 2.8768322125448265e-06,
	"loss": 0.4469,
	"mean_token_accuracy": 0.83056038916111,
	"step": 1835
	},
	{
	"epoch": 0.7793307920372723,
	"grad_norm": 1.1845681597767028,
	"learning_rate": 2.825121821683391e-06,
	"loss": 0.4223,
	"mean_token_accuracy": 0.8353413581848145,
	"step": 1840
	},
	{
	"epoch": 0.7814485387547649,
	"grad_norm": 1.1732126933903428,
	"learning_rate": 2.7738038437271288e-06,
	"loss": 0.4121,
	"mean_token_accuracy": 0.842677703499794,
	"step": 1845
	},
	{
	"epoch": 0.7835662854722575,
	"grad_norm": 1.0292583187860371,
	"learning_rate": 2.7228810853908406e-06,
	"loss": 0.3921,
	"mean_token_accuracy": 0.8447476714849472,
	"step": 1850
	},
	{
	"epoch": 0.7856840321897501,
	"grad_norm": 0.9892030702997285,
	"learning_rate": 2.67235633177373e-06,
	"loss": 0.4387,
	"mean_token_accuracy": 0.8288900941610337,
	"step": 1855
	},
	{
	"epoch": 0.7878017789072427,
	"grad_norm": 1.0050687986582967,
	"learning_rate": 2.6222323462070897e-06,
	"loss": 0.4356,
	"mean_token_accuracy": 0.828187745809555,
	"step": 1860
	},
	{
	"epoch": 0.7899195256247353,
	"grad_norm": 1.1304197153376732,
	"learning_rate": 2.572511870103149e-06,
	"loss": 0.4125,
	"mean_token_accuracy": 0.8425087302923202,
	"step": 1865
	},
	{
	"epoch": 0.7920372723422279,
	"grad_norm": 1.0444576639344187,
	"learning_rate": 2.5231976228051526e-06,
	"loss": 0.4318,
	"mean_token_accuracy": 0.8337043792009353,
	"step": 1870
	},
	{
	"epoch": 0.7941550190597204,
	"grad_norm": 1.0875080317220023,
	"learning_rate": 2.4742923014386154e-06,
	"loss": 0.4287,
	"mean_token_accuracy": 0.8368022799491882,
	"step": 1875
	},
	{
	"epoch": 0.7962727657772131,
	"grad_norm": 1.1517129093084153,
	"learning_rate": 2.4257985807638294e-06,
	"loss": 0.4284,
	"mean_token_accuracy": 0.8356128752231597,
	"step": 1880
	},
	{
	"epoch": 0.7983905124947056,
	"grad_norm": 1.2213468844119533,
	"learning_rate": 2.3777191130295673e-06,
	"loss": 0.411,
	"mean_token_accuracy": 0.8373890697956086,
	"step": 1885
	},
	{
	"epoch": 0.8005082592121983,
	"grad_norm": 1.1105462272187794,
	"learning_rate": 2.330056527828013e-06,
	"loss": 0.4549,
	"mean_token_accuracy": 0.8282926619052887,
	"step": 1890
	},
	{
	"epoch": 0.8026260059296908,
	"grad_norm": 1.1626653178571262,
	"learning_rate": 2.282813431950952e-06,
	"loss": 0.4295,
	"mean_token_accuracy": 0.8333282887935638,
	"step": 1895
	},
	{
	"epoch": 0.8047437526471835,
	"grad_norm": 1.1195581942328177,
	"learning_rate": 2.235992409247214e-06,
	"loss": 0.4338,
	"mean_token_accuracy": 0.8319763302803039,
	"step": 1900
	},
	{
	"epoch": 0.806861499364676,
	"grad_norm": 1.026868168904022,
	"learning_rate": 2.1895960204813194e-06,
	"loss": 0.4118,
	"mean_token_accuracy": 0.8370046824216842,
	"step": 1905
	},
	{
	"epoch": 0.8089792460821685,
	"grad_norm": 1.0639569641896143,
	"learning_rate": 2.1436268031934602e-06,
	"loss": 0.4411,
	"mean_token_accuracy": 0.8297486454248428,
	"step": 1910
	},
	{
	"epoch": 0.8110969927996612,
	"grad_norm": 1.0385740186847223,
	"learning_rate": 2.098087271560687e-06,
	"loss": 0.4152,
	"mean_token_accuracy": 0.8370089381933212,
	"step": 1915
	},
	{
	"epoch": 0.8132147395171537,
	"grad_norm": 1.1169845772777505,
	"learning_rate": 2.0529799162594242e-06,
	"loss": 0.4094,
	"mean_token_accuracy": 0.839673039317131,
	"step": 1920
	},
	{
	"epoch": 0.8153324862346464,
	"grad_norm": 1.0745546751170598,
	"learning_rate": 2.0083072043292406e-06,
	"loss": 0.417,
	"mean_token_accuracy": 0.8379459470510483,
	"step": 1925
	},
	{
	"epoch": 0.8174502329521389,
	"grad_norm": 1.206429363415916,
	"learning_rate": 1.9640715790379084e-06,
	"loss": 0.4133,
	"mean_token_accuracy": 0.8345289677381516,
	"step": 1930
	},
	{
	"epoch": 0.8195679796696315,
	"grad_norm": 1.0452292636568519,
	"learning_rate": 1.920275459747796e-06,
	"loss": 0.4123,
	"mean_token_accuracy": 0.8368586808443069,
	"step": 1935
	},
	{
	"epoch": 0.8216857263871241,
	"grad_norm": 1.0706189800647066,
	"learning_rate": 1.8769212417835314e-06,
	"loss": 0.3773,
	"mean_token_accuracy": 0.8513321369886399,
	"step": 1940
	},
	{
	"epoch": 0.8238034731046167,
	"grad_norm": 1.0974535637452612,
	"learning_rate": 1.8340112963009993e-06,
	"loss": 0.4353,
	"mean_token_accuracy": 0.8337271898984909,
	"step": 1945
	},
	{
	"epoch": 0.8259212198221093,
	"grad_norm": 1.0867209847341632,
	"learning_rate": 1.7915479701576577e-06,
	"loss": 0.4489,
	"mean_token_accuracy": 0.8291646331548691,
	"step": 1950
	},
	{
	"epoch": 0.8280389665396019,
	"grad_norm": 1.1993569416921062,
	"learning_rate": 1.7495335857841855e-06,
	"loss": 0.4138,
	"mean_token_accuracy": 0.8385995358228684,
	"step": 1955
	},
	{
	"epoch": 0.8301567132570945,
	"grad_norm": 1.1414883228473476,
	"learning_rate": 1.7079704410574505e-06,
	"loss": 0.3859,
	"mean_token_accuracy": 0.8459228605031968,
	"step": 1960
	},
	{
	"epoch": 0.832274459974587,
	"grad_norm": 1.048311577922366,
	"learning_rate": 1.6668608091748495e-06,
	"loss": 0.426,
	"mean_token_accuracy": 0.8357879251241684,
	"step": 1965
	},
	{
	"epoch": 0.8343922066920796,
	"grad_norm": 1.0617438922962255,
	"learning_rate": 1.6262069385299694e-06,
	"loss": 0.4334,
	"mean_token_accuracy": 0.8343731433153152,
	"step": 1970
	},
	{
	"epoch": 0.8365099534095722,
	"grad_norm": 1.1279209328755353,
	"learning_rate": 1.5860110525896143e-06,
	"loss": 0.4197,
	"mean_token_accuracy": 0.835442116856575,
	"step": 1975
	},
	{
	"epoch": 0.8386277001270648,
	"grad_norm": 0.9640338154076892,
	"learning_rate": 1.5462753497722139e-06,
	"loss": 0.4228,
	"mean_token_accuracy": 0.8363285154104233,
	"step": 1980
	},
	{
	"epoch": 0.8407454468445574,
	"grad_norm": 1.065476222817932,
	"learning_rate": 1.5070020033275655e-06,
	"loss": 0.3954,
	"mean_token_accuracy": 0.8427035689353943,
	"step": 1985
	},
	{
	"epoch": 0.84286319356205,
	"grad_norm": 1.055480105683973,
	"learning_rate": 1.4681931612179901e-06,
	"loss": 0.4289,
	"mean_token_accuracy": 0.8340502351522445,
	"step": 1990
	},
	{
	"epoch": 0.8449809402795425,
	"grad_norm": 1.0690985831761302,
	"learning_rate": 1.4298509460008491e-06,
	"loss": 0.4072,
	"mean_token_accuracy": 0.8402904689311981,
	"step": 1995
	},
	{
	"epoch": 0.8470986869970352,
	"grad_norm": 1.0063164183000968,
	"learning_rate": 1.39197745471245e-06,
	"loss": 0.4231,
	"mean_token_accuracy": 0.8361636906862259,
	"step": 2000
	},
	{
	"epoch": 0.8492164337145277,
	"grad_norm": 1.0247616494577987,
	"learning_rate": 1.354574758753363e-06,
	"loss": 0.4189,
	"mean_token_accuracy": 0.8310322672128677,
	"step": 2005
	},
	{
	"epoch": 0.8513341804320204,
	"grad_norm": 1.044860588344852,
	"learning_rate": 1.3176449037751294e-06,
	"loss": 0.4404,
	"mean_token_accuracy": 0.8303707420825959,
	"step": 2010
	},
	{
	"epoch": 0.8534519271495129,
	"grad_norm": 2.4537559889629694,
	"learning_rate": 1.28118990956837e-06,
	"loss": 0.4104,
	"mean_token_accuracy": 0.835821408033371,
	"step": 2015
	},
	{
	"epoch": 0.8555696738670056,
	"grad_norm": 1.0972489520800874,
	"learning_rate": 1.2452117699523303e-06,
	"loss": 0.4027,
	"mean_token_accuracy": 0.8460766285657882,
	"step": 2020
	},
	{
	"epoch": 0.8576874205844981,
	"grad_norm": 1.2309045137234433,
	"learning_rate": 1.2097124526658277e-06,
	"loss": 0.419,
	"mean_token_accuracy": 0.8366678208112717,
	"step": 2025
	},
	{
	"epoch": 0.8598051673019906,
	"grad_norm": 1.0849048269411365,
	"learning_rate": 1.1746938992596257e-06,
	"loss": 0.4174,
	"mean_token_accuracy": 0.8296289384365082,
	"step": 2030
	},
	{
	"epoch": 0.8619229140194833,
	"grad_norm": 0.989974221522167,
	"learning_rate": 1.1401580249902566e-06,
	"loss": 0.4153,
	"mean_token_accuracy": 0.8379861056804657,
	"step": 2035
	},
	{
	"epoch": 0.8640406607369758,
	"grad_norm": 1.0066596115748891,
	"learning_rate": 1.1061067187152584e-06,
	"loss": 0.4041,
	"mean_token_accuracy": 0.8417060792446136,
	"step": 2040
	},
	{
	"epoch": 0.8661584074544685,
	"grad_norm": 1.0526259070425423,
	"learning_rate": 1.0725418427898792e-06,
	"loss": 0.4099,
	"mean_token_accuracy": 0.8398545056581497,
	"step": 2045
	},
	{
	"epoch": 0.868276154171961,
	"grad_norm": 1.134470581551777,
	"learning_rate": 1.0394652329652165e-06,
	"loss": 0.4146,
	"mean_token_accuracy": 0.8354752600193024,
	"step": 2050
	},
	{
	"epoch": 0.8703939008894537,
	"grad_norm": 1.130864865166622,
	"learning_rate": 1.0068786982878087e-06,
	"loss": 0.418,
	"mean_token_accuracy": 0.8398678600788116,
	"step": 2055
	},
	{
	"epoch": 0.8725116476069462,
	"grad_norm": 1.1500087879964977,
	"learning_rate": 9.747840210007021e-07,
	"loss": 0.4157,
	"mean_token_accuracy": 0.8322781622409821,
	"step": 2060
	},
	{
	"epoch": 0.8746293943244388,
	"grad_norm": 0.9770307768209092,
	"learning_rate": 9.43182956445976e-07,
	"loss": 0.3977,
	"mean_token_accuracy": 0.8416966944932938,
	"step": 2065
	},
	{
	"epoch": 0.8767471410419314,
	"grad_norm": 1.2583818143393242,
	"learning_rate": 9.120772329687278e-07,
	"loss": 0.4251,
	"mean_token_accuracy": 0.8354076951742172,
	"step": 2070
	},
	{
	"epoch": 0.878864887759424,
	"grad_norm": 1.0618576291439479,
	"learning_rate": 8.814685518225552e-07,
	"loss": 0.4291,
	"mean_token_accuracy": 0.8308704495429993,
	"step": 2075
	},
	{
	"epoch": 0.8809826344769166,
	"grad_norm": 1.1180367611245425,
	"learning_rate": 8.513585870765118e-07,
	"loss": 0.3907,
	"mean_token_accuracy": 0.8452890306711197,
	"step": 2080
	},
	{
	"epoch": 0.8831003811944091,
	"grad_norm": 1.230123212504081,
	"learning_rate": 8.217489855235338e-07,
	"loss": 0.4144,
	"mean_token_accuracy": 0.8392110764980316,
	"step": 2085
	},
	{
	"epoch": 0.8852181279119017,
	"grad_norm": 1.1108948475484288,
	"learning_rate": 7.926413665903931e-07,
	"loss": 0.4151,
	"mean_token_accuracy": 0.8380868971347809,
	"step": 2090
	},
	{
	"epoch": 0.8873358746293943,
	"grad_norm": 1.098761542271965,
	"learning_rate": 7.640373222491038e-07,
	"loss": 0.4196,
	"mean_token_accuracy": 0.8407029449939728,
	"step": 2095
	},
	{
	"epoch": 0.8894536213468869,
	"grad_norm": 1.0940803341605705,
	"learning_rate": 7.359384169298744e-07,
	"loss": 0.4097,
	"mean_token_accuracy": 0.8401619613170623,
	"step": 2100
	},
	{
	"epoch": 0.8915713680643795,
	"grad_norm": 0.9066347453646844,
	"learning_rate": 7.083461874355335e-07,
	"loss": 0.4257,
	"mean_token_accuracy": 0.8362819194793701,
	"step": 2105
	},
	{
	"epoch": 0.8936891147818721,
	"grad_norm": 1.0448023766882066,
	"learning_rate": 6.81262142857475e-07,
	"loss": 0.3898,
	"mean_token_accuracy": 0.8459620922803879,
	"step": 2110
	},
	{
	"epoch": 0.8958068614993647,
	"grad_norm": 1.0611643496346475,
	"learning_rate": 6.546877644931315e-07,
	"loss": 0.4208,
	"mean_token_accuracy": 0.8312031596899032,
	"step": 2115
	},
	{
	"epoch": 0.8979246082168573,
	"grad_norm": 1.1224663985096108,
	"learning_rate": 6.286245057649542e-07,
	"loss": 0.3994,
	"mean_token_accuracy": 0.8465497404336929,
	"step": 2120
	},
	{
	"epoch": 0.9000423549343498,
	"grad_norm": 1.0832056476567533,
	"learning_rate": 6.030737921409169e-07,
	"loss": 0.3867,
	"mean_token_accuracy": 0.8440623044967651,
	"step": 2125
	},
	{
	"epoch": 0.9021601016518425,
	"grad_norm": 1.0523110523954844,
	"learning_rate": 5.7803702105656e-07,
	"loss": 0.4127,
	"mean_token_accuracy": 0.8366563141345977,
	"step": 2130
	},
	{
	"epoch": 0.904277848369335,
	"grad_norm": 1.0105232913792406,
	"learning_rate": 5.535155618385612e-07,
	"loss": 0.4195,
	"mean_token_accuracy": 0.8335390537977219,
	"step": 2135
	},
	{
	"epoch": 0.9063955950868277,
	"grad_norm": 1.1129917485868344,
	"learning_rate": 5.295107556298329e-07,
	"loss": 0.3928,
	"mean_token_accuracy": 0.8431670844554902,
	"step": 2140
	},
	{
	"epoch": 0.9085133418043202,
	"grad_norm": 1.145719574659648,
	"learning_rate": 5.060239153161872e-07,
	"loss": 0.4019,
	"mean_token_accuracy": 0.8419764310121536,
	"step": 2145
	},
	{
	"epoch": 0.9106310885218127,
	"grad_norm": 1.443628282269306,
	"learning_rate": 4.830563254545207e-07,
	"loss": 0.4233,
	"mean_token_accuracy": 0.8361739784479141,
	"step": 2150
	},
	{
	"epoch": 0.9127488352393054,
	"grad_norm": 1.1691030241329559,
	"learning_rate": 4.6060924220255654e-07,
	"loss": 0.4257,
	"mean_token_accuracy": 0.8305665761232376,
	"step": 2155
	},
	{
	"epoch": 0.9148665819567979,
	"grad_norm": 1.2424085660240223,
	"learning_rate": 4.386838932501547e-07,
	"loss": 0.4303,
	"mean_token_accuracy": 0.8358988225460052,
	"step": 2160
	},
	{
	"epoch": 0.9169843286742906,
	"grad_norm": 1.0258262640063769,
	"learning_rate": 4.172814777521483e-07,
	"loss": 0.4298,
	"mean_token_accuracy": 0.8366893321275711,
	"step": 2165
	},
	{
	"epoch": 0.9191020753917831,
	"grad_norm": 1.0932401792673323,
	"learning_rate": 3.9640316626277654e-07,
	"loss": 0.4172,
	"mean_token_accuracy": 0.836585283279419,
	"step": 2170
	},
	{
	"epoch": 0.9212198221092758,
	"grad_norm": 1.0881178279493329,
	"learning_rate": 3.7605010067165216e-07,
	"loss": 0.42,
	"mean_token_accuracy": 0.8352493315935134,
	"step": 2175
	},
	{
	"epoch": 0.9233375688267683,
	"grad_norm": 1.057750886441079,
	"learning_rate": 3.562233941413096e-07,
	"loss": 0.3975,
	"mean_token_accuracy": 0.8412194460630417,
	"step": 2180
	},
	{
	"epoch": 0.9254553155442609,
	"grad_norm": 1.1056774030421723,
	"learning_rate": 3.3692413104633226e-07,
	"loss": 0.3976,
	"mean_token_accuracy": 0.840697067975998,
	"step": 2185
	},
	{
	"epoch": 0.9275730622617535,
	"grad_norm": 1.163101779598673,
	"learning_rate": 3.1815336691403464e-07,
	"loss": 0.3751,
	"mean_token_accuracy": 0.8496327966451644,
	"step": 2190
	},
	{
	"epoch": 0.929690808979246,
	"grad_norm": 0.9755793569303719,
	"learning_rate": 2.999121283667339e-07,
	"loss": 0.4079,
	"mean_token_accuracy": 0.8418219208717346,
	"step": 2195
	},
	{
	"epoch": 0.9318085556967387,
	"grad_norm": 1.021358583461123,
	"learning_rate": 2.8220141306561034e-07,
	"loss": 0.4186,
	"mean_token_accuracy": 0.8352805793285369,
	"step": 2200
	},
	{
	"epoch": 0.9339263024142312,
	"grad_norm": 1.0396837778560488,
	"learning_rate": 2.6502218965613335e-07,
	"loss": 0.4225,
	"mean_token_accuracy": 0.8338442891836166,
	"step": 2205
	},
	{
	"epoch": 0.9360440491317239,
	"grad_norm": 1.1742052357618658,
	"learning_rate": 2.483753977150882e-07,
	"loss": 0.4067,
	"mean_token_accuracy": 0.8387827515602112,
	"step": 2210
	},
	{
	"epoch": 0.9381617958492164,
	"grad_norm": 1.0739901995137444,
	"learning_rate": 2.3226194769918497e-07,
	"loss": 0.4041,
	"mean_token_accuracy": 0.837730023264885,
	"step": 2215
	},
	{
	"epoch": 0.940279542566709,
	"grad_norm": 1.0246012489566791,
	"learning_rate": 2.1668272089526377e-07,
	"loss": 0.4161,
	"mean_token_accuracy": 0.8399739652872086,
	"step": 2220
	},
	{
	"epoch": 0.9423972892842016,
	"grad_norm": 1.0463273467785923,
	"learning_rate": 2.0163856937210236e-07,
	"loss": 0.4245,
	"mean_token_accuracy": 0.8379955619573594,
	"step": 2225
	},
	{
	"epoch": 0.9445150360016942,
	"grad_norm": 1.13493837929642,
	"learning_rate": 1.8713031593380116e-07,
	"loss": 0.405,
	"mean_token_accuracy": 0.8368137925863266,
	"step": 2230
	},
	{
	"epoch": 0.9466327827191868,
	"grad_norm": 1.1326422720007092,
	"learning_rate": 1.731587540747903e-07,
	"loss": 0.4164,
	"mean_token_accuracy": 0.839913833141327,
	"step": 2235
	},
	{
	"epoch": 0.9487505294366794,
	"grad_norm": 1.1288581153860058,
	"learning_rate": 1.597246479364345e-07,
	"loss": 0.4345,
	"mean_token_accuracy": 0.8263521671295166,
	"step": 2240
	},
	{
	"epoch": 0.9508682761541719,
	"grad_norm": 1.0618048867408285,
	"learning_rate": 1.4682873226523064e-07,
	"loss": 0.4116,
	"mean_token_accuracy": 0.8380947977304458,
	"step": 2245
	},
	{
	"epoch": 0.9529860228716646,
	"grad_norm": 1.0089748524009554,
	"learning_rate": 1.3447171237262912e-07,
	"loss": 0.4281,
	"mean_token_accuracy": 0.8311914891004563,
	"step": 2250
	},
	{
	"epoch": 0.9551037695891571,
	"grad_norm": 1.1718653607363838,
	"learning_rate": 1.2265426409645676e-07,
	"loss": 0.4205,
	"mean_token_accuracy": 0.8367854833602906,
	"step": 2255
	},
	{
	"epoch": 0.9572215163066498,
	"grad_norm": 1.009709808393184,
	"learning_rate": 1.1137703376395304e-07,
	"loss": 0.4307,
	"mean_token_accuracy": 0.8332184463739395,
	"step": 2260
	},
	{
	"epoch": 0.9593392630241423,
	"grad_norm": 1.0456672123180084,
	"learning_rate": 1.0064063815642178e-07,
	"loss": 0.4143,
	"mean_token_accuracy": 0.8407183200120926,
	"step": 2265
	},
	{
	"epoch": 0.961457009741635,
	"grad_norm": 1.4564232381895734,
	"learning_rate": 9.044566447549697e-08,
	"loss": 0.3935,
	"mean_token_accuracy": 0.843877837061882,
	"step": 2270
	},
	{
	"epoch": 0.9635747564591275,
	"grad_norm": 1.006395133879737,
	"learning_rate": 8.079267031102844e-08,
	"loss": 0.4379,
	"mean_token_accuracy": 0.8322035163640976,
	"step": 2275
	},
	{
	"epoch": 0.96569250317662,
	"grad_norm": 1.0451381392295622,
	"learning_rate": 7.16821836105841e-08,
	"loss": 0.3998,
	"mean_token_accuracy": 0.8473025262355804,
	"step": 2280
	},
	{
	"epoch": 0.9678102498941127,
	"grad_norm": 1.0472971428422386,
	"learning_rate": 6.311470265057518e-08,
	"loss": 0.423,
	"mean_token_accuracy": 0.8354467749595642,
	"step": 2285
	},
	{
	"epoch": 0.9699279966116052,
	"grad_norm": 1.1605199240395647,
	"learning_rate": 5.5090696009004744e-08,
	"loss": 0.4257,
	"mean_token_accuracy": 0.8360013753175736,
	"step": 2290
	},
	{
	"epoch": 0.9720457433290979,
	"grad_norm": 0.9898182837486158,
	"learning_rate": 4.761060253984151e-08,
	"loss": 0.4204,
	"mean_token_accuracy": 0.8367842882871628,
	"step": 2295
	},
	{
	"epoch": 0.9741634900465904,
	"grad_norm": 1.088987157568079,
	"learning_rate": 4.067483134901573e-08,
	"loss": 0.4134,
	"mean_token_accuracy": 0.83856400847435,
	"step": 2300
	},
	{
	"epoch": 0.976281236764083,
	"grad_norm": 1.0295706774122013,
	"learning_rate": 3.4283761772042623e-08,
	"loss": 0.4224,
	"mean_token_accuracy": 0.8354990780353546,
	"step": 2305
	},
	{
	"epoch": 0.9783989834815756,
	"grad_norm": 1.0694735478921555,
	"learning_rate": 2.84377433532812e-08,
	"loss": 0.4305,
	"mean_token_accuracy": 0.8316824287176132,
	"step": 2310
	},
	{
	"epoch": 0.9805167301990682,
	"grad_norm": 1.0827744380795652,
	"learning_rate": 2.3137095826809564e-08,
	"loss": 0.402,
	"mean_token_accuracy": 0.8404913783073426,
	"step": 2315
	},
	{
	"epoch": 0.9826344769165608,
	"grad_norm": 1.0960538876783272,
	"learning_rate": 1.8382109098944444e-08,
	"loss": 0.4352,
	"mean_token_accuracy": 0.8338410943746567,
	"step": 2320
	},
	{
	"epoch": 0.9847522236340533,
	"grad_norm": 1.1206569874331853,
	"learning_rate": 1.4173043232380557e-08,
	"loss": 0.4076,
	"mean_token_accuracy": 0.8435803085565567,
	"step": 2325
	},
	{
	"epoch": 0.986869970351546,
	"grad_norm": 1.0708342349134583,
	"learning_rate": 1.0510128431968635e-08,
	"loss": 0.4041,
	"mean_token_accuracy": 0.8435177773237228,
	"step": 2330
	},
	{
	"epoch": 0.9889877170690385,
	"grad_norm": 1.0195754299190762,
	"learning_rate": 7.3935650321255156e-09,
	"loss": 0.4017,
	"mean_token_accuracy": 0.8434190511703491,
	"step": 2335
	},
	{
	"epoch": 0.9911054637865311,
	"grad_norm": 1.043562362927536,
	"learning_rate": 4.823523485879556e-09,
	"loss": 0.4441,
	"mean_token_accuracy": 0.8331767469644547,
	"step": 2340
	},
	{
	"epoch": 0.9932232105040237,
	"grad_norm": 0.9692528305370003,
	"learning_rate": 2.800144355540324e-09,
	"loss": 0.4112,
	"mean_token_accuracy": 0.836205193400383,
	"step": 2345
	},
	{
	"epoch": 0.9953409572215163,
	"grad_norm": 0.9767634882260735,
	"learning_rate": 1.32353830502141e-09,
	"loss": 0.4233,
	"mean_token_accuracy": 0.8327444672584534,
	"step": 2350
	},
	{
	"epoch": 0.9974587039390089,
	"grad_norm": 1.1074445733229596,
	"learning_rate": 3.9378609377971335e-10,
	"loss": 0.3959,
	"mean_token_accuracy": 0.8446923106908798,
	"step": 2355
	},
	{
	"epoch": 0.9995764506565015,
	"grad_norm": 1.0245959330198788,
	"learning_rate": 1.0938572402308111e-11,
	"loss": 0.4106,
	"mean_token_accuracy": 0.8339618355035782,
	"step": 2360
	},
	{
	"epoch": 1.0,
	"mean_token_accuracy": 0.890313521027565,
	"step": 2361,
	"total_flos": 451385831948288.0,
	"train_loss": 0.48239256052181206,
	"train_runtime": 37146.7848,
	"train_samples_per_second": 1.017,
	"train_steps_per_second": 0.064
	}
	],
	"logging_steps": 5,
	"max_steps": 2361,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 451385831948288.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}