Qwen2-VL-2B-Instruct-SFT / trainer_state.json

Model save

2c69336 verified 11 days ago

123 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9998197093715069,
	"eval_steps": 500,
	"global_step": 3466,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0014423250279450475,
	"grad_norm": 23.09968734754774,
	"learning_rate": 2.3054755043227666e-07,
	"loss": 12.1657,
	"step": 5
	},
	{
	"epoch": 0.002884650055890095,
	"grad_norm": 23.350567085111635,
	"learning_rate": 5.187319884726226e-07,
	"loss": 12.1499,
	"step": 10
	},
	{
	"epoch": 0.004326975083835142,
	"grad_norm": 22.840877913954497,
	"learning_rate": 8.069164265129684e-07,
	"loss": 12.0857,
	"step": 15
	},
	{
	"epoch": 0.00576930011178019,
	"grad_norm": 21.40321138460624,
	"learning_rate": 1.0951008645533142e-06,
	"loss": 11.8028,
	"step": 20
	},
	{
	"epoch": 0.007211625139725237,
	"grad_norm": 18.192353108517974,
	"learning_rate": 1.3832853025936602e-06,
	"loss": 11.3384,
	"step": 25
	},
	{
	"epoch": 0.008653950167670284,
	"grad_norm": 18.559232783911973,
	"learning_rate": 1.6714697406340058e-06,
	"loss": 10.3127,
	"step": 30
	},
	{
	"epoch": 0.010096275195615331,
	"grad_norm": 37.79150391064707,
	"learning_rate": 1.959654178674352e-06,
	"loss": 9.0664,
	"step": 35
	},
	{
	"epoch": 0.01153860022356038,
	"grad_norm": 33.772043740311254,
	"learning_rate": 2.247838616714698e-06,
	"loss": 7.409,
	"step": 40
	},
	{
	"epoch": 0.012980925251505427,
	"grad_norm": 23.04632172544007,
	"learning_rate": 2.5360230547550434e-06,
	"loss": 6.3338,
	"step": 45
	},
	{
	"epoch": 0.014423250279450473,
	"grad_norm": 25.32559722397877,
	"learning_rate": 2.8242074927953894e-06,
	"loss": 4.4908,
	"step": 50
	},
	{
	"epoch": 0.015865575307395522,
	"grad_norm": 9.143968031022688,
	"learning_rate": 3.1123919308357354e-06,
	"loss": 3.2978,
	"step": 55
	},
	{
	"epoch": 0.01730790033534057,
	"grad_norm": 2.3359297684099745,
	"learning_rate": 3.400576368876081e-06,
	"loss": 2.6887,
	"step": 60
	},
	{
	"epoch": 0.018750225363285616,
	"grad_norm": 1.5235792893524585,
	"learning_rate": 3.6887608069164266e-06,
	"loss": 2.6051,
	"step": 65
	},
	{
	"epoch": 0.020192550391230663,
	"grad_norm": 1.6452371227737381,
	"learning_rate": 3.976945244956772e-06,
	"loss": 2.5288,
	"step": 70
	},
	{
	"epoch": 0.021634875419175713,
	"grad_norm": 2.3877151673363133,
	"learning_rate": 4.265129682997119e-06,
	"loss": 2.4368,
	"step": 75
	},
	{
	"epoch": 0.02307720044712076,
	"grad_norm": 3.5448230000902283,
	"learning_rate": 4.553314121037464e-06,
	"loss": 2.2394,
	"step": 80
	},
	{
	"epoch": 0.024519525475065806,
	"grad_norm": 3.998099329525319,
	"learning_rate": 4.84149855907781e-06,
	"loss": 2.0687,
	"step": 85
	},
	{
	"epoch": 0.025961850503010853,
	"grad_norm": 5.3900301279889025,
	"learning_rate": 5.129682997118156e-06,
	"loss": 2.0427,
	"step": 90
	},
	{
	"epoch": 0.0274041755309559,
	"grad_norm": 7.2317244995568215,
	"learning_rate": 5.417867435158502e-06,
	"loss": 1.9167,
	"step": 95
	},
	{
	"epoch": 0.028846500558900947,
	"grad_norm": 4.190169407947923,
	"learning_rate": 5.706051873198848e-06,
	"loss": 1.8528,
	"step": 100
	},
	{
	"epoch": 0.030288825586845997,
	"grad_norm": 5.165106554451897,
	"learning_rate": 5.994236311239193e-06,
	"loss": 1.8751,
	"step": 105
	},
	{
	"epoch": 0.031731150614791044,
	"grad_norm": 3.2421300129897426,
	"learning_rate": 6.2824207492795395e-06,
	"loss": 1.7973,
	"step": 110
	},
	{
	"epoch": 0.03317347564273609,
	"grad_norm": 4.460292781455887,
	"learning_rate": 6.570605187319885e-06,
	"loss": 1.6292,
	"step": 115
	},
	{
	"epoch": 0.03461580067068114,
	"grad_norm": 4.913131259117871,
	"learning_rate": 6.8587896253602315e-06,
	"loss": 1.655,
	"step": 120
	},
	{
	"epoch": 0.03605812569862619,
	"grad_norm": 4.1881116653103945,
	"learning_rate": 7.146974063400577e-06,
	"loss": 1.664,
	"step": 125
	},
	{
	"epoch": 0.03750045072657123,
	"grad_norm": 5.723431293294362,
	"learning_rate": 7.4351585014409235e-06,
	"loss": 1.6202,
	"step": 130
	},
	{
	"epoch": 0.03894277575451628,
	"grad_norm": 4.909602119186479,
	"learning_rate": 7.723342939481268e-06,
	"loss": 1.5486,
	"step": 135
	},
	{
	"epoch": 0.040385100782461325,
	"grad_norm": 5.928676345818394,
	"learning_rate": 8.011527377521614e-06,
	"loss": 1.4965,
	"step": 140
	},
	{
	"epoch": 0.041827425810406375,
	"grad_norm": 5.5830317263384845,
	"learning_rate": 8.299711815561961e-06,
	"loss": 1.4195,
	"step": 145
	},
	{
	"epoch": 0.043269750838351426,
	"grad_norm": 5.587820490379444,
	"learning_rate": 8.587896253602305e-06,
	"loss": 1.3894,
	"step": 150
	},
	{
	"epoch": 0.04471207586629647,
	"grad_norm": 3.5851612990900836,
	"learning_rate": 8.876080691642652e-06,
	"loss": 1.4654,
	"step": 155
	},
	{
	"epoch": 0.04615440089424152,
	"grad_norm": 4.792344497245253,
	"learning_rate": 9.164265129682998e-06,
	"loss": 1.3801,
	"step": 160
	},
	{
	"epoch": 0.04759672592218656,
	"grad_norm": 3.5644574463856387,
	"learning_rate": 9.452449567723344e-06,
	"loss": 1.3527,
	"step": 165
	},
	{
	"epoch": 0.04903905095013161,
	"grad_norm": 4.245088356022904,
	"learning_rate": 9.740634005763689e-06,
	"loss": 1.3465,
	"step": 170
	},
	{
	"epoch": 0.050481375978076656,
	"grad_norm": 4.623244884122231,
	"learning_rate": 1.0028818443804036e-05,
	"loss": 1.3647,
	"step": 175
	},
	{
	"epoch": 0.05192370100602171,
	"grad_norm": 3.5591972450196043,
	"learning_rate": 1.031700288184438e-05,
	"loss": 1.261,
	"step": 180
	},
	{
	"epoch": 0.05336602603396676,
	"grad_norm": 3.6288737317693243,
	"learning_rate": 1.0605187319884726e-05,
	"loss": 1.2178,
	"step": 185
	},
	{
	"epoch": 0.0548083510619118,
	"grad_norm": 5.472679192029011,
	"learning_rate": 1.0893371757925073e-05,
	"loss": 1.2372,
	"step": 190
	},
	{
	"epoch": 0.05625067608985685,
	"grad_norm": 2.987171924181164,
	"learning_rate": 1.1181556195965419e-05,
	"loss": 1.1878,
	"step": 195
	},
	{
	"epoch": 0.057693001117801894,
	"grad_norm": 3.633711033064426,
	"learning_rate": 1.1469740634005764e-05,
	"loss": 1.1895,
	"step": 200
	},
	{
	"epoch": 0.059135326145746944,
	"grad_norm": 3.9402926571067978,
	"learning_rate": 1.175792507204611e-05,
	"loss": 1.1368,
	"step": 205
	},
	{
	"epoch": 0.060577651173691995,
	"grad_norm": 3.527134311033913,
	"learning_rate": 1.2046109510086457e-05,
	"loss": 1.1306,
	"step": 210
	},
	{
	"epoch": 0.06201997620163704,
	"grad_norm": 3.679407663475352,
	"learning_rate": 1.2334293948126803e-05,
	"loss": 1.0846,
	"step": 215
	},
	{
	"epoch": 0.06346230122958209,
	"grad_norm": 3.1104059182965047,
	"learning_rate": 1.2622478386167147e-05,
	"loss": 1.1201,
	"step": 220
	},
	{
	"epoch": 0.06490462625752713,
	"grad_norm": 4.203869282005421,
	"learning_rate": 1.2910662824207494e-05,
	"loss": 1.0694,
	"step": 225
	},
	{
	"epoch": 0.06634695128547217,
	"grad_norm": 3.936128919901792,
	"learning_rate": 1.319884726224784e-05,
	"loss": 1.0191,
	"step": 230
	},
	{
	"epoch": 0.06778927631341723,
	"grad_norm": 2.2362445033305804,
	"learning_rate": 1.3487031700288185e-05,
	"loss": 0.9774,
	"step": 235
	},
	{
	"epoch": 0.06923160134136228,
	"grad_norm": 2.757438827888907,
	"learning_rate": 1.377521613832853e-05,
	"loss": 1.0124,
	"step": 240
	},
	{
	"epoch": 0.07067392636930732,
	"grad_norm": 3.4599226565163783,
	"learning_rate": 1.4063400576368878e-05,
	"loss": 0.9295,
	"step": 245
	},
	{
	"epoch": 0.07211625139725238,
	"grad_norm": 2.0262096895794963,
	"learning_rate": 1.4351585014409224e-05,
	"loss": 0.9118,
	"step": 250
	},
	{
	"epoch": 0.07355857642519742,
	"grad_norm": 2.487400868386021,
	"learning_rate": 1.4639769452449568e-05,
	"loss": 0.9409,
	"step": 255
	},
	{
	"epoch": 0.07500090145314246,
	"grad_norm": 1.9303088742335475,
	"learning_rate": 1.4927953890489915e-05,
	"loss": 0.9211,
	"step": 260
	},
	{
	"epoch": 0.0764432264810875,
	"grad_norm": 2.175412817851971,
	"learning_rate": 1.521613832853026e-05,
	"loss": 0.9168,
	"step": 265
	},
	{
	"epoch": 0.07788555150903256,
	"grad_norm": 2.5796504124225033,
	"learning_rate": 1.5504322766570608e-05,
	"loss": 0.9527,
	"step": 270
	},
	{
	"epoch": 0.0793278765369776,
	"grad_norm": 1.9788435183920994,
	"learning_rate": 1.5792507204610953e-05,
	"loss": 0.8426,
	"step": 275
	},
	{
	"epoch": 0.08077020156492265,
	"grad_norm": 2.003074548053739,
	"learning_rate": 1.60806916426513e-05,
	"loss": 0.8527,
	"step": 280
	},
	{
	"epoch": 0.08221252659286771,
	"grad_norm": 2.1994335722383602,
	"learning_rate": 1.6368876080691644e-05,
	"loss": 0.8072,
	"step": 285
	},
	{
	"epoch": 0.08365485162081275,
	"grad_norm": 1.726445070641134,
	"learning_rate": 1.665706051873199e-05,
	"loss": 0.8163,
	"step": 290
	},
	{
	"epoch": 0.0850971766487578,
	"grad_norm": 2.350691118327581,
	"learning_rate": 1.6945244956772336e-05,
	"loss": 0.7651,
	"step": 295
	},
	{
	"epoch": 0.08653950167670285,
	"grad_norm": 2.6639655167915115,
	"learning_rate": 1.723342939481268e-05,
	"loss": 0.7535,
	"step": 300
	},
	{
	"epoch": 0.0879818267046479,
	"grad_norm": 1.3919563172463725,
	"learning_rate": 1.7521613832853027e-05,
	"loss": 0.785,
	"step": 305
	},
	{
	"epoch": 0.08942415173259294,
	"grad_norm": 1.2944766289360783,
	"learning_rate": 1.7809798270893372e-05,
	"loss": 0.7111,
	"step": 310
	},
	{
	"epoch": 0.09086647676053798,
	"grad_norm": 1.4798988266070112,
	"learning_rate": 1.8097982708933718e-05,
	"loss": 0.7293,
	"step": 315
	},
	{
	"epoch": 0.09230880178848304,
	"grad_norm": 1.1830162313483426,
	"learning_rate": 1.8386167146974067e-05,
	"loss": 0.7231,
	"step": 320
	},
	{
	"epoch": 0.09375112681642808,
	"grad_norm": 1.5568610974134778,
	"learning_rate": 1.867435158501441e-05,
	"loss": 0.7445,
	"step": 325
	},
	{
	"epoch": 0.09519345184437313,
	"grad_norm": 1.1492164494899182,
	"learning_rate": 1.8962536023054755e-05,
	"loss": 0.6959,
	"step": 330
	},
	{
	"epoch": 0.09663577687231818,
	"grad_norm": 1.0978857201097723,
	"learning_rate": 1.9250720461095104e-05,
	"loss": 0.7057,
	"step": 335
	},
	{
	"epoch": 0.09807810190026323,
	"grad_norm": 1.0096489653703298,
	"learning_rate": 1.953890489913545e-05,
	"loss": 0.6772,
	"step": 340
	},
	{
	"epoch": 0.09952042692820827,
	"grad_norm": 1.1232844613521993,
	"learning_rate": 1.9827089337175795e-05,
	"loss": 0.7246,
	"step": 345
	},
	{
	"epoch": 0.10096275195615331,
	"grad_norm": 1.02243795388932,
	"learning_rate": 1.9999979709215212e-05,
	"loss": 0.7024,
	"step": 350
	},
	{
	"epoch": 0.10240507698409837,
	"grad_norm": 1.1367801539352143,
	"learning_rate": 1.9999751438831965e-05,
	"loss": 0.6489,
	"step": 355
	},
	{
	"epoch": 0.10384740201204341,
	"grad_norm": 1.1572043181625398,
	"learning_rate": 1.9999269540393507e-05,
	"loss": 0.6489,
	"step": 360
	},
	{
	"epoch": 0.10528972703998846,
	"grad_norm": 1.0269240416486167,
	"learning_rate": 1.9998534026122433e-05,
	"loss": 0.6782,
	"step": 365
	},
	{
	"epoch": 0.10673205206793351,
	"grad_norm": 0.9511160065038861,
	"learning_rate": 1.9997544914673915e-05,
	"loss": 0.6312,
	"step": 370
	},
	{
	"epoch": 0.10817437709587856,
	"grad_norm": 1.1374311508874984,
	"learning_rate": 1.999630223113522e-05,
	"loss": 0.6628,
	"step": 375
	},
	{
	"epoch": 0.1096167021238236,
	"grad_norm": 1.450941328478541,
	"learning_rate": 1.9994806007025068e-05,
	"loss": 0.6389,
	"step": 380
	},
	{
	"epoch": 0.11105902715176866,
	"grad_norm": 0.8046806001901237,
	"learning_rate": 1.9993056280292845e-05,
	"loss": 0.6482,
	"step": 385
	},
	{
	"epoch": 0.1125013521797137,
	"grad_norm": 0.8216403494158578,
	"learning_rate": 1.999105309531763e-05,
	"loss": 0.6078,
	"step": 390
	},
	{
	"epoch": 0.11394367720765874,
	"grad_norm": 0.8600864577290717,
	"learning_rate": 1.9988796502907083e-05,
	"loss": 0.63,
	"step": 395
	},
	{
	"epoch": 0.11538600223560379,
	"grad_norm": 0.798579467879802,
	"learning_rate": 1.9986286560296134e-05,
	"loss": 0.6109,
	"step": 400
	},
	{
	"epoch": 0.11682832726354885,
	"grad_norm": 0.7668970837973854,
	"learning_rate": 1.998352333114556e-05,
	"loss": 0.5857,
	"step": 405
	},
	{
	"epoch": 0.11827065229149389,
	"grad_norm": 1.0143366745206854,
	"learning_rate": 1.998050688554034e-05,
	"loss": 0.6176,
	"step": 410
	},
	{
	"epoch": 0.11971297731943893,
	"grad_norm": 0.7114180483975799,
	"learning_rate": 1.9977237299987903e-05,
	"loss": 0.62,
	"step": 415
	},
	{
	"epoch": 0.12115530234738399,
	"grad_norm": 0.8179413343809848,
	"learning_rate": 1.997371465741617e-05,
	"loss": 0.6205,
	"step": 420
	},
	{
	"epoch": 0.12259762737532903,
	"grad_norm": 0.6435940720725398,
	"learning_rate": 1.996993904717146e-05,
	"loss": 0.5878,
	"step": 425
	},
	{
	"epoch": 0.12403995240327408,
	"grad_norm": 0.9102246188273324,
	"learning_rate": 1.9965910565016223e-05,
	"loss": 0.6021,
	"step": 430
	},
	{
	"epoch": 0.12548227743121912,
	"grad_norm": 0.6153476600060466,
	"learning_rate": 1.9961629313126608e-05,
	"loss": 0.5674,
	"step": 435
	},
	{
	"epoch": 0.12692460245916418,
	"grad_norm": 0.5823753109992822,
	"learning_rate": 1.9957095400089875e-05,
	"loss": 0.5819,
	"step": 440
	},
	{
	"epoch": 0.12836692748710923,
	"grad_norm": 0.6280650049871973,
	"learning_rate": 1.9952308940901634e-05,
	"loss": 0.6357,
	"step": 445
	},
	{
	"epoch": 0.12980925251505426,
	"grad_norm": 1.12163730124818,
	"learning_rate": 1.9947270056962934e-05,
	"loss": 0.5659,
	"step": 450
	},
	{
	"epoch": 0.13125157754299932,
	"grad_norm": 0.8453741002711367,
	"learning_rate": 1.994197887607719e-05,
	"loss": 0.5423,
	"step": 455
	},
	{
	"epoch": 0.13269390257094435,
	"grad_norm": 0.6945577095672939,
	"learning_rate": 1.993643553244693e-05,
	"loss": 0.6118,
	"step": 460
	},
	{
	"epoch": 0.1341362275988894,
	"grad_norm": 0.6080087347638511,
	"learning_rate": 1.993064016667039e-05,
	"loss": 0.5912,
	"step": 465
	},
	{
	"epoch": 0.13557855262683446,
	"grad_norm": 0.5072027520003524,
	"learning_rate": 1.992459292573796e-05,
	"loss": 0.6086,
	"step": 470
	},
	{
	"epoch": 0.1370208776547795,
	"grad_norm": 0.5194397753829619,
	"learning_rate": 1.991829396302845e-05,
	"loss": 0.5554,
	"step": 475
	},
	{
	"epoch": 0.13846320268272455,
	"grad_norm": 0.6531400636419847,
	"learning_rate": 1.9911743438305203e-05,
	"loss": 0.5738,
	"step": 480
	},
	{
	"epoch": 0.1399055277106696,
	"grad_norm": 0.8007993447245763,
	"learning_rate": 1.990494151771202e-05,
	"loss": 0.5698,
	"step": 485
	},
	{
	"epoch": 0.14134785273861464,
	"grad_norm": 0.7192330669398362,
	"learning_rate": 1.989788837376899e-05,
	"loss": 0.5629,
	"step": 490
	},
	{
	"epoch": 0.1427901777665597,
	"grad_norm": 0.688440868686088,
	"learning_rate": 1.989058418536807e-05,
	"loss": 0.5734,
	"step": 495
	},
	{
	"epoch": 0.14423250279450475,
	"grad_norm": 1.001172764554856,
	"learning_rate": 1.988302913776858e-05,
	"loss": 0.5745,
	"step": 500
	},
	{
	"epoch": 0.14423250279450475,
	"eval_loss": 0.568706750869751,
	"eval_runtime": 161.3667,
	"eval_samples_per_second": 11.161,
	"eval_steps_per_second": 2.795,
	"step": 500
	},
	{
	"epoch": 0.14567482782244978,
	"grad_norm": 1.0515733209433527,
	"learning_rate": 1.9875223422592485e-05,
	"loss": 0.5704,
	"step": 505
	},
	{
	"epoch": 0.14711715285039484,
	"grad_norm": 1.0276945765068186,
	"learning_rate": 1.986716723781954e-05,
	"loss": 0.6123,
	"step": 510
	},
	{
	"epoch": 0.1485594778783399,
	"grad_norm": 0.8043743845845657,
	"learning_rate": 1.985886078778227e-05,
	"loss": 0.5437,
	"step": 515
	},
	{
	"epoch": 0.15000180290628493,
	"grad_norm": 0.6535595881064415,
	"learning_rate": 1.9850304283160793e-05,
	"loss": 0.5527,
	"step": 520
	},
	{
	"epoch": 0.15144412793422998,
	"grad_norm": 0.7357564272936004,
	"learning_rate": 1.9841497940977464e-05,
	"loss": 0.5432,
	"step": 525
	},
	{
	"epoch": 0.152886452962175,
	"grad_norm": 0.7287222676647807,
	"learning_rate": 1.983244198459138e-05,
	"loss": 0.5811,
	"step": 530
	},
	{
	"epoch": 0.15432877799012007,
	"grad_norm": 0.5697752505815841,
	"learning_rate": 1.982313664369271e-05,
	"loss": 0.5627,
	"step": 535
	},
	{
	"epoch": 0.15577110301806513,
	"grad_norm": 0.5170616797914624,
	"learning_rate": 1.981358215429687e-05,
	"loss": 0.5592,
	"step": 540
	},
	{
	"epoch": 0.15721342804601016,
	"grad_norm": 0.619913426569597,
	"learning_rate": 1.9803778758738543e-05,
	"loss": 0.5435,
	"step": 545
	},
	{
	"epoch": 0.1586557530739552,
	"grad_norm": 0.9727823301261521,
	"learning_rate": 1.9793726705665524e-05,
	"loss": 0.5889,
	"step": 550
	},
	{
	"epoch": 0.16009807810190027,
	"grad_norm": 0.6044688838902901,
	"learning_rate": 1.9783426250032412e-05,
	"loss": 0.5678,
	"step": 555
	},
	{
	"epoch": 0.1615404031298453,
	"grad_norm": 0.46024598144245266,
	"learning_rate": 1.9772877653094165e-05,
	"loss": 0.5639,
	"step": 560
	},
	{
	"epoch": 0.16298272815779036,
	"grad_norm": 0.45100341602786603,
	"learning_rate": 1.9762081182399434e-05,
	"loss": 0.5717,
	"step": 565
	},
	{
	"epoch": 0.16442505318573541,
	"grad_norm": 0.5540308655652189,
	"learning_rate": 1.9751037111783818e-05,
	"loss": 0.5623,
	"step": 570
	},
	{
	"epoch": 0.16586737821368044,
	"grad_norm": 0.43976603899998645,
	"learning_rate": 1.9739745721362897e-05,
	"loss": 0.5319,
	"step": 575
	},
	{
	"epoch": 0.1673097032416255,
	"grad_norm": 0.4612500025708451,
	"learning_rate": 1.9728207297525125e-05,
	"loss": 0.5653,
	"step": 580
	},
	{
	"epoch": 0.16875202826957056,
	"grad_norm": 0.5752333041985558,
	"learning_rate": 1.9716422132924572e-05,
	"loss": 0.567,
	"step": 585
	},
	{
	"epoch": 0.1701943532975156,
	"grad_norm": 0.5369943570453672,
	"learning_rate": 1.9704390526473515e-05,
	"loss": 0.5609,
	"step": 590
	},
	{
	"epoch": 0.17163667832546065,
	"grad_norm": 0.5164720235053389,
	"learning_rate": 1.9692112783334826e-05,
	"loss": 0.5415,
	"step": 595
	},
	{
	"epoch": 0.1730790033534057,
	"grad_norm": 0.7665382521888024,
	"learning_rate": 1.967958921491426e-05,
	"loss": 0.5671,
	"step": 600
	},
	{
	"epoch": 0.17452132838135073,
	"grad_norm": 0.6256340257615823,
	"learning_rate": 1.966682013885255e-05,
	"loss": 0.5533,
	"step": 605
	},
	{
	"epoch": 0.1759636534092958,
	"grad_norm": 0.4893424331522886,
	"learning_rate": 1.9653805879017323e-05,
	"loss": 0.5589,
	"step": 610
	},
	{
	"epoch": 0.17740597843724082,
	"grad_norm": 0.4930248858437027,
	"learning_rate": 1.964054676549494e-05,
	"loss": 0.5418,
	"step": 615
	},
	{
	"epoch": 0.17884830346518588,
	"grad_norm": 0.45814407628412845,
	"learning_rate": 1.9627043134582068e-05,
	"loss": 0.5195,
	"step": 620
	},
	{
	"epoch": 0.18029062849313093,
	"grad_norm": 0.5315704703868885,
	"learning_rate": 1.9613295328777187e-05,
	"loss": 0.5095,
	"step": 625
	},
	{
	"epoch": 0.18173295352107596,
	"grad_norm": 0.43146076740416167,
	"learning_rate": 1.959930369677189e-05,
	"loss": 0.4929,
	"step": 630
	},
	{
	"epoch": 0.18317527854902102,
	"grad_norm": 0.4627882494650573,
	"learning_rate": 1.958506859344204e-05,
	"loss": 0.5141,
	"step": 635
	},
	{
	"epoch": 0.18461760357696608,
	"grad_norm": 0.621672972720691,
	"learning_rate": 1.9570590379838767e-05,
	"loss": 0.5486,
	"step": 640
	},
	{
	"epoch": 0.1860599286049111,
	"grad_norm": 0.5063460018719447,
	"learning_rate": 1.9555869423179316e-05,
	"loss": 0.5497,
	"step": 645
	},
	{
	"epoch": 0.18750225363285616,
	"grad_norm": 0.48895947210824475,
	"learning_rate": 1.9540906096837727e-05,
	"loss": 0.5465,
	"step": 650
	},
	{
	"epoch": 0.18894457866080122,
	"grad_norm": 0.47357663586358684,
	"learning_rate": 1.9525700780335372e-05,
	"loss": 0.529,
	"step": 655
	},
	{
	"epoch": 0.19038690368874625,
	"grad_norm": 0.43786638884850015,
	"learning_rate": 1.951025385933132e-05,
	"loss": 0.522,
	"step": 660
	},
	{
	"epoch": 0.1918292287166913,
	"grad_norm": 0.5828551791972233,
	"learning_rate": 1.9494565725612565e-05,
	"loss": 0.5334,
	"step": 665
	},
	{
	"epoch": 0.19327155374463637,
	"grad_norm": 0.4669699168406431,
	"learning_rate": 1.9478636777084077e-05,
	"loss": 0.4846,
	"step": 670
	},
	{
	"epoch": 0.1947138787725814,
	"grad_norm": 0.5626195687859905,
	"learning_rate": 1.946246741775873e-05,
	"loss": 0.556,
	"step": 675
	},
	{
	"epoch": 0.19615620380052645,
	"grad_norm": 0.5482755680769119,
	"learning_rate": 1.9446058057747025e-05,
	"loss": 0.4561,
	"step": 680
	},
	{
	"epoch": 0.1975985288284715,
	"grad_norm": 0.4878018831010534,
	"learning_rate": 1.9429409113246715e-05,
	"loss": 0.526,
	"step": 685
	},
	{
	"epoch": 0.19904085385641654,
	"grad_norm": 0.7436357434374212,
	"learning_rate": 1.9412521006532245e-05,
	"loss": 0.5088,
	"step": 690
	},
	{
	"epoch": 0.2004831788843616,
	"grad_norm": 0.45530676409796045,
	"learning_rate": 1.939539416594402e-05,
	"loss": 0.5214,
	"step": 695
	},
	{
	"epoch": 0.20192550391230663,
	"grad_norm": 0.6302948823981896,
	"learning_rate": 1.937802902587757e-05,
	"loss": 0.5591,
	"step": 700
	},
	{
	"epoch": 0.20336782894025168,
	"grad_norm": 0.4921513503843826,
	"learning_rate": 1.936042602677251e-05,
	"loss": 0.5288,
	"step": 705
	},
	{
	"epoch": 0.20481015396819674,
	"grad_norm": 0.5421091687931597,
	"learning_rate": 1.934258561510138e-05,
	"loss": 0.5151,
	"step": 710
	},
	{
	"epoch": 0.20625247899614177,
	"grad_norm": 0.7576428493111558,
	"learning_rate": 1.932450824335832e-05,
	"loss": 0.477,
	"step": 715
	},
	{
	"epoch": 0.20769480402408683,
	"grad_norm": 0.424961853700426,
	"learning_rate": 1.9306194370047592e-05,
	"loss": 0.5342,
	"step": 720
	},
	{
	"epoch": 0.20913712905203188,
	"grad_norm": 0.49906945581307455,
	"learning_rate": 1.9287644459671948e-05,
	"loss": 0.5334,
	"step": 725
	},
	{
	"epoch": 0.2105794540799769,
	"grad_norm": 0.46177937508565325,
	"learning_rate": 1.926885898272085e-05,
	"loss": 0.4989,
	"step": 730
	},
	{
	"epoch": 0.21202177910792197,
	"grad_norm": 0.4920606306275181,
	"learning_rate": 1.9249838415658543e-05,
	"loss": 0.5448,
	"step": 735
	},
	{
	"epoch": 0.21346410413586703,
	"grad_norm": 0.4191101613829332,
	"learning_rate": 1.9230583240911954e-05,
	"loss": 0.4694,
	"step": 740
	},
	{
	"epoch": 0.21490642916381206,
	"grad_norm": 0.48817506876963557,
	"learning_rate": 1.9211093946858484e-05,
	"loss": 0.5173,
	"step": 745
	},
	{
	"epoch": 0.21634875419175711,
	"grad_norm": 0.5126984233381934,
	"learning_rate": 1.919137102781359e-05,
	"loss": 0.5074,
	"step": 750
	},
	{
	"epoch": 0.21779107921970217,
	"grad_norm": 0.5334260917924061,
	"learning_rate": 1.9171414984018266e-05,
	"loss": 0.4917,
	"step": 755
	},
	{
	"epoch": 0.2192334042476472,
	"grad_norm": 0.5501541841297073,
	"learning_rate": 1.915122632162635e-05,
	"loss": 0.5152,
	"step": 760
	},
	{
	"epoch": 0.22067572927559226,
	"grad_norm": 0.4359723210170646,
	"learning_rate": 1.913080555269169e-05,
	"loss": 0.5215,
	"step": 765
	},
	{
	"epoch": 0.22211805430353732,
	"grad_norm": 0.5662077360043514,
	"learning_rate": 1.911015319515515e-05,
	"loss": 0.5253,
	"step": 770
	},
	{
	"epoch": 0.22356037933148235,
	"grad_norm": 0.4764077159702808,
	"learning_rate": 1.908926977283148e-05,
	"loss": 0.5066,
	"step": 775
	},
	{
	"epoch": 0.2250027043594274,
	"grad_norm": 0.5639009005172965,
	"learning_rate": 1.9068155815396018e-05,
	"loss": 0.474,
	"step": 780
	},
	{
	"epoch": 0.22644502938737243,
	"grad_norm": 0.6776509031874417,
	"learning_rate": 1.904681185837128e-05,
	"loss": 0.5025,
	"step": 785
	},
	{
	"epoch": 0.2278873544153175,
	"grad_norm": 0.3940863617407268,
	"learning_rate": 1.9025238443113346e-05,
	"loss": 0.4781,
	"step": 790
	},
	{
	"epoch": 0.22932967944326255,
	"grad_norm": 0.5731371374463607,
	"learning_rate": 1.9003436116798156e-05,
	"loss": 0.5325,
	"step": 795
	},
	{
	"epoch": 0.23077200447120758,
	"grad_norm": 0.44630504407580995,
	"learning_rate": 1.898140543240762e-05,
	"loss": 0.5094,
	"step": 800
	},
	{
	"epoch": 0.23221432949915263,
	"grad_norm": 0.5013841323056458,
	"learning_rate": 1.8959146948715582e-05,
	"loss": 0.5123,
	"step": 805
	},
	{
	"epoch": 0.2336566545270977,
	"grad_norm": 0.6517172353158069,
	"learning_rate": 1.8936661230273677e-05,
	"loss": 0.4944,
	"step": 810
	},
	{
	"epoch": 0.23509897955504272,
	"grad_norm": 0.5321704297258375,
	"learning_rate": 1.8913948847396978e-05,
	"loss": 0.5111,
	"step": 815
	},
	{
	"epoch": 0.23654130458298778,
	"grad_norm": 0.5733385459091142,
	"learning_rate": 1.8891010376149554e-05,
	"loss": 0.5255,
	"step": 820
	},
	{
	"epoch": 0.23798362961093283,
	"grad_norm": 0.6439828549708082,
	"learning_rate": 1.8867846398329856e-05,
	"loss": 0.5224,
	"step": 825
	},
	{
	"epoch": 0.23942595463887786,
	"grad_norm": 0.526933741666615,
	"learning_rate": 1.884445750145595e-05,
	"loss": 0.4987,
	"step": 830
	},
	{
	"epoch": 0.24086827966682292,
	"grad_norm": 0.4358091890203275,
	"learning_rate": 1.882084427875062e-05,
	"loss": 0.5151,
	"step": 835
	},
	{
	"epoch": 0.24231060469476798,
	"grad_norm": 0.42052312366605993,
	"learning_rate": 1.8797007329126336e-05,
	"loss": 0.5292,
	"step": 840
	},
	{
	"epoch": 0.243752929722713,
	"grad_norm": 0.5162254671712243,
	"learning_rate": 1.8772947257170034e-05,
	"loss": 0.4701,
	"step": 845
	},
	{
	"epoch": 0.24519525475065806,
	"grad_norm": 0.41421320556868774,
	"learning_rate": 1.8748664673127814e-05,
	"loss": 0.4869,
	"step": 850
	},
	{
	"epoch": 0.2466375797786031,
	"grad_norm": 0.44489422959937447,
	"learning_rate": 1.872416019288944e-05,
	"loss": 0.5107,
	"step": 855
	},
	{
	"epoch": 0.24807990480654815,
	"grad_norm": 0.5131502882549939,
	"learning_rate": 1.8699434437972726e-05,
	"loss": 0.5002,
	"step": 860
	},
	{
	"epoch": 0.2495222298344932,
	"grad_norm": 0.4410628046298298,
	"learning_rate": 1.8674488035507776e-05,
	"loss": 0.5033,
	"step": 865
	},
	{
	"epoch": 0.25096455486243824,
	"grad_norm": 0.424822720640458,
	"learning_rate": 1.864932161822107e-05,
	"loss": 0.459,
	"step": 870
	},
	{
	"epoch": 0.2524068798903833,
	"grad_norm": 0.546763650924181,
	"learning_rate": 1.8623935824419416e-05,
	"loss": 0.4782,
	"step": 875
	},
	{
	"epoch": 0.25384920491832835,
	"grad_norm": 0.571446149303962,
	"learning_rate": 1.859833129797378e-05,
	"loss": 0.4971,
	"step": 880
	},
	{
	"epoch": 0.2552915299462734,
	"grad_norm": 0.3881051890411508,
	"learning_rate": 1.857250868830292e-05,
	"loss": 0.4645,
	"step": 885
	},
	{
	"epoch": 0.25673385497421847,
	"grad_norm": 0.4365270093969844,
	"learning_rate": 1.8546468650356947e-05,
	"loss": 0.4999,
	"step": 890
	},
	{
	"epoch": 0.25817618000216347,
	"grad_norm": 0.39922925876114046,
	"learning_rate": 1.852021184460069e-05,
	"loss": 0.4607,
	"step": 895
	},
	{
	"epoch": 0.2596185050301085,
	"grad_norm": 0.4385372209974039,
	"learning_rate": 1.849373893699697e-05,
	"loss": 0.5032,
	"step": 900
	},
	{
	"epoch": 0.2610608300580536,
	"grad_norm": 0.4289486219739114,
	"learning_rate": 1.8467050598989677e-05,
	"loss": 0.5003,
	"step": 905
	},
	{
	"epoch": 0.26250315508599864,
	"grad_norm": 0.4045886984758963,
	"learning_rate": 1.8440147507486765e-05,
	"loss": 0.4644,
	"step": 910
	},
	{
	"epoch": 0.2639454801139437,
	"grad_norm": 0.43637212820672877,
	"learning_rate": 1.8413030344843064e-05,
	"loss": 0.5057,
	"step": 915
	},
	{
	"epoch": 0.2653878051418887,
	"grad_norm": 0.468355616591299,
	"learning_rate": 1.838569979884301e-05,
	"loss": 0.4967,
	"step": 920
	},
	{
	"epoch": 0.26683013016983376,
	"grad_norm": 0.4257178939942325,
	"learning_rate": 1.835815656268314e-05,
	"loss": 0.4848,
	"step": 925
	},
	{
	"epoch": 0.2682724551977788,
	"grad_norm": 0.6504232751090008,
	"learning_rate": 1.8330401334954567e-05,
	"loss": 0.4958,
	"step": 930
	},
	{
	"epoch": 0.26971478022572387,
	"grad_norm": 0.4492644770064815,
	"learning_rate": 1.8302434819625234e-05,
	"loss": 0.4868,
	"step": 935
	},
	{
	"epoch": 0.27115710525366893,
	"grad_norm": 0.37095796426726924,
	"learning_rate": 1.8274257726022054e-05,
	"loss": 0.4472,
	"step": 940
	},
	{
	"epoch": 0.272599430281614,
	"grad_norm": 0.4070852473871566,
	"learning_rate": 1.824587076881294e-05,
	"loss": 0.4686,
	"step": 945
	},
	{
	"epoch": 0.274041755309559,
	"grad_norm": 0.44023807834971757,
	"learning_rate": 1.821727466798867e-05,
	"loss": 0.471,
	"step": 950
	},
	{
	"epoch": 0.27548408033750404,
	"grad_norm": 0.5209872184391927,
	"learning_rate": 1.8188470148844602e-05,
	"loss": 0.4962,
	"step": 955
	},
	{
	"epoch": 0.2769264053654491,
	"grad_norm": 0.41685090109899176,
	"learning_rate": 1.8159457941962325e-05,
	"loss": 0.475,
	"step": 960
	},
	{
	"epoch": 0.27836873039339416,
	"grad_norm": 0.5171250899115861,
	"learning_rate": 1.8130238783191087e-05,
	"loss": 0.5163,
	"step": 965
	},
	{
	"epoch": 0.2798110554213392,
	"grad_norm": 0.47139497814149867,
	"learning_rate": 1.810081341362915e-05,
	"loss": 0.4641,
	"step": 970
	},
	{
	"epoch": 0.2812533804492843,
	"grad_norm": 0.3879518437836758,
	"learning_rate": 1.8071182579604986e-05,
	"loss": 0.4777,
	"step": 975
	},
	{
	"epoch": 0.2826957054772293,
	"grad_norm": 0.455341690737865,
	"learning_rate": 1.804134703265836e-05,
	"loss": 0.5271,
	"step": 980
	},
	{
	"epoch": 0.28413803050517433,
	"grad_norm": 0.39108612071221016,
	"learning_rate": 1.8011307529521255e-05,
	"loss": 0.4645,
	"step": 985
	},
	{
	"epoch": 0.2855803555331194,
	"grad_norm": 0.3865948965496386,
	"learning_rate": 1.7981064832098687e-05,
	"loss": 0.4578,
	"step": 990
	},
	{
	"epoch": 0.28702268056106445,
	"grad_norm": 0.40375523747783393,
	"learning_rate": 1.7950619707449374e-05,
	"loss": 0.4923,
	"step": 995
	},
	{
	"epoch": 0.2884650055890095,
	"grad_norm": 0.3376017909117174,
	"learning_rate": 1.7919972927766288e-05,
	"loss": 0.4658,
	"step": 1000
	},
	{
	"epoch": 0.2884650055890095,
	"eval_loss": 0.4833250343799591,
	"eval_runtime": 142.0125,
	"eval_samples_per_second": 12.682,
	"eval_steps_per_second": 3.176,
	"step": 1000
	},
	{
	"epoch": 0.2899073306169545,
	"grad_norm": 0.47138251586932034,
	"learning_rate": 1.7889125270357053e-05,
	"loss": 0.4851,
	"step": 1005
	},
	{
	"epoch": 0.29134965564489956,
	"grad_norm": 0.522686359505293,
	"learning_rate": 1.7858077517624265e-05,
	"loss": 0.4788,
	"step": 1010
	},
	{
	"epoch": 0.2927919806728446,
	"grad_norm": 0.6355398882354177,
	"learning_rate": 1.7826830457045608e-05,
	"loss": 0.4525,
	"step": 1015
	},
	{
	"epoch": 0.2942343057007897,
	"grad_norm": 0.44577505392395406,
	"learning_rate": 1.7795384881153896e-05,
	"loss": 0.4614,
	"step": 1020
	},
	{
	"epoch": 0.29567663072873474,
	"grad_norm": 0.454859759409631,
	"learning_rate": 1.7763741587516983e-05,
	"loss": 0.5021,
	"step": 1025
	},
	{
	"epoch": 0.2971189557566798,
	"grad_norm": 0.6161570485074761,
	"learning_rate": 1.7731901378717523e-05,
	"loss": 0.4903,
	"step": 1030
	},
	{
	"epoch": 0.2985612807846248,
	"grad_norm": 0.43940664169854093,
	"learning_rate": 1.769986506233261e-05,
	"loss": 0.4819,
	"step": 1035
	},
	{
	"epoch": 0.30000360581256985,
	"grad_norm": 0.4426640967510136,
	"learning_rate": 1.7667633450913307e-05,
	"loss": 0.4579,
	"step": 1040
	},
	{
	"epoch": 0.3014459308405149,
	"grad_norm": 0.5064920131450599,
	"learning_rate": 1.763520736196402e-05,
	"loss": 0.5066,
	"step": 1045
	},
	{
	"epoch": 0.30288825586845997,
	"grad_norm": 0.3628170152752897,
	"learning_rate": 1.7602587617921785e-05,
	"loss": 0.423,
	"step": 1050
	},
	{
	"epoch": 0.304330580896405,
	"grad_norm": 0.4756441564342862,
	"learning_rate": 1.7569775046135388e-05,
	"loss": 0.5278,
	"step": 1055
	},
	{
	"epoch": 0.30577290592435,
	"grad_norm": 0.40932967287449395,
	"learning_rate": 1.753677047884439e-05,
	"loss": 0.4565,
	"step": 1060
	},
	{
	"epoch": 0.3072152309522951,
	"grad_norm": 0.4148447936276441,
	"learning_rate": 1.7503574753158022e-05,
	"loss": 0.4819,
	"step": 1065
	},
	{
	"epoch": 0.30865755598024014,
	"grad_norm": 0.3868133979093347,
	"learning_rate": 1.747018871103395e-05,
	"loss": 0.4707,
	"step": 1070
	},
	{
	"epoch": 0.3100998810081852,
	"grad_norm": 0.39630255989567886,
	"learning_rate": 1.743661319925691e-05,
	"loss": 0.4387,
	"step": 1075
	},
	{
	"epoch": 0.31154220603613025,
	"grad_norm": 0.4233553435649959,
	"learning_rate": 1.7402849069417246e-05,
	"loss": 0.465,
	"step": 1080
	},
	{
	"epoch": 0.3129845310640753,
	"grad_norm": 0.37304393376464795,
	"learning_rate": 1.7368897177889307e-05,
	"loss": 0.4854,
	"step": 1085
	},
	{
	"epoch": 0.3144268560920203,
	"grad_norm": 0.41669096423193014,
	"learning_rate": 1.7334758385809715e-05,
	"loss": 0.4369,
	"step": 1090
	},
	{
	"epoch": 0.31586918111996537,
	"grad_norm": 0.3950040493214593,
	"learning_rate": 1.7300433559055533e-05,
	"loss": 0.4488,
	"step": 1095
	},
	{
	"epoch": 0.3173115061479104,
	"grad_norm": 0.4206456914262744,
	"learning_rate": 1.7265923568222315e-05,
	"loss": 0.4608,
	"step": 1100
	},
	{
	"epoch": 0.3187538311758555,
	"grad_norm": 0.5459001712618055,
	"learning_rate": 1.7231229288602e-05,
	"loss": 0.4419,
	"step": 1105
	},
	{
	"epoch": 0.32019615620380054,
	"grad_norm": 0.4002983479690819,
	"learning_rate": 1.7196351600160725e-05,
	"loss": 0.4575,
	"step": 1110
	},
	{
	"epoch": 0.3216384812317456,
	"grad_norm": 0.5400371185813517,
	"learning_rate": 1.716129138751651e-05,
	"loss": 0.4402,
	"step": 1115
	},
	{
	"epoch": 0.3230808062596906,
	"grad_norm": 0.4526337203461876,
	"learning_rate": 1.712604953991681e-05,
	"loss": 0.4923,
	"step": 1120
	},
	{
	"epoch": 0.32452313128763566,
	"grad_norm": 0.3924148895626424,
	"learning_rate": 1.709062695121597e-05,
	"loss": 0.4734,
	"step": 1125
	},
	{
	"epoch": 0.3259654563155807,
	"grad_norm": 0.45730078891879783,
	"learning_rate": 1.7055024519852554e-05,
	"loss": 0.4935,
	"step": 1130
	},
	{
	"epoch": 0.32740778134352577,
	"grad_norm": 0.41765126413107173,
	"learning_rate": 1.7019243148826547e-05,
	"loss": 0.4778,
	"step": 1135
	},
	{
	"epoch": 0.32885010637147083,
	"grad_norm": 0.48822731606676767,
	"learning_rate": 1.6983283745676464e-05,
	"loss": 0.4786,
	"step": 1140
	},
	{
	"epoch": 0.33029243139941583,
	"grad_norm": 0.47444702764857977,
	"learning_rate": 1.6947147222456318e-05,
	"loss": 0.4732,
	"step": 1145
	},
	{
	"epoch": 0.3317347564273609,
	"grad_norm": 0.36819652961308474,
	"learning_rate": 1.6910834495712504e-05,
	"loss": 0.49,
	"step": 1150
	},
	{
	"epoch": 0.33317708145530595,
	"grad_norm": 0.3963647053897705,
	"learning_rate": 1.6874346486460543e-05,
	"loss": 0.4599,
	"step": 1155
	},
	{
	"epoch": 0.334619406483251,
	"grad_norm": 0.3557684139157355,
	"learning_rate": 1.6837684120161723e-05,
	"loss": 0.4603,
	"step": 1160
	},
	{
	"epoch": 0.33606173151119606,
	"grad_norm": 0.42399774345522806,
	"learning_rate": 1.680084832669962e-05,
	"loss": 0.4322,
	"step": 1165
	},
	{
	"epoch": 0.3375040565391411,
	"grad_norm": 0.4013586249486658,
	"learning_rate": 1.6763840040356522e-05,
	"loss": 0.4398,
	"step": 1170
	},
	{
	"epoch": 0.3389463815670861,
	"grad_norm": 0.44604773948712173,
	"learning_rate": 1.6726660199789733e-05,
	"loss": 0.4265,
	"step": 1175
	},
	{
	"epoch": 0.3403887065950312,
	"grad_norm": 0.39551679284847074,
	"learning_rate": 1.6689309748007753e-05,
	"loss": 0.4418,
	"step": 1180
	},
	{
	"epoch": 0.34183103162297623,
	"grad_norm": 0.451264115692116,
	"learning_rate": 1.6651789632346377e-05,
	"loss": 0.4483,
	"step": 1185
	},
	{
	"epoch": 0.3432733566509213,
	"grad_norm": 0.4689614820007113,
	"learning_rate": 1.6614100804444657e-05,
	"loss": 0.467,
	"step": 1190
	},
	{
	"epoch": 0.34471568167886635,
	"grad_norm": 0.3841720473679624,
	"learning_rate": 1.6576244220220763e-05,
	"loss": 0.4313,
	"step": 1195
	},
	{
	"epoch": 0.3461580067068114,
	"grad_norm": 0.4091561009628973,
	"learning_rate": 1.6538220839847745e-05,
	"loss": 0.434,
	"step": 1200
	},
	{
	"epoch": 0.3476003317347564,
	"grad_norm": 0.4473483816905544,
	"learning_rate": 1.6500031627729178e-05,
	"loss": 0.4446,
	"step": 1205
	},
	{
	"epoch": 0.34904265676270146,
	"grad_norm": 0.4800983187244669,
	"learning_rate": 1.6461677552474698e-05,
	"loss": 0.4691,
	"step": 1210
	},
	{
	"epoch": 0.3504849817906465,
	"grad_norm": 0.388554374886088,
	"learning_rate": 1.642315958687543e-05,
	"loss": 0.4517,
	"step": 1215
	},
	{
	"epoch": 0.3519273068185916,
	"grad_norm": 0.4804591032499286,
	"learning_rate": 1.6384478707879337e-05,
	"loss": 0.4736,
	"step": 1220
	},
	{
	"epoch": 0.35336963184653664,
	"grad_norm": 0.4242345257393015,
	"learning_rate": 1.6345635896566415e-05,
	"loss": 0.4453,
	"step": 1225
	},
	{
	"epoch": 0.35481195687448164,
	"grad_norm": 0.5125929278365619,
	"learning_rate": 1.6306632138123814e-05,
	"loss": 0.4894,
	"step": 1230
	},
	{
	"epoch": 0.3562542819024267,
	"grad_norm": 0.4135575305051168,
	"learning_rate": 1.626746842182087e-05,
	"loss": 0.4516,
	"step": 1235
	},
	{
	"epoch": 0.35769660693037175,
	"grad_norm": 0.49733207897305337,
	"learning_rate": 1.6228145740983986e-05,
	"loss": 0.4676,
	"step": 1240
	},
	{
	"epoch": 0.3591389319583168,
	"grad_norm": 0.405324125927312,
	"learning_rate": 1.618866509297147e-05,
	"loss": 0.4539,
	"step": 1245
	},
	{
	"epoch": 0.36058125698626187,
	"grad_norm": 0.43290260214899146,
	"learning_rate": 1.61490274791482e-05,
	"loss": 0.43,
	"step": 1250
	},
	{
	"epoch": 0.3620235820142069,
	"grad_norm": 0.3648124960837181,
	"learning_rate": 1.6109233904860258e-05,
	"loss": 0.4516,
	"step": 1255
	},
	{
	"epoch": 0.3634659070421519,
	"grad_norm": 0.43358315460862995,
	"learning_rate": 1.606928537940942e-05,
	"loss": 0.4565,
	"step": 1260
	},
	{
	"epoch": 0.364908232070097,
	"grad_norm": 0.5070316730676355,
	"learning_rate": 1.602918291602755e-05,
	"loss": 0.4547,
	"step": 1265
	},
	{
	"epoch": 0.36635055709804204,
	"grad_norm": 0.4556281361017855,
	"learning_rate": 1.5988927531850913e-05,
	"loss": 0.4631,
	"step": 1270
	},
	{
	"epoch": 0.3677928821259871,
	"grad_norm": 0.4210598158384229,
	"learning_rate": 1.5948520247894363e-05,
	"loss": 0.4595,
	"step": 1275
	},
	{
	"epoch": 0.36923520715393215,
	"grad_norm": 0.4325982920205171,
	"learning_rate": 1.590796208902546e-05,
	"loss": 0.4698,
	"step": 1280
	},
	{
	"epoch": 0.3706775321818772,
	"grad_norm": 0.4263624320016057,
	"learning_rate": 1.5867254083938472e-05,
	"loss": 0.4371,
	"step": 1285
	},
	{
	"epoch": 0.3721198572098222,
	"grad_norm": 0.4792938379196713,
	"learning_rate": 1.582639726512828e-05,
	"loss": 0.4464,
	"step": 1290
	},
	{
	"epoch": 0.37356218223776727,
	"grad_norm": 0.43544663382731996,
	"learning_rate": 1.5785392668864186e-05,
	"loss": 0.4658,
	"step": 1295
	},
	{
	"epoch": 0.37500450726571233,
	"grad_norm": 0.38089232775082726,
	"learning_rate": 1.5744241335163642e-05,
	"loss": 0.4492,
	"step": 1300
	},
	{
	"epoch": 0.3764468322936574,
	"grad_norm": 0.3692067776356917,
	"learning_rate": 1.570294430776587e-05,
	"loss": 0.4402,
	"step": 1305
	},
	{
	"epoch": 0.37788915732160244,
	"grad_norm": 0.43939772643420716,
	"learning_rate": 1.5661502634105376e-05,
	"loss": 0.4413,
	"step": 1310
	},
	{
	"epoch": 0.37933148234954744,
	"grad_norm": 0.39362265905546057,
	"learning_rate": 1.5619917365285394e-05,
	"loss": 0.4314,
	"step": 1315
	},
	{
	"epoch": 0.3807738073774925,
	"grad_norm": 0.41565735116305985,
	"learning_rate": 1.557818955605123e-05,
	"loss": 0.4564,
	"step": 1320
	},
	{
	"epoch": 0.38221613240543756,
	"grad_norm": 0.3633587329212366,
	"learning_rate": 1.55363202647635e-05,
	"loss": 0.4568,
	"step": 1325
	},
	{
	"epoch": 0.3836584574333826,
	"grad_norm": 0.43886686943718484,
	"learning_rate": 1.5494310553371292e-05,
	"loss": 0.4408,
	"step": 1330
	},
	{
	"epoch": 0.3851007824613277,
	"grad_norm": 0.44313421551297705,
	"learning_rate": 1.545216148738523e-05,
	"loss": 0.4728,
	"step": 1335
	},
	{
	"epoch": 0.38654310748927273,
	"grad_norm": 0.43446763871019,
	"learning_rate": 1.5409874135850453e-05,
	"loss": 0.4413,
	"step": 1340
	},
	{
	"epoch": 0.38798543251721773,
	"grad_norm": 0.5046802087731463,
	"learning_rate": 1.5367449571319486e-05,
	"loss": 0.451,
	"step": 1345
	},
	{
	"epoch": 0.3894277575451628,
	"grad_norm": 0.4176799699807321,
	"learning_rate": 1.5324888869825062e-05,
	"loss": 0.4575,
	"step": 1350
	},
	{
	"epoch": 0.39087008257310785,
	"grad_norm": 0.4357723650429465,
	"learning_rate": 1.5282193110852806e-05,
	"loss": 0.4628,
	"step": 1355
	},
	{
	"epoch": 0.3923124076010529,
	"grad_norm": 0.47847755269517595,
	"learning_rate": 1.5239363377313864e-05,
	"loss": 0.4426,
	"step": 1360
	},
	{
	"epoch": 0.39375473262899796,
	"grad_norm": 0.42951183292967315,
	"learning_rate": 1.5196400755517445e-05,
	"loss": 0.4173,
	"step": 1365
	},
	{
	"epoch": 0.395197057656943,
	"grad_norm": 0.3712834304196652,
	"learning_rate": 1.5153306335143247e-05,
	"loss": 0.4185,
	"step": 1370
	},
	{
	"epoch": 0.396639382684888,
	"grad_norm": 0.40028893775485,
	"learning_rate": 1.5110081209213849e-05,
	"loss": 0.4404,
	"step": 1375
	},
	{
	"epoch": 0.3980817077128331,
	"grad_norm": 0.3524439650077371,
	"learning_rate": 1.5066726474066962e-05,
	"loss": 0.436,
	"step": 1380
	},
	{
	"epoch": 0.39952403274077813,
	"grad_norm": 0.41796871469443936,
	"learning_rate": 1.5023243229327631e-05,
	"loss": 0.4465,
	"step": 1385
	},
	{
	"epoch": 0.4009663577687232,
	"grad_norm": 0.39648024648913516,
	"learning_rate": 1.4979632577880355e-05,
	"loss": 0.4599,
	"step": 1390
	},
	{
	"epoch": 0.40240868279666825,
	"grad_norm": 0.4177593581987727,
	"learning_rate": 1.4935895625841095e-05,
	"loss": 0.4341,
	"step": 1395
	},
	{
	"epoch": 0.40385100782461325,
	"grad_norm": 0.39474357091689116,
	"learning_rate": 1.4892033482529233e-05,
	"loss": 0.4251,
	"step": 1400
	},
	{
	"epoch": 0.4052933328525583,
	"grad_norm": 0.3925865645135851,
	"learning_rate": 1.484804726043943e-05,
	"loss": 0.4188,
	"step": 1405
	},
	{
	"epoch": 0.40673565788050337,
	"grad_norm": 0.43881341912306815,
	"learning_rate": 1.480393807521342e-05,
	"loss": 0.4626,
	"step": 1410
	},
	{
	"epoch": 0.4081779829084484,
	"grad_norm": 0.38784235208087897,
	"learning_rate": 1.4759707045611694e-05,
	"loss": 0.4356,
	"step": 1415
	},
	{
	"epoch": 0.4096203079363935,
	"grad_norm": 0.4652349082201273,
	"learning_rate": 1.4715355293485134e-05,
	"loss": 0.4429,
	"step": 1420
	},
	{
	"epoch": 0.41106263296433854,
	"grad_norm": 0.5020179396910893,
	"learning_rate": 1.4670883943746575e-05,
	"loss": 0.4424,
	"step": 1425
	},
	{
	"epoch": 0.41250495799228354,
	"grad_norm": 0.46646941577755224,
	"learning_rate": 1.4626294124342237e-05,
	"loss": 0.4473,
	"step": 1430
	},
	{
	"epoch": 0.4139472830202286,
	"grad_norm": 0.3715580720003536,
	"learning_rate": 1.4581586966223156e-05,
	"loss": 0.457,
	"step": 1435
	},
	{
	"epoch": 0.41538960804817365,
	"grad_norm": 0.3913149158851186,
	"learning_rate": 1.453676360331647e-05,
	"loss": 0.4232,
	"step": 1440
	},
	{
	"epoch": 0.4168319330761187,
	"grad_norm": 0.3755928140913827,
	"learning_rate": 1.4491825172496675e-05,
	"loss": 0.4376,
	"step": 1445
	},
	{
	"epoch": 0.41827425810406377,
	"grad_norm": 0.4632236851893659,
	"learning_rate": 1.4446772813556784e-05,
	"loss": 0.4547,
	"step": 1450
	},
	{
	"epoch": 0.4197165831320088,
	"grad_norm": 0.3622221987812085,
	"learning_rate": 1.4401607669179415e-05,
	"loss": 0.4189,
	"step": 1455
	},
	{
	"epoch": 0.4211589081599538,
	"grad_norm": 0.4427510263617938,
	"learning_rate": 1.4356330884907823e-05,
	"loss": 0.4307,
	"step": 1460
	},
	{
	"epoch": 0.4226012331878989,
	"grad_norm": 0.40821656664051026,
	"learning_rate": 1.4310943609116815e-05,
	"loss": 0.4416,
	"step": 1465
	},
	{
	"epoch": 0.42404355821584394,
	"grad_norm": 0.45484460030870416,
	"learning_rate": 1.4265446992983661e-05,
	"loss": 0.449,
	"step": 1470
	},
	{
	"epoch": 0.425485883243789,
	"grad_norm": 0.38430976618751717,
	"learning_rate": 1.4219842190458865e-05,
	"loss": 0.4445,
	"step": 1475
	},
	{
	"epoch": 0.42692820827173406,
	"grad_norm": 0.40624625230940725,
	"learning_rate": 1.4174130358236924e-05,
	"loss": 0.4734,
	"step": 1480
	},
	{
	"epoch": 0.42837053329967906,
	"grad_norm": 0.38501281348072397,
	"learning_rate": 1.4128312655726957e-05,
	"loss": 0.4407,
	"step": 1485
	},
	{
	"epoch": 0.4298128583276241,
	"grad_norm": 0.5552503619067779,
	"learning_rate": 1.4082390245023337e-05,
	"loss": 0.4559,
	"step": 1490
	},
	{
	"epoch": 0.43125518335556917,
	"grad_norm": 0.41269951819834144,
	"learning_rate": 1.4036364290876176e-05,
	"loss": 0.4407,
	"step": 1495
	},
	{
	"epoch": 0.43269750838351423,
	"grad_norm": 0.4132538908060478,
	"learning_rate": 1.3990235960661824e-05,
	"loss": 0.4439,
	"step": 1500
	},
	{
	"epoch": 0.43269750838351423,
	"eval_loss": 0.43445292115211487,
	"eval_runtime": 142.5412,
	"eval_samples_per_second": 12.635,
	"eval_steps_per_second": 3.164,
	"step": 1500
	},
	{
	"epoch": 0.4341398334114593,
	"grad_norm": 0.42757706099004156,
	"learning_rate": 1.3944006424353229e-05,
	"loss": 0.4247,
	"step": 1505
	},
	{
	"epoch": 0.43558215843940434,
	"grad_norm": 0.36759037583277737,
	"learning_rate": 1.389767685449027e-05,
	"loss": 0.4306,
	"step": 1510
	},
	{
	"epoch": 0.43702448346734935,
	"grad_norm": 0.42042330760151675,
	"learning_rate": 1.3851248426150026e-05,
	"loss": 0.4244,
	"step": 1515
	},
	{
	"epoch": 0.4384668084952944,
	"grad_norm": 0.38414415773611094,
	"learning_rate": 1.380472231691697e-05,
	"loss": 0.4377,
	"step": 1520
	},
	{
	"epoch": 0.43990913352323946,
	"grad_norm": 0.4303765304251248,
	"learning_rate": 1.375809970685309e-05,
	"loss": 0.4574,
	"step": 1525
	},
	{
	"epoch": 0.4413514585511845,
	"grad_norm": 0.39045631524439356,
	"learning_rate": 1.3711381778467972e-05,
	"loss": 0.4487,
	"step": 1530
	},
	{
	"epoch": 0.4427937835791296,
	"grad_norm": 0.409923537347395,
	"learning_rate": 1.36645697166888e-05,
	"loss": 0.4155,
	"step": 1535
	},
	{
	"epoch": 0.44423610860707463,
	"grad_norm": 0.4590281734742793,
	"learning_rate": 1.3617664708830304e-05,
	"loss": 0.4211,
	"step": 1540
	},
	{
	"epoch": 0.44567843363501963,
	"grad_norm": 0.4340206380764746,
	"learning_rate": 1.3570667944564651e-05,
	"loss": 0.43,
	"step": 1545
	},
	{
	"epoch": 0.4471207586629647,
	"grad_norm": 0.3867702108735739,
	"learning_rate": 1.3523580615891258e-05,
	"loss": 0.4367,
	"step": 1550
	},
	{
	"epoch": 0.44856308369090975,
	"grad_norm": 0.45493644595260835,
	"learning_rate": 1.347640391710657e-05,
	"loss": 0.4336,
	"step": 1555
	},
	{
	"epoch": 0.4500054087188548,
	"grad_norm": 0.41557484865468924,
	"learning_rate": 1.3429139044773768e-05,
	"loss": 0.4128,
	"step": 1560
	},
	{
	"epoch": 0.45144773374679986,
	"grad_norm": 0.41564130897863455,
	"learning_rate": 1.3381787197692413e-05,
	"loss": 0.3957,
	"step": 1565
	},
	{
	"epoch": 0.45289005877474486,
	"grad_norm": 0.4011264197640641,
	"learning_rate": 1.3334349576868046e-05,
	"loss": 0.442,
	"step": 1570
	},
	{
	"epoch": 0.4543323838026899,
	"grad_norm": 0.4825855614290229,
	"learning_rate": 1.3286827385481726e-05,
	"loss": 0.4058,
	"step": 1575
	},
	{
	"epoch": 0.455774708830635,
	"grad_norm": 0.3921023793032671,
	"learning_rate": 1.3239221828859509e-05,
	"loss": 0.3884,
	"step": 1580
	},
	{
	"epoch": 0.45721703385858004,
	"grad_norm": 0.40627991293028837,
	"learning_rate": 1.3191534114441883e-05,
	"loss": 0.4333,
	"step": 1585
	},
	{
	"epoch": 0.4586593588865251,
	"grad_norm": 0.43891554498901797,
	"learning_rate": 1.3143765451753137e-05,
	"loss": 0.4166,
	"step": 1590
	},
	{
	"epoch": 0.46010168391447015,
	"grad_norm": 0.39830311047980305,
	"learning_rate": 1.3095917052370686e-05,
	"loss": 0.4235,
	"step": 1595
	},
	{
	"epoch": 0.46154400894241515,
	"grad_norm": 0.3980453207285396,
	"learning_rate": 1.3047990129894348e-05,
	"loss": 0.4001,
	"step": 1600
	},
	{
	"epoch": 0.4629863339703602,
	"grad_norm": 0.4136578166461488,
	"learning_rate": 1.299998589991555e-05,
	"loss": 0.4076,
	"step": 1605
	},
	{
	"epoch": 0.46442865899830527,
	"grad_norm": 0.4343208402620231,
	"learning_rate": 1.2951905579986506e-05,
	"loss": 0.4384,
	"step": 1610
	},
	{
	"epoch": 0.4658709840262503,
	"grad_norm": 0.45578762184210947,
	"learning_rate": 1.290375038958933e-05,
	"loss": 0.4048,
	"step": 1615
	},
	{
	"epoch": 0.4673133090541954,
	"grad_norm": 0.46943412662551365,
	"learning_rate": 1.285552155010511e-05,
	"loss": 0.401,
	"step": 1620
	},
	{
	"epoch": 0.46875563408214044,
	"grad_norm": 0.40848878753251544,
	"learning_rate": 1.2807220284782926e-05,
	"loss": 0.4461,
	"step": 1625
	},
	{
	"epoch": 0.47019795911008544,
	"grad_norm": 0.3921726292273481,
	"learning_rate": 1.2758847818708832e-05,
	"loss": 0.4205,
	"step": 1630
	},
	{
	"epoch": 0.4716402841380305,
	"grad_norm": 0.45781513572784016,
	"learning_rate": 1.2710405378774768e-05,
	"loss": 0.4423,
	"step": 1635
	},
	{
	"epoch": 0.47308260916597555,
	"grad_norm": 0.45862261759553535,
	"learning_rate": 1.2661894193647458e-05,
	"loss": 0.4,
	"step": 1640
	},
	{
	"epoch": 0.4745249341939206,
	"grad_norm": 0.3527899534786595,
	"learning_rate": 1.261331549373724e-05,
	"loss": 0.3998,
	"step": 1645
	},
	{
	"epoch": 0.47596725922186567,
	"grad_norm": 0.36297450328540837,
	"learning_rate": 1.2564670511166865e-05,
	"loss": 0.4206,
	"step": 1650
	},
	{
	"epoch": 0.47740958424981067,
	"grad_norm": 0.4030716124087903,
	"learning_rate": 1.2515960479740224e-05,
	"loss": 0.4047,
	"step": 1655
	},
	{
	"epoch": 0.4788519092777557,
	"grad_norm": 0.41175543047417906,
	"learning_rate": 1.246718663491108e-05,
	"loss": 0.4345,
	"step": 1660
	},
	{
	"epoch": 0.4802942343057008,
	"grad_norm": 0.3574092930784039,
	"learning_rate": 1.2418350213751728e-05,
	"loss": 0.4081,
	"step": 1665
	},
	{
	"epoch": 0.48173655933364584,
	"grad_norm": 0.3954039812545518,
	"learning_rate": 1.2369452454921604e-05,
	"loss": 0.4159,
	"step": 1670
	},
	{
	"epoch": 0.4831788843615909,
	"grad_norm": 0.4497181497561506,
	"learning_rate": 1.2320494598635886e-05,
	"loss": 0.4052,
	"step": 1675
	},
	{
	"epoch": 0.48462120938953596,
	"grad_norm": 0.44655082111096045,
	"learning_rate": 1.2271477886634023e-05,
	"loss": 0.4123,
	"step": 1680
	},
	{
	"epoch": 0.48606353441748096,
	"grad_norm": 0.40423139543908587,
	"learning_rate": 1.2222403562148252e-05,
	"loss": 0.4152,
	"step": 1685
	},
	{
	"epoch": 0.487505859445426,
	"grad_norm": 0.36806086858378434,
	"learning_rate": 1.2173272869872062e-05,
	"loss": 0.4252,
	"step": 1690
	},
	{
	"epoch": 0.4889481844733711,
	"grad_norm": 0.41722654899253564,
	"learning_rate": 1.2124087055928617e-05,
	"loss": 0.3879,
	"step": 1695
	},
	{
	"epoch": 0.49039050950131613,
	"grad_norm": 0.4329150355333478,
	"learning_rate": 1.207484736783916e-05,
	"loss": 0.3849,
	"step": 1700
	},
	{
	"epoch": 0.4918328345292612,
	"grad_norm": 0.4710085788902766,
	"learning_rate": 1.2025555054491367e-05,
	"loss": 0.4303,
	"step": 1705
	},
	{
	"epoch": 0.4932751595572062,
	"grad_norm": 0.443066548358196,
	"learning_rate": 1.1976211366107668e-05,
	"loss": 0.4198,
	"step": 1710
	},
	{
	"epoch": 0.49471748458515125,
	"grad_norm": 0.3338656609348242,
	"learning_rate": 1.1926817554213548e-05,
	"loss": 0.3911,
	"step": 1715
	},
	{
	"epoch": 0.4961598096130963,
	"grad_norm": 0.38270258610415053,
	"learning_rate": 1.1877374871605786e-05,
	"loss": 0.4068,
	"step": 1720
	},
	{
	"epoch": 0.49760213464104136,
	"grad_norm": 0.40504870451767916,
	"learning_rate": 1.18278845723207e-05,
	"loss": 0.4117,
	"step": 1725
	},
	{
	"epoch": 0.4990444596689864,
	"grad_norm": 0.4346348228563321,
	"learning_rate": 1.1778347911602329e-05,
	"loss": 0.4104,
	"step": 1730
	},
	{
	"epoch": 0.5004867846969314,
	"grad_norm": 0.4075021793881479,
	"learning_rate": 1.1728766145870587e-05,
	"loss": 0.4229,
	"step": 1735
	},
	{
	"epoch": 0.5019291097248765,
	"grad_norm": 0.418017099187981,
	"learning_rate": 1.167914053268942e-05,
	"loss": 0.407,
	"step": 1740
	},
	{
	"epoch": 0.5033714347528215,
	"grad_norm": 0.39895813955242926,
	"learning_rate": 1.1629472330734888e-05,
	"loss": 0.3978,
	"step": 1745
	},
	{
	"epoch": 0.5048137597807666,
	"grad_norm": 0.40383289208967305,
	"learning_rate": 1.1579762799763249e-05,
	"loss": 0.4175,
	"step": 1750
	},
	{
	"epoch": 0.5062560848087116,
	"grad_norm": 0.5225560587862472,
	"learning_rate": 1.1530013200579008e-05,
	"loss": 0.4131,
	"step": 1755
	},
	{
	"epoch": 0.5076984098366567,
	"grad_norm": 0.4004897787727647,
	"learning_rate": 1.1480224795002943e-05,
	"loss": 0.3888,
	"step": 1760
	},
	{
	"epoch": 0.5091407348646018,
	"grad_norm": 0.4248175503521806,
	"learning_rate": 1.1430398845840085e-05,
	"loss": 0.4324,
	"step": 1765
	},
	{
	"epoch": 0.5105830598925468,
	"grad_norm": 0.43829908182981264,
	"learning_rate": 1.1380536616847706e-05,
	"loss": 0.4079,
	"step": 1770
	},
	{
	"epoch": 0.5120253849204919,
	"grad_norm": 0.43570794658905476,
	"learning_rate": 1.1330639372703258e-05,
	"loss": 0.4045,
	"step": 1775
	},
	{
	"epoch": 0.5134677099484369,
	"grad_norm": 0.43500914045447153,
	"learning_rate": 1.12807083789723e-05,
	"loss": 0.419,
	"step": 1780
	},
	{
	"epoch": 0.5149100349763819,
	"grad_norm": 0.41351142363579385,
	"learning_rate": 1.123074490207639e-05,
	"loss": 0.3986,
	"step": 1785
	},
	{
	"epoch": 0.5163523600043269,
	"grad_norm": 0.37789765808010595,
	"learning_rate": 1.1180750209260972e-05,
	"loss": 0.4016,
	"step": 1790
	},
	{
	"epoch": 0.517794685032272,
	"grad_norm": 0.4013962679722207,
	"learning_rate": 1.1130725568563241e-05,
	"loss": 0.4081,
	"step": 1795
	},
	{
	"epoch": 0.519237010060217,
	"grad_norm": 0.38374761554210224,
	"learning_rate": 1.1080672248779964e-05,
	"loss": 0.4061,
	"step": 1800
	},
	{
	"epoch": 0.5206793350881621,
	"grad_norm": 0.44182386119487255,
	"learning_rate": 1.1030591519435316e-05,
	"loss": 0.3916,
	"step": 1805
	},
	{
	"epoch": 0.5221216601161072,
	"grad_norm": 0.44971294735945117,
	"learning_rate": 1.0980484650748666e-05,
	"loss": 0.3996,
	"step": 1810
	},
	{
	"epoch": 0.5235639851440522,
	"grad_norm": 0.35276497806950113,
	"learning_rate": 1.0930352913602371e-05,
	"loss": 0.3732,
	"step": 1815
	},
	{
	"epoch": 0.5250063101719973,
	"grad_norm": 0.42340138266599786,
	"learning_rate": 1.0880197579509532e-05,
	"loss": 0.4222,
	"step": 1820
	},
	{
	"epoch": 0.5264486351999423,
	"grad_norm": 0.39078797688993877,
	"learning_rate": 1.0830019920581753e-05,
	"loss": 0.4136,
	"step": 1825
	},
	{
	"epoch": 0.5278909602278874,
	"grad_norm": 0.4130289272161752,
	"learning_rate": 1.0779821209496876e-05,
	"loss": 0.4192,
	"step": 1830
	},
	{
	"epoch": 0.5293332852558325,
	"grad_norm": 0.41541974485384586,
	"learning_rate": 1.0729602719466692e-05,
	"loss": 0.4031,
	"step": 1835
	},
	{
	"epoch": 0.5307756102837774,
	"grad_norm": 0.44049659174573497,
	"learning_rate": 1.067936572420466e-05,
	"loss": 0.4069,
	"step": 1840
	},
	{
	"epoch": 0.5322179353117225,
	"grad_norm": 0.44056632399340595,
	"learning_rate": 1.0629111497893591e-05,
	"loss": 0.3964,
	"step": 1845
	},
	{
	"epoch": 0.5336602603396675,
	"grad_norm": 0.40575645379756525,
	"learning_rate": 1.0578841315153333e-05,
	"loss": 0.3953,
	"step": 1850
	},
	{
	"epoch": 0.5351025853676126,
	"grad_norm": 0.37056517023195357,
	"learning_rate": 1.0528556451008447e-05,
	"loss": 0.4058,
	"step": 1855
	},
	{
	"epoch": 0.5365449103955576,
	"grad_norm": 0.38961078802000476,
	"learning_rate": 1.0478258180855869e-05,
	"loss": 0.3783,
	"step": 1860
	},
	{
	"epoch": 0.5379872354235027,
	"grad_norm": 0.4278326171242378,
	"learning_rate": 1.0427947780432547e-05,
	"loss": 0.4025,
	"step": 1865
	},
	{
	"epoch": 0.5394295604514477,
	"grad_norm": 0.4487192036382051,
	"learning_rate": 1.0377626525783101e-05,
	"loss": 0.3933,
	"step": 1870
	},
	{
	"epoch": 0.5408718854793928,
	"grad_norm": 0.5348996401888022,
	"learning_rate": 1.0327295693227454e-05,
	"loss": 0.447,
	"step": 1875
	},
	{
	"epoch": 0.5423142105073379,
	"grad_norm": 0.527197311781129,
	"learning_rate": 1.0276956559328455e-05,
	"loss": 0.3949,
	"step": 1880
	},
	{
	"epoch": 0.5437565355352829,
	"grad_norm": 0.41151058505508553,
	"learning_rate": 1.0226610400859498e-05,
	"loss": 0.4051,
	"step": 1885
	},
	{
	"epoch": 0.545198860563228,
	"grad_norm": 0.37166405264306773,
	"learning_rate": 1.0176258494772153e-05,
	"loss": 0.3991,
	"step": 1890
	},
	{
	"epoch": 0.5466411855911729,
	"grad_norm": 0.4167614980577364,
	"learning_rate": 1.0125902118163762e-05,
	"loss": 0.4086,
	"step": 1895
	},
	{
	"epoch": 0.548083510619118,
	"grad_norm": 0.4002106455641225,
	"learning_rate": 1.007554254824506e-05,
	"loss": 0.4006,
	"step": 1900
	},
	{
	"epoch": 0.549525835647063,
	"grad_norm": 0.38648887792017217,
	"learning_rate": 1.0025181062307774e-05,
	"loss": 0.4009,
	"step": 1905
	},
	{
	"epoch": 0.5509681606750081,
	"grad_norm": 0.4402653770907521,
	"learning_rate": 9.974818937692228e-06,
	"loss": 0.3909,
	"step": 1910
	},
	{
	"epoch": 0.5524104857029531,
	"grad_norm": 0.39402192655503426,
	"learning_rate": 9.92445745175494e-06,
	"loss": 0.3793,
	"step": 1915
	},
	{
	"epoch": 0.5538528107308982,
	"grad_norm": 0.36447042674734037,
	"learning_rate": 9.874097881836241e-06,
	"loss": 0.3856,
	"step": 1920
	},
	{
	"epoch": 0.5552951357588433,
	"grad_norm": 0.38084863196798785,
	"learning_rate": 9.823741505227852e-06,
	"loss": 0.3821,
	"step": 1925
	},
	{
	"epoch": 0.5567374607867883,
	"grad_norm": 0.3689396281200298,
	"learning_rate": 9.773389599140504e-06,
	"loss": 0.3888,
	"step": 1930
	},
	{
	"epoch": 0.5581797858147334,
	"grad_norm": 0.42447241183482853,
	"learning_rate": 9.72304344067155e-06,
	"loss": 0.4018,
	"step": 1935
	},
	{
	"epoch": 0.5596221108426784,
	"grad_norm": 0.34840166562757835,
	"learning_rate": 9.672704306772547e-06,
	"loss": 0.381,
	"step": 1940
	},
	{
	"epoch": 0.5610644358706235,
	"grad_norm": 0.3824007554962182,
	"learning_rate": 9.6223734742169e-06,
	"loss": 0.405,
	"step": 1945
	},
	{
	"epoch": 0.5625067608985685,
	"grad_norm": 0.40567921647837246,
	"learning_rate": 9.572052219567455e-06,
	"loss": 0.3886,
	"step": 1950
	},
	{
	"epoch": 0.5639490859265135,
	"grad_norm": 0.4496361442646002,
	"learning_rate": 9.521741819144135e-06,
	"loss": 0.3926,
	"step": 1955
	},
	{
	"epoch": 0.5653914109544586,
	"grad_norm": 0.3771274201963948,
	"learning_rate": 9.471443548991557e-06,
	"loss": 0.4009,
	"step": 1960
	},
	{
	"epoch": 0.5668337359824036,
	"grad_norm": 0.3832741322922619,
	"learning_rate": 9.421158684846669e-06,
	"loss": 0.3926,
	"step": 1965
	},
	{
	"epoch": 0.5682760610103487,
	"grad_norm": 0.41676932794244004,
	"learning_rate": 9.370888502106414e-06,
	"loss": 0.4194,
	"step": 1970
	},
	{
	"epoch": 0.5697183860382937,
	"grad_norm": 0.4465176481054024,
	"learning_rate": 9.320634275795342e-06,
	"loss": 0.3885,
	"step": 1975
	},
	{
	"epoch": 0.5711607110662388,
	"grad_norm": 0.41454265589275485,
	"learning_rate": 9.270397280533311e-06,
	"loss": 0.4041,
	"step": 1980
	},
	{
	"epoch": 0.5726030360941838,
	"grad_norm": 0.37529076026198815,
	"learning_rate": 9.220178790503125e-06,
	"loss": 0.3784,
	"step": 1985
	},
	{
	"epoch": 0.5740453611221289,
	"grad_norm": 0.4006407856625201,
	"learning_rate": 9.169980079418248e-06,
	"loss": 0.3742,
	"step": 1990
	},
	{
	"epoch": 0.575487686150074,
	"grad_norm": 0.4075785016746068,
	"learning_rate": 9.119802420490473e-06,
	"loss": 0.4184,
	"step": 1995
	},
	{
	"epoch": 0.576930011178019,
	"grad_norm": 0.3892341916180056,
	"learning_rate": 9.06964708639763e-06,
	"loss": 0.3865,
	"step": 2000
	},
	{
	"epoch": 0.576930011178019,
	"eval_loss": 0.3948507606983185,
	"eval_runtime": 142.1685,
	"eval_samples_per_second": 12.668,
	"eval_steps_per_second": 3.172,
	"step": 2000
	},
	{
	"epoch": 0.5783723362059641,
	"grad_norm": 0.4476758638692534,
	"learning_rate": 9.019515349251337e-06,
	"loss": 0.4076,
	"step": 2005
	},
	{
	"epoch": 0.579814661233909,
	"grad_norm": 0.38084358148704506,
	"learning_rate": 8.969408480564684e-06,
	"loss": 0.3951,
	"step": 2010
	},
	{
	"epoch": 0.5812569862618541,
	"grad_norm": 0.3946160859854508,
	"learning_rate": 8.919327751220038e-06,
	"loss": 0.3737,
	"step": 2015
	},
	{
	"epoch": 0.5826993112897991,
	"grad_norm": 0.4376591903476801,
	"learning_rate": 8.86927443143676e-06,
	"loss": 0.3993,
	"step": 2020
	},
	{
	"epoch": 0.5841416363177442,
	"grad_norm": 0.4220093736158996,
	"learning_rate": 8.819249790739033e-06,
	"loss": 0.3896,
	"step": 2025
	},
	{
	"epoch": 0.5855839613456892,
	"grad_norm": 0.37781362600911217,
	"learning_rate": 8.769255097923617e-06,
	"loss": 0.358,
	"step": 2030
	},
	{
	"epoch": 0.5870262863736343,
	"grad_norm": 0.37752543573320735,
	"learning_rate": 8.719291621027703e-06,
	"loss": 0.4016,
	"step": 2035
	},
	{
	"epoch": 0.5884686114015794,
	"grad_norm": 0.4195162100656966,
	"learning_rate": 8.669360627296745e-06,
	"loss": 0.3755,
	"step": 2040
	},
	{
	"epoch": 0.5899109364295244,
	"grad_norm": 0.40866907101120203,
	"learning_rate": 8.619463383152296e-06,
	"loss": 0.3964,
	"step": 2045
	},
	{
	"epoch": 0.5913532614574695,
	"grad_norm": 0.4194072279329464,
	"learning_rate": 8.56960115415992e-06,
	"loss": 0.3853,
	"step": 2050
	},
	{
	"epoch": 0.5927955864854145,
	"grad_norm": 0.503872591140977,
	"learning_rate": 8.519775204997063e-06,
	"loss": 0.4161,
	"step": 2055
	},
	{
	"epoch": 0.5942379115133596,
	"grad_norm": 0.4656959686074043,
	"learning_rate": 8.469986799420993e-06,
	"loss": 0.4207,
	"step": 2060
	},
	{
	"epoch": 0.5956802365413045,
	"grad_norm": 0.4068362162842934,
	"learning_rate": 8.420237200236753e-06,
	"loss": 0.3717,
	"step": 2065
	},
	{
	"epoch": 0.5971225615692496,
	"grad_norm": 0.4469993385978865,
	"learning_rate": 8.370527669265114e-06,
	"loss": 0.4039,
	"step": 2070
	},
	{
	"epoch": 0.5985648865971946,
	"grad_norm": 0.43643202324029334,
	"learning_rate": 8.320859467310582e-06,
	"loss": 0.3749,
	"step": 2075
	},
	{
	"epoch": 0.6000072116251397,
	"grad_norm": 0.5297689595825736,
	"learning_rate": 8.271233854129413e-06,
	"loss": 0.376,
	"step": 2080
	},
	{
	"epoch": 0.6014495366530848,
	"grad_norm": 0.489056954944045,
	"learning_rate": 8.221652088397675e-06,
	"loss": 0.3933,
	"step": 2085
	},
	{
	"epoch": 0.6028918616810298,
	"grad_norm": 0.37378771704976776,
	"learning_rate": 8.172115427679304e-06,
	"loss": 0.3945,
	"step": 2090
	},
	{
	"epoch": 0.6043341867089749,
	"grad_norm": 0.4235226777306445,
	"learning_rate": 8.122625128394216e-06,
	"loss": 0.3826,
	"step": 2095
	},
	{
	"epoch": 0.6057765117369199,
	"grad_norm": 0.4021066843708137,
	"learning_rate": 8.073182445786455e-06,
	"loss": 0.3642,
	"step": 2100
	},
	{
	"epoch": 0.607218836764865,
	"grad_norm": 0.3735730097404964,
	"learning_rate": 8.023788633892334e-06,
	"loss": 0.3725,
	"step": 2105
	},
	{
	"epoch": 0.60866116179281,
	"grad_norm": 0.42115686535849983,
	"learning_rate": 7.974444945508637e-06,
	"loss": 0.3876,
	"step": 2110
	},
	{
	"epoch": 0.6101034868207551,
	"grad_norm": 0.42268328106794184,
	"learning_rate": 7.925152632160841e-06,
	"loss": 0.4042,
	"step": 2115
	},
	{
	"epoch": 0.6115458118487,
	"grad_norm": 0.4303350707681742,
	"learning_rate": 7.875912944071386e-06,
	"loss": 0.3718,
	"step": 2120
	},
	{
	"epoch": 0.6129881368766451,
	"grad_norm": 0.41179372110756424,
	"learning_rate": 7.826727130127942e-06,
	"loss": 0.3844,
	"step": 2125
	},
	{
	"epoch": 0.6144304619045902,
	"grad_norm": 0.3763060638976918,
	"learning_rate": 7.77759643785175e-06,
	"loss": 0.378,
	"step": 2130
	},
	{
	"epoch": 0.6158727869325352,
	"grad_norm": 0.40647467863126857,
	"learning_rate": 7.72852211336598e-06,
	"loss": 0.3633,
	"step": 2135
	},
	{
	"epoch": 0.6173151119604803,
	"grad_norm": 0.4427513530880047,
	"learning_rate": 7.679505401364116e-06,
	"loss": 0.3728,
	"step": 2140
	},
	{
	"epoch": 0.6187574369884253,
	"grad_norm": 0.40218277177425543,
	"learning_rate": 7.630547545078398e-06,
	"loss": 0.3936,
	"step": 2145
	},
	{
	"epoch": 0.6201997620163704,
	"grad_norm": 0.40266373448906506,
	"learning_rate": 7.581649786248276e-06,
	"loss": 0.3956,
	"step": 2150
	},
	{
	"epoch": 0.6216420870443155,
	"grad_norm": 0.4101360200980578,
	"learning_rate": 7.532813365088921e-06,
	"loss": 0.3935,
	"step": 2155
	},
	{
	"epoch": 0.6230844120722605,
	"grad_norm": 0.4360450388421823,
	"learning_rate": 7.484039520259781e-06,
	"loss": 0.393,
	"step": 2160
	},
	{
	"epoch": 0.6245267371002056,
	"grad_norm": 0.3984091507351705,
	"learning_rate": 7.435329488833137e-06,
	"loss": 0.3857,
	"step": 2165
	},
	{
	"epoch": 0.6259690621281506,
	"grad_norm": 0.4057039326760462,
	"learning_rate": 7.38668450626276e-06,
	"loss": 0.4013,
	"step": 2170
	},
	{
	"epoch": 0.6274113871560957,
	"grad_norm": 0.39301356289008293,
	"learning_rate": 7.338105806352542e-06,
	"loss": 0.3613,
	"step": 2175
	},
	{
	"epoch": 0.6288537121840406,
	"grad_norm": 0.4031222004525292,
	"learning_rate": 7.289594621225236e-06,
	"loss": 0.3775,
	"step": 2180
	},
	{
	"epoch": 0.6302960372119857,
	"grad_norm": 0.42389618462152223,
	"learning_rate": 7.241152181291173e-06,
	"loss": 0.3842,
	"step": 2185
	},
	{
	"epoch": 0.6317383622399307,
	"grad_norm": 0.4222447939654566,
	"learning_rate": 7.192779715217075e-06,
	"loss": 0.3747,
	"step": 2190
	},
	{
	"epoch": 0.6331806872678758,
	"grad_norm": 0.3616433078805121,
	"learning_rate": 7.144478449894894e-06,
	"loss": 0.3619,
	"step": 2195
	},
	{
	"epoch": 0.6346230122958209,
	"grad_norm": 0.40315108612725287,
	"learning_rate": 7.096249610410671e-06,
	"loss": 0.383,
	"step": 2200
	},
	{
	"epoch": 0.6360653373237659,
	"grad_norm": 0.39550949033278987,
	"learning_rate": 7.0480944200134975e-06,
	"loss": 0.3993,
	"step": 2205
	},
	{
	"epoch": 0.637507662351711,
	"grad_norm": 0.4061605042450912,
	"learning_rate": 7.00001410008445e-06,
	"loss": 0.3667,
	"step": 2210
	},
	{
	"epoch": 0.638949987379656,
	"grad_norm": 0.399669288075527,
	"learning_rate": 6.952009870105654e-06,
	"loss": 0.387,
	"step": 2215
	},
	{
	"epoch": 0.6403923124076011,
	"grad_norm": 0.4188823149502449,
	"learning_rate": 6.904082947629317e-06,
	"loss": 0.3814,
	"step": 2220
	},
	{
	"epoch": 0.6418346374355461,
	"grad_norm": 0.3729926900968089,
	"learning_rate": 6.856234548246866e-06,
	"loss": 0.3647,
	"step": 2225
	},
	{
	"epoch": 0.6432769624634912,
	"grad_norm": 0.3995200969127714,
	"learning_rate": 6.808465885558122e-06,
	"loss": 0.3778,
	"step": 2230
	},
	{
	"epoch": 0.6447192874914361,
	"grad_norm": 0.4182365028017815,
	"learning_rate": 6.760778171140492e-06,
	"loss": 0.4071,
	"step": 2235
	},
	{
	"epoch": 0.6461616125193812,
	"grad_norm": 0.419641094415173,
	"learning_rate": 6.713172614518278e-06,
	"loss": 0.3838,
	"step": 2240
	},
	{
	"epoch": 0.6476039375473263,
	"grad_norm": 0.455639932664125,
	"learning_rate": 6.665650423131953e-06,
	"loss": 0.3864,
	"step": 2245
	},
	{
	"epoch": 0.6490462625752713,
	"grad_norm": 0.42278667120966895,
	"learning_rate": 6.618212802307589e-06,
	"loss": 0.396,
	"step": 2250
	},
	{
	"epoch": 0.6504885876032164,
	"grad_norm": 0.44585454789944867,
	"learning_rate": 6.570860955226234e-06,
	"loss": 0.3811,
	"step": 2255
	},
	{
	"epoch": 0.6519309126311614,
	"grad_norm": 0.3966025625438823,
	"learning_rate": 6.5235960828934305e-06,
	"loss": 0.3732,
	"step": 2260
	},
	{
	"epoch": 0.6533732376591065,
	"grad_norm": 0.40489868259557904,
	"learning_rate": 6.476419384108745e-06,
	"loss": 0.3567,
	"step": 2265
	},
	{
	"epoch": 0.6548155626870515,
	"grad_norm": 0.39366736678335024,
	"learning_rate": 6.429332055435349e-06,
	"loss": 0.3623,
	"step": 2270
	},
	{
	"epoch": 0.6562578877149966,
	"grad_norm": 0.42529750592620424,
	"learning_rate": 6.382335291169698e-06,
	"loss": 0.3676,
	"step": 2275
	},
	{
	"epoch": 0.6577002127429417,
	"grad_norm": 0.44036040562921713,
	"learning_rate": 6.335430283311206e-06,
	"loss": 0.3889,
	"step": 2280
	},
	{
	"epoch": 0.6591425377708867,
	"grad_norm": 0.3787593063841428,
	"learning_rate": 6.288618221532031e-06,
	"loss": 0.386,
	"step": 2285
	},
	{
	"epoch": 0.6605848627988317,
	"grad_norm": 0.4169592811397764,
	"learning_rate": 6.241900293146915e-06,
	"loss": 0.3752,
	"step": 2290
	},
	{
	"epoch": 0.6620271878267767,
	"grad_norm": 0.4047539500558757,
	"learning_rate": 6.195277683083033e-06,
	"loss": 0.3658,
	"step": 2295
	},
	{
	"epoch": 0.6634695128547218,
	"grad_norm": 0.3845249122797127,
	"learning_rate": 6.148751573849976e-06,
	"loss": 0.3563,
	"step": 2300
	},
	{
	"epoch": 0.6649118378826668,
	"grad_norm": 0.4633041975142693,
	"learning_rate": 6.102323145509732e-06,
	"loss": 0.3852,
	"step": 2305
	},
	{
	"epoch": 0.6663541629106119,
	"grad_norm": 0.3985148240515743,
	"learning_rate": 6.055993575646775e-06,
	"loss": 0.3915,
	"step": 2310
	},
	{
	"epoch": 0.667796487938557,
	"grad_norm": 0.40716397694215495,
	"learning_rate": 6.00976403933818e-06,
	"loss": 0.3605,
	"step": 2315
	},
	{
	"epoch": 0.669238812966502,
	"grad_norm": 0.38795576025941675,
	"learning_rate": 5.963635709123825e-06,
	"loss": 0.37,
	"step": 2320
	},
	{
	"epoch": 0.6706811379944471,
	"grad_norm": 0.4110632294347015,
	"learning_rate": 5.91760975497667e-06,
	"loss": 0.3853,
	"step": 2325
	},
	{
	"epoch": 0.6721234630223921,
	"grad_norm": 0.3969166036791085,
	"learning_rate": 5.871687344273045e-06,
	"loss": 0.3672,
	"step": 2330
	},
	{
	"epoch": 0.6735657880503372,
	"grad_norm": 0.41207993758304634,
	"learning_rate": 5.8258696417630825e-06,
	"loss": 0.3547,
	"step": 2335
	},
	{
	"epoch": 0.6750081130782822,
	"grad_norm": 0.3680867654775724,
	"learning_rate": 5.780157809541134e-06,
	"loss": 0.3625,
	"step": 2340
	},
	{
	"epoch": 0.6764504381062273,
	"grad_norm": 0.4267438085961488,
	"learning_rate": 5.734553007016345e-06,
	"loss": 0.3999,
	"step": 2345
	},
	{
	"epoch": 0.6778927631341722,
	"grad_norm": 0.3986326036374569,
	"learning_rate": 5.68905639088319e-06,
	"loss": 0.3303,
	"step": 2350
	},
	{
	"epoch": 0.6793350881621173,
	"grad_norm": 0.42614206231420926,
	"learning_rate": 5.643669115092183e-06,
	"loss": 0.3589,
	"step": 2355
	},
	{
	"epoch": 0.6807774131900624,
	"grad_norm": 0.3776847045804154,
	"learning_rate": 5.598392330820586e-06,
	"loss": 0.3609,
	"step": 2360
	},
	{
	"epoch": 0.6822197382180074,
	"grad_norm": 0.41271036973705766,
	"learning_rate": 5.553227186443215e-06,
	"loss": 0.3615,
	"step": 2365
	},
	{
	"epoch": 0.6836620632459525,
	"grad_norm": 0.38781546784387094,
	"learning_rate": 5.508174827503328e-06,
	"loss": 0.3433,
	"step": 2370
	},
	{
	"epoch": 0.6851043882738975,
	"grad_norm": 0.39550012764434234,
	"learning_rate": 5.46323639668353e-06,
	"loss": 0.3691,
	"step": 2375
	},
	{
	"epoch": 0.6865467133018426,
	"grad_norm": 0.4203725670836375,
	"learning_rate": 5.4184130337768485e-06,
	"loss": 0.3882,
	"step": 2380
	},
	{
	"epoch": 0.6879890383297876,
	"grad_norm": 0.41719368579398214,
	"learning_rate": 5.373705875657766e-06,
	"loss": 0.3678,
	"step": 2385
	},
	{
	"epoch": 0.6894313633577327,
	"grad_norm": 0.408418654280754,
	"learning_rate": 5.329116056253429e-06,
	"loss": 0.3788,
	"step": 2390
	},
	{
	"epoch": 0.6908736883856778,
	"grad_norm": 0.4432414502444195,
	"learning_rate": 5.284644706514868e-06,
	"loss": 0.3733,
	"step": 2395
	},
	{
	"epoch": 0.6923160134136228,
	"grad_norm": 0.43523682450545426,
	"learning_rate": 5.240292954388306e-06,
	"loss": 0.3716,
	"step": 2400
	},
	{
	"epoch": 0.6937583384415678,
	"grad_norm": 0.4389694994462393,
	"learning_rate": 5.1960619247865815e-06,
	"loss": 0.3655,
	"step": 2405
	},
	{
	"epoch": 0.6952006634695128,
	"grad_norm": 0.3932614135155125,
	"learning_rate": 5.15195273956057e-06,
	"loss": 0.3971,
	"step": 2410
	},
	{
	"epoch": 0.6966429884974579,
	"grad_norm": 0.38979362609767165,
	"learning_rate": 5.107966517470771e-06,
	"loss": 0.3724,
	"step": 2415
	},
	{
	"epoch": 0.6980853135254029,
	"grad_norm": 0.4209080852390916,
	"learning_rate": 5.064104374158909e-06,
	"loss": 0.3911,
	"step": 2420
	},
	{
	"epoch": 0.699527638553348,
	"grad_norm": 0.45055904805315533,
	"learning_rate": 5.0203674221196485e-06,
	"loss": 0.3633,
	"step": 2425
	},
	{
	"epoch": 0.700969963581293,
	"grad_norm": 0.3868393099197903,
	"learning_rate": 4.9767567706723706e-06,
	"loss": 0.3515,
	"step": 2430
	},
	{
	"epoch": 0.7024122886092381,
	"grad_norm": 0.41826804531316264,
	"learning_rate": 4.933273525933041e-06,
	"loss": 0.3519,
	"step": 2435
	},
	{
	"epoch": 0.7038546136371832,
	"grad_norm": 0.45957339946847975,
	"learning_rate": 4.889918790786153e-06,
	"loss": 0.3807,
	"step": 2440
	},
	{
	"epoch": 0.7052969386651282,
	"grad_norm": 0.4540538141436769,
	"learning_rate": 4.846693664856754e-06,
	"loss": 0.3465,
	"step": 2445
	},
	{
	"epoch": 0.7067392636930733,
	"grad_norm": 0.47813500195150954,
	"learning_rate": 4.803599244482558e-06,
	"loss": 0.376,
	"step": 2450
	},
	{
	"epoch": 0.7081815887210183,
	"grad_norm": 0.3925519413949624,
	"learning_rate": 4.760636622686136e-06,
	"loss": 0.3404,
	"step": 2455
	},
	{
	"epoch": 0.7096239137489633,
	"grad_norm": 0.4289528139780234,
	"learning_rate": 4.717806889147196e-06,
	"loss": 0.3627,
	"step": 2460
	},
	{
	"epoch": 0.7110662387769083,
	"grad_norm": 0.41215198190870284,
	"learning_rate": 4.675111130174939e-06,
	"loss": 0.3716,
	"step": 2465
	},
	{
	"epoch": 0.7125085638048534,
	"grad_norm": 0.4403007485651443,
	"learning_rate": 4.632550428680515e-06,
	"loss": 0.3765,
	"step": 2470
	},
	{
	"epoch": 0.7139508888327984,
	"grad_norm": 0.4311724864201015,
	"learning_rate": 4.590125864149551e-06,
	"loss": 0.3743,
	"step": 2475
	},
	{
	"epoch": 0.7153932138607435,
	"grad_norm": 0.46098384046435353,
	"learning_rate": 4.547838512614773e-06,
	"loss": 0.3505,
	"step": 2480
	},
	{
	"epoch": 0.7168355388886886,
	"grad_norm": 0.40338840945222365,
	"learning_rate": 4.505689446628712e-06,
	"loss": 0.3691,
	"step": 2485
	},
	{
	"epoch": 0.7182778639166336,
	"grad_norm": 0.40824551867501546,
	"learning_rate": 4.4636797352365035e-06,
	"loss": 0.3585,
	"step": 2490
	},
	{
	"epoch": 0.7197201889445787,
	"grad_norm": 0.4297027171998161,
	"learning_rate": 4.421810443948774e-06,
	"loss": 0.3705,
	"step": 2495
	},
	{
	"epoch": 0.7211625139725237,
	"grad_norm": 0.40341531049143703,
	"learning_rate": 4.38008263471461e-06,
	"loss": 0.3815,
	"step": 2500
	},
	{
	"epoch": 0.7211625139725237,
	"eval_loss": 0.37222930788993835,
	"eval_runtime": 142.2441,
	"eval_samples_per_second": 12.661,
	"eval_steps_per_second": 3.171,
	"step": 2500
	},
	{
	"epoch": 0.7226048390004688,
	"grad_norm": 0.4407059294927956,
	"learning_rate": 4.338497365894628e-06,
	"loss": 0.3661,
	"step": 2505
	},
	{
	"epoch": 0.7240471640284138,
	"grad_norm": 0.43213340820969415,
	"learning_rate": 4.297055692234133e-06,
	"loss": 0.3548,
	"step": 2510
	},
	{
	"epoch": 0.7254894890563589,
	"grad_norm": 0.40790860794488015,
	"learning_rate": 4.25575866483636e-06,
	"loss": 0.3693,
	"step": 2515
	},
	{
	"epoch": 0.7269318140843039,
	"grad_norm": 0.39452605394978774,
	"learning_rate": 4.214607331135817e-06,
	"loss": 0.3629,
	"step": 2520
	},
	{
	"epoch": 0.7283741391122489,
	"grad_norm": 0.4535519104968178,
	"learning_rate": 4.173602734871723e-06,
	"loss": 0.3631,
	"step": 2525
	},
	{
	"epoch": 0.729816464140194,
	"grad_norm": 0.4215165521407461,
	"learning_rate": 4.132745916061528e-06,
	"loss": 0.3623,
	"step": 2530
	},
	{
	"epoch": 0.731258789168139,
	"grad_norm": 0.4369337778893739,
	"learning_rate": 4.09203791097454e-06,
	"loss": 0.3799,
	"step": 2535
	},
	{
	"epoch": 0.7327011141960841,
	"grad_norm": 0.4218365082776104,
	"learning_rate": 4.051479752105642e-06,
	"loss": 0.3281,
	"step": 2540
	},
	{
	"epoch": 0.7341434392240291,
	"grad_norm": 0.39141469492573994,
	"learning_rate": 4.01107246814909e-06,
	"loss": 0.3779,
	"step": 2545
	},
	{
	"epoch": 0.7355857642519742,
	"grad_norm": 0.4361183098017262,
	"learning_rate": 3.970817083972451e-06,
	"loss": 0.3677,
	"step": 2550
	},
	{
	"epoch": 0.7370280892799193,
	"grad_norm": 0.4212489079522315,
	"learning_rate": 3.930714620590582e-06,
	"loss": 0.3697,
	"step": 2555
	},
	{
	"epoch": 0.7384704143078643,
	"grad_norm": 0.42629366346781794,
	"learning_rate": 3.890766095139744e-06,
	"loss": 0.336,
	"step": 2560
	},
	{
	"epoch": 0.7399127393358094,
	"grad_norm": 0.39167597840940843,
	"learning_rate": 3.850972520851804e-06,
	"loss": 0.3297,
	"step": 2565
	},
	{
	"epoch": 0.7413550643637544,
	"grad_norm": 0.4233310284348778,
	"learning_rate": 3.8113349070285344e-06,
	"loss": 0.3613,
	"step": 2570
	},
	{
	"epoch": 0.7427973893916994,
	"grad_norm": 0.4263022461531563,
	"learning_rate": 3.771854259016019e-06,
	"loss": 0.3529,
	"step": 2575
	},
	{
	"epoch": 0.7442397144196444,
	"grad_norm": 0.3973240159937157,
	"learning_rate": 3.7325315781791337e-06,
	"loss": 0.3661,
	"step": 2580
	},
	{
	"epoch": 0.7456820394475895,
	"grad_norm": 0.39734045764738396,
	"learning_rate": 3.693367861876188e-06,
	"loss": 0.3815,
	"step": 2585
	},
	{
	"epoch": 0.7471243644755345,
	"grad_norm": 0.4473118684590064,
	"learning_rate": 3.6543641034335873e-06,
	"loss": 0.3488,
	"step": 2590
	},
	{
	"epoch": 0.7485666895034796,
	"grad_norm": 0.4071557714101167,
	"learning_rate": 3.615521292120663e-06,
	"loss": 0.36,
	"step": 2595
	},
	{
	"epoch": 0.7500090145314247,
	"grad_norm": 0.4149969887621353,
	"learning_rate": 3.5768404131245695e-06,
	"loss": 0.3619,
	"step": 2600
	},
	{
	"epoch": 0.7514513395593697,
	"grad_norm": 0.41064754239264667,
	"learning_rate": 3.5383224475253043e-06,
	"loss": 0.3623,
	"step": 2605
	},
	{
	"epoch": 0.7528936645873148,
	"grad_norm": 0.48731666991216727,
	"learning_rate": 3.4999683722708265e-06,
	"loss": 0.3824,
	"step": 2610
	},
	{
	"epoch": 0.7543359896152598,
	"grad_norm": 0.42149841198530297,
	"learning_rate": 3.4617791601522565e-06,
	"loss": 0.3658,
	"step": 2615
	},
	{
	"epoch": 0.7557783146432049,
	"grad_norm": 0.3936949177789515,
	"learning_rate": 3.423755779779243e-06,
	"loss": 0.3308,
	"step": 2620
	},
	{
	"epoch": 0.7572206396711499,
	"grad_norm": 0.43489944362821054,
	"learning_rate": 3.3858991955553455e-06,
	"loss": 0.3815,
	"step": 2625
	},
	{
	"epoch": 0.7586629646990949,
	"grad_norm": 0.3921717289554429,
	"learning_rate": 3.348210367653625e-06,
	"loss": 0.3531,
	"step": 2630
	},
	{
	"epoch": 0.76010528972704,
	"grad_norm": 0.44238912615157533,
	"learning_rate": 3.3106902519922523e-06,
	"loss": 0.3696,
	"step": 2635
	},
	{
	"epoch": 0.761547614754985,
	"grad_norm": 0.4536027992384981,
	"learning_rate": 3.27333980021027e-06,
	"loss": 0.37,
	"step": 2640
	},
	{
	"epoch": 0.7629899397829301,
	"grad_norm": 0.4564191707678332,
	"learning_rate": 3.236159959643482e-06,
	"loss": 0.3819,
	"step": 2645
	},
	{
	"epoch": 0.7644322648108751,
	"grad_norm": 0.5326593840798252,
	"learning_rate": 3.1991516733003813e-06,
	"loss": 0.3758,
	"step": 2650
	},
	{
	"epoch": 0.7658745898388202,
	"grad_norm": 0.43321441818668444,
	"learning_rate": 3.1623158798382813e-06,
	"loss": 0.3783,
	"step": 2655
	},
	{
	"epoch": 0.7673169148667652,
	"grad_norm": 0.4454237213343821,
	"learning_rate": 3.125653513539456e-06,
	"loss": 0.3607,
	"step": 2660
	},
	{
	"epoch": 0.7687592398947103,
	"grad_norm": 0.4107211963202732,
	"learning_rate": 3.089165504287499e-06,
	"loss": 0.3482,
	"step": 2665
	},
	{
	"epoch": 0.7702015649226553,
	"grad_norm": 0.3789782102911423,
	"learning_rate": 3.052852777543687e-06,
	"loss": 0.3543,
	"step": 2670
	},
	{
	"epoch": 0.7716438899506004,
	"grad_norm": 0.4079189291227377,
	"learning_rate": 3.0167162543235384e-06,
	"loss": 0.3276,
	"step": 2675
	},
	{
	"epoch": 0.7730862149785455,
	"grad_norm": 0.4472943997084153,
	"learning_rate": 2.9807568511734564e-06,
	"loss": 0.3825,
	"step": 2680
	},
	{
	"epoch": 0.7745285400064905,
	"grad_norm": 0.430008379042804,
	"learning_rate": 2.944975480147445e-06,
	"loss": 0.3595,
	"step": 2685
	},
	{
	"epoch": 0.7759708650344355,
	"grad_norm": 0.4401700574196651,
	"learning_rate": 2.909373048784032e-06,
	"loss": 0.3779,
	"step": 2690
	},
	{
	"epoch": 0.7774131900623805,
	"grad_norm": 0.4208383654033427,
	"learning_rate": 2.873950460083191e-06,
	"loss": 0.3749,
	"step": 2695
	},
	{
	"epoch": 0.7788555150903256,
	"grad_norm": 0.4174074736046765,
	"learning_rate": 2.8387086124834952e-06,
	"loss": 0.374,
	"step": 2700
	},
	{
	"epoch": 0.7802978401182706,
	"grad_norm": 0.42868575004589055,
	"learning_rate": 2.8036483998392784e-06,
	"loss": 0.3564,
	"step": 2705
	},
	{
	"epoch": 0.7817401651462157,
	"grad_norm": 0.3985935455753018,
	"learning_rate": 2.768770711398001e-06,
	"loss": 0.3667,
	"step": 2710
	},
	{
	"epoch": 0.7831824901741608,
	"grad_norm": 0.40569605016983845,
	"learning_rate": 2.734076431777688e-06,
	"loss": 0.3506,
	"step": 2715
	},
	{
	"epoch": 0.7846248152021058,
	"grad_norm": 0.39328145893392497,
	"learning_rate": 2.6995664409444665e-06,
	"loss": 0.3464,
	"step": 2720
	},
	{
	"epoch": 0.7860671402300509,
	"grad_norm": 0.4528233880552543,
	"learning_rate": 2.6652416141902913e-06,
	"loss": 0.3605,
	"step": 2725
	},
	{
	"epoch": 0.7875094652579959,
	"grad_norm": 0.4480705994704807,
	"learning_rate": 2.631102822110695e-06,
	"loss": 0.3726,
	"step": 2730
	},
	{
	"epoch": 0.788951790285941,
	"grad_norm": 0.4574022134374259,
	"learning_rate": 2.597150930582757e-06,
	"loss": 0.359,
	"step": 2735
	},
	{
	"epoch": 0.790394115313886,
	"grad_norm": 0.4078128321456425,
	"learning_rate": 2.563386800743094e-06,
	"loss": 0.3413,
	"step": 2740
	},
	{
	"epoch": 0.791836440341831,
	"grad_norm": 0.44464864656256,
	"learning_rate": 2.5298112889660544e-06,
	"loss": 0.3587,
	"step": 2745
	},
	{
	"epoch": 0.793278765369776,
	"grad_norm": 0.3890963843751233,
	"learning_rate": 2.4964252468419802e-06,
	"loss": 0.344,
	"step": 2750
	},
	{
	"epoch": 0.7947210903977211,
	"grad_norm": 0.42348428672207705,
	"learning_rate": 2.463229521155611e-06,
	"loss": 0.3835,
	"step": 2755
	},
	{
	"epoch": 0.7961634154256662,
	"grad_norm": 0.4244981524719468,
	"learning_rate": 2.430224953864617e-06,
	"loss": 0.3908,
	"step": 2760
	},
	{
	"epoch": 0.7976057404536112,
	"grad_norm": 0.4461589097043871,
	"learning_rate": 2.397412382078219e-06,
	"loss": 0.3493,
	"step": 2765
	},
	{
	"epoch": 0.7990480654815563,
	"grad_norm": 0.4226119316706504,
	"learning_rate": 2.364792638035982e-06,
	"loss": 0.3549,
	"step": 2770
	},
	{
	"epoch": 0.8004903905095013,
	"grad_norm": 0.43426124883547124,
	"learning_rate": 2.3323665490866964e-06,
	"loss": 0.3578,
	"step": 2775
	},
	{
	"epoch": 0.8019327155374464,
	"grad_norm": 0.42274869171496543,
	"learning_rate": 2.300134937667391e-06,
	"loss": 0.3805,
	"step": 2780
	},
	{
	"epoch": 0.8033750405653914,
	"grad_norm": 0.4841781161829471,
	"learning_rate": 2.2680986212824786e-06,
	"loss": 0.3499,
	"step": 2785
	},
	{
	"epoch": 0.8048173655933365,
	"grad_norm": 0.428134320224768,
	"learning_rate": 2.2362584124830167e-06,
	"loss": 0.3684,
	"step": 2790
	},
	{
	"epoch": 0.8062596906212816,
	"grad_norm": 0.4117804314200649,
	"learning_rate": 2.204615118846107e-06,
	"loss": 0.3869,
	"step": 2795
	},
	{
	"epoch": 0.8077020156492265,
	"grad_norm": 0.41413616917927765,
	"learning_rate": 2.1731695429543974e-06,
	"loss": 0.338,
	"step": 2800
	},
	{
	"epoch": 0.8091443406771716,
	"grad_norm": 0.4360068588380961,
	"learning_rate": 2.141922482375737e-06,
	"loss": 0.3665,
	"step": 2805
	},
	{
	"epoch": 0.8105866657051166,
	"grad_norm": 0.4334830193418244,
	"learning_rate": 2.1108747296429477e-06,
	"loss": 0.3721,
	"step": 2810
	},
	{
	"epoch": 0.8120289907330617,
	"grad_norm": 0.507519342034383,
	"learning_rate": 2.080027072233718e-06,
	"loss": 0.3646,
	"step": 2815
	},
	{
	"epoch": 0.8134713157610067,
	"grad_norm": 0.42834185576130923,
	"learning_rate": 2.049380292550629e-06,
	"loss": 0.3633,
	"step": 2820
	},
	{
	"epoch": 0.8149136407889518,
	"grad_norm": 0.453195030964312,
	"learning_rate": 2.018935167901316e-06,
	"loss": 0.3539,
	"step": 2825
	},
	{
	"epoch": 0.8163559658168968,
	"grad_norm": 0.4103347116873249,
	"learning_rate": 1.9886924704787482e-06,
	"loss": 0.3457,
	"step": 2830
	},
	{
	"epoch": 0.8177982908448419,
	"grad_norm": 0.4081898260751316,
	"learning_rate": 1.9586529673416433e-06,
	"loss": 0.347,
	"step": 2835
	},
	{
	"epoch": 0.819240615872787,
	"grad_norm": 0.40268175350554464,
	"learning_rate": 1.928817420395018e-06,
	"loss": 0.3772,
	"step": 2840
	},
	{
	"epoch": 0.820682940900732,
	"grad_norm": 0.43775696767862726,
	"learning_rate": 1.8991865863708547e-06,
	"loss": 0.3718,
	"step": 2845
	},
	{
	"epoch": 0.8221252659286771,
	"grad_norm": 0.43895036356232614,
	"learning_rate": 1.8697612168089152e-06,
	"loss": 0.3648,
	"step": 2850
	},
	{
	"epoch": 0.823567590956622,
	"grad_norm": 0.40821144604675824,
	"learning_rate": 1.8405420580376755e-06,
	"loss": 0.3422,
	"step": 2855
	},
	{
	"epoch": 0.8250099159845671,
	"grad_norm": 0.4577535204704979,
	"learning_rate": 1.811529851155398e-06,
	"loss": 0.3511,
	"step": 2860
	},
	{
	"epoch": 0.8264522410125121,
	"grad_norm": 0.40698416625428246,
	"learning_rate": 1.7827253320113347e-06,
	"loss": 0.3521,
	"step": 2865
	},
	{
	"epoch": 0.8278945660404572,
	"grad_norm": 0.48745985212369625,
	"learning_rate": 1.7541292311870616e-06,
	"loss": 0.3727,
	"step": 2870
	},
	{
	"epoch": 0.8293368910684022,
	"grad_norm": 0.4152788200688241,
	"learning_rate": 1.7257422739779495e-06,
	"loss": 0.3406,
	"step": 2875
	},
	{
	"epoch": 0.8307792160963473,
	"grad_norm": 0.42357457834820555,
	"learning_rate": 1.6975651803747716e-06,
	"loss": 0.3614,
	"step": 2880
	},
	{
	"epoch": 0.8322215411242924,
	"grad_norm": 0.4290601435620992,
	"learning_rate": 1.6695986650454355e-06,
	"loss": 0.349,
	"step": 2885
	},
	{
	"epoch": 0.8336638661522374,
	"grad_norm": 0.40830671063358515,
	"learning_rate": 1.6418434373168623e-06,
	"loss": 0.3592,
	"step": 2890
	},
	{
	"epoch": 0.8351061911801825,
	"grad_norm": 0.4097799963554095,
	"learning_rate": 1.614300201156994e-06,
	"loss": 0.3359,
	"step": 2895
	},
	{
	"epoch": 0.8365485162081275,
	"grad_norm": 0.43204146744095845,
	"learning_rate": 1.5869696551569346e-06,
	"loss": 0.3596,
	"step": 2900
	},
	{
	"epoch": 0.8379908412360726,
	"grad_norm": 0.46076233886580875,
	"learning_rate": 1.5598524925132396e-06,
	"loss": 0.3609,
	"step": 2905
	},
	{
	"epoch": 0.8394331662640176,
	"grad_norm": 0.4286297255981423,
	"learning_rate": 1.5329494010103263e-06,
	"loss": 0.3607,
	"step": 2910
	},
	{
	"epoch": 0.8408754912919626,
	"grad_norm": 0.3956440167259478,
	"learning_rate": 1.5062610630030317e-06,
	"loss": 0.316,
	"step": 2915
	},
	{
	"epoch": 0.8423178163199077,
	"grad_norm": 0.41432843943606673,
	"learning_rate": 1.4797881553993099e-06,
	"loss": 0.3589,
	"step": 2920
	},
	{
	"epoch": 0.8437601413478527,
	"grad_norm": 0.397270661772685,
	"learning_rate": 1.4535313496430558e-06,
	"loss": 0.3519,
	"step": 2925
	},
	{
	"epoch": 0.8452024663757978,
	"grad_norm": 0.41857285751070505,
	"learning_rate": 1.4274913116970846e-06,
	"loss": 0.3401,
	"step": 2930
	},
	{
	"epoch": 0.8466447914037428,
	"grad_norm": 0.3941031419777465,
	"learning_rate": 1.4016687020262231e-06,
	"loss": 0.3504,
	"step": 2935
	},
	{
	"epoch": 0.8480871164316879,
	"grad_norm": 0.428688446592497,
	"learning_rate": 1.3760641755805848e-06,
	"loss": 0.3614,
	"step": 2940
	},
	{
	"epoch": 0.8495294414596329,
	"grad_norm": 0.4097211469034453,
	"learning_rate": 1.3506783817789337e-06,
	"loss": 0.3384,
	"step": 2945
	},
	{
	"epoch": 0.850971766487578,
	"grad_norm": 0.44047116848231305,
	"learning_rate": 1.3255119644922266e-06,
	"loss": 0.3638,
	"step": 2950
	},
	{
	"epoch": 0.852414091515523,
	"grad_norm": 0.3994464624403052,
	"learning_rate": 1.300565562027276e-06,
	"loss": 0.3447,
	"step": 2955
	},
	{
	"epoch": 0.8538564165434681,
	"grad_norm": 0.44495457947302897,
	"learning_rate": 1.2758398071105626e-06,
	"loss": 0.3546,
	"step": 2960
	},
	{
	"epoch": 0.8552987415714132,
	"grad_norm": 0.4147516297268767,
	"learning_rate": 1.2513353268721907e-06,
	"loss": 0.3421,
	"step": 2965
	},
	{
	"epoch": 0.8567410665993581,
	"grad_norm": 0.422646250463158,
	"learning_rate": 1.2270527428299684e-06,
	"loss": 0.3579,
	"step": 2970
	},
	{
	"epoch": 0.8581833916273032,
	"grad_norm": 0.4189403344854125,
	"learning_rate": 1.2029926708736673e-06,
	"loss": 0.3425,
	"step": 2975
	},
	{
	"epoch": 0.8596257166552482,
	"grad_norm": 0.41547910036939945,
	"learning_rate": 1.179155721249381e-06,
	"loss": 0.3376,
	"step": 2980
	},
	{
	"epoch": 0.8610680416831933,
	"grad_norm": 0.42428858195226893,
	"learning_rate": 1.1555424985440522e-06,
	"loss": 0.3554,
	"step": 2985
	},
	{
	"epoch": 0.8625103667111383,
	"grad_norm": 0.4425537282272965,
	"learning_rate": 1.1321536016701473e-06,
	"loss": 0.351,
	"step": 2990
	},
	{
	"epoch": 0.8639526917390834,
	"grad_norm": 0.4161228925911087,
	"learning_rate": 1.1089896238504461e-06,
	"loss": 0.336,
	"step": 2995
	},
	{
	"epoch": 0.8653950167670285,
	"grad_norm": 0.37656047979276985,
	"learning_rate": 1.086051152603026e-06,
	"loss": 0.3509,
	"step": 3000
	},
	{
	"epoch": 0.8653950167670285,
	"eval_loss": 0.3611552119255066,
	"eval_runtime": 142.3229,
	"eval_samples_per_second": 12.654,
	"eval_steps_per_second": 3.169,
	"step": 3000
	},
	{
	"epoch": 0.8668373417949735,
	"grad_norm": 0.4463172354545017,
	"learning_rate": 1.0633387697263254e-06,
	"loss": 0.35,
	"step": 3005
	},
	{
	"epoch": 0.8682796668229186,
	"grad_norm": 0.43074983850708387,
	"learning_rate": 1.0408530512844196e-06,
	"loss": 0.3613,
	"step": 3010
	},
	{
	"epoch": 0.8697219918508636,
	"grad_norm": 0.39354733454334206,
	"learning_rate": 1.0185945675923813e-06,
	"loss": 0.3727,
	"step": 3015
	},
	{
	"epoch": 0.8711643168788087,
	"grad_norm": 0.44960602091132634,
	"learning_rate": 9.965638832018432e-07,
	"loss": 0.372,
	"step": 3020
	},
	{
	"epoch": 0.8726066419067536,
	"grad_norm": 0.42518881330063735,
	"learning_rate": 9.747615568866553e-07,
	"loss": 0.3516,
	"step": 3025
	},
	{
	"epoch": 0.8740489669346987,
	"grad_norm": 0.44741688383815076,
	"learning_rate": 9.531881416287203e-07,
	"loss": 0.3562,
	"step": 3030
	},
	{
	"epoch": 0.8754912919626437,
	"grad_norm": 0.4331522299966881,
	"learning_rate": 9.318441846039828e-07,
	"loss": 0.3548,
	"step": 3035
	},
	{
	"epoch": 0.8769336169905888,
	"grad_norm": 0.506237893255727,
	"learning_rate": 9.107302271685226e-07,
	"loss": 0.3412,
	"step": 3040
	},
	{
	"epoch": 0.8783759420185339,
	"grad_norm": 0.4658754493753741,
	"learning_rate": 8.898468048448528e-07,
	"loss": 0.3336,
	"step": 3045
	},
	{
	"epoch": 0.8798182670464789,
	"grad_norm": 0.438225563597408,
	"learning_rate": 8.691944473083114e-07,
	"loss": 0.3422,
	"step": 3050
	},
	{
	"epoch": 0.881260592074424,
	"grad_norm": 0.4170714809613398,
	"learning_rate": 8.487736783736533e-07,
	"loss": 0.3621,
	"step": 3055
	},
	{
	"epoch": 0.882702917102369,
	"grad_norm": 0.4590349478238853,
	"learning_rate": 8.285850159817388e-07,
	"loss": 0.3791,
	"step": 3060
	},
	{
	"epoch": 0.8841452421303141,
	"grad_norm": 0.4332258091307991,
	"learning_rate": 8.086289721864127e-07,
	"loss": 0.3404,
	"step": 3065
	},
	{
	"epoch": 0.8855875671582591,
	"grad_norm": 0.4452410333427778,
	"learning_rate": 7.889060531415193e-07,
	"loss": 0.3541,
	"step": 3070
	},
	{
	"epoch": 0.8870298921862042,
	"grad_norm": 0.42507300447077245,
	"learning_rate": 7.694167590880475e-07,
	"loss": 0.3549,
	"step": 3075
	},
	{
	"epoch": 0.8884722172141493,
	"grad_norm": 0.4227403053651907,
	"learning_rate": 7.501615843414623e-07,
	"loss": 0.3264,
	"step": 3080
	},
	{
	"epoch": 0.8899145422420942,
	"grad_norm": 0.4131961662824003,
	"learning_rate": 7.311410172791522e-07,
	"loss": 0.3369,
	"step": 3085
	},
	{
	"epoch": 0.8913568672700393,
	"grad_norm": 0.39579591570866374,
	"learning_rate": 7.123555403280558e-07,
	"loss": 0.3483,
	"step": 3090
	},
	{
	"epoch": 0.8927991922979843,
	"grad_norm": 0.42292696994848605,
	"learning_rate": 6.938056299524099e-07,
	"loss": 0.3398,
	"step": 3095
	},
	{
	"epoch": 0.8942415173259294,
	"grad_norm": 0.38022938922831223,
	"learning_rate": 6.754917566416796e-07,
	"loss": 0.3469,
	"step": 3100
	},
	{
	"epoch": 0.8956838423538744,
	"grad_norm": 0.4849805496701068,
	"learning_rate": 6.574143848986226e-07,
	"loss": 0.3618,
	"step": 3105
	},
	{
	"epoch": 0.8971261673818195,
	"grad_norm": 0.44465461522642474,
	"learning_rate": 6.395739732274919e-07,
	"loss": 0.3642,
	"step": 3110
	},
	{
	"epoch": 0.8985684924097646,
	"grad_norm": 0.44656695164750837,
	"learning_rate": 6.219709741224322e-07,
	"loss": 0.3563,
	"step": 3115
	},
	{
	"epoch": 0.9000108174377096,
	"grad_norm": 0.4269116876807273,
	"learning_rate": 6.046058340559824e-07,
	"loss": 0.3431,
	"step": 3120
	},
	{
	"epoch": 0.9014531424656547,
	"grad_norm": 0.4086865891433274,
	"learning_rate": 5.874789934677583e-07,
	"loss": 0.3505,
	"step": 3125
	},
	{
	"epoch": 0.9028954674935997,
	"grad_norm": 0.4404444466800333,
	"learning_rate": 5.705908867532862e-07,
	"loss": 0.3407,
	"step": 3130
	},
	{
	"epoch": 0.9043377925215448,
	"grad_norm": 0.45999537115175176,
	"learning_rate": 5.53941942252979e-07,
	"loss": 0.37,
	"step": 3135
	},
	{
	"epoch": 0.9057801175494897,
	"grad_norm": 0.4242568290280731,
	"learning_rate": 5.375325822412747e-07,
	"loss": 0.3316,
	"step": 3140
	},
	{
	"epoch": 0.9072224425774348,
	"grad_norm": 0.4753028820261241,
	"learning_rate": 5.213632229159227e-07,
	"loss": 0.3785,
	"step": 3145
	},
	{
	"epoch": 0.9086647676053798,
	"grad_norm": 0.4699691806857396,
	"learning_rate": 5.054342743874386e-07,
	"loss": 0.3617,
	"step": 3150
	},
	{
	"epoch": 0.9101070926333249,
	"grad_norm": 0.4352496762130561,
	"learning_rate": 4.897461406686821e-07,
	"loss": 0.3359,
	"step": 3155
	},
	{
	"epoch": 0.91154941766127,
	"grad_norm": 0.4316421343515809,
	"learning_rate": 4.742992196646301e-07,
	"loss": 0.3376,
	"step": 3160
	},
	{
	"epoch": 0.912991742689215,
	"grad_norm": 0.4001287994073788,
	"learning_rate": 4.590939031622743e-07,
	"loss": 0.3351,
	"step": 3165
	},
	{
	"epoch": 0.9144340677171601,
	"grad_norm": 0.4363788326973079,
	"learning_rate": 4.4413057682068606e-07,
	"loss": 0.3473,
	"step": 3170
	},
	{
	"epoch": 0.9158763927451051,
	"grad_norm": 0.44176842953481193,
	"learning_rate": 4.2940962016123524e-07,
	"loss": 0.3332,
	"step": 3175
	},
	{
	"epoch": 0.9173187177730502,
	"grad_norm": 0.43914474716543256,
	"learning_rate": 4.149314065579624e-07,
	"loss": 0.3383,
	"step": 3180
	},
	{
	"epoch": 0.9187610428009952,
	"grad_norm": 0.4540079519566383,
	"learning_rate": 4.0069630322811303e-07,
	"loss": 0.3786,
	"step": 3185
	},
	{
	"epoch": 0.9202033678289403,
	"grad_norm": 0.4612868459187327,
	"learning_rate": 3.867046712228162e-07,
	"loss": 0.3625,
	"step": 3190
	},
	{
	"epoch": 0.9216456928568852,
	"grad_norm": 0.40372545279617805,
	"learning_rate": 3.729568654179361e-07,
	"loss": 0.3308,
	"step": 3195
	},
	{
	"epoch": 0.9230880178848303,
	"grad_norm": 0.4204476032972304,
	"learning_rate": 3.5945323450506387e-07,
	"loss": 0.3346,
	"step": 3200
	},
	{
	"epoch": 0.9245303429127754,
	"grad_norm": 0.45260198781122246,
	"learning_rate": 3.4619412098267693e-07,
	"loss": 0.3795,
	"step": 3205
	},
	{
	"epoch": 0.9259726679407204,
	"grad_norm": 0.42527213346553855,
	"learning_rate": 3.331798611474535e-07,
	"loss": 0.3421,
	"step": 3210
	},
	{
	"epoch": 0.9274149929686655,
	"grad_norm": 0.414984415520749,
	"learning_rate": 3.204107850857374e-07,
	"loss": 0.3291,
	"step": 3215
	},
	{
	"epoch": 0.9288573179966105,
	"grad_norm": 0.4549260227056393,
	"learning_rate": 3.0788721666517365e-07,
	"loss": 0.3486,
	"step": 3220
	},
	{
	"epoch": 0.9302996430245556,
	"grad_norm": 0.4443023622951338,
	"learning_rate": 2.9560947352648697e-07,
	"loss": 0.3756,
	"step": 3225
	},
	{
	"epoch": 0.9317419680525006,
	"grad_norm": 0.4250192102717841,
	"learning_rate": 2.8357786707542854e-07,
	"loss": 0.3525,
	"step": 3230
	},
	{
	"epoch": 0.9331842930804457,
	"grad_norm": 0.41194820669384097,
	"learning_rate": 2.71792702474879e-07,
	"loss": 0.3562,
	"step": 3235
	},
	{
	"epoch": 0.9346266181083908,
	"grad_norm": 0.42277936484045997,
	"learning_rate": 2.602542786371065e-07,
	"loss": 0.3609,
	"step": 3240
	},
	{
	"epoch": 0.9360689431363358,
	"grad_norm": 0.402522590339594,
	"learning_rate": 2.489628882161832e-07,
	"loss": 0.3323,
	"step": 3245
	},
	{
	"epoch": 0.9375112681642809,
	"grad_norm": 0.42468823176649917,
	"learning_rate": 2.3791881760056756e-07,
	"loss": 0.3705,
	"step": 3250
	},
	{
	"epoch": 0.9389535931922258,
	"grad_norm": 0.42563197511583134,
	"learning_rate": 2.2712234690583813e-07,
	"loss": 0.3635,
	"step": 3255
	},
	{
	"epoch": 0.9403959182201709,
	"grad_norm": 0.4452148892270775,
	"learning_rate": 2.1657374996758795e-07,
	"loss": 0.3478,
	"step": 3260
	},
	{
	"epoch": 0.9418382432481159,
	"grad_norm": 0.4539015567282992,
	"learning_rate": 2.0627329433447917e-07,
	"loss": 0.3736,
	"step": 3265
	},
	{
	"epoch": 0.943280568276061,
	"grad_norm": 0.40270803503237657,
	"learning_rate": 1.9622124126145837e-07,
	"loss": 0.3378,
	"step": 3270
	},
	{
	"epoch": 0.944722893304006,
	"grad_norm": 0.4075396549757293,
	"learning_rate": 1.864178457031318e-07,
	"loss": 0.3562,
	"step": 3275
	},
	{
	"epoch": 0.9461652183319511,
	"grad_norm": 0.43266062909072267,
	"learning_rate": 1.768633563072919e-07,
	"loss": 0.3451,
	"step": 3280
	},
	{
	"epoch": 0.9476075433598962,
	"grad_norm": 0.418621662939926,
	"learning_rate": 1.6755801540862092e-07,
	"loss": 0.334,
	"step": 3285
	},
	{
	"epoch": 0.9490498683878412,
	"grad_norm": 0.4221481289163581,
	"learning_rate": 1.5850205902253613e-07,
	"loss": 0.3536,
	"step": 3290
	},
	{
	"epoch": 0.9504921934157863,
	"grad_norm": 0.40400229300396406,
	"learning_rate": 1.4969571683920768e-07,
	"loss": 0.3636,
	"step": 3295
	},
	{
	"epoch": 0.9519345184437313,
	"grad_norm": 0.4142859171614361,
	"learning_rate": 1.411392122177302e-07,
	"loss": 0.3302,
	"step": 3300
	},
	{
	"epoch": 0.9533768434716764,
	"grad_norm": 0.4259634616965583,
	"learning_rate": 1.3283276218046259e-07,
	"loss": 0.3674,
	"step": 3305
	},
	{
	"epoch": 0.9548191684996213,
	"grad_norm": 0.41429097541392035,
	"learning_rate": 1.2477657740751714e-07,
	"loss": 0.3483,
	"step": 3310
	},
	{
	"epoch": 0.9562614935275664,
	"grad_norm": 0.42353387168902784,
	"learning_rate": 1.169708622314214e-07,
	"loss": 0.3608,
	"step": 3315
	},
	{
	"epoch": 0.9577038185555115,
	"grad_norm": 0.42693212185785107,
	"learning_rate": 1.0941581463193129e-07,
	"loss": 0.3452,
	"step": 3320
	},
	{
	"epoch": 0.9591461435834565,
	"grad_norm": 0.4328702433520352,
	"learning_rate": 1.021116262310129e-07,
	"loss": 0.3413,
	"step": 3325
	},
	{
	"epoch": 0.9605884686114016,
	"grad_norm": 0.41956255025855793,
	"learning_rate": 9.505848228798076e-08,
	"loss": 0.3604,
	"step": 3330
	},
	{
	"epoch": 0.9620307936393466,
	"grad_norm": 0.4209071869524921,
	"learning_rate": 8.825656169480056e-08,
	"loss": 0.3384,
	"step": 3335
	},
	{
	"epoch": 0.9634731186672917,
	"grad_norm": 0.4118105753397592,
	"learning_rate": 8.170603697154944e-08,
	"loss": 0.3338,
	"step": 3340
	},
	{
	"epoch": 0.9649154436952367,
	"grad_norm": 0.43817584876124205,
	"learning_rate": 7.540707426204163e-08,
	"loss": 0.3281,
	"step": 3345
	},
	{
	"epoch": 0.9663577687231818,
	"grad_norm": 0.3903217050033041,
	"learning_rate": 6.935983332961305e-08,
	"loss": 0.3308,
	"step": 3350
	},
	{
	"epoch": 0.9678000937511269,
	"grad_norm": 0.41905865354117233,
	"learning_rate": 6.356446755307444e-08,
	"loss": 0.3509,
	"step": 3355
	},
	{
	"epoch": 0.9692424187790719,
	"grad_norm": 0.41394321455611666,
	"learning_rate": 5.802112392281123e-08,
	"loss": 0.3377,
	"step": 3360
	},
	{
	"epoch": 0.9706847438070169,
	"grad_norm": 0.4316304666724342,
	"learning_rate": 5.272994303706758e-08,
	"loss": 0.3592,
	"step": 3365
	},
	{
	"epoch": 0.9721270688349619,
	"grad_norm": 0.45454272140307556,
	"learning_rate": 4.769105909836924e-08,
	"loss": 0.3485,
	"step": 3370
	},
	{
	"epoch": 0.973569393862907,
	"grad_norm": 0.43202485000084534,
	"learning_rate": 4.2904599910127406e-08,
	"loss": 0.3538,
	"step": 3375
	},
	{
	"epoch": 0.975011718890852,
	"grad_norm": 0.44712558770756466,
	"learning_rate": 3.837068687339351e-08,
	"loss": 0.367,
	"step": 3380
	},
	{
	"epoch": 0.9764540439187971,
	"grad_norm": 0.423193248701901,
	"learning_rate": 3.408943498377726e-08,
	"loss": 0.3351,
	"step": 3385
	},
	{
	"epoch": 0.9778963689467421,
	"grad_norm": 0.47037763666404425,
	"learning_rate": 3.006095282854116e-08,
	"loss": 0.3966,
	"step": 3390
	},
	{
	"epoch": 0.9793386939746872,
	"grad_norm": 0.4314080592872779,
	"learning_rate": 2.628534258383164e-08,
	"loss": 0.357,
	"step": 3395
	},
	{
	"epoch": 0.9807810190026323,
	"grad_norm": 0.45121239415975073,
	"learning_rate": 2.2762700012097795e-08,
	"loss": 0.3564,
	"step": 3400
	},
	{
	"epoch": 0.9822233440305773,
	"grad_norm": 0.4226505971917229,
	"learning_rate": 1.9493114459659956e-08,
	"loss": 0.3625,
	"step": 3405
	},
	{
	"epoch": 0.9836656690585224,
	"grad_norm": 0.4197713049001792,
	"learning_rate": 1.6476668854440435e-08,
	"loss": 0.3526,
	"step": 3410
	},
	{
	"epoch": 0.9851079940864674,
	"grad_norm": 0.4575738762031232,
	"learning_rate": 1.3713439703865183e-08,
	"loss": 0.3762,
	"step": 3415
	},
	{
	"epoch": 0.9865503191144124,
	"grad_norm": 0.4574906098764045,
	"learning_rate": 1.120349709291868e-08,
	"loss": 0.3634,
	"step": 3420
	},
	{
	"epoch": 0.9879926441423574,
	"grad_norm": 0.43088006927461175,
	"learning_rate": 8.946904682370917e-09,
	"loss": 0.3675,
	"step": 3425
	},
	{
	"epoch": 0.9894349691703025,
	"grad_norm": 0.4103449101623024,
	"learning_rate": 6.943719707158681e-09,
	"loss": 0.3496,
	"step": 3430
	},
	{
	"epoch": 0.9908772941982475,
	"grad_norm": 0.40469613082222705,
	"learning_rate": 5.193992974935613e-09,
	"loss": 0.369,
	"step": 3435
	},
	{
	"epoch": 0.9923196192261926,
	"grad_norm": 0.46076258755412675,
	"learning_rate": 3.697768864782125e-09,
	"loss": 0.3588,
	"step": 3440
	},
	{
	"epoch": 0.9937619442541377,
	"grad_norm": 0.4334341619233562,
	"learning_rate": 2.4550853260851826e-09,
	"loss": 0.3345,
	"step": 3445
	},
	{
	"epoch": 0.9952042692820827,
	"grad_norm": 0.44568439209243566,
	"learning_rate": 1.4659738775679721e-09,
	"loss": 0.3459,
	"step": 3450
	},
	{
	"epoch": 0.9966465943100278,
	"grad_norm": 0.45951543969711284,
	"learning_rate": 7.30459606494982e-10,
	"loss": 0.3791,
	"step": 3455
	},
	{
	"epoch": 0.9980889193379728,
	"grad_norm": 0.4459520568434071,
	"learning_rate": 2.4856116803695375e-10,
	"loss": 0.3525,
	"step": 3460
	},
	{
	"epoch": 0.9995312443659179,
	"grad_norm": 0.4581327568157757,
	"learning_rate": 2.0290784791265893e-11,
	"loss": 0.3492,
	"step": 3465
	},
	{
	"epoch": 0.9998197093715069,
	"step": 3466,
	"total_flos": 4977616761913344.0,
	"train_loss": 0.6325558101381102,
	"train_runtime": 63848.9812,
	"train_samples_per_second": 3.475,
	"train_steps_per_second": 0.054
	}
	],
	"logging_steps": 5,
	"max_steps": 3466,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4977616761913344.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}