Training in progress, step 3900, checkpoint

85f0f1d verified 11 days ago

73.9 kB

	{
	"best_metric": 0.3866276741027832,
	"best_model_checkpoint": "./output/checkpoint-3000",
	"epoch": 3.8537549407114624,
	"eval_steps": 150,
	"global_step": 3900,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.009881422924901186,
	"grad_norm": 2.4057295322418213,
	"learning_rate": 9.999999999999999e-06,
	"loss": 0.527,
	"step": 10
	},
	{
	"epoch": 0.019762845849802372,
	"grad_norm": 2.7988038063049316,
	"learning_rate": 1.9999999999999998e-05,
	"loss": 0.4789,
	"step": 20
	},
	{
	"epoch": 0.029644268774703556,
	"grad_norm": 3.1874520778656006,
	"learning_rate": 2.999999999999999e-05,
	"loss": 0.5495,
	"step": 30
	},
	{
	"epoch": 0.039525691699604744,
	"grad_norm": 3.206881046295166,
	"learning_rate": 3.9999999999999996e-05,
	"loss": 0.5418,
	"step": 40
	},
	{
	"epoch": 0.04940711462450593,
	"grad_norm": 2.863534927368164,
	"learning_rate": 4.999999999999999e-05,
	"loss": 0.5065,
	"step": 50
	},
	{
	"epoch": 0.05928853754940711,
	"grad_norm": 2.8917012214660645,
	"learning_rate": 5.999999999999998e-05,
	"loss": 0.5262,
	"step": 60
	},
	{
	"epoch": 0.0691699604743083,
	"grad_norm": 2.8896090984344482,
	"learning_rate": 6.999999999999998e-05,
	"loss": 0.5294,
	"step": 70
	},
	{
	"epoch": 0.07905138339920949,
	"grad_norm": 3.138671875,
	"learning_rate": 7.999999999999999e-05,
	"loss": 0.4787,
	"step": 80
	},
	{
	"epoch": 0.08893280632411067,
	"grad_norm": 2.513195753097534,
	"learning_rate": 8.999999999999998e-05,
	"loss": 0.4873,
	"step": 90
	},
	{
	"epoch": 0.09881422924901186,
	"grad_norm": 2.762770414352417,
	"learning_rate": 9.999999999999998e-05,
	"loss": 0.5069,
	"step": 100
	},
	{
	"epoch": 0.10869565217391304,
	"grad_norm": 2.255554437637329,
	"learning_rate": 9.999897234791827e-05,
	"loss": 0.4713,
	"step": 110
	},
	{
	"epoch": 0.11857707509881422,
	"grad_norm": 2.8342161178588867,
	"learning_rate": 9.999588943391594e-05,
	"loss": 0.5146,
	"step": 120
	},
	{
	"epoch": 0.12845849802371542,
	"grad_norm": 2.1564338207244873,
	"learning_rate": 9.999075138471948e-05,
	"loss": 0.4976,
	"step": 130
	},
	{
	"epoch": 0.1383399209486166,
	"grad_norm": 2.606574773788452,
	"learning_rate": 9.998355841153397e-05,
	"loss": 0.5166,
	"step": 140
	},
	{
	"epoch": 0.1482213438735178,
	"grad_norm": 2.285940647125244,
	"learning_rate": 9.997431081003437e-05,
	"loss": 0.5137,
	"step": 150
	},
	{
	"epoch": 0.1482213438735178,
	"eval_loss": 0.5139818787574768,
	"eval_runtime": 35.3761,
	"eval_samples_per_second": 14.134,
	"eval_steps_per_second": 14.134,
	"step": 150
	},
	{
	"epoch": 0.15810276679841898,
	"grad_norm": 2.5471882820129395,
	"learning_rate": 9.996300896035337e-05,
	"loss": 0.5392,
	"step": 160
	},
	{
	"epoch": 0.16798418972332016,
	"grad_norm": 3.4715616703033447,
	"learning_rate": 9.994965332706571e-05,
	"loss": 0.517,
	"step": 170
	},
	{
	"epoch": 0.17786561264822134,
	"grad_norm": 2.321061134338379,
	"learning_rate": 9.99342444591692e-05,
	"loss": 0.4852,
	"step": 180
	},
	{
	"epoch": 0.18774703557312253,
	"grad_norm": 2.590848922729492,
	"learning_rate": 9.991678299006203e-05,
	"loss": 0.5101,
	"step": 190
	},
	{
	"epoch": 0.1976284584980237,
	"grad_norm": 2.412264823913574,
	"learning_rate": 9.989726963751679e-05,
	"loss": 0.5099,
	"step": 200
	},
	{
	"epoch": 0.2075098814229249,
	"grad_norm": 2.491581678390503,
	"learning_rate": 9.987570520365101e-05,
	"loss": 0.5057,
	"step": 210
	},
	{
	"epoch": 0.21739130434782608,
	"grad_norm": 2.79880690574646,
	"learning_rate": 9.985209057489407e-05,
	"loss": 0.4955,
	"step": 220
	},
	{
	"epoch": 0.22727272727272727,
	"grad_norm": 3.0157032012939453,
	"learning_rate": 9.98264267219509e-05,
	"loss": 0.4766,
	"step": 230
	},
	{
	"epoch": 0.23715415019762845,
	"grad_norm": 2.266268491744995,
	"learning_rate": 9.979871469976193e-05,
	"loss": 0.4975,
	"step": 240
	},
	{
	"epoch": 0.24703557312252963,
	"grad_norm": 2.4801745414733887,
	"learning_rate": 9.976895564745989e-05,
	"loss": 0.5068,
	"step": 250
	},
	{
	"epoch": 0.25691699604743085,
	"grad_norm": 2.9422342777252197,
	"learning_rate": 9.973715078832285e-05,
	"loss": 0.4792,
	"step": 260
	},
	{
	"epoch": 0.26679841897233203,
	"grad_norm": 2.364716053009033,
	"learning_rate": 9.970330142972399e-05,
	"loss": 0.475,
	"step": 270
	},
	{
	"epoch": 0.2766798418972332,
	"grad_norm": 2.0679702758789062,
	"learning_rate": 9.966740896307789e-05,
	"loss": 0.4818,
	"step": 280
	},
	{
	"epoch": 0.2865612648221344,
	"grad_norm": 2.8333821296691895,
	"learning_rate": 9.962947486378323e-05,
	"loss": 0.489,
	"step": 290
	},
	{
	"epoch": 0.2964426877470356,
	"grad_norm": 2.5552380084991455,
	"learning_rate": 9.958950069116228e-05,
	"loss": 0.4921,
	"step": 300
	},
	{
	"epoch": 0.2964426877470356,
	"eval_loss": 0.4803454577922821,
	"eval_runtime": 35.2266,
	"eval_samples_per_second": 14.194,
	"eval_steps_per_second": 14.194,
	"step": 300
	},
	{
	"epoch": 0.30632411067193677,
	"grad_norm": 2.617976188659668,
	"learning_rate": 9.954748808839671e-05,
	"loss": 0.5139,
	"step": 310
	},
	{
	"epoch": 0.31620553359683795,
	"grad_norm": 2.61501407623291,
	"learning_rate": 9.950343878246007e-05,
	"loss": 0.4642,
	"step": 320
	},
	{
	"epoch": 0.32608695652173914,
	"grad_norm": 2.3816354274749756,
	"learning_rate": 9.945735458404678e-05,
	"loss": 0.522,
	"step": 330
	},
	{
	"epoch": 0.3359683794466403,
	"grad_norm": 2.5774052143096924,
	"learning_rate": 9.940923738749776e-05,
	"loss": 0.505,
	"step": 340
	},
	{
	"epoch": 0.3458498023715415,
	"grad_norm": 2.245945692062378,
	"learning_rate": 9.935908917072249e-05,
	"loss": 0.4801,
	"step": 350
	},
	{
	"epoch": 0.3557312252964427,
	"grad_norm": 1.9169942140579224,
	"learning_rate": 9.930691199511772e-05,
	"loss": 0.4414,
	"step": 360
	},
	{
	"epoch": 0.36561264822134387,
	"grad_norm": 2.1389174461364746,
	"learning_rate": 9.925270800548282e-05,
	"loss": 0.4659,
	"step": 370
	},
	{
	"epoch": 0.37549407114624506,
	"grad_norm": 2.4838740825653076,
	"learning_rate": 9.919647942993145e-05,
	"loss": 0.4594,
	"step": 380
	},
	{
	"epoch": 0.38537549407114624,
	"grad_norm": 2.629211187362671,
	"learning_rate": 9.913822857980017e-05,
	"loss": 0.492,
	"step": 390
	},
	{
	"epoch": 0.3952569169960474,
	"grad_norm": 2.387241840362549,
	"learning_rate": 9.907795784955324e-05,
	"loss": 0.4556,
	"step": 400
	},
	{
	"epoch": 0.4051383399209486,
	"grad_norm": 2.450533390045166,
	"learning_rate": 9.901566971668434e-05,
	"loss": 0.4653,
	"step": 410
	},
	{
	"epoch": 0.4150197628458498,
	"grad_norm": 2.464107036590576,
	"learning_rate": 9.895136674161462e-05,
	"loss": 0.4955,
	"step": 420
	},
	{
	"epoch": 0.424901185770751,
	"grad_norm": 2.31066632270813,
	"learning_rate": 9.888505156758756e-05,
	"loss": 0.4623,
	"step": 430
	},
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 2.158092975616455,
	"learning_rate": 9.881672692056019e-05,
	"loss": 0.4692,
	"step": 440
	},
	{
	"epoch": 0.44466403162055335,
	"grad_norm": 1.851882815361023,
	"learning_rate": 9.874639560909115e-05,
	"loss": 0.487,
	"step": 450
	},
	{
	"epoch": 0.44466403162055335,
	"eval_loss": 0.46247246861457825,
	"eval_runtime": 34.6043,
	"eval_samples_per_second": 14.449,
	"eval_steps_per_second": 14.449,
	"step": 450
	},
	{
	"epoch": 0.45454545454545453,
	"grad_norm": 2.608232021331787,
	"learning_rate": 9.867406052422521e-05,
	"loss": 0.4742,
	"step": 460
	},
	{
	"epoch": 0.4644268774703557,
	"grad_norm": 2.2287890911102295,
	"learning_rate": 9.859972463937438e-05,
	"loss": 0.4611,
	"step": 470
	},
	{
	"epoch": 0.4743083003952569,
	"grad_norm": 2.5854885578155518,
	"learning_rate": 9.852339101019572e-05,
	"loss": 0.4576,
	"step": 480
	},
	{
	"epoch": 0.4841897233201581,
	"grad_norm": 2.134244203567505,
	"learning_rate": 9.844506277446574e-05,
	"loss": 0.4824,
	"step": 490
	},
	{
	"epoch": 0.49407114624505927,
	"grad_norm": 2.4558589458465576,
	"learning_rate": 9.836474315195144e-05,
	"loss": 0.4497,
	"step": 500
	},
	{
	"epoch": 0.5039525691699605,
	"grad_norm": 2.9862284660339355,
	"learning_rate": 9.828243544427793e-05,
	"loss": 0.4632,
	"step": 510
	},
	{
	"epoch": 0.5138339920948617,
	"grad_norm": 2.5558395385742188,
	"learning_rate": 9.819814303479264e-05,
	"loss": 0.4486,
	"step": 520
	},
	{
	"epoch": 0.5237154150197628,
	"grad_norm": 1.770102620124817,
	"learning_rate": 9.811186938842643e-05,
	"loss": 0.4476,
	"step": 530
	},
	{
	"epoch": 0.5335968379446641,
	"grad_norm": 3.525803565979004,
	"learning_rate": 9.802361805155094e-05,
	"loss": 0.4643,
	"step": 540
	},
	{
	"epoch": 0.5434782608695652,
	"grad_norm": 2.2628469467163086,
	"learning_rate": 9.7933392651833e-05,
	"loss": 0.4731,
	"step": 550
	},
	{
	"epoch": 0.5533596837944664,
	"grad_norm": 3.0324666500091553,
	"learning_rate": 9.784119689808542e-05,
	"loss": 0.4478,
	"step": 560
	},
	{
	"epoch": 0.5632411067193676,
	"grad_norm": 2.263258218765259,
	"learning_rate": 9.77470345801145e-05,
	"loss": 0.4497,
	"step": 570
	},
	{
	"epoch": 0.5731225296442688,
	"grad_norm": 2.645112991333008,
	"learning_rate": 9.765090956856434e-05,
	"loss": 0.4666,
	"step": 580
	},
	{
	"epoch": 0.5830039525691699,
	"grad_norm": 2.0175938606262207,
	"learning_rate": 9.755282581475766e-05,
	"loss": 0.47,
	"step": 590
	},
	{
	"epoch": 0.5928853754940712,
	"grad_norm": 2.175175666809082,
	"learning_rate": 9.74527873505334e-05,
	"loss": 0.4592,
	"step": 600
	},
	{
	"epoch": 0.5928853754940712,
	"eval_loss": 0.44894906878471375,
	"eval_runtime": 34.7044,
	"eval_samples_per_second": 14.407,
	"eval_steps_per_second": 14.407,
	"step": 600
	},
	{
	"epoch": 0.6027667984189723,
	"grad_norm": 2.4829459190368652,
	"learning_rate": 9.735079828808105e-05,
	"loss": 0.4453,
	"step": 610
	},
	{
	"epoch": 0.6126482213438735,
	"grad_norm": 2.2683026790618896,
	"learning_rate": 9.724686281977144e-05,
	"loss": 0.4701,
	"step": 620
	},
	{
	"epoch": 0.6225296442687747,
	"grad_norm": 2.6205978393554688,
	"learning_rate": 9.714098521798462e-05,
	"loss": 0.4581,
	"step": 630
	},
	{
	"epoch": 0.6324110671936759,
	"grad_norm": 2.5154802799224854,
	"learning_rate": 9.703316983493411e-05,
	"loss": 0.4372,
	"step": 640
	},
	{
	"epoch": 0.642292490118577,
	"grad_norm": 2.478700637817383,
	"learning_rate": 9.6923421102488e-05,
	"loss": 0.4554,
	"step": 650
	},
	{
	"epoch": 0.6521739130434783,
	"grad_norm": 2.286890745162964,
	"learning_rate": 9.681174353198684e-05,
	"loss": 0.474,
	"step": 660
	},
	{
	"epoch": 0.6620553359683794,
	"grad_norm": 2.0446231365203857,
	"learning_rate": 9.669814171405813e-05,
	"loss": 0.4347,
	"step": 670
	},
	{
	"epoch": 0.6719367588932806,
	"grad_norm": 2.571877956390381,
	"learning_rate": 9.658262031842768e-05,
	"loss": 0.4355,
	"step": 680
	},
	{
	"epoch": 0.6818181818181818,
	"grad_norm": 2.160186290740967,
	"learning_rate": 9.646518409372757e-05,
	"loss": 0.4354,
	"step": 690
	},
	{
	"epoch": 0.691699604743083,
	"grad_norm": 2.0123462677001953,
	"learning_rate": 9.634583786730107e-05,
	"loss": 0.4619,
	"step": 700
	},
	{
	"epoch": 0.7015810276679841,
	"grad_norm": 2.4318065643310547,
	"learning_rate": 9.622458654500406e-05,
	"loss": 0.4795,
	"step": 710
	},
	{
	"epoch": 0.7114624505928854,
	"grad_norm": 2.1146297454833984,
	"learning_rate": 9.610143511100351e-05,
	"loss": 0.442,
	"step": 720
	},
	{
	"epoch": 0.7213438735177866,
	"grad_norm": 2.312072992324829,
	"learning_rate": 9.597638862757252e-05,
	"loss": 0.4339,
	"step": 730
	},
	{
	"epoch": 0.7312252964426877,
	"grad_norm": 2.0367119312286377,
	"learning_rate": 9.584945223488224e-05,
	"loss": 0.4519,
	"step": 740
	},
	{
	"epoch": 0.741106719367589,
	"grad_norm": 2.8992955684661865,
	"learning_rate": 9.57206311507906e-05,
	"loss": 0.4431,
	"step": 750
	},
	{
	"epoch": 0.741106719367589,
	"eval_loss": 0.4378005266189575,
	"eval_runtime": 34.0956,
	"eval_samples_per_second": 14.665,
	"eval_steps_per_second": 14.665,
	"step": 750
	},
	{
	"epoch": 0.7509881422924901,
	"grad_norm": 2.3162925243377686,
	"learning_rate": 9.558993067062783e-05,
	"loss": 0.4426,
	"step": 760
	},
	{
	"epoch": 0.7608695652173914,
	"grad_norm": 1.9839439392089844,
	"learning_rate": 9.545735616697873e-05,
	"loss": 0.46,
	"step": 770
	},
	{
	"epoch": 0.7707509881422925,
	"grad_norm": 2.18251633644104,
	"learning_rate": 9.532291308946188e-05,
	"loss": 0.4254,
	"step": 780
	},
	{
	"epoch": 0.7806324110671937,
	"grad_norm": 2.241259813308716,
	"learning_rate": 9.518660696450565e-05,
	"loss": 0.4246,
	"step": 790
	},
	{
	"epoch": 0.7905138339920948,
	"grad_norm": 2.357609272003174,
	"learning_rate": 9.504844339512093e-05,
	"loss": 0.4497,
	"step": 800
	},
	{
	"epoch": 0.8003952569169961,
	"grad_norm": 2.2541675567626953,
	"learning_rate": 9.490842806067093e-05,
	"loss": 0.4605,
	"step": 810
	},
	{
	"epoch": 0.8102766798418972,
	"grad_norm": 2.1015920639038086,
	"learning_rate": 9.476656671663764e-05,
	"loss": 0.4227,
	"step": 820
	},
	{
	"epoch": 0.8201581027667985,
	"grad_norm": 2.2886059284210205,
	"learning_rate": 9.462286519438528e-05,
	"loss": 0.4385,
	"step": 830
	},
	{
	"epoch": 0.8300395256916996,
	"grad_norm": 2.2543296813964844,
	"learning_rate": 9.447732940092057e-05,
	"loss": 0.433,
	"step": 840
	},
	{
	"epoch": 0.8399209486166008,
	"grad_norm": 2.2577757835388184,
	"learning_rate": 9.432996531864999e-05,
	"loss": 0.4634,
	"step": 850
	},
	{
	"epoch": 0.849802371541502,
	"grad_norm": 1.795832872390747,
	"learning_rate": 9.418077900513374e-05,
	"loss": 0.4068,
	"step": 860
	},
	{
	"epoch": 0.8596837944664032,
	"grad_norm": 1.9893933534622192,
	"learning_rate": 9.402977659283688e-05,
	"loss": 0.4527,
	"step": 870
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 2.5203518867492676,
	"learning_rate": 9.387696428887713e-05,
	"loss": 0.4591,
	"step": 880
	},
	{
	"epoch": 0.8794466403162056,
	"grad_norm": 2.42069673538208,
	"learning_rate": 9.372234837476975e-05,
	"loss": 0.4597,
	"step": 890
	},
	{
	"epoch": 0.8893280632411067,
	"grad_norm": 2.087778329849243,
	"learning_rate": 9.356593520616945e-05,
	"loss": 0.4226,
	"step": 900
	},
	{
	"epoch": 0.8893280632411067,
	"eval_loss": 0.42734819650650024,
	"eval_runtime": 34.3301,
	"eval_samples_per_second": 14.564,
	"eval_steps_per_second": 14.564,
	"step": 900
	},
	{
	"epoch": 0.8992094861660079,
	"grad_norm": 2.4652795791625977,
	"learning_rate": 9.34077312126089e-05,
	"loss": 0.4261,
	"step": 910
	},
	{
	"epoch": 0.9090909090909091,
	"grad_norm": 2.0327532291412354,
	"learning_rate": 9.324774289723465e-05,
	"loss": 0.4674,
	"step": 920
	},
	{
	"epoch": 0.9189723320158103,
	"grad_norm": 2.3021750450134277,
	"learning_rate": 9.308597683653974e-05,
	"loss": 0.4521,
	"step": 930
	},
	{
	"epoch": 0.9288537549407114,
	"grad_norm": 6.520279884338379,
	"learning_rate": 9.292243968009328e-05,
	"loss": 0.4443,
	"step": 940
	},
	{
	"epoch": 0.9387351778656127,
	"grad_norm": 2.0640597343444824,
	"learning_rate": 9.27571381502673e-05,
	"loss": 0.416,
	"step": 950
	},
	{
	"epoch": 0.9486166007905138,
	"grad_norm": 2.280644416809082,
	"learning_rate": 9.25900790419602e-05,
	"loss": 0.4331,
	"step": 960
	},
	{
	"epoch": 0.958498023715415,
	"grad_norm": 2.3445639610290527,
	"learning_rate": 9.24212692223176e-05,
	"loss": 0.4512,
	"step": 970
	},
	{
	"epoch": 0.9683794466403162,
	"grad_norm": 2.072683334350586,
	"learning_rate": 9.225071563045005e-05,
	"loss": 0.3967,
	"step": 980
	},
	{
	"epoch": 0.9782608695652174,
	"grad_norm": 1.9060055017471313,
	"learning_rate": 9.207842527714764e-05,
	"loss": 0.4102,
	"step": 990
	},
	{
	"epoch": 0.9881422924901185,
	"grad_norm": 2.248657464981079,
	"learning_rate": 9.1904405244592e-05,
	"loss": 0.4505,
	"step": 1000
	},
	{
	"epoch": 0.9980237154150198,
	"grad_norm": 2.048110008239746,
	"learning_rate": 9.172866268606511e-05,
	"loss": 0.4102,
	"step": 1010
	},
	{
	"epoch": 1.007905138339921,
	"grad_norm": 1.9891077280044556,
	"learning_rate": 9.155120482565518e-05,
	"loss": 0.3866,
	"step": 1020
	},
	{
	"epoch": 1.017786561264822,
	"grad_norm": 2.499363422393799,
	"learning_rate": 9.13720389579598e-05,
	"loss": 0.3584,
	"step": 1030
	},
	{
	"epoch": 1.0276679841897234,
	"grad_norm": 2.4077465534210205,
	"learning_rate": 9.119117244778605e-05,
	"loss": 0.3736,
	"step": 1040
	},
	{
	"epoch": 1.0375494071146245,
	"grad_norm": 2.0941267013549805,
	"learning_rate": 9.100861272984777e-05,
	"loss": 0.3769,
	"step": 1050
	},
	{
	"epoch": 1.0375494071146245,
	"eval_loss": 0.4222135841846466,
	"eval_runtime": 34.1626,
	"eval_samples_per_second": 14.636,
	"eval_steps_per_second": 14.636,
	"step": 1050
	},
	{
	"epoch": 1.0474308300395256,
	"grad_norm": 2.29099702835083,
	"learning_rate": 9.082436730845992e-05,
	"loss": 0.3545,
	"step": 1060
	},
	{
	"epoch": 1.0573122529644268,
	"grad_norm": 2.5847902297973633,
	"learning_rate": 9.063844375723012e-05,
	"loss": 0.3658,
	"step": 1070
	},
	{
	"epoch": 1.0671936758893281,
	"grad_norm": 1.9889037609100342,
	"learning_rate": 9.045084971874735e-05,
	"loss": 0.3662,
	"step": 1080
	},
	{
	"epoch": 1.0770750988142292,
	"grad_norm": 2.0356063842773438,
	"learning_rate": 9.026159290426779e-05,
	"loss": 0.3952,
	"step": 1090
	},
	{
	"epoch": 1.0869565217391304,
	"grad_norm": 1.95900559425354,
	"learning_rate": 9.007068109339781e-05,
	"loss": 0.3624,
	"step": 1100
	},
	{
	"epoch": 1.0968379446640317,
	"grad_norm": 2.0315041542053223,
	"learning_rate": 8.987812213377421e-05,
	"loss": 0.355,
	"step": 1110
	},
	{
	"epoch": 1.1067193675889329,
	"grad_norm": 1.9098906517028809,
	"learning_rate": 8.968392394074161e-05,
	"loss": 0.3396,
	"step": 1120
	},
	{
	"epoch": 1.116600790513834,
	"grad_norm": 2.3436784744262695,
	"learning_rate": 8.94880944970271e-05,
	"loss": 0.3433,
	"step": 1130
	},
	{
	"epoch": 1.1264822134387351,
	"grad_norm": 2.013385534286499,
	"learning_rate": 8.92906418524121e-05,
	"loss": 0.3815,
	"step": 1140
	},
	{
	"epoch": 1.1363636363636362,
	"grad_norm": 2.3570964336395264,
	"learning_rate": 8.909157412340148e-05,
	"loss": 0.3825,
	"step": 1150
	},
	{
	"epoch": 1.1462450592885376,
	"grad_norm": 2.0097525119781494,
	"learning_rate": 8.889089949288984e-05,
	"loss": 0.3788,
	"step": 1160
	},
	{
	"epoch": 1.1561264822134387,
	"grad_norm": 1.8614075183868408,
	"learning_rate": 8.868862620982532e-05,
	"loss": 0.3434,
	"step": 1170
	},
	{
	"epoch": 1.1660079051383399,
	"grad_norm": 2.3193359375,
	"learning_rate": 8.848476258887028e-05,
	"loss": 0.3652,
	"step": 1180
	},
	{
	"epoch": 1.1758893280632412,
	"grad_norm": 2.1564888954162598,
	"learning_rate": 8.827931701005971e-05,
	"loss": 0.3604,
	"step": 1190
	},
	{
	"epoch": 1.1857707509881423,
	"grad_norm": 2.278334856033325,
	"learning_rate": 8.80722979184567e-05,
	"loss": 0.351,
	"step": 1200
	},
	{
	"epoch": 1.1857707509881423,
	"eval_loss": 0.4201338589191437,
	"eval_runtime": 34.2095,
	"eval_samples_per_second": 14.616,
	"eval_steps_per_second": 14.616,
	"step": 1200
	},
	{
	"epoch": 1.1956521739130435,
	"grad_norm": 2.3817718029022217,
	"learning_rate": 8.786371382380525e-05,
	"loss": 0.3681,
	"step": 1210
	},
	{
	"epoch": 1.2055335968379446,
	"grad_norm": 2.221449613571167,
	"learning_rate": 8.765357330018053e-05,
	"loss": 0.396,
	"step": 1220
	},
	{
	"epoch": 1.215415019762846,
	"grad_norm": 1.9129923582077026,
	"learning_rate": 8.744188498563639e-05,
	"loss": 0.3861,
	"step": 1230
	},
	{
	"epoch": 1.225296442687747,
	"grad_norm": 2.0991668701171875,
	"learning_rate": 8.722865758185034e-05,
	"loss": 0.373,
	"step": 1240
	},
	{
	"epoch": 1.2351778656126482,
	"grad_norm": 1.9412460327148438,
	"learning_rate": 8.701389985376575e-05,
	"loss": 0.3592,
	"step": 1250
	},
	{
	"epoch": 1.2450592885375493,
	"grad_norm": 2.6546976566314697,
	"learning_rate": 8.679762062923174e-05,
	"loss": 0.3871,
	"step": 1260
	},
	{
	"epoch": 1.2549407114624507,
	"grad_norm": 2.3372902870178223,
	"learning_rate": 8.657982879864005e-05,
	"loss": 0.3776,
	"step": 1270
	},
	{
	"epoch": 1.2648221343873518,
	"grad_norm": 1.9796963930130005,
	"learning_rate": 8.636053331455984e-05,
	"loss": 0.377,
	"step": 1280
	},
	{
	"epoch": 1.274703557312253,
	"grad_norm": 2.1785104274749756,
	"learning_rate": 8.613974319136955e-05,
	"loss": 0.3942,
	"step": 1290
	},
	{
	"epoch": 1.2845849802371543,
	"grad_norm": 1.8092831373214722,
	"learning_rate": 8.591746750488636e-05,
	"loss": 0.367,
	"step": 1300
	},
	{
	"epoch": 1.2944664031620554,
	"grad_norm": 2.4670629501342773,
	"learning_rate": 8.569371539199313e-05,
	"loss": 0.3744,
	"step": 1310
	},
	{
	"epoch": 1.3043478260869565,
	"grad_norm": 2.104426383972168,
	"learning_rate": 8.546849605026287e-05,
	"loss": 0.3801,
	"step": 1320
	},
	{
	"epoch": 1.3142292490118577,
	"grad_norm": 2.5602879524230957,
	"learning_rate": 8.524181873758057e-05,
	"loss": 0.352,
	"step": 1330
	},
	{
	"epoch": 1.3241106719367588,
	"grad_norm": 2.211514949798584,
	"learning_rate": 8.501369277176273e-05,
	"loss": 0.3643,
	"step": 1340
	},
	{
	"epoch": 1.3339920948616601,
	"grad_norm": 2.312812566757202,
	"learning_rate": 8.478412753017431e-05,
	"loss": 0.3681,
	"step": 1350
	},
	{
	"epoch": 1.3339920948616601,
	"eval_loss": 0.417085200548172,
	"eval_runtime": 34.1379,
	"eval_samples_per_second": 14.646,
	"eval_steps_per_second": 14.646,
	"step": 1350
	},
	{
	"epoch": 1.3438735177865613,
	"grad_norm": 2.7497165203094482,
	"learning_rate": 8.455313244934322e-05,
	"loss": 0.3739,
	"step": 1360
	},
	{
	"epoch": 1.3537549407114624,
	"grad_norm": 2.3112716674804688,
	"learning_rate": 8.432071702457251e-05,
	"loss": 0.367,
	"step": 1370
	},
	{
	"epoch": 1.3636363636363638,
	"grad_norm": 2.03934383392334,
	"learning_rate": 8.408689080954995e-05,
	"loss": 0.3506,
	"step": 1380
	},
	{
	"epoch": 1.3735177865612649,
	"grad_norm": 1.942353367805481,
	"learning_rate": 8.385166341595547e-05,
	"loss": 0.3651,
	"step": 1390
	},
	{
	"epoch": 1.383399209486166,
	"grad_norm": 1.985518455505371,
	"learning_rate": 8.361504451306582e-05,
	"loss": 0.3593,
	"step": 1400
	},
	{
	"epoch": 1.3932806324110671,
	"grad_norm": 2.244945526123047,
	"learning_rate": 8.337704382735738e-05,
	"loss": 0.3616,
	"step": 1410
	},
	{
	"epoch": 1.4031620553359683,
	"grad_norm": 2.084362268447876,
	"learning_rate": 8.313767114210614e-05,
	"loss": 0.3725,
	"step": 1420
	},
	{
	"epoch": 1.4130434782608696,
	"grad_norm": 2.0909502506256104,
	"learning_rate": 8.289693629698562e-05,
	"loss": 0.3708,
	"step": 1430
	},
	{
	"epoch": 1.4229249011857708,
	"grad_norm": 2.526142120361328,
	"learning_rate": 8.265484918766241e-05,
	"loss": 0.3688,
	"step": 1440
	},
	{
	"epoch": 1.4328063241106719,
	"grad_norm": 1.7779805660247803,
	"learning_rate": 8.241141976538941e-05,
	"loss": 0.3628,
	"step": 1450
	},
	{
	"epoch": 1.4426877470355732,
	"grad_norm": 2.2417075634002686,
	"learning_rate": 8.216665803659669e-05,
	"loss": 0.3539,
	"step": 1460
	},
	{
	"epoch": 1.4525691699604744,
	"grad_norm": 2.3137755393981934,
	"learning_rate": 8.192057406248027e-05,
	"loss": 0.3526,
	"step": 1470
	},
	{
	"epoch": 1.4624505928853755,
	"grad_norm": 2.308361768722534,
	"learning_rate": 8.167317795858849e-05,
	"loss": 0.364,
	"step": 1480
	},
	{
	"epoch": 1.4723320158102766,
	"grad_norm": 2.1137235164642334,
	"learning_rate": 8.142447989440615e-05,
	"loss": 0.3725,
	"step": 1490
	},
	{
	"epoch": 1.4822134387351777,
	"grad_norm": 2.206882953643799,
	"learning_rate": 8.117449009293666e-05,
	"loss": 0.38,
	"step": 1500
	},
	{
	"epoch": 1.4822134387351777,
	"eval_loss": 0.41128015518188477,
	"eval_runtime": 34.0412,
	"eval_samples_per_second": 14.688,
	"eval_steps_per_second": 14.688,
	"step": 1500
	},
	{
	"epoch": 1.492094861660079,
	"grad_norm": 2.540431499481201,
	"learning_rate": 8.092321883028156e-05,
	"loss": 0.3703,
	"step": 1510
	},
	{
	"epoch": 1.5019762845849802,
	"grad_norm": 2.1057121753692627,
	"learning_rate": 8.067067643521832e-05,
	"loss": 0.3797,
	"step": 1520
	},
	{
	"epoch": 1.5118577075098814,
	"grad_norm": 2.375397205352783,
	"learning_rate": 8.041687328877564e-05,
	"loss": 0.3657,
	"step": 1530
	},
	{
	"epoch": 1.5217391304347827,
	"grad_norm": 2.403914451599121,
	"learning_rate": 8.016181982380679e-05,
	"loss": 0.3807,
	"step": 1540
	},
	{
	"epoch": 1.5316205533596838,
	"grad_norm": 2.3958826065063477,
	"learning_rate": 7.990552652456078e-05,
	"loss": 0.3622,
	"step": 1550
	},
	{
	"epoch": 1.541501976284585,
	"grad_norm": 2.351919651031494,
	"learning_rate": 7.964800392625127e-05,
	"loss": 0.3762,
	"step": 1560
	},
	{
	"epoch": 1.5513833992094863,
	"grad_norm": 2.015793800354004,
	"learning_rate": 7.938926261462365e-05,
	"loss": 0.3536,
	"step": 1570
	},
	{
	"epoch": 1.5612648221343872,
	"grad_norm": 2.037121295928955,
	"learning_rate": 7.912931322551979e-05,
	"loss": 0.3718,
	"step": 1580
	},
	{
	"epoch": 1.5711462450592886,
	"grad_norm": 2.1762428283691406,
	"learning_rate": 7.886816644444096e-05,
	"loss": 0.3504,
	"step": 1590
	},
	{
	"epoch": 1.5810276679841897,
	"grad_norm": 1.8388617038726807,
	"learning_rate": 7.860583300610847e-05,
	"loss": 0.3431,
	"step": 1600
	},
	{
	"epoch": 1.5909090909090908,
	"grad_norm": 1.9121774435043335,
	"learning_rate": 7.834232369402248e-05,
	"loss": 0.3769,
	"step": 1610
	},
	{
	"epoch": 1.6007905138339922,
	"grad_norm": 2.1485304832458496,
	"learning_rate": 7.807764934001872e-05,
	"loss": 0.3361,
	"step": 1620
	},
	{
	"epoch": 1.6106719367588933,
	"grad_norm": 2.162116289138794,
	"learning_rate": 7.781182082382322e-05,
	"loss": 0.3747,
	"step": 1630
	},
	{
	"epoch": 1.6205533596837944,
	"grad_norm": 2.514573335647583,
	"learning_rate": 7.754484907260511e-05,
	"loss": 0.3857,
	"step": 1640
	},
	{
	"epoch": 1.6304347826086958,
	"grad_norm": 2.3473386764526367,
	"learning_rate": 7.727674506052742e-05,
	"loss": 0.3269,
	"step": 1650
	},
	{
	"epoch": 1.6304347826086958,
	"eval_loss": 0.4064118564128876,
	"eval_runtime": 34.0417,
	"eval_samples_per_second": 14.688,
	"eval_steps_per_second": 14.688,
	"step": 1650
	},
	{
	"epoch": 1.6403162055335967,
	"grad_norm": 2.0117132663726807,
	"learning_rate": 7.700751980829599e-05,
	"loss": 0.3662,
	"step": 1660
	},
	{
	"epoch": 1.650197628458498,
	"grad_norm": 2.5356202125549316,
	"learning_rate": 7.673718438270646e-05,
	"loss": 0.3671,
	"step": 1670
	},
	{
	"epoch": 1.6600790513833992,
	"grad_norm": 2.1220240592956543,
	"learning_rate": 7.646574989618936e-05,
	"loss": 0.3655,
	"step": 1680
	},
	{
	"epoch": 1.6699604743083003,
	"grad_norm": 2.049267292022705,
	"learning_rate": 7.619322750635325e-05,
	"loss": 0.3916,
	"step": 1690
	},
	{
	"epoch": 1.6798418972332017,
	"grad_norm": 2.0539910793304443,
	"learning_rate": 7.591962841552624e-05,
	"loss": 0.4168,
	"step": 1700
	},
	{
	"epoch": 1.6897233201581028,
	"grad_norm": 2.229034662246704,
	"learning_rate": 7.56449638702953e-05,
	"loss": 0.369,
	"step": 1710
	},
	{
	"epoch": 1.699604743083004,
	"grad_norm": 2.280418634414673,
	"learning_rate": 7.536924516104408e-05,
	"loss": 0.375,
	"step": 1720
	},
	{
	"epoch": 1.7094861660079053,
	"grad_norm": 1.9317281246185303,
	"learning_rate": 7.509248362148886e-05,
	"loss": 0.3602,
	"step": 1730
	},
	{
	"epoch": 1.7193675889328062,
	"grad_norm": 2.0074923038482666,
	"learning_rate": 7.481469062821249e-05,
	"loss": 0.3763,
	"step": 1740
	},
	{
	"epoch": 1.7292490118577075,
	"grad_norm": 2.6529626846313477,
	"learning_rate": 7.453587760019688e-05,
	"loss": 0.3867,
	"step": 1750
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 2.64829421043396,
	"learning_rate": 7.425605599835358e-05,
	"loss": 0.3459,
	"step": 1760
	},
	{
	"epoch": 1.7490118577075098,
	"grad_norm": 2.139469861984253,
	"learning_rate": 7.397523732505269e-05,
	"loss": 0.3763,
	"step": 1770
	},
	{
	"epoch": 1.7588932806324111,
	"grad_norm": 2.043088674545288,
	"learning_rate": 7.369343312364992e-05,
	"loss": 0.3313,
	"step": 1780
	},
	{
	"epoch": 1.7687747035573123,
	"grad_norm": 2.4256412982940674,
	"learning_rate": 7.341065497801227e-05,
	"loss": 0.3607,
	"step": 1790
	},
	{
	"epoch": 1.7786561264822134,
	"grad_norm": 2.4966022968292236,
	"learning_rate": 7.312691451204175e-05,
	"loss": 0.3413,
	"step": 1800
	},
	{
	"epoch": 1.7786561264822134,
	"eval_loss": 0.39886847138404846,
	"eval_runtime": 34.0089,
	"eval_samples_per_second": 14.702,
	"eval_steps_per_second": 14.702,
	"step": 1800
	},
	{
	"epoch": 1.7885375494071147,
	"grad_norm": 2.126098394393921,
	"learning_rate": 7.284222338919757e-05,
	"loss": 0.3505,
	"step": 1810
	},
	{
	"epoch": 1.7984189723320159,
	"grad_norm": 2.32716965675354,
	"learning_rate": 7.25565933120167e-05,
	"loss": 0.3706,
	"step": 1820
	},
	{
	"epoch": 1.808300395256917,
	"grad_norm": 2.4196839332580566,
	"learning_rate": 7.227003602163294e-05,
	"loss": 0.3672,
	"step": 1830
	},
	{
	"epoch": 1.8181818181818183,
	"grad_norm": 2.1417181491851807,
	"learning_rate": 7.19825632972941e-05,
	"loss": 0.3467,
	"step": 1840
	},
	{
	"epoch": 1.8280632411067192,
	"grad_norm": 1.9946470260620117,
	"learning_rate": 7.169418695587788e-05,
	"loss": 0.3639,
	"step": 1850
	},
	{
	"epoch": 1.8379446640316206,
	"grad_norm": 2.3900909423828125,
	"learning_rate": 7.140491885140627e-05,
	"loss": 0.354,
	"step": 1860
	},
	{
	"epoch": 1.8478260869565217,
	"grad_norm": 2.3250668048858643,
	"learning_rate": 7.111477087455798e-05,
	"loss": 0.3829,
	"step": 1870
	},
	{
	"epoch": 1.8577075098814229,
	"grad_norm": 2.3011209964752197,
	"learning_rate": 7.082375495217994e-05,
	"loss": 0.3567,
	"step": 1880
	},
	{
	"epoch": 1.8675889328063242,
	"grad_norm": 2.4620919227600098,
	"learning_rate": 7.053188304679689e-05,
	"loss": 0.3729,
	"step": 1890
	},
	{
	"epoch": 1.8774703557312253,
	"grad_norm": 1.9825767278671265,
	"learning_rate": 7.023916715611966e-05,
	"loss": 0.367,
	"step": 1900
	},
	{
	"epoch": 1.8873517786561265,
	"grad_norm": 2.1703319549560547,
	"learning_rate": 6.994561931255207e-05,
	"loss": 0.3818,
	"step": 1910
	},
	{
	"epoch": 1.8972332015810278,
	"grad_norm": 1.79076087474823,
	"learning_rate": 6.965125158269616e-05,
	"loss": 0.3553,
	"step": 1920
	},
	{
	"epoch": 1.9071146245059287,
	"grad_norm": 2.1293234825134277,
	"learning_rate": 6.935607606685639e-05,
	"loss": 0.3665,
	"step": 1930
	},
	{
	"epoch": 1.91699604743083,
	"grad_norm": 2.227125883102417,
	"learning_rate": 6.906010489854208e-05,
	"loss": 0.3753,
	"step": 1940
	},
	{
	"epoch": 1.9268774703557312,
	"grad_norm": 1.7864975929260254,
	"learning_rate": 6.87633502439687e-05,
	"loss": 0.3534,
	"step": 1950
	},
	{
	"epoch": 1.9268774703557312,
	"eval_loss": 0.3949296772480011,
	"eval_runtime": 34.1382,
	"eval_samples_per_second": 14.646,
	"eval_steps_per_second": 14.646,
	"step": 1950
	},
	{
	"epoch": 1.9367588932806323,
	"grad_norm": 1.8437656164169312,
	"learning_rate": 6.84658243015578e-05,
	"loss": 0.3605,
	"step": 1960
	},
	{
	"epoch": 1.9466403162055337,
	"grad_norm": 2.3836982250213623,
	"learning_rate": 6.816753930143555e-05,
	"loss": 0.3686,
	"step": 1970
	},
	{
	"epoch": 1.9565217391304348,
	"grad_norm": 2.2831881046295166,
	"learning_rate": 6.786850750493004e-05,
	"loss": 0.3655,
	"step": 1980
	},
	{
	"epoch": 1.966403162055336,
	"grad_norm": 2.3932294845581055,
	"learning_rate": 6.756874120406713e-05,
	"loss": 0.3802,
	"step": 1990
	},
	{
	"epoch": 1.9762845849802373,
	"grad_norm": 1.7772880792617798,
	"learning_rate": 6.726825272106537e-05,
	"loss": 0.3454,
	"step": 2000
	},
	{
	"epoch": 1.9861660079051382,
	"grad_norm": 1.9510533809661865,
	"learning_rate": 6.696705440782937e-05,
	"loss": 0.3789,
	"step": 2010
	},
	{
	"epoch": 1.9960474308300395,
	"grad_norm": 2.113067150115967,
	"learning_rate": 6.666515864544208e-05,
	"loss": 0.3718,
	"step": 2020
	},
	{
	"epoch": 2.005928853754941,
	"grad_norm": 2.007193088531494,
	"learning_rate": 6.636257784365583e-05,
	"loss": 0.2785,
	"step": 2030
	},
	{
	"epoch": 2.015810276679842,
	"grad_norm": 1.9907631874084473,
	"learning_rate": 6.605932444038227e-05,
	"loss": 0.284,
	"step": 2040
	},
	{
	"epoch": 2.025691699604743,
	"grad_norm": 2.3482143878936768,
	"learning_rate": 6.575541090118102e-05,
	"loss": 0.2744,
	"step": 2050
	},
	{
	"epoch": 2.035573122529644,
	"grad_norm": 2.2984330654144287,
	"learning_rate": 6.545084971874736e-05,
	"loss": 0.2763,
	"step": 2060
	},
	{
	"epoch": 2.0454545454545454,
	"grad_norm": 2.089308261871338,
	"learning_rate": 6.51456534123986e-05,
	"loss": 0.2993,
	"step": 2070
	},
	{
	"epoch": 2.0553359683794468,
	"grad_norm": 1.9980093240737915,
	"learning_rate": 6.483983452755952e-05,
	"loss": 0.295,
	"step": 2080
	},
	{
	"epoch": 2.0652173913043477,
	"grad_norm": 2.138206958770752,
	"learning_rate": 6.453340563524668e-05,
	"loss": 0.302,
	"step": 2090
	},
	{
	"epoch": 2.075098814229249,
	"grad_norm": 2.199354887008667,
	"learning_rate": 6.422637933155161e-05,
	"loss": 0.2791,
	"step": 2100
	},
	{
	"epoch": 2.075098814229249,
	"eval_loss": 0.4022028148174286,
	"eval_runtime": 34.24,
	"eval_samples_per_second": 14.603,
	"eval_steps_per_second": 14.603,
	"step": 2100
	},
	{
	"epoch": 2.0849802371541504,
	"grad_norm": 1.7849321365356445,
	"learning_rate": 6.391876823712316e-05,
	"loss": 0.2882,
	"step": 2110
	},
	{
	"epoch": 2.0948616600790513,
	"grad_norm": 2.316427230834961,
	"learning_rate": 6.361058499664854e-05,
	"loss": 0.2893,
	"step": 2120
	},
	{
	"epoch": 2.1047430830039526,
	"grad_norm": 2.092482328414917,
	"learning_rate": 6.330184227833374e-05,
	"loss": 0.2851,
	"step": 2130
	},
	{
	"epoch": 2.1146245059288535,
	"grad_norm": 2.0520172119140625,
	"learning_rate": 6.299255277338263e-05,
	"loss": 0.2893,
	"step": 2140
	},
	{
	"epoch": 2.124505928853755,
	"grad_norm": 2.0501887798309326,
	"learning_rate": 6.268272919547534e-05,
	"loss": 0.2877,
	"step": 2150
	},
	{
	"epoch": 2.1343873517786562,
	"grad_norm": 1.967375636100769,
	"learning_rate": 6.23723842802457e-05,
	"loss": 0.2838,
	"step": 2160
	},
	{
	"epoch": 2.144268774703557,
	"grad_norm": 2.331676959991455,
	"learning_rate": 6.20615307847576e-05,
	"loss": 0.3169,
	"step": 2170
	},
	{
	"epoch": 2.1541501976284585,
	"grad_norm": 2.251298666000366,
	"learning_rate": 6.175018148698074e-05,
	"loss": 0.2882,
	"step": 2180
	},
	{
	"epoch": 2.16403162055336,
	"grad_norm": 2.0839710235595703,
	"learning_rate": 6.143834918526526e-05,
	"loss": 0.2862,
	"step": 2190
	},
	{
	"epoch": 2.1739130434782608,
	"grad_norm": 2.633404493331909,
	"learning_rate": 6.112604669781571e-05,
	"loss": 0.2815,
	"step": 2200
	},
	{
	"epoch": 2.183794466403162,
	"grad_norm": 2.089813709259033,
	"learning_rate": 6.081328686216416e-05,
	"loss": 0.3046,
	"step": 2210
	},
	{
	"epoch": 2.1936758893280635,
	"grad_norm": 2.1596994400024414,
	"learning_rate": 6.050008253464245e-05,
	"loss": 0.2834,
	"step": 2220
	},
	{
	"epoch": 2.2035573122529644,
	"grad_norm": 1.879882574081421,
	"learning_rate": 6.018644658985377e-05,
	"loss": 0.2797,
	"step": 2230
	},
	{
	"epoch": 2.2134387351778657,
	"grad_norm": 2.6231043338775635,
	"learning_rate": 5.987239192014334e-05,
	"loss": 0.2761,
	"step": 2240
	},
	{
	"epoch": 2.2233201581027666,
	"grad_norm": 2.381791114807129,
	"learning_rate": 5.9557931435068606e-05,
	"loss": 0.3281,
	"step": 2250
	},
	{
	"epoch": 2.2233201581027666,
	"eval_loss": 0.40134918689727783,
	"eval_runtime": 34.1432,
	"eval_samples_per_second": 14.644,
	"eval_steps_per_second": 14.644,
	"step": 2250
	},
	{
	"epoch": 2.233201581027668,
	"grad_norm": 2.037327527999878,
	"learning_rate": 5.9243078060868426e-05,
	"loss": 0.2772,
	"step": 2260
	},
	{
	"epoch": 2.2430830039525693,
	"grad_norm": 2.2997586727142334,
	"learning_rate": 5.892784473993182e-05,
	"loss": 0.2905,
	"step": 2270
	},
	{
	"epoch": 2.2529644268774702,
	"grad_norm": 1.9744611978530884,
	"learning_rate": 5.861224443026593e-05,
	"loss": 0.2868,
	"step": 2280
	},
	{
	"epoch": 2.2628458498023716,
	"grad_norm": 2.116672992706299,
	"learning_rate": 5.8296290104963387e-05,
	"loss": 0.2858,
	"step": 2290
	},
	{
	"epoch": 2.2727272727272725,
	"grad_norm": 2.145845890045166,
	"learning_rate": 5.797999475166895e-05,
	"loss": 0.2752,
	"step": 2300
	},
	{
	"epoch": 2.282608695652174,
	"grad_norm": 2.2736833095550537,
	"learning_rate": 5.766337137204578e-05,
	"loss": 0.2984,
	"step": 2310
	},
	{
	"epoch": 2.292490118577075,
	"grad_norm": 2.218451499938965,
	"learning_rate": 5.734643298124089e-05,
	"loss": 0.2912,
	"step": 2320
	},
	{
	"epoch": 2.302371541501976,
	"grad_norm": 1.9524636268615723,
	"learning_rate": 5.702919260735013e-05,
	"loss": 0.2919,
	"step": 2330
	},
	{
	"epoch": 2.3122529644268774,
	"grad_norm": 2.35251784324646,
	"learning_rate": 5.671166329088276e-05,
	"loss": 0.3256,
	"step": 2340
	},
	{
	"epoch": 2.322134387351779,
	"grad_norm": 2.4238321781158447,
	"learning_rate": 5.639385808422529e-05,
	"loss": 0.3056,
	"step": 2350
	},
	{
	"epoch": 2.3320158102766797,
	"grad_norm": 2.408384084701538,
	"learning_rate": 5.607579005110501e-05,
	"loss": 0.2833,
	"step": 2360
	},
	{
	"epoch": 2.341897233201581,
	"grad_norm": 2.345621109008789,
	"learning_rate": 5.575747226605297e-05,
	"loss": 0.2961,
	"step": 2370
	},
	{
	"epoch": 2.3517786561264824,
	"grad_norm": 2.226508140563965,
	"learning_rate": 5.543891781386654e-05,
	"loss": 0.3138,
	"step": 2380
	},
	{
	"epoch": 2.3616600790513833,
	"grad_norm": 2.230583429336548,
	"learning_rate": 5.5120139789071554e-05,
	"loss": 0.2837,
	"step": 2390
	},
	{
	"epoch": 2.3715415019762847,
	"grad_norm": 2.449136972427368,
	"learning_rate": 5.480115129538408e-05,
	"loss": 0.2763,
	"step": 2400
	},
	{
	"epoch": 2.3715415019762847,
	"eval_loss": 0.399911105632782,
	"eval_runtime": 34.0722,
	"eval_samples_per_second": 14.675,
	"eval_steps_per_second": 14.675,
	"step": 2400
	},
	{
	"epoch": 2.3814229249011856,
	"grad_norm": 2.04034161567688,
	"learning_rate": 5.4481965445171666e-05,
	"loss": 0.2889,
	"step": 2410
	},
	{
	"epoch": 2.391304347826087,
	"grad_norm": 2.589332103729248,
	"learning_rate": 5.416259535891445e-05,
	"loss": 0.2882,
	"step": 2420
	},
	{
	"epoch": 2.4011857707509883,
	"grad_norm": 1.8965773582458496,
	"learning_rate": 5.384305416466583e-05,
	"loss": 0.2664,
	"step": 2430
	},
	{
	"epoch": 2.411067193675889,
	"grad_norm": 1.9925569295883179,
	"learning_rate": 5.3523354997512684e-05,
	"loss": 0.3079,
	"step": 2440
	},
	{
	"epoch": 2.4209486166007905,
	"grad_norm": 1.982309341430664,
	"learning_rate": 5.320351099903564e-05,
	"loss": 0.2893,
	"step": 2450
	},
	{
	"epoch": 2.430830039525692,
	"grad_norm": 2.4800615310668945,
	"learning_rate": 5.288353531676871e-05,
	"loss": 0.2576,
	"step": 2460
	},
	{
	"epoch": 2.440711462450593,
	"grad_norm": 2.2494561672210693,
	"learning_rate": 5.256344110365895e-05,
	"loss": 0.292,
	"step": 2470
	},
	{
	"epoch": 2.450592885375494,
	"grad_norm": 1.8020946979522705,
	"learning_rate": 5.224324151752574e-05,
	"loss": 0.2863,
	"step": 2480
	},
	{
	"epoch": 2.4604743083003955,
	"grad_norm": 2.187232494354248,
	"learning_rate": 5.192294972051991e-05,
	"loss": 0.2753,
	"step": 2490
	},
	{
	"epoch": 2.4703557312252964,
	"grad_norm": 2.2467732429504395,
	"learning_rate": 5.160257887858276e-05,
	"loss": 0.3188,
	"step": 2500
	},
	{
	"epoch": 2.4802371541501977,
	"grad_norm": 1.9890021085739136,
	"learning_rate": 5.128214216090477e-05,
	"loss": 0.2838,
	"step": 2510
	},
	{
	"epoch": 2.4901185770750986,
	"grad_norm": 1.962117075920105,
	"learning_rate": 5.096165273938434e-05,
	"loss": 0.2858,
	"step": 2520
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.8473106622695923,
	"learning_rate": 5.064112378808635e-05,
	"loss": 0.2692,
	"step": 2530
	},
	{
	"epoch": 2.5098814229249014,
	"grad_norm": 1.9031504392623901,
	"learning_rate": 5.032056848270054e-05,
	"loss": 0.2993,
	"step": 2540
	},
	{
	"epoch": 2.5197628458498023,
	"grad_norm": 2.2502200603485107,
	"learning_rate": 4.999999999999999e-05,
	"loss": 0.2696,
	"step": 2550
	},
	{
	"epoch": 2.5197628458498023,
	"eval_loss": 0.39579418301582336,
	"eval_runtime": 34.1604,
	"eval_samples_per_second": 14.637,
	"eval_steps_per_second": 14.637,
	"step": 2550
	},
	{
	"epoch": 2.5296442687747036,
	"grad_norm": 2.3031277656555176,
	"learning_rate": 4.9679431517299435e-05,
	"loss": 0.3062,
	"step": 2560
	},
	{
	"epoch": 2.5395256916996045,
	"grad_norm": 2.183401107788086,
	"learning_rate": 4.9358876211913624e-05,
	"loss": 0.325,
	"step": 2570
	},
	{
	"epoch": 2.549407114624506,
	"grad_norm": 1.9418132305145264,
	"learning_rate": 4.9038347260615636e-05,
	"loss": 0.2874,
	"step": 2580
	},
	{
	"epoch": 2.559288537549407,
	"grad_norm": 2.340853214263916,
	"learning_rate": 4.871785783909522e-05,
	"loss": 0.2914,
	"step": 2590
	},
	{
	"epoch": 2.5691699604743086,
	"grad_norm": 1.8216912746429443,
	"learning_rate": 4.839742112141723e-05,
	"loss": 0.2935,
	"step": 2600
	},
	{
	"epoch": 2.5790513833992095,
	"grad_norm": 2.1227974891662598,
	"learning_rate": 4.807705027948006e-05,
	"loss": 0.2903,
	"step": 2610
	},
	{
	"epoch": 2.588932806324111,
	"grad_norm": 2.1689720153808594,
	"learning_rate": 4.775675848247426e-05,
	"loss": 0.2919,
	"step": 2620
	},
	{
	"epoch": 2.5988142292490117,
	"grad_norm": 2.3520572185516357,
	"learning_rate": 4.7436558896341037e-05,
	"loss": 0.2947,
	"step": 2630
	},
	{
	"epoch": 2.608695652173913,
	"grad_norm": 2.0316853523254395,
	"learning_rate": 4.711646468323127e-05,
	"loss": 0.2921,
	"step": 2640
	},
	{
	"epoch": 2.6185770750988144,
	"grad_norm": 2.334075450897217,
	"learning_rate": 4.6796489000964345e-05,
	"loss": 0.3109,
	"step": 2650
	},
	{
	"epoch": 2.6284584980237153,
	"grad_norm": 2.4072225093841553,
	"learning_rate": 4.6476645002487286e-05,
	"loss": 0.2886,
	"step": 2660
	},
	{
	"epoch": 2.6383399209486167,
	"grad_norm": 2.3423006534576416,
	"learning_rate": 4.615694583533417e-05,
	"loss": 0.3002,
	"step": 2670
	},
	{
	"epoch": 2.6482213438735176,
	"grad_norm": 2.290945291519165,
	"learning_rate": 4.5837404641085526e-05,
	"loss": 0.3013,
	"step": 2680
	},
	{
	"epoch": 2.658102766798419,
	"grad_norm": 2.3166189193725586,
	"learning_rate": 4.551803455482832e-05,
	"loss": 0.2855,
	"step": 2690
	},
	{
	"epoch": 2.6679841897233203,
	"grad_norm": 2.2672386169433594,
	"learning_rate": 4.51988487046159e-05,
	"loss": 0.2732,
	"step": 2700
	},
	{
	"epoch": 2.6679841897233203,
	"eval_loss": 0.3915008008480072,
	"eval_runtime": 34.1864,
	"eval_samples_per_second": 14.626,
	"eval_steps_per_second": 14.626,
	"step": 2700
	},
	{
	"epoch": 2.677865612648221,
	"grad_norm": 2.359931468963623,
	"learning_rate": 4.487986021092842e-05,
	"loss": 0.3326,
	"step": 2710
	},
	{
	"epoch": 2.6877470355731226,
	"grad_norm": 1.9921296834945679,
	"learning_rate": 4.456108218613345e-05,
	"loss": 0.28,
	"step": 2720
	},
	{
	"epoch": 2.6976284584980235,
	"grad_norm": 2.083142042160034,
	"learning_rate": 4.4242527733947024e-05,
	"loss": 0.2936,
	"step": 2730
	},
	{
	"epoch": 2.707509881422925,
	"grad_norm": 2.4226627349853516,
	"learning_rate": 4.3924209948894975e-05,
	"loss": 0.3011,
	"step": 2740
	},
	{
	"epoch": 2.717391304347826,
	"grad_norm": 2.4604616165161133,
	"learning_rate": 4.360614191577469e-05,
	"loss": 0.2702,
	"step": 2750
	},
	{
	"epoch": 2.7272727272727275,
	"grad_norm": 1.890394926071167,
	"learning_rate": 4.3288336709117236e-05,
	"loss": 0.2793,
	"step": 2760
	},
	{
	"epoch": 2.7371541501976284,
	"grad_norm": 2.458721160888672,
	"learning_rate": 4.297080739264986e-05,
	"loss": 0.2882,
	"step": 2770
	},
	{
	"epoch": 2.7470355731225298,
	"grad_norm": 2.1499905586242676,
	"learning_rate": 4.2653567018759094e-05,
	"loss": 0.2955,
	"step": 2780
	},
	{
	"epoch": 2.7569169960474307,
	"grad_norm": 2.4274818897247314,
	"learning_rate": 4.233662862795419e-05,
	"loss": 0.302,
	"step": 2790
	},
	{
	"epoch": 2.766798418972332,
	"grad_norm": 2.062570571899414,
	"learning_rate": 4.202000524833104e-05,
	"loss": 0.2715,
	"step": 2800
	},
	{
	"epoch": 2.7766798418972334,
	"grad_norm": 2.0354299545288086,
	"learning_rate": 4.170370989503661e-05,
	"loss": 0.3038,
	"step": 2810
	},
	{
	"epoch": 2.7865612648221343,
	"grad_norm": 2.3393170833587646,
	"learning_rate": 4.1387755569734046e-05,
	"loss": 0.2905,
	"step": 2820
	},
	{
	"epoch": 2.7964426877470356,
	"grad_norm": 2.224705934524536,
	"learning_rate": 4.1072155260068164e-05,
	"loss": 0.2989,
	"step": 2830
	},
	{
	"epoch": 2.8063241106719365,
	"grad_norm": 1.9835401773452759,
	"learning_rate": 4.075692193913155e-05,
	"loss": 0.2879,
	"step": 2840
	},
	{
	"epoch": 2.816205533596838,
	"grad_norm": 2.378260850906372,
	"learning_rate": 4.0442068564931385e-05,
	"loss": 0.3009,
	"step": 2850
	},
	{
	"epoch": 2.816205533596838,
	"eval_loss": 0.38761380314826965,
	"eval_runtime": 34.3575,
	"eval_samples_per_second": 14.553,
	"eval_steps_per_second": 14.553,
	"step": 2850
	},
	{
	"epoch": 2.8260869565217392,
	"grad_norm": 2.5100574493408203,
	"learning_rate": 4.012760807985664e-05,
	"loss": 0.2982,
	"step": 2860
	},
	{
	"epoch": 2.83596837944664,
	"grad_norm": 1.639036774635315,
	"learning_rate": 3.9813553410146214e-05,
	"loss": 0.3087,
	"step": 2870
	},
	{
	"epoch": 2.8458498023715415,
	"grad_norm": 2.490206241607666,
	"learning_rate": 3.949991746535752e-05,
	"loss": 0.2989,
	"step": 2880
	},
	{
	"epoch": 2.8557312252964424,
	"grad_norm": 2.3250222206115723,
	"learning_rate": 3.918671313783582e-05,
	"loss": 0.3034,
	"step": 2890
	},
	{
	"epoch": 2.8656126482213438,
	"grad_norm": 2.325777292251587,
	"learning_rate": 3.8873953302184275e-05,
	"loss": 0.2747,
	"step": 2900
	},
	{
	"epoch": 2.875494071146245,
	"grad_norm": 2.2305283546447754,
	"learning_rate": 3.856165081473473e-05,
	"loss": 0.2856,
	"step": 2910
	},
	{
	"epoch": 2.8853754940711465,
	"grad_norm": 2.2349300384521484,
	"learning_rate": 3.824981851301923e-05,
	"loss": 0.2716,
	"step": 2920
	},
	{
	"epoch": 2.8952569169960474,
	"grad_norm": 1.9070847034454346,
	"learning_rate": 3.793846921524236e-05,
	"loss": 0.3053,
	"step": 2930
	},
	{
	"epoch": 2.9051383399209487,
	"grad_norm": 2.1934654712677,
	"learning_rate": 3.7627615719754287e-05,
	"loss": 0.3143,
	"step": 2940
	},
	{
	"epoch": 2.9150197628458496,
	"grad_norm": 1.9646544456481934,
	"learning_rate": 3.7317270804524626e-05,
	"loss": 0.2865,
	"step": 2950
	},
	{
	"epoch": 2.924901185770751,
	"grad_norm": 2.232283353805542,
	"learning_rate": 3.700744722661735e-05,
	"loss": 0.2958,
	"step": 2960
	},
	{
	"epoch": 2.9347826086956523,
	"grad_norm": 2.3013436794281006,
	"learning_rate": 3.669815772166624e-05,
	"loss": 0.2834,
	"step": 2970
	},
	{
	"epoch": 2.9446640316205532,
	"grad_norm": 2.4497499465942383,
	"learning_rate": 3.6389415003351434e-05,
	"loss": 0.2978,
	"step": 2980
	},
	{
	"epoch": 2.9545454545454546,
	"grad_norm": 1.9342460632324219,
	"learning_rate": 3.608123176287684e-05,
	"loss": 0.2826,
	"step": 2990
	},
	{
	"epoch": 2.9644268774703555,
	"grad_norm": 2.4852263927459717,
	"learning_rate": 3.577362066844837e-05,
	"loss": 0.2766,
	"step": 3000
	},
	{
	"epoch": 2.9644268774703555,
	"eval_loss": 0.3866276741027832,
	"eval_runtime": 34.3485,
	"eval_samples_per_second": 14.557,
	"eval_steps_per_second": 14.557,
	"step": 3000
	},
	{
	"epoch": 2.974308300395257,
	"grad_norm": 1.9710100889205933,
	"learning_rate": 3.546659436475331e-05,
	"loss": 0.282,
	"step": 3010
	},
	{
	"epoch": 2.984189723320158,
	"grad_norm": 2.269618511199951,
	"learning_rate": 3.516016547244046e-05,
	"loss": 0.2974,
	"step": 3020
	},
	{
	"epoch": 2.9940711462450595,
	"grad_norm": 2.038463830947876,
	"learning_rate": 3.485434658760139e-05,
	"loss": 0.2931,
	"step": 3030
	},
	{
	"epoch": 3.0039525691699605,
	"grad_norm": 1.9927372932434082,
	"learning_rate": 3.454915028125262e-05,
	"loss": 0.2778,
	"step": 3040
	},
	{
	"epoch": 3.013833992094862,
	"grad_norm": 2.1115493774414062,
	"learning_rate": 3.424458909881896e-05,
	"loss": 0.228,
	"step": 3050
	},
	{
	"epoch": 3.0237154150197627,
	"grad_norm": 2.1515655517578125,
	"learning_rate": 3.394067555961772e-05,
	"loss": 0.2172,
	"step": 3060
	},
	{
	"epoch": 3.033596837944664,
	"grad_norm": 2.6619913578033447,
	"learning_rate": 3.3637422156344146e-05,
	"loss": 0.2158,
	"step": 3070
	},
	{
	"epoch": 3.0434782608695654,
	"grad_norm": 2.441153049468994,
	"learning_rate": 3.333484135455791e-05,
	"loss": 0.2305,
	"step": 3080
	},
	{
	"epoch": 3.0533596837944663,
	"grad_norm": 1.8996953964233398,
	"learning_rate": 3.3032945592170616e-05,
	"loss": 0.2436,
	"step": 3090
	},
	{
	"epoch": 3.0632411067193677,
	"grad_norm": 2.410764217376709,
	"learning_rate": 3.2731747278934616e-05,
	"loss": 0.2198,
	"step": 3100
	},
	{
	"epoch": 3.0731225296442686,
	"grad_norm": 1.9897364377975464,
	"learning_rate": 3.243125879593285e-05,
	"loss": 0.2309,
	"step": 3110
	},
	{
	"epoch": 3.08300395256917,
	"grad_norm": 2.573441982269287,
	"learning_rate": 3.213149249506996e-05,
	"loss": 0.213,
	"step": 3120
	},
	{
	"epoch": 3.0928853754940713,
	"grad_norm": 2.5531418323516846,
	"learning_rate": 3.1832460698564424e-05,
	"loss": 0.234,
	"step": 3130
	},
	{
	"epoch": 3.102766798418972,
	"grad_norm": 2.101729154586792,
	"learning_rate": 3.1534175698442184e-05,
	"loss": 0.239,
	"step": 3140
	},
	{
	"epoch": 3.1126482213438735,
	"grad_norm": 1.9485621452331543,
	"learning_rate": 3.123664975603129e-05,
	"loss": 0.2145,
	"step": 3150
	},
	{
	"epoch": 3.1126482213438735,
	"eval_loss": 0.40044403076171875,
	"eval_runtime": 34.1191,
	"eval_samples_per_second": 14.655,
	"eval_steps_per_second": 14.655,
	"step": 3150
	},
	{
	"epoch": 3.122529644268775,
	"grad_norm": 2.287511110305786,
	"learning_rate": 3.093989510145791e-05,
	"loss": 0.2225,
	"step": 3160
	},
	{
	"epoch": 3.132411067193676,
	"grad_norm": 2.047910451889038,
	"learning_rate": 3.064392393314359e-05,
	"loss": 0.2178,
	"step": 3170
	},
	{
	"epoch": 3.142292490118577,
	"grad_norm": 1.6208367347717285,
	"learning_rate": 3.0348748417303817e-05,
	"loss": 0.222,
	"step": 3180
	},
	{
	"epoch": 3.1521739130434785,
	"grad_norm": 2.4111440181732178,
	"learning_rate": 3.005438068744791e-05,
	"loss": 0.2177,
	"step": 3190
	},
	{
	"epoch": 3.1620553359683794,
	"grad_norm": 2.368447780609131,
	"learning_rate": 2.9760832843880303e-05,
	"loss": 0.2012,
	"step": 3200
	},
	{
	"epoch": 3.1719367588932808,
	"grad_norm": 2.473605155944824,
	"learning_rate": 2.94681169532031e-05,
	"loss": 0.2277,
	"step": 3210
	},
	{
	"epoch": 3.1818181818181817,
	"grad_norm": 2.02504301071167,
	"learning_rate": 2.9176245047820055e-05,
	"loss": 0.2193,
	"step": 3220
	},
	{
	"epoch": 3.191699604743083,
	"grad_norm": 2.4214389324188232,
	"learning_rate": 2.8885229125442014e-05,
	"loss": 0.2196,
	"step": 3230
	},
	{
	"epoch": 3.2015810276679844,
	"grad_norm": 2.1690824031829834,
	"learning_rate": 2.859508114859373e-05,
	"loss": 0.2267,
	"step": 3240
	},
	{
	"epoch": 3.2114624505928853,
	"grad_norm": 1.960707426071167,
	"learning_rate": 2.830581304412209e-05,
	"loss": 0.2409,
	"step": 3250
	},
	{
	"epoch": 3.2213438735177866,
	"grad_norm": 2.320850133895874,
	"learning_rate": 2.8017436702705894e-05,
	"loss": 0.2245,
	"step": 3260
	},
	{
	"epoch": 3.2312252964426875,
	"grad_norm": 2.268925428390503,
	"learning_rate": 2.7729963978367035e-05,
	"loss": 0.2373,
	"step": 3270
	},
	{
	"epoch": 3.241106719367589,
	"grad_norm": 2.374448776245117,
	"learning_rate": 2.7443406687983255e-05,
	"loss": 0.2188,
	"step": 3280
	},
	{
	"epoch": 3.2509881422924902,
	"grad_norm": 1.9990499019622803,
	"learning_rate": 2.7157776610802408e-05,
	"loss": 0.253,
	"step": 3290
	},
	{
	"epoch": 3.260869565217391,
	"grad_norm": 2.6509578227996826,
	"learning_rate": 2.6873085487958243e-05,
	"loss": 0.2471,
	"step": 3300
	},
	{
	"epoch": 3.260869565217391,
	"eval_loss": 0.4012451171875,
	"eval_runtime": 34.3577,
	"eval_samples_per_second": 14.553,
	"eval_steps_per_second": 14.553,
	"step": 3300
	},
	{
	"epoch": 3.2707509881422925,
	"grad_norm": 2.4065935611724854,
	"learning_rate": 2.6589345021987714e-05,
	"loss": 0.2455,
	"step": 3310
	},
	{
	"epoch": 3.280632411067194,
	"grad_norm": 2.315992593765259,
	"learning_rate": 2.6306566876350062e-05,
	"loss": 0.2137,
	"step": 3320
	},
	{
	"epoch": 3.2905138339920947,
	"grad_norm": 2.162156820297241,
	"learning_rate": 2.6024762674947306e-05,
	"loss": 0.2075,
	"step": 3330
	},
	{
	"epoch": 3.300395256916996,
	"grad_norm": 2.3874671459198,
	"learning_rate": 2.5743944001646384e-05,
	"loss": 0.2452,
	"step": 3340
	},
	{
	"epoch": 3.3102766798418974,
	"grad_norm": 2.3413357734680176,
	"learning_rate": 2.5464122399803118e-05,
	"loss": 0.2491,
	"step": 3350
	},
	{
	"epoch": 3.3201581027667983,
	"grad_norm": 2.0517518520355225,
	"learning_rate": 2.5185309371787506e-05,
	"loss": 0.2304,
	"step": 3360
	},
	{
	"epoch": 3.3300395256916997,
	"grad_norm": 2.5444791316986084,
	"learning_rate": 2.490751637851113e-05,
	"loss": 0.2252,
	"step": 3370
	},
	{
	"epoch": 3.3399209486166006,
	"grad_norm": 3.271428108215332,
	"learning_rate": 2.4630754838955894e-05,
	"loss": 0.2221,
	"step": 3380
	},
	{
	"epoch": 3.349802371541502,
	"grad_norm": 2.159346103668213,
	"learning_rate": 2.4355036129704693e-05,
	"loss": 0.2355,
	"step": 3390
	},
	{
	"epoch": 3.3596837944664033,
	"grad_norm": 1.997672438621521,
	"learning_rate": 2.408037158447374e-05,
	"loss": 0.2128,
	"step": 3400
	},
	{
	"epoch": 3.369565217391304,
	"grad_norm": 1.8913171291351318,
	"learning_rate": 2.3806772493646716e-05,
	"loss": 0.2133,
	"step": 3410
	},
	{
	"epoch": 3.3794466403162056,
	"grad_norm": 2.4527885913848877,
	"learning_rate": 2.3534250103810622e-05,
	"loss": 0.2171,
	"step": 3420
	},
	{
	"epoch": 3.3893280632411065,
	"grad_norm": 2.4104301929473877,
	"learning_rate": 2.326281561729351e-05,
	"loss": 0.2268,
	"step": 3430
	},
	{
	"epoch": 3.399209486166008,
	"grad_norm": 1.9531340599060059,
	"learning_rate": 2.2992480191703996e-05,
	"loss": 0.2158,
	"step": 3440
	},
	{
	"epoch": 3.409090909090909,
	"grad_norm": 1.6948319673538208,
	"learning_rate": 2.2723254939472564e-05,
	"loss": 0.2223,
	"step": 3450
	},
	{
	"epoch": 3.409090909090909,
	"eval_loss": 0.40440815687179565,
	"eval_runtime": 34.4399,
	"eval_samples_per_second": 14.518,
	"eval_steps_per_second": 14.518,
	"step": 3450
	},
	{
	"epoch": 3.4189723320158105,
	"grad_norm": 2.2849342823028564,
	"learning_rate": 2.2455150927394874e-05,
	"loss": 0.2354,
	"step": 3460
	},
	{
	"epoch": 3.4288537549407114,
	"grad_norm": 2.416132688522339,
	"learning_rate": 2.218817917617676e-05,
	"loss": 0.2322,
	"step": 3470
	},
	{
	"epoch": 3.438735177865613,
	"grad_norm": 2.2576396465301514,
	"learning_rate": 2.1922350659981254e-05,
	"loss": 0.2366,
	"step": 3480
	},
	{
	"epoch": 3.4486166007905137,
	"grad_norm": 2.38684344291687,
	"learning_rate": 2.1657676305977515e-05,
	"loss": 0.2322,
	"step": 3490
	},
	{
	"epoch": 3.458498023715415,
	"grad_norm": 2.6015143394470215,
	"learning_rate": 2.1394166993891523e-05,
	"loss": 0.2412,
	"step": 3500
	},
	{
	"epoch": 3.4683794466403164,
	"grad_norm": 2.134091854095459,
	"learning_rate": 2.1131833555559034e-05,
	"loss": 0.2176,
	"step": 3510
	},
	{
	"epoch": 3.4782608695652173,
	"grad_norm": 2.0862109661102295,
	"learning_rate": 2.0870686774480193e-05,
	"loss": 0.212,
	"step": 3520
	},
	{
	"epoch": 3.4881422924901186,
	"grad_norm": 2.139421224594116,
	"learning_rate": 2.0610737385376345e-05,
	"loss": 0.2398,
	"step": 3530
	},
	{
	"epoch": 3.4980237154150196,
	"grad_norm": 2.5852270126342773,
	"learning_rate": 2.035199607374871e-05,
	"loss": 0.2417,
	"step": 3540
	},
	{
	"epoch": 3.507905138339921,
	"grad_norm": 2.2502431869506836,
	"learning_rate": 2.0094473475439195e-05,
	"loss": 0.2277,
	"step": 3550
	},
	{
	"epoch": 3.5177865612648223,
	"grad_norm": 1.9478706121444702,
	"learning_rate": 1.983818017619317e-05,
	"loss": 0.247,
	"step": 3560
	},
	{
	"epoch": 3.527667984189723,
	"grad_norm": 2.4664876461029053,
	"learning_rate": 1.9583126711224336e-05,
	"loss": 0.2398,
	"step": 3570
	},
	{
	"epoch": 3.5375494071146245,
	"grad_norm": 2.0479726791381836,
	"learning_rate": 1.9329323564781675e-05,
	"loss": 0.2291,
	"step": 3580
	},
	{
	"epoch": 3.5474308300395254,
	"grad_norm": 1.9972285032272339,
	"learning_rate": 1.907678116971842e-05,
	"loss": 0.2287,
	"step": 3590
	},
	{
	"epoch": 3.5573122529644268,
	"grad_norm": 2.7339351177215576,
	"learning_rate": 1.882550990706332e-05,
	"loss": 0.2329,
	"step": 3600
	},
	{
	"epoch": 3.5573122529644268,
	"eval_loss": 0.39887359738349915,
	"eval_runtime": 34.1894,
	"eval_samples_per_second": 14.624,
	"eval_steps_per_second": 14.624,
	"step": 3600
	},
	{
	"epoch": 3.567193675889328,
	"grad_norm": 2.279087781906128,
	"learning_rate": 1.8575520105593814e-05,
	"loss": 0.2165,
	"step": 3610
	},
	{
	"epoch": 3.5770750988142295,
	"grad_norm": 2.1736888885498047,
	"learning_rate": 1.8326822041411518e-05,
	"loss": 0.2408,
	"step": 3620
	},
	{
	"epoch": 3.5869565217391304,
	"grad_norm": 2.6511847972869873,
	"learning_rate": 1.8079425937519722e-05,
	"loss": 0.2075,
	"step": 3630
	},
	{
	"epoch": 3.5968379446640317,
	"grad_norm": 2.688720226287842,
	"learning_rate": 1.7833341963403307e-05,
	"loss": 0.2257,
	"step": 3640
	},
	{
	"epoch": 3.6067193675889326,
	"grad_norm": 2.398272752761841,
	"learning_rate": 1.7588580234610588e-05,
	"loss": 0.2248,
	"step": 3650
	},
	{
	"epoch": 3.616600790513834,
	"grad_norm": 2.060293197631836,
	"learning_rate": 1.7345150812337557e-05,
	"loss": 0.2491,
	"step": 3660
	},
	{
	"epoch": 3.6264822134387353,
	"grad_norm": 2.143730401992798,
	"learning_rate": 1.7103063703014366e-05,
	"loss": 0.2194,
	"step": 3670
	},
	{
	"epoch": 3.6363636363636362,
	"grad_norm": 2.20381760597229,
	"learning_rate": 1.686232885789385e-05,
	"loss": 0.2299,
	"step": 3680
	},
	{
	"epoch": 3.6462450592885376,
	"grad_norm": 2.0883138179779053,
	"learning_rate": 1.6622956172642597e-05,
	"loss": 0.2377,
	"step": 3690
	},
	{
	"epoch": 3.6561264822134385,
	"grad_norm": 2.045193672180176,
	"learning_rate": 1.6384955486934152e-05,
	"loss": 0.2105,
	"step": 3700
	},
	{
	"epoch": 3.66600790513834,
	"grad_norm": 1.9251530170440674,
	"learning_rate": 1.6148336584044533e-05,
	"loss": 0.2149,
	"step": 3710
	},
	{
	"epoch": 3.675889328063241,
	"grad_norm": 2.162121534347534,
	"learning_rate": 1.591310919045003e-05,
	"loss": 0.2359,
	"step": 3720
	},
	{
	"epoch": 3.6857707509881426,
	"grad_norm": 2.423417329788208,
	"learning_rate": 1.5679282975427484e-05,
	"loss": 0.2305,
	"step": 3730
	},
	{
	"epoch": 3.6956521739130435,
	"grad_norm": 2.2101898193359375,
	"learning_rate": 1.5446867550656765e-05,
	"loss": 0.2174,
	"step": 3740
	},
	{
	"epoch": 3.705533596837945,
	"grad_norm": 2.565885066986084,
	"learning_rate": 1.5215872469825677e-05,
	"loss": 0.2184,
	"step": 3750
	},
	{
	"epoch": 3.705533596837945,
	"eval_loss": 0.39941611886024475,
	"eval_runtime": 34.6521,
	"eval_samples_per_second": 14.429,
	"eval_steps_per_second": 14.429,
	"step": 3750
	},
	{
	"epoch": 3.7154150197628457,
	"grad_norm": 2.2909016609191895,
	"learning_rate": 1.4986307228237263e-05,
	"loss": 0.2328,
	"step": 3760
	},
	{
	"epoch": 3.725296442687747,
	"grad_norm": 2.3509652614593506,
	"learning_rate": 1.475818126241942e-05,
	"loss": 0.2126,
	"step": 3770
	},
	{
	"epoch": 3.7351778656126484,
	"grad_norm": 2.112107515335083,
	"learning_rate": 1.4531503949737103e-05,
	"loss": 0.2093,
	"step": 3780
	},
	{
	"epoch": 3.7450592885375493,
	"grad_norm": 2.65423846244812,
	"learning_rate": 1.4306284608006833e-05,
	"loss": 0.2398,
	"step": 3790
	},
	{
	"epoch": 3.7549407114624507,
	"grad_norm": 2.521843194961548,
	"learning_rate": 1.4082532495113623e-05,
	"loss": 0.2215,
	"step": 3800
	},
	{
	"epoch": 3.7648221343873516,
	"grad_norm": 1.9202762842178345,
	"learning_rate": 1.3860256808630425e-05,
	"loss": 0.2201,
	"step": 3810
	},
	{
	"epoch": 3.774703557312253,
	"grad_norm": 2.7013628482818604,
	"learning_rate": 1.3639466685440129e-05,
	"loss": 0.2446,
	"step": 3820
	},
	{
	"epoch": 3.7845849802371543,
	"grad_norm": 1.9625245332717896,
	"learning_rate": 1.3420171201359928e-05,
	"loss": 0.2197,
	"step": 3830
	},
	{
	"epoch": 3.794466403162055,
	"grad_norm": 2.7485172748565674,
	"learning_rate": 1.3202379370768249e-05,
	"loss": 0.222,
	"step": 3840
	},
	{
	"epoch": 3.8043478260869565,
	"grad_norm": 2.577033281326294,
	"learning_rate": 1.2986100146234227e-05,
	"loss": 0.2217,
	"step": 3850
	},
	{
	"epoch": 3.8142292490118574,
	"grad_norm": 2.4234845638275146,
	"learning_rate": 1.2771342418149653e-05,
	"loss": 0.2205,
	"step": 3860
	},
	{
	"epoch": 3.824110671936759,
	"grad_norm": 2.127350330352783,
	"learning_rate": 1.2558115014363589e-05,
	"loss": 0.2076,
	"step": 3870
	},
	{
	"epoch": 3.83399209486166,
	"grad_norm": 2.254338502883911,
	"learning_rate": 1.2346426699819455e-05,
	"loss": 0.2408,
	"step": 3880
	},
	{
	"epoch": 3.8438735177865615,
	"grad_norm": 2.1729793548583984,
	"learning_rate": 1.2136286176194741e-05,
	"loss": 0.2253,
	"step": 3890
	},
	{
	"epoch": 3.8537549407114624,
	"grad_norm": 2.07226824760437,
	"learning_rate": 1.1927702081543275e-05,
	"loss": 0.2332,
	"step": 3900
	},
	{
	"epoch": 3.8537549407114624,
	"eval_loss": 0.39704427123069763,
	"eval_runtime": 34.4753,
	"eval_samples_per_second": 14.503,
	"eval_steps_per_second": 14.503,
	"step": 3900
	}
	],
	"logging_steps": 10,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 150,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.436859427356672e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}