TrelisSmolLM-base / trainer_state.json

Upload folder using huggingface_hub

c6f9d28 verified 5 months ago

162 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9999842829076621,
	"eval_steps": 1590,
	"global_step": 15906,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0009430255402750491,
	"grad_norm": 0.390625,
	"learning_rate": 0.001,
	"loss": 5.5551,
	"step": 15
	},
	{
	"epoch": 0.0018860510805500982,
	"grad_norm": 0.0791015625,
	"learning_rate": 0.001,
	"loss": 3.5038,
	"step": 30
	},
	{
	"epoch": 0.002829076620825147,
	"grad_norm": 0.1298828125,
	"learning_rate": 0.001,
	"loss": 3.5068,
	"step": 45
	},
	{
	"epoch": 0.0037721021611001964,
	"grad_norm": 0.0693359375,
	"learning_rate": 0.001,
	"loss": 3.4288,
	"step": 60
	},
	{
	"epoch": 0.004715127701375246,
	"grad_norm": 0.12255859375,
	"learning_rate": 0.001,
	"loss": 3.3071,
	"step": 75
	},
	{
	"epoch": 0.005658153241650294,
	"grad_norm": 0.091796875,
	"learning_rate": 0.001,
	"loss": 3.2653,
	"step": 90
	},
	{
	"epoch": 0.006601178781925344,
	"grad_norm": 0.1318359375,
	"learning_rate": 0.001,
	"loss": 3.1297,
	"step": 105
	},
	{
	"epoch": 0.007544204322200393,
	"grad_norm": 0.12451171875,
	"learning_rate": 0.001,
	"loss": 3.0482,
	"step": 120
	},
	{
	"epoch": 0.008487229862475442,
	"grad_norm": 0.380859375,
	"learning_rate": 0.001,
	"loss": 2.9037,
	"step": 135
	},
	{
	"epoch": 0.009430255402750491,
	"grad_norm": 0.1650390625,
	"learning_rate": 0.001,
	"loss": 2.8178,
	"step": 150
	},
	{
	"epoch": 0.01037328094302554,
	"grad_norm": 0.111328125,
	"learning_rate": 0.001,
	"loss": 2.687,
	"step": 165
	},
	{
	"epoch": 0.011316306483300589,
	"grad_norm": 0.1640625,
	"learning_rate": 0.001,
	"loss": 2.6247,
	"step": 180
	},
	{
	"epoch": 0.01225933202357564,
	"grad_norm": 0.1298828125,
	"learning_rate": 0.001,
	"loss": 2.5556,
	"step": 195
	},
	{
	"epoch": 0.013202357563850688,
	"grad_norm": 0.2451171875,
	"learning_rate": 0.001,
	"loss": 2.4524,
	"step": 210
	},
	{
	"epoch": 0.014145383104125737,
	"grad_norm": 0.1083984375,
	"learning_rate": 0.001,
	"loss": 2.4904,
	"step": 225
	},
	{
	"epoch": 0.015088408644400786,
	"grad_norm": 0.1904296875,
	"learning_rate": 0.001,
	"loss": 2.4211,
	"step": 240
	},
	{
	"epoch": 0.016031434184675834,
	"grad_norm": 0.2412109375,
	"learning_rate": 0.001,
	"loss": 2.419,
	"step": 255
	},
	{
	"epoch": 0.016974459724950885,
	"grad_norm": 0.130859375,
	"learning_rate": 0.001,
	"loss": 2.3542,
	"step": 270
	},
	{
	"epoch": 0.017917485265225932,
	"grad_norm": 0.294921875,
	"learning_rate": 0.001,
	"loss": 2.2893,
	"step": 285
	},
	{
	"epoch": 0.018860510805500982,
	"grad_norm": 0.1982421875,
	"learning_rate": 0.001,
	"loss": 2.2671,
	"step": 300
	},
	{
	"epoch": 0.019803536345776033,
	"grad_norm": 0.2109375,
	"learning_rate": 0.001,
	"loss": 2.2644,
	"step": 315
	},
	{
	"epoch": 0.02074656188605108,
	"grad_norm": 0.306640625,
	"learning_rate": 0.001,
	"loss": 2.2669,
	"step": 330
	},
	{
	"epoch": 0.02168958742632613,
	"grad_norm": 0.1962890625,
	"learning_rate": 0.001,
	"loss": 2.2009,
	"step": 345
	},
	{
	"epoch": 0.022632612966601177,
	"grad_norm": 0.197265625,
	"learning_rate": 0.001,
	"loss": 2.1569,
	"step": 360
	},
	{
	"epoch": 0.023575638506876228,
	"grad_norm": 0.203125,
	"learning_rate": 0.001,
	"loss": 2.0607,
	"step": 375
	},
	{
	"epoch": 0.02451866404715128,
	"grad_norm": 0.330078125,
	"learning_rate": 0.001,
	"loss": 2.1118,
	"step": 390
	},
	{
	"epoch": 0.025461689587426325,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 2.0465,
	"step": 405
	},
	{
	"epoch": 0.026404715127701376,
	"grad_norm": 0.26953125,
	"learning_rate": 0.001,
	"loss": 2.0682,
	"step": 420
	},
	{
	"epoch": 0.027347740667976423,
	"grad_norm": 0.158203125,
	"learning_rate": 0.001,
	"loss": 2.014,
	"step": 435
	},
	{
	"epoch": 0.028290766208251474,
	"grad_norm": 0.2578125,
	"learning_rate": 0.001,
	"loss": 2.0251,
	"step": 450
	},
	{
	"epoch": 0.029233791748526524,
	"grad_norm": 0.314453125,
	"learning_rate": 0.001,
	"loss": 1.991,
	"step": 465
	},
	{
	"epoch": 0.03017681728880157,
	"grad_norm": 0.1884765625,
	"learning_rate": 0.001,
	"loss": 1.9579,
	"step": 480
	},
	{
	"epoch": 0.03111984282907662,
	"grad_norm": 0.1630859375,
	"learning_rate": 0.001,
	"loss": 1.9253,
	"step": 495
	},
	{
	"epoch": 0.03206286836935167,
	"grad_norm": 0.408203125,
	"learning_rate": 0.001,
	"loss": 1.9019,
	"step": 510
	},
	{
	"epoch": 0.033005893909626716,
	"grad_norm": 0.15234375,
	"learning_rate": 0.001,
	"loss": 1.9208,
	"step": 525
	},
	{
	"epoch": 0.03394891944990177,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 1.9165,
	"step": 540
	},
	{
	"epoch": 0.03489194499017682,
	"grad_norm": 0.2734375,
	"learning_rate": 0.001,
	"loss": 1.8541,
	"step": 555
	},
	{
	"epoch": 0.035834970530451864,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 1.8854,
	"step": 570
	},
	{
	"epoch": 0.03677799607072692,
	"grad_norm": 0.30078125,
	"learning_rate": 0.001,
	"loss": 1.8651,
	"step": 585
	},
	{
	"epoch": 0.037721021611001965,
	"grad_norm": 0.2734375,
	"learning_rate": 0.001,
	"loss": 1.8392,
	"step": 600
	},
	{
	"epoch": 0.03866404715127701,
	"grad_norm": 0.23828125,
	"learning_rate": 0.001,
	"loss": 1.843,
	"step": 615
	},
	{
	"epoch": 0.039607072691552066,
	"grad_norm": 0.2578125,
	"learning_rate": 0.001,
	"loss": 1.7958,
	"step": 630
	},
	{
	"epoch": 0.04055009823182711,
	"grad_norm": 0.197265625,
	"learning_rate": 0.001,
	"loss": 1.7849,
	"step": 645
	},
	{
	"epoch": 0.04149312377210216,
	"grad_norm": 0.1767578125,
	"learning_rate": 0.001,
	"loss": 1.7397,
	"step": 660
	},
	{
	"epoch": 0.04243614931237721,
	"grad_norm": 0.255859375,
	"learning_rate": 0.001,
	"loss": 1.7396,
	"step": 675
	},
	{
	"epoch": 0.04337917485265226,
	"grad_norm": 0.291015625,
	"learning_rate": 0.001,
	"loss": 1.7219,
	"step": 690
	},
	{
	"epoch": 0.04432220039292731,
	"grad_norm": 0.33984375,
	"learning_rate": 0.001,
	"loss": 1.7536,
	"step": 705
	},
	{
	"epoch": 0.045265225933202355,
	"grad_norm": 0.2021484375,
	"learning_rate": 0.001,
	"loss": 1.697,
	"step": 720
	},
	{
	"epoch": 0.04620825147347741,
	"grad_norm": 0.421875,
	"learning_rate": 0.001,
	"loss": 1.6725,
	"step": 735
	},
	{
	"epoch": 0.047151277013752456,
	"grad_norm": 0.2080078125,
	"learning_rate": 0.001,
	"loss": 1.691,
	"step": 750
	},
	{
	"epoch": 0.0480943025540275,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 1.6721,
	"step": 765
	},
	{
	"epoch": 0.04903732809430256,
	"grad_norm": 0.2451171875,
	"learning_rate": 0.001,
	"loss": 1.7221,
	"step": 780
	},
	{
	"epoch": 0.049980353634577604,
	"grad_norm": 0.244140625,
	"learning_rate": 0.001,
	"loss": 1.6609,
	"step": 795
	},
	{
	"epoch": 0.05092337917485265,
	"grad_norm": 0.494140625,
	"learning_rate": 0.001,
	"loss": 1.6805,
	"step": 810
	},
	{
	"epoch": 0.0518664047151277,
	"grad_norm": 0.265625,
	"learning_rate": 0.001,
	"loss": 1.6157,
	"step": 825
	},
	{
	"epoch": 0.05280943025540275,
	"grad_norm": 0.19921875,
	"learning_rate": 0.001,
	"loss": 1.5996,
	"step": 840
	},
	{
	"epoch": 0.0537524557956778,
	"grad_norm": 0.419921875,
	"learning_rate": 0.001,
	"loss": 1.5686,
	"step": 855
	},
	{
	"epoch": 0.054695481335952846,
	"grad_norm": 0.345703125,
	"learning_rate": 0.001,
	"loss": 1.6021,
	"step": 870
	},
	{
	"epoch": 0.0556385068762279,
	"grad_norm": 0.447265625,
	"learning_rate": 0.001,
	"loss": 1.6159,
	"step": 885
	},
	{
	"epoch": 0.05658153241650295,
	"grad_norm": 0.314453125,
	"learning_rate": 0.001,
	"loss": 1.5456,
	"step": 900
	},
	{
	"epoch": 0.057524557956777994,
	"grad_norm": 0.287109375,
	"learning_rate": 0.001,
	"loss": 1.5764,
	"step": 915
	},
	{
	"epoch": 0.05846758349705305,
	"grad_norm": 0.369140625,
	"learning_rate": 0.001,
	"loss": 1.5426,
	"step": 930
	},
	{
	"epoch": 0.059410609037328095,
	"grad_norm": 0.380859375,
	"learning_rate": 0.001,
	"loss": 1.5535,
	"step": 945
	},
	{
	"epoch": 0.06035363457760314,
	"grad_norm": 0.23828125,
	"learning_rate": 0.001,
	"loss": 1.505,
	"step": 960
	},
	{
	"epoch": 0.06129666011787819,
	"grad_norm": 0.337890625,
	"learning_rate": 0.001,
	"loss": 1.5328,
	"step": 975
	},
	{
	"epoch": 0.06223968565815324,
	"grad_norm": 0.45703125,
	"learning_rate": 0.001,
	"loss": 1.5274,
	"step": 990
	},
	{
	"epoch": 0.06318271119842829,
	"grad_norm": 0.3515625,
	"learning_rate": 0.001,
	"loss": 1.5246,
	"step": 1005
	},
	{
	"epoch": 0.06412573673870334,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 1.4633,
	"step": 1020
	},
	{
	"epoch": 0.06506876227897838,
	"grad_norm": 0.3046875,
	"learning_rate": 0.001,
	"loss": 1.487,
	"step": 1035
	},
	{
	"epoch": 0.06601178781925343,
	"grad_norm": 0.380859375,
	"learning_rate": 0.001,
	"loss": 1.4582,
	"step": 1050
	},
	{
	"epoch": 0.06695481335952849,
	"grad_norm": 0.39453125,
	"learning_rate": 0.001,
	"loss": 1.4586,
	"step": 1065
	},
	{
	"epoch": 0.06789783889980354,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 1.4322,
	"step": 1080
	},
	{
	"epoch": 0.06884086444007859,
	"grad_norm": 0.330078125,
	"learning_rate": 0.001,
	"loss": 1.47,
	"step": 1095
	},
	{
	"epoch": 0.06978388998035363,
	"grad_norm": 0.443359375,
	"learning_rate": 0.001,
	"loss": 1.4215,
	"step": 1110
	},
	{
	"epoch": 0.07072691552062868,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 1.4569,
	"step": 1125
	},
	{
	"epoch": 0.07166994106090373,
	"grad_norm": 0.330078125,
	"learning_rate": 0.001,
	"loss": 1.4428,
	"step": 1140
	},
	{
	"epoch": 0.07261296660117879,
	"grad_norm": 0.3203125,
	"learning_rate": 0.001,
	"loss": 1.3861,
	"step": 1155
	},
	{
	"epoch": 0.07355599214145384,
	"grad_norm": 0.427734375,
	"learning_rate": 0.001,
	"loss": 1.4478,
	"step": 1170
	},
	{
	"epoch": 0.07449901768172888,
	"grad_norm": 0.27734375,
	"learning_rate": 0.001,
	"loss": 1.406,
	"step": 1185
	},
	{
	"epoch": 0.07544204322200393,
	"grad_norm": 0.478515625,
	"learning_rate": 0.001,
	"loss": 1.3944,
	"step": 1200
	},
	{
	"epoch": 0.07638506876227898,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 1.3884,
	"step": 1215
	},
	{
	"epoch": 0.07732809430255402,
	"grad_norm": 0.361328125,
	"learning_rate": 0.001,
	"loss": 1.38,
	"step": 1230
	},
	{
	"epoch": 0.07827111984282907,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 1.3446,
	"step": 1245
	},
	{
	"epoch": 0.07921414538310413,
	"grad_norm": 0.28515625,
	"learning_rate": 0.001,
	"loss": 1.351,
	"step": 1260
	},
	{
	"epoch": 0.08015717092337918,
	"grad_norm": 0.6953125,
	"learning_rate": 0.001,
	"loss": 1.352,
	"step": 1275
	},
	{
	"epoch": 0.08110019646365423,
	"grad_norm": 0.296875,
	"learning_rate": 0.001,
	"loss": 1.3378,
	"step": 1290
	},
	{
	"epoch": 0.08204322200392927,
	"grad_norm": 0.353515625,
	"learning_rate": 0.001,
	"loss": 1.3056,
	"step": 1305
	},
	{
	"epoch": 0.08298624754420432,
	"grad_norm": 0.439453125,
	"learning_rate": 0.001,
	"loss": 1.3099,
	"step": 1320
	},
	{
	"epoch": 0.08392927308447937,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 1.3364,
	"step": 1335
	},
	{
	"epoch": 0.08487229862475441,
	"grad_norm": 0.4296875,
	"learning_rate": 0.001,
	"loss": 1.2865,
	"step": 1350
	},
	{
	"epoch": 0.08581532416502947,
	"grad_norm": 0.337890625,
	"learning_rate": 0.001,
	"loss": 1.3022,
	"step": 1365
	},
	{
	"epoch": 0.08675834970530452,
	"grad_norm": 0.37109375,
	"learning_rate": 0.001,
	"loss": 1.2641,
	"step": 1380
	},
	{
	"epoch": 0.08770137524557957,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 1.291,
	"step": 1395
	},
	{
	"epoch": 0.08864440078585462,
	"grad_norm": 0.431640625,
	"learning_rate": 0.001,
	"loss": 1.2947,
	"step": 1410
	},
	{
	"epoch": 0.08958742632612966,
	"grad_norm": 0.310546875,
	"learning_rate": 0.001,
	"loss": 1.2626,
	"step": 1425
	},
	{
	"epoch": 0.09053045186640471,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 1.2719,
	"step": 1440
	},
	{
	"epoch": 0.09147347740667977,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 1.2817,
	"step": 1455
	},
	{
	"epoch": 0.09241650294695482,
	"grad_norm": 0.361328125,
	"learning_rate": 0.001,
	"loss": 1.2678,
	"step": 1470
	},
	{
	"epoch": 0.09335952848722986,
	"grad_norm": 0.396484375,
	"learning_rate": 0.001,
	"loss": 1.2336,
	"step": 1485
	},
	{
	"epoch": 0.09430255402750491,
	"grad_norm": 0.384765625,
	"learning_rate": 0.001,
	"loss": 1.2415,
	"step": 1500
	},
	{
	"epoch": 0.09524557956777996,
	"grad_norm": 0.416015625,
	"learning_rate": 0.001,
	"loss": 1.2478,
	"step": 1515
	},
	{
	"epoch": 0.096188605108055,
	"grad_norm": 0.423828125,
	"learning_rate": 0.001,
	"loss": 1.2475,
	"step": 1530
	},
	{
	"epoch": 0.09713163064833005,
	"grad_norm": 0.400390625,
	"learning_rate": 0.001,
	"loss": 1.2128,
	"step": 1545
	},
	{
	"epoch": 0.09807465618860511,
	"grad_norm": 0.404296875,
	"learning_rate": 0.001,
	"loss": 1.2292,
	"step": 1560
	},
	{
	"epoch": 0.09901768172888016,
	"grad_norm": 0.294921875,
	"learning_rate": 0.001,
	"loss": 1.2015,
	"step": 1575
	},
	{
	"epoch": 0.09996070726915521,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 1.2088,
	"step": 1590
	},
	{
	"epoch": 0.09996070726915521,
	"eval_loss": 1.5537890195846558,
	"eval_runtime": 9.6819,
	"eval_samples_per_second": 103.285,
	"eval_steps_per_second": 1.446,
	"step": 1590
	},
	{
	"epoch": 0.10090373280943025,
	"grad_norm": 0.3515625,
	"learning_rate": 0.001,
	"loss": 1.2156,
	"step": 1605
	},
	{
	"epoch": 0.1018467583497053,
	"grad_norm": 0.443359375,
	"learning_rate": 0.001,
	"loss": 1.2115,
	"step": 1620
	},
	{
	"epoch": 0.10278978388998035,
	"grad_norm": 0.8359375,
	"learning_rate": 0.001,
	"loss": 1.2202,
	"step": 1635
	},
	{
	"epoch": 0.1037328094302554,
	"grad_norm": 0.314453125,
	"learning_rate": 0.001,
	"loss": 1.2208,
	"step": 1650
	},
	{
	"epoch": 0.10467583497053046,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 1.1911,
	"step": 1665
	},
	{
	"epoch": 0.1056188605108055,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 1.2102,
	"step": 1680
	},
	{
	"epoch": 0.10656188605108055,
	"grad_norm": 0.27734375,
	"learning_rate": 0.001,
	"loss": 1.1984,
	"step": 1695
	},
	{
	"epoch": 0.1075049115913556,
	"grad_norm": 0.90625,
	"learning_rate": 0.001,
	"loss": 1.2012,
	"step": 1710
	},
	{
	"epoch": 0.10844793713163065,
	"grad_norm": 0.35546875,
	"learning_rate": 0.001,
	"loss": 1.1869,
	"step": 1725
	},
	{
	"epoch": 0.10939096267190569,
	"grad_norm": 0.3828125,
	"learning_rate": 0.001,
	"loss": 1.1948,
	"step": 1740
	},
	{
	"epoch": 0.11033398821218075,
	"grad_norm": 0.404296875,
	"learning_rate": 0.001,
	"loss": 1.1783,
	"step": 1755
	},
	{
	"epoch": 0.1112770137524558,
	"grad_norm": 0.396484375,
	"learning_rate": 0.001,
	"loss": 1.1893,
	"step": 1770
	},
	{
	"epoch": 0.11222003929273085,
	"grad_norm": 0.345703125,
	"learning_rate": 0.001,
	"loss": 1.1495,
	"step": 1785
	},
	{
	"epoch": 0.1131630648330059,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 1.175,
	"step": 1800
	},
	{
	"epoch": 0.11410609037328094,
	"grad_norm": 0.61328125,
	"learning_rate": 0.001,
	"loss": 1.1588,
	"step": 1815
	},
	{
	"epoch": 0.11504911591355599,
	"grad_norm": 0.421875,
	"learning_rate": 0.001,
	"loss": 1.1376,
	"step": 1830
	},
	{
	"epoch": 0.11599214145383104,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 1.1511,
	"step": 1845
	},
	{
	"epoch": 0.1169351669941061,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 1.1645,
	"step": 1860
	},
	{
	"epoch": 0.11787819253438114,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 1.1619,
	"step": 1875
	},
	{
	"epoch": 0.11882121807465619,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 1.1304,
	"step": 1890
	},
	{
	"epoch": 0.11976424361493124,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 1.1361,
	"step": 1905
	},
	{
	"epoch": 0.12070726915520628,
	"grad_norm": 0.37109375,
	"learning_rate": 0.001,
	"loss": 1.1151,
	"step": 1920
	},
	{
	"epoch": 0.12165029469548133,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 1.1299,
	"step": 1935
	},
	{
	"epoch": 0.12259332023575638,
	"grad_norm": 0.45703125,
	"learning_rate": 0.001,
	"loss": 1.1334,
	"step": 1950
	},
	{
	"epoch": 0.12353634577603144,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 1.112,
	"step": 1965
	},
	{
	"epoch": 0.12447937131630649,
	"grad_norm": 0.7890625,
	"learning_rate": 0.001,
	"loss": 1.1034,
	"step": 1980
	},
	{
	"epoch": 0.12542239685658152,
	"grad_norm": 0.431640625,
	"learning_rate": 0.001,
	"loss": 1.12,
	"step": 1995
	},
	{
	"epoch": 0.12636542239685658,
	"grad_norm": 0.373046875,
	"learning_rate": 0.001,
	"loss": 1.0996,
	"step": 2010
	},
	{
	"epoch": 0.12730844793713164,
	"grad_norm": 0.353515625,
	"learning_rate": 0.001,
	"loss": 1.1141,
	"step": 2025
	},
	{
	"epoch": 0.12825147347740667,
	"grad_norm": 0.6640625,
	"learning_rate": 0.001,
	"loss": 1.1112,
	"step": 2040
	},
	{
	"epoch": 0.12919449901768174,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 1.1229,
	"step": 2055
	},
	{
	"epoch": 0.13013752455795677,
	"grad_norm": 0.97265625,
	"learning_rate": 0.001,
	"loss": 1.074,
	"step": 2070
	},
	{
	"epoch": 0.13108055009823183,
	"grad_norm": 0.3828125,
	"learning_rate": 0.001,
	"loss": 1.1199,
	"step": 2085
	},
	{
	"epoch": 0.13202357563850686,
	"grad_norm": 0.3671875,
	"learning_rate": 0.001,
	"loss": 1.097,
	"step": 2100
	},
	{
	"epoch": 0.13296660117878192,
	"grad_norm": 0.373046875,
	"learning_rate": 0.001,
	"loss": 1.0832,
	"step": 2115
	},
	{
	"epoch": 0.13390962671905698,
	"grad_norm": 0.40234375,
	"learning_rate": 0.001,
	"loss": 1.0887,
	"step": 2130
	},
	{
	"epoch": 0.13485265225933202,
	"grad_norm": 0.404296875,
	"learning_rate": 0.001,
	"loss": 1.066,
	"step": 2145
	},
	{
	"epoch": 0.13579567779960708,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 1.0979,
	"step": 2160
	},
	{
	"epoch": 0.1367387033398821,
	"grad_norm": 0.423828125,
	"learning_rate": 0.001,
	"loss": 1.101,
	"step": 2175
	},
	{
	"epoch": 0.13768172888015717,
	"grad_norm": 0.396484375,
	"learning_rate": 0.001,
	"loss": 1.0761,
	"step": 2190
	},
	{
	"epoch": 0.13862475442043223,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 1.0845,
	"step": 2205
	},
	{
	"epoch": 0.13956777996070727,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 1.0938,
	"step": 2220
	},
	{
	"epoch": 0.14051080550098233,
	"grad_norm": 0.412109375,
	"learning_rate": 0.001,
	"loss": 1.0659,
	"step": 2235
	},
	{
	"epoch": 0.14145383104125736,
	"grad_norm": 0.494140625,
	"learning_rate": 0.001,
	"loss": 1.0683,
	"step": 2250
	},
	{
	"epoch": 0.14239685658153242,
	"grad_norm": 0.66015625,
	"learning_rate": 0.001,
	"loss": 1.0777,
	"step": 2265
	},
	{
	"epoch": 0.14333988212180745,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 1.0741,
	"step": 2280
	},
	{
	"epoch": 0.14428290766208252,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 1.0533,
	"step": 2295
	},
	{
	"epoch": 0.14522593320235758,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 1.0655,
	"step": 2310
	},
	{
	"epoch": 0.1461689587426326,
	"grad_norm": 0.33984375,
	"learning_rate": 0.001,
	"loss": 1.0541,
	"step": 2325
	},
	{
	"epoch": 0.14711198428290767,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 1.0506,
	"step": 2340
	},
	{
	"epoch": 0.1480550098231827,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 1.0596,
	"step": 2355
	},
	{
	"epoch": 0.14899803536345776,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 1.0586,
	"step": 2370
	},
	{
	"epoch": 0.1499410609037328,
	"grad_norm": 0.40234375,
	"learning_rate": 0.001,
	"loss": 1.0466,
	"step": 2385
	},
	{
	"epoch": 0.15088408644400786,
	"grad_norm": 0.41796875,
	"learning_rate": 0.001,
	"loss": 1.0485,
	"step": 2400
	},
	{
	"epoch": 0.15182711198428292,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 1.011,
	"step": 2415
	},
	{
	"epoch": 0.15277013752455795,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 1.0434,
	"step": 2430
	},
	{
	"epoch": 0.153713163064833,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 1.0353,
	"step": 2445
	},
	{
	"epoch": 0.15465618860510805,
	"grad_norm": 0.45703125,
	"learning_rate": 0.001,
	"loss": 1.0222,
	"step": 2460
	},
	{
	"epoch": 0.1555992141453831,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 1.0403,
	"step": 2475
	},
	{
	"epoch": 0.15654223968565814,
	"grad_norm": 0.478515625,
	"learning_rate": 0.001,
	"loss": 1.0397,
	"step": 2490
	},
	{
	"epoch": 0.1574852652259332,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 1.0382,
	"step": 2505
	},
	{
	"epoch": 0.15842829076620826,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 1.0336,
	"step": 2520
	},
	{
	"epoch": 0.1593713163064833,
	"grad_norm": 0.462890625,
	"learning_rate": 0.001,
	"loss": 1.0083,
	"step": 2535
	},
	{
	"epoch": 0.16031434184675836,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 1.0236,
	"step": 2550
	},
	{
	"epoch": 0.1612573673870334,
	"grad_norm": 0.45703125,
	"learning_rate": 0.001,
	"loss": 1.0245,
	"step": 2565
	},
	{
	"epoch": 0.16220039292730845,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 1.026,
	"step": 2580
	},
	{
	"epoch": 0.16314341846758348,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 1.0276,
	"step": 2595
	},
	{
	"epoch": 0.16408644400785855,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.9937,
	"step": 2610
	},
	{
	"epoch": 0.1650294695481336,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 1.0249,
	"step": 2625
	},
	{
	"epoch": 0.16597249508840864,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 1.0096,
	"step": 2640
	},
	{
	"epoch": 0.1669155206286837,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 1.0195,
	"step": 2655
	},
	{
	"epoch": 0.16785854616895873,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 1.018,
	"step": 2670
	},
	{
	"epoch": 0.1688015717092338,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 1.0289,
	"step": 2685
	},
	{
	"epoch": 0.16974459724950883,
	"grad_norm": 0.423828125,
	"learning_rate": 0.001,
	"loss": 0.9931,
	"step": 2700
	},
	{
	"epoch": 0.1706876227897839,
	"grad_norm": 0.42578125,
	"learning_rate": 0.001,
	"loss": 1.0101,
	"step": 2715
	},
	{
	"epoch": 0.17163064833005895,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 1.0159,
	"step": 2730
	},
	{
	"epoch": 0.17257367387033398,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 1.0094,
	"step": 2745
	},
	{
	"epoch": 0.17351669941060904,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 1.0081,
	"step": 2760
	},
	{
	"epoch": 0.17445972495088408,
	"grad_norm": 0.6640625,
	"learning_rate": 0.001,
	"loss": 0.9958,
	"step": 2775
	},
	{
	"epoch": 0.17540275049115914,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.9909,
	"step": 2790
	},
	{
	"epoch": 0.1763457760314342,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.9854,
	"step": 2805
	},
	{
	"epoch": 0.17728880157170923,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.9858,
	"step": 2820
	},
	{
	"epoch": 0.1782318271119843,
	"grad_norm": 0.49609375,
	"learning_rate": 0.001,
	"loss": 0.9825,
	"step": 2835
	},
	{
	"epoch": 0.17917485265225933,
	"grad_norm": 0.458984375,
	"learning_rate": 0.001,
	"loss": 1.0153,
	"step": 2850
	},
	{
	"epoch": 0.1801178781925344,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.9984,
	"step": 2865
	},
	{
	"epoch": 0.18106090373280942,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.9832,
	"step": 2880
	},
	{
	"epoch": 0.18200392927308448,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.9843,
	"step": 2895
	},
	{
	"epoch": 0.18294695481335954,
	"grad_norm": 0.41015625,
	"learning_rate": 0.001,
	"loss": 0.9774,
	"step": 2910
	},
	{
	"epoch": 0.18388998035363457,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.9824,
	"step": 2925
	},
	{
	"epoch": 0.18483300589390964,
	"grad_norm": 0.41796875,
	"learning_rate": 0.001,
	"loss": 0.9884,
	"step": 2940
	},
	{
	"epoch": 0.18577603143418467,
	"grad_norm": 0.447265625,
	"learning_rate": 0.001,
	"loss": 0.9684,
	"step": 2955
	},
	{
	"epoch": 0.18671905697445973,
	"grad_norm": 0.6640625,
	"learning_rate": 0.001,
	"loss": 0.9746,
	"step": 2970
	},
	{
	"epoch": 0.18766208251473476,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.9831,
	"step": 2985
	},
	{
	"epoch": 0.18860510805500982,
	"grad_norm": 0.671875,
	"learning_rate": 0.001,
	"loss": 0.9868,
	"step": 3000
	},
	{
	"epoch": 0.18954813359528488,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.9687,
	"step": 3015
	},
	{
	"epoch": 0.19049115913555992,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.9759,
	"step": 3030
	},
	{
	"epoch": 0.19143418467583498,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.9755,
	"step": 3045
	},
	{
	"epoch": 0.19237721021611,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.9784,
	"step": 3060
	},
	{
	"epoch": 0.19332023575638507,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.9691,
	"step": 3075
	},
	{
	"epoch": 0.1942632612966601,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.9851,
	"step": 3090
	},
	{
	"epoch": 0.19520628683693517,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.9695,
	"step": 3105
	},
	{
	"epoch": 0.19614931237721023,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.993,
	"step": 3120
	},
	{
	"epoch": 0.19709233791748526,
	"grad_norm": 0.49609375,
	"learning_rate": 0.001,
	"loss": 0.9625,
	"step": 3135
	},
	{
	"epoch": 0.19803536345776032,
	"grad_norm": 0.3828125,
	"learning_rate": 0.001,
	"loss": 0.9655,
	"step": 3150
	},
	{
	"epoch": 0.19897838899803535,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.9606,
	"step": 3165
	},
	{
	"epoch": 0.19992141453831042,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.9608,
	"step": 3180
	},
	{
	"epoch": 0.19992141453831042,
	"eval_loss": 1.169226050376892,
	"eval_runtime": 9.7503,
	"eval_samples_per_second": 102.561,
	"eval_steps_per_second": 1.436,
	"step": 3180
	},
	{
	"epoch": 0.20086444007858545,
	"grad_norm": 0.46484375,
	"learning_rate": 0.001,
	"loss": 0.9741,
	"step": 3195
	},
	{
	"epoch": 0.2018074656188605,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.9608,
	"step": 3210
	},
	{
	"epoch": 0.20275049115913557,
	"grad_norm": 0.44921875,
	"learning_rate": 0.001,
	"loss": 0.9464,
	"step": 3225
	},
	{
	"epoch": 0.2036935166994106,
	"grad_norm": 0.671875,
	"learning_rate": 0.001,
	"loss": 0.9683,
	"step": 3240
	},
	{
	"epoch": 0.20463654223968566,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.9308,
	"step": 3255
	},
	{
	"epoch": 0.2055795677799607,
	"grad_norm": 0.380859375,
	"learning_rate": 0.001,
	"loss": 0.9541,
	"step": 3270
	},
	{
	"epoch": 0.20652259332023576,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.9452,
	"step": 3285
	},
	{
	"epoch": 0.2074656188605108,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.9673,
	"step": 3300
	},
	{
	"epoch": 0.20840864440078585,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.9508,
	"step": 3315
	},
	{
	"epoch": 0.2093516699410609,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.955,
	"step": 3330
	},
	{
	"epoch": 0.21029469548133595,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.9499,
	"step": 3345
	},
	{
	"epoch": 0.211237721021611,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.9441,
	"step": 3360
	},
	{
	"epoch": 0.21218074656188604,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.9476,
	"step": 3375
	},
	{
	"epoch": 0.2131237721021611,
	"grad_norm": 0.431640625,
	"learning_rate": 0.001,
	"loss": 0.9506,
	"step": 3390
	},
	{
	"epoch": 0.21406679764243616,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.9546,
	"step": 3405
	},
	{
	"epoch": 0.2150098231827112,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.9488,
	"step": 3420
	},
	{
	"epoch": 0.21595284872298626,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 0.9473,
	"step": 3435
	},
	{
	"epoch": 0.2168958742632613,
	"grad_norm": 0.435546875,
	"learning_rate": 0.001,
	"loss": 0.9491,
	"step": 3450
	},
	{
	"epoch": 0.21783889980353635,
	"grad_norm": 0.41796875,
	"learning_rate": 0.001,
	"loss": 0.9304,
	"step": 3465
	},
	{
	"epoch": 0.21878192534381138,
	"grad_norm": 0.80078125,
	"learning_rate": 0.001,
	"loss": 0.9482,
	"step": 3480
	},
	{
	"epoch": 0.21972495088408645,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.9418,
	"step": 3495
	},
	{
	"epoch": 0.2206679764243615,
	"grad_norm": 0.46484375,
	"learning_rate": 0.001,
	"loss": 0.9226,
	"step": 3510
	},
	{
	"epoch": 0.22161100196463654,
	"grad_norm": 0.427734375,
	"learning_rate": 0.001,
	"loss": 0.9427,
	"step": 3525
	},
	{
	"epoch": 0.2225540275049116,
	"grad_norm": 0.76953125,
	"learning_rate": 0.001,
	"loss": 0.9261,
	"step": 3540
	},
	{
	"epoch": 0.22349705304518663,
	"grad_norm": 0.69140625,
	"learning_rate": 0.001,
	"loss": 0.9418,
	"step": 3555
	},
	{
	"epoch": 0.2244400785854617,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.9382,
	"step": 3570
	},
	{
	"epoch": 0.22538310412573673,
	"grad_norm": 0.412109375,
	"learning_rate": 0.001,
	"loss": 0.9353,
	"step": 3585
	},
	{
	"epoch": 0.2263261296660118,
	"grad_norm": 0.447265625,
	"learning_rate": 0.001,
	"loss": 0.9138,
	"step": 3600
	},
	{
	"epoch": 0.22726915520628685,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.9033,
	"step": 3615
	},
	{
	"epoch": 0.22821218074656188,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.9337,
	"step": 3630
	},
	{
	"epoch": 0.22915520628683694,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.9188,
	"step": 3645
	},
	{
	"epoch": 0.23009823182711198,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.9407,
	"step": 3660
	},
	{
	"epoch": 0.23104125736738704,
	"grad_norm": 0.40625,
	"learning_rate": 0.001,
	"loss": 0.9068,
	"step": 3675
	},
	{
	"epoch": 0.23198428290766207,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.9079,
	"step": 3690
	},
	{
	"epoch": 0.23292730844793713,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 0.9095,
	"step": 3705
	},
	{
	"epoch": 0.2338703339882122,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.9148,
	"step": 3720
	},
	{
	"epoch": 0.23481335952848723,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.9044,
	"step": 3735
	},
	{
	"epoch": 0.2357563850687623,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.9401,
	"step": 3750
	},
	{
	"epoch": 0.23669941060903732,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.9228,
	"step": 3765
	},
	{
	"epoch": 0.23764243614931238,
	"grad_norm": 0.447265625,
	"learning_rate": 0.001,
	"loss": 0.9071,
	"step": 3780
	},
	{
	"epoch": 0.2385854616895874,
	"grad_norm": 0.734375,
	"learning_rate": 0.001,
	"loss": 0.92,
	"step": 3795
	},
	{
	"epoch": 0.23952848722986247,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.9323,
	"step": 3810
	},
	{
	"epoch": 0.24047151277013754,
	"grad_norm": 0.3828125,
	"learning_rate": 0.001,
	"loss": 0.9013,
	"step": 3825
	},
	{
	"epoch": 0.24141453831041257,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.9045,
	"step": 3840
	},
	{
	"epoch": 0.24235756385068763,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.9049,
	"step": 3855
	},
	{
	"epoch": 0.24330058939096266,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 0.8902,
	"step": 3870
	},
	{
	"epoch": 0.24424361493123772,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.911,
	"step": 3885
	},
	{
	"epoch": 0.24518664047151276,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.9092,
	"step": 3900
	},
	{
	"epoch": 0.24612966601178782,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 0.894,
	"step": 3915
	},
	{
	"epoch": 0.24707269155206288,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.9096,
	"step": 3930
	},
	{
	"epoch": 0.2480157170923379,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.9147,
	"step": 3945
	},
	{
	"epoch": 0.24895874263261297,
	"grad_norm": 0.8359375,
	"learning_rate": 0.001,
	"loss": 0.9088,
	"step": 3960
	},
	{
	"epoch": 0.249901768172888,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.9116,
	"step": 3975
	},
	{
	"epoch": 0.25084479371316304,
	"grad_norm": 0.7421875,
	"learning_rate": 0.001,
	"loss": 0.901,
	"step": 3990
	},
	{
	"epoch": 0.2517878192534381,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.9013,
	"step": 4005
	},
	{
	"epoch": 0.25273084479371316,
	"grad_norm": 0.41015625,
	"learning_rate": 0.001,
	"loss": 0.903,
	"step": 4020
	},
	{
	"epoch": 0.2536738703339882,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.8916,
	"step": 4035
	},
	{
	"epoch": 0.2546168958742633,
	"grad_norm": 0.69140625,
	"learning_rate": 0.001,
	"loss": 0.897,
	"step": 4050
	},
	{
	"epoch": 0.2555599214145383,
	"grad_norm": 0.462890625,
	"learning_rate": 0.001,
	"loss": 0.9015,
	"step": 4065
	},
	{
	"epoch": 0.25650294695481335,
	"grad_norm": 0.453125,
	"learning_rate": 0.001,
	"loss": 0.897,
	"step": 4080
	},
	{
	"epoch": 0.2574459724950884,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.8936,
	"step": 4095
	},
	{
	"epoch": 0.25838899803536347,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 0.9048,
	"step": 4110
	},
	{
	"epoch": 0.2593320235756385,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.8973,
	"step": 4125
	},
	{
	"epoch": 0.26027504911591354,
	"grad_norm": 0.423828125,
	"learning_rate": 0.001,
	"loss": 0.9053,
	"step": 4140
	},
	{
	"epoch": 0.2612180746561886,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.9121,
	"step": 4155
	},
	{
	"epoch": 0.26216110019646366,
	"grad_norm": 0.3828125,
	"learning_rate": 0.001,
	"loss": 0.89,
	"step": 4170
	},
	{
	"epoch": 0.2631041257367387,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.9025,
	"step": 4185
	},
	{
	"epoch": 0.2640471512770137,
	"grad_norm": 0.400390625,
	"learning_rate": 0.001,
	"loss": 0.899,
	"step": 4200
	},
	{
	"epoch": 0.2649901768172888,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.8793,
	"step": 4215
	},
	{
	"epoch": 0.26593320235756385,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.8964,
	"step": 4230
	},
	{
	"epoch": 0.2668762278978389,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.896,
	"step": 4245
	},
	{
	"epoch": 0.26781925343811397,
	"grad_norm": 0.61328125,
	"learning_rate": 0.001,
	"loss": 0.886,
	"step": 4260
	},
	{
	"epoch": 0.268762278978389,
	"grad_norm": 0.6796875,
	"learning_rate": 0.001,
	"loss": 0.8861,
	"step": 4275
	},
	{
	"epoch": 0.26970530451866404,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.8864,
	"step": 4290
	},
	{
	"epoch": 0.2706483300589391,
	"grad_norm": 0.46484375,
	"learning_rate": 0.001,
	"loss": 0.8834,
	"step": 4305
	},
	{
	"epoch": 0.27159135559921416,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.8859,
	"step": 4320
	},
	{
	"epoch": 0.2725343811394892,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.8953,
	"step": 4335
	},
	{
	"epoch": 0.2734774066797642,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.8928,
	"step": 4350
	},
	{
	"epoch": 0.2744204322200393,
	"grad_norm": 0.734375,
	"learning_rate": 0.001,
	"loss": 0.8821,
	"step": 4365
	},
	{
	"epoch": 0.27536345776031435,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.8872,
	"step": 4380
	},
	{
	"epoch": 0.2763064833005894,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.8753,
	"step": 4395
	},
	{
	"epoch": 0.27724950884086447,
	"grad_norm": 0.80859375,
	"learning_rate": 0.001,
	"loss": 0.9047,
	"step": 4410
	},
	{
	"epoch": 0.2781925343811395,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.8876,
	"step": 4425
	},
	{
	"epoch": 0.27913555992141453,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.864,
	"step": 4440
	},
	{
	"epoch": 0.28007858546168957,
	"grad_norm": 0.443359375,
	"learning_rate": 0.001,
	"loss": 0.8863,
	"step": 4455
	},
	{
	"epoch": 0.28102161100196466,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.9028,
	"step": 4470
	},
	{
	"epoch": 0.2819646365422397,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.8684,
	"step": 4485
	},
	{
	"epoch": 0.2829076620825147,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.8808,
	"step": 4500
	},
	{
	"epoch": 0.2838506876227898,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.8736,
	"step": 4515
	},
	{
	"epoch": 0.28479371316306484,
	"grad_norm": 0.439453125,
	"learning_rate": 0.001,
	"loss": 0.8729,
	"step": 4530
	},
	{
	"epoch": 0.2857367387033399,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.8807,
	"step": 4545
	},
	{
	"epoch": 0.2866797642436149,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.8716,
	"step": 4560
	},
	{
	"epoch": 0.28762278978389,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.8754,
	"step": 4575
	},
	{
	"epoch": 0.28856581532416503,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.866,
	"step": 4590
	},
	{
	"epoch": 0.28950884086444006,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.8661,
	"step": 4605
	},
	{
	"epoch": 0.29045186640471515,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.8797,
	"step": 4620
	},
	{
	"epoch": 0.2913948919449902,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.8523,
	"step": 4635
	},
	{
	"epoch": 0.2923379174852652,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.8774,
	"step": 4650
	},
	{
	"epoch": 0.29328094302554025,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.8785,
	"step": 4665
	},
	{
	"epoch": 0.29422396856581534,
	"grad_norm": 0.408203125,
	"learning_rate": 0.001,
	"loss": 0.8648,
	"step": 4680
	},
	{
	"epoch": 0.2951669941060904,
	"grad_norm": 0.71484375,
	"learning_rate": 0.001,
	"loss": 0.8676,
	"step": 4695
	},
	{
	"epoch": 0.2961100196463654,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.8557,
	"step": 4710
	},
	{
	"epoch": 0.2970530451866405,
	"grad_norm": 0.455078125,
	"learning_rate": 0.001,
	"loss": 0.8694,
	"step": 4725
	},
	{
	"epoch": 0.29799607072691553,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.8459,
	"step": 4740
	},
	{
	"epoch": 0.29893909626719056,
	"grad_norm": 0.44921875,
	"learning_rate": 0.001,
	"loss": 0.8551,
	"step": 4755
	},
	{
	"epoch": 0.2998821218074656,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.8717,
	"step": 4770
	},
	{
	"epoch": 0.2998821218074656,
	"eval_loss": 1.035895824432373,
	"eval_runtime": 9.7687,
	"eval_samples_per_second": 102.368,
	"eval_steps_per_second": 1.433,
	"step": 4770
	},
	{
	"epoch": 0.3008251473477407,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.8668,
	"step": 4785
	},
	{
	"epoch": 0.3017681728880157,
	"grad_norm": 0.734375,
	"learning_rate": 0.001,
	"loss": 0.8674,
	"step": 4800
	},
	{
	"epoch": 0.30271119842829075,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.8886,
	"step": 4815
	},
	{
	"epoch": 0.30365422396856584,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.854,
	"step": 4830
	},
	{
	"epoch": 0.3045972495088409,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.8513,
	"step": 4845
	},
	{
	"epoch": 0.3055402750491159,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.8574,
	"step": 4860
	},
	{
	"epoch": 0.30648330058939094,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.8437,
	"step": 4875
	},
	{
	"epoch": 0.307426326129666,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.8604,
	"step": 4890
	},
	{
	"epoch": 0.30836935166994106,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.8544,
	"step": 4905
	},
	{
	"epoch": 0.3093123772102161,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.8607,
	"step": 4920
	},
	{
	"epoch": 0.3102554027504912,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.8454,
	"step": 4935
	},
	{
	"epoch": 0.3111984282907662,
	"grad_norm": 0.458984375,
	"learning_rate": 0.001,
	"loss": 0.8575,
	"step": 4950
	},
	{
	"epoch": 0.31214145383104125,
	"grad_norm": 0.73828125,
	"learning_rate": 0.001,
	"loss": 0.8401,
	"step": 4965
	},
	{
	"epoch": 0.3130844793713163,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 0.8592,
	"step": 4980
	},
	{
	"epoch": 0.31402750491159137,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.8376,
	"step": 4995
	},
	{
	"epoch": 0.3149705304518664,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.853,
	"step": 5010
	},
	{
	"epoch": 0.31591355599214144,
	"grad_norm": 0.6171875,
	"learning_rate": 0.001,
	"loss": 0.8659,
	"step": 5025
	},
	{
	"epoch": 0.3168565815324165,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.8733,
	"step": 5040
	},
	{
	"epoch": 0.31779960707269156,
	"grad_norm": 0.462890625,
	"learning_rate": 0.001,
	"loss": 0.8541,
	"step": 5055
	},
	{
	"epoch": 0.3187426326129666,
	"grad_norm": 0.66015625,
	"learning_rate": 0.001,
	"loss": 0.8474,
	"step": 5070
	},
	{
	"epoch": 0.3196856581532416,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.8421,
	"step": 5085
	},
	{
	"epoch": 0.3206286836935167,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.8501,
	"step": 5100
	},
	{
	"epoch": 0.32157170923379175,
	"grad_norm": 0.44140625,
	"learning_rate": 0.001,
	"loss": 0.8596,
	"step": 5115
	},
	{
	"epoch": 0.3225147347740668,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.8421,
	"step": 5130
	},
	{
	"epoch": 0.32345776031434187,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.8732,
	"step": 5145
	},
	{
	"epoch": 0.3244007858546169,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.8549,
	"step": 5160
	},
	{
	"epoch": 0.32534381139489194,
	"grad_norm": 0.63671875,
	"learning_rate": 0.001,
	"loss": 0.8468,
	"step": 5175
	},
	{
	"epoch": 0.32628683693516697,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.8419,
	"step": 5190
	},
	{
	"epoch": 0.32722986247544206,
	"grad_norm": 0.431640625,
	"learning_rate": 0.001,
	"loss": 0.8531,
	"step": 5205
	},
	{
	"epoch": 0.3281728880157171,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.848,
	"step": 5220
	},
	{
	"epoch": 0.3291159135559921,
	"grad_norm": 0.419921875,
	"learning_rate": 0.001,
	"loss": 0.8367,
	"step": 5235
	},
	{
	"epoch": 0.3300589390962672,
	"grad_norm": 0.435546875,
	"learning_rate": 0.001,
	"loss": 0.8405,
	"step": 5250
	},
	{
	"epoch": 0.33100196463654225,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.8567,
	"step": 5265
	},
	{
	"epoch": 0.3319449901768173,
	"grad_norm": 0.66796875,
	"learning_rate": 0.001,
	"loss": 0.8572,
	"step": 5280
	},
	{
	"epoch": 0.3328880157170923,
	"grad_norm": 0.78515625,
	"learning_rate": 0.001,
	"loss": 0.8505,
	"step": 5295
	},
	{
	"epoch": 0.3338310412573674,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.8398,
	"step": 5310
	},
	{
	"epoch": 0.33477406679764243,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.8475,
	"step": 5325
	},
	{
	"epoch": 0.33571709233791747,
	"grad_norm": 0.6796875,
	"learning_rate": 0.001,
	"loss": 0.8267,
	"step": 5340
	},
	{
	"epoch": 0.33666011787819256,
	"grad_norm": 0.6953125,
	"learning_rate": 0.001,
	"loss": 0.8442,
	"step": 5355
	},
	{
	"epoch": 0.3376031434184676,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.8605,
	"step": 5370
	},
	{
	"epoch": 0.3385461689587426,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 0.8458,
	"step": 5385
	},
	{
	"epoch": 0.33948919449901765,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.8474,
	"step": 5400
	},
	{
	"epoch": 0.34043222003929274,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.8507,
	"step": 5415
	},
	{
	"epoch": 0.3413752455795678,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.8449,
	"step": 5430
	},
	{
	"epoch": 0.3423182711198428,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.8456,
	"step": 5445
	},
	{
	"epoch": 0.3432612966601179,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.834,
	"step": 5460
	},
	{
	"epoch": 0.34420432220039293,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.8382,
	"step": 5475
	},
	{
	"epoch": 0.34514734774066796,
	"grad_norm": 0.447265625,
	"learning_rate": 0.001,
	"loss": 0.8162,
	"step": 5490
	},
	{
	"epoch": 0.346090373280943,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.8331,
	"step": 5505
	},
	{
	"epoch": 0.3470333988212181,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.8461,
	"step": 5520
	},
	{
	"epoch": 0.3479764243614931,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.8277,
	"step": 5535
	},
	{
	"epoch": 0.34891944990176815,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.8261,
	"step": 5550
	},
	{
	"epoch": 0.34986247544204324,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.8368,
	"step": 5565
	},
	{
	"epoch": 0.3508055009823183,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.829,
	"step": 5580
	},
	{
	"epoch": 0.3517485265225933,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.8356,
	"step": 5595
	},
	{
	"epoch": 0.3526915520628684,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.8404,
	"step": 5610
	},
	{
	"epoch": 0.35363457760314343,
	"grad_norm": 0.66796875,
	"learning_rate": 0.001,
	"loss": 0.8221,
	"step": 5625
	},
	{
	"epoch": 0.35457760314341846,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.8336,
	"step": 5640
	},
	{
	"epoch": 0.3555206286836935,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.8118,
	"step": 5655
	},
	{
	"epoch": 0.3564636542239686,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 0.8288,
	"step": 5670
	},
	{
	"epoch": 0.3574066797642436,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.8376,
	"step": 5685
	},
	{
	"epoch": 0.35834970530451865,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.8426,
	"step": 5700
	},
	{
	"epoch": 0.35929273084479374,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.8437,
	"step": 5715
	},
	{
	"epoch": 0.3602357563850688,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.8469,
	"step": 5730
	},
	{
	"epoch": 0.3611787819253438,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.8274,
	"step": 5745
	},
	{
	"epoch": 0.36212180746561884,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.8306,
	"step": 5760
	},
	{
	"epoch": 0.3630648330058939,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.8315,
	"step": 5775
	},
	{
	"epoch": 0.36400785854616896,
	"grad_norm": 0.6640625,
	"learning_rate": 0.001,
	"loss": 0.8379,
	"step": 5790
	},
	{
	"epoch": 0.364950884086444,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.8342,
	"step": 5805
	},
	{
	"epoch": 0.3658939096267191,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 0.8374,
	"step": 5820
	},
	{
	"epoch": 0.3668369351669941,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.8103,
	"step": 5835
	},
	{
	"epoch": 0.36777996070726915,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.8053,
	"step": 5850
	},
	{
	"epoch": 0.3687229862475442,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.8248,
	"step": 5865
	},
	{
	"epoch": 0.36966601178781927,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.8118,
	"step": 5880
	},
	{
	"epoch": 0.3706090373280943,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.8289,
	"step": 5895
	},
	{
	"epoch": 0.37155206286836934,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.8295,
	"step": 5910
	},
	{
	"epoch": 0.3724950884086444,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.8158,
	"step": 5925
	},
	{
	"epoch": 0.37343811394891946,
	"grad_norm": 0.478515625,
	"learning_rate": 0.001,
	"loss": 0.8235,
	"step": 5940
	},
	{
	"epoch": 0.3743811394891945,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.8148,
	"step": 5955
	},
	{
	"epoch": 0.3753241650294695,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.8161,
	"step": 5970
	},
	{
	"epoch": 0.3762671905697446,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.812,
	"step": 5985
	},
	{
	"epoch": 0.37721021611001965,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.8154,
	"step": 6000
	},
	{
	"epoch": 0.3781532416502947,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.8248,
	"step": 6015
	},
	{
	"epoch": 0.37909626719056977,
	"grad_norm": 0.7265625,
	"learning_rate": 0.001,
	"loss": 0.8104,
	"step": 6030
	},
	{
	"epoch": 0.3800392927308448,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.8228,
	"step": 6045
	},
	{
	"epoch": 0.38098231827111984,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.8392,
	"step": 6060
	},
	{
	"epoch": 0.38192534381139487,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.8352,
	"step": 6075
	},
	{
	"epoch": 0.38286836935166996,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.8271,
	"step": 6090
	},
	{
	"epoch": 0.383811394891945,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.8122,
	"step": 6105
	},
	{
	"epoch": 0.38475442043222,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.8221,
	"step": 6120
	},
	{
	"epoch": 0.3856974459724951,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.8354,
	"step": 6135
	},
	{
	"epoch": 0.38664047151277015,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.8277,
	"step": 6150
	},
	{
	"epoch": 0.3875834970530452,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.8263,
	"step": 6165
	},
	{
	"epoch": 0.3885265225933202,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.8122,
	"step": 6180
	},
	{
	"epoch": 0.3894695481335953,
	"grad_norm": 0.70703125,
	"learning_rate": 0.001,
	"loss": 0.8296,
	"step": 6195
	},
	{
	"epoch": 0.39041257367387033,
	"grad_norm": 0.65234375,
	"learning_rate": 0.001,
	"loss": 0.8171,
	"step": 6210
	},
	{
	"epoch": 0.39135559921414537,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.8127,
	"step": 6225
	},
	{
	"epoch": 0.39229862475442046,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.806,
	"step": 6240
	},
	{
	"epoch": 0.3932416502946955,
	"grad_norm": 0.462890625,
	"learning_rate": 0.001,
	"loss": 0.8157,
	"step": 6255
	},
	{
	"epoch": 0.3941846758349705,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.826,
	"step": 6270
	},
	{
	"epoch": 0.39512770137524555,
	"grad_norm": 0.41796875,
	"learning_rate": 0.001,
	"loss": 0.8208,
	"step": 6285
	},
	{
	"epoch": 0.39607072691552064,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.8041,
	"step": 6300
	},
	{
	"epoch": 0.3970137524557957,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.8254,
	"step": 6315
	},
	{
	"epoch": 0.3979567779960707,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.8332,
	"step": 6330
	},
	{
	"epoch": 0.3988998035363458,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 0.8143,
	"step": 6345
	},
	{
	"epoch": 0.39984282907662083,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.8087,
	"step": 6360
	},
	{
	"epoch": 0.39984282907662083,
	"eval_loss": 0.9629083871841431,
	"eval_runtime": 9.6716,
	"eval_samples_per_second": 103.395,
	"eval_steps_per_second": 1.448,
	"step": 6360
	},
	{
	"epoch": 0.40078585461689586,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.8169,
	"step": 6375
	},
	{
	"epoch": 0.4017288801571709,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.8229,
	"step": 6390
	},
	{
	"epoch": 0.402671905697446,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.8108,
	"step": 6405
	},
	{
	"epoch": 0.403614931237721,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.814,
	"step": 6420
	},
	{
	"epoch": 0.40455795677799605,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.8077,
	"step": 6435
	},
	{
	"epoch": 0.40550098231827114,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.8103,
	"step": 6450
	},
	{
	"epoch": 0.4064440078585462,
	"grad_norm": 0.46484375,
	"learning_rate": 0.001,
	"loss": 0.7904,
	"step": 6465
	},
	{
	"epoch": 0.4073870333988212,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.8006,
	"step": 6480
	},
	{
	"epoch": 0.40833005893909624,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.8112,
	"step": 6495
	},
	{
	"epoch": 0.40927308447937133,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 0.7984,
	"step": 6510
	},
	{
	"epoch": 0.41021611001964636,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7883,
	"step": 6525
	},
	{
	"epoch": 0.4111591355599214,
	"grad_norm": 1.0625,
	"learning_rate": 0.001,
	"loss": 0.8196,
	"step": 6540
	},
	{
	"epoch": 0.4121021611001965,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.8274,
	"step": 6555
	},
	{
	"epoch": 0.4130451866404715,
	"grad_norm": 0.419921875,
	"learning_rate": 0.001,
	"loss": 0.7942,
	"step": 6570
	},
	{
	"epoch": 0.41398821218074655,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7965,
	"step": 6585
	},
	{
	"epoch": 0.4149312377210216,
	"grad_norm": 0.435546875,
	"learning_rate": 0.001,
	"loss": 0.7944,
	"step": 6600
	},
	{
	"epoch": 0.4158742632612967,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.8055,
	"step": 6615
	},
	{
	"epoch": 0.4168172888015717,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.8083,
	"step": 6630
	},
	{
	"epoch": 0.41776031434184674,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.8151,
	"step": 6645
	},
	{
	"epoch": 0.4187033398821218,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.8093,
	"step": 6660
	},
	{
	"epoch": 0.41964636542239686,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 0.807,
	"step": 6675
	},
	{
	"epoch": 0.4205893909626719,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7884,
	"step": 6690
	},
	{
	"epoch": 0.4215324165029469,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7958,
	"step": 6705
	},
	{
	"epoch": 0.422475442043222,
	"grad_norm": 0.73046875,
	"learning_rate": 0.001,
	"loss": 0.8029,
	"step": 6720
	},
	{
	"epoch": 0.42341846758349705,
	"grad_norm": 0.455078125,
	"learning_rate": 0.001,
	"loss": 0.804,
	"step": 6735
	},
	{
	"epoch": 0.4243614931237721,
	"grad_norm": 0.6953125,
	"learning_rate": 0.001,
	"loss": 0.8235,
	"step": 6750
	},
	{
	"epoch": 0.42530451866404717,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.8105,
	"step": 6765
	},
	{
	"epoch": 0.4262475442043222,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.8028,
	"step": 6780
	},
	{
	"epoch": 0.42719056974459724,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.8017,
	"step": 6795
	},
	{
	"epoch": 0.4281335952848723,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7998,
	"step": 6810
	},
	{
	"epoch": 0.42907662082514736,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.8083,
	"step": 6825
	},
	{
	"epoch": 0.4300196463654224,
	"grad_norm": 0.46484375,
	"learning_rate": 0.001,
	"loss": 0.7701,
	"step": 6840
	},
	{
	"epoch": 0.4309626719056974,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7922,
	"step": 6855
	},
	{
	"epoch": 0.4319056974459725,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7971,
	"step": 6870
	},
	{
	"epoch": 0.43284872298624755,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.795,
	"step": 6885
	},
	{
	"epoch": 0.4337917485265226,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.8004,
	"step": 6900
	},
	{
	"epoch": 0.43473477406679767,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7965,
	"step": 6915
	},
	{
	"epoch": 0.4356777996070727,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7937,
	"step": 6930
	},
	{
	"epoch": 0.43662082514734774,
	"grad_norm": 0.6171875,
	"learning_rate": 0.001,
	"loss": 0.8007,
	"step": 6945
	},
	{
	"epoch": 0.43756385068762277,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7935,
	"step": 6960
	},
	{
	"epoch": 0.43850687622789786,
	"grad_norm": 0.404296875,
	"learning_rate": 0.001,
	"loss": 0.8045,
	"step": 6975
	},
	{
	"epoch": 0.4394499017681729,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.8055,
	"step": 6990
	},
	{
	"epoch": 0.4403929273084479,
	"grad_norm": 0.447265625,
	"learning_rate": 0.001,
	"loss": 0.8005,
	"step": 7005
	},
	{
	"epoch": 0.441335952848723,
	"grad_norm": 0.72265625,
	"learning_rate": 0.001,
	"loss": 0.7881,
	"step": 7020
	},
	{
	"epoch": 0.44227897838899805,
	"grad_norm": 0.73046875,
	"learning_rate": 0.001,
	"loss": 0.8212,
	"step": 7035
	},
	{
	"epoch": 0.4432220039292731,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7984,
	"step": 7050
	},
	{
	"epoch": 0.4441650294695481,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.8078,
	"step": 7065
	},
	{
	"epoch": 0.4451080550098232,
	"grad_norm": 0.42578125,
	"learning_rate": 0.001,
	"loss": 0.7773,
	"step": 7080
	},
	{
	"epoch": 0.44605108055009823,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.7884,
	"step": 7095
	},
	{
	"epoch": 0.44699410609037327,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7842,
	"step": 7110
	},
	{
	"epoch": 0.44793713163064836,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7854,
	"step": 7125
	},
	{
	"epoch": 0.4488801571709234,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7913,
	"step": 7140
	},
	{
	"epoch": 0.4498231827111984,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7944,
	"step": 7155
	},
	{
	"epoch": 0.45076620825147345,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7935,
	"step": 7170
	},
	{
	"epoch": 0.45170923379174854,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 0.7915,
	"step": 7185
	},
	{
	"epoch": 0.4526522593320236,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.7893,
	"step": 7200
	},
	{
	"epoch": 0.4535952848722986,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.7749,
	"step": 7215
	},
	{
	"epoch": 0.4545383104125737,
	"grad_norm": 0.478515625,
	"learning_rate": 0.001,
	"loss": 0.7738,
	"step": 7230
	},
	{
	"epoch": 0.45548133595284873,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7832,
	"step": 7245
	},
	{
	"epoch": 0.45642436149312376,
	"grad_norm": 0.734375,
	"learning_rate": 0.001,
	"loss": 0.7935,
	"step": 7260
	},
	{
	"epoch": 0.4573673870333988,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7969,
	"step": 7275
	},
	{
	"epoch": 0.4583104125736739,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7891,
	"step": 7290
	},
	{
	"epoch": 0.4592534381139489,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7854,
	"step": 7305
	},
	{
	"epoch": 0.46019646365422395,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.8013,
	"step": 7320
	},
	{
	"epoch": 0.46113948919449904,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7864,
	"step": 7335
	},
	{
	"epoch": 0.4620825147347741,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.7932,
	"step": 7350
	},
	{
	"epoch": 0.4630255402750491,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7866,
	"step": 7365
	},
	{
	"epoch": 0.46396856581532414,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.8011,
	"step": 7380
	},
	{
	"epoch": 0.46491159135559923,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7743,
	"step": 7395
	},
	{
	"epoch": 0.46585461689587426,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.7784,
	"step": 7410
	},
	{
	"epoch": 0.4667976424361493,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7953,
	"step": 7425
	},
	{
	"epoch": 0.4677406679764244,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7807,
	"step": 7440
	},
	{
	"epoch": 0.4686836935166994,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7713,
	"step": 7455
	},
	{
	"epoch": 0.46962671905697445,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7636,
	"step": 7470
	},
	{
	"epoch": 0.4705697445972495,
	"grad_norm": 0.443359375,
	"learning_rate": 0.001,
	"loss": 0.7773,
	"step": 7485
	},
	{
	"epoch": 0.4715127701375246,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.8002,
	"step": 7500
	},
	{
	"epoch": 0.4724557956777996,
	"grad_norm": 0.42578125,
	"learning_rate": 0.001,
	"loss": 0.7799,
	"step": 7515
	},
	{
	"epoch": 0.47339882121807464,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7776,
	"step": 7530
	},
	{
	"epoch": 0.47434184675834973,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7823,
	"step": 7545
	},
	{
	"epoch": 0.47528487229862476,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.8059,
	"step": 7560
	},
	{
	"epoch": 0.4762278978388998,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7908,
	"step": 7575
	},
	{
	"epoch": 0.4771709233791748,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7923,
	"step": 7590
	},
	{
	"epoch": 0.4781139489194499,
	"grad_norm": 0.49609375,
	"learning_rate": 0.001,
	"loss": 0.778,
	"step": 7605
	},
	{
	"epoch": 0.47905697445972495,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.8007,
	"step": 7620
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.7842,
	"step": 7635
	},
	{
	"epoch": 0.48094302554027507,
	"grad_norm": 0.46484375,
	"learning_rate": 0.001,
	"loss": 0.7968,
	"step": 7650
	},
	{
	"epoch": 0.4818860510805501,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7812,
	"step": 7665
	},
	{
	"epoch": 0.48282907662082514,
	"grad_norm": 1.5078125,
	"learning_rate": 0.001,
	"loss": 0.7832,
	"step": 7680
	},
	{
	"epoch": 0.48377210216110017,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7915,
	"step": 7695
	},
	{
	"epoch": 0.48471512770137526,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.8046,
	"step": 7710
	},
	{
	"epoch": 0.4856581532416503,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.7674,
	"step": 7725
	},
	{
	"epoch": 0.4866011787819253,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.7795,
	"step": 7740
	},
	{
	"epoch": 0.4875442043222004,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7983,
	"step": 7755
	},
	{
	"epoch": 0.48848722986247545,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7897,
	"step": 7770
	},
	{
	"epoch": 0.4894302554027505,
	"grad_norm": 0.73828125,
	"learning_rate": 0.001,
	"loss": 0.772,
	"step": 7785
	},
	{
	"epoch": 0.4903732809430255,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7795,
	"step": 7800
	},
	{
	"epoch": 0.4913163064833006,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7739,
	"step": 7815
	},
	{
	"epoch": 0.49225933202357564,
	"grad_norm": 0.66015625,
	"learning_rate": 0.001,
	"loss": 0.7891,
	"step": 7830
	},
	{
	"epoch": 0.49320235756385067,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7802,
	"step": 7845
	},
	{
	"epoch": 0.49414538310412576,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7843,
	"step": 7860
	},
	{
	"epoch": 0.4950884086444008,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7756,
	"step": 7875
	},
	{
	"epoch": 0.4960314341846758,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.77,
	"step": 7890
	},
	{
	"epoch": 0.49697445972495086,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7633,
	"step": 7905
	},
	{
	"epoch": 0.49791748526522595,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7842,
	"step": 7920
	},
	{
	"epoch": 0.498860510805501,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7742,
	"step": 7935
	},
	{
	"epoch": 0.499803536345776,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7608,
	"step": 7950
	},
	{
	"epoch": 0.499803536345776,
	"eval_loss": 0.9156466126441956,
	"eval_runtime": 9.6921,
	"eval_samples_per_second": 103.176,
	"eval_steps_per_second": 1.444,
	"step": 7950
	},
	{
	"epoch": 0.500746561886051,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7861,
	"step": 7965
	},
	{
	"epoch": 0.5016895874263261,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7726,
	"step": 7980
	},
	{
	"epoch": 0.5026326129666012,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7749,
	"step": 7995
	},
	{
	"epoch": 0.5035756385068763,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7686,
	"step": 8010
	},
	{
	"epoch": 0.5045186640471513,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7797,
	"step": 8025
	},
	{
	"epoch": 0.5054616895874263,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7622,
	"step": 8040
	},
	{
	"epoch": 0.5064047151277014,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.7753,
	"step": 8055
	},
	{
	"epoch": 0.5073477406679764,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.7744,
	"step": 8070
	},
	{
	"epoch": 0.5082907662082514,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7659,
	"step": 8085
	},
	{
	"epoch": 0.5092337917485266,
	"grad_norm": 0.69140625,
	"learning_rate": 0.001,
	"loss": 0.7883,
	"step": 8100
	},
	{
	"epoch": 0.5101768172888016,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7809,
	"step": 8115
	},
	{
	"epoch": 0.5111198428290766,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.7701,
	"step": 8130
	},
	{
	"epoch": 0.5120628683693517,
	"grad_norm": 0.6953125,
	"learning_rate": 0.001,
	"loss": 0.7659,
	"step": 8145
	},
	{
	"epoch": 0.5130058939096267,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7772,
	"step": 8160
	},
	{
	"epoch": 0.5139489194499017,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.7769,
	"step": 8175
	},
	{
	"epoch": 0.5148919449901768,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7706,
	"step": 8190
	},
	{
	"epoch": 0.5158349705304519,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.7645,
	"step": 8205
	},
	{
	"epoch": 0.5167779960707269,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.7724,
	"step": 8220
	},
	{
	"epoch": 0.517721021611002,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7651,
	"step": 8235
	},
	{
	"epoch": 0.518664047151277,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7703,
	"step": 8250
	},
	{
	"epoch": 0.519607072691552,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7709,
	"step": 8265
	},
	{
	"epoch": 0.5205500982318271,
	"grad_norm": 0.6796875,
	"learning_rate": 0.001,
	"loss": 0.7759,
	"step": 8280
	},
	{
	"epoch": 0.5214931237721021,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7687,
	"step": 8295
	},
	{
	"epoch": 0.5224361493123773,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7735,
	"step": 8310
	},
	{
	"epoch": 0.5233791748526523,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7653,
	"step": 8325
	},
	{
	"epoch": 0.5243222003929273,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.766,
	"step": 8340
	},
	{
	"epoch": 0.5252652259332024,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.768,
	"step": 8355
	},
	{
	"epoch": 0.5262082514734774,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7651,
	"step": 8370
	},
	{
	"epoch": 0.5271512770137524,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.77,
	"step": 8385
	},
	{
	"epoch": 0.5280943025540275,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7671,
	"step": 8400
	},
	{
	"epoch": 0.5290373280943026,
	"grad_norm": 0.63671875,
	"learning_rate": 0.001,
	"loss": 0.7568,
	"step": 8415
	},
	{
	"epoch": 0.5299803536345776,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7719,
	"step": 8430
	},
	{
	"epoch": 0.5309233791748527,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7765,
	"step": 8445
	},
	{
	"epoch": 0.5318664047151277,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7713,
	"step": 8460
	},
	{
	"epoch": 0.5328094302554027,
	"grad_norm": 0.734375,
	"learning_rate": 0.001,
	"loss": 0.7779,
	"step": 8475
	},
	{
	"epoch": 0.5337524557956778,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7675,
	"step": 8490
	},
	{
	"epoch": 0.5346954813359528,
	"grad_norm": 0.431640625,
	"learning_rate": 0.001,
	"loss": 0.7652,
	"step": 8505
	},
	{
	"epoch": 0.5356385068762279,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7692,
	"step": 8520
	},
	{
	"epoch": 0.536581532416503,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7781,
	"step": 8535
	},
	{
	"epoch": 0.537524557956778,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.765,
	"step": 8550
	},
	{
	"epoch": 0.538467583497053,
	"grad_norm": 0.84765625,
	"learning_rate": 0.001,
	"loss": 0.7549,
	"step": 8565
	},
	{
	"epoch": 0.5394106090373281,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.7709,
	"step": 8580
	},
	{
	"epoch": 0.5403536345776031,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7739,
	"step": 8595
	},
	{
	"epoch": 0.5412966601178782,
	"grad_norm": 0.76171875,
	"learning_rate": 0.001,
	"loss": 0.769,
	"step": 8610
	},
	{
	"epoch": 0.5422396856581533,
	"grad_norm": 0.6171875,
	"learning_rate": 0.001,
	"loss": 0.7737,
	"step": 8625
	},
	{
	"epoch": 0.5431827111984283,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7638,
	"step": 8640
	},
	{
	"epoch": 0.5441257367387033,
	"grad_norm": 0.462890625,
	"learning_rate": 0.001,
	"loss": 0.7392,
	"step": 8655
	},
	{
	"epoch": 0.5450687622789784,
	"grad_norm": 0.71484375,
	"learning_rate": 0.001,
	"loss": 0.7566,
	"step": 8670
	},
	{
	"epoch": 0.5460117878192534,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7592,
	"step": 8685
	},
	{
	"epoch": 0.5469548133595284,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 0.7485,
	"step": 8700
	},
	{
	"epoch": 0.5478978388998036,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7678,
	"step": 8715
	},
	{
	"epoch": 0.5488408644400786,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7634,
	"step": 8730
	},
	{
	"epoch": 0.5497838899803537,
	"grad_norm": 0.4375,
	"learning_rate": 0.001,
	"loss": 0.7471,
	"step": 8745
	},
	{
	"epoch": 0.5507269155206287,
	"grad_norm": 1.0234375,
	"learning_rate": 0.001,
	"loss": 0.7561,
	"step": 8760
	},
	{
	"epoch": 0.5516699410609037,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7622,
	"step": 8775
	},
	{
	"epoch": 0.5526129666011788,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 0.7701,
	"step": 8790
	},
	{
	"epoch": 0.5535559921414538,
	"grad_norm": 0.7109375,
	"learning_rate": 0.001,
	"loss": 0.7728,
	"step": 8805
	},
	{
	"epoch": 0.5544990176817289,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7813,
	"step": 8820
	},
	{
	"epoch": 0.555442043222004,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7614,
	"step": 8835
	},
	{
	"epoch": 0.556385068762279,
	"grad_norm": 0.7890625,
	"learning_rate": 0.001,
	"loss": 0.7766,
	"step": 8850
	},
	{
	"epoch": 0.557328094302554,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7735,
	"step": 8865
	},
	{
	"epoch": 0.5582711198428291,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7641,
	"step": 8880
	},
	{
	"epoch": 0.5592141453831041,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7798,
	"step": 8895
	},
	{
	"epoch": 0.5601571709233791,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7471,
	"step": 8910
	},
	{
	"epoch": 0.5611001964636543,
	"grad_norm": 0.61328125,
	"learning_rate": 0.001,
	"loss": 0.7625,
	"step": 8925
	},
	{
	"epoch": 0.5620432220039293,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7631,
	"step": 8940
	},
	{
	"epoch": 0.5629862475442043,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7679,
	"step": 8955
	},
	{
	"epoch": 0.5639292730844794,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7647,
	"step": 8970
	},
	{
	"epoch": 0.5648722986247544,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.7674,
	"step": 8985
	},
	{
	"epoch": 0.5658153241650294,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7735,
	"step": 9000
	},
	{
	"epoch": 0.5667583497053045,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7826,
	"step": 9015
	},
	{
	"epoch": 0.5677013752455796,
	"grad_norm": 0.458984375,
	"learning_rate": 0.001,
	"loss": 0.764,
	"step": 9030
	},
	{
	"epoch": 0.5686444007858547,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7535,
	"step": 9045
	},
	{
	"epoch": 0.5695874263261297,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7588,
	"step": 9060
	},
	{
	"epoch": 0.5705304518664047,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7622,
	"step": 9075
	},
	{
	"epoch": 0.5714734774066798,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7514,
	"step": 9090
	},
	{
	"epoch": 0.5724165029469548,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7593,
	"step": 9105
	},
	{
	"epoch": 0.5733595284872298,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.7677,
	"step": 9120
	},
	{
	"epoch": 0.574302554027505,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7539,
	"step": 9135
	},
	{
	"epoch": 0.57524557956778,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.7475,
	"step": 9150
	},
	{
	"epoch": 0.576188605108055,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 0.741,
	"step": 9165
	},
	{
	"epoch": 0.5771316306483301,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7533,
	"step": 9180
	},
	{
	"epoch": 0.5780746561886051,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.765,
	"step": 9195
	},
	{
	"epoch": 0.5790176817288801,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7741,
	"step": 9210
	},
	{
	"epoch": 0.5799607072691552,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7598,
	"step": 9225
	},
	{
	"epoch": 0.5809037328094303,
	"grad_norm": 0.453125,
	"learning_rate": 0.001,
	"loss": 0.7539,
	"step": 9240
	},
	{
	"epoch": 0.5818467583497053,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7455,
	"step": 9255
	},
	{
	"epoch": 0.5827897838899804,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.7506,
	"step": 9270
	},
	{
	"epoch": 0.5837328094302554,
	"grad_norm": 0.74609375,
	"learning_rate": 0.001,
	"loss": 0.7555,
	"step": 9285
	},
	{
	"epoch": 0.5846758349705304,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.7635,
	"step": 9300
	},
	{
	"epoch": 0.5856188605108055,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7351,
	"step": 9315
	},
	{
	"epoch": 0.5865618860510805,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7341,
	"step": 9330
	},
	{
	"epoch": 0.5875049115913556,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7525,
	"step": 9345
	},
	{
	"epoch": 0.5884479371316307,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7575,
	"step": 9360
	},
	{
	"epoch": 0.5893909626719057,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7608,
	"step": 9375
	},
	{
	"epoch": 0.5903339882121807,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7602,
	"step": 9390
	},
	{
	"epoch": 0.5912770137524558,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.7615,
	"step": 9405
	},
	{
	"epoch": 0.5922200392927308,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 0.762,
	"step": 9420
	},
	{
	"epoch": 0.5931630648330058,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7635,
	"step": 9435
	},
	{
	"epoch": 0.594106090373281,
	"grad_norm": 0.455078125,
	"learning_rate": 0.001,
	"loss": 0.7556,
	"step": 9450
	},
	{
	"epoch": 0.595049115913556,
	"grad_norm": 0.443359375,
	"learning_rate": 0.001,
	"loss": 0.7497,
	"step": 9465
	},
	{
	"epoch": 0.5959921414538311,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7419,
	"step": 9480
	},
	{
	"epoch": 0.5969351669941061,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7562,
	"step": 9495
	},
	{
	"epoch": 0.5978781925343811,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7468,
	"step": 9510
	},
	{
	"epoch": 0.5988212180746562,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.7499,
	"step": 9525
	},
	{
	"epoch": 0.5997642436149312,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7683,
	"step": 9540
	},
	{
	"epoch": 0.5997642436149312,
	"eval_loss": 0.8865543603897095,
	"eval_runtime": 9.6786,
	"eval_samples_per_second": 103.32,
	"eval_steps_per_second": 1.446,
	"step": 9540
	},
	{
	"epoch": 0.6007072691552063,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7574,
	"step": 9555
	},
	{
	"epoch": 0.6016502946954814,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7518,
	"step": 9570
	},
	{
	"epoch": 0.6025933202357564,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7391,
	"step": 9585
	},
	{
	"epoch": 0.6035363457760314,
	"grad_norm": 0.38671875,
	"learning_rate": 0.001,
	"loss": 0.7425,
	"step": 9600
	},
	{
	"epoch": 0.6044793713163065,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7606,
	"step": 9615
	},
	{
	"epoch": 0.6054223968565815,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.7292,
	"step": 9630
	},
	{
	"epoch": 0.6063654223968565,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7356,
	"step": 9645
	},
	{
	"epoch": 0.6073084479371317,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7513,
	"step": 9660
	},
	{
	"epoch": 0.6082514734774067,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7522,
	"step": 9675
	},
	{
	"epoch": 0.6091944990176817,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7563,
	"step": 9690
	},
	{
	"epoch": 0.6101375245579568,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7473,
	"step": 9705
	},
	{
	"epoch": 0.6110805500982318,
	"grad_norm": 0.66796875,
	"learning_rate": 0.001,
	"loss": 0.76,
	"step": 9720
	},
	{
	"epoch": 0.6120235756385068,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7473,
	"step": 9735
	},
	{
	"epoch": 0.6129666011787819,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7416,
	"step": 9750
	},
	{
	"epoch": 0.613909626719057,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7449,
	"step": 9765
	},
	{
	"epoch": 0.614852652259332,
	"grad_norm": 0.6171875,
	"learning_rate": 0.001,
	"loss": 0.7509,
	"step": 9780
	},
	{
	"epoch": 0.6157956777996071,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 0.7468,
	"step": 9795
	},
	{
	"epoch": 0.6167387033398821,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7632,
	"step": 9810
	},
	{
	"epoch": 0.6176817288801572,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7586,
	"step": 9825
	},
	{
	"epoch": 0.6186247544204322,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7495,
	"step": 9840
	},
	{
	"epoch": 0.6195677799607072,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.7548,
	"step": 9855
	},
	{
	"epoch": 0.6205108055009824,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7484,
	"step": 9870
	},
	{
	"epoch": 0.6214538310412574,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7683,
	"step": 9885
	},
	{
	"epoch": 0.6223968565815324,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.7332,
	"step": 9900
	},
	{
	"epoch": 0.6233398821218075,
	"grad_norm": 0.61328125,
	"learning_rate": 0.001,
	"loss": 0.743,
	"step": 9915
	},
	{
	"epoch": 0.6242829076620825,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7527,
	"step": 9930
	},
	{
	"epoch": 0.6252259332023575,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7407,
	"step": 9945
	},
	{
	"epoch": 0.6261689587426326,
	"grad_norm": 0.462890625,
	"learning_rate": 0.001,
	"loss": 0.756,
	"step": 9960
	},
	{
	"epoch": 0.6271119842829077,
	"grad_norm": 0.455078125,
	"learning_rate": 0.001,
	"loss": 0.7505,
	"step": 9975
	},
	{
	"epoch": 0.6280550098231827,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7517,
	"step": 9990
	},
	{
	"epoch": 0.6289980353634578,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.766,
	"step": 10005
	},
	{
	"epoch": 0.6299410609037328,
	"grad_norm": 0.66015625,
	"learning_rate": 0.001,
	"loss": 0.7385,
	"step": 10020
	},
	{
	"epoch": 0.6308840864440078,
	"grad_norm": 0.7265625,
	"learning_rate": 0.001,
	"loss": 0.7565,
	"step": 10035
	},
	{
	"epoch": 0.6318271119842829,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7508,
	"step": 10050
	},
	{
	"epoch": 0.6327701375245579,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7519,
	"step": 10065
	},
	{
	"epoch": 0.633713163064833,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.76,
	"step": 10080
	},
	{
	"epoch": 0.6346561886051081,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7326,
	"step": 10095
	},
	{
	"epoch": 0.6355992141453831,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7506,
	"step": 10110
	},
	{
	"epoch": 0.6365422396856582,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7419,
	"step": 10125
	},
	{
	"epoch": 0.6374852652259332,
	"grad_norm": 0.49609375,
	"learning_rate": 0.001,
	"loss": 0.7309,
	"step": 10140
	},
	{
	"epoch": 0.6384282907662082,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7367,
	"step": 10155
	},
	{
	"epoch": 0.6393713163064833,
	"grad_norm": 0.66796875,
	"learning_rate": 0.001,
	"loss": 0.7472,
	"step": 10170
	},
	{
	"epoch": 0.6403143418467584,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7431,
	"step": 10185
	},
	{
	"epoch": 0.6412573673870334,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.7496,
	"step": 10200
	},
	{
	"epoch": 0.6422003929273085,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.741,
	"step": 10215
	},
	{
	"epoch": 0.6431434184675835,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7548,
	"step": 10230
	},
	{
	"epoch": 0.6440864440078585,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7615,
	"step": 10245
	},
	{
	"epoch": 0.6450294695481336,
	"grad_norm": 0.494140625,
	"learning_rate": 0.001,
	"loss": 0.764,
	"step": 10260
	},
	{
	"epoch": 0.6459724950884086,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7467,
	"step": 10275
	},
	{
	"epoch": 0.6469155206286837,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.752,
	"step": 10290
	},
	{
	"epoch": 0.6478585461689588,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.7238,
	"step": 10305
	},
	{
	"epoch": 0.6488015717092338,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.7464,
	"step": 10320
	},
	{
	"epoch": 0.6497445972495088,
	"grad_norm": 0.455078125,
	"learning_rate": 0.001,
	"loss": 0.7376,
	"step": 10335
	},
	{
	"epoch": 0.6506876227897839,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.7378,
	"step": 10350
	},
	{
	"epoch": 0.6516306483300589,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 0.7536,
	"step": 10365
	},
	{
	"epoch": 0.6525736738703339,
	"grad_norm": 0.4921875,
	"learning_rate": 0.001,
	"loss": 0.732,
	"step": 10380
	},
	{
	"epoch": 0.6535166994106091,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7554,
	"step": 10395
	},
	{
	"epoch": 0.6544597249508841,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.7348,
	"step": 10410
	},
	{
	"epoch": 0.6554027504911591,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7446,
	"step": 10425
	},
	{
	"epoch": 0.6563457760314342,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7386,
	"step": 10440
	},
	{
	"epoch": 0.6572888015717092,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7456,
	"step": 10455
	},
	{
	"epoch": 0.6582318271119842,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7447,
	"step": 10470
	},
	{
	"epoch": 0.6591748526522593,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7466,
	"step": 10485
	},
	{
	"epoch": 0.6601178781925344,
	"grad_norm": 0.75390625,
	"learning_rate": 0.001,
	"loss": 0.7638,
	"step": 10500
	},
	{
	"epoch": 0.6610609037328095,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7454,
	"step": 10515
	},
	{
	"epoch": 0.6620039292730845,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.738,
	"step": 10530
	},
	{
	"epoch": 0.6629469548133595,
	"grad_norm": 0.66796875,
	"learning_rate": 0.001,
	"loss": 0.7443,
	"step": 10545
	},
	{
	"epoch": 0.6638899803536346,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7433,
	"step": 10560
	},
	{
	"epoch": 0.6648330058939096,
	"grad_norm": 0.458984375,
	"learning_rate": 0.001,
	"loss": 0.7328,
	"step": 10575
	},
	{
	"epoch": 0.6657760314341846,
	"grad_norm": 0.66015625,
	"learning_rate": 0.001,
	"loss": 0.7419,
	"step": 10590
	},
	{
	"epoch": 0.6667190569744598,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7387,
	"step": 10605
	},
	{
	"epoch": 0.6676620825147348,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.7325,
	"step": 10620
	},
	{
	"epoch": 0.6686051080550098,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.737,
	"step": 10635
	},
	{
	"epoch": 0.6695481335952849,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7447,
	"step": 10650
	},
	{
	"epoch": 0.6704911591355599,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7332,
	"step": 10665
	},
	{
	"epoch": 0.6714341846758349,
	"grad_norm": 0.80078125,
	"learning_rate": 0.001,
	"loss": 0.7459,
	"step": 10680
	},
	{
	"epoch": 0.67237721021611,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7389,
	"step": 10695
	},
	{
	"epoch": 0.6733202357563851,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7362,
	"step": 10710
	},
	{
	"epoch": 0.6742632612966601,
	"grad_norm": 0.67578125,
	"learning_rate": 0.001,
	"loss": 0.7297,
	"step": 10725
	},
	{
	"epoch": 0.6752062868369352,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.7506,
	"step": 10740
	},
	{
	"epoch": 0.6761493123772102,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7279,
	"step": 10755
	},
	{
	"epoch": 0.6770923379174852,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.7329,
	"step": 10770
	},
	{
	"epoch": 0.6780353634577603,
	"grad_norm": 0.6953125,
	"learning_rate": 0.001,
	"loss": 0.736,
	"step": 10785
	},
	{
	"epoch": 0.6789783889980353,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7168,
	"step": 10800
	},
	{
	"epoch": 0.6799214145383105,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7394,
	"step": 10815
	},
	{
	"epoch": 0.6808644400785855,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7165,
	"step": 10830
	},
	{
	"epoch": 0.6818074656188605,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7249,
	"step": 10845
	},
	{
	"epoch": 0.6827504911591356,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.732,
	"step": 10860
	},
	{
	"epoch": 0.6836935166994106,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.747,
	"step": 10875
	},
	{
	"epoch": 0.6846365422396856,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7268,
	"step": 10890
	},
	{
	"epoch": 0.6855795677799607,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7334,
	"step": 10905
	},
	{
	"epoch": 0.6865225933202358,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7243,
	"step": 10920
	},
	{
	"epoch": 0.6874656188605108,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7402,
	"step": 10935
	},
	{
	"epoch": 0.6884086444007859,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.738,
	"step": 10950
	},
	{
	"epoch": 0.6893516699410609,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7309,
	"step": 10965
	},
	{
	"epoch": 0.6902946954813359,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7551,
	"step": 10980
	},
	{
	"epoch": 0.691237721021611,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7438,
	"step": 10995
	},
	{
	"epoch": 0.692180746561886,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7353,
	"step": 11010
	},
	{
	"epoch": 0.6931237721021611,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.728,
	"step": 11025
	},
	{
	"epoch": 0.6940667976424362,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.7366,
	"step": 11040
	},
	{
	"epoch": 0.6950098231827112,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7424,
	"step": 11055
	},
	{
	"epoch": 0.6959528487229862,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7434,
	"step": 11070
	},
	{
	"epoch": 0.6968958742632613,
	"grad_norm": 0.671875,
	"learning_rate": 0.001,
	"loss": 0.7371,
	"step": 11085
	},
	{
	"epoch": 0.6978388998035363,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 0.7326,
	"step": 11100
	},
	{
	"epoch": 0.6987819253438114,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7272,
	"step": 11115
	},
	{
	"epoch": 0.6997249508840865,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.738,
	"step": 11130
	},
	{
	"epoch": 0.6997249508840865,
	"eval_loss": 0.8602269291877747,
	"eval_runtime": 9.6753,
	"eval_samples_per_second": 103.356,
	"eval_steps_per_second": 1.447,
	"step": 11130
	},
	{
	"epoch": 0.7006679764243615,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7375,
	"step": 11145
	},
	{
	"epoch": 0.7016110019646365,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7545,
	"step": 11160
	},
	{
	"epoch": 0.7025540275049116,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7482,
	"step": 11175
	},
	{
	"epoch": 0.7034970530451866,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7274,
	"step": 11190
	},
	{
	"epoch": 0.7044400785854616,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7241,
	"step": 11205
	},
	{
	"epoch": 0.7053831041257368,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7303,
	"step": 11220
	},
	{
	"epoch": 0.7063261296660118,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7267,
	"step": 11235
	},
	{
	"epoch": 0.7072691552062869,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7267,
	"step": 11250
	},
	{
	"epoch": 0.7082121807465619,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.7309,
	"step": 11265
	},
	{
	"epoch": 0.7091552062868369,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7377,
	"step": 11280
	},
	{
	"epoch": 0.710098231827112,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7306,
	"step": 11295
	},
	{
	"epoch": 0.711041257367387,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7341,
	"step": 11310
	},
	{
	"epoch": 0.7119842829076621,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.7349,
	"step": 11325
	},
	{
	"epoch": 0.7129273084479372,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7407,
	"step": 11340
	},
	{
	"epoch": 0.7138703339882122,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7358,
	"step": 11355
	},
	{
	"epoch": 0.7148133595284872,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.7254,
	"step": 11370
	},
	{
	"epoch": 0.7157563850687623,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7328,
	"step": 11385
	},
	{
	"epoch": 0.7166994106090373,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7304,
	"step": 11400
	},
	{
	"epoch": 0.7176424361493123,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7317,
	"step": 11415
	},
	{
	"epoch": 0.7185854616895875,
	"grad_norm": 0.703125,
	"learning_rate": 0.001,
	"loss": 0.732,
	"step": 11430
	},
	{
	"epoch": 0.7195284872298625,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.7433,
	"step": 11445
	},
	{
	"epoch": 0.7204715127701375,
	"grad_norm": 0.703125,
	"learning_rate": 0.001,
	"loss": 0.7415,
	"step": 11460
	},
	{
	"epoch": 0.7214145383104126,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7285,
	"step": 11475
	},
	{
	"epoch": 0.7223575638506876,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7299,
	"step": 11490
	},
	{
	"epoch": 0.7233005893909626,
	"grad_norm": 0.72265625,
	"learning_rate": 0.001,
	"loss": 0.7314,
	"step": 11505
	},
	{
	"epoch": 0.7242436149312377,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7413,
	"step": 11520
	},
	{
	"epoch": 0.7251866404715128,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7266,
	"step": 11535
	},
	{
	"epoch": 0.7261296660117879,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.7104,
	"step": 11550
	},
	{
	"epoch": 0.7270726915520629,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7252,
	"step": 11565
	},
	{
	"epoch": 0.7280157170923379,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.726,
	"step": 11580
	},
	{
	"epoch": 0.728958742632613,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.7242,
	"step": 11595
	},
	{
	"epoch": 0.729901768172888,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7313,
	"step": 11610
	},
	{
	"epoch": 0.730844793713163,
	"grad_norm": 0.74609375,
	"learning_rate": 0.001,
	"loss": 0.7379,
	"step": 11625
	},
	{
	"epoch": 0.7317878192534382,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7394,
	"step": 11640
	},
	{
	"epoch": 0.7327308447937132,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7332,
	"step": 11655
	},
	{
	"epoch": 0.7336738703339882,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.7154,
	"step": 11670
	},
	{
	"epoch": 0.7346168958742633,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.7351,
	"step": 11685
	},
	{
	"epoch": 0.7355599214145383,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7375,
	"step": 11700
	},
	{
	"epoch": 0.7365029469548133,
	"grad_norm": 0.6640625,
	"learning_rate": 0.001,
	"loss": 0.7363,
	"step": 11715
	},
	{
	"epoch": 0.7374459724950884,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.7301,
	"step": 11730
	},
	{
	"epoch": 0.7383889980353635,
	"grad_norm": 0.7734375,
	"learning_rate": 0.001,
	"loss": 0.7287,
	"step": 11745
	},
	{
	"epoch": 0.7393320235756385,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7237,
	"step": 11760
	},
	{
	"epoch": 0.7402750491159136,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7242,
	"step": 11775
	},
	{
	"epoch": 0.7412180746561886,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.7242,
	"step": 11790
	},
	{
	"epoch": 0.7421611001964636,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 0.7171,
	"step": 11805
	},
	{
	"epoch": 0.7431041257367387,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7191,
	"step": 11820
	},
	{
	"epoch": 0.7440471512770137,
	"grad_norm": 0.439453125,
	"learning_rate": 0.001,
	"loss": 0.7323,
	"step": 11835
	},
	{
	"epoch": 0.7449901768172889,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7139,
	"step": 11850
	},
	{
	"epoch": 0.7459332023575639,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7237,
	"step": 11865
	},
	{
	"epoch": 0.7468762278978389,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7136,
	"step": 11880
	},
	{
	"epoch": 0.747819253438114,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7375,
	"step": 11895
	},
	{
	"epoch": 0.748762278978389,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7236,
	"step": 11910
	},
	{
	"epoch": 0.749705304518664,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7416,
	"step": 11925
	},
	{
	"epoch": 0.750648330058939,
	"grad_norm": 0.671875,
	"learning_rate": 0.001,
	"loss": 0.7376,
	"step": 11940
	},
	{
	"epoch": 0.7515913555992142,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.7293,
	"step": 11955
	},
	{
	"epoch": 0.7525343811394892,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7274,
	"step": 11970
	},
	{
	"epoch": 0.7534774066797643,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7251,
	"step": 11985
	},
	{
	"epoch": 0.7544204322200393,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7221,
	"step": 12000
	},
	{
	"epoch": 0.7553634577603143,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7269,
	"step": 12015
	},
	{
	"epoch": 0.7563064833005894,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7229,
	"step": 12030
	},
	{
	"epoch": 0.7572495088408644,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7332,
	"step": 12045
	},
	{
	"epoch": 0.7581925343811395,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7425,
	"step": 12060
	},
	{
	"epoch": 0.7591355599214146,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7084,
	"step": 12075
	},
	{
	"epoch": 0.7600785854616896,
	"grad_norm": 0.453125,
	"learning_rate": 0.001,
	"loss": 0.7212,
	"step": 12090
	},
	{
	"epoch": 0.7610216110019646,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7221,
	"step": 12105
	},
	{
	"epoch": 0.7619646365422397,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7125,
	"step": 12120
	},
	{
	"epoch": 0.7629076620825147,
	"grad_norm": 0.63671875,
	"learning_rate": 0.001,
	"loss": 0.7214,
	"step": 12135
	},
	{
	"epoch": 0.7638506876227897,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7211,
	"step": 12150
	},
	{
	"epoch": 0.7647937131630649,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7126,
	"step": 12165
	},
	{
	"epoch": 0.7657367387033399,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.726,
	"step": 12180
	},
	{
	"epoch": 0.766679764243615,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7079,
	"step": 12195
	},
	{
	"epoch": 0.76762278978389,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7282,
	"step": 12210
	},
	{
	"epoch": 0.768565815324165,
	"grad_norm": 0.61328125,
	"learning_rate": 0.001,
	"loss": 0.7293,
	"step": 12225
	},
	{
	"epoch": 0.76950884086444,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7245,
	"step": 12240
	},
	{
	"epoch": 0.7704518664047151,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7263,
	"step": 12255
	},
	{
	"epoch": 0.7713948919449902,
	"grad_norm": 0.76953125,
	"learning_rate": 0.001,
	"loss": 0.7483,
	"step": 12270
	},
	{
	"epoch": 0.7723379174852653,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7243,
	"step": 12285
	},
	{
	"epoch": 0.7732809430255403,
	"grad_norm": 0.41796875,
	"learning_rate": 0.001,
	"loss": 0.72,
	"step": 12300
	},
	{
	"epoch": 0.7742239685658153,
	"grad_norm": 0.7421875,
	"learning_rate": 0.001,
	"loss": 0.7145,
	"step": 12315
	},
	{
	"epoch": 0.7751669941060904,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7264,
	"step": 12330
	},
	{
	"epoch": 0.7761100196463654,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7233,
	"step": 12345
	},
	{
	"epoch": 0.7770530451866404,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7132,
	"step": 12360
	},
	{
	"epoch": 0.7779960707269156,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7218,
	"step": 12375
	},
	{
	"epoch": 0.7789390962671906,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.7229,
	"step": 12390
	},
	{
	"epoch": 0.7798821218074656,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.7244,
	"step": 12405
	},
	{
	"epoch": 0.7808251473477407,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7133,
	"step": 12420
	},
	{
	"epoch": 0.7817681728880157,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7165,
	"step": 12435
	},
	{
	"epoch": 0.7827111984282907,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.7125,
	"step": 12450
	},
	{
	"epoch": 0.7836542239685658,
	"grad_norm": 0.49609375,
	"learning_rate": 0.001,
	"loss": 0.7025,
	"step": 12465
	},
	{
	"epoch": 0.7845972495088409,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7143,
	"step": 12480
	},
	{
	"epoch": 0.7855402750491159,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7217,
	"step": 12495
	},
	{
	"epoch": 0.786483300589391,
	"grad_norm": 0.44921875,
	"learning_rate": 0.001,
	"loss": 0.7194,
	"step": 12510
	},
	{
	"epoch": 0.787426326129666,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7117,
	"step": 12525
	},
	{
	"epoch": 0.788369351669941,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7125,
	"step": 12540
	},
	{
	"epoch": 0.7893123772102161,
	"grad_norm": 0.412109375,
	"learning_rate": 0.001,
	"loss": 0.7107,
	"step": 12555
	},
	{
	"epoch": 0.7902554027504911,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7392,
	"step": 12570
	},
	{
	"epoch": 0.7911984282907663,
	"grad_norm": 0.67578125,
	"learning_rate": 0.001,
	"loss": 0.7211,
	"step": 12585
	},
	{
	"epoch": 0.7921414538310413,
	"grad_norm": 0.9375,
	"learning_rate": 0.001,
	"loss": 0.7139,
	"step": 12600
	},
	{
	"epoch": 0.7930844793713163,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.721,
	"step": 12615
	},
	{
	"epoch": 0.7940275049115914,
	"grad_norm": 0.478515625,
	"learning_rate": 0.001,
	"loss": 0.7258,
	"step": 12630
	},
	{
	"epoch": 0.7949705304518664,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7079,
	"step": 12645
	},
	{
	"epoch": 0.7959135559921414,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.712,
	"step": 12660
	},
	{
	"epoch": 0.7968565815324165,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7296,
	"step": 12675
	},
	{
	"epoch": 0.7977996070726916,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.7146,
	"step": 12690
	},
	{
	"epoch": 0.7987426326129666,
	"grad_norm": 0.67578125,
	"learning_rate": 0.001,
	"loss": 0.7202,
	"step": 12705
	},
	{
	"epoch": 0.7996856581532417,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7257,
	"step": 12720
	},
	{
	"epoch": 0.7996856581532417,
	"eval_loss": 0.8420960307121277,
	"eval_runtime": 9.6794,
	"eval_samples_per_second": 103.312,
	"eval_steps_per_second": 1.446,
	"step": 12720
	},
	{
	"epoch": 0.8006286836935167,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7087,
	"step": 12735
	},
	{
	"epoch": 0.8015717092337917,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7219,
	"step": 12750
	},
	{
	"epoch": 0.8025147347740668,
	"grad_norm": 0.48046875,
	"learning_rate": 0.001,
	"loss": 0.7241,
	"step": 12765
	},
	{
	"epoch": 0.8034577603143418,
	"grad_norm": 0.671875,
	"learning_rate": 0.001,
	"loss": 0.7211,
	"step": 12780
	},
	{
	"epoch": 0.8044007858546169,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7234,
	"step": 12795
	},
	{
	"epoch": 0.805343811394892,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7214,
	"step": 12810
	},
	{
	"epoch": 0.806286836935167,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7201,
	"step": 12825
	},
	{
	"epoch": 0.807229862475442,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7261,
	"step": 12840
	},
	{
	"epoch": 0.8081728880157171,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7301,
	"step": 12855
	},
	{
	"epoch": 0.8091159135559921,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7104,
	"step": 12870
	},
	{
	"epoch": 0.8100589390962671,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7094,
	"step": 12885
	},
	{
	"epoch": 0.8110019646365423,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.7188,
	"step": 12900
	},
	{
	"epoch": 0.8119449901768173,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7296,
	"step": 12915
	},
	{
	"epoch": 0.8128880157170923,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.725,
	"step": 12930
	},
	{
	"epoch": 0.8138310412573674,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.716,
	"step": 12945
	},
	{
	"epoch": 0.8147740667976424,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7199,
	"step": 12960
	},
	{
	"epoch": 0.8157170923379174,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7251,
	"step": 12975
	},
	{
	"epoch": 0.8166601178781925,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.7153,
	"step": 12990
	},
	{
	"epoch": 0.8176031434184676,
	"grad_norm": 0.6171875,
	"learning_rate": 0.001,
	"loss": 0.7172,
	"step": 13005
	},
	{
	"epoch": 0.8185461689587427,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7241,
	"step": 13020
	},
	{
	"epoch": 0.8194891944990177,
	"grad_norm": 0.671875,
	"learning_rate": 0.001,
	"loss": 0.7087,
	"step": 13035
	},
	{
	"epoch": 0.8204322200392927,
	"grad_norm": 0.4375,
	"learning_rate": 0.001,
	"loss": 0.7146,
	"step": 13050
	},
	{
	"epoch": 0.8213752455795678,
	"grad_norm": 0.42578125,
	"learning_rate": 0.001,
	"loss": 0.7137,
	"step": 13065
	},
	{
	"epoch": 0.8223182711198428,
	"grad_norm": 0.61328125,
	"learning_rate": 0.001,
	"loss": 0.7309,
	"step": 13080
	},
	{
	"epoch": 0.8232612966601178,
	"grad_norm": 0.74609375,
	"learning_rate": 0.001,
	"loss": 0.7075,
	"step": 13095
	},
	{
	"epoch": 0.824204322200393,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7187,
	"step": 13110
	},
	{
	"epoch": 0.825147347740668,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7133,
	"step": 13125
	},
	{
	"epoch": 0.826090373280943,
	"grad_norm": 0.65234375,
	"learning_rate": 0.001,
	"loss": 0.7062,
	"step": 13140
	},
	{
	"epoch": 0.8270333988212181,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7139,
	"step": 13155
	},
	{
	"epoch": 0.8279764243614931,
	"grad_norm": 0.43359375,
	"learning_rate": 0.001,
	"loss": 0.7122,
	"step": 13170
	},
	{
	"epoch": 0.8289194499017681,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7089,
	"step": 13185
	},
	{
	"epoch": 0.8298624754420432,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.7148,
	"step": 13200
	},
	{
	"epoch": 0.8308055009823183,
	"grad_norm": 0.484375,
	"learning_rate": 0.001,
	"loss": 0.7165,
	"step": 13215
	},
	{
	"epoch": 0.8317485265225933,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.716,
	"step": 13230
	},
	{
	"epoch": 0.8326915520628684,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7324,
	"step": 13245
	},
	{
	"epoch": 0.8336345776031434,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7028,
	"step": 13260
	},
	{
	"epoch": 0.8345776031434184,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7162,
	"step": 13275
	},
	{
	"epoch": 0.8355206286836935,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7115,
	"step": 13290
	},
	{
	"epoch": 0.8364636542239685,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7323,
	"step": 13305
	},
	{
	"epoch": 0.8374066797642437,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7154,
	"step": 13320
	},
	{
	"epoch": 0.8383497053045187,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.7231,
	"step": 13335
	},
	{
	"epoch": 0.8392927308447937,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7308,
	"step": 13350
	},
	{
	"epoch": 0.8402357563850688,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7169,
	"step": 13365
	},
	{
	"epoch": 0.8411787819253438,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7209,
	"step": 13380
	},
	{
	"epoch": 0.8421218074656188,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.706,
	"step": 13395
	},
	{
	"epoch": 0.8430648330058939,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7079,
	"step": 13410
	},
	{
	"epoch": 0.844007858546169,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7062,
	"step": 13425
	},
	{
	"epoch": 0.844950884086444,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7047,
	"step": 13440
	},
	{
	"epoch": 0.8458939096267191,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7179,
	"step": 13455
	},
	{
	"epoch": 0.8468369351669941,
	"grad_norm": 0.72265625,
	"learning_rate": 0.001,
	"loss": 0.7159,
	"step": 13470
	},
	{
	"epoch": 0.8477799607072691,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7152,
	"step": 13485
	},
	{
	"epoch": 0.8487229862475442,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.709,
	"step": 13500
	},
	{
	"epoch": 0.8496660117878193,
	"grad_norm": 0.498046875,
	"learning_rate": 0.001,
	"loss": 0.7158,
	"step": 13515
	},
	{
	"epoch": 0.8506090373280943,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7026,
	"step": 13530
	},
	{
	"epoch": 0.8515520628683694,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.7197,
	"step": 13545
	},
	{
	"epoch": 0.8524950884086444,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7271,
	"step": 13560
	},
	{
	"epoch": 0.8534381139489194,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7241,
	"step": 13575
	},
	{
	"epoch": 0.8543811394891945,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7244,
	"step": 13590
	},
	{
	"epoch": 0.8553241650294695,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.7154,
	"step": 13605
	},
	{
	"epoch": 0.8562671905697447,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.7135,
	"step": 13620
	},
	{
	"epoch": 0.8572102161100197,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7095,
	"step": 13635
	},
	{
	"epoch": 0.8581532416502947,
	"grad_norm": 0.87109375,
	"learning_rate": 0.001,
	"loss": 0.7245,
	"step": 13650
	},
	{
	"epoch": 0.8590962671905698,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.7174,
	"step": 13665
	},
	{
	"epoch": 0.8600392927308448,
	"grad_norm": 0.6875,
	"learning_rate": 0.001,
	"loss": 0.7131,
	"step": 13680
	},
	{
	"epoch": 0.8609823182711198,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7227,
	"step": 13695
	},
	{
	"epoch": 0.8619253438113949,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7067,
	"step": 13710
	},
	{
	"epoch": 0.86286836935167,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 0.7013,
	"step": 13725
	},
	{
	"epoch": 0.863811394891945,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7046,
	"step": 13740
	},
	{
	"epoch": 0.8647544204322201,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7077,
	"step": 13755
	},
	{
	"epoch": 0.8656974459724951,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7064,
	"step": 13770
	},
	{
	"epoch": 0.8666404715127701,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.7177,
	"step": 13785
	},
	{
	"epoch": 0.8675834970530452,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7128,
	"step": 13800
	},
	{
	"epoch": 0.8685265225933202,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.7131,
	"step": 13815
	},
	{
	"epoch": 0.8694695481335953,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.7048,
	"step": 13830
	},
	{
	"epoch": 0.8704125736738704,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7183,
	"step": 13845
	},
	{
	"epoch": 0.8713555992141454,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7087,
	"step": 13860
	},
	{
	"epoch": 0.8722986247544204,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 0.7117,
	"step": 13875
	},
	{
	"epoch": 0.8732416502946955,
	"grad_norm": 0.4453125,
	"learning_rate": 0.001,
	"loss": 0.7216,
	"step": 13890
	},
	{
	"epoch": 0.8741846758349705,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.7159,
	"step": 13905
	},
	{
	"epoch": 0.8751277013752455,
	"grad_norm": 0.75,
	"learning_rate": 0.001,
	"loss": 0.7096,
	"step": 13920
	},
	{
	"epoch": 0.8760707269155207,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.702,
	"step": 13935
	},
	{
	"epoch": 0.8770137524557957,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7101,
	"step": 13950
	},
	{
	"epoch": 0.8779567779960707,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7212,
	"step": 13965
	},
	{
	"epoch": 0.8788998035363458,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.7126,
	"step": 13980
	},
	{
	"epoch": 0.8798428290766208,
	"grad_norm": 0.5078125,
	"learning_rate": 0.001,
	"loss": 0.7036,
	"step": 13995
	},
	{
	"epoch": 0.8807858546168958,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7071,
	"step": 14010
	},
	{
	"epoch": 0.8817288801571709,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7051,
	"step": 14025
	},
	{
	"epoch": 0.882671905697446,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.7156,
	"step": 14040
	},
	{
	"epoch": 0.8836149312377211,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.709,
	"step": 14055
	},
	{
	"epoch": 0.8845579567779961,
	"grad_norm": 0.6875,
	"learning_rate": 0.001,
	"loss": 0.7062,
	"step": 14070
	},
	{
	"epoch": 0.8855009823182711,
	"grad_norm": 0.6015625,
	"learning_rate": 0.001,
	"loss": 0.7142,
	"step": 14085
	},
	{
	"epoch": 0.8864440078585462,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7143,
	"step": 14100
	},
	{
	"epoch": 0.8873870333988212,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7093,
	"step": 14115
	},
	{
	"epoch": 0.8883300589390962,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.712,
	"step": 14130
	},
	{
	"epoch": 0.8892730844793714,
	"grad_norm": 0.51171875,
	"learning_rate": 0.001,
	"loss": 0.7085,
	"step": 14145
	},
	{
	"epoch": 0.8902161100196464,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7197,
	"step": 14160
	},
	{
	"epoch": 0.8911591355599214,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.7022,
	"step": 14175
	},
	{
	"epoch": 0.8921021611001965,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7019,
	"step": 14190
	},
	{
	"epoch": 0.8930451866404715,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7171,
	"step": 14205
	},
	{
	"epoch": 0.8939882121807465,
	"grad_norm": 0.7890625,
	"learning_rate": 0.001,
	"loss": 0.7052,
	"step": 14220
	},
	{
	"epoch": 0.8949312377210216,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.7029,
	"step": 14235
	},
	{
	"epoch": 0.8958742632612967,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7067,
	"step": 14250
	},
	{
	"epoch": 0.8968172888015717,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.6962,
	"step": 14265
	},
	{
	"epoch": 0.8977603143418468,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.702,
	"step": 14280
	},
	{
	"epoch": 0.8987033398821218,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7066,
	"step": 14295
	},
	{
	"epoch": 0.8996463654223968,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7141,
	"step": 14310
	},
	{
	"epoch": 0.8996463654223968,
	"eval_loss": 0.8242524266242981,
	"eval_runtime": 9.6736,
	"eval_samples_per_second": 103.374,
	"eval_steps_per_second": 1.447,
	"step": 14310
	},
	{
	"epoch": 0.9005893909626719,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7051,
	"step": 14325
	},
	{
	"epoch": 0.9015324165029469,
	"grad_norm": 0.6484375,
	"learning_rate": 0.001,
	"loss": 0.7161,
	"step": 14340
	},
	{
	"epoch": 0.902475442043222,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 0.6994,
	"step": 14355
	},
	{
	"epoch": 0.9034184675834971,
	"grad_norm": 0.46875,
	"learning_rate": 0.001,
	"loss": 0.7121,
	"step": 14370
	},
	{
	"epoch": 0.9043614931237721,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.7232,
	"step": 14385
	},
	{
	"epoch": 0.9053045186640472,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.7122,
	"step": 14400
	},
	{
	"epoch": 0.9062475442043222,
	"grad_norm": 0.52734375,
	"learning_rate": 0.001,
	"loss": 0.7168,
	"step": 14415
	},
	{
	"epoch": 0.9071905697445972,
	"grad_norm": 0.474609375,
	"learning_rate": 0.001,
	"loss": 0.6997,
	"step": 14430
	},
	{
	"epoch": 0.9081335952848723,
	"grad_norm": 0.56640625,
	"learning_rate": 0.001,
	"loss": 0.7124,
	"step": 14445
	},
	{
	"epoch": 0.9090766208251474,
	"grad_norm": 0.486328125,
	"learning_rate": 0.001,
	"loss": 0.6995,
	"step": 14460
	},
	{
	"epoch": 0.9100196463654224,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7087,
	"step": 14475
	},
	{
	"epoch": 0.9109626719056975,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.6991,
	"step": 14490
	},
	{
	"epoch": 0.9119056974459725,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.7069,
	"step": 14505
	},
	{
	"epoch": 0.9128487229862475,
	"grad_norm": 0.625,
	"learning_rate": 0.001,
	"loss": 0.701,
	"step": 14520
	},
	{
	"epoch": 0.9137917485265226,
	"grad_norm": 0.734375,
	"learning_rate": 0.001,
	"loss": 0.7111,
	"step": 14535
	},
	{
	"epoch": 0.9147347740667976,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.6989,
	"step": 14550
	},
	{
	"epoch": 0.9156777996070727,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.7243,
	"step": 14565
	},
	{
	"epoch": 0.9166208251473478,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7043,
	"step": 14580
	},
	{
	"epoch": 0.9175638506876228,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.6925,
	"step": 14595
	},
	{
	"epoch": 0.9185068762278978,
	"grad_norm": 0.7890625,
	"learning_rate": 0.001,
	"loss": 0.7129,
	"step": 14610
	},
	{
	"epoch": 0.9194499017681729,
	"grad_norm": 0.65625,
	"learning_rate": 0.001,
	"loss": 0.7064,
	"step": 14625
	},
	{
	"epoch": 0.9203929273084479,
	"grad_norm": 0.451171875,
	"learning_rate": 0.001,
	"loss": 0.6876,
	"step": 14640
	},
	{
	"epoch": 0.9213359528487229,
	"grad_norm": 0.6328125,
	"learning_rate": 0.001,
	"loss": 0.6978,
	"step": 14655
	},
	{
	"epoch": 0.9222789783889981,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7003,
	"step": 14670
	},
	{
	"epoch": 0.9232220039292731,
	"grad_norm": 0.4765625,
	"learning_rate": 0.001,
	"loss": 0.7009,
	"step": 14685
	},
	{
	"epoch": 0.9241650294695481,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.7093,
	"step": 14700
	},
	{
	"epoch": 0.9251080550098232,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.6927,
	"step": 14715
	},
	{
	"epoch": 0.9260510805500982,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.6995,
	"step": 14730
	},
	{
	"epoch": 0.9269941060903732,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.711,
	"step": 14745
	},
	{
	"epoch": 0.9279371316306483,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.7156,
	"step": 14760
	},
	{
	"epoch": 0.9288801571709234,
	"grad_norm": 0.72265625,
	"learning_rate": 0.001,
	"loss": 0.7173,
	"step": 14775
	},
	{
	"epoch": 0.9298231827111985,
	"grad_norm": 0.7578125,
	"learning_rate": 0.001,
	"loss": 0.7132,
	"step": 14790
	},
	{
	"epoch": 0.9307662082514735,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.6983,
	"step": 14805
	},
	{
	"epoch": 0.9317092337917485,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7047,
	"step": 14820
	},
	{
	"epoch": 0.9326522593320236,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.7115,
	"step": 14835
	},
	{
	"epoch": 0.9335952848722986,
	"grad_norm": 0.5703125,
	"learning_rate": 0.001,
	"loss": 0.7038,
	"step": 14850
	},
	{
	"epoch": 0.9345383104125736,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7066,
	"step": 14865
	},
	{
	"epoch": 0.9354813359528488,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 0.7062,
	"step": 14880
	},
	{
	"epoch": 0.9364243614931238,
	"grad_norm": 0.4140625,
	"learning_rate": 0.001,
	"loss": 0.6915,
	"step": 14895
	},
	{
	"epoch": 0.9373673870333988,
	"grad_norm": 0.64453125,
	"learning_rate": 0.001,
	"loss": 0.7031,
	"step": 14910
	},
	{
	"epoch": 0.9383104125736739,
	"grad_norm": 0.6875,
	"learning_rate": 0.001,
	"loss": 0.7072,
	"step": 14925
	},
	{
	"epoch": 0.9392534381139489,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.7012,
	"step": 14940
	},
	{
	"epoch": 0.9401964636542239,
	"grad_norm": 0.70703125,
	"learning_rate": 0.001,
	"loss": 0.7211,
	"step": 14955
	},
	{
	"epoch": 0.941139489194499,
	"grad_norm": 0.4609375,
	"learning_rate": 0.001,
	"loss": 0.7048,
	"step": 14970
	},
	{
	"epoch": 0.9420825147347741,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7016,
	"step": 14985
	},
	{
	"epoch": 0.9430255402750491,
	"grad_norm": 0.490234375,
	"learning_rate": 0.001,
	"loss": 0.7095,
	"step": 15000
	},
	{
	"epoch": 0.9439685658153242,
	"grad_norm": 0.458984375,
	"learning_rate": 0.001,
	"loss": 0.705,
	"step": 15015
	},
	{
	"epoch": 0.9449115913555992,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.6986,
	"step": 15030
	},
	{
	"epoch": 0.9458546168958742,
	"grad_norm": 0.60546875,
	"learning_rate": 0.001,
	"loss": 0.7026,
	"step": 15045
	},
	{
	"epoch": 0.9467976424361493,
	"grad_norm": 0.55859375,
	"learning_rate": 0.001,
	"loss": 0.709,
	"step": 15060
	},
	{
	"epoch": 0.9477406679764243,
	"grad_norm": 0.59765625,
	"learning_rate": 0.001,
	"loss": 0.712,
	"step": 15075
	},
	{
	"epoch": 0.9486836935166995,
	"grad_norm": 0.5625,
	"learning_rate": 0.001,
	"loss": 0.7126,
	"step": 15090
	},
	{
	"epoch": 0.9496267190569745,
	"grad_norm": 0.75390625,
	"learning_rate": 0.001,
	"loss": 0.6879,
	"step": 15105
	},
	{
	"epoch": 0.9505697445972495,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7031,
	"step": 15120
	},
	{
	"epoch": 0.9515127701375246,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.7146,
	"step": 15135
	},
	{
	"epoch": 0.9524557956777996,
	"grad_norm": 0.48828125,
	"learning_rate": 0.001,
	"loss": 0.6882,
	"step": 15150
	},
	{
	"epoch": 0.9533988212180746,
	"grad_norm": 0.50390625,
	"learning_rate": 0.001,
	"loss": 0.6981,
	"step": 15165
	},
	{
	"epoch": 0.9543418467583497,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7011,
	"step": 15180
	},
	{
	"epoch": 0.9552848722986248,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.698,
	"step": 15195
	},
	{
	"epoch": 0.9562278978388998,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.6932,
	"step": 15210
	},
	{
	"epoch": 0.9571709233791749,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.69,
	"step": 15225
	},
	{
	"epoch": 0.9581139489194499,
	"grad_norm": 0.609375,
	"learning_rate": 0.001,
	"loss": 0.695,
	"step": 15240
	},
	{
	"epoch": 0.9590569744597249,
	"grad_norm": 0.5,
	"learning_rate": 0.001,
	"loss": 0.7002,
	"step": 15255
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.478515625,
	"learning_rate": 0.001,
	"loss": 0.6943,
	"step": 15270
	},
	{
	"epoch": 0.960943025540275,
	"grad_norm": 0.58203125,
	"learning_rate": 0.001,
	"loss": 0.7044,
	"step": 15285
	},
	{
	"epoch": 0.9618860510805501,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.7069,
	"step": 15300
	},
	{
	"epoch": 0.9628290766208252,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.6985,
	"step": 15315
	},
	{
	"epoch": 0.9637721021611002,
	"grad_norm": 0.640625,
	"learning_rate": 0.001,
	"loss": 0.7049,
	"step": 15330
	},
	{
	"epoch": 0.9647151277013752,
	"grad_norm": 0.62890625,
	"learning_rate": 0.001,
	"loss": 0.7035,
	"step": 15345
	},
	{
	"epoch": 0.9656581532416503,
	"grad_norm": 0.5234375,
	"learning_rate": 0.001,
	"loss": 0.7016,
	"step": 15360
	},
	{
	"epoch": 0.9666011787819253,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.6954,
	"step": 15375
	},
	{
	"epoch": 0.9675442043222003,
	"grad_norm": 0.5859375,
	"learning_rate": 0.001,
	"loss": 0.7014,
	"step": 15390
	},
	{
	"epoch": 0.9684872298624755,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.7129,
	"step": 15405
	},
	{
	"epoch": 0.9694302554027505,
	"grad_norm": 0.515625,
	"learning_rate": 0.001,
	"loss": 0.6999,
	"step": 15420
	},
	{
	"epoch": 0.9703732809430256,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7017,
	"step": 15435
	},
	{
	"epoch": 0.9713163064833006,
	"grad_norm": 0.546875,
	"learning_rate": 0.001,
	"loss": 0.6893,
	"step": 15450
	},
	{
	"epoch": 0.9722593320235756,
	"grad_norm": 0.71484375,
	"learning_rate": 0.001,
	"loss": 0.6993,
	"step": 15465
	},
	{
	"epoch": 0.9732023575638507,
	"grad_norm": 0.6171875,
	"learning_rate": 0.001,
	"loss": 0.6999,
	"step": 15480
	},
	{
	"epoch": 0.9741453831041257,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.6864,
	"step": 15495
	},
	{
	"epoch": 0.9750884086444008,
	"grad_norm": 0.49609375,
	"learning_rate": 0.001,
	"loss": 0.7057,
	"step": 15510
	},
	{
	"epoch": 0.9760314341846759,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.6957,
	"step": 15525
	},
	{
	"epoch": 0.9769744597249509,
	"grad_norm": 0.53125,
	"learning_rate": 0.001,
	"loss": 0.709,
	"step": 15540
	},
	{
	"epoch": 0.9779174852652259,
	"grad_norm": 0.482421875,
	"learning_rate": 0.001,
	"loss": 0.6965,
	"step": 15555
	},
	{
	"epoch": 0.978860510805501,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.6989,
	"step": 15570
	},
	{
	"epoch": 0.979803536345776,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.6995,
	"step": 15585
	},
	{
	"epoch": 0.980746561886051,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.6894,
	"step": 15600
	},
	{
	"epoch": 0.9816895874263262,
	"grad_norm": 0.5390625,
	"learning_rate": 0.001,
	"loss": 0.7084,
	"step": 15615
	},
	{
	"epoch": 0.9826326129666012,
	"grad_norm": 0.58984375,
	"learning_rate": 0.001,
	"loss": 0.7021,
	"step": 15630
	},
	{
	"epoch": 0.9835756385068762,
	"grad_norm": 0.87109375,
	"learning_rate": 0.001,
	"loss": 0.6892,
	"step": 15645
	},
	{
	"epoch": 0.9845186640471513,
	"grad_norm": 0.62109375,
	"learning_rate": 0.001,
	"loss": 0.7147,
	"step": 15660
	},
	{
	"epoch": 0.9854616895874263,
	"grad_norm": 0.54296875,
	"learning_rate": 0.001,
	"loss": 0.7007,
	"step": 15675
	},
	{
	"epoch": 0.9864047151277013,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.699,
	"step": 15690
	},
	{
	"epoch": 0.9873477406679764,
	"grad_norm": 0.875,
	"learning_rate": 0.001,
	"loss": 0.6943,
	"step": 15705
	},
	{
	"epoch": 0.9882907662082515,
	"grad_norm": 0.5546875,
	"learning_rate": 0.001,
	"loss": 0.6943,
	"step": 15720
	},
	{
	"epoch": 0.9892337917485265,
	"grad_norm": 0.466796875,
	"learning_rate": 0.001,
	"loss": 0.703,
	"step": 15735
	},
	{
	"epoch": 0.9901768172888016,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.6953,
	"step": 15750
	},
	{
	"epoch": 0.9911198428290766,
	"grad_norm": 0.71875,
	"learning_rate": 0.001,
	"loss": 0.6884,
	"step": 15765
	},
	{
	"epoch": 0.9920628683693516,
	"grad_norm": 0.68359375,
	"learning_rate": 0.001,
	"loss": 0.6972,
	"step": 15780
	},
	{
	"epoch": 0.9930058939096267,
	"grad_norm": 0.59375,
	"learning_rate": 0.001,
	"loss": 0.6929,
	"step": 15795
	},
	{
	"epoch": 0.9939489194499017,
	"grad_norm": 0.47265625,
	"learning_rate": 0.001,
	"loss": 0.6849,
	"step": 15810
	},
	{
	"epoch": 0.9948919449901769,
	"grad_norm": 0.57421875,
	"learning_rate": 0.001,
	"loss": 0.6932,
	"step": 15825
	},
	{
	"epoch": 0.9958349705304519,
	"grad_norm": 0.51953125,
	"learning_rate": 0.001,
	"loss": 0.7042,
	"step": 15840
	},
	{
	"epoch": 0.9967779960707269,
	"grad_norm": 0.470703125,
	"learning_rate": 0.001,
	"loss": 0.6924,
	"step": 15855
	},
	{
	"epoch": 0.997721021611002,
	"grad_norm": 0.578125,
	"learning_rate": 0.001,
	"loss": 0.7009,
	"step": 15870
	},
	{
	"epoch": 0.998664047151277,
	"grad_norm": 0.55078125,
	"learning_rate": 0.001,
	"loss": 0.7059,
	"step": 15885
	},
	{
	"epoch": 0.999607072691552,
	"grad_norm": 0.53515625,
	"learning_rate": 0.001,
	"loss": 0.691,
	"step": 15900
	},
	{
	"epoch": 0.999607072691552,
	"eval_loss": 0.8118711709976196,
	"eval_runtime": 9.6839,
	"eval_samples_per_second": 103.264,
	"eval_steps_per_second": 1.446,
	"step": 15900
	}
	],
	"logging_steps": 15,
	"max_steps": 15906,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1590,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.185992916964999e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}