Sailor-7b-toba-adapter / checkpoint-1036 /trainer_state.json

Upload folder using huggingface_hub

e14f681 verified about 1 year ago

165 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 622,
	"global_step": 1036,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 1.2006484270095825,
	"learning_rate": 2.5e-06,
	"loss": 5.0998,
	"step": 1
	},
	{
	"epoch": 0.0,
	"eval_loss": 5.15006685256958,
	"eval_runtime": 28.119,
	"eval_samples_per_second": 3.023,
	"eval_steps_per_second": 1.529,
	"step": 1
	},
	{
	"epoch": 0.0,
	"grad_norm": 1.6314904689788818,
	"learning_rate": 5e-06,
	"loss": 5.6374,
	"step": 2
	},
	{
	"epoch": 0.0,
	"grad_norm": 1.3538857698440552,
	"learning_rate": 7.5e-06,
	"loss": 5.0656,
	"step": 3
	},
	{
	"epoch": 0.0,
	"grad_norm": 0.9769891500473022,
	"learning_rate": 1e-05,
	"loss": 5.1906,
	"step": 4
	},
	{
	"epoch": 0.0,
	"grad_norm": 1.4604706764221191,
	"learning_rate": 1.25e-05,
	"loss": 5.1107,
	"step": 5
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.2502201795578003,
	"learning_rate": 1.5e-05,
	"loss": 4.8447,
	"step": 6
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.1797655820846558,
	"learning_rate": 1.7500000000000002e-05,
	"loss": 5.0042,
	"step": 7
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.3177151679992676,
	"learning_rate": 2e-05,
	"loss": 4.878,
	"step": 8
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.1382358074188232,
	"learning_rate": 2.2499999999999998e-05,
	"loss": 5.106,
	"step": 9
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.1523857116699219,
	"learning_rate": 2.5e-05,
	"loss": 5.241,
	"step": 10
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.994879961013794,
	"learning_rate": 2.75e-05,
	"loss": 4.4475,
	"step": 11
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.0009862184524536,
	"learning_rate": 3e-05,
	"loss": 4.615,
	"step": 12
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.1249079704284668,
	"learning_rate": 3.2500000000000004e-05,
	"loss": 4.3469,
	"step": 13
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.1036263704299927,
	"learning_rate": 3.5000000000000004e-05,
	"loss": 4.7748,
	"step": 14
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.1240339279174805,
	"learning_rate": 3.75e-05,
	"loss": 4.8696,
	"step": 15
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.9816920757293701,
	"learning_rate": 4e-05,
	"loss": 4.5595,
	"step": 16
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.1084593534469604,
	"learning_rate": 4.25e-05,
	"loss": 4.2922,
	"step": 17
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.997968316078186,
	"learning_rate": 4.4999999999999996e-05,
	"loss": 4.3057,
	"step": 18
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.0401185750961304,
	"learning_rate": 4.75e-05,
	"loss": 4.364,
	"step": 19
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.0804249048233032,
	"learning_rate": 5e-05,
	"loss": 4.8663,
	"step": 20
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.2384392023086548,
	"learning_rate": 5.25e-05,
	"loss": 4.2992,
	"step": 21
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.231845736503601,
	"learning_rate": 5.5e-05,
	"loss": 4.8637,
	"step": 22
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.242187261581421,
	"learning_rate": 5.75e-05,
	"loss": 3.865,
	"step": 23
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.2873363494873047,
	"learning_rate": 6e-05,
	"loss": 3.8585,
	"step": 24
	},
	{
	"epoch": 0.02,
	"grad_norm": 1.1170119047164917,
	"learning_rate": 6.25e-05,
	"loss": 3.8948,
	"step": 25
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.1938223838806152,
	"learning_rate": 6.500000000000001e-05,
	"loss": 3.8009,
	"step": 26
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.3068759441375732,
	"learning_rate": 6.75e-05,
	"loss": 3.6811,
	"step": 27
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.280858039855957,
	"learning_rate": 7.000000000000001e-05,
	"loss": 3.9975,
	"step": 28
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.3869880437850952,
	"learning_rate": 7.25e-05,
	"loss": 3.5562,
	"step": 29
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.3908005952835083,
	"learning_rate": 7.5e-05,
	"loss": 3.296,
	"step": 30
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.622360348701477,
	"learning_rate": 7.75e-05,
	"loss": 3.8233,
	"step": 31
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.5797035694122314,
	"learning_rate": 8e-05,
	"loss": 3.6274,
	"step": 32
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.816627025604248,
	"learning_rate": 8.25e-05,
	"loss": 3.3872,
	"step": 33
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.1191844940185547,
	"learning_rate": 8.5e-05,
	"loss": 3.5982,
	"step": 34
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.9559025764465332,
	"learning_rate": 8.75e-05,
	"loss": 3.5972,
	"step": 35
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.6593563556671143,
	"learning_rate": 8.999999999999999e-05,
	"loss": 3.3982,
	"step": 36
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.0360360145568848,
	"learning_rate": 9.25e-05,
	"loss": 3.5185,
	"step": 37
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.9218908548355103,
	"learning_rate": 9.5e-05,
	"loss": 3.5998,
	"step": 38
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.6969695091247559,
	"learning_rate": 9.750000000000001e-05,
	"loss": 3.2894,
	"step": 39
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.6107378005981445,
	"learning_rate": 0.0001,
	"loss": 3.3074,
	"step": 40
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.6574798822402954,
	"learning_rate": 0.0001025,
	"loss": 3.4148,
	"step": 41
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.8693658113479614,
	"learning_rate": 0.000105,
	"loss": 3.4726,
	"step": 42
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.4956166744232178,
	"learning_rate": 0.0001075,
	"loss": 2.9462,
	"step": 43
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.6204662322998047,
	"learning_rate": 0.00011,
	"loss": 3.1303,
	"step": 44
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.8228565454483032,
	"learning_rate": 0.00011250000000000001,
	"loss": 3.9787,
	"step": 45
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.6097328662872314,
	"learning_rate": 0.000115,
	"loss": 2.9556,
	"step": 46
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.843204140663147,
	"learning_rate": 0.0001175,
	"loss": 3.0469,
	"step": 47
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.8468220233917236,
	"learning_rate": 0.00012,
	"loss": 3.1549,
	"step": 48
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.8635084629058838,
	"learning_rate": 0.0001225,
	"loss": 3.2309,
	"step": 49
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.9674320220947266,
	"learning_rate": 0.000125,
	"loss": 3.264,
	"step": 50
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.514456868171692,
	"learning_rate": 0.0001275,
	"loss": 2.895,
	"step": 51
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.8026971817016602,
	"learning_rate": 0.00013000000000000002,
	"loss": 2.9692,
	"step": 52
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.872318983078003,
	"learning_rate": 0.00013250000000000002,
	"loss": 3.7424,
	"step": 53
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.7249802350997925,
	"learning_rate": 0.000135,
	"loss": 2.941,
	"step": 54
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.677011489868164,
	"learning_rate": 0.0001375,
	"loss": 3.3312,
	"step": 55
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.9033194780349731,
	"learning_rate": 0.00014000000000000001,
	"loss": 2.5066,
	"step": 56
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.9987455606460571,
	"learning_rate": 0.0001425,
	"loss": 3.4693,
	"step": 57
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.9788786172866821,
	"learning_rate": 0.000145,
	"loss": 2.8805,
	"step": 58
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.7737230062484741,
	"learning_rate": 0.0001475,
	"loss": 2.8758,
	"step": 59
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.7360577583312988,
	"learning_rate": 0.00015,
	"loss": 3.4,
	"step": 60
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.982911229133606,
	"learning_rate": 0.0001525,
	"loss": 2.779,
	"step": 61
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.9741348028182983,
	"learning_rate": 0.000155,
	"loss": 3.3381,
	"step": 62
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.060384750366211,
	"learning_rate": 0.0001575,
	"loss": 3.6285,
	"step": 63
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.6591861248016357,
	"learning_rate": 0.00016,
	"loss": 3.1691,
	"step": 64
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.8308738470077515,
	"learning_rate": 0.00016250000000000002,
	"loss": 3.3354,
	"step": 65
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.8891240358352661,
	"learning_rate": 0.000165,
	"loss": 3.2649,
	"step": 66
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.697945237159729,
	"learning_rate": 0.0001675,
	"loss": 2.8464,
	"step": 67
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.6797360181808472,
	"learning_rate": 0.00017,
	"loss": 3.3645,
	"step": 68
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.964936375617981,
	"learning_rate": 0.0001725,
	"loss": 2.6052,
	"step": 69
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.081937313079834,
	"learning_rate": 0.000175,
	"loss": 3.3901,
	"step": 70
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.8318378925323486,
	"learning_rate": 0.0001775,
	"loss": 3.2655,
	"step": 71
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.757249116897583,
	"learning_rate": 0.00017999999999999998,
	"loss": 3.254,
	"step": 72
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.8252121210098267,
	"learning_rate": 0.0001825,
	"loss": 2.5852,
	"step": 73
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.0867161750793457,
	"learning_rate": 0.000185,
	"loss": 2.8474,
	"step": 74
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.1990573406219482,
	"learning_rate": 0.0001875,
	"loss": 2.5813,
	"step": 75
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.1143388748168945,
	"learning_rate": 0.00019,
	"loss": 3.1759,
	"step": 76
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.1437313556671143,
	"learning_rate": 0.00019250000000000002,
	"loss": 2.7499,
	"step": 77
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.0984110832214355,
	"learning_rate": 0.00019500000000000002,
	"loss": 2.6248,
	"step": 78
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.28216290473938,
	"learning_rate": 0.0001975,
	"loss": 2.5725,
	"step": 79
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.966034173965454,
	"learning_rate": 0.0002,
	"loss": 3.0547,
	"step": 80
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.117560625076294,
	"learning_rate": 0.00020250000000000002,
	"loss": 3.1316,
	"step": 81
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.8826152086257935,
	"learning_rate": 0.000205,
	"loss": 2.8674,
	"step": 82
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.997240424156189,
	"learning_rate": 0.0002075,
	"loss": 2.4458,
	"step": 83
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.6871142387390137,
	"learning_rate": 0.00021,
	"loss": 2.814,
	"step": 84
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.066634178161621,
	"learning_rate": 0.0002125,
	"loss": 3.2066,
	"step": 85
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.9600077867507935,
	"learning_rate": 0.000215,
	"loss": 3.2272,
	"step": 86
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.1469485759735107,
	"learning_rate": 0.0002175,
	"loss": 3.4447,
	"step": 87
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.944505214691162,
	"learning_rate": 0.00022,
	"loss": 2.5898,
	"step": 88
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.3109183311462402,
	"learning_rate": 0.00022250000000000001,
	"loss": 2.771,
	"step": 89
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.174560070037842,
	"learning_rate": 0.00022500000000000002,
	"loss": 3.0631,
	"step": 90
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.8415343761444092,
	"learning_rate": 0.0002275,
	"loss": 3.123,
	"step": 91
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.104952096939087,
	"learning_rate": 0.00023,
	"loss": 3.1166,
	"step": 92
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.3860461711883545,
	"learning_rate": 0.0002325,
	"loss": 3.048,
	"step": 93
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.132197856903076,
	"learning_rate": 0.000235,
	"loss": 2.7315,
	"step": 94
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.7788770198822021,
	"learning_rate": 0.0002375,
	"loss": 3.127,
	"step": 95
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.8100048303604126,
	"learning_rate": 0.00024,
	"loss": 2.3229,
	"step": 96
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.7176936864852905,
	"learning_rate": 0.00024249999999999999,
	"loss": 2.8595,
	"step": 97
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.920607089996338,
	"learning_rate": 0.000245,
	"loss": 2.6285,
	"step": 98
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.8976895809173584,
	"learning_rate": 0.0002475,
	"loss": 2.3511,
	"step": 99
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.0189640522003174,
	"learning_rate": 0.00025,
	"loss": 2.7418,
	"step": 100
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.9701827764511108,
	"learning_rate": 0.00024999993182517067,
	"loss": 2.0604,
	"step": 101
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.252211570739746,
	"learning_rate": 0.00024999972730075704,
	"loss": 2.6496,
	"step": 102
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1773853302001953,
	"learning_rate": 0.0002499993864269822,
	"loss": 2.8563,
	"step": 103
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.173621654510498,
	"learning_rate": 0.00024999890920421796,
	"loss": 2.5704,
	"step": 104
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.8827345371246338,
	"learning_rate": 0.0002499982956329849,
	"loss": 2.7194,
	"step": 105
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.4898743629455566,
	"learning_rate": 0.00024999754571395234,
	"loss": 3.4996,
	"step": 106
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.006110191345215,
	"learning_rate": 0.00024999665944793815,
	"loss": 2.7179,
	"step": 107
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.0414044857025146,
	"learning_rate": 0.00024999563683590924,
	"loss": 2.9323,
	"step": 108
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.1107375621795654,
	"learning_rate": 0.0002499944778789809,
	"loss": 2.4901,
	"step": 109
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.8949179649353027,
	"learning_rate": 0.0002499931825784175,
	"loss": 2.6771,
	"step": 110
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.852339267730713,
	"learning_rate": 0.00024999175093563185,
	"loss": 2.5123,
	"step": 111
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.7306336164474487,
	"learning_rate": 0.0002499901829521856,
	"loss": 2.7333,
	"step": 112
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.1602630615234375,
	"learning_rate": 0.000249988478629789,
	"loss": 3.2803,
	"step": 113
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.8918505907058716,
	"learning_rate": 0.0002499866379703013,
	"loss": 2.7467,
	"step": 114
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.9145008325576782,
	"learning_rate": 0.0002499846609757302,
	"loss": 2.7413,
	"step": 115
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.8250600099563599,
	"learning_rate": 0.00024998254764823215,
	"loss": 2.5852,
	"step": 116
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.1568727493286133,
	"learning_rate": 0.0002499802979901124,
	"loss": 2.7673,
	"step": 117
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.7749338150024414,
	"learning_rate": 0.0002499779120038249,
	"loss": 2.4479,
	"step": 118
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.7486765384674072,
	"learning_rate": 0.0002499753896919723,
	"loss": 1.8766,
	"step": 119
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.076768159866333,
	"learning_rate": 0.0002499727310573059,
	"loss": 1.8791,
	"step": 120
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.604339599609375,
	"learning_rate": 0.00024996993610272567,
	"loss": 2.0573,
	"step": 121
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.116293430328369,
	"learning_rate": 0.00024996700483128037,
	"loss": 2.7077,
	"step": 122
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.233560800552368,
	"learning_rate": 0.0002499639372461675,
	"loss": 3.1111,
	"step": 123
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.750420093536377,
	"learning_rate": 0.0002499607333507331,
	"loss": 2.4861,
	"step": 124
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.8790860176086426,
	"learning_rate": 0.000249957393148472,
	"loss": 2.5195,
	"step": 125
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.7548282146453857,
	"learning_rate": 0.0002499539166430276,
	"loss": 2.5072,
	"step": 126
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.8878798484802246,
	"learning_rate": 0.0002499503038381922,
	"loss": 2.3164,
	"step": 127
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.040093421936035,
	"learning_rate": 0.00024994655473790657,
	"loss": 2.0806,
	"step": 128
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.9570492506027222,
	"learning_rate": 0.0002499426693462602,
	"loss": 2.7483,
	"step": 129
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.9189451932907104,
	"learning_rate": 0.0002499386476674913,
	"loss": 2.4365,
	"step": 130
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.840690016746521,
	"learning_rate": 0.0002499344897059867,
	"loss": 2.2675,
	"step": 131
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.0497002601623535,
	"learning_rate": 0.0002499301954662818,
	"loss": 2.3665,
	"step": 132
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.057999849319458,
	"learning_rate": 0.0002499257649530609,
	"loss": 2.2258,
	"step": 133
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1040830612182617,
	"learning_rate": 0.00024992119817115674,
	"loss": 2.9013,
	"step": 134
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1239287853240967,
	"learning_rate": 0.0002499164951255507,
	"loss": 2.4111,
	"step": 135
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.246864080429077,
	"learning_rate": 0.00024991165582137286,
	"loss": 2.1288,
	"step": 136
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.854050874710083,
	"learning_rate": 0.000249906680263902,
	"loss": 2.308,
	"step": 137
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.7639249563217163,
	"learning_rate": 0.0002499015684585654,
	"loss": 2.1624,
	"step": 138
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.9622340202331543,
	"learning_rate": 0.0002498963204109389,
	"loss": 1.7293,
	"step": 139
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.9182345867156982,
	"learning_rate": 0.0002498909361267472,
	"loss": 2.5676,
	"step": 140
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.546036720275879,
	"learning_rate": 0.0002498854156118634,
	"loss": 2.0416,
	"step": 141
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.7901947498321533,
	"learning_rate": 0.0002498797588723093,
	"loss": 2.3867,
	"step": 142
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.682002305984497,
	"learning_rate": 0.00024987396591425517,
	"loss": 2.2,
	"step": 143
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.1231274604797363,
	"learning_rate": 0.00024986803674402003,
	"loss": 2.7393,
	"step": 144
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.7583919763565063,
	"learning_rate": 0.0002498619713680714,
	"loss": 2.2841,
	"step": 145
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.6599968671798706,
	"learning_rate": 0.00024985576979302533,
	"loss": 1.9753,
	"step": 146
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.5316509008407593,
	"learning_rate": 0.00024984943202564655,
	"loss": 1.9288,
	"step": 147
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.8190314769744873,
	"learning_rate": 0.0002498429580728482,
	"loss": 2.2112,
	"step": 148
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.7357500791549683,
	"learning_rate": 0.00024983634794169214,
	"loss": 2.2501,
	"step": 149
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.8484951257705688,
	"learning_rate": 0.0002498296016393886,
	"loss": 1.7479,
	"step": 150
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.765267252922058,
	"learning_rate": 0.00024982271917329646,
	"loss": 2.5703,
	"step": 151
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.6502829790115356,
	"learning_rate": 0.0002498157005509231,
	"loss": 2.7001,
	"step": 152
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.010906934738159,
	"learning_rate": 0.0002498085457799244,
	"loss": 2.8633,
	"step": 153
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.850074052810669,
	"learning_rate": 0.00024980125486810477,
	"loss": 2.2063,
	"step": 154
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.9126758575439453,
	"learning_rate": 0.00024979382782341713,
	"loss": 2.1976,
	"step": 155
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.0436511039733887,
	"learning_rate": 0.00024978626465396286,
	"loss": 2.3515,
	"step": 156
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.3156819343566895,
	"learning_rate": 0.0002497785653679919,
	"loss": 2.7545,
	"step": 157
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.9115028381347656,
	"learning_rate": 0.00024977072997390247,
	"loss": 2.206,
	"step": 158
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.8286609649658203,
	"learning_rate": 0.00024976275848024156,
	"loss": 2.371,
	"step": 159
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.6878124475479126,
	"learning_rate": 0.0002497546508957044,
	"loss": 2.1747,
	"step": 160
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.893005132675171,
	"learning_rate": 0.00024974640722913465,
	"loss": 1.7254,
	"step": 161
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.11098313331604,
	"learning_rate": 0.0002497380274895246,
	"loss": 2.5951,
	"step": 162
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.7469336986541748,
	"learning_rate": 0.00024972951168601476,
	"loss": 2.2754,
	"step": 163
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.835694670677185,
	"learning_rate": 0.00024972085982789415,
	"loss": 2.1267,
	"step": 164
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.6754062175750732,
	"learning_rate": 0.0002497120719246002,
	"loss": 1.9974,
	"step": 165
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.8209201097488403,
	"learning_rate": 0.0002497031479857188,
	"loss": 2.5032,
	"step": 166
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.76840341091156,
	"learning_rate": 0.000249694088020984,
	"loss": 1.7389,
	"step": 167
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.552156925201416,
	"learning_rate": 0.00024968489204027863,
	"loss": 1.8085,
	"step": 168
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.761948585510254,
	"learning_rate": 0.0002496755600536334,
	"loss": 2.0805,
	"step": 169
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.200204372406006,
	"learning_rate": 0.0002496660920712277,
	"loss": 2.0036,
	"step": 170
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.8660489320755005,
	"learning_rate": 0.0002496564881033892,
	"loss": 2.1293,
	"step": 171
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.33247709274292,
	"learning_rate": 0.00024964674816059393,
	"loss": 2.3811,
	"step": 172
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.8773770332336426,
	"learning_rate": 0.00024963687225346604,
	"loss": 1.9161,
	"step": 173
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.1089746952056885,
	"learning_rate": 0.0002496268603927783,
	"loss": 2.5818,
	"step": 174
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.0784616470336914,
	"learning_rate": 0.00024961671258945156,
	"loss": 2.0916,
	"step": 175
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.8207252025604248,
	"learning_rate": 0.000249606428854555,
	"loss": 2.3204,
	"step": 176
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.9220213890075684,
	"learning_rate": 0.00024959600919930607,
	"loss": 2.5432,
	"step": 177
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.8817466497421265,
	"learning_rate": 0.0002495854536350706,
	"loss": 2.4326,
	"step": 178
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.8520444631576538,
	"learning_rate": 0.0002495747621733625,
	"loss": 1.9673,
	"step": 179
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.7097537517547607,
	"learning_rate": 0.00024956393482584397,
	"loss": 2.0189,
	"step": 180
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.8573436737060547,
	"learning_rate": 0.0002495529716043254,
	"loss": 2.0942,
	"step": 181
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.9761507511138916,
	"learning_rate": 0.00024954187252076564,
	"loss": 2.189,
	"step": 182
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.8549177646636963,
	"learning_rate": 0.00024953063758727137,
	"loss": 2.0821,
	"step": 183
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.7199348211288452,
	"learning_rate": 0.00024951926681609767,
	"loss": 1.9875,
	"step": 184
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.6276706457138062,
	"learning_rate": 0.00024950776021964775,
	"loss": 2.0707,
	"step": 185
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.5845235586166382,
	"learning_rate": 0.000249496117810473,
	"loss": 1.5413,
	"step": 186
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.7384014129638672,
	"learning_rate": 0.00024948433960127284,
	"loss": 2.1632,
	"step": 187
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0509490966796875,
	"learning_rate": 0.000249472425604895,
	"loss": 1.758,
	"step": 188
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.9983670711517334,
	"learning_rate": 0.0002494603758343352,
	"loss": 2.5845,
	"step": 189
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0809295177459717,
	"learning_rate": 0.0002494481903027373,
	"loss": 2.6146,
	"step": 190
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.7669973373413086,
	"learning_rate": 0.0002494358690233933,
	"loss": 2.0003,
	"step": 191
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.7728503942489624,
	"learning_rate": 0.0002494234120097431,
	"loss": 2.0072,
	"step": 192
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.9957607984542847,
	"learning_rate": 0.0002494108192753748,
	"loss": 2.2449,
	"step": 193
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.0449464321136475,
	"learning_rate": 0.0002493980908340246,
	"loss": 2.0996,
	"step": 194
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.8009361028671265,
	"learning_rate": 0.0002493852266995766,
	"loss": 2.0876,
	"step": 195
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.9847387075424194,
	"learning_rate": 0.00024937222688606303,
	"loss": 1.8041,
	"step": 196
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.0888640880584717,
	"learning_rate": 0.00024935909140766393,
	"loss": 2.4709,
	"step": 197
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.6796460151672363,
	"learning_rate": 0.0002493458202787075,
	"loss": 1.9681,
	"step": 198
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.6660256385803223,
	"learning_rate": 0.0002493324135136699,
	"loss": 2.5484,
	"step": 199
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.8919657468795776,
	"learning_rate": 0.0002493188711271751,
	"loss": 2.5249,
	"step": 200
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.8183636665344238,
	"learning_rate": 0.0002493051931339952,
	"loss": 1.8468,
	"step": 201
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.6800963878631592,
	"learning_rate": 0.0002492913795490501,
	"loss": 1.9648,
	"step": 202
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.8262184858322144,
	"learning_rate": 0.00024927743038740747,
	"loss": 2.0492,
	"step": 203
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.1556880474090576,
	"learning_rate": 0.0002492633456642832,
	"loss": 2.4633,
	"step": 204
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.7076188325881958,
	"learning_rate": 0.0002492491253950408,
	"loss": 2.1612,
	"step": 205
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.8892126083374023,
	"learning_rate": 0.0002492347695951917,
	"loss": 1.9447,
	"step": 206
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.873687744140625,
	"learning_rate": 0.0002492202782803952,
	"loss": 2.7744,
	"step": 207
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.7962186336517334,
	"learning_rate": 0.0002492056514664583,
	"loss": 2.0622,
	"step": 208
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.9481604099273682,
	"learning_rate": 0.00024919088916933597,
	"loss": 1.9443,
	"step": 209
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.7974705696105957,
	"learning_rate": 0.0002491759914051308,
	"loss": 2.3544,
	"step": 210
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.5557405948638916,
	"learning_rate": 0.00024916095819009336,
	"loss": 2.2321,
	"step": 211
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.729710340499878,
	"learning_rate": 0.0002491457895406218,
	"loss": 1.9179,
	"step": 212
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.6658893823623657,
	"learning_rate": 0.00024913048547326193,
	"loss": 2.088,
	"step": 213
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.6439865827560425,
	"learning_rate": 0.0002491150460047075,
	"loss": 1.8413,
	"step": 214
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.595862865447998,
	"learning_rate": 0.00024909947115179983,
	"loss": 2.0446,
	"step": 215
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.21343994140625,
	"learning_rate": 0.00024908376093152784,
	"loss": 2.841,
	"step": 216
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.7837032079696655,
	"learning_rate": 0.0002490679153610283,
	"loss": 1.8496,
	"step": 217
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.6079756021499634,
	"learning_rate": 0.00024905193445758545,
	"loss": 1.9118,
	"step": 218
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.9322482347488403,
	"learning_rate": 0.00024903581823863125,
	"loss": 2.2768,
	"step": 219
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.9454126358032227,
	"learning_rate": 0.0002490195667217452,
	"loss": 2.0224,
	"step": 220
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.8890690803527832,
	"learning_rate": 0.00024900317992465447,
	"loss": 1.9491,
	"step": 221
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.844327449798584,
	"learning_rate": 0.0002489866578652337,
	"loss": 2.3316,
	"step": 222
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.9561625719070435,
	"learning_rate": 0.00024897000056150505,
	"loss": 1.8929,
	"step": 223
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.812215805053711,
	"learning_rate": 0.0002489532080316383,
	"loss": 1.5681,
	"step": 224
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.7232577800750732,
	"learning_rate": 0.0002489362802939507,
	"loss": 2.2427,
	"step": 225
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.5524508953094482,
	"learning_rate": 0.00024891921736690703,
	"loss": 2.1043,
	"step": 226
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.5697345733642578,
	"learning_rate": 0.0002489020192691194,
	"loss": 1.9664,
	"step": 227
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.5127205848693848,
	"learning_rate": 0.0002488846860193475,
	"loss": 1.5816,
	"step": 228
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.036536693572998,
	"learning_rate": 0.0002488672176364984,
	"loss": 2.7449,
	"step": 229
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.9850804805755615,
	"learning_rate": 0.0002488496141396265,
	"loss": 1.8061,
	"step": 230
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.029428720474243,
	"learning_rate": 0.0002488318755479337,
	"loss": 1.7861,
	"step": 231
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.6909549236297607,
	"learning_rate": 0.00024881400188076923,
	"loss": 2.1058,
	"step": 232
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.7147257328033447,
	"learning_rate": 0.0002487959931576296,
	"loss": 1.6736,
	"step": 233
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.6619194746017456,
	"learning_rate": 0.00024877784939815863,
	"loss": 1.7423,
	"step": 234
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.7721213102340698,
	"learning_rate": 0.0002487595706221476,
	"loss": 1.4057,
	"step": 235
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.6098127365112305,
	"learning_rate": 0.00024874115684953485,
	"loss": 1.6113,
	"step": 236
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.2047505378723145,
	"learning_rate": 0.00024872260810040607,
	"loss": 2.5387,
	"step": 237
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.6279314756393433,
	"learning_rate": 0.0002487039243949943,
	"loss": 1.9872,
	"step": 238
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.795262098312378,
	"learning_rate": 0.0002486851057536795,
	"loss": 1.4461,
	"step": 239
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9134374856948853,
	"learning_rate": 0.00024866615219698915,
	"loss": 2.3969,
	"step": 240
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.6883046627044678,
	"learning_rate": 0.0002486470637455976,
	"loss": 2.2354,
	"step": 241
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.7430942058563232,
	"learning_rate": 0.00024862784042032666,
	"loss": 1.5288,
	"step": 242
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.6902698278427124,
	"learning_rate": 0.00024860848224214486,
	"loss": 2.102,
	"step": 243
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.5325380563735962,
	"learning_rate": 0.0002485889892321683,
	"loss": 1.3993,
	"step": 244
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.5996594429016113,
	"learning_rate": 0.00024856936141165963,
	"loss": 1.586,
	"step": 245
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.9675129652023315,
	"learning_rate": 0.00024854959880202905,
	"loss": 2.6326,
	"step": 246
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.9281418323516846,
	"learning_rate": 0.00024852970142483346,
	"loss": 2.3056,
	"step": 247
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.0125837326049805,
	"learning_rate": 0.00024850966930177687,
	"loss": 2.2092,
	"step": 248
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.904648780822754,
	"learning_rate": 0.00024848950245471023,
	"loss": 2.1627,
	"step": 249
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.7093470096588135,
	"learning_rate": 0.00024846920090563156,
	"loss": 1.9851,
	"step": 250
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.7834309339523315,
	"learning_rate": 0.0002484487646766857,
	"loss": 2.112,
	"step": 251
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.5248178243637085,
	"learning_rate": 0.0002484281937901644,
	"loss": 1.426,
	"step": 252
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.4602184295654297,
	"learning_rate": 0.0002484074882685063,
	"loss": 1.3696,
	"step": 253
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.773917555809021,
	"learning_rate": 0.0002483866481342971,
	"loss": 2.1261,
	"step": 254
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.692901611328125,
	"learning_rate": 0.000248365673410269,
	"loss": 2.3204,
	"step": 255
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.8946104049682617,
	"learning_rate": 0.0002483445641193012,
	"loss": 1.8685,
	"step": 256
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.919169306755066,
	"learning_rate": 0.0002483233202844197,
	"loss": 2.0433,
	"step": 257
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.84755277633667,
	"learning_rate": 0.00024830194192879715,
	"loss": 2.2363,
	"step": 258
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.112445116043091,
	"learning_rate": 0.00024828042907575304,
	"loss": 2.6892,
	"step": 259
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.6115814447402954,
	"learning_rate": 0.0002482587817487536,
	"loss": 1.8159,
	"step": 260
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.6731853485107422,
	"learning_rate": 0.00024823699997141154,
	"loss": 2.1162,
	"step": 261
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.5666356086730957,
	"learning_rate": 0.0002482150837674864,
	"loss": 1.8052,
	"step": 262
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.5038379430770874,
	"learning_rate": 0.0002481930331608844,
	"loss": 1.8459,
	"step": 263
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.5254186391830444,
	"learning_rate": 0.00024817084817565827,
	"loss": 1.9475,
	"step": 264
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.7081129550933838,
	"learning_rate": 0.0002481485288360072,
	"loss": 2.4121,
	"step": 265
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.9189531803131104,
	"learning_rate": 0.0002481260751662772,
	"loss": 2.4579,
	"step": 266
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.6706724166870117,
	"learning_rate": 0.00024810348719096065,
	"loss": 1.6386,
	"step": 267
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.539415717124939,
	"learning_rate": 0.0002480807649346964,
	"loss": 1.6492,
	"step": 268
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.747955560684204,
	"learning_rate": 0.00024805790842226985,
	"loss": 1.6512,
	"step": 269
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.6738513708114624,
	"learning_rate": 0.0002480349176786128,
	"loss": 1.7555,
	"step": 270
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.9724032878875732,
	"learning_rate": 0.0002480117927288035,
	"loss": 1.6291,
	"step": 271
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.6531236171722412,
	"learning_rate": 0.00024798853359806665,
	"loss": 1.6063,
	"step": 272
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.9296516180038452,
	"learning_rate": 0.0002479651403117732,
	"loss": 1.4847,
	"step": 273
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.7940136194229126,
	"learning_rate": 0.0002479416128954404,
	"loss": 2.4839,
	"step": 274
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.010266065597534,
	"learning_rate": 0.00024791795137473204,
	"loss": 1.7243,
	"step": 275
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.8504762649536133,
	"learning_rate": 0.00024789415577545793,
	"loss": 1.9652,
	"step": 276
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.4306342601776123,
	"learning_rate": 0.0002478702261235743,
	"loss": 1.5664,
	"step": 277
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.6604520082473755,
	"learning_rate": 0.0002478461624451835,
	"loss": 2.0659,
	"step": 278
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.0522496700286865,
	"learning_rate": 0.0002478219647665342,
	"loss": 1.9088,
	"step": 279
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.6429219245910645,
	"learning_rate": 0.0002477976331140211,
	"loss": 1.7491,
	"step": 280
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.397255301475525,
	"learning_rate": 0.00024777316751418515,
	"loss": 1.3155,
	"step": 281
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.5616679191589355,
	"learning_rate": 0.00024774856799371326,
	"loss": 1.8068,
	"step": 282
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.7590296268463135,
	"learning_rate": 0.00024772383457943864,
	"loss": 1.7305,
	"step": 283
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.6376055479049683,
	"learning_rate": 0.00024769896729834036,
	"loss": 1.7105,
	"step": 284
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.385542392730713,
	"learning_rate": 0.00024767396617754364,
	"loss": 1.605,
	"step": 285
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.827626347541809,
	"learning_rate": 0.0002476488312443195,
	"loss": 2.032,
	"step": 286
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.1502676010131836,
	"learning_rate": 0.00024762356252608527,
	"loss": 1.9228,
	"step": 287
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.5369927883148193,
	"learning_rate": 0.00024759816005040384,
	"loss": 1.3886,
	"step": 288
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.7193357944488525,
	"learning_rate": 0.0002475726238449842,
	"loss": 2.0007,
	"step": 289
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.561558246612549,
	"learning_rate": 0.00024754695393768114,
	"loss": 2.6965,
	"step": 290
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.2155981063842773,
	"learning_rate": 0.0002475211503564954,
	"loss": 1.678,
	"step": 291
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.59506356716156,
	"learning_rate": 0.00024749521312957337,
	"loss": 1.7036,
	"step": 292
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.5700795650482178,
	"learning_rate": 0.0002474691422852074,
	"loss": 1.5835,
	"step": 293
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.8655942678451538,
	"learning_rate": 0.00024744293785183537,
	"loss": 1.6957,
	"step": 294
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.434198260307312,
	"learning_rate": 0.00024741659985804115,
	"loss": 1.5576,
	"step": 295
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.4937015771865845,
	"learning_rate": 0.0002473901283325541,
	"loss": 1.7204,
	"step": 296
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.9438872337341309,
	"learning_rate": 0.00024736352330424923,
	"loss": 2.2574,
	"step": 297
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.8500808477401733,
	"learning_rate": 0.0002473367848021473,
	"loss": 2.2356,
	"step": 298
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.6820452213287354,
	"learning_rate": 0.00024730991285541455,
	"loss": 2.7996,
	"step": 299
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.6098867654800415,
	"learning_rate": 0.0002472829074933628,
	"loss": 2.0764,
	"step": 300
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.763376235961914,
	"learning_rate": 0.00024725576874544956,
	"loss": 2.1674,
	"step": 301
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.7412651777267456,
	"learning_rate": 0.0002472284966412776,
	"loss": 2.2091,
	"step": 302
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.690738320350647,
	"learning_rate": 0.00024720109121059524,
	"loss": 2.1094,
	"step": 303
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.3498783111572266,
	"learning_rate": 0.00024717355248329625,
	"loss": 1.8,
	"step": 304
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.6631073951721191,
	"learning_rate": 0.00024714588048941987,
	"loss": 2.251,
	"step": 305
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.7227246761322021,
	"learning_rate": 0.0002471180752591506,
	"loss": 1.8822,
	"step": 306
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.7856996059417725,
	"learning_rate": 0.00024709013682281826,
	"loss": 1.914,
	"step": 307
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.0128395557403564,
	"learning_rate": 0.0002470620652108981,
	"loss": 2.0113,
	"step": 308
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.4962693452835083,
	"learning_rate": 0.00024703386045401047,
	"loss": 1.7985,
	"step": 309
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.5838319063186646,
	"learning_rate": 0.0002470055225829211,
	"loss": 1.5443,
	"step": 310
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.6290487051010132,
	"learning_rate": 0.0002469770516285409,
	"loss": 1.6863,
	"step": 311
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.46754789352417,
	"learning_rate": 0.0002469484476219259,
	"loss": 1.6632,
	"step": 312
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.8494882583618164,
	"learning_rate": 0.00024691971059427717,
	"loss": 1.7439,
	"step": 313
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.868640661239624,
	"learning_rate": 0.000246890840576941,
	"loss": 2.0376,
	"step": 314
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.553097128868103,
	"learning_rate": 0.0002468618376014088,
	"loss": 1.9508,
	"step": 315
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.6028902530670166,
	"learning_rate": 0.000246832701699317,
	"loss": 1.5764,
	"step": 316
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.1267387866973877,
	"learning_rate": 0.0002468034329024468,
	"loss": 1.8886,
	"step": 317
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.5905228853225708,
	"learning_rate": 0.00024677403124272456,
	"loss": 1.8134,
	"step": 318
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.4769141674041748,
	"learning_rate": 0.0002467444967522216,
	"loss": 1.2115,
	"step": 319
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.4753649234771729,
	"learning_rate": 0.000246714829463154,
	"loss": 1.653,
	"step": 320
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.6038315296173096,
	"learning_rate": 0.0002466850294078828,
	"loss": 2.1011,
	"step": 321
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.7277235984802246,
	"learning_rate": 0.00024665509661891385,
	"loss": 2.1318,
	"step": 322
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.6639180183410645,
	"learning_rate": 0.0002466250311288977,
	"loss": 1.6277,
	"step": 323
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.660370111465454,
	"learning_rate": 0.00024659483297062964,
	"loss": 2.112,
	"step": 324
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.7722567319869995,
	"learning_rate": 0.0002465645021770499,
	"loss": 2.0158,
	"step": 325
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.559173583984375,
	"learning_rate": 0.00024653403878124305,
	"loss": 1.8675,
	"step": 326
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.679623007774353,
	"learning_rate": 0.0002465034428164386,
	"loss": 1.844,
	"step": 327
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.72882878780365,
	"learning_rate": 0.00024647271431601055,
	"loss": 2.2323,
	"step": 328
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.4677948951721191,
	"learning_rate": 0.00024644185331347735,
	"loss": 1.8718,
	"step": 329
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.5333250761032104,
	"learning_rate": 0.00024641085984250223,
	"loss": 2.0585,
	"step": 330
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.307824730873108,
	"learning_rate": 0.0002463797339368927,
	"loss": 1.8447,
	"step": 331
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.6973696947097778,
	"learning_rate": 0.0002463484756306009,
	"loss": 1.5235,
	"step": 332
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.3276690244674683,
	"learning_rate": 0.0002463170849577232,
	"loss": 1.9472,
	"step": 333
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.557236671447754,
	"learning_rate": 0.0002462855619525005,
	"loss": 1.6783,
	"step": 334
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.6383414268493652,
	"learning_rate": 0.000246253906649318,
	"loss": 1.4636,
	"step": 335
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.4756358861923218,
	"learning_rate": 0.0002462221190827053,
	"loss": 1.4215,
	"step": 336
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.6746768951416016,
	"learning_rate": 0.000246190199287336,
	"loss": 1.7268,
	"step": 337
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.8532724380493164,
	"learning_rate": 0.00024615814729802833,
	"loss": 2.2173,
	"step": 338
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.8261704444885254,
	"learning_rate": 0.0002461259631497444,
	"loss": 1.6643,
	"step": 339
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.6665236949920654,
	"learning_rate": 0.0002460936468775907,
	"loss": 1.9251,
	"step": 340
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.5993882417678833,
	"learning_rate": 0.00024606119851681757,
	"loss": 1.4908,
	"step": 341
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.8725510835647583,
	"learning_rate": 0.00024602861810281966,
	"loss": 2.1784,
	"step": 342
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.803350567817688,
	"learning_rate": 0.0002459959056711357,
	"loss": 2.11,
	"step": 343
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.6295034885406494,
	"learning_rate": 0.00024596306125744815,
	"loss": 1.777,
	"step": 344
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.189607858657837,
	"learning_rate": 0.00024593008489758375,
	"loss": 2.4662,
	"step": 345
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.835728645324707,
	"learning_rate": 0.0002458969766275129,
	"loss": 1.8764,
	"step": 346
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.6741111278533936,
	"learning_rate": 0.00024586373648335014,
	"loss": 1.8256,
	"step": 347
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.5066823959350586,
	"learning_rate": 0.0002458303645013536,
	"loss": 1.4491,
	"step": 348
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.439063549041748,
	"learning_rate": 0.00024579686071792543,
	"loss": 1.8896,
	"step": 349
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.2669867277145386,
	"learning_rate": 0.0002457632251696115,
	"loss": 1.7784,
	"step": 350
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.4590708017349243,
	"learning_rate": 0.00024572945789310123,
	"loss": 1.5708,
	"step": 351
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.7421554327011108,
	"learning_rate": 0.000245695558925228,
	"loss": 2.0778,
	"step": 352
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.5311520099639893,
	"learning_rate": 0.00024566152830296875,
	"loss": 1.4703,
	"step": 353
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.9303866624832153,
	"learning_rate": 0.0002456273660634438,
	"loss": 2.0816,
	"step": 354
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.5437086820602417,
	"learning_rate": 0.0002455930722439174,
	"loss": 1.4711,
	"step": 355
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.50086510181427,
	"learning_rate": 0.0002455586468817971,
	"loss": 1.8523,
	"step": 356
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.5427656173706055,
	"learning_rate": 0.00024552409001463393,
	"loss": 1.6157,
	"step": 357
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.7002308368682861,
	"learning_rate": 0.00024548940168012253,
	"loss": 1.724,
	"step": 358
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.5757559537887573,
	"learning_rate": 0.0002454545819161008,
	"loss": 1.663,
	"step": 359
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.4780895709991455,
	"learning_rate": 0.00024541963076055,
	"loss": 1.488,
	"step": 360
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.7047303915023804,
	"learning_rate": 0.00024538454825159486,
	"loss": 2.0954,
	"step": 361
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.9181485176086426,
	"learning_rate": 0.00024534933442750317,
	"loss": 1.5492,
	"step": 362
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.150815010070801,
	"learning_rate": 0.0002453139893266861,
	"loss": 2.1316,
	"step": 363
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.663496732711792,
	"learning_rate": 0.00024527851298769803,
	"loss": 1.9913,
	"step": 364
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.6102313995361328,
	"learning_rate": 0.00024524290544923643,
	"loss": 1.8153,
	"step": 365
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.003488302230835,
	"learning_rate": 0.0002452071667501419,
	"loss": 2.0315,
	"step": 366
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.4711098670959473,
	"learning_rate": 0.0002451712969293982,
	"loss": 1.4064,
	"step": 367
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.4077496528625488,
	"learning_rate": 0.0002451352960261319,
	"loss": 1.8027,
	"step": 368
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.4813429117202759,
	"learning_rate": 0.0002450991640796127,
	"loss": 1.9595,
	"step": 369
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.755618929862976,
	"learning_rate": 0.00024506290112925335,
	"loss": 1.8781,
	"step": 370
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.6948919296264648,
	"learning_rate": 0.00024502650721460926,
	"loss": 1.3217,
	"step": 371
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.6204948425292969,
	"learning_rate": 0.00024498998237537883,
	"loss": 1.7845,
	"step": 372
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.4599529504776,
	"learning_rate": 0.00024495332665140337,
	"loss": 1.8832,
	"step": 373
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.5336644649505615,
	"learning_rate": 0.00024491654008266666,
	"loss": 1.7582,
	"step": 374
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.6207972764968872,
	"learning_rate": 0.00024487962270929546,
	"loss": 1.6177,
	"step": 375
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.5989536046981812,
	"learning_rate": 0.0002448425745715592,
	"loss": 2.1292,
	"step": 376
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.7636903524398804,
	"learning_rate": 0.0002448053957098699,
	"loss": 1.8165,
	"step": 377
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.6132402420043945,
	"learning_rate": 0.0002447680861647821,
	"loss": 1.8227,
	"step": 378
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.8587868213653564,
	"learning_rate": 0.0002447306459769929,
	"loss": 2.365,
	"step": 379
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.4449355602264404,
	"learning_rate": 0.000244693075187342,
	"loss": 1.8724,
	"step": 380
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.2807527780532837,
	"learning_rate": 0.0002446553738368116,
	"loss": 1.7084,
	"step": 381
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.2705549001693726,
	"learning_rate": 0.0002446175419665261,
	"loss": 1.5953,
	"step": 382
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.444528341293335,
	"learning_rate": 0.00024457957961775253,
	"loss": 1.7351,
	"step": 383
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.6186937093734741,
	"learning_rate": 0.00024454148683189996,
	"loss": 2.1234,
	"step": 384
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.2942836284637451,
	"learning_rate": 0.00024450326365052,
	"loss": 1.5367,
	"step": 385
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.3657950162887573,
	"learning_rate": 0.0002444649101153064,
	"loss": 1.417,
	"step": 386
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.2977917194366455,
	"learning_rate": 0.0002444264262680951,
	"loss": 1.6442,
	"step": 387
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.5234405994415283,
	"learning_rate": 0.0002443878121508641,
	"loss": 1.7331,
	"step": 388
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.580356478691101,
	"learning_rate": 0.00024434906780573356,
	"loss": 1.5812,
	"step": 389
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.5635511875152588,
	"learning_rate": 0.0002443101932749658,
	"loss": 1.7743,
	"step": 390
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.4234613180160522,
	"learning_rate": 0.00024427118860096504,
	"loss": 1.9202,
	"step": 391
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.8113735914230347,
	"learning_rate": 0.00024423205382627746,
	"loss": 2.3395,
	"step": 392
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.5529452562332153,
	"learning_rate": 0.0002441927889935911,
	"loss": 1.6039,
	"step": 393
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.3958035707473755,
	"learning_rate": 0.000244153394145736,
	"loss": 1.5429,
	"step": 394
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.723780632019043,
	"learning_rate": 0.0002441138693256839,
	"loss": 1.7384,
	"step": 395
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.403164029121399,
	"learning_rate": 0.00024407421457654845,
	"loss": 0.9538,
	"step": 396
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.4130743741989136,
	"learning_rate": 0.00024403442994158487,
	"loss": 1.9526,
	"step": 397
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.4831724166870117,
	"learning_rate": 0.00024399451546419017,
	"loss": 1.6449,
	"step": 398
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.6771824359893799,
	"learning_rate": 0.00024395447118790293,
	"loss": 1.7758,
	"step": 399
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.5150790214538574,
	"learning_rate": 0.00024391429715640335,
	"loss": 1.9961,
	"step": 400
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.5657678842544556,
	"learning_rate": 0.0002438739934135131,
	"loss": 1.5219,
	"step": 401
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.4939355850219727,
	"learning_rate": 0.00024383356000319548,
	"loss": 1.5112,
	"step": 402
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.6075009107589722,
	"learning_rate": 0.0002437929969695551,
	"loss": 1.4834,
	"step": 403
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.6066113710403442,
	"learning_rate": 0.000243752304356838,
	"loss": 1.655,
	"step": 404
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.713575005531311,
	"learning_rate": 0.0002437114822094316,
	"loss": 1.8589,
	"step": 405
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.6600104570388794,
	"learning_rate": 0.00024367053057186455,
	"loss": 1.9319,
	"step": 406
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.8421694040298462,
	"learning_rate": 0.0002436294494888068,
	"loss": 2.1056,
	"step": 407
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.7146579027175903,
	"learning_rate": 0.0002435882390050695,
	"loss": 2.3835,
	"step": 408
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.558237075805664,
	"learning_rate": 0.0002435468991656049,
	"loss": 1.972,
	"step": 409
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.5981314182281494,
	"learning_rate": 0.0002435054300155064,
	"loss": 1.8716,
	"step": 410
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.376088261604309,
	"learning_rate": 0.00024346383160000847,
	"loss": 1.6165,
	"step": 411
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.5061323642730713,
	"learning_rate": 0.0002434221039644865,
	"loss": 1.6584,
	"step": 412
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.7581522464752197,
	"learning_rate": 0.00024338024715445688,
	"loss": 1.9282,
	"step": 413
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.3032132387161255,
	"learning_rate": 0.00024333826121557695,
	"loss": 1.1937,
	"step": 414
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.632356882095337,
	"learning_rate": 0.0002432961461936448,
	"loss": 2.075,
	"step": 415
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.2259700298309326,
	"learning_rate": 0.00024325390213459944,
	"loss": 1.1513,
	"step": 416
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.721431016921997,
	"learning_rate": 0.00024321152908452054,
	"loss": 1.5305,
	"step": 417
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.5428179502487183,
	"learning_rate": 0.00024316902708962848,
	"loss": 1.7885,
	"step": 418
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.6045695543289185,
	"learning_rate": 0.0002431263961962844,
	"loss": 1.6599,
	"step": 419
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.6771968603134155,
	"learning_rate": 0.00024308363645098984,
	"loss": 1.6666,
	"step": 420
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.5328516960144043,
	"learning_rate": 0.00024304074790038716,
	"loss": 1.7956,
	"step": 421
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.6807280778884888,
	"learning_rate": 0.00024299773059125896,
	"loss": 1.7099,
	"step": 422
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.528563380241394,
	"learning_rate": 0.00024295458457052844,
	"loss": 1.5751,
	"step": 423
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.2582366466522217,
	"learning_rate": 0.00024291130988525917,
	"loss": 1.5967,
	"step": 424
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.5818768739700317,
	"learning_rate": 0.00024286790658265507,
	"loss": 2.0187,
	"step": 425
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.647545576095581,
	"learning_rate": 0.00024282437471006033,
	"loss": 2.2781,
	"step": 426
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.1883927583694458,
	"learning_rate": 0.00024278071431495937,
	"loss": 1.7889,
	"step": 427
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.8100999593734741,
	"learning_rate": 0.00024273692544497688,
	"loss": 1.6325,
	"step": 428
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.4264518022537231,
	"learning_rate": 0.0002426930081478776,
	"loss": 1.8201,
	"step": 429
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.2940385341644287,
	"learning_rate": 0.00024264896247156643,
	"loss": 1.508,
	"step": 430
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.3940926790237427,
	"learning_rate": 0.00024260478846408823,
	"loss": 1.317,
	"step": 431
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.3203697204589844,
	"learning_rate": 0.00024256048617362792,
	"loss": 1.5154,
	"step": 432
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.5709110498428345,
	"learning_rate": 0.00024251605564851032,
	"loss": 1.4274,
	"step": 433
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.4669488668441772,
	"learning_rate": 0.00024247149693720012,
	"loss": 1.5945,
	"step": 434
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.9155356884002686,
	"learning_rate": 0.00024242681008830184,
	"loss": 1.727,
	"step": 435
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.4303950071334839,
	"learning_rate": 0.00024238199515055976,
	"loss": 1.215,
	"step": 436
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.5403741598129272,
	"learning_rate": 0.0002423370521728579,
	"loss": 1.2804,
	"step": 437
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.0623433589935303,
	"learning_rate": 0.00024229198120421993,
	"loss": 1.5453,
	"step": 438
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.7625672817230225,
	"learning_rate": 0.00024224678229380913,
	"loss": 1.923,
	"step": 439
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.7964345216751099,
	"learning_rate": 0.00024220145549092842,
	"loss": 1.68,
	"step": 440
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.8445159196853638,
	"learning_rate": 0.00024215600084502006,
	"loss": 1.8517,
	"step": 441
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.7241743803024292,
	"learning_rate": 0.0002421104184056659,
	"loss": 1.8859,
	"step": 442
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.3813362121582031,
	"learning_rate": 0.00024206470822258713,
	"loss": 1.3435,
	"step": 443
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.6187509298324585,
	"learning_rate": 0.0002420188703456443,
	"loss": 1.9744,
	"step": 444
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.5142652988433838,
	"learning_rate": 0.00024197290482483725,
	"loss": 1.768,
	"step": 445
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.3997564315795898,
	"learning_rate": 0.000241926811710305,
	"loss": 1.6986,
	"step": 446
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.248969554901123,
	"learning_rate": 0.00024188059105232585,
	"loss": 1.2985,
	"step": 447
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.3714370727539062,
	"learning_rate": 0.00024183424290131716,
	"loss": 1.626,
	"step": 448
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.3766262531280518,
	"learning_rate": 0.0002417877673078353,
	"loss": 1.3913,
	"step": 449
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.621702790260315,
	"learning_rate": 0.00024174116432257583,
	"loss": 1.7584,
	"step": 450
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.6640499830245972,
	"learning_rate": 0.00024169443399637303,
	"loss": 1.7288,
	"step": 451
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.7537161111831665,
	"learning_rate": 0.00024164757638020032,
	"loss": 1.8502,
	"step": 452
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.614371657371521,
	"learning_rate": 0.00024160059152516982,
	"loss": 1.8407,
	"step": 453
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.3671376705169678,
	"learning_rate": 0.0002415534794825325,
	"loss": 1.7035,
	"step": 454
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.1287087202072144,
	"learning_rate": 0.00024150624030367797,
	"loss": 0.8822,
	"step": 455
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.104029893875122,
	"learning_rate": 0.0002414588740401347,
	"loss": 2.4046,
	"step": 456
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.5074779987335205,
	"learning_rate": 0.00024141138074356962,
	"loss": 1.4848,
	"step": 457
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.8815460205078125,
	"learning_rate": 0.00024136376046578835,
	"loss": 1.759,
	"step": 458
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.5019757747650146,
	"learning_rate": 0.00024131601325873487,
	"loss": 1.4991,
	"step": 459
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.6193299293518066,
	"learning_rate": 0.00024126813917449175,
	"loss": 1.818,
	"step": 460
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.4965165853500366,
	"learning_rate": 0.0002412201382652799,
	"loss": 1.4364,
	"step": 461
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.6111191511154175,
	"learning_rate": 0.00024117201058345862,
	"loss": 1.7969,
	"step": 462
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.6606050729751587,
	"learning_rate": 0.00024112375618152537,
	"loss": 1.8442,
	"step": 463
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.7113983631134033,
	"learning_rate": 0.00024107537511211603,
	"loss": 1.6806,
	"step": 464
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.5785653591156006,
	"learning_rate": 0.00024102686742800446,
	"loss": 1.6221,
	"step": 465
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.715955138206482,
	"learning_rate": 0.0002409782331821027,
	"loss": 1.8423,
	"step": 466
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.7139517068862915,
	"learning_rate": 0.00024092947242746094,
	"loss": 1.9045,
	"step": 467
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.2441296577453613,
	"learning_rate": 0.00024088058521726718,
	"loss": 1.809,
	"step": 468
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.487850546836853,
	"learning_rate": 0.00024083157160484752,
	"loss": 1.3382,
	"step": 469
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.3797458410263062,
	"learning_rate": 0.00024078243164366586,
	"loss": 1.3186,
	"step": 470
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.5861365795135498,
	"learning_rate": 0.0002407331653873239,
	"loss": 2.0695,
	"step": 471
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.4714101552963257,
	"learning_rate": 0.00024068377288956116,
	"loss": 1.8704,
	"step": 472
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.6222436428070068,
	"learning_rate": 0.00024063425420425485,
	"loss": 2.0155,
	"step": 473
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.7147741317749023,
	"learning_rate": 0.00024058460938541982,
	"loss": 2.2635,
	"step": 474
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.7251660823822021,
	"learning_rate": 0.0002405348384872085,
	"loss": 2.3124,
	"step": 475
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.4105515480041504,
	"learning_rate": 0.00024048494156391086,
	"loss": 1.5038,
	"step": 476
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.4747495651245117,
	"learning_rate": 0.0002404349186699543,
	"loss": 1.8607,
	"step": 477
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.4962126016616821,
	"learning_rate": 0.00024038476985990364,
	"loss": 1.9751,
	"step": 478
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.5216854810714722,
	"learning_rate": 0.00024033449518846112,
	"loss": 1.6452,
	"step": 479
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.7051867246627808,
	"learning_rate": 0.0002402840947104662,
	"loss": 1.5337,
	"step": 480
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.6586822271347046,
	"learning_rate": 0.00024023356848089557,
	"loss": 1.5478,
	"step": 481
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.2107691764831543,
	"learning_rate": 0.00024018291655486306,
	"loss": 1.278,
	"step": 482
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.4238454103469849,
	"learning_rate": 0.00024013213898761975,
	"loss": 1.6255,
	"step": 483
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.3502719402313232,
	"learning_rate": 0.0002400812358345536,
	"loss": 1.3436,
	"step": 484
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.2329463958740234,
	"learning_rate": 0.00024003020715118967,
	"loss": 2.3051,
	"step": 485
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.6358450651168823,
	"learning_rate": 0.00023997905299318983,
	"loss": 2.2955,
	"step": 486
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.5185836553573608,
	"learning_rate": 0.000239927773416353,
	"loss": 1.5445,
	"step": 487
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.5232542753219604,
	"learning_rate": 0.00023987636847661476,
	"loss": 1.6744,
	"step": 488
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.4239147901535034,
	"learning_rate": 0.00023982483823004747,
	"loss": 1.666,
	"step": 489
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.3807685375213623,
	"learning_rate": 0.00023977318273286018,
	"loss": 1.5856,
	"step": 490
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.573913812637329,
	"learning_rate": 0.00023972140204139858,
	"loss": 1.9832,
	"step": 491
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.556381344795227,
	"learning_rate": 0.0002396694962121449,
	"loss": 1.4315,
	"step": 492
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.7060798406600952,
	"learning_rate": 0.00023961746530171788,
	"loss": 1.7671,
	"step": 493
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.5967423915863037,
	"learning_rate": 0.0002395653093668727,
	"loss": 1.9734,
	"step": 494
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.390377402305603,
	"learning_rate": 0.00023951302846450087,
	"loss": 1.4402,
	"step": 495
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.330527663230896,
	"learning_rate": 0.00023946062265163033,
	"loss": 1.591,
	"step": 496
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.6965402364730835,
	"learning_rate": 0.00023940809198542512,
	"loss": 2.3242,
	"step": 497
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.51449716091156,
	"learning_rate": 0.0002393554365231856,
	"loss": 1.619,
	"step": 498
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.6005566120147705,
	"learning_rate": 0.00023930265632234816,
	"loss": 2.0559,
	"step": 499
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.4369415044784546,
	"learning_rate": 0.00023924975144048533,
	"loss": 1.4451,
	"step": 500
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.4336689710617065,
	"learning_rate": 0.00023919672193530565,
	"loss": 1.7534,
	"step": 501
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.449487566947937,
	"learning_rate": 0.00023914356786465348,
	"loss": 1.8109,
	"step": 502
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.439719319343567,
	"learning_rate": 0.00023909028928650918,
	"loss": 1.6258,
	"step": 503
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.702451229095459,
	"learning_rate": 0.00023903688625898887,
	"loss": 1.9753,
	"step": 504
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.1217689514160156,
	"learning_rate": 0.00023898335884034444,
	"loss": 1.0806,
	"step": 505
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.43269944190979,
	"learning_rate": 0.00023892970708896342,
	"loss": 2.2551,
	"step": 506
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.3758916854858398,
	"learning_rate": 0.00023887593106336903,
	"loss": 1.6455,
	"step": 507
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.348081350326538,
	"learning_rate": 0.00023882203082221996,
	"loss": 1.6481,
	"step": 508
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.44756019115448,
	"learning_rate": 0.00023876800642431048,
	"loss": 1.6608,
	"step": 509
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.5149917602539062,
	"learning_rate": 0.00023871385792857027,
	"loss": 1.6434,
	"step": 510
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.436800241470337,
	"learning_rate": 0.00023865958539406434,
	"loss": 1.9541,
	"step": 511
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.563488483428955,
	"learning_rate": 0.00023860518887999305,
	"loss": 1.921,
	"step": 512
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.2544896602630615,
	"learning_rate": 0.00023855066844569194,
	"loss": 1.285,
	"step": 513
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.1815474033355713,
	"learning_rate": 0.00023849602415063176,
	"loss": 1.5958,
	"step": 514
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.3179055452346802,
	"learning_rate": 0.00023844125605441835,
	"loss": 1.5887,
	"step": 515
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.3224471807479858,
	"learning_rate": 0.0002383863642167926,
	"loss": 1.3453,
	"step": 516
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.3743826150894165,
	"learning_rate": 0.00023833134869763041,
	"loss": 1.6145,
	"step": 517
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.7813752889633179,
	"learning_rate": 0.00023827620955694248,
	"loss": 1.5723,
	"step": 518
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.457780361175537,
	"learning_rate": 0.00023822094685487451,
	"loss": 1.5773,
	"step": 519
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.4680794477462769,
	"learning_rate": 0.00023816556065170693,
	"loss": 1.7291,
	"step": 520
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.5272331237792969,
	"learning_rate": 0.00023811005100785471,
	"loss": 1.6012,
	"step": 521
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.6784194707870483,
	"learning_rate": 0.00023805441798386778,
	"loss": 1.6109,
	"step": 522
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.5598907470703125,
	"learning_rate": 0.00023799866164043044,
	"loss": 2.0627,
	"step": 523
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.470335841178894,
	"learning_rate": 0.0002379427820383615,
	"loss": 1.8267,
	"step": 524
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.677306890487671,
	"learning_rate": 0.00023788677923861434,
	"loss": 2.2845,
	"step": 525
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.2650090456008911,
	"learning_rate": 0.00023783065330227666,
	"loss": 1.6407,
	"step": 526
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.6766515970230103,
	"learning_rate": 0.00023777440429057043,
	"loss": 1.7039,
	"step": 527
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.3705694675445557,
	"learning_rate": 0.00023771803226485197,
	"loss": 1.8251,
	"step": 528
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.3645520210266113,
	"learning_rate": 0.00023766153728661173,
	"loss": 1.0754,
	"step": 529
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.5679587125778198,
	"learning_rate": 0.00023760491941747419,
	"loss": 1.7131,
	"step": 530
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.4037436246871948,
	"learning_rate": 0.0002375481787191981,
	"loss": 1.7182,
	"step": 531
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.4753473997116089,
	"learning_rate": 0.000237491315253676,
	"loss": 1.9983,
	"step": 532
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.307569980621338,
	"learning_rate": 0.00023743432908293437,
	"loss": 1.4774,
	"step": 533
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.5248976945877075,
	"learning_rate": 0.00023737722026913357,
	"loss": 1.678,
	"step": 534
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.6276731491088867,
	"learning_rate": 0.00023731998887456778,
	"loss": 1.9258,
	"step": 535
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.5609790086746216,
	"learning_rate": 0.0002372626349616649,
	"loss": 1.7404,
	"step": 536
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.3915233612060547,
	"learning_rate": 0.0002372051585929863,
	"loss": 1.5489,
	"step": 537
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.6098966598510742,
	"learning_rate": 0.0002371475598312271,
	"loss": 1.7612,
	"step": 538
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.3052818775177002,
	"learning_rate": 0.00023708983873921586,
	"loss": 1.2804,
	"step": 539
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.3293620347976685,
	"learning_rate": 0.00023703199537991466,
	"loss": 1.4353,
	"step": 540
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.4364746809005737,
	"learning_rate": 0.00023697402981641877,
	"loss": 1.4233,
	"step": 541
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.7351473569869995,
	"learning_rate": 0.00023691594211195695,
	"loss": 1.9575,
	"step": 542
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.3488695621490479,
	"learning_rate": 0.00023685773232989105,
	"loss": 2.0196,
	"step": 543
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.455739140510559,
	"learning_rate": 0.0002367994005337162,
	"loss": 2.1026,
	"step": 544
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.2512130737304688,
	"learning_rate": 0.00023674094678706052,
	"loss": 1.3881,
	"step": 545
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.6788513660430908,
	"learning_rate": 0.0002366823711536852,
	"loss": 1.5795,
	"step": 546
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.0756875276565552,
	"learning_rate": 0.00023662367369748442,
	"loss": 1.3518,
	"step": 547
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.5534878969192505,
	"learning_rate": 0.00023656485448248516,
	"loss": 1.4272,
	"step": 548
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.276198387145996,
	"learning_rate": 0.00023650591357284728,
	"loss": 1.3384,
	"step": 549
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.4616369009017944,
	"learning_rate": 0.00023644685103286337,
	"loss": 1.6083,
	"step": 550
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.487240195274353,
	"learning_rate": 0.00023638766692695869,
	"loss": 1.2336,
	"step": 551
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.3095462322235107,
	"learning_rate": 0.00023632836131969105,
	"loss": 1.3381,
	"step": 552
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.327471971511841,
	"learning_rate": 0.0002362689342757509,
	"loss": 2.192,
	"step": 553
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.9238693714141846,
	"learning_rate": 0.00023620938585996106,
	"loss": 1.6526,
	"step": 554
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.6897307634353638,
	"learning_rate": 0.00023614971613727684,
	"loss": 1.6713,
	"step": 555
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.526841163635254,
	"learning_rate": 0.00023608992517278578,
	"loss": 2.0541,
	"step": 556
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.5254669189453125,
	"learning_rate": 0.00023603001303170763,
	"loss": 1.3508,
	"step": 557
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.57151198387146,
	"learning_rate": 0.0002359699797793945,
	"loss": 1.3197,
	"step": 558
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.5244841575622559,
	"learning_rate": 0.00023590982548133045,
	"loss": 1.4338,
	"step": 559
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.4043896198272705,
	"learning_rate": 0.0002358495502031316,
	"loss": 1.9264,
	"step": 560
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.4733903408050537,
	"learning_rate": 0.00023578915401054607,
	"loss": 1.59,
	"step": 561
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.7210224866867065,
	"learning_rate": 0.0002357286369694539,
	"loss": 1.7421,
	"step": 562
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.291479468345642,
	"learning_rate": 0.00023566799914586688,
	"loss": 0.9787,
	"step": 563
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.6497067213058472,
	"learning_rate": 0.00023560724060592858,
	"loss": 1.5709,
	"step": 564
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.6274982690811157,
	"learning_rate": 0.00023554636141591426,
	"loss": 1.5853,
	"step": 565
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.4311622381210327,
	"learning_rate": 0.00023548536164223077,
	"loss": 1.7003,
	"step": 566
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.6563549041748047,
	"learning_rate": 0.00023542424135141656,
	"loss": 1.4655,
	"step": 567
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.6957557201385498,
	"learning_rate": 0.00023536300061014132,
	"loss": 1.8792,
	"step": 568
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.2087243795394897,
	"learning_rate": 0.00023530163948520645,
	"loss": 1.262,
	"step": 569
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.3456618785858154,
	"learning_rate": 0.00023524015804354437,
	"loss": 1.6861,
	"step": 570
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.5029468536376953,
	"learning_rate": 0.00023517855635221896,
	"loss": 1.7885,
	"step": 571
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.4606847763061523,
	"learning_rate": 0.00023511683447842514,
	"loss": 1.4353,
	"step": 572
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.4862562417984009,
	"learning_rate": 0.00023505499248948898,
	"loss": 1.7917,
	"step": 573
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.3696837425231934,
	"learning_rate": 0.00023499303045286751,
	"loss": 1.2735,
	"step": 574
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.4719946384429932,
	"learning_rate": 0.00023493094843614877,
	"loss": 1.867,
	"step": 575
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.2641010284423828,
	"learning_rate": 0.0002348687465070517,
	"loss": 1.3491,
	"step": 576
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.2275723218917847,
	"learning_rate": 0.00023480642473342592,
	"loss": 1.5747,
	"step": 577
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.214805245399475,
	"learning_rate": 0.00023474398318325192,
	"loss": 1.5349,
	"step": 578
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.4233876466751099,
	"learning_rate": 0.0002346814219246407,
	"loss": 2.0182,
	"step": 579
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.363861322402954,
	"learning_rate": 0.00023461874102583395,
	"loss": 1.8423,
	"step": 580
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.2210170030593872,
	"learning_rate": 0.00023455594055520385,
	"loss": 1.1782,
	"step": 581
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.3371609449386597,
	"learning_rate": 0.0002344930205812529,
	"loss": 1.7994,
	"step": 582
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.424874186515808,
	"learning_rate": 0.00023442998117261416,
	"loss": 1.637,
	"step": 583
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.1814637184143066,
	"learning_rate": 0.00023436682239805074,
	"loss": 1.334,
	"step": 584
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.3004404306411743,
	"learning_rate": 0.00023430354432645606,
	"loss": 1.1703,
	"step": 585
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.332945704460144,
	"learning_rate": 0.00023424014702685375,
	"loss": 1.3147,
	"step": 586
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.5192474126815796,
	"learning_rate": 0.00023417663056839733,
	"loss": 1.2995,
	"step": 587
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.5328348875045776,
	"learning_rate": 0.00023411299502037043,
	"loss": 1.4266,
	"step": 588
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.7186061143875122,
	"learning_rate": 0.00023404924045218652,
	"loss": 1.2097,
	"step": 589
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.892555832862854,
	"learning_rate": 0.0002339853669333889,
	"loss": 1.9445,
	"step": 590
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.4742870330810547,
	"learning_rate": 0.0002339213745336506,
	"loss": 1.4,
	"step": 591
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.3957617282867432,
	"learning_rate": 0.00023385726332277441,
	"loss": 1.0397,
	"step": 592
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.274652123451233,
	"learning_rate": 0.00023379303337069262,
	"loss": 1.5659,
	"step": 593
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.0992603302001953,
	"learning_rate": 0.00023372868474746714,
	"loss": 1.8078,
	"step": 594
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.4869073629379272,
	"learning_rate": 0.00023366421752328922,
	"loss": 1.3452,
	"step": 595
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.4044032096862793,
	"learning_rate": 0.00023359963176847957,
	"loss": 1.3954,
	"step": 596
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.3737423419952393,
	"learning_rate": 0.0002335349275534881,
	"loss": 1.2106,
	"step": 597
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.022343873977661,
	"learning_rate": 0.00023347010494889406,
	"loss": 1.8948,
	"step": 598
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.3906071186065674,
	"learning_rate": 0.00023340516402540573,
	"loss": 1.5172,
	"step": 599
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.825240135192871,
	"learning_rate": 0.0002333401048538605,
	"loss": 1.0034,
	"step": 600
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.4067100286483765,
	"learning_rate": 0.00023327492750522475,
	"loss": 1.7208,
	"step": 601
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.222434401512146,
	"learning_rate": 0.0002332096320505937,
	"loss": 1.1459,
	"step": 602
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.7354257106781006,
	"learning_rate": 0.00023314421856119154,
	"loss": 1.5793,
	"step": 603
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.384118914604187,
	"learning_rate": 0.00023307868710837105,
	"loss": 1.0095,
	"step": 604
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.459686040878296,
	"learning_rate": 0.00023301303776361378,
	"loss": 1.528,
	"step": 605
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.4759612083435059,
	"learning_rate": 0.0002329472705985299,
	"loss": 1.378,
	"step": 606
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.5465447902679443,
	"learning_rate": 0.00023288138568485802,
	"loss": 1.5053,
	"step": 607
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.2388064861297607,
	"learning_rate": 0.0002328153830944652,
	"loss": 1.2588,
	"step": 608
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.4053964614868164,
	"learning_rate": 0.00023274926289934688,
	"loss": 1.014,
	"step": 609
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.5368363857269287,
	"learning_rate": 0.00023268302517162688,
	"loss": 1.6706,
	"step": 610
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.3434786796569824,
	"learning_rate": 0.00023261666998355702,
	"loss": 1.1686,
	"step": 611
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.3576295375823975,
	"learning_rate": 0.00023255019740751743,
	"loss": 1.5393,
	"step": 612
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.285962700843811,
	"learning_rate": 0.0002324836075160162,
	"loss": 1.7462,
	"step": 613
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.13918399810791,
	"learning_rate": 0.0002324169003816894,
	"loss": 1.4822,
	"step": 614
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.7046306133270264,
	"learning_rate": 0.0002323500760773009,
	"loss": 1.1588,
	"step": 615
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.6164623498916626,
	"learning_rate": 0.00023228313467574263,
	"loss": 1.9175,
	"step": 616
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.4854605197906494,
	"learning_rate": 0.00023221607625003402,
	"loss": 1.7528,
	"step": 617
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.6400645971298218,
	"learning_rate": 0.00023214890087332218,
	"loss": 1.9289,
	"step": 618
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.5701171159744263,
	"learning_rate": 0.00023208160861888186,
	"loss": 1.3207,
	"step": 619
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.5051968097686768,
	"learning_rate": 0.00023201419956011526,
	"loss": 1.4028,
	"step": 620
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.1874357461929321,
	"learning_rate": 0.000231946673770552,
	"loss": 1.3708,
	"step": 621
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.3110204935073853,
	"learning_rate": 0.00023187903132384903,
	"loss": 1.3477,
	"step": 622
	},
	{
	"epoch": 0.6,
	"eval_loss": 1.6304495334625244,
	"eval_runtime": 28.33,
	"eval_samples_per_second": 3.0,
	"eval_steps_per_second": 1.518,
	"step": 622
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.3583319187164307,
	"learning_rate": 0.00023181127229379058,
	"loss": 1.6669,
	"step": 623
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.400608777999878,
	"learning_rate": 0.00023174339675428792,
	"loss": 1.1634,
	"step": 624
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.403623342514038,
	"learning_rate": 0.0002316754047793796,
	"loss": 1.4847,
	"step": 625
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.511208176612854,
	"learning_rate": 0.00023160729644323099,
	"loss": 1.3538,
	"step": 626
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.1673988103866577,
	"learning_rate": 0.00023153907182013456,
	"loss": 1.1773,
	"step": 627
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.5797700881958008,
	"learning_rate": 0.00023147073098450953,
	"loss": 1.6715,
	"step": 628
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.7258118391036987,
	"learning_rate": 0.00023140227401090185,
	"loss": 1.9853,
	"step": 629
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.3571829795837402,
	"learning_rate": 0.00023133370097398425,
	"loss": 1.624,
	"step": 630
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.462410807609558,
	"learning_rate": 0.00023126501194855597,
	"loss": 1.0793,
	"step": 631
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.2532066106796265,
	"learning_rate": 0.00023119620700954286,
	"loss": 1.3601,
	"step": 632
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.077949285507202,
	"learning_rate": 0.0002311272862319971,
	"loss": 1.9824,
	"step": 633
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.5285255908966064,
	"learning_rate": 0.00023105824969109736,
	"loss": 1.3991,
	"step": 634
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.544295310974121,
	"learning_rate": 0.0002309890974621484,
	"loss": 1.8974,
	"step": 635
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.4555768966674805,
	"learning_rate": 0.00023091982962058138,
	"loss": 1.4607,
	"step": 636
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.2902973890304565,
	"learning_rate": 0.00023085044624195344,
	"loss": 1.7837,
	"step": 637
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.6322664022445679,
	"learning_rate": 0.0002307809474019478,
	"loss": 1.3603,
	"step": 638
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.295804738998413,
	"learning_rate": 0.00023071133317637357,
	"loss": 1.3386,
	"step": 639
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.3429510593414307,
	"learning_rate": 0.0002306416036411658,
	"loss": 1.2507,
	"step": 640
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.6754704713821411,
	"learning_rate": 0.0002305717588723852,
	"loss": 1.4455,
	"step": 641
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.1602115631103516,
	"learning_rate": 0.00023050179894621835,
	"loss": 1.6829,
	"step": 642
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.412318468093872,
	"learning_rate": 0.00023043172393897728,
	"loss": 1.5495,
	"step": 643
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.4912530183792114,
	"learning_rate": 0.00023036153392709963,
	"loss": 1.6909,
	"step": 644
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.4303503036499023,
	"learning_rate": 0.0002302912289871485,
	"loss": 1.5794,
	"step": 645
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.3841469287872314,
	"learning_rate": 0.00023022080919581227,
	"loss": 1.9355,
	"step": 646
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.5403145551681519,
	"learning_rate": 0.00023015027462990474,
	"loss": 1.6106,
	"step": 647
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.370869517326355,
	"learning_rate": 0.00023007962536636474,
	"loss": 1.4042,
	"step": 648
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.6991840600967407,
	"learning_rate": 0.00023000886148225635,
	"loss": 1.5327,
	"step": 649
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.7101843357086182,
	"learning_rate": 0.0002299379830547686,
	"loss": 1.4779,
	"step": 650
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.3180490732192993,
	"learning_rate": 0.00022986699016121545,
	"loss": 1.5081,
	"step": 651
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.180501937866211,
	"learning_rate": 0.0002297958828790358,
	"loss": 1.0716,
	"step": 652
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.322432279586792,
	"learning_rate": 0.00022972466128579327,
	"loss": 1.277,
	"step": 653
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.6292730569839478,
	"learning_rate": 0.00022965332545917623,
	"loss": 1.631,
	"step": 654
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.7111241817474365,
	"learning_rate": 0.00022958187547699748,
	"loss": 1.3783,
	"step": 655
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.3672375679016113,
	"learning_rate": 0.0002295103114171946,
	"loss": 1.0966,
	"step": 656
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.34515380859375,
	"learning_rate": 0.00022943863335782937,
	"loss": 1.1398,
	"step": 657
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.2631828784942627,
	"learning_rate": 0.00022936684137708806,
	"loss": 1.3126,
	"step": 658
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.538662314414978,
	"learning_rate": 0.00022929493555328117,
	"loss": 1.7226,
	"step": 659
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.458886981010437,
	"learning_rate": 0.00022922291596484337,
	"loss": 1.5284,
	"step": 660
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.525400996208191,
	"learning_rate": 0.00022915078269033346,
	"loss": 1.3691,
	"step": 661
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.4852648973464966,
	"learning_rate": 0.00022907853580843415,
	"loss": 1.6369,
	"step": 662
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.523781418800354,
	"learning_rate": 0.0002290061753979522,
	"loss": 1.4643,
	"step": 663
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.3667558431625366,
	"learning_rate": 0.00022893370153781817,
	"loss": 1.0672,
	"step": 664
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.8203182220458984,
	"learning_rate": 0.00022886111430708627,
	"loss": 2.1031,
	"step": 665
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.458509922027588,
	"learning_rate": 0.00022878841378493452,
	"loss": 1.5407,
	"step": 666
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.1977659463882446,
	"learning_rate": 0.0002287156000506644,
	"loss": 1.5075,
	"step": 667
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.1007845401763916,
	"learning_rate": 0.00022864267318370096,
	"loss": 0.9576,
	"step": 668
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.6353801488876343,
	"learning_rate": 0.00022856963326359266,
	"loss": 1.7101,
	"step": 669
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.335712194442749,
	"learning_rate": 0.00022849648037001115,
	"loss": 1.0678,
	"step": 670
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.375508189201355,
	"learning_rate": 0.0002284232145827515,
	"loss": 1.4913,
	"step": 671
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.211701512336731,
	"learning_rate": 0.00022834983598173182,
	"loss": 1.0438,
	"step": 672
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.7795249223709106,
	"learning_rate": 0.00022827634464699323,
	"loss": 1.9137,
	"step": 673
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.4882405996322632,
	"learning_rate": 0.00022820274065869992,
	"loss": 1.5704,
	"step": 674
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.3354179859161377,
	"learning_rate": 0.00022812902409713893,
	"loss": 1.3485,
	"step": 675
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.5397255420684814,
	"learning_rate": 0.00022805519504272005,
	"loss": 2.0343,
	"step": 676
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.4044562578201294,
	"learning_rate": 0.00022798125357597582,
	"loss": 1.7446,
	"step": 677
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.284012794494629,
	"learning_rate": 0.00022790719977756142,
	"loss": 0.9859,
	"step": 678
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.879234790802002,
	"learning_rate": 0.00022783303372825447,
	"loss": 1.7374,
	"step": 679
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.278829574584961,
	"learning_rate": 0.00022775875550895517,
	"loss": 1.4937,
	"step": 680
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.3762723207473755,
	"learning_rate": 0.00022768436520068596,
	"loss": 1.1091,
	"step": 681
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.4809486865997314,
	"learning_rate": 0.00022760986288459156,
	"loss": 1.6401,
	"step": 682
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.4666237831115723,
	"learning_rate": 0.00022753524864193892,
	"loss": 1.7877,
	"step": 683
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.3258100748062134,
	"learning_rate": 0.00022746052255411708,
	"loss": 1.2407,
	"step": 684
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.178125023841858,
	"learning_rate": 0.000227385684702637,
	"loss": 1.4674,
	"step": 685
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.3732388019561768,
	"learning_rate": 0.00022731073516913164,
	"loss": 1.4729,
	"step": 686
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.357108235359192,
	"learning_rate": 0.00022723567403535572,
	"loss": 1.428,
	"step": 687
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.293455719947815,
	"learning_rate": 0.00022716050138318574,
	"loss": 1.3115,
	"step": 688
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.1836376190185547,
	"learning_rate": 0.00022708521729461985,
	"loss": 1.2031,
	"step": 689
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.3905551433563232,
	"learning_rate": 0.00022700982185177765,
	"loss": 1.8465,
	"step": 690
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.2469663619995117,
	"learning_rate": 0.00022693431513690033,
	"loss": 1.5076,
	"step": 691
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.2081923484802246,
	"learning_rate": 0.00022685869723235042,
	"loss": 1.5242,
	"step": 692
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.2785173654556274,
	"learning_rate": 0.00022678296822061173,
	"loss": 1.3025,
	"step": 693
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.3872441053390503,
	"learning_rate": 0.00022670712818428923,
	"loss": 1.7145,
	"step": 694
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.1730290651321411,
	"learning_rate": 0.00022663117720610903,
	"loss": 1.1832,
	"step": 695
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.0906507968902588,
	"learning_rate": 0.00022655511536891825,
	"loss": 1.378,
	"step": 696
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.3207216262817383,
	"learning_rate": 0.00022647894275568492,
	"loss": 1.2161,
	"step": 697
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.4555737972259521,
	"learning_rate": 0.00022640265944949797,
	"loss": 1.4499,
	"step": 698
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.3717491626739502,
	"learning_rate": 0.000226326265533567,
	"loss": 1.7293,
	"step": 699
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.2536697387695312,
	"learning_rate": 0.00022624976109122225,
	"loss": 1.4178,
	"step": 700
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.550447940826416,
	"learning_rate": 0.0002261731462059146,
	"loss": 1.4674,
	"step": 701
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.2245453596115112,
	"learning_rate": 0.0002260964209612153,
	"loss": 1.2625,
	"step": 702
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.2388466596603394,
	"learning_rate": 0.0002260195854408161,
	"loss": 1.6174,
	"step": 703
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.4022188186645508,
	"learning_rate": 0.00022594263972852897,
	"loss": 1.0605,
	"step": 704
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.275978922843933,
	"learning_rate": 0.00022586558390828604,
	"loss": 1.3885,
	"step": 705
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.493241786956787,
	"learning_rate": 0.0002257884180641396,
	"loss": 1.5634,
	"step": 706
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.1711384057998657,
	"learning_rate": 0.00022571114228026198,
	"loss": 1.2732,
	"step": 707
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.2927380800247192,
	"learning_rate": 0.0002256337566409454,
	"loss": 1.4771,
	"step": 708
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.2375295162200928,
	"learning_rate": 0.0002255562612306018,
	"loss": 0.9908,
	"step": 709
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.1654285192489624,
	"learning_rate": 0.00022547865613376308,
	"loss": 0.9158,
	"step": 710
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.694615125656128,
	"learning_rate": 0.0002254009414350806,
	"loss": 1.517,
	"step": 711
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.110138177871704,
	"learning_rate": 0.0002253231172193254,
	"loss": 1.2596,
	"step": 712
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.5078182220458984,
	"learning_rate": 0.00022524518357138788,
	"loss": 1.6952,
	"step": 713
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.7366492748260498,
	"learning_rate": 0.00022516714057627783,
	"loss": 1.8556,
	"step": 714
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.4952809810638428,
	"learning_rate": 0.0002250889883191244,
	"loss": 1.5153,
	"step": 715
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.2906392812728882,
	"learning_rate": 0.00022501072688517576,
	"loss": 1.0992,
	"step": 716
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.26261568069458,
	"learning_rate": 0.0002249323563597994,
	"loss": 1.1001,
	"step": 717
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.437803030014038,
	"learning_rate": 0.00022485387682848155,
	"loss": 1.519,
	"step": 718
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.454239845275879,
	"learning_rate": 0.00022477528837682755,
	"loss": 1.258,
	"step": 719
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.403212547302246,
	"learning_rate": 0.00022469659109056143,
	"loss": 1.6505,
	"step": 720
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.2380965948104858,
	"learning_rate": 0.000224617785055526,
	"loss": 1.3611,
	"step": 721
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.41748046875,
	"learning_rate": 0.00022453887035768266,
	"loss": 1.8791,
	"step": 722
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.4731191396713257,
	"learning_rate": 0.00022445984708311132,
	"loss": 1.3579,
	"step": 723
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.688100814819336,
	"learning_rate": 0.00022438071531801038,
	"loss": 1.5332,
	"step": 724
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.7024562358856201,
	"learning_rate": 0.00022430147514869653,
	"loss": 1.7091,
	"step": 725
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.3762348890304565,
	"learning_rate": 0.00022422212666160478,
	"loss": 1.7395,
	"step": 726
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.4019901752471924,
	"learning_rate": 0.0002241426699432882,
	"loss": 1.0866,
	"step": 727
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.861675500869751,
	"learning_rate": 0.00022406310508041796,
	"loss": 2.1158,
	"step": 728
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.3458441495895386,
	"learning_rate": 0.00022398343215978322,
	"loss": 1.4403,
	"step": 729
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.5659409761428833,
	"learning_rate": 0.000223903651268291,
	"loss": 1.7634,
	"step": 730
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.2884780168533325,
	"learning_rate": 0.00022382376249296598,
	"loss": 1.5543,
	"step": 731
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.0735148191452026,
	"learning_rate": 0.00022374376592095076,
	"loss": 1.2122,
	"step": 732
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.3894761800765991,
	"learning_rate": 0.00022366366163950523,
	"loss": 1.7313,
	"step": 733
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.186671257019043,
	"learning_rate": 0.00022358344973600705,
	"loss": 0.9415,
	"step": 734
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.2778778076171875,
	"learning_rate": 0.00022350313029795112,
	"loss": 1.871,
	"step": 735
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.7073333263397217,
	"learning_rate": 0.0002234227034129496,
	"loss": 1.7262,
	"step": 736
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.0448979139328003,
	"learning_rate": 0.00022334216916873196,
	"loss": 0.8838,
	"step": 737
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.0367178916931152,
	"learning_rate": 0.00022326152765314472,
	"loss": 1.5082,
	"step": 738
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.5965039730072021,
	"learning_rate": 0.0002231807789541515,
	"loss": 1.6947,
	"step": 739
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.2586615085601807,
	"learning_rate": 0.00022309992315983263,
	"loss": 1.2724,
	"step": 740
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.498313546180725,
	"learning_rate": 0.0002230189603583855,
	"loss": 1.6083,
	"step": 741
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.2010595798492432,
	"learning_rate": 0.00022293789063812403,
	"loss": 1.0541,
	"step": 742
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.2845265865325928,
	"learning_rate": 0.00022285671408747888,
	"loss": 0.9787,
	"step": 743
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.5691664218902588,
	"learning_rate": 0.00022277543079499723,
	"loss": 1.9072,
	"step": 744
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.8554484844207764,
	"learning_rate": 0.00022269404084934269,
	"loss": 1.6881,
	"step": 745
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.4981218576431274,
	"learning_rate": 0.00022261254433929514,
	"loss": 1.2664,
	"step": 746
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.5050944089889526,
	"learning_rate": 0.00022253094135375075,
	"loss": 1.3197,
	"step": 747
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.4656778573989868,
	"learning_rate": 0.0002224492319817219,
	"loss": 1.5641,
	"step": 748
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.433406114578247,
	"learning_rate": 0.0002223674163123369,
	"loss": 1.6133,
	"step": 749
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.4999152421951294,
	"learning_rate": 0.00022228549443484004,
	"loss": 1.1804,
	"step": 750
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.386148452758789,
	"learning_rate": 0.00022220346643859153,
	"loss": 1.4288,
	"step": 751
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.305163025856018,
	"learning_rate": 0.00022212133241306722,
	"loss": 0.9577,
	"step": 752
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.3146147727966309,
	"learning_rate": 0.00022203909244785874,
	"loss": 1.4475,
	"step": 753
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.5211604833602905,
	"learning_rate": 0.00022195674663267324,
	"loss": 1.7606,
	"step": 754
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.4717007875442505,
	"learning_rate": 0.0002218742950573332,
	"loss": 1.638,
	"step": 755
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.1527776718139648,
	"learning_rate": 0.0002217917378117767,
	"loss": 1.3322,
	"step": 756
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.599092721939087,
	"learning_rate": 0.00022170907498605686,
	"loss": 1.6299,
	"step": 757
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.2002819776535034,
	"learning_rate": 0.0002216263066703421,
	"loss": 1.3424,
	"step": 758
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.3727798461914062,
	"learning_rate": 0.0002215434329549159,
	"loss": 1.7718,
	"step": 759
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.1956920623779297,
	"learning_rate": 0.0002214604539301767,
	"loss": 0.7773,
	"step": 760
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.3804597854614258,
	"learning_rate": 0.0002213773696866377,
	"loss": 1.3221,
	"step": 761
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.134540319442749,
	"learning_rate": 0.00022129418031492705,
	"loss": 1.1406,
	"step": 762
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.599867582321167,
	"learning_rate": 0.00022121088590578743,
	"loss": 1.5812,
	"step": 763
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.1916415691375732,
	"learning_rate": 0.0002211274865500762,
	"loss": 1.1639,
	"step": 764
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.4034931659698486,
	"learning_rate": 0.00022104398233876516,
	"loss": 1.6485,
	"step": 765
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.217153549194336,
	"learning_rate": 0.0002209603733629404,
	"loss": 1.2622,
	"step": 766
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.2423417568206787,
	"learning_rate": 0.00022087665971380244,
	"loss": 1.3384,
	"step": 767
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.2787408828735352,
	"learning_rate": 0.00022079284148266587,
	"loss": 1.3278,
	"step": 768
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.0672158002853394,
	"learning_rate": 0.0002207089187609594,
	"loss": 1.4183,
	"step": 769
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.4464133977890015,
	"learning_rate": 0.00022062489164022565,
	"loss": 2.0707,
	"step": 770
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.4786409139633179,
	"learning_rate": 0.00022054076021212128,
	"loss": 1.3817,
	"step": 771
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.325783133506775,
	"learning_rate": 0.00022045652456841651,
	"loss": 1.2509,
	"step": 772
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.3716827630996704,
	"learning_rate": 0.0002203721848009954,
	"loss": 1.5183,
	"step": 773
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.4279142618179321,
	"learning_rate": 0.00022028774100185555,
	"loss": 2.0254,
	"step": 774
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.3607648611068726,
	"learning_rate": 0.00022020319326310805,
	"loss": 1.5698,
	"step": 775
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.3437821865081787,
	"learning_rate": 0.00022011854167697725,
	"loss": 1.5756,
	"step": 776
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.1076477766036987,
	"learning_rate": 0.00022003378633580098,
	"loss": 1.0518,
	"step": 777
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.1801143884658813,
	"learning_rate": 0.00021994892733203007,
	"loss": 1.3424,
	"step": 778
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.5795953273773193,
	"learning_rate": 0.00021986396475822848,
	"loss": 1.5052,
	"step": 779
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.3943787813186646,
	"learning_rate": 0.00021977889870707318,
	"loss": 1.4324,
	"step": 780
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.5282405614852905,
	"learning_rate": 0.00021969372927135397,
	"loss": 1.3772,
	"step": 781
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.6440399885177612,
	"learning_rate": 0.00021960845654397349,
	"loss": 1.1698,
	"step": 782
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.5308705568313599,
	"learning_rate": 0.0002195230806179469,
	"loss": 1.4512,
	"step": 783
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.3149093389511108,
	"learning_rate": 0.00021943760158640212,
	"loss": 1.1414,
	"step": 784
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.2626311779022217,
	"learning_rate": 0.00021935201954257938,
	"loss": 2.0695,
	"step": 785
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.4505892992019653,
	"learning_rate": 0.0002192663345798314,
	"loss": 1.6039,
	"step": 786
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.3184144496917725,
	"learning_rate": 0.00021918054679162302,
	"loss": 1.2249,
	"step": 787
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.313861608505249,
	"learning_rate": 0.00021909465627153142,
	"loss": 1.5637,
	"step": 788
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.7990531921386719,
	"learning_rate": 0.00021900866311324568,
	"loss": 1.7634,
	"step": 789
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.6349966526031494,
	"learning_rate": 0.00021892256741056694,
	"loss": 1.9673,
	"step": 790
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.3929771184921265,
	"learning_rate": 0.00021883636925740813,
	"loss": 1.3263,
	"step": 791
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.237173318862915,
	"learning_rate": 0.00021875006874779397,
	"loss": 1.5712,
	"step": 792
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.4733974933624268,
	"learning_rate": 0.00021866366597586082,
	"loss": 1.3899,
	"step": 793
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.4081130027770996,
	"learning_rate": 0.0002185771610358566,
	"loss": 1.6359,
	"step": 794
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.3193763494491577,
	"learning_rate": 0.00021849055402214064,
	"loss": 1.3589,
	"step": 795
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.4265916347503662,
	"learning_rate": 0.00021840384502918363,
	"loss": 1.4326,
	"step": 796
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.3795539140701294,
	"learning_rate": 0.00021831703415156752,
	"loss": 1.2139,
	"step": 797
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.7029786109924316,
	"learning_rate": 0.00021823012148398542,
	"loss": 1.5998,
	"step": 798
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.5365678071975708,
	"learning_rate": 0.00021814310712124134,
	"loss": 1.9567,
	"step": 799
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.8077536821365356,
	"learning_rate": 0.00021805599115825038,
	"loss": 1.8023,
	"step": 800
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.4349457025527954,
	"learning_rate": 0.0002179687736900383,
	"loss": 1.7043,
	"step": 801
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.450710654258728,
	"learning_rate": 0.00021788145481174183,
	"loss": 1.2796,
	"step": 802
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.2185072898864746,
	"learning_rate": 0.00021779403461860805,
	"loss": 1.1272,
	"step": 803
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.6366219520568848,
	"learning_rate": 0.00021770651320599473,
	"loss": 1.5251,
	"step": 804
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.445094347000122,
	"learning_rate": 0.0002176188906693699,
	"loss": 1.3265,
	"step": 805
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.5272247791290283,
	"learning_rate": 0.00021753116710431205,
	"loss": 0.9833,
	"step": 806
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.4574639797210693,
	"learning_rate": 0.00021744334260650984,
	"loss": 1.6412,
	"step": 807
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.1877381801605225,
	"learning_rate": 0.0002173554172717619,
	"loss": 1.3086,
	"step": 808
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.4031157493591309,
	"learning_rate": 0.000217267391195977,
	"loss": 1.587,
	"step": 809
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.2422850131988525,
	"learning_rate": 0.0002171792644751737,
	"loss": 1.334,
	"step": 810
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.3261579275131226,
	"learning_rate": 0.00021709103720548052,
	"loss": 1.2248,
	"step": 811
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.0835561752319336,
	"learning_rate": 0.00021700270948313532,
	"loss": 0.9224,
	"step": 812
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.3430688381195068,
	"learning_rate": 0.00021691428140448594,
	"loss": 1.2989,
	"step": 813
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.2712783813476562,
	"learning_rate": 0.00021682575306598934,
	"loss": 1.4027,
	"step": 814
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.2724041938781738,
	"learning_rate": 0.00021673712456421202,
	"loss": 1.2837,
	"step": 815
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.2153583765029907,
	"learning_rate": 0.00021664839599582974,
	"loss": 1.3666,
	"step": 816
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.2074302434921265,
	"learning_rate": 0.00021655956745762742,
	"loss": 1.4386,
	"step": 817
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.372488021850586,
	"learning_rate": 0.0002164706390464989,
	"loss": 1.626,
	"step": 818
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.1615793704986572,
	"learning_rate": 0.00021638161085944706,
	"loss": 1.1384,
	"step": 819
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.1077085733413696,
	"learning_rate": 0.00021629248299358367,
	"loss": 0.9159,
	"step": 820
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.2498594522476196,
	"learning_rate": 0.00021620325554612912,
	"loss": 1.2139,
	"step": 821
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.6090998649597168,
	"learning_rate": 0.00021611392861441243,
	"loss": 1.9134,
	"step": 822
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.2484623193740845,
	"learning_rate": 0.00021602450229587123,
	"loss": 1.2969,
	"step": 823
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.4213321208953857,
	"learning_rate": 0.0002159349766880515,
	"loss": 1.717,
	"step": 824
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.0547410249710083,
	"learning_rate": 0.0002158453518886075,
	"loss": 0.9849,
	"step": 825
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.2111304998397827,
	"learning_rate": 0.00021575562799530169,
	"loss": 1.2678,
	"step": 826
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.66452956199646,
	"learning_rate": 0.0002156658051060047,
	"loss": 1.4332,
	"step": 827
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.3838409185409546,
	"learning_rate": 0.0002155758833186951,
	"loss": 1.1844,
	"step": 828
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.5047062635421753,
	"learning_rate": 0.0002154858627314593,
	"loss": 1.7889,
	"step": 829
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.286152720451355,
	"learning_rate": 0.00021539574344249152,
	"loss": 1.1978,
	"step": 830
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.1742347478866577,
	"learning_rate": 0.00021530552555009365,
	"loss": 1.0202,
	"step": 831
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.7456132173538208,
	"learning_rate": 0.0002152152091526751,
	"loss": 1.0362,
	"step": 832
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.381914496421814,
	"learning_rate": 0.00021512479434875276,
	"loss": 1.4382,
	"step": 833
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.2699590921401978,
	"learning_rate": 0.00021503428123695082,
	"loss": 1.512,
	"step": 834
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.1738026142120361,
	"learning_rate": 0.00021494366991600076,
	"loss": 1.2607,
	"step": 835
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.9550883769989014,
	"learning_rate": 0.0002148529604847412,
	"loss": 1.8124,
	"step": 836
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.504042148590088,
	"learning_rate": 0.00021476215304211765,
	"loss": 1.4629,
	"step": 837
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.0610342025756836,
	"learning_rate": 0.00021467124768718269,
	"loss": 0.9717,
	"step": 838
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.478193759918213,
	"learning_rate": 0.00021458024451909564,
	"loss": 1.802,
	"step": 839
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.218469262123108,
	"learning_rate": 0.00021448914363712246,
	"loss": 1.3854,
	"step": 840
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.2758036851882935,
	"learning_rate": 0.00021439794514063577,
	"loss": 1.2681,
	"step": 841
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.3164936304092407,
	"learning_rate": 0.00021430664912911463,
	"loss": 1.4467,
	"step": 842
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.414792537689209,
	"learning_rate": 0.0002142152557021445,
	"loss": 1.5323,
	"step": 843
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.1610770225524902,
	"learning_rate": 0.00021412376495941705,
	"loss": 1.4057,
	"step": 844
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.2606096267700195,
	"learning_rate": 0.00021403217700073017,
	"loss": 1.19,
	"step": 845
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.1834993362426758,
	"learning_rate": 0.0002139404919259877,
	"loss": 1.5106,
	"step": 846
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.2146964073181152,
	"learning_rate": 0.00021384870983519956,
	"loss": 1.4995,
	"step": 847
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.208569049835205,
	"learning_rate": 0.0002137568308284813,
	"loss": 1.0893,
	"step": 848
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.429599642753601,
	"learning_rate": 0.00021366485500605437,
	"loss": 1.1302,
	"step": 849
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.868918538093567,
	"learning_rate": 0.0002135727824682457,
	"loss": 2.0047,
	"step": 850
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.1158243417739868,
	"learning_rate": 0.00021348061331548777,
	"loss": 1.1251,
	"step": 851
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.1816633939743042,
	"learning_rate": 0.00021338834764831843,
	"loss": 1.0859,
	"step": 852
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.3078497648239136,
	"learning_rate": 0.0002132959855673809,
	"loss": 1.3654,
	"step": 853
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.5226352214813232,
	"learning_rate": 0.00021320352717342335,
	"loss": 1.3744,
	"step": 854
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.194767713546753,
	"learning_rate": 0.0002131109725672992,
	"loss": 1.1332,
	"step": 855
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.292400598526001,
	"learning_rate": 0.00021301832184996686,
	"loss": 1.1676,
	"step": 856
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.307769536972046,
	"learning_rate": 0.00021292557512248933,
	"loss": 1.3764,
	"step": 857
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.5784074068069458,
	"learning_rate": 0.00021283273248603457,
	"loss": 1.8682,
	"step": 858
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.4524656534194946,
	"learning_rate": 0.00021273979404187507,
	"loss": 1.355,
	"step": 859
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.2774903774261475,
	"learning_rate": 0.0002126467598913878,
	"loss": 1.1275,
	"step": 860
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.364617943763733,
	"learning_rate": 0.00021255363013605419,
	"loss": 1.7862,
	"step": 861
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.259527325630188,
	"learning_rate": 0.0002124604048774599,
	"loss": 1.3798,
	"step": 862
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.6640812158584595,
	"learning_rate": 0.0002123670842172948,
	"loss": 1.8239,
	"step": 863
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.2190797328948975,
	"learning_rate": 0.0002122736682573528,
	"loss": 1.0124,
	"step": 864
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.341090202331543,
	"learning_rate": 0.00021218015709953175,
	"loss": 0.985,
	"step": 865
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.3625142574310303,
	"learning_rate": 0.00021208655084583344,
	"loss": 1.0811,
	"step": 866
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.861794352531433,
	"learning_rate": 0.0002119928495983633,
	"loss": 1.5199,
	"step": 867
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.5730104446411133,
	"learning_rate": 0.00021189905345933032,
	"loss": 1.4189,
	"step": 868
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.224785566329956,
	"learning_rate": 0.0002118051625310471,
	"loss": 1.2948,
	"step": 869
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.4107848405838013,
	"learning_rate": 0.00021171117691592964,
	"loss": 1.3929,
	"step": 870
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.16511070728302,
	"learning_rate": 0.00021161709671649721,
	"loss": 1.0999,
	"step": 871
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.30039119720459,
	"learning_rate": 0.00021152292203537216,
	"loss": 1.6013,
	"step": 872
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.5170789957046509,
	"learning_rate": 0.00021142865297528004,
	"loss": 1.8839,
	"step": 873
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.2411909103393555,
	"learning_rate": 0.00021133428963904927,
	"loss": 1.4265,
	"step": 874
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.0655996799468994,
	"learning_rate": 0.00021123983212961112,
	"loss": 1.2643,
	"step": 875
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.1014069318771362,
	"learning_rate": 0.00021114528054999953,
	"loss": 1.0326,
	"step": 876
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.3042875528335571,
	"learning_rate": 0.0002110506350033512,
	"loss": 1.5919,
	"step": 877
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.9417317509651184,
	"learning_rate": 0.00021095589559290518,
	"loss": 0.8426,
	"step": 878
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.341861605644226,
	"learning_rate": 0.00021086106242200296,
	"loss": 1.2377,
	"step": 879
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.2200474739074707,
	"learning_rate": 0.0002107661355940883,
	"loss": 1.4793,
	"step": 880
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.4158042669296265,
	"learning_rate": 0.00021067111521270713,
	"loss": 1.752,
	"step": 881
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.4061779975891113,
	"learning_rate": 0.0002105760013815074,
	"loss": 1.089,
	"step": 882
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.3693805932998657,
	"learning_rate": 0.00021048079420423908,
	"loss": 1.4861,
	"step": 883
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.4483033418655396,
	"learning_rate": 0.00021038549378475386,
	"loss": 1.4553,
	"step": 884
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.283494234085083,
	"learning_rate": 0.00021029010022700518,
	"loss": 1.2053,
	"step": 885
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.5050575733184814,
	"learning_rate": 0.00021019461363504805,
	"loss": 1.2142,
	"step": 886
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.2599867582321167,
	"learning_rate": 0.00021009903411303902,
	"loss": 1.3242,
	"step": 887
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.2808127403259277,
	"learning_rate": 0.00021000336176523593,
	"loss": 1.1527,
	"step": 888
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.145213007926941,
	"learning_rate": 0.00020990759669599799,
	"loss": 1.1483,
	"step": 889
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.1295148134231567,
	"learning_rate": 0.0002098117390097854,
	"loss": 1.0159,
	"step": 890
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.159382939338684,
	"learning_rate": 0.00020971578881115948,
	"loss": 1.1626,
	"step": 891
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.6490403413772583,
	"learning_rate": 0.00020961974620478248,
	"loss": 1.7539,
	"step": 892
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.517959475517273,
	"learning_rate": 0.0002095236112954174,
	"loss": 1.6324,
	"step": 893
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.4953640699386597,
	"learning_rate": 0.0002094273841879279,
	"loss": 1.4384,
	"step": 894
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.3297251462936401,
	"learning_rate": 0.00020933106498727825,
	"loss": 1.1462,
	"step": 895
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.2726671695709229,
	"learning_rate": 0.00020923465379853323,
	"loss": 1.0989,
	"step": 896
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.1799503564834595,
	"learning_rate": 0.00020913815072685785,
	"loss": 0.9603,
	"step": 897
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.2199748754501343,
	"learning_rate": 0.00020904155587751742,
	"loss": 1.149,
	"step": 898
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.8773846626281738,
	"learning_rate": 0.00020894486935587732,
	"loss": 0.8965,
	"step": 899
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.669113039970398,
	"learning_rate": 0.00020884809126740295,
	"loss": 1.7323,
	"step": 900
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.3780359029769897,
	"learning_rate": 0.00020875122171765958,
	"loss": 1.47,
	"step": 901
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.1259912252426147,
	"learning_rate": 0.00020865426081231227,
	"loss": 1.3505,
	"step": 902
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.4640130996704102,
	"learning_rate": 0.00020855720865712568,
	"loss": 1.6051,
	"step": 903
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.0640982389450073,
	"learning_rate": 0.00020846006535796407,
	"loss": 1.109,
	"step": 904
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.1131609678268433,
	"learning_rate": 0.00020836283102079108,
	"loss": 1.1407,
	"step": 905
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.1612396240234375,
	"learning_rate": 0.00020826550575166964,
	"loss": 1.2,
	"step": 906
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.6626241207122803,
	"learning_rate": 0.00020816808965676186,
	"loss": 1.8475,
	"step": 907
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.438838005065918,
	"learning_rate": 0.000208070582842329,
	"loss": 1.4186,
	"step": 908
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.4505665302276611,
	"learning_rate": 0.00020797298541473127,
	"loss": 1.6378,
	"step": 909
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.3546316623687744,
	"learning_rate": 0.00020787529748042758,
	"loss": 1.3801,
	"step": 910
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.5958383083343506,
	"learning_rate": 0.0002077775191459757,
	"loss": 1.7361,
	"step": 911
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.6373250484466553,
	"learning_rate": 0.000207679650518032,
	"loss": 1.8638,
	"step": 912
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.126513957977295,
	"learning_rate": 0.00020758169170335123,
	"loss": 1.2306,
	"step": 913
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.2469696998596191,
	"learning_rate": 0.0002074836428087867,
	"loss": 1.4286,
	"step": 914
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.3433685302734375,
	"learning_rate": 0.00020738550394128983,
	"loss": 1.1645,
	"step": 915
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.274887204170227,
	"learning_rate": 0.0002072872752079102,
	"loss": 1.4313,
	"step": 916
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.2697557210922241,
	"learning_rate": 0.0002071889567157955,
	"loss": 1.1121,
	"step": 917
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.6256011724472046,
	"learning_rate": 0.00020709054857219122,
	"loss": 2.3053,
	"step": 918
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.4982554912567139,
	"learning_rate": 0.00020699205088444073,
	"loss": 1.5737,
	"step": 919
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.3380775451660156,
	"learning_rate": 0.00020689346375998504,
	"loss": 1.3681,
	"step": 920
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.1807115077972412,
	"learning_rate": 0.0002067947873063627,
	"loss": 1.121,
	"step": 921
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.6416897773742676,
	"learning_rate": 0.0002066960216312097,
	"loss": 1.585,
	"step": 922
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.310311198234558,
	"learning_rate": 0.00020659716684225942,
	"loss": 1.0295,
	"step": 923
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.283509373664856,
	"learning_rate": 0.00020649822304734234,
	"loss": 0.8625,
	"step": 924
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.6311004161834717,
	"learning_rate": 0.00020639919035438616,
	"loss": 1.5964,
	"step": 925
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.4839829206466675,
	"learning_rate": 0.00020630006887141533,
	"loss": 1.3802,
	"step": 926
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.6016814708709717,
	"learning_rate": 0.00020620085870655142,
	"loss": 1.3962,
	"step": 927
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.3555843830108643,
	"learning_rate": 0.00020610155996801256,
	"loss": 1.3931,
	"step": 928
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.5287679433822632,
	"learning_rate": 0.00020600217276411353,
	"loss": 1.0829,
	"step": 929
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.1010750532150269,
	"learning_rate": 0.00020590269720326568,
	"loss": 0.9906,
	"step": 930
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.2286770343780518,
	"learning_rate": 0.00020580313339397662,
	"loss": 1.099,
	"step": 931
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.4633378982543945,
	"learning_rate": 0.0002057034814448503,
	"loss": 1.2768,
	"step": 932
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.0793206691741943,
	"learning_rate": 0.0002056037414645868,
	"loss": 1.5472,
	"step": 933
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.041421890258789,
	"learning_rate": 0.00020550391356198222,
	"loss": 1.0693,
	"step": 934
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.7149021625518799,
	"learning_rate": 0.00020540399784592852,
	"loss": 1.6992,
	"step": 935
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.1274030208587646,
	"learning_rate": 0.00020530399442541356,
	"loss": 1.1349,
	"step": 936
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.6209064722061157,
	"learning_rate": 0.00020520390340952074,
	"loss": 1.6395,
	"step": 937
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.0727425813674927,
	"learning_rate": 0.00020510372490742913,
	"loss": 1.0555,
	"step": 938
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.1689037084579468,
	"learning_rate": 0.00020500345902841311,
	"loss": 1.4163,
	"step": 939
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.1197943687438965,
	"learning_rate": 0.00020490310588184242,
	"loss": 1.669,
	"step": 940
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.0973910093307495,
	"learning_rate": 0.00020480266557718201,
	"loss": 1.2043,
	"step": 941
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.459172010421753,
	"learning_rate": 0.00020470213822399198,
	"loss": 1.6599,
	"step": 942
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.4092894792556763,
	"learning_rate": 0.00020460152393192717,
	"loss": 1.5244,
	"step": 943
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.0109457969665527,
	"learning_rate": 0.0002045008228107374,
	"loss": 1.0698,
	"step": 944
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.1727893352508545,
	"learning_rate": 0.00020440003497026722,
	"loss": 0.8874,
	"step": 945
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.4926542043685913,
	"learning_rate": 0.0002042991605204557,
	"loss": 1.1908,
	"step": 946
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.2154324054718018,
	"learning_rate": 0.00020419819957133642,
	"loss": 1.0055,
	"step": 947
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.1640907526016235,
	"learning_rate": 0.00020409715223303733,
	"loss": 1.0244,
	"step": 948
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.094460129737854,
	"learning_rate": 0.00020399601861578054,
	"loss": 1.086,
	"step": 949
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.0807240009307861,
	"learning_rate": 0.0002038947988298824,
	"loss": 1.0952,
	"step": 950
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.2182865142822266,
	"learning_rate": 0.00020379349298575312,
	"loss": 0.8286,
	"step": 951
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.2438262701034546,
	"learning_rate": 0.0002036921011938968,
	"loss": 1.449,
	"step": 952
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.0871261358261108,
	"learning_rate": 0.00020359062356491142,
	"loss": 1.005,
	"step": 953
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.3494447469711304,
	"learning_rate": 0.0002034890602094885,
	"loss": 1.599,
	"step": 954
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.3108654022216797,
	"learning_rate": 0.00020338741123841297,
	"loss": 1.3039,
	"step": 955
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.4159644842147827,
	"learning_rate": 0.00020328567676256335,
	"loss": 1.3015,
	"step": 956
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.267722249031067,
	"learning_rate": 0.00020318385689291126,
	"loss": 1.1788,
	"step": 957
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.2124974727630615,
	"learning_rate": 0.00020308195174052157,
	"loss": 1.3477,
	"step": 958
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.7106714248657227,
	"learning_rate": 0.00020297996141655216,
	"loss": 1.7461,
	"step": 959
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.3902013301849365,
	"learning_rate": 0.00020287788603225377,
	"loss": 1.3323,
	"step": 960
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.9589385390281677,
	"learning_rate": 0.00020277572569896995,
	"loss": 0.7713,
	"step": 961
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.223151683807373,
	"learning_rate": 0.00020267348052813692,
	"loss": 1.2357,
	"step": 962
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.9997661709785461,
	"learning_rate": 0.0002025711506312834,
	"loss": 0.9083,
	"step": 963
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.2039114236831665,
	"learning_rate": 0.0002024687361200306,
	"loss": 1.0277,
	"step": 964
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.2620604038238525,
	"learning_rate": 0.00020236623710609202,
	"loss": 0.9147,
	"step": 965
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.603683352470398,
	"learning_rate": 0.00020226365370127323,
	"loss": 1.3692,
	"step": 966
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.1889077425003052,
	"learning_rate": 0.00020216098601747197,
	"loss": 1.3586,
	"step": 967
	},
	{
	"epoch": 0.93,
	"grad_norm": 0.9763696193695068,
	"learning_rate": 0.00020205823416667788,
	"loss": 1.0737,
	"step": 968
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.9170948266983032,
	"learning_rate": 0.00020195539826097238,
	"loss": 1.7105,
	"step": 969
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.3122986555099487,
	"learning_rate": 0.00020185247841252856,
	"loss": 1.6161,
	"step": 970
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.4224249124526978,
	"learning_rate": 0.00020174947473361118,
	"loss": 1.5831,
	"step": 971
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.293426752090454,
	"learning_rate": 0.00020164638733657637,
	"loss": 1.3102,
	"step": 972
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.07170569896698,
	"learning_rate": 0.0002015432163338715,
	"loss": 0.8819,
	"step": 973
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.181535005569458,
	"learning_rate": 0.00020143996183803525,
	"loss": 1.1775,
	"step": 974
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.3837966918945312,
	"learning_rate": 0.00020133662396169743,
	"loss": 1.3791,
	"step": 975
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.1325147151947021,
	"learning_rate": 0.00020123320281757856,
	"loss": 0.9244,
	"step": 976
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.8120399713516235,
	"learning_rate": 0.0002011296985184903,
	"loss": 1.3342,
	"step": 977
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.260125994682312,
	"learning_rate": 0.0002010261111773347,
	"loss": 1.3665,
	"step": 978
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.342794418334961,
	"learning_rate": 0.00020092244090710472,
	"loss": 1.2215,
	"step": 979
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.5904815196990967,
	"learning_rate": 0.0002008186878208834,
	"loss": 1.071,
	"step": 980
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.2493515014648438,
	"learning_rate": 0.00020071485203184455,
	"loss": 1.5185,
	"step": 981
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.2379603385925293,
	"learning_rate": 0.00020061093365325184,
	"loss": 1.239,
	"step": 982
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.4626051187515259,
	"learning_rate": 0.00020050693279845914,
	"loss": 1.5534,
	"step": 983
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.3357350826263428,
	"learning_rate": 0.0002004028495809103,
	"loss": 1.8324,
	"step": 984
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.4206643104553223,
	"learning_rate": 0.0002002986841141391,
	"loss": 1.251,
	"step": 985
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.436003565788269,
	"learning_rate": 0.00020019443651176884,
	"loss": 1.7747,
	"step": 986
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.350991129875183,
	"learning_rate": 0.0002000901068875126,
	"loss": 1.5258,
	"step": 987
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.1044528484344482,
	"learning_rate": 0.00019998569535517276,
	"loss": 1.269,
	"step": 988
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.4368743896484375,
	"learning_rate": 0.00019988120202864125,
	"loss": 1.7985,
	"step": 989
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.080803394317627,
	"learning_rate": 0.00019977662702189904,
	"loss": 0.8469,
	"step": 990
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.4379607439041138,
	"learning_rate": 0.00019967197044901618,
	"loss": 1.48,
	"step": 991
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.1783312559127808,
	"learning_rate": 0.00019956723242415194,
	"loss": 1.4203,
	"step": 992
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.2120602130889893,
	"learning_rate": 0.0001994624130615542,
	"loss": 1.2925,
	"step": 993
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.0752936601638794,
	"learning_rate": 0.00019935751247555954,
	"loss": 1.4643,
	"step": 994
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.1408238410949707,
	"learning_rate": 0.0001992525307805934,
	"loss": 1.3049,
	"step": 995
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.1272218227386475,
	"learning_rate": 0.0001991474680911694,
	"loss": 1.0908,
	"step": 996
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.525564432144165,
	"learning_rate": 0.0001990423245218897,
	"loss": 1.2493,
	"step": 997
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.3659435510635376,
	"learning_rate": 0.0001989371001874446,
	"loss": 1.402,
	"step": 998
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.344510793685913,
	"learning_rate": 0.00019883179520261245,
	"loss": 1.519,
	"step": 999
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.455416202545166,
	"learning_rate": 0.0001987264096822598,
	"loss": 1.6428,
	"step": 1000
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.206539273262024,
	"learning_rate": 0.00019862094374134074,
	"loss": 1.2198,
	"step": 1001
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.2967417240142822,
	"learning_rate": 0.0001985153974948973,
	"loss": 1.4467,
	"step": 1002
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.3688677549362183,
	"learning_rate": 0.00019840977105805896,
	"loss": 1.5175,
	"step": 1003
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.4224023818969727,
	"learning_rate": 0.00019830406454604289,
	"loss": 1.3388,
	"step": 1004
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.1016898155212402,
	"learning_rate": 0.00019819827807415332,
	"loss": 1.256,
	"step": 1005
	},
	{
	"epoch": 0.97,
	"grad_norm": 0.9830572605133057,
	"learning_rate": 0.00019809241175778195,
	"loss": 1.0293,
	"step": 1006
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.3320682048797607,
	"learning_rate": 0.00019798646571240742,
	"loss": 1.6151,
	"step": 1007
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.203979730606079,
	"learning_rate": 0.00019788044005359534,
	"loss": 1.0101,
	"step": 1008
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.121233344078064,
	"learning_rate": 0.0001977743348969983,
	"loss": 0.9686,
	"step": 1009
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.2444918155670166,
	"learning_rate": 0.0001976681503583555,
	"loss": 1.5227,
	"step": 1010
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.322102665901184,
	"learning_rate": 0.0001975618865534927,
	"loss": 1.6012,
	"step": 1011
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.2791893482208252,
	"learning_rate": 0.0001974555435983222,
	"loss": 1.3951,
	"step": 1012
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.2599291801452637,
	"learning_rate": 0.00019734912160884255,
	"loss": 1.5789,
	"step": 1013
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.2614623308181763,
	"learning_rate": 0.0001972426207011387,
	"loss": 1.2646,
	"step": 1014
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.9194993376731873,
	"learning_rate": 0.0001971360409913814,
	"loss": 1.1464,
	"step": 1015
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.739387035369873,
	"learning_rate": 0.00019702938259582754,
	"loss": 1.6735,
	"step": 1016
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.1382012367248535,
	"learning_rate": 0.00019692264563081984,
	"loss": 1.2768,
	"step": 1017
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.9404625296592712,
	"learning_rate": 0.00019681583021278673,
	"loss": 1.1835,
	"step": 1018
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.2209988832473755,
	"learning_rate": 0.00019670893645824212,
	"loss": 0.9123,
	"step": 1019
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.1911715269088745,
	"learning_rate": 0.00019660196448378542,
	"loss": 1.4704,
	"step": 1020
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.1453022956848145,
	"learning_rate": 0.00019649491440610137,
	"loss": 1.1527,
	"step": 1021
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.9455304145812988,
	"learning_rate": 0.0001963877863419599,
	"loss": 0.9554,
	"step": 1022
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.5460333824157715,
	"learning_rate": 0.00019628058040821607,
	"loss": 1.5023,
	"step": 1023
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.0515046119689941,
	"learning_rate": 0.00019617329672180975,
	"loss": 1.3552,
	"step": 1024
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.4096556901931763,
	"learning_rate": 0.00019606593539976574,
	"loss": 1.3264,
	"step": 1025
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.2442529201507568,
	"learning_rate": 0.00019595849655919343,
	"loss": 0.8898,
	"step": 1026
	},
	{
	"epoch": 0.99,
	"grad_norm": 0.8789858818054199,
	"learning_rate": 0.00019585098031728684,
	"loss": 0.9477,
	"step": 1027
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.2422945499420166,
	"learning_rate": 0.0001957433867913244,
	"loss": 1.1831,
	"step": 1028
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.2705669403076172,
	"learning_rate": 0.00019563571609866883,
	"loss": 1.4243,
	"step": 1029
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.4680469036102295,
	"learning_rate": 0.000195527968356767,
	"loss": 1.2629,
	"step": 1030
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.369444727897644,
	"learning_rate": 0.0001954201436831499,
	"loss": 1.6357,
	"step": 1031
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.4526840448379517,
	"learning_rate": 0.00019531224219543233,
	"loss": 1.3395,
	"step": 1032
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.1711682081222534,
	"learning_rate": 0.00019520426401131304,
	"loss": 1.0378,
	"step": 1033
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.085681676864624,
	"learning_rate": 0.0001950962092485742,
	"loss": 1.3059,
	"step": 1034
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.2222062349319458,
	"learning_rate": 0.00019498807802508173,
	"loss": 1.1306,
	"step": 1035
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.879671573638916,
	"learning_rate": 0.00019487987045878485,
	"loss": 0.7041,
	"step": 1036
	}
	],
	"logging_steps": 1,
	"max_steps": 3108,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 1.472235393377108e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}