xlm-r_ben-beng / trainer_state.json

Uploading checkpoint-98500 for xlm-r - ben-beng

ac948a7 verified 5 months ago

84.7 kB

	{
	"best_metric": 1.022267460823059,
	"best_model_checkpoint": "./model_fine-tune/glot/xlm-r/ben-Beng/checkpoint-98500",
	"epoch": 29.60625187856928,
	"eval_steps": 500,
	"global_step": 98500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.15028554253080853,
	"grad_norm": 4.279157638549805,
	"learning_rate": 9.95e-05,
	"loss": 1.5206,
	"step": 500
	},
	{
	"epoch": 0.15028554253080853,
	"eval_accuracy": 0.7123080245508447,
	"eval_loss": 1.6415441036224365,
	"eval_runtime": 108.0973,
	"eval_samples_per_second": 220.635,
	"eval_steps_per_second": 6.901,
	"step": 500
	},
	{
	"epoch": 0.30057108506161706,
	"grad_norm": 3.948293685913086,
	"learning_rate": 9.900000000000001e-05,
	"loss": 1.4505,
	"step": 1000
	},
	{
	"epoch": 0.30057108506161706,
	"eval_accuracy": 0.7195765918792126,
	"eval_loss": 1.6040955781936646,
	"eval_runtime": 108.1918,
	"eval_samples_per_second": 220.442,
	"eval_steps_per_second": 6.895,
	"step": 1000
	},
	{
	"epoch": 0.4508566275924256,
	"grad_norm": 3.838204860687256,
	"learning_rate": 9.850000000000001e-05,
	"loss": 1.4092,
	"step": 1500
	},
	{
	"epoch": 0.4508566275924256,
	"eval_accuracy": 0.7255862618332372,
	"eval_loss": 1.5711835622787476,
	"eval_runtime": 105.314,
	"eval_samples_per_second": 226.466,
	"eval_steps_per_second": 7.084,
	"step": 1500
	},
	{
	"epoch": 0.6011421701232341,
	"grad_norm": 3.7270383834838867,
	"learning_rate": 9.8e-05,
	"loss": 1.3738,
	"step": 2000
	},
	{
	"epoch": 0.6011421701232341,
	"eval_accuracy": 0.7298732586939131,
	"eval_loss": 1.562820315361023,
	"eval_runtime": 104.3524,
	"eval_samples_per_second": 228.552,
	"eval_steps_per_second": 7.149,
	"step": 2000
	},
	{
	"epoch": 0.7514277126540427,
	"grad_norm": 3.720855474472046,
	"learning_rate": 9.75e-05,
	"loss": 1.3447,
	"step": 2500
	},
	{
	"epoch": 0.7514277126540427,
	"eval_accuracy": 0.7334076213509759,
	"eval_loss": 1.533949613571167,
	"eval_runtime": 105.6055,
	"eval_samples_per_second": 225.84,
	"eval_steps_per_second": 7.064,
	"step": 2500
	},
	{
	"epoch": 0.9017132551848512,
	"grad_norm": 3.9192264080047607,
	"learning_rate": 9.7e-05,
	"loss": 1.3215,
	"step": 3000
	},
	{
	"epoch": 0.9017132551848512,
	"eval_accuracy": 0.737443643353561,
	"eval_loss": 1.5036447048187256,
	"eval_runtime": 103.4988,
	"eval_samples_per_second": 230.437,
	"eval_steps_per_second": 7.208,
	"step": 3000
	},
	{
	"epoch": 1.0519987977156597,
	"grad_norm": 3.8544235229492188,
	"learning_rate": 9.65e-05,
	"loss": 1.3074,
	"step": 3500
	},
	{
	"epoch": 1.0519987977156597,
	"eval_accuracy": 0.7401312504576956,
	"eval_loss": 1.4803341627120972,
	"eval_runtime": 104.2256,
	"eval_samples_per_second": 228.831,
	"eval_steps_per_second": 7.158,
	"step": 3500
	},
	{
	"epoch": 1.2022843402464682,
	"grad_norm": 3.2664737701416016,
	"learning_rate": 9.6e-05,
	"loss": 1.2826,
	"step": 4000
	},
	{
	"epoch": 1.2022843402464682,
	"eval_accuracy": 0.7433592201310665,
	"eval_loss": 1.475807785987854,
	"eval_runtime": 104.5255,
	"eval_samples_per_second": 228.174,
	"eval_steps_per_second": 7.137,
	"step": 4000
	},
	{
	"epoch": 1.3525698827772767,
	"grad_norm": 3.448021650314331,
	"learning_rate": 9.55e-05,
	"loss": 1.2676,
	"step": 4500
	},
	{
	"epoch": 1.3525698827772767,
	"eval_accuracy": 0.7454010087654052,
	"eval_loss": 1.467736005783081,
	"eval_runtime": 106.1685,
	"eval_samples_per_second": 224.643,
	"eval_steps_per_second": 7.027,
	"step": 4500
	},
	{
	"epoch": 1.5028554253080855,
	"grad_norm": 3.6344072818756104,
	"learning_rate": 9.5e-05,
	"loss": 1.2462,
	"step": 5000
	},
	{
	"epoch": 1.5028554253080855,
	"eval_accuracy": 0.7480509601003421,
	"eval_loss": 1.454475998878479,
	"eval_runtime": 107.2463,
	"eval_samples_per_second": 222.385,
	"eval_steps_per_second": 6.956,
	"step": 5000
	},
	{
	"epoch": 1.653140967838894,
	"grad_norm": 3.191260576248169,
	"learning_rate": 9.449999999999999e-05,
	"loss": 1.2353,
	"step": 5500
	},
	{
	"epoch": 1.653140967838894,
	"eval_accuracy": 0.7502682619699697,
	"eval_loss": 1.4226497411727905,
	"eval_runtime": 107.1587,
	"eval_samples_per_second": 222.567,
	"eval_steps_per_second": 6.962,
	"step": 5500
	},
	{
	"epoch": 1.8034265103697025,
	"grad_norm": 3.074147939682007,
	"learning_rate": 9.4e-05,
	"loss": 1.2227,
	"step": 6000
	},
	{
	"epoch": 1.8034265103697025,
	"eval_accuracy": 0.7523797476360646,
	"eval_loss": 1.4185426235198975,
	"eval_runtime": 107.8236,
	"eval_samples_per_second": 221.195,
	"eval_steps_per_second": 6.919,
	"step": 6000
	},
	{
	"epoch": 1.953712052900511,
	"grad_norm": 3.0745174884796143,
	"learning_rate": 9.350000000000001e-05,
	"loss": 1.2179,
	"step": 6500
	},
	{
	"epoch": 1.953712052900511,
	"eval_accuracy": 0.7525899025066154,
	"eval_loss": 1.4250199794769287,
	"eval_runtime": 103.869,
	"eval_samples_per_second": 229.616,
	"eval_steps_per_second": 7.182,
	"step": 6500
	},
	{
	"epoch": 2.1039975954313195,
	"grad_norm": 3.809814453125,
	"learning_rate": 9.300000000000001e-05,
	"loss": 1.1973,
	"step": 7000
	},
	{
	"epoch": 2.1039975954313195,
	"eval_accuracy": 0.7544079430376059,
	"eval_loss": 1.4045050144195557,
	"eval_runtime": 103.9514,
	"eval_samples_per_second": 229.434,
	"eval_steps_per_second": 7.176,
	"step": 7000
	},
	{
	"epoch": 2.254283137962128,
	"grad_norm": 3.262021541595459,
	"learning_rate": 9.250000000000001e-05,
	"loss": 1.1854,
	"step": 7500
	},
	{
	"epoch": 2.254283137962128,
	"eval_accuracy": 0.7566596229680038,
	"eval_loss": 1.4005974531173706,
	"eval_runtime": 103.4306,
	"eval_samples_per_second": 230.59,
	"eval_steps_per_second": 7.213,
	"step": 7500
	},
	{
	"epoch": 2.4045686804929365,
	"grad_norm": 3.562636613845825,
	"learning_rate": 9.200000000000001e-05,
	"loss": 1.1894,
	"step": 8000
	},
	{
	"epoch": 2.4045686804929365,
	"eval_accuracy": 0.7518658362592376,
	"eval_loss": 1.4261118173599243,
	"eval_runtime": 107.7368,
	"eval_samples_per_second": 221.373,
	"eval_steps_per_second": 6.924,
	"step": 8000
	},
	{
	"epoch": 2.554854223023745,
	"grad_norm": 3.0819168090820312,
	"learning_rate": 9.15e-05,
	"loss": 1.1821,
	"step": 8500
	},
	{
	"epoch": 2.554854223023745,
	"eval_accuracy": 0.759439375239073,
	"eval_loss": 1.3829759359359741,
	"eval_runtime": 108.9119,
	"eval_samples_per_second": 218.984,
	"eval_steps_per_second": 6.85,
	"step": 8500
	},
	{
	"epoch": 2.7051397655545535,
	"grad_norm": 3.441218852996826,
	"learning_rate": 9.1e-05,
	"loss": 1.1617,
	"step": 9000
	},
	{
	"epoch": 2.7051397655545535,
	"eval_accuracy": 0.7595643512285075,
	"eval_loss": 1.38172447681427,
	"eval_runtime": 107.6971,
	"eval_samples_per_second": 221.454,
	"eval_steps_per_second": 6.927,
	"step": 9000
	},
	{
	"epoch": 2.855425308085362,
	"grad_norm": 2.9258110523223877,
	"learning_rate": 9.05e-05,
	"loss": 1.1647,
	"step": 9500
	},
	{
	"epoch": 2.855425308085362,
	"eval_accuracy": 0.7622641760596893,
	"eval_loss": 1.3564621210098267,
	"eval_runtime": 108.8704,
	"eval_samples_per_second": 219.068,
	"eval_steps_per_second": 6.852,
	"step": 9500
	},
	{
	"epoch": 3.005710850616171,
	"grad_norm": 3.097913980484009,
	"learning_rate": 9e-05,
	"loss": 1.1543,
	"step": 10000
	},
	{
	"epoch": 3.005710850616171,
	"eval_accuracy": 0.7637979723391941,
	"eval_loss": 1.3542959690093994,
	"eval_runtime": 108.5802,
	"eval_samples_per_second": 219.653,
	"eval_steps_per_second": 6.87,
	"step": 10000
	},
	{
	"epoch": 3.1559963931469794,
	"grad_norm": 3.168121099472046,
	"learning_rate": 8.950000000000001e-05,
	"loss": 1.1379,
	"step": 10500
	},
	{
	"epoch": 3.1559963931469794,
	"eval_accuracy": 0.76408780640708,
	"eval_loss": 1.3504241704940796,
	"eval_runtime": 108.2586,
	"eval_samples_per_second": 220.306,
	"eval_steps_per_second": 6.891,
	"step": 10500
	},
	{
	"epoch": 3.306281935677788,
	"grad_norm": 3.410958766937256,
	"learning_rate": 8.900000000000001e-05,
	"loss": 1.1254,
	"step": 11000
	},
	{
	"epoch": 3.306281935677788,
	"eval_accuracy": 0.7652592815735387,
	"eval_loss": 1.346474528312683,
	"eval_runtime": 107.3669,
	"eval_samples_per_second": 222.136,
	"eval_steps_per_second": 6.948,
	"step": 11000
	},
	{
	"epoch": 3.4565674782085964,
	"grad_norm": 2.775892734527588,
	"learning_rate": 8.850000000000001e-05,
	"loss": 1.1269,
	"step": 11500
	},
	{
	"epoch": 3.4565674782085964,
	"eval_accuracy": 0.7657911530106338,
	"eval_loss": 1.3591572046279907,
	"eval_runtime": 106.844,
	"eval_samples_per_second": 223.223,
	"eval_steps_per_second": 6.982,
	"step": 11500
	},
	{
	"epoch": 3.606853020739405,
	"grad_norm": 3.029595375061035,
	"learning_rate": 8.800000000000001e-05,
	"loss": 1.1247,
	"step": 12000
	},
	{
	"epoch": 3.606853020739405,
	"eval_accuracy": 0.767305872889515,
	"eval_loss": 1.3377037048339844,
	"eval_runtime": 108.9561,
	"eval_samples_per_second": 218.896,
	"eval_steps_per_second": 6.847,
	"step": 12000
	},
	{
	"epoch": 3.7571385632702134,
	"grad_norm": 3.1967430114746094,
	"learning_rate": 8.75e-05,
	"loss": 1.1123,
	"step": 12500
	},
	{
	"epoch": 3.7571385632702134,
	"eval_accuracy": 0.7687083850392965,
	"eval_loss": 1.340959906578064,
	"eval_runtime": 107.8508,
	"eval_samples_per_second": 221.139,
	"eval_steps_per_second": 6.917,
	"step": 12500
	},
	{
	"epoch": 3.907424105801022,
	"grad_norm": 2.859966993331909,
	"learning_rate": 8.7e-05,
	"loss": 1.112,
	"step": 13000
	},
	{
	"epoch": 3.907424105801022,
	"eval_accuracy": 0.7696794726604136,
	"eval_loss": 1.3237755298614502,
	"eval_runtime": 107.6845,
	"eval_samples_per_second": 221.48,
	"eval_steps_per_second": 6.928,
	"step": 13000
	},
	{
	"epoch": 4.057709648331831,
	"grad_norm": 2.8421764373779297,
	"learning_rate": 8.65e-05,
	"loss": 1.0983,
	"step": 13500
	},
	{
	"epoch": 4.057709648331831,
	"eval_accuracy": 0.7714031663702743,
	"eval_loss": 1.3144177198410034,
	"eval_runtime": 108.7428,
	"eval_samples_per_second": 219.325,
	"eval_steps_per_second": 6.86,
	"step": 13500
	},
	{
	"epoch": 4.207995190862639,
	"grad_norm": 3.1582884788513184,
	"learning_rate": 8.6e-05,
	"loss": 1.0918,
	"step": 14000
	},
	{
	"epoch": 4.207995190862639,
	"eval_accuracy": 0.7718766206792639,
	"eval_loss": 1.3221428394317627,
	"eval_runtime": 108.1645,
	"eval_samples_per_second": 220.498,
	"eval_steps_per_second": 6.897,
	"step": 14000
	},
	{
	"epoch": 4.358280733393448,
	"grad_norm": 2.631855010986328,
	"learning_rate": 8.55e-05,
	"loss": 1.0884,
	"step": 14500
	},
	{
	"epoch": 4.358280733393448,
	"eval_accuracy": 0.772324790492508,
	"eval_loss": 1.3152235746383667,
	"eval_runtime": 107.5113,
	"eval_samples_per_second": 221.837,
	"eval_steps_per_second": 6.939,
	"step": 14500
	},
	{
	"epoch": 4.508566275924256,
	"grad_norm": 3.242208480834961,
	"learning_rate": 8.5e-05,
	"loss": 1.0837,
	"step": 15000
	},
	{
	"epoch": 4.508566275924256,
	"eval_accuracy": 0.7737920955341676,
	"eval_loss": 1.2969176769256592,
	"eval_runtime": 107.6972,
	"eval_samples_per_second": 221.454,
	"eval_steps_per_second": 6.927,
	"step": 15000
	},
	{
	"epoch": 4.658851818455065,
	"grad_norm": 3.0691699981689453,
	"learning_rate": 8.450000000000001e-05,
	"loss": 1.0796,
	"step": 15500
	},
	{
	"epoch": 4.658851818455065,
	"eval_accuracy": 0.7738074322270785,
	"eval_loss": 1.3085857629776,
	"eval_runtime": 106.2258,
	"eval_samples_per_second": 224.522,
	"eval_steps_per_second": 7.023,
	"step": 15500
	},
	{
	"epoch": 4.809137360985873,
	"grad_norm": 3.258615732192993,
	"learning_rate": 8.4e-05,
	"loss": 1.0714,
	"step": 16000
	},
	{
	"epoch": 4.809137360985873,
	"eval_accuracy": 0.775101051869418,
	"eval_loss": 1.2939372062683105,
	"eval_runtime": 106.8715,
	"eval_samples_per_second": 223.165,
	"eval_steps_per_second": 6.98,
	"step": 16000
	},
	{
	"epoch": 4.959422903516682,
	"grad_norm": 3.1920101642608643,
	"learning_rate": 8.35e-05,
	"loss": 1.071,
	"step": 16500
	},
	{
	"epoch": 4.959422903516682,
	"eval_accuracy": 0.7753841079350378,
	"eval_loss": 1.2854809761047363,
	"eval_runtime": 106.6266,
	"eval_samples_per_second": 223.678,
	"eval_steps_per_second": 6.996,
	"step": 16500
	},
	{
	"epoch": 5.10970844604749,
	"grad_norm": 3.2814955711364746,
	"learning_rate": 8.3e-05,
	"loss": 1.0568,
	"step": 17000
	},
	{
	"epoch": 5.10970844604749,
	"eval_accuracy": 0.7761810007493132,
	"eval_loss": 1.2916713953018188,
	"eval_runtime": 107.4768,
	"eval_samples_per_second": 221.908,
	"eval_steps_per_second": 6.941,
	"step": 17000
	},
	{
	"epoch": 5.259993988578299,
	"grad_norm": 3.2327558994293213,
	"learning_rate": 8.25e-05,
	"loss": 1.0549,
	"step": 17500
	},
	{
	"epoch": 5.259993988578299,
	"eval_accuracy": 0.7780586564617779,
	"eval_loss": 1.2857751846313477,
	"eval_runtime": 107.761,
	"eval_samples_per_second": 221.323,
	"eval_steps_per_second": 6.923,
	"step": 17500
	},
	{
	"epoch": 5.410279531109107,
	"grad_norm": 3.0951426029205322,
	"learning_rate": 8.2e-05,
	"loss": 1.0511,
	"step": 18000
	},
	{
	"epoch": 5.410279531109107,
	"eval_accuracy": 0.7783227014884583,
	"eval_loss": 1.2948368787765503,
	"eval_runtime": 108.2092,
	"eval_samples_per_second": 220.406,
	"eval_steps_per_second": 6.894,
	"step": 18000
	},
	{
	"epoch": 5.560565073639916,
	"grad_norm": 2.639129638671875,
	"learning_rate": 8.15e-05,
	"loss": 1.0492,
	"step": 18500
	},
	{
	"epoch": 5.560565073639916,
	"eval_accuracy": 0.7788534810933934,
	"eval_loss": 1.2669661045074463,
	"eval_runtime": 108.4058,
	"eval_samples_per_second": 220.007,
	"eval_steps_per_second": 6.882,
	"step": 18500
	},
	{
	"epoch": 5.710850616170724,
	"grad_norm": 2.4974186420440674,
	"learning_rate": 8.1e-05,
	"loss": 1.0476,
	"step": 19000
	},
	{
	"epoch": 5.710850616170724,
	"eval_accuracy": 0.7792994699668719,
	"eval_loss": 1.2653881311416626,
	"eval_runtime": 108.006,
	"eval_samples_per_second": 220.821,
	"eval_steps_per_second": 6.907,
	"step": 19000
	},
	{
	"epoch": 5.861136158701533,
	"grad_norm": 2.6549036502838135,
	"learning_rate": 8.05e-05,
	"loss": 1.0537,
	"step": 19500
	},
	{
	"epoch": 5.861136158701533,
	"eval_accuracy": 0.781079231841748,
	"eval_loss": 1.2602005004882812,
	"eval_runtime": 107.8534,
	"eval_samples_per_second": 221.133,
	"eval_steps_per_second": 6.917,
	"step": 19500
	},
	{
	"epoch": 6.011421701232342,
	"grad_norm": 3.047539234161377,
	"learning_rate": 8e-05,
	"loss": 1.038,
	"step": 20000
	},
	{
	"epoch": 6.011421701232342,
	"eval_accuracy": 0.7802534672325914,
	"eval_loss": 1.2705827951431274,
	"eval_runtime": 106.7758,
	"eval_samples_per_second": 223.365,
	"eval_steps_per_second": 6.987,
	"step": 20000
	},
	{
	"epoch": 6.16170724376315,
	"grad_norm": 2.7509360313415527,
	"learning_rate": 7.950000000000001e-05,
	"loss": 1.0268,
	"step": 20500
	},
	{
	"epoch": 6.16170724376315,
	"eval_accuracy": 0.7803480613075008,
	"eval_loss": 1.2649264335632324,
	"eval_runtime": 107.1559,
	"eval_samples_per_second": 222.573,
	"eval_steps_per_second": 6.962,
	"step": 20500
	},
	{
	"epoch": 6.311992786293959,
	"grad_norm": 2.5355842113494873,
	"learning_rate": 7.900000000000001e-05,
	"loss": 1.0294,
	"step": 21000
	},
	{
	"epoch": 6.311992786293959,
	"eval_accuracy": 0.7818066507198538,
	"eval_loss": 1.250462532043457,
	"eval_runtime": 115.6436,
	"eval_samples_per_second": 206.237,
	"eval_steps_per_second": 6.451,
	"step": 21000
	},
	{
	"epoch": 6.462278328824767,
	"grad_norm": 2.9398176670074463,
	"learning_rate": 7.850000000000001e-05,
	"loss": 1.0209,
	"step": 21500
	},
	{
	"epoch": 6.462278328824767,
	"eval_accuracy": 0.7832408080027191,
	"eval_loss": 1.2534795999526978,
	"eval_runtime": 107.8449,
	"eval_samples_per_second": 221.151,
	"eval_steps_per_second": 6.917,
	"step": 21500
	},
	{
	"epoch": 6.612563871355576,
	"grad_norm": 2.7950327396392822,
	"learning_rate": 7.800000000000001e-05,
	"loss": 1.0268,
	"step": 22000
	},
	{
	"epoch": 6.612563871355576,
	"eval_accuracy": 0.7836778557957977,
	"eval_loss": 1.2419434785842896,
	"eval_runtime": 107.3738,
	"eval_samples_per_second": 222.121,
	"eval_steps_per_second": 6.948,
	"step": 22000
	},
	{
	"epoch": 6.762849413886384,
	"grad_norm": 3.0478243827819824,
	"learning_rate": 7.75e-05,
	"loss": 1.0233,
	"step": 22500
	},
	{
	"epoch": 6.762849413886384,
	"eval_accuracy": 0.7839343784481503,
	"eval_loss": 1.244408369064331,
	"eval_runtime": 107.5196,
	"eval_samples_per_second": 221.82,
	"eval_steps_per_second": 6.938,
	"step": 22500
	},
	{
	"epoch": 6.913134956417193,
	"grad_norm": 3.049609661102295,
	"learning_rate": 7.7e-05,
	"loss": 1.016,
	"step": 23000
	},
	{
	"epoch": 6.913134956417193,
	"eval_accuracy": 0.7844505307770736,
	"eval_loss": 1.2420412302017212,
	"eval_runtime": 108.256,
	"eval_samples_per_second": 220.311,
	"eval_steps_per_second": 6.891,
	"step": 23000
	},
	{
	"epoch": 7.063420498948001,
	"grad_norm": 3.2929279804229736,
	"learning_rate": 7.65e-05,
	"loss": 1.0113,
	"step": 23500
	},
	{
	"epoch": 7.063420498948001,
	"eval_accuracy": 0.7841336670175184,
	"eval_loss": 1.2468925714492798,
	"eval_runtime": 108.0777,
	"eval_samples_per_second": 220.675,
	"eval_steps_per_second": 6.902,
	"step": 23500
	},
	{
	"epoch": 7.21370604147881,
	"grad_norm": 2.5201022624969482,
	"learning_rate": 7.6e-05,
	"loss": 1.01,
	"step": 24000
	},
	{
	"epoch": 7.21370604147881,
	"eval_accuracy": 0.7857022835486672,
	"eval_loss": 1.2313475608825684,
	"eval_runtime": 108.2646,
	"eval_samples_per_second": 220.294,
	"eval_steps_per_second": 6.891,
	"step": 24000
	},
	{
	"epoch": 7.363991584009618,
	"grad_norm": 2.926717519760132,
	"learning_rate": 7.55e-05,
	"loss": 1.0017,
	"step": 24500
	},
	{
	"epoch": 7.363991584009618,
	"eval_accuracy": 0.7857564674613335,
	"eval_loss": 1.2349497079849243,
	"eval_runtime": 107.7822,
	"eval_samples_per_second": 221.28,
	"eval_steps_per_second": 6.921,
	"step": 24500
	},
	{
	"epoch": 7.514277126540427,
	"grad_norm": 2.6643712520599365,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.9939,
	"step": 25000
	},
	{
	"epoch": 7.514277126540427,
	"eval_accuracy": 0.7868022880070933,
	"eval_loss": 1.2337555885314941,
	"eval_runtime": 106.7322,
	"eval_samples_per_second": 223.456,
	"eval_steps_per_second": 6.989,
	"step": 25000
	},
	{
	"epoch": 7.664562669071236,
	"grad_norm": 2.679358720779419,
	"learning_rate": 7.450000000000001e-05,
	"loss": 0.9921,
	"step": 25500
	},
	{
	"epoch": 7.664562669071236,
	"eval_accuracy": 0.7861627827490367,
	"eval_loss": 1.2326431274414062,
	"eval_runtime": 107.5896,
	"eval_samples_per_second": 221.676,
	"eval_steps_per_second": 6.934,
	"step": 25500
	},
	{
	"epoch": 7.814848211602044,
	"grad_norm": 2.5837836265563965,
	"learning_rate": 7.4e-05,
	"loss": 0.9973,
	"step": 26000
	},
	{
	"epoch": 7.814848211602044,
	"eval_accuracy": 0.7871569919088683,
	"eval_loss": 1.2331918478012085,
	"eval_runtime": 107.9543,
	"eval_samples_per_second": 220.927,
	"eval_steps_per_second": 6.91,
	"step": 26000
	},
	{
	"epoch": 7.965133754132852,
	"grad_norm": 2.536043882369995,
	"learning_rate": 7.35e-05,
	"loss": 0.9953,
	"step": 26500
	},
	{
	"epoch": 7.965133754132852,
	"eval_accuracy": 0.7891570577004067,
	"eval_loss": 1.2163290977478027,
	"eval_runtime": 113.9576,
	"eval_samples_per_second": 209.288,
	"eval_steps_per_second": 6.546,
	"step": 26500
	},
	{
	"epoch": 8.115419296663662,
	"grad_norm": 2.690735340118408,
	"learning_rate": 7.3e-05,
	"loss": 0.9847,
	"step": 27000
	},
	{
	"epoch": 8.115419296663662,
	"eval_accuracy": 0.7888144688528846,
	"eval_loss": 1.209494709968567,
	"eval_runtime": 116.0276,
	"eval_samples_per_second": 205.555,
	"eval_steps_per_second": 6.43,
	"step": 27000
	},
	{
	"epoch": 8.26570483919447,
	"grad_norm": 2.4185330867767334,
	"learning_rate": 7.25e-05,
	"loss": 0.9797,
	"step": 27500
	},
	{
	"epoch": 8.26570483919447,
	"eval_accuracy": 0.7891209106681478,
	"eval_loss": 1.218719482421875,
	"eval_runtime": 114.5016,
	"eval_samples_per_second": 208.294,
	"eval_steps_per_second": 6.515,
	"step": 27500
	},
	{
	"epoch": 8.415990381725278,
	"grad_norm": 2.7199230194091797,
	"learning_rate": 7.2e-05,
	"loss": 0.9755,
	"step": 28000
	},
	{
	"epoch": 8.415990381725278,
	"eval_accuracy": 0.7887393254933777,
	"eval_loss": 1.2271952629089355,
	"eval_runtime": 111.4173,
	"eval_samples_per_second": 214.06,
	"eval_steps_per_second": 6.696,
	"step": 28000
	},
	{
	"epoch": 8.566275924256086,
	"grad_norm": 2.6658599376678467,
	"learning_rate": 7.15e-05,
	"loss": 0.9749,
	"step": 28500
	},
	{
	"epoch": 8.566275924256086,
	"eval_accuracy": 0.7904619110106559,
	"eval_loss": 1.217193603515625,
	"eval_runtime": 107.3348,
	"eval_samples_per_second": 222.202,
	"eval_steps_per_second": 6.95,
	"step": 28500
	},
	{
	"epoch": 8.716561466786896,
	"grad_norm": 2.9954679012298584,
	"learning_rate": 7.1e-05,
	"loss": 0.9747,
	"step": 29000
	},
	{
	"epoch": 8.716561466786896,
	"eval_accuracy": 0.7904568069124281,
	"eval_loss": 1.2054858207702637,
	"eval_runtime": 111.9259,
	"eval_samples_per_second": 213.087,
	"eval_steps_per_second": 6.665,
	"step": 29000
	},
	{
	"epoch": 8.866847009317704,
	"grad_norm": 2.506471872329712,
	"learning_rate": 7.05e-05,
	"loss": 0.9715,
	"step": 29500
	},
	{
	"epoch": 8.866847009317704,
	"eval_accuracy": 0.790933514493206,
	"eval_loss": 1.203903317451477,
	"eval_runtime": 106.5362,
	"eval_samples_per_second": 223.868,
	"eval_steps_per_second": 7.002,
	"step": 29500
	},
	{
	"epoch": 9.017132551848512,
	"grad_norm": 2.67307710647583,
	"learning_rate": 7e-05,
	"loss": 0.9716,
	"step": 30000
	},
	{
	"epoch": 9.017132551848512,
	"eval_accuracy": 0.7914492771721259,
	"eval_loss": 1.2048789262771606,
	"eval_runtime": 121.4256,
	"eval_samples_per_second": 196.417,
	"eval_steps_per_second": 6.144,
	"step": 30000
	},
	{
	"epoch": 9.16741809437932,
	"grad_norm": 2.9317779541015625,
	"learning_rate": 6.95e-05,
	"loss": 0.962,
	"step": 30500
	},
	{
	"epoch": 9.16741809437932,
	"eval_accuracy": 0.7917621280752731,
	"eval_loss": 1.199426293373108,
	"eval_runtime": 121.1706,
	"eval_samples_per_second": 196.83,
	"eval_steps_per_second": 6.157,
	"step": 30500
	},
	{
	"epoch": 9.31770363691013,
	"grad_norm": 2.679703712463379,
	"learning_rate": 6.9e-05,
	"loss": 0.9642,
	"step": 31000
	},
	{
	"epoch": 9.31770363691013,
	"eval_accuracy": 0.7925397227321643,
	"eval_loss": 1.193407654762268,
	"eval_runtime": 123.2276,
	"eval_samples_per_second": 193.544,
	"eval_steps_per_second": 6.054,
	"step": 31000
	},
	{
	"epoch": 9.467989179440938,
	"grad_norm": 2.4788730144500732,
	"learning_rate": 6.850000000000001e-05,
	"loss": 0.9601,
	"step": 31500
	},
	{
	"epoch": 9.467989179440938,
	"eval_accuracy": 0.792334985338317,
	"eval_loss": 1.1934560537338257,
	"eval_runtime": 119.6088,
	"eval_samples_per_second": 199.4,
	"eval_steps_per_second": 6.237,
	"step": 31500
	},
	{
	"epoch": 9.618274721971746,
	"grad_norm": 2.8737170696258545,
	"learning_rate": 6.800000000000001e-05,
	"loss": 0.9541,
	"step": 32000
	},
	{
	"epoch": 9.618274721971746,
	"eval_accuracy": 0.7933121889138387,
	"eval_loss": 1.1921508312225342,
	"eval_runtime": 124.8462,
	"eval_samples_per_second": 191.035,
	"eval_steps_per_second": 5.975,
	"step": 32000
	},
	{
	"epoch": 9.768560264502554,
	"grad_norm": 2.7593533992767334,
	"learning_rate": 6.750000000000001e-05,
	"loss": 0.9599,
	"step": 32500
	},
	{
	"epoch": 9.768560264502554,
	"eval_accuracy": 0.7930929148774838,
	"eval_loss": 1.2042547464370728,
	"eval_runtime": 124.9577,
	"eval_samples_per_second": 190.865,
	"eval_steps_per_second": 5.97,
	"step": 32500
	},
	{
	"epoch": 9.918845807033364,
	"grad_norm": 2.389718532562256,
	"learning_rate": 6.7e-05,
	"loss": 0.9649,
	"step": 33000
	},
	{
	"epoch": 9.918845807033364,
	"eval_accuracy": 0.7939532145922783,
	"eval_loss": 1.1914194822311401,
	"eval_runtime": 120.967,
	"eval_samples_per_second": 197.161,
	"eval_steps_per_second": 6.167,
	"step": 33000
	},
	{
	"epoch": 10.069131349564172,
	"grad_norm": 2.846874475479126,
	"learning_rate": 6.65e-05,
	"loss": 0.9467,
	"step": 33500
	},
	{
	"epoch": 10.069131349564172,
	"eval_accuracy": 0.7947739980138828,
	"eval_loss": 1.1852329969406128,
	"eval_runtime": 120.8513,
	"eval_samples_per_second": 197.35,
	"eval_steps_per_second": 6.173,
	"step": 33500
	},
	{
	"epoch": 10.21941689209498,
	"grad_norm": 2.58475399017334,
	"learning_rate": 6.6e-05,
	"loss": 0.9406,
	"step": 34000
	},
	{
	"epoch": 10.21941689209498,
	"eval_accuracy": 0.7943515220267853,
	"eval_loss": 1.1843186616897583,
	"eval_runtime": 121.8305,
	"eval_samples_per_second": 195.764,
	"eval_steps_per_second": 6.123,
	"step": 34000
	},
	{
	"epoch": 10.36970243462579,
	"grad_norm": 3.003615140914917,
	"learning_rate": 6.55e-05,
	"loss": 0.9395,
	"step": 34500
	},
	{
	"epoch": 10.36970243462579,
	"eval_accuracy": 0.7948140182397172,
	"eval_loss": 1.1831063032150269,
	"eval_runtime": 120.2856,
	"eval_samples_per_second": 198.278,
	"eval_steps_per_second": 6.202,
	"step": 34500
	},
	{
	"epoch": 10.519987977156598,
	"grad_norm": 2.6997032165527344,
	"learning_rate": 6.500000000000001e-05,
	"loss": 0.9338,
	"step": 35000
	},
	{
	"epoch": 10.519987977156598,
	"eval_accuracy": 0.7955270740039722,
	"eval_loss": 1.1888868808746338,
	"eval_runtime": 121.3291,
	"eval_samples_per_second": 196.573,
	"eval_steps_per_second": 6.149,
	"step": 35000
	},
	{
	"epoch": 10.670273519687406,
	"grad_norm": 2.5620720386505127,
	"learning_rate": 6.450000000000001e-05,
	"loss": 0.9413,
	"step": 35500
	},
	{
	"epoch": 10.670273519687406,
	"eval_accuracy": 0.7960009228127132,
	"eval_loss": 1.1771271228790283,
	"eval_runtime": 116.3789,
	"eval_samples_per_second": 204.934,
	"eval_steps_per_second": 6.41,
	"step": 35500
	},
	{
	"epoch": 10.820559062218214,
	"grad_norm": 2.4902310371398926,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.941,
	"step": 36000
	},
	{
	"epoch": 10.820559062218214,
	"eval_accuracy": 0.7952424860773146,
	"eval_loss": 1.176774263381958,
	"eval_runtime": 116.6512,
	"eval_samples_per_second": 204.456,
	"eval_steps_per_second": 6.395,
	"step": 36000
	},
	{
	"epoch": 10.970844604749024,
	"grad_norm": 2.6512043476104736,
	"learning_rate": 6.35e-05,
	"loss": 0.9371,
	"step": 36500
	},
	{
	"epoch": 10.970844604749024,
	"eval_accuracy": 0.796440942176153,
	"eval_loss": 1.1723679304122925,
	"eval_runtime": 119.8979,
	"eval_samples_per_second": 198.919,
	"eval_steps_per_second": 6.222,
	"step": 36500
	},
	{
	"epoch": 11.121130147279832,
	"grad_norm": 2.6038336753845215,
	"learning_rate": 6.3e-05,
	"loss": 0.9293,
	"step": 37000
	},
	{
	"epoch": 11.121130147279832,
	"eval_accuracy": 0.7967239525153044,
	"eval_loss": 1.1750506162643433,
	"eval_runtime": 120.4764,
	"eval_samples_per_second": 197.964,
	"eval_steps_per_second": 6.192,
	"step": 37000
	},
	{
	"epoch": 11.27141568981064,
	"grad_norm": 2.5120317935943604,
	"learning_rate": 6.25e-05,
	"loss": 0.9279,
	"step": 37500
	},
	{
	"epoch": 11.27141568981064,
	"eval_accuracy": 0.7974463986990397,
	"eval_loss": 1.1721601486206055,
	"eval_runtime": 115.5123,
	"eval_samples_per_second": 206.471,
	"eval_steps_per_second": 6.458,
	"step": 37500
	},
	{
	"epoch": 11.421701232341448,
	"grad_norm": 2.6776065826416016,
	"learning_rate": 6.2e-05,
	"loss": 0.9273,
	"step": 38000
	},
	{
	"epoch": 11.421701232341448,
	"eval_accuracy": 0.7977723054491466,
	"eval_loss": 1.1790024042129517,
	"eval_runtime": 118.0413,
	"eval_samples_per_second": 202.048,
	"eval_steps_per_second": 6.32,
	"step": 38000
	},
	{
	"epoch": 11.571986774872258,
	"grad_norm": 2.473292589187622,
	"learning_rate": 6.15e-05,
	"loss": 0.9176,
	"step": 38500
	},
	{
	"epoch": 11.571986774872258,
	"eval_accuracy": 0.7978240654330204,
	"eval_loss": 1.1769903898239136,
	"eval_runtime": 119.5414,
	"eval_samples_per_second": 199.512,
	"eval_steps_per_second": 6.241,
	"step": 38500
	},
	{
	"epoch": 11.722272317403066,
	"grad_norm": 2.573493242263794,
	"learning_rate": 6.1e-05,
	"loss": 0.918,
	"step": 39000
	},
	{
	"epoch": 11.722272317403066,
	"eval_accuracy": 0.7978464067774307,
	"eval_loss": 1.1745543479919434,
	"eval_runtime": 118.8031,
	"eval_samples_per_second": 200.752,
	"eval_steps_per_second": 6.279,
	"step": 39000
	},
	{
	"epoch": 11.872557859933874,
	"grad_norm": 2.496293067932129,
	"learning_rate": 6.05e-05,
	"loss": 0.9209,
	"step": 39500
	},
	{
	"epoch": 11.872557859933874,
	"eval_accuracy": 0.7988222222591843,
	"eval_loss": 1.1572139263153076,
	"eval_runtime": 119.3596,
	"eval_samples_per_second": 199.816,
	"eval_steps_per_second": 6.25,
	"step": 39500
	},
	{
	"epoch": 12.022843402464684,
	"grad_norm": 2.8805453777313232,
	"learning_rate": 6e-05,
	"loss": 0.9204,
	"step": 40000
	},
	{
	"epoch": 12.022843402464684,
	"eval_accuracy": 0.799307208811464,
	"eval_loss": 1.1740858554840088,
	"eval_runtime": 118.6109,
	"eval_samples_per_second": 201.078,
	"eval_steps_per_second": 6.289,
	"step": 40000
	},
	{
	"epoch": 12.173128944995492,
	"grad_norm": 2.6088273525238037,
	"learning_rate": 5.95e-05,
	"loss": 0.9149,
	"step": 40500
	},
	{
	"epoch": 12.173128944995492,
	"eval_accuracy": 0.7991013549531508,
	"eval_loss": 1.1727755069732666,
	"eval_runtime": 117.7954,
	"eval_samples_per_second": 202.47,
	"eval_steps_per_second": 6.333,
	"step": 40500
	},
	{
	"epoch": 12.3234144875263,
	"grad_norm": 2.426567316055298,
	"learning_rate": 5.9e-05,
	"loss": 0.9009,
	"step": 41000
	},
	{
	"epoch": 12.3234144875263,
	"eval_accuracy": 0.798481914968918,
	"eval_loss": 1.1672251224517822,
	"eval_runtime": 119.0757,
	"eval_samples_per_second": 200.293,
	"eval_steps_per_second": 6.265,
	"step": 41000
	},
	{
	"epoch": 12.473700030057108,
	"grad_norm": 2.687640428543091,
	"learning_rate": 5.85e-05,
	"loss": 0.9094,
	"step": 41500
	},
	{
	"epoch": 12.473700030057108,
	"eval_accuracy": 0.7998230800562746,
	"eval_loss": 1.1598495244979858,
	"eval_runtime": 118.9102,
	"eval_samples_per_second": 200.572,
	"eval_steps_per_second": 6.274,
	"step": 41500
	},
	{
	"epoch": 12.623985572587918,
	"grad_norm": 3.0333776473999023,
	"learning_rate": 5.8e-05,
	"loss": 0.9149,
	"step": 42000
	},
	{
	"epoch": 12.623985572587918,
	"eval_accuracy": 0.7999625316919439,
	"eval_loss": 1.171325445175171,
	"eval_runtime": 115.3742,
	"eval_samples_per_second": 206.719,
	"eval_steps_per_second": 6.466,
	"step": 42000
	},
	{
	"epoch": 12.774271115118726,
	"grad_norm": 2.299436569213867,
	"learning_rate": 5.7499999999999995e-05,
	"loss": 0.9068,
	"step": 42500
	},
	{
	"epoch": 12.774271115118726,
	"eval_accuracy": 0.8010648350504735,
	"eval_loss": 1.1537537574768066,
	"eval_runtime": 118.7443,
	"eval_samples_per_second": 200.852,
	"eval_steps_per_second": 6.282,
	"step": 42500
	},
	{
	"epoch": 12.924556657649534,
	"grad_norm": 2.7340447902679443,
	"learning_rate": 5.6999999999999996e-05,
	"loss": 0.9099,
	"step": 43000
	},
	{
	"epoch": 12.924556657649534,
	"eval_accuracy": 0.8012578176921267,
	"eval_loss": 1.1426852941513062,
	"eval_runtime": 120.2664,
	"eval_samples_per_second": 198.31,
	"eval_steps_per_second": 6.203,
	"step": 43000
	},
	{
	"epoch": 13.074842200180342,
	"grad_norm": 2.6585094928741455,
	"learning_rate": 5.65e-05,
	"loss": 0.8951,
	"step": 43500
	},
	{
	"epoch": 13.074842200180342,
	"eval_accuracy": 0.8005615361847466,
	"eval_loss": 1.1578710079193115,
	"eval_runtime": 115.0048,
	"eval_samples_per_second": 207.383,
	"eval_steps_per_second": 6.487,
	"step": 43500
	},
	{
	"epoch": 13.225127742711152,
	"grad_norm": 2.6981582641601562,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 0.8886,
	"step": 44000
	},
	{
	"epoch": 13.225127742711152,
	"eval_accuracy": 0.8010340860790154,
	"eval_loss": 1.1602416038513184,
	"eval_runtime": 113.2435,
	"eval_samples_per_second": 210.608,
	"eval_steps_per_second": 6.588,
	"step": 44000
	},
	{
	"epoch": 13.37541328524196,
	"grad_norm": 2.6016407012939453,
	"learning_rate": 5.550000000000001e-05,
	"loss": 0.9057,
	"step": 44500
	},
	{
	"epoch": 13.37541328524196,
	"eval_accuracy": 0.8021396084503188,
	"eval_loss": 1.1406522989273071,
	"eval_runtime": 115.7578,
	"eval_samples_per_second": 206.034,
	"eval_steps_per_second": 6.444,
	"step": 44500
	},
	{
	"epoch": 13.525698827772768,
	"grad_norm": 2.693239688873291,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.8921,
	"step": 45000
	},
	{
	"epoch": 13.525698827772768,
	"eval_accuracy": 0.801952397809383,
	"eval_loss": 1.1361913681030273,
	"eval_runtime": 112.7804,
	"eval_samples_per_second": 211.473,
	"eval_steps_per_second": 6.615,
	"step": 45000
	},
	{
	"epoch": 13.675984370303578,
	"grad_norm": 2.386279582977295,
	"learning_rate": 5.45e-05,
	"loss": 0.8942,
	"step": 45500
	},
	{
	"epoch": 13.675984370303578,
	"eval_accuracy": 0.8024716769653207,
	"eval_loss": 1.1441001892089844,
	"eval_runtime": 114.7396,
	"eval_samples_per_second": 207.862,
	"eval_steps_per_second": 6.502,
	"step": 45500
	},
	{
	"epoch": 13.826269912834386,
	"grad_norm": 2.3237531185150146,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 0.8939,
	"step": 46000
	},
	{
	"epoch": 13.826269912834386,
	"eval_accuracy": 0.8025017531571386,
	"eval_loss": 1.141733169555664,
	"eval_runtime": 112.3505,
	"eval_samples_per_second": 212.282,
	"eval_steps_per_second": 6.64,
	"step": 46000
	},
	{
	"epoch": 13.976555455365194,
	"grad_norm": 2.463498592376709,
	"learning_rate": 5.3500000000000006e-05,
	"loss": 0.891,
	"step": 46500
	},
	{
	"epoch": 13.976555455365194,
	"eval_accuracy": 0.803545043091428,
	"eval_loss": 1.144685983657837,
	"eval_runtime": 114.632,
	"eval_samples_per_second": 208.057,
	"eval_steps_per_second": 6.508,
	"step": 46500
	},
	{
	"epoch": 14.126840997896002,
	"grad_norm": 2.7393481731414795,
	"learning_rate": 5.300000000000001e-05,
	"loss": 0.8846,
	"step": 47000
	},
	{
	"epoch": 14.126840997896002,
	"eval_accuracy": 0.8038034340555349,
	"eval_loss": 1.1320561170578003,
	"eval_runtime": 112.5915,
	"eval_samples_per_second": 211.828,
	"eval_steps_per_second": 6.626,
	"step": 47000
	},
	{
	"epoch": 14.277126540426812,
	"grad_norm": 2.776505708694458,
	"learning_rate": 5.25e-05,
	"loss": 0.8841,
	"step": 47500
	},
	{
	"epoch": 14.277126540426812,
	"eval_accuracy": 0.8034705833910766,
	"eval_loss": 1.1436700820922852,
	"eval_runtime": 114.9721,
	"eval_samples_per_second": 207.442,
	"eval_steps_per_second": 6.489,
	"step": 47500
	},
	{
	"epoch": 14.42741208295762,
	"grad_norm": 2.536817789077759,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 0.8811,
	"step": 48000
	},
	{
	"epoch": 14.42741208295762,
	"eval_accuracy": 0.8044537392561116,
	"eval_loss": 1.133318305015564,
	"eval_runtime": 113.5045,
	"eval_samples_per_second": 210.124,
	"eval_steps_per_second": 6.572,
	"step": 48000
	},
	{
	"epoch": 14.577697625488428,
	"grad_norm": 2.524203062057495,
	"learning_rate": 5.1500000000000005e-05,
	"loss": 0.8778,
	"step": 48500
	},
	{
	"epoch": 14.577697625488428,
	"eval_accuracy": 0.8039248049976617,
	"eval_loss": 1.1258032321929932,
	"eval_runtime": 114.9378,
	"eval_samples_per_second": 207.504,
	"eval_steps_per_second": 6.49,
	"step": 48500
	},
	{
	"epoch": 14.727983168019236,
	"grad_norm": 2.6129727363586426,
	"learning_rate": 5.1000000000000006e-05,
	"loss": 0.8765,
	"step": 49000
	},
	{
	"epoch": 14.727983168019236,
	"eval_accuracy": 0.8044657041630938,
	"eval_loss": 1.1352417469024658,
	"eval_runtime": 114.1357,
	"eval_samples_per_second": 208.962,
	"eval_steps_per_second": 6.536,
	"step": 49000
	},
	{
	"epoch": 14.878268710550046,
	"grad_norm": 2.6218881607055664,
	"learning_rate": 5.05e-05,
	"loss": 0.876,
	"step": 49500
	},
	{
	"epoch": 14.878268710550046,
	"eval_accuracy": 0.8049223412984352,
	"eval_loss": 1.131935954093933,
	"eval_runtime": 114.4278,
	"eval_samples_per_second": 208.428,
	"eval_steps_per_second": 6.519,
	"step": 49500
	},
	{
	"epoch": 15.028554253080854,
	"grad_norm": 2.654724597930908,
	"learning_rate": 5e-05,
	"loss": 0.879,
	"step": 50000
	},
	{
	"epoch": 15.028554253080854,
	"eval_accuracy": 0.8056327032697777,
	"eval_loss": 1.1161094903945923,
	"eval_runtime": 112.2273,
	"eval_samples_per_second": 212.515,
	"eval_steps_per_second": 6.647,
	"step": 50000
	},
	{
	"epoch": 15.178839795611662,
	"grad_norm": 2.569153308868408,
	"learning_rate": 4.9500000000000004e-05,
	"loss": 0.8674,
	"step": 50500
	},
	{
	"epoch": 15.178839795611662,
	"eval_accuracy": 0.8048139780991767,
	"eval_loss": 1.1278635263442993,
	"eval_runtime": 114.7277,
	"eval_samples_per_second": 207.884,
	"eval_steps_per_second": 6.502,
	"step": 50500
	},
	{
	"epoch": 15.32912533814247,
	"grad_norm": 2.5382237434387207,
	"learning_rate": 4.9e-05,
	"loss": 0.8676,
	"step": 51000
	},
	{
	"epoch": 15.32912533814247,
	"eval_accuracy": 0.8064227363767525,
	"eval_loss": 1.132450819015503,
	"eval_runtime": 107.2478,
	"eval_samples_per_second": 222.382,
	"eval_steps_per_second": 6.956,
	"step": 51000
	},
	{
	"epoch": 15.47941088067328,
	"grad_norm": 2.480746030807495,
	"learning_rate": 4.85e-05,
	"loss": 0.867,
	"step": 51500
	},
	{
	"epoch": 15.47941088067328,
	"eval_accuracy": 0.806509341887431,
	"eval_loss": 1.1208624839782715,
	"eval_runtime": 107.5739,
	"eval_samples_per_second": 221.708,
	"eval_steps_per_second": 6.935,
	"step": 51500
	},
	{
	"epoch": 15.629696423204088,
	"grad_norm": 2.4417829513549805,
	"learning_rate": 4.8e-05,
	"loss": 0.8648,
	"step": 52000
	},
	{
	"epoch": 15.629696423204088,
	"eval_accuracy": 0.80664691560334,
	"eval_loss": 1.123421549797058,
	"eval_runtime": 107.0763,
	"eval_samples_per_second": 222.738,
	"eval_steps_per_second": 6.967,
	"step": 52000
	},
	{
	"epoch": 15.779981965734896,
	"grad_norm": 2.3048479557037354,
	"learning_rate": 4.75e-05,
	"loss": 0.87,
	"step": 52500
	},
	{
	"epoch": 15.779981965734896,
	"eval_accuracy": 0.8067313801594327,
	"eval_loss": 1.1155991554260254,
	"eval_runtime": 108.1545,
	"eval_samples_per_second": 220.518,
	"eval_steps_per_second": 6.898,
	"step": 52500
	},
	{
	"epoch": 15.930267508265704,
	"grad_norm": 2.6421682834625244,
	"learning_rate": 4.7e-05,
	"loss": 0.8694,
	"step": 53000
	},
	{
	"epoch": 15.930267508265704,
	"eval_accuracy": 0.8066291950596075,
	"eval_loss": 1.1215757131576538,
	"eval_runtime": 109.1629,
	"eval_samples_per_second": 218.481,
	"eval_steps_per_second": 6.834,
	"step": 53000
	},
	{
	"epoch": 16.080553050796514,
	"grad_norm": 2.4313910007476807,
	"learning_rate": 4.6500000000000005e-05,
	"loss": 0.8668,
	"step": 53500
	},
	{
	"epoch": 16.080553050796514,
	"eval_accuracy": 0.8079721270128156,
	"eval_loss": 1.1246066093444824,
	"eval_runtime": 108.472,
	"eval_samples_per_second": 219.872,
	"eval_steps_per_second": 6.877,
	"step": 53500
	},
	{
	"epoch": 16.230838593327324,
	"grad_norm": 2.2622108459472656,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.8603,
	"step": 54000
	},
	{
	"epoch": 16.230838593327324,
	"eval_accuracy": 0.8070964068446762,
	"eval_loss": 1.1118344068527222,
	"eval_runtime": 107.6522,
	"eval_samples_per_second": 221.547,
	"eval_steps_per_second": 6.93,
	"step": 54000
	},
	{
	"epoch": 16.38112413585813,
	"grad_norm": 2.355970621109009,
	"learning_rate": 4.55e-05,
	"loss": 0.8557,
	"step": 54500
	},
	{
	"epoch": 16.38112413585813,
	"eval_accuracy": 0.8079940925101587,
	"eval_loss": 1.1261143684387207,
	"eval_runtime": 107.1531,
	"eval_samples_per_second": 222.579,
	"eval_steps_per_second": 6.962,
	"step": 54500
	},
	{
	"epoch": 16.53140967838894,
	"grad_norm": 2.4477593898773193,
	"learning_rate": 4.5e-05,
	"loss": 0.8521,
	"step": 55000
	},
	{
	"epoch": 16.53140967838894,
	"eval_accuracy": 0.8084604086659483,
	"eval_loss": 1.1086950302124023,
	"eval_runtime": 106.6462,
	"eval_samples_per_second": 223.637,
	"eval_steps_per_second": 6.995,
	"step": 55000
	},
	{
	"epoch": 16.681695220919746,
	"grad_norm": 3.1719090938568115,
	"learning_rate": 4.4500000000000004e-05,
	"loss": 0.8583,
	"step": 55500
	},
	{
	"epoch": 16.681695220919746,
	"eval_accuracy": 0.8085530062732024,
	"eval_loss": 1.1111265420913696,
	"eval_runtime": 107.453,
	"eval_samples_per_second": 221.958,
	"eval_steps_per_second": 6.943,
	"step": 55500
	},
	{
	"epoch": 16.831980763450556,
	"grad_norm": 2.867218494415283,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.8509,
	"step": 56000
	},
	{
	"epoch": 16.831980763450556,
	"eval_accuracy": 0.8083466491211581,
	"eval_loss": 1.1217560768127441,
	"eval_runtime": 107.5379,
	"eval_samples_per_second": 221.782,
	"eval_steps_per_second": 6.937,
	"step": 56000
	},
	{
	"epoch": 16.982266305981366,
	"grad_norm": 2.421694040298462,
	"learning_rate": 4.35e-05,
	"loss": 0.8591,
	"step": 56500
	},
	{
	"epoch": 16.982266305981366,
	"eval_accuracy": 0.808431427546503,
	"eval_loss": 1.1109532117843628,
	"eval_runtime": 108.5465,
	"eval_samples_per_second": 219.721,
	"eval_steps_per_second": 6.873,
	"step": 56500
	},
	{
	"epoch": 17.132551848512172,
	"grad_norm": 2.6324167251586914,
	"learning_rate": 4.3e-05,
	"loss": 0.8417,
	"step": 57000
	},
	{
	"epoch": 17.132551848512172,
	"eval_accuracy": 0.8085933337773042,
	"eval_loss": 1.1125506162643433,
	"eval_runtime": 108.0877,
	"eval_samples_per_second": 220.654,
	"eval_steps_per_second": 6.902,
	"step": 57000
	},
	{
	"epoch": 17.282837391042982,
	"grad_norm": 2.448883056640625,
	"learning_rate": 4.25e-05,
	"loss": 0.8511,
	"step": 57500
	},
	{
	"epoch": 17.282837391042982,
	"eval_accuracy": 0.8093454793356915,
	"eval_loss": 1.1108651161193848,
	"eval_runtime": 108.0036,
	"eval_samples_per_second": 220.826,
	"eval_steps_per_second": 6.907,
	"step": 57500
	},
	{
	"epoch": 17.43312293357379,
	"grad_norm": 2.647814989089966,
	"learning_rate": 4.2e-05,
	"loss": 0.8472,
	"step": 58000
	},
	{
	"epoch": 17.43312293357379,
	"eval_accuracy": 0.8097202877059791,
	"eval_loss": 1.1124111413955688,
	"eval_runtime": 107.9075,
	"eval_samples_per_second": 221.023,
	"eval_steps_per_second": 6.913,
	"step": 58000
	},
	{
	"epoch": 17.583408476104598,
	"grad_norm": 2.3744354248046875,
	"learning_rate": 4.15e-05,
	"loss": 0.8381,
	"step": 58500
	},
	{
	"epoch": 17.583408476104598,
	"eval_accuracy": 0.8095948479389424,
	"eval_loss": 1.1056084632873535,
	"eval_runtime": 107.6903,
	"eval_samples_per_second": 221.468,
	"eval_steps_per_second": 6.927,
	"step": 58500
	},
	{
	"epoch": 17.733694018635408,
	"grad_norm": 2.3030834197998047,
	"learning_rate": 4.1e-05,
	"loss": 0.8474,
	"step": 59000
	},
	{
	"epoch": 17.733694018635408,
	"eval_accuracy": 0.8102527131048097,
	"eval_loss": 1.1011704206466675,
	"eval_runtime": 107.5969,
	"eval_samples_per_second": 221.661,
	"eval_steps_per_second": 6.933,
	"step": 59000
	},
	{
	"epoch": 17.883979561166214,
	"grad_norm": 2.610208749771118,
	"learning_rate": 4.05e-05,
	"loss": 0.8456,
	"step": 59500
	},
	{
	"epoch": 17.883979561166214,
	"eval_accuracy": 0.8108135572608609,
	"eval_loss": 1.097122073173523,
	"eval_runtime": 106.6046,
	"eval_samples_per_second": 223.724,
	"eval_steps_per_second": 6.998,
	"step": 59500
	},
	{
	"epoch": 18.034265103697024,
	"grad_norm": 2.491633176803589,
	"learning_rate": 4e-05,
	"loss": 0.8367,
	"step": 60000
	},
	{
	"epoch": 18.034265103697024,
	"eval_accuracy": 0.8112650064622723,
	"eval_loss": 1.0913532972335815,
	"eval_runtime": 107.2029,
	"eval_samples_per_second": 222.475,
	"eval_steps_per_second": 6.959,
	"step": 60000
	},
	{
	"epoch": 18.184550646227834,
	"grad_norm": 2.270582437515259,
	"learning_rate": 3.9500000000000005e-05,
	"loss": 0.8336,
	"step": 60500
	},
	{
	"epoch": 18.184550646227834,
	"eval_accuracy": 0.8104727212172935,
	"eval_loss": 1.110021710395813,
	"eval_runtime": 106.0993,
	"eval_samples_per_second": 224.789,
	"eval_steps_per_second": 7.031,
	"step": 60500
	},
	{
	"epoch": 18.33483618875864,
	"grad_norm": 2.4716830253601074,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 0.8404,
	"step": 61000
	},
	{
	"epoch": 18.33483618875864,
	"eval_accuracy": 0.8114022782578146,
	"eval_loss": 1.0959724187850952,
	"eval_runtime": 107.1337,
	"eval_samples_per_second": 222.619,
	"eval_steps_per_second": 6.963,
	"step": 61000
	},
	{
	"epoch": 18.48512173128945,
	"grad_norm": 2.679825782775879,
	"learning_rate": 3.85e-05,
	"loss": 0.8365,
	"step": 61500
	},
	{
	"epoch": 18.48512173128945,
	"eval_accuracy": 0.8112698414020383,
	"eval_loss": 1.0895620584487915,
	"eval_runtime": 107.9425,
	"eval_samples_per_second": 220.951,
	"eval_steps_per_second": 6.911,
	"step": 61500
	},
	{
	"epoch": 18.63540727382026,
	"grad_norm": 2.5028414726257324,
	"learning_rate": 3.8e-05,
	"loss": 0.8308,
	"step": 62000
	},
	{
	"epoch": 18.63540727382026,
	"eval_accuracy": 0.8112445219475855,
	"eval_loss": 1.098541498184204,
	"eval_runtime": 108.1696,
	"eval_samples_per_second": 220.487,
	"eval_steps_per_second": 6.897,
	"step": 62000
	},
	{
	"epoch": 18.785692816351066,
	"grad_norm": 2.4303503036499023,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.8308,
	"step": 62500
	},
	{
	"epoch": 18.785692816351066,
	"eval_accuracy": 0.8120511999201301,
	"eval_loss": 1.0968284606933594,
	"eval_runtime": 107.5288,
	"eval_samples_per_second": 221.801,
	"eval_steps_per_second": 6.938,
	"step": 62500
	},
	{
	"epoch": 18.935978358881876,
	"grad_norm": 2.9847395420074463,
	"learning_rate": 3.7e-05,
	"loss": 0.8312,
	"step": 63000
	},
	{
	"epoch": 18.935978358881876,
	"eval_accuracy": 0.8121808312724796,
	"eval_loss": 1.0884159803390503,
	"eval_runtime": 107.9223,
	"eval_samples_per_second": 220.992,
	"eval_steps_per_second": 6.912,
	"step": 63000
	},
	{
	"epoch": 19.086263901412686,
	"grad_norm": 2.302724838256836,
	"learning_rate": 3.65e-05,
	"loss": 0.8279,
	"step": 63500
	},
	{
	"epoch": 19.086263901412686,
	"eval_accuracy": 0.8127240285256392,
	"eval_loss": 1.0900928974151611,
	"eval_runtime": 106.9119,
	"eval_samples_per_second": 223.081,
	"eval_steps_per_second": 6.978,
	"step": 63500
	},
	{
	"epoch": 19.236549443943492,
	"grad_norm": 2.4187684059143066,
	"learning_rate": 3.6e-05,
	"loss": 0.8219,
	"step": 64000
	},
	{
	"epoch": 19.236549443943492,
	"eval_accuracy": 0.8129403972187366,
	"eval_loss": 1.0872172117233276,
	"eval_runtime": 109.8336,
	"eval_samples_per_second": 217.147,
	"eval_steps_per_second": 6.792,
	"step": 64000
	},
	{
	"epoch": 19.3868349864743,
	"grad_norm": 2.740501880645752,
	"learning_rate": 3.55e-05,
	"loss": 0.8266,
	"step": 64500
	},
	{
	"epoch": 19.3868349864743,
	"eval_accuracy": 0.8114303723800741,
	"eval_loss": 1.0987831354141235,
	"eval_runtime": 109.7168,
	"eval_samples_per_second": 217.378,
	"eval_steps_per_second": 6.799,
	"step": 64500
	},
	{
	"epoch": 19.537120529005108,
	"grad_norm": 2.326366424560547,
	"learning_rate": 3.5e-05,
	"loss": 0.8255,
	"step": 65000
	},
	{
	"epoch": 19.537120529005108,
	"eval_accuracy": 0.8124286882301512,
	"eval_loss": 1.0885217189788818,
	"eval_runtime": 114.778,
	"eval_samples_per_second": 207.792,
	"eval_steps_per_second": 6.5,
	"step": 65000
	},
	{
	"epoch": 19.687406071535918,
	"grad_norm": 3.1694321632385254,
	"learning_rate": 3.45e-05,
	"loss": 0.8185,
	"step": 65500
	},
	{
	"epoch": 19.687406071535918,
	"eval_accuracy": 0.8129749253547676,
	"eval_loss": 1.0836535692214966,
	"eval_runtime": 114.5951,
	"eval_samples_per_second": 208.124,
	"eval_steps_per_second": 6.51,
	"step": 65500
	},
	{
	"epoch": 19.837691614066728,
	"grad_norm": 2.6415817737579346,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.8219,
	"step": 66000
	},
	{
	"epoch": 19.837691614066728,
	"eval_accuracy": 0.8122496169754481,
	"eval_loss": 1.0868114233016968,
	"eval_runtime": 113.7304,
	"eval_samples_per_second": 209.707,
	"eval_steps_per_second": 6.559,
	"step": 66000
	},
	{
	"epoch": 19.987977156597534,
	"grad_norm": 2.567044496536255,
	"learning_rate": 3.35e-05,
	"loss": 0.8214,
	"step": 66500
	},
	{
	"epoch": 19.987977156597534,
	"eval_accuracy": 0.8135328500351103,
	"eval_loss": 1.0849970579147339,
	"eval_runtime": 114.2096,
	"eval_samples_per_second": 208.827,
	"eval_steps_per_second": 6.532,
	"step": 66500
	},
	{
	"epoch": 20.138262699128344,
	"grad_norm": 2.475660562515259,
	"learning_rate": 3.3e-05,
	"loss": 0.8123,
	"step": 67000
	},
	{
	"epoch": 20.138262699128344,
	"eval_accuracy": 0.8127171094527156,
	"eval_loss": 1.0919703245162964,
	"eval_runtime": 110.4581,
	"eval_samples_per_second": 215.919,
	"eval_steps_per_second": 6.754,
	"step": 67000
	},
	{
	"epoch": 20.288548241659154,
	"grad_norm": 2.9205057621002197,
	"learning_rate": 3.2500000000000004e-05,
	"loss": 0.8146,
	"step": 67500
	},
	{
	"epoch": 20.288548241659154,
	"eval_accuracy": 0.8139352319239987,
	"eval_loss": 1.0828359127044678,
	"eval_runtime": 110.5729,
	"eval_samples_per_second": 215.695,
	"eval_steps_per_second": 6.747,
	"step": 67500
	},
	{
	"epoch": 20.43883378418996,
	"grad_norm": 2.775470018386841,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.8117,
	"step": 68000
	},
	{
	"epoch": 20.43883378418996,
	"eval_accuracy": 0.8144743916913453,
	"eval_loss": 1.0843496322631836,
	"eval_runtime": 110.9504,
	"eval_samples_per_second": 214.961,
	"eval_steps_per_second": 6.724,
	"step": 68000
	},
	{
	"epoch": 20.58911932672077,
	"grad_norm": 2.8596460819244385,
	"learning_rate": 3.15e-05,
	"loss": 0.8142,
	"step": 68500
	},
	{
	"epoch": 20.58911932672077,
	"eval_accuracy": 0.8145867898001746,
	"eval_loss": 1.0775424242019653,
	"eval_runtime": 110.2042,
	"eval_samples_per_second": 216.416,
	"eval_steps_per_second": 6.769,
	"step": 68500
	},
	{
	"epoch": 20.73940486925158,
	"grad_norm": 2.5671284198760986,
	"learning_rate": 3.1e-05,
	"loss": 0.8176,
	"step": 69000
	},
	{
	"epoch": 20.73940486925158,
	"eval_accuracy": 0.8140961234786387,
	"eval_loss": 1.0756142139434814,
	"eval_runtime": 110.7907,
	"eval_samples_per_second": 215.271,
	"eval_steps_per_second": 6.733,
	"step": 69000
	},
	{
	"epoch": 20.889690411782386,
	"grad_norm": 2.549713373184204,
	"learning_rate": 3.05e-05,
	"loss": 0.813,
	"step": 69500
	},
	{
	"epoch": 20.889690411782386,
	"eval_accuracy": 0.8145543791131244,
	"eval_loss": 1.0741270780563354,
	"eval_runtime": 113.2044,
	"eval_samples_per_second": 210.681,
	"eval_steps_per_second": 6.59,
	"step": 69500
	},
	{
	"epoch": 21.039975954313196,
	"grad_norm": 2.433366060256958,
	"learning_rate": 3e-05,
	"loss": 0.8044,
	"step": 70000
	},
	{
	"epoch": 21.039975954313196,
	"eval_accuracy": 0.8138238331972251,
	"eval_loss": 1.0890129804611206,
	"eval_runtime": 113.5064,
	"eval_samples_per_second": 210.12,
	"eval_steps_per_second": 6.572,
	"step": 70000
	},
	{
	"epoch": 21.190261496844002,
	"grad_norm": 2.672717571258545,
	"learning_rate": 2.95e-05,
	"loss": 0.8034,
	"step": 70500
	},
	{
	"epoch": 21.190261496844002,
	"eval_accuracy": 0.8146000723609511,
	"eval_loss": 1.0757637023925781,
	"eval_runtime": 109.4526,
	"eval_samples_per_second": 217.902,
	"eval_steps_per_second": 6.816,
	"step": 70500
	},
	{
	"epoch": 21.340547039374812,
	"grad_norm": 2.7107882499694824,
	"learning_rate": 2.9e-05,
	"loss": 0.8007,
	"step": 71000
	},
	{
	"epoch": 21.340547039374812,
	"eval_accuracy": 0.815981095746543,
	"eval_loss": 1.074793815612793,
	"eval_runtime": 113.0561,
	"eval_samples_per_second": 210.957,
	"eval_steps_per_second": 6.598,
	"step": 71000
	},
	{
	"epoch": 21.49083258190562,
	"grad_norm": 2.419224262237549,
	"learning_rate": 2.8499999999999998e-05,
	"loss": 0.8009,
	"step": 71500
	},
	{
	"epoch": 21.49083258190562,
	"eval_accuracy": 0.8157551774698867,
	"eval_loss": 1.0713990926742554,
	"eval_runtime": 114.1603,
	"eval_samples_per_second": 208.917,
	"eval_steps_per_second": 6.535,
	"step": 71500
	},
	{
	"epoch": 21.641118124436428,
	"grad_norm": 2.68849778175354,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 0.8042,
	"step": 72000
	},
	{
	"epoch": 21.641118124436428,
	"eval_accuracy": 0.816240857712766,
	"eval_loss": 1.0804829597473145,
	"eval_runtime": 113.3941,
	"eval_samples_per_second": 210.328,
	"eval_steps_per_second": 6.579,
	"step": 72000
	},
	{
	"epoch": 21.791403666967238,
	"grad_norm": 2.3715298175811768,
	"learning_rate": 2.7500000000000004e-05,
	"loss": 0.7971,
	"step": 72500
	},
	{
	"epoch": 21.791403666967238,
	"eval_accuracy": 0.8154816358162141,
	"eval_loss": 1.0725679397583008,
	"eval_runtime": 114.0456,
	"eval_samples_per_second": 209.127,
	"eval_steps_per_second": 6.541,
	"step": 72500
	},
	{
	"epoch": 21.941689209498048,
	"grad_norm": 2.6499125957489014,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 0.807,
	"step": 73000
	},
	{
	"epoch": 21.941689209498048,
	"eval_accuracy": 0.8168061183380335,
	"eval_loss": 1.0588874816894531,
	"eval_runtime": 112.5964,
	"eval_samples_per_second": 211.819,
	"eval_steps_per_second": 6.625,
	"step": 73000
	},
	{
	"epoch": 22.091974752028854,
	"grad_norm": 2.766451358795166,
	"learning_rate": 2.6500000000000004e-05,
	"loss": 0.7973,
	"step": 73500
	},
	{
	"epoch": 22.091974752028854,
	"eval_accuracy": 0.8168862140868284,
	"eval_loss": 1.063796877861023,
	"eval_runtime": 113.9911,
	"eval_samples_per_second": 209.227,
	"eval_steps_per_second": 6.544,
	"step": 73500
	},
	{
	"epoch": 22.242260294559664,
	"grad_norm": 2.5453474521636963,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 0.7915,
	"step": 74000
	},
	{
	"epoch": 22.242260294559664,
	"eval_accuracy": 0.8162707303528417,
	"eval_loss": 1.068402886390686,
	"eval_runtime": 113.1917,
	"eval_samples_per_second": 210.704,
	"eval_steps_per_second": 6.591,
	"step": 74000
	},
	{
	"epoch": 22.392545837090474,
	"grad_norm": 2.449525833129883,
	"learning_rate": 2.5500000000000003e-05,
	"loss": 0.8019,
	"step": 74500
	},
	{
	"epoch": 22.392545837090474,
	"eval_accuracy": 0.8168465033060288,
	"eval_loss": 1.071266531944275,
	"eval_runtime": 114.1644,
	"eval_samples_per_second": 208.909,
	"eval_steps_per_second": 6.534,
	"step": 74500
	},
	{
	"epoch": 22.54283137962128,
	"grad_norm": 2.782717704772949,
	"learning_rate": 2.5e-05,
	"loss": 0.7959,
	"step": 75000
	},
	{
	"epoch": 22.54283137962128,
	"eval_accuracy": 0.8176195224595183,
	"eval_loss": 1.0642682313919067,
	"eval_runtime": 112.938,
	"eval_samples_per_second": 211.178,
	"eval_steps_per_second": 6.605,
	"step": 75000
	},
	{
	"epoch": 22.69311692215209,
	"grad_norm": 2.754309892654419,
	"learning_rate": 2.45e-05,
	"loss": 0.7905,
	"step": 75500
	},
	{
	"epoch": 22.69311692215209,
	"eval_accuracy": 0.8177573368082611,
	"eval_loss": 1.0715863704681396,
	"eval_runtime": 113.2687,
	"eval_samples_per_second": 210.561,
	"eval_steps_per_second": 6.586,
	"step": 75500
	},
	{
	"epoch": 22.843402464682896,
	"grad_norm": 2.665132999420166,
	"learning_rate": 2.4e-05,
	"loss": 0.7894,
	"step": 76000
	},
	{
	"epoch": 22.843402464682896,
	"eval_accuracy": 0.8184662117931626,
	"eval_loss": 1.0566191673278809,
	"eval_runtime": 114.3215,
	"eval_samples_per_second": 208.622,
	"eval_steps_per_second": 6.525,
	"step": 76000
	},
	{
	"epoch": 22.993688007213706,
	"grad_norm": 2.2912895679473877,
	"learning_rate": 2.35e-05,
	"loss": 0.789,
	"step": 76500
	},
	{
	"epoch": 22.993688007213706,
	"eval_accuracy": 0.8173126447012466,
	"eval_loss": 1.0590641498565674,
	"eval_runtime": 114.0949,
	"eval_samples_per_second": 209.037,
	"eval_steps_per_second": 6.538,
	"step": 76500
	},
	{
	"epoch": 23.143973549744516,
	"grad_norm": 2.7320480346679688,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 0.7859,
	"step": 77000
	},
	{
	"epoch": 23.143973549744516,
	"eval_accuracy": 0.8181692377590023,
	"eval_loss": 1.0568209886550903,
	"eval_runtime": 114.0712,
	"eval_samples_per_second": 209.08,
	"eval_steps_per_second": 6.54,
	"step": 77000
	},
	{
	"epoch": 23.294259092275322,
	"grad_norm": 2.5960936546325684,
	"learning_rate": 2.25e-05,
	"loss": 0.7894,
	"step": 77500
	},
	{
	"epoch": 23.294259092275322,
	"eval_accuracy": 0.8178769275591534,
	"eval_loss": 1.061540961265564,
	"eval_runtime": 113.9113,
	"eval_samples_per_second": 209.373,
	"eval_steps_per_second": 6.549,
	"step": 77500
	},
	{
	"epoch": 23.44454463480613,
	"grad_norm": 2.435558557510376,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.7887,
	"step": 78000
	},
	{
	"epoch": 23.44454463480613,
	"eval_accuracy": 0.8177420807085761,
	"eval_loss": 1.0617201328277588,
	"eval_runtime": 113.4776,
	"eval_samples_per_second": 210.174,
	"eval_steps_per_second": 6.574,
	"step": 78000
	},
	{
	"epoch": 23.59483017733694,
	"grad_norm": 2.3692948818206787,
	"learning_rate": 2.15e-05,
	"loss": 0.7826,
	"step": 78500
	},
	{
	"epoch": 23.59483017733694,
	"eval_accuracy": 0.8180053577064287,
	"eval_loss": 1.0567620992660522,
	"eval_runtime": 113.7057,
	"eval_samples_per_second": 209.752,
	"eval_steps_per_second": 6.561,
	"step": 78500
	},
	{
	"epoch": 23.745115719867748,
	"grad_norm": 2.5609283447265625,
	"learning_rate": 2.1e-05,
	"loss": 0.7885,
	"step": 79000
	},
	{
	"epoch": 23.745115719867748,
	"eval_accuracy": 0.8188002648627605,
	"eval_loss": 1.0632256269454956,
	"eval_runtime": 113.6739,
	"eval_samples_per_second": 209.811,
	"eval_steps_per_second": 6.563,
	"step": 79000
	},
	{
	"epoch": 23.895401262398558,
	"grad_norm": 2.3372645378112793,
	"learning_rate": 2.05e-05,
	"loss": 0.7883,
	"step": 79500
	},
	{
	"epoch": 23.895401262398558,
	"eval_accuracy": 0.8187176321623402,
	"eval_loss": 1.066706657409668,
	"eval_runtime": 114.0886,
	"eval_samples_per_second": 209.048,
	"eval_steps_per_second": 6.539,
	"step": 79500
	},
	{
	"epoch": 24.045686804929367,
	"grad_norm": 2.3112826347351074,
	"learning_rate": 2e-05,
	"loss": 0.783,
	"step": 80000
	},
	{
	"epoch": 24.045686804929367,
	"eval_accuracy": 0.818846919349616,
	"eval_loss": 1.0611591339111328,
	"eval_runtime": 113.1339,
	"eval_samples_per_second": 210.812,
	"eval_steps_per_second": 6.594,
	"step": 80000
	},
	{
	"epoch": 24.195972347460174,
	"grad_norm": 2.514390230178833,
	"learning_rate": 1.9500000000000003e-05,
	"loss": 0.7804,
	"step": 80500
	},
	{
	"epoch": 24.195972347460174,
	"eval_accuracy": 0.818812757678464,
	"eval_loss": 1.0573077201843262,
	"eval_runtime": 114.2005,
	"eval_samples_per_second": 208.843,
	"eval_steps_per_second": 6.532,
	"step": 80500
	},
	{
	"epoch": 24.346257889990984,
	"grad_norm": 2.4737348556518555,
	"learning_rate": 1.9e-05,
	"loss": 0.7811,
	"step": 81000
	},
	{
	"epoch": 24.346257889990984,
	"eval_accuracy": 0.8192913294066332,
	"eval_loss": 1.0586949586868286,
	"eval_runtime": 113.7459,
	"eval_samples_per_second": 209.678,
	"eval_steps_per_second": 6.558,
	"step": 81000
	},
	{
	"epoch": 24.49654343252179,
	"grad_norm": 2.288757562637329,
	"learning_rate": 1.85e-05,
	"loss": 0.7767,
	"step": 81500
	},
	{
	"epoch": 24.49654343252179,
	"eval_accuracy": 0.8197264062916556,
	"eval_loss": 1.0525128841400146,
	"eval_runtime": 113.6132,
	"eval_samples_per_second": 209.923,
	"eval_steps_per_second": 6.566,
	"step": 81500
	},
	{
	"epoch": 24.6468289750526,
	"grad_norm": 2.4246654510498047,
	"learning_rate": 1.8e-05,
	"loss": 0.7803,
	"step": 82000
	},
	{
	"epoch": 24.6468289750526,
	"eval_accuracy": 0.8195798531764643,
	"eval_loss": 1.0466234683990479,
	"eval_runtime": 114.7779,
	"eval_samples_per_second": 207.793,
	"eval_steps_per_second": 6.5,
	"step": 82000
	},
	{
	"epoch": 24.79711451758341,
	"grad_norm": 3.0004007816314697,
	"learning_rate": 1.75e-05,
	"loss": 0.7688,
	"step": 82500
	},
	{
	"epoch": 24.79711451758341,
	"eval_accuracy": 0.8197989075740256,
	"eval_loss": 1.0529950857162476,
	"eval_runtime": 113.2072,
	"eval_samples_per_second": 210.676,
	"eval_steps_per_second": 6.59,
	"step": 82500
	},
	{
	"epoch": 24.947400060114216,
	"grad_norm": 2.476900577545166,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 0.7734,
	"step": 83000
	},
	{
	"epoch": 24.947400060114216,
	"eval_accuracy": 0.8198411078292097,
	"eval_loss": 1.0492240190505981,
	"eval_runtime": 114.2362,
	"eval_samples_per_second": 208.778,
	"eval_steps_per_second": 6.53,
	"step": 83000
	},
	{
	"epoch": 25.097685602645026,
	"grad_norm": 2.6050217151641846,
	"learning_rate": 1.65e-05,
	"loss": 0.7741,
	"step": 83500
	},
	{
	"epoch": 25.097685602645026,
	"eval_accuracy": 0.8199209388676126,
	"eval_loss": 1.0443811416625977,
	"eval_runtime": 115.0076,
	"eval_samples_per_second": 207.378,
	"eval_steps_per_second": 6.487,
	"step": 83500
	},
	{
	"epoch": 25.247971145175836,
	"grad_norm": 2.845093011856079,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.768,
	"step": 84000
	},
	{
	"epoch": 25.247971145175836,
	"eval_accuracy": 0.8203943019525041,
	"eval_loss": 1.0556350946426392,
	"eval_runtime": 115.581,
	"eval_samples_per_second": 206.349,
	"eval_steps_per_second": 6.454,
	"step": 84000
	},
	{
	"epoch": 25.398256687706642,
	"grad_norm": 2.8715054988861084,
	"learning_rate": 1.55e-05,
	"loss": 0.7731,
	"step": 84500
	},
	{
	"epoch": 25.398256687706642,
	"eval_accuracy": 0.8204570484351956,
	"eval_loss": 1.0443503856658936,
	"eval_runtime": 114.2662,
	"eval_samples_per_second": 208.723,
	"eval_steps_per_second": 6.529,
	"step": 84500
	},
	{
	"epoch": 25.54854223023745,
	"grad_norm": 2.2550415992736816,
	"learning_rate": 1.5e-05,
	"loss": 0.7675,
	"step": 85000
	},
	{
	"epoch": 25.54854223023745,
	"eval_accuracy": 0.8200469636032075,
	"eval_loss": 1.0414886474609375,
	"eval_runtime": 114.9948,
	"eval_samples_per_second": 207.401,
	"eval_steps_per_second": 6.487,
	"step": 85000
	},
	{
	"epoch": 25.69882777276826,
	"grad_norm": 2.238607168197632,
	"learning_rate": 1.45e-05,
	"loss": 0.7675,
	"step": 85500
	},
	{
	"epoch": 25.69882777276826,
	"eval_accuracy": 0.8207652275282068,
	"eval_loss": 1.0444408655166626,
	"eval_runtime": 115.1961,
	"eval_samples_per_second": 207.038,
	"eval_steps_per_second": 6.476,
	"step": 85500
	},
	{
	"epoch": 25.849113315299068,
	"grad_norm": 2.242630958557129,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 0.7655,
	"step": 86000
	},
	{
	"epoch": 25.849113315299068,
	"eval_accuracy": 0.8202594142538011,
	"eval_loss": 1.0470616817474365,
	"eval_runtime": 116.2229,
	"eval_samples_per_second": 205.209,
	"eval_steps_per_second": 6.419,
	"step": 86000
	},
	{
	"epoch": 25.999398857829878,
	"grad_norm": 2.5453295707702637,
	"learning_rate": 1.3500000000000001e-05,
	"loss": 0.7678,
	"step": 86500
	},
	{
	"epoch": 25.999398857829878,
	"eval_accuracy": 0.8200539868874701,
	"eval_loss": 1.0508933067321777,
	"eval_runtime": 114.7052,
	"eval_samples_per_second": 207.924,
	"eval_steps_per_second": 6.504,
	"step": 86500
	},
	{
	"epoch": 26.149684400360684,
	"grad_norm": 2.391352415084839,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.7653,
	"step": 87000
	},
	{
	"epoch": 26.149684400360684,
	"eval_accuracy": 0.8205590231388606,
	"eval_loss": 1.0484099388122559,
	"eval_runtime": 115.0871,
	"eval_samples_per_second": 207.234,
	"eval_steps_per_second": 6.482,
	"step": 87000
	},
	{
	"epoch": 26.299969942891494,
	"grad_norm": 2.5071208477020264,
	"learning_rate": 1.25e-05,
	"loss": 0.7679,
	"step": 87500
	},
	{
	"epoch": 26.299969942891494,
	"eval_accuracy": 0.8217573625905127,
	"eval_loss": 1.0400173664093018,
	"eval_runtime": 113.1376,
	"eval_samples_per_second": 210.805,
	"eval_steps_per_second": 6.594,
	"step": 87500
	},
	{
	"epoch": 26.450255485422304,
	"grad_norm": 2.5453133583068848,
	"learning_rate": 1.2e-05,
	"loss": 0.7656,
	"step": 88000
	},
	{
	"epoch": 26.450255485422304,
	"eval_accuracy": 0.8213452575807276,
	"eval_loss": 1.0516611337661743,
	"eval_runtime": 113.3943,
	"eval_samples_per_second": 210.328,
	"eval_steps_per_second": 6.579,
	"step": 88000
	},
	{
	"epoch": 26.60054102795311,
	"grad_norm": 2.509098529815674,
	"learning_rate": 1.1500000000000002e-05,
	"loss": 0.7593,
	"step": 88500
	},
	{
	"epoch": 26.60054102795311,
	"eval_accuracy": 0.8213436048487595,
	"eval_loss": 1.0389631986618042,
	"eval_runtime": 116.4627,
	"eval_samples_per_second": 204.787,
	"eval_steps_per_second": 6.405,
	"step": 88500
	},
	{
	"epoch": 26.75082657048392,
	"grad_norm": 2.835665464401245,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.7606,
	"step": 89000
	},
	{
	"epoch": 26.75082657048392,
	"eval_accuracy": 0.8212840552795833,
	"eval_loss": 1.0403192043304443,
	"eval_runtime": 114.9351,
	"eval_samples_per_second": 207.508,
	"eval_steps_per_second": 6.491,
	"step": 89000
	},
	{
	"epoch": 26.90111211301473,
	"grad_norm": 2.5455708503723145,
	"learning_rate": 1.05e-05,
	"loss": 0.7578,
	"step": 89500
	},
	{
	"epoch": 26.90111211301473,
	"eval_accuracy": 0.821311120726958,
	"eval_loss": 1.036601185798645,
	"eval_runtime": 114.3227,
	"eval_samples_per_second": 208.62,
	"eval_steps_per_second": 6.525,
	"step": 89500
	},
	{
	"epoch": 27.051397655545536,
	"grad_norm": 2.821378231048584,
	"learning_rate": 1e-05,
	"loss": 0.765,
	"step": 90000
	},
	{
	"epoch": 27.051397655545536,
	"eval_accuracy": 0.8221304808698725,
	"eval_loss": 1.0333795547485352,
	"eval_runtime": 115.4024,
	"eval_samples_per_second": 206.668,
	"eval_steps_per_second": 6.464,
	"step": 90000
	},
	{
	"epoch": 27.201683198076346,
	"grad_norm": 2.59919810295105,
	"learning_rate": 9.5e-06,
	"loss": 0.7589,
	"step": 90500
	},
	{
	"epoch": 27.201683198076346,
	"eval_accuracy": 0.8222628454875403,
	"eval_loss": 1.033319354057312,
	"eval_runtime": 115.8055,
	"eval_samples_per_second": 205.949,
	"eval_steps_per_second": 6.442,
	"step": 90500
	},
	{
	"epoch": 27.351968740607152,
	"grad_norm": 2.601203203201294,
	"learning_rate": 9e-06,
	"loss": 0.7563,
	"step": 91000
	},
	{
	"epoch": 27.351968740607152,
	"eval_accuracy": 0.8218045068983223,
	"eval_loss": 1.046338677406311,
	"eval_runtime": 116.2837,
	"eval_samples_per_second": 205.102,
	"eval_steps_per_second": 6.415,
	"step": 91000
	},
	{
	"epoch": 27.50225428313796,
	"grad_norm": 2.8450610637664795,
	"learning_rate": 8.500000000000002e-06,
	"loss": 0.7559,
	"step": 91500
	},
	{
	"epoch": 27.50225428313796,
	"eval_accuracy": 0.8218716317162797,
	"eval_loss": 1.044384241104126,
	"eval_runtime": 115.6484,
	"eval_samples_per_second": 206.229,
	"eval_steps_per_second": 6.451,
	"step": 91500
	},
	{
	"epoch": 27.65253982566877,
	"grad_norm": 2.7283740043640137,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.7586,
	"step": 92000
	},
	{
	"epoch": 27.65253982566877,
	"eval_accuracy": 0.8221257250457026,
	"eval_loss": 1.0296134948730469,
	"eval_runtime": 115.214,
	"eval_samples_per_second": 207.006,
	"eval_steps_per_second": 6.475,
	"step": 92000
	},
	{
	"epoch": 27.802825368199578,
	"grad_norm": 2.795022964477539,
	"learning_rate": 7.5e-06,
	"loss": 0.7585,
	"step": 92500
	},
	{
	"epoch": 27.802825368199578,
	"eval_accuracy": 0.82162242799983,
	"eval_loss": 1.045117735862732,
	"eval_runtime": 113.2778,
	"eval_samples_per_second": 210.544,
	"eval_steps_per_second": 6.586,
	"step": 92500
	},
	{
	"epoch": 27.953110910730388,
	"grad_norm": 2.52536678314209,
	"learning_rate": 7.000000000000001e-06,
	"loss": 0.7548,
	"step": 93000
	},
	{
	"epoch": 27.953110910730388,
	"eval_accuracy": 0.8225299354468154,
	"eval_loss": 1.0380265712738037,
	"eval_runtime": 113.5711,
	"eval_samples_per_second": 210.001,
	"eval_steps_per_second": 6.569,
	"step": 93000
	},
	{
	"epoch": 28.103396453261198,
	"grad_norm": 2.3631057739257812,
	"learning_rate": 6.5000000000000004e-06,
	"loss": 0.7542,
	"step": 93500
	},
	{
	"epoch": 28.103396453261198,
	"eval_accuracy": 0.8229969642015583,
	"eval_loss": 1.0490919351577759,
	"eval_runtime": 112.4838,
	"eval_samples_per_second": 212.031,
	"eval_steps_per_second": 6.632,
	"step": 93500
	},
	{
	"epoch": 28.253681995792004,
	"grad_norm": 2.2699172496795654,
	"learning_rate": 6e-06,
	"loss": 0.7522,
	"step": 94000
	},
	{
	"epoch": 28.253681995792004,
	"eval_accuracy": 0.8230864296098176,
	"eval_loss": 1.0274651050567627,
	"eval_runtime": 111.8716,
	"eval_samples_per_second": 213.191,
	"eval_steps_per_second": 6.668,
	"step": 94000
	},
	{
	"epoch": 28.403967538322814,
	"grad_norm": 2.44769287109375,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.7569,
	"step": 94500
	},
	{
	"epoch": 28.403967538322814,
	"eval_accuracy": 0.8234413637256175,
	"eval_loss": 1.0298686027526855,
	"eval_runtime": 113.5377,
	"eval_samples_per_second": 210.062,
	"eval_steps_per_second": 6.571,
	"step": 94500
	},
	{
	"epoch": 28.554253080853623,
	"grad_norm": 2.7103466987609863,
	"learning_rate": 5e-06,
	"loss": 0.7536,
	"step": 95000
	},
	{
	"epoch": 28.554253080853623,
	"eval_accuracy": 0.8224712064035926,
	"eval_loss": 1.034175992012024,
	"eval_runtime": 113.1535,
	"eval_samples_per_second": 210.776,
	"eval_steps_per_second": 6.593,
	"step": 95000
	},
	{
	"epoch": 28.70453862338443,
	"grad_norm": 2.594381809234619,
	"learning_rate": 4.5e-06,
	"loss": 0.7547,
	"step": 95500
	},
	{
	"epoch": 28.70453862338443,
	"eval_accuracy": 0.8231576514254546,
	"eval_loss": 1.0324558019638062,
	"eval_runtime": 111.2443,
	"eval_samples_per_second": 214.393,
	"eval_steps_per_second": 6.706,
	"step": 95500
	},
	{
	"epoch": 28.85482416591524,
	"grad_norm": 2.623845100402832,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.7529,
	"step": 96000
	},
	{
	"epoch": 28.85482416591524,
	"eval_accuracy": 0.8241724336625226,
	"eval_loss": 1.0312702655792236,
	"eval_runtime": 115.266,
	"eval_samples_per_second": 206.913,
	"eval_steps_per_second": 6.472,
	"step": 96000
	},
	{
	"epoch": 29.005109708446046,
	"grad_norm": 2.706256628036499,
	"learning_rate": 3.5000000000000004e-06,
	"loss": 0.7461,
	"step": 96500
	},
	{
	"epoch": 29.005109708446046,
	"eval_accuracy": 0.8230462104005479,
	"eval_loss": 1.0389125347137451,
	"eval_runtime": 115.814,
	"eval_samples_per_second": 205.934,
	"eval_steps_per_second": 6.441,
	"step": 96500
	},
	{
	"epoch": 29.155395250976856,
	"grad_norm": 2.697993278503418,
	"learning_rate": 3e-06,
	"loss": 0.7513,
	"step": 97000
	},
	{
	"epoch": 29.155395250976856,
	"eval_accuracy": 0.8236184494498082,
	"eval_loss": 1.036423921585083,
	"eval_runtime": 115.3283,
	"eval_samples_per_second": 206.801,
	"eval_steps_per_second": 6.468,
	"step": 97000
	},
	{
	"epoch": 29.305680793507666,
	"grad_norm": 2.68867826461792,
	"learning_rate": 2.5e-06,
	"loss": 0.7494,
	"step": 97500
	},
	{
	"epoch": 29.305680793507666,
	"eval_accuracy": 0.82393844898435,
	"eval_loss": 1.0242578983306885,
	"eval_runtime": 116.3698,
	"eval_samples_per_second": 204.95,
	"eval_steps_per_second": 6.411,
	"step": 97500
	},
	{
	"epoch": 29.455966336038472,
	"grad_norm": 2.259347915649414,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.7438,
	"step": 98000
	},
	{
	"epoch": 29.455966336038472,
	"eval_accuracy": 0.8236859969210806,
	"eval_loss": 1.0227982997894287,
	"eval_runtime": 115.3714,
	"eval_samples_per_second": 206.724,
	"eval_steps_per_second": 6.466,
	"step": 98000
	},
	{
	"epoch": 29.60625187856928,
	"grad_norm": 2.8278329372406006,
	"learning_rate": 1.5e-06,
	"loss": 0.7499,
	"step": 98500
	},
	{
	"epoch": 29.60625187856928,
	"eval_accuracy": 0.8236034478162941,
	"eval_loss": 1.022267460823059,
	"eval_runtime": 114.5023,
	"eval_samples_per_second": 208.293,
	"eval_steps_per_second": 6.515,
	"step": 98500
	}
	],
	"logging_steps": 500,
	"max_steps": 100000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 31,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 8.31746763541971e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}