{ "best_metric": 0.4481864273548126, "best_model_checkpoint": "vit-base-kidney-stone-5-Jonathan_El-Beze_-w256_1k_v1-_MIX\\checkpoint-600", "epoch": 15.0, "eval_steps": 100, "global_step": 9000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.008333333333333333, "grad_norm": 2.0151748657226562, "learning_rate": 0.0001998888888888889, "loss": 1.6576, "step": 5 }, { "epoch": 0.016666666666666666, "grad_norm": 2.3233230113983154, "learning_rate": 0.0001997777777777778, "loss": 1.4176, "step": 10 }, { "epoch": 0.025, "grad_norm": 2.4521141052246094, "learning_rate": 0.00019966666666666668, "loss": 1.1802, "step": 15 }, { "epoch": 0.03333333333333333, "grad_norm": 1.910316824913025, "learning_rate": 0.00019955555555555558, "loss": 0.9344, "step": 20 }, { "epoch": 0.041666666666666664, "grad_norm": 1.54771888256073, "learning_rate": 0.00019944444444444445, "loss": 0.7729, "step": 25 }, { "epoch": 0.05, "grad_norm": 2.3516550064086914, "learning_rate": 0.00019933333333333334, "loss": 0.6294, "step": 30 }, { "epoch": 0.058333333333333334, "grad_norm": 3.6978862285614014, "learning_rate": 0.00019922222222222222, "loss": 0.5784, "step": 35 }, { "epoch": 0.06666666666666667, "grad_norm": 6.289088726043701, "learning_rate": 0.00019911111111111111, "loss": 0.5723, "step": 40 }, { "epoch": 0.075, "grad_norm": 6.547412872314453, "learning_rate": 0.000199, "loss": 0.5927, "step": 45 }, { "epoch": 0.08333333333333333, "grad_norm": 3.9533019065856934, "learning_rate": 0.0001988888888888889, "loss": 0.577, "step": 50 }, { "epoch": 0.09166666666666666, "grad_norm": 4.7664079666137695, "learning_rate": 0.0001987777777777778, "loss": 0.4091, "step": 55 }, { "epoch": 0.1, "grad_norm": 1.8215303421020508, "learning_rate": 0.00019866666666666668, "loss": 0.3915, "step": 60 }, { "epoch": 0.10833333333333334, "grad_norm": 5.420493125915527, "learning_rate": 0.00019855555555555555, "loss": 0.6069, "step": 65 }, { "epoch": 0.11666666666666667, "grad_norm": 3.265394687652588, "learning_rate": 0.00019844444444444445, "loss": 0.605, "step": 70 }, { "epoch": 0.125, "grad_norm": 5.716144561767578, "learning_rate": 0.00019833333333333335, "loss": 0.5942, "step": 75 }, { "epoch": 0.13333333333333333, "grad_norm": 2.3308231830596924, "learning_rate": 0.00019822222222222225, "loss": 0.5582, "step": 80 }, { "epoch": 0.14166666666666666, "grad_norm": 2.209805965423584, "learning_rate": 0.00019811111111111112, "loss": 0.4925, "step": 85 }, { "epoch": 0.15, "grad_norm": 1.1179794073104858, "learning_rate": 0.00019800000000000002, "loss": 0.2075, "step": 90 }, { "epoch": 0.15833333333333333, "grad_norm": 1.892861008644104, "learning_rate": 0.0001978888888888889, "loss": 0.3165, "step": 95 }, { "epoch": 0.16666666666666666, "grad_norm": 2.1581900119781494, "learning_rate": 0.00019777777777777778, "loss": 0.2457, "step": 100 }, { "epoch": 0.16666666666666666, "eval_accuracy": 0.8258333333333333, "eval_f1": 0.8180108572241755, "eval_loss": 0.5382459759712219, "eval_precision": 0.838244281793125, "eval_recall": 0.8258333333333333, "eval_runtime": 17.3244, "eval_samples_per_second": 138.533, "eval_steps_per_second": 17.317, "step": 100 }, { "epoch": 0.175, "grad_norm": 3.714635133743286, "learning_rate": 0.00019766666666666666, "loss": 0.301, "step": 105 }, { "epoch": 0.18333333333333332, "grad_norm": 0.7843374609947205, "learning_rate": 0.00019755555555555555, "loss": 0.3558, "step": 110 }, { "epoch": 0.19166666666666668, "grad_norm": 0.38035011291503906, "learning_rate": 0.00019744444444444445, "loss": 0.3077, "step": 115 }, { "epoch": 0.2, "grad_norm": 0.897113561630249, "learning_rate": 0.00019733333333333335, "loss": 0.3058, "step": 120 }, { "epoch": 0.20833333333333334, "grad_norm": 14.884307861328125, "learning_rate": 0.00019722222222222225, "loss": 0.3342, "step": 125 }, { "epoch": 0.21666666666666667, "grad_norm": 2.6088204383850098, "learning_rate": 0.00019711111111111112, "loss": 0.3082, "step": 130 }, { "epoch": 0.225, "grad_norm": 2.0172951221466064, "learning_rate": 0.00019700000000000002, "loss": 0.267, "step": 135 }, { "epoch": 0.23333333333333334, "grad_norm": 2.4850337505340576, "learning_rate": 0.0001968888888888889, "loss": 0.3059, "step": 140 }, { "epoch": 0.24166666666666667, "grad_norm": 4.9133219718933105, "learning_rate": 0.0001967777777777778, "loss": 0.277, "step": 145 }, { "epoch": 0.25, "grad_norm": 2.6948211193084717, "learning_rate": 0.00019666666666666666, "loss": 0.3174, "step": 150 }, { "epoch": 0.25833333333333336, "grad_norm": 3.210355520248413, "learning_rate": 0.00019655555555555556, "loss": 0.294, "step": 155 }, { "epoch": 0.26666666666666666, "grad_norm": 4.517940044403076, "learning_rate": 0.00019644444444444445, "loss": 0.2708, "step": 160 }, { "epoch": 0.275, "grad_norm": 4.924372673034668, "learning_rate": 0.00019633333333333335, "loss": 0.1759, "step": 165 }, { "epoch": 0.2833333333333333, "grad_norm": 5.386207580566406, "learning_rate": 0.00019622222222222225, "loss": 0.3181, "step": 170 }, { "epoch": 0.2916666666666667, "grad_norm": 7.9569549560546875, "learning_rate": 0.00019611111111111112, "loss": 0.3282, "step": 175 }, { "epoch": 0.3, "grad_norm": 6.544825077056885, "learning_rate": 0.000196, "loss": 0.2254, "step": 180 }, { "epoch": 0.30833333333333335, "grad_norm": 2.433943033218384, "learning_rate": 0.0001958888888888889, "loss": 0.1782, "step": 185 }, { "epoch": 0.31666666666666665, "grad_norm": 1.1732033491134644, "learning_rate": 0.0001957777777777778, "loss": 0.2024, "step": 190 }, { "epoch": 0.325, "grad_norm": 0.2430170327425003, "learning_rate": 0.0001956666666666667, "loss": 0.1322, "step": 195 }, { "epoch": 0.3333333333333333, "grad_norm": 2.0334067344665527, "learning_rate": 0.00019555555555555556, "loss": 0.0854, "step": 200 }, { "epoch": 0.3333333333333333, "eval_accuracy": 0.7875, "eval_f1": 0.7795468641941387, "eval_loss": 0.7377088665962219, "eval_precision": 0.8421859440134711, "eval_recall": 0.7875, "eval_runtime": 17.6773, "eval_samples_per_second": 135.767, "eval_steps_per_second": 16.971, "step": 200 }, { "epoch": 0.3416666666666667, "grad_norm": 5.228248596191406, "learning_rate": 0.00019544444444444446, "loss": 0.1832, "step": 205 }, { "epoch": 0.35, "grad_norm": 2.722928285598755, "learning_rate": 0.00019533333333333336, "loss": 0.3475, "step": 210 }, { "epoch": 0.35833333333333334, "grad_norm": 4.3563432693481445, "learning_rate": 0.00019522222222222223, "loss": 0.513, "step": 215 }, { "epoch": 0.36666666666666664, "grad_norm": 7.122325420379639, "learning_rate": 0.0001951111111111111, "loss": 0.1826, "step": 220 }, { "epoch": 0.375, "grad_norm": 5.149264812469482, "learning_rate": 0.000195, "loss": 0.328, "step": 225 }, { "epoch": 0.38333333333333336, "grad_norm": 0.18589343130588531, "learning_rate": 0.0001948888888888889, "loss": 0.1357, "step": 230 }, { "epoch": 0.39166666666666666, "grad_norm": 19.197574615478516, "learning_rate": 0.0001948, "loss": 0.3585, "step": 235 }, { "epoch": 0.4, "grad_norm": 4.6940202713012695, "learning_rate": 0.0001946888888888889, "loss": 0.4114, "step": 240 }, { "epoch": 0.4083333333333333, "grad_norm": 4.40463399887085, "learning_rate": 0.0001945777777777778, "loss": 0.1095, "step": 245 }, { "epoch": 0.4166666666666667, "grad_norm": 5.575969696044922, "learning_rate": 0.00019446666666666669, "loss": 0.1626, "step": 250 }, { "epoch": 0.425, "grad_norm": 3.9409167766571045, "learning_rate": 0.00019435555555555556, "loss": 0.6107, "step": 255 }, { "epoch": 0.43333333333333335, "grad_norm": 7.727848529815674, "learning_rate": 0.00019424444444444446, "loss": 0.1618, "step": 260 }, { "epoch": 0.44166666666666665, "grad_norm": 2.1326913833618164, "learning_rate": 0.00019413333333333335, "loss": 0.1987, "step": 265 }, { "epoch": 0.45, "grad_norm": 2.897132158279419, "learning_rate": 0.00019402222222222223, "loss": 0.1524, "step": 270 }, { "epoch": 0.4583333333333333, "grad_norm": 7.3303327560424805, "learning_rate": 0.00019391111111111112, "loss": 0.3369, "step": 275 }, { "epoch": 0.4666666666666667, "grad_norm": 8.890677452087402, "learning_rate": 0.0001938, "loss": 0.2162, "step": 280 }, { "epoch": 0.475, "grad_norm": 0.164458766579628, "learning_rate": 0.0001936888888888889, "loss": 0.1226, "step": 285 }, { "epoch": 0.48333333333333334, "grad_norm": 1.044877290725708, "learning_rate": 0.0001935777777777778, "loss": 0.1093, "step": 290 }, { "epoch": 0.49166666666666664, "grad_norm": 2.7460777759552, "learning_rate": 0.0001934666666666667, "loss": 0.099, "step": 295 }, { "epoch": 0.5, "grad_norm": 5.280365467071533, "learning_rate": 0.00019335555555555556, "loss": 0.1279, "step": 300 }, { "epoch": 0.5, "eval_accuracy": 0.7883333333333333, "eval_f1": 0.7882687935484298, "eval_loss": 0.6709940433502197, "eval_precision": 0.8567790541008793, "eval_recall": 0.7883333333333333, "eval_runtime": 17.4535, "eval_samples_per_second": 137.508, "eval_steps_per_second": 17.189, "step": 300 }, { "epoch": 0.5083333333333333, "grad_norm": 6.6346306800842285, "learning_rate": 0.00019324444444444446, "loss": 0.1524, "step": 305 }, { "epoch": 0.5166666666666667, "grad_norm": 16.1156005859375, "learning_rate": 0.00019313333333333336, "loss": 0.3573, "step": 310 }, { "epoch": 0.525, "grad_norm": 4.792377471923828, "learning_rate": 0.00019302222222222223, "loss": 0.3692, "step": 315 }, { "epoch": 0.5333333333333333, "grad_norm": 1.6233325004577637, "learning_rate": 0.00019291111111111113, "loss": 0.3004, "step": 320 }, { "epoch": 0.5416666666666666, "grad_norm": 4.573233127593994, "learning_rate": 0.0001928, "loss": 0.1901, "step": 325 }, { "epoch": 0.55, "grad_norm": 0.11000101268291473, "learning_rate": 0.0001926888888888889, "loss": 0.1541, "step": 330 }, { "epoch": 0.5583333333333333, "grad_norm": 0.26401522755622864, "learning_rate": 0.0001925777777777778, "loss": 0.112, "step": 335 }, { "epoch": 0.5666666666666667, "grad_norm": 1.0159333944320679, "learning_rate": 0.0001924666666666667, "loss": 0.1319, "step": 340 }, { "epoch": 0.575, "grad_norm": 5.7190680503845215, "learning_rate": 0.00019235555555555556, "loss": 0.2082, "step": 345 }, { "epoch": 0.5833333333333334, "grad_norm": 7.511305332183838, "learning_rate": 0.00019224444444444446, "loss": 0.2818, "step": 350 }, { "epoch": 0.5916666666666667, "grad_norm": 2.126477003097534, "learning_rate": 0.00019213333333333333, "loss": 0.1337, "step": 355 }, { "epoch": 0.6, "grad_norm": 0.19633042812347412, "learning_rate": 0.00019202222222222223, "loss": 0.0838, "step": 360 }, { "epoch": 0.6083333333333333, "grad_norm": 3.4972422122955322, "learning_rate": 0.00019191111111111113, "loss": 0.2178, "step": 365 }, { "epoch": 0.6166666666666667, "grad_norm": 5.106044769287109, "learning_rate": 0.0001918, "loss": 0.2247, "step": 370 }, { "epoch": 0.625, "grad_norm": 3.554905652999878, "learning_rate": 0.0001916888888888889, "loss": 0.2045, "step": 375 }, { "epoch": 0.6333333333333333, "grad_norm": 10.975298881530762, "learning_rate": 0.0001915777777777778, "loss": 0.1743, "step": 380 }, { "epoch": 0.6416666666666667, "grad_norm": 1.3391939401626587, "learning_rate": 0.0001914666666666667, "loss": 0.1749, "step": 385 }, { "epoch": 0.65, "grad_norm": 4.061521053314209, "learning_rate": 0.00019135555555555557, "loss": 0.2233, "step": 390 }, { "epoch": 0.6583333333333333, "grad_norm": 5.82518196105957, "learning_rate": 0.00019124444444444444, "loss": 0.2865, "step": 395 }, { "epoch": 0.6666666666666666, "grad_norm": 0.4280928671360016, "learning_rate": 0.00019113333333333334, "loss": 0.1442, "step": 400 }, { "epoch": 0.6666666666666666, "eval_accuracy": 0.8191666666666667, "eval_f1": 0.8191798586282162, "eval_loss": 0.5535349249839783, "eval_precision": 0.834171393330734, "eval_recall": 0.8191666666666667, "eval_runtime": 17.4581, "eval_samples_per_second": 137.472, "eval_steps_per_second": 17.184, "step": 400 }, { "epoch": 0.675, "grad_norm": 2.4421956539154053, "learning_rate": 0.00019102222222222223, "loss": 0.1643, "step": 405 }, { "epoch": 0.6833333333333333, "grad_norm": 0.9507102370262146, "learning_rate": 0.00019091111111111113, "loss": 0.1062, "step": 410 }, { "epoch": 0.6916666666666667, "grad_norm": 3.091611862182617, "learning_rate": 0.0001908, "loss": 0.092, "step": 415 }, { "epoch": 0.7, "grad_norm": 3.118267297744751, "learning_rate": 0.0001906888888888889, "loss": 0.0984, "step": 420 }, { "epoch": 0.7083333333333334, "grad_norm": 0.6028767824172974, "learning_rate": 0.0001905777777777778, "loss": 0.1119, "step": 425 }, { "epoch": 0.7166666666666667, "grad_norm": 4.5912766456604, "learning_rate": 0.00019046666666666667, "loss": 0.038, "step": 430 }, { "epoch": 0.725, "grad_norm": 0.07686551660299301, "learning_rate": 0.00019035555555555554, "loss": 0.1014, "step": 435 }, { "epoch": 0.7333333333333333, "grad_norm": 4.039865970611572, "learning_rate": 0.00019024444444444444, "loss": 0.2411, "step": 440 }, { "epoch": 0.7416666666666667, "grad_norm": 1.5955013036727905, "learning_rate": 0.00019013333333333334, "loss": 0.055, "step": 445 }, { "epoch": 0.75, "grad_norm": 5.876543998718262, "learning_rate": 0.00019002222222222224, "loss": 0.2719, "step": 450 }, { "epoch": 0.7583333333333333, "grad_norm": 0.17846155166625977, "learning_rate": 0.00018991111111111113, "loss": 0.0277, "step": 455 }, { "epoch": 0.7666666666666667, "grad_norm": 1.8669077157974243, "learning_rate": 0.0001898, "loss": 0.1183, "step": 460 }, { "epoch": 0.775, "grad_norm": 0.09883430600166321, "learning_rate": 0.0001896888888888889, "loss": 0.0381, "step": 465 }, { "epoch": 0.7833333333333333, "grad_norm": 2.195051908493042, "learning_rate": 0.00018957777777777777, "loss": 0.0817, "step": 470 }, { "epoch": 0.7916666666666666, "grad_norm": 4.305550575256348, "learning_rate": 0.00018946666666666667, "loss": 0.1127, "step": 475 }, { "epoch": 0.8, "grad_norm": 3.606879949569702, "learning_rate": 0.00018935555555555557, "loss": 0.0533, "step": 480 }, { "epoch": 0.8083333333333333, "grad_norm": 0.05592324957251549, "learning_rate": 0.00018924444444444444, "loss": 0.0198, "step": 485 }, { "epoch": 0.8166666666666667, "grad_norm": 1.6200608015060425, "learning_rate": 0.00018913333333333334, "loss": 0.1213, "step": 490 }, { "epoch": 0.825, "grad_norm": 0.4175179898738861, "learning_rate": 0.00018902222222222224, "loss": 0.0849, "step": 495 }, { "epoch": 0.8333333333333334, "grad_norm": 9.535263061523438, "learning_rate": 0.00018891111111111114, "loss": 0.2868, "step": 500 }, { "epoch": 0.8333333333333334, "eval_accuracy": 0.7241666666666666, "eval_f1": 0.7163323788300904, "eval_loss": 1.0679333209991455, "eval_precision": 0.7910099940054888, "eval_recall": 0.7241666666666666, "eval_runtime": 17.283, "eval_samples_per_second": 138.865, "eval_steps_per_second": 17.358, "step": 500 }, { "epoch": 0.8416666666666667, "grad_norm": 1.141459584236145, "learning_rate": 0.0001888, "loss": 0.1346, "step": 505 }, { "epoch": 0.85, "grad_norm": 6.229131698608398, "learning_rate": 0.00018868888888888888, "loss": 0.1769, "step": 510 }, { "epoch": 0.8583333333333333, "grad_norm": 0.08931858837604523, "learning_rate": 0.00018857777777777778, "loss": 0.075, "step": 515 }, { "epoch": 0.8666666666666667, "grad_norm": 0.030764566734433174, "learning_rate": 0.00018846666666666668, "loss": 0.1132, "step": 520 }, { "epoch": 0.875, "grad_norm": 8.53580379486084, "learning_rate": 0.00018835555555555557, "loss": 0.0891, "step": 525 }, { "epoch": 0.8833333333333333, "grad_norm": 0.2599143981933594, "learning_rate": 0.00018824444444444445, "loss": 0.1124, "step": 530 }, { "epoch": 0.8916666666666667, "grad_norm": 0.05710681155323982, "learning_rate": 0.00018813333333333334, "loss": 0.0842, "step": 535 }, { "epoch": 0.9, "grad_norm": 2.433652400970459, "learning_rate": 0.00018802222222222224, "loss": 0.052, "step": 540 }, { "epoch": 0.9083333333333333, "grad_norm": 0.03913868963718414, "learning_rate": 0.00018791111111111114, "loss": 0.0234, "step": 545 }, { "epoch": 0.9166666666666666, "grad_norm": 0.0716201663017273, "learning_rate": 0.0001878, "loss": 0.0262, "step": 550 }, { "epoch": 0.925, "grad_norm": 7.040970325469971, "learning_rate": 0.00018768888888888888, "loss": 0.3397, "step": 555 }, { "epoch": 0.9333333333333333, "grad_norm": 0.06572358310222626, "learning_rate": 0.00018757777777777778, "loss": 0.0888, "step": 560 }, { "epoch": 0.9416666666666667, "grad_norm": 12.639195442199707, "learning_rate": 0.00018746666666666668, "loss": 0.0796, "step": 565 }, { "epoch": 0.95, "grad_norm": 11.376768112182617, "learning_rate": 0.00018735555555555558, "loss": 0.2303, "step": 570 }, { "epoch": 0.9583333333333334, "grad_norm": 1.498395323753357, "learning_rate": 0.00018724444444444445, "loss": 0.3163, "step": 575 }, { "epoch": 0.9666666666666667, "grad_norm": 2.414518117904663, "learning_rate": 0.00018713333333333335, "loss": 0.0223, "step": 580 }, { "epoch": 0.975, "grad_norm": 0.9561628103256226, "learning_rate": 0.00018702222222222224, "loss": 0.1106, "step": 585 }, { "epoch": 0.9833333333333333, "grad_norm": 0.2717445194721222, "learning_rate": 0.00018691111111111112, "loss": 0.1161, "step": 590 }, { "epoch": 0.9916666666666667, "grad_norm": 0.03128008171916008, "learning_rate": 0.00018680000000000001, "loss": 0.013, "step": 595 }, { "epoch": 1.0, "grad_norm": 0.04913123697042465, "learning_rate": 0.00018668888888888889, "loss": 0.1327, "step": 600 }, { "epoch": 1.0, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8687574191428741, "eval_loss": 0.4481864273548126, "eval_precision": 0.8787821222634132, "eval_recall": 0.8683333333333333, "eval_runtime": 17.6564, "eval_samples_per_second": 135.928, "eval_steps_per_second": 16.991, "step": 600 }, { "epoch": 1.0083333333333333, "grad_norm": 0.03765168786048889, "learning_rate": 0.00018657777777777778, "loss": 0.08, "step": 605 }, { "epoch": 1.0166666666666666, "grad_norm": 0.03858928382396698, "learning_rate": 0.00018646666666666668, "loss": 0.2185, "step": 610 }, { "epoch": 1.025, "grad_norm": 0.21606023609638214, "learning_rate": 0.00018635555555555558, "loss": 0.096, "step": 615 }, { "epoch": 1.0333333333333334, "grad_norm": 0.7107253670692444, "learning_rate": 0.00018624444444444445, "loss": 0.0291, "step": 620 }, { "epoch": 1.0416666666666667, "grad_norm": 1.072740912437439, "learning_rate": 0.00018613333333333335, "loss": 0.023, "step": 625 }, { "epoch": 1.05, "grad_norm": 0.07553945481777191, "learning_rate": 0.00018602222222222222, "loss": 0.0095, "step": 630 }, { "epoch": 1.0583333333333333, "grad_norm": 0.028653541579842567, "learning_rate": 0.00018591111111111112, "loss": 0.0576, "step": 635 }, { "epoch": 1.0666666666666667, "grad_norm": 0.18109659850597382, "learning_rate": 0.00018580000000000002, "loss": 0.1337, "step": 640 }, { "epoch": 1.075, "grad_norm": 7.2836174964904785, "learning_rate": 0.0001856888888888889, "loss": 0.2497, "step": 645 }, { "epoch": 1.0833333333333333, "grad_norm": 0.6412332653999329, "learning_rate": 0.00018557777777777779, "loss": 0.142, "step": 650 }, { "epoch": 1.0916666666666666, "grad_norm": 0.05347473546862602, "learning_rate": 0.00018546666666666668, "loss": 0.1232, "step": 655 }, { "epoch": 1.1, "grad_norm": 0.09265585243701935, "learning_rate": 0.00018535555555555558, "loss": 0.0412, "step": 660 }, { "epoch": 1.1083333333333334, "grad_norm": 0.06664226949214935, "learning_rate": 0.00018524444444444445, "loss": 0.0333, "step": 665 }, { "epoch": 1.1166666666666667, "grad_norm": 0.06742794066667557, "learning_rate": 0.00018513333333333332, "loss": 0.1074, "step": 670 }, { "epoch": 1.125, "grad_norm": 3.7746846675872803, "learning_rate": 0.00018502222222222222, "loss": 0.1256, "step": 675 }, { "epoch": 1.1333333333333333, "grad_norm": 0.047236088663339615, "learning_rate": 0.00018491111111111112, "loss": 0.0247, "step": 680 }, { "epoch": 1.1416666666666666, "grad_norm": 0.5545466542243958, "learning_rate": 0.00018480000000000002, "loss": 0.0397, "step": 685 }, { "epoch": 1.15, "grad_norm": 0.02704450860619545, "learning_rate": 0.0001846888888888889, "loss": 0.1443, "step": 690 }, { "epoch": 1.1583333333333332, "grad_norm": 5.456444263458252, "learning_rate": 0.0001845777777777778, "loss": 0.1907, "step": 695 }, { "epoch": 1.1666666666666667, "grad_norm": 3.137620687484741, "learning_rate": 0.0001844666666666667, "loss": 0.1097, "step": 700 }, { "epoch": 1.1666666666666667, "eval_accuracy": 0.7983333333333333, "eval_f1": 0.7897957811135802, "eval_loss": 0.8909823894500732, "eval_precision": 0.8425445670874936, "eval_recall": 0.7983333333333333, "eval_runtime": 17.2081, "eval_samples_per_second": 139.469, "eval_steps_per_second": 17.434, "step": 700 }, { "epoch": 1.175, "grad_norm": 2.947194814682007, "learning_rate": 0.00018435555555555556, "loss": 0.0813, "step": 705 }, { "epoch": 1.1833333333333333, "grad_norm": 1.5548855066299438, "learning_rate": 0.00018424444444444446, "loss": 0.1679, "step": 710 }, { "epoch": 1.1916666666666667, "grad_norm": 15.038339614868164, "learning_rate": 0.00018413333333333333, "loss": 0.1287, "step": 715 }, { "epoch": 1.2, "grad_norm": 3.398819923400879, "learning_rate": 0.00018402222222222223, "loss": 0.0764, "step": 720 }, { "epoch": 1.2083333333333333, "grad_norm": 7.855409145355225, "learning_rate": 0.00018391111111111112, "loss": 0.3068, "step": 725 }, { "epoch": 1.2166666666666668, "grad_norm": 2.390097141265869, "learning_rate": 0.00018380000000000002, "loss": 0.1531, "step": 730 }, { "epoch": 1.225, "grad_norm": 6.481125831604004, "learning_rate": 0.0001836888888888889, "loss": 0.1017, "step": 735 }, { "epoch": 1.2333333333333334, "grad_norm": 0.17325857281684875, "learning_rate": 0.0001835777777777778, "loss": 0.029, "step": 740 }, { "epoch": 1.2416666666666667, "grad_norm": 0.09312787652015686, "learning_rate": 0.00018346666666666666, "loss": 0.0836, "step": 745 }, { "epoch": 1.25, "grad_norm": 9.388659477233887, "learning_rate": 0.00018335555555555556, "loss": 0.144, "step": 750 }, { "epoch": 1.2583333333333333, "grad_norm": 3.9371578693389893, "learning_rate": 0.00018324444444444446, "loss": 0.1647, "step": 755 }, { "epoch": 1.2666666666666666, "grad_norm": 9.179794311523438, "learning_rate": 0.00018313333333333333, "loss": 0.1303, "step": 760 }, { "epoch": 1.275, "grad_norm": 0.09511745721101761, "learning_rate": 0.00018302222222222223, "loss": 0.0407, "step": 765 }, { "epoch": 1.2833333333333332, "grad_norm": 3.644827365875244, "learning_rate": 0.00018291111111111113, "loss": 0.0577, "step": 770 }, { "epoch": 1.2916666666666667, "grad_norm": 0.13519428670406342, "learning_rate": 0.00018280000000000003, "loss": 0.0296, "step": 775 }, { "epoch": 1.3, "grad_norm": 0.2566520869731903, "learning_rate": 0.0001826888888888889, "loss": 0.0741, "step": 780 }, { "epoch": 1.3083333333333333, "grad_norm": 0.1281975656747818, "learning_rate": 0.00018257777777777777, "loss": 0.0594, "step": 785 }, { "epoch": 1.3166666666666667, "grad_norm": 0.06842482089996338, "learning_rate": 0.00018246666666666667, "loss": 0.1323, "step": 790 }, { "epoch": 1.325, "grad_norm": 2.009061574935913, "learning_rate": 0.00018235555555555556, "loss": 0.1678, "step": 795 }, { "epoch": 1.3333333333333333, "grad_norm": 1.7157819271087646, "learning_rate": 0.00018224444444444446, "loss": 0.0725, "step": 800 }, { "epoch": 1.3333333333333333, "eval_accuracy": 0.80375, "eval_f1": 0.801523060356814, "eval_loss": 0.6815734505653381, "eval_precision": 0.8374703499827731, "eval_recall": 0.80375, "eval_runtime": 17.6043, "eval_samples_per_second": 136.33, "eval_steps_per_second": 17.041, "step": 800 }, { "epoch": 1.3416666666666668, "grad_norm": 0.08213325589895248, "learning_rate": 0.00018213333333333333, "loss": 0.0073, "step": 805 }, { "epoch": 1.35, "grad_norm": 5.079579830169678, "learning_rate": 0.00018202222222222223, "loss": 0.1007, "step": 810 }, { "epoch": 1.3583333333333334, "grad_norm": 0.07957105338573456, "learning_rate": 0.00018191111111111113, "loss": 0.0382, "step": 815 }, { "epoch": 1.3666666666666667, "grad_norm": 0.11934405565261841, "learning_rate": 0.00018180000000000003, "loss": 0.07, "step": 820 }, { "epoch": 1.375, "grad_norm": 0.02087678760290146, "learning_rate": 0.0001816888888888889, "loss": 0.117, "step": 825 }, { "epoch": 1.3833333333333333, "grad_norm": 0.02777051366865635, "learning_rate": 0.00018157777777777777, "loss": 0.0737, "step": 830 }, { "epoch": 1.3916666666666666, "grad_norm": 0.021936114877462387, "learning_rate": 0.00018146666666666667, "loss": 0.0071, "step": 835 }, { "epoch": 1.4, "grad_norm": 12.850749969482422, "learning_rate": 0.00018135555555555557, "loss": 0.142, "step": 840 }, { "epoch": 1.4083333333333332, "grad_norm": 0.0617874339222908, "learning_rate": 0.00018124444444444446, "loss": 0.0067, "step": 845 }, { "epoch": 1.4166666666666667, "grad_norm": 0.025914710015058517, "learning_rate": 0.00018113333333333334, "loss": 0.132, "step": 850 }, { "epoch": 1.425, "grad_norm": 0.029414799064397812, "learning_rate": 0.00018102222222222223, "loss": 0.0058, "step": 855 }, { "epoch": 1.4333333333333333, "grad_norm": 3.555971384048462, "learning_rate": 0.00018091111111111113, "loss": 0.0462, "step": 860 }, { "epoch": 1.4416666666666667, "grad_norm": 0.034018199890851974, "learning_rate": 0.0001808, "loss": 0.0466, "step": 865 }, { "epoch": 1.45, "grad_norm": 2.613848924636841, "learning_rate": 0.0001806888888888889, "loss": 0.0894, "step": 870 }, { "epoch": 1.4583333333333333, "grad_norm": 0.7961679697036743, "learning_rate": 0.00018057777777777777, "loss": 0.1318, "step": 875 }, { "epoch": 1.4666666666666668, "grad_norm": 0.025080785155296326, "learning_rate": 0.00018046666666666667, "loss": 0.1379, "step": 880 }, { "epoch": 1.475, "grad_norm": 0.027445167303085327, "learning_rate": 0.00018035555555555557, "loss": 0.105, "step": 885 }, { "epoch": 1.4833333333333334, "grad_norm": 0.022734668105840683, "learning_rate": 0.00018024444444444447, "loss": 0.1225, "step": 890 }, { "epoch": 1.4916666666666667, "grad_norm": 9.632702827453613, "learning_rate": 0.00018013333333333334, "loss": 0.1103, "step": 895 }, { "epoch": 1.5, "grad_norm": 0.04573146253824234, "learning_rate": 0.00018002222222222224, "loss": 0.0152, "step": 900 }, { "epoch": 1.5, "eval_accuracy": 0.8175, "eval_f1": 0.8169362346083151, "eval_loss": 0.8366199731826782, "eval_precision": 0.8465971514889181, "eval_recall": 0.8175, "eval_runtime": 17.2503, "eval_samples_per_second": 139.128, "eval_steps_per_second": 17.391, "step": 900 }, { "epoch": 1.5083333333333333, "grad_norm": 6.602771282196045, "learning_rate": 0.0001799111111111111, "loss": 0.0468, "step": 905 }, { "epoch": 1.5166666666666666, "grad_norm": 0.01466680970042944, "learning_rate": 0.0001798, "loss": 0.0307, "step": 910 }, { "epoch": 1.525, "grad_norm": 0.12297764420509338, "learning_rate": 0.0001796888888888889, "loss": 0.0061, "step": 915 }, { "epoch": 1.5333333333333332, "grad_norm": 0.03282426297664642, "learning_rate": 0.00017957777777777778, "loss": 0.0441, "step": 920 }, { "epoch": 1.5416666666666665, "grad_norm": 6.4928436279296875, "learning_rate": 0.00017946666666666667, "loss": 0.2488, "step": 925 }, { "epoch": 1.55, "grad_norm": 0.02625608630478382, "learning_rate": 0.00017935555555555557, "loss": 0.0855, "step": 930 }, { "epoch": 1.5583333333333333, "grad_norm": 6.760549545288086, "learning_rate": 0.00017924444444444447, "loss": 0.1417, "step": 935 }, { "epoch": 1.5666666666666667, "grad_norm": 3.9812073707580566, "learning_rate": 0.00017913333333333334, "loss": 0.2004, "step": 940 }, { "epoch": 1.575, "grad_norm": 1.551741361618042, "learning_rate": 0.0001790222222222222, "loss": 0.0811, "step": 945 }, { "epoch": 1.5833333333333335, "grad_norm": 6.605048179626465, "learning_rate": 0.0001789111111111111, "loss": 0.0581, "step": 950 }, { "epoch": 1.5916666666666668, "grad_norm": 0.7076789140701294, "learning_rate": 0.0001788, "loss": 0.0819, "step": 955 }, { "epoch": 1.6, "grad_norm": 0.028274603188037872, "learning_rate": 0.0001786888888888889, "loss": 0.0777, "step": 960 }, { "epoch": 1.6083333333333334, "grad_norm": 2.455617666244507, "learning_rate": 0.00017857777777777778, "loss": 0.0966, "step": 965 }, { "epoch": 1.6166666666666667, "grad_norm": 0.02224380522966385, "learning_rate": 0.00017846666666666668, "loss": 0.0115, "step": 970 }, { "epoch": 1.625, "grad_norm": 0.13021917641162872, "learning_rate": 0.00017835555555555558, "loss": 0.0217, "step": 975 }, { "epoch": 1.6333333333333333, "grad_norm": 2.0325050354003906, "learning_rate": 0.00017824444444444445, "loss": 0.0423, "step": 980 }, { "epoch": 1.6416666666666666, "grad_norm": 0.5278506875038147, "learning_rate": 0.00017813333333333334, "loss": 0.1014, "step": 985 }, { "epoch": 1.65, "grad_norm": 0.8745790719985962, "learning_rate": 0.00017802222222222222, "loss": 0.0147, "step": 990 }, { "epoch": 1.6583333333333332, "grad_norm": 0.2445397973060608, "learning_rate": 0.00017791111111111111, "loss": 0.0552, "step": 995 }, { "epoch": 1.6666666666666665, "grad_norm": 0.4065566062927246, "learning_rate": 0.0001778, "loss": 0.0057, "step": 1000 }, { "epoch": 1.6666666666666665, "eval_accuracy": 0.88125, "eval_f1": 0.8809979747199409, "eval_loss": 0.5297861695289612, "eval_precision": 0.8924236186607715, "eval_recall": 0.88125, "eval_runtime": 17.5271, "eval_samples_per_second": 136.931, "eval_steps_per_second": 17.116, "step": 1000 }, { "epoch": 1.675, "grad_norm": 0.07019585371017456, "learning_rate": 0.0001776888888888889, "loss": 0.0043, "step": 1005 }, { "epoch": 1.6833333333333333, "grad_norm": 0.6984423398971558, "learning_rate": 0.00017757777777777778, "loss": 0.034, "step": 1010 }, { "epoch": 1.6916666666666667, "grad_norm": 5.548788547515869, "learning_rate": 0.00017746666666666668, "loss": 0.0168, "step": 1015 }, { "epoch": 1.7, "grad_norm": 16.442541122436523, "learning_rate": 0.00017735555555555555, "loss": 0.1909, "step": 1020 }, { "epoch": 1.7083333333333335, "grad_norm": 0.017785781994462013, "learning_rate": 0.00017724444444444445, "loss": 0.003, "step": 1025 }, { "epoch": 1.7166666666666668, "grad_norm": 0.08616127073764801, "learning_rate": 0.00017713333333333335, "loss": 0.0042, "step": 1030 }, { "epoch": 1.725, "grad_norm": 0.08967293798923492, "learning_rate": 0.00017702222222222222, "loss": 0.005, "step": 1035 }, { "epoch": 1.7333333333333334, "grad_norm": 0.2752644717693329, "learning_rate": 0.00017691111111111112, "loss": 0.0033, "step": 1040 }, { "epoch": 1.7416666666666667, "grad_norm": 0.009617485105991364, "learning_rate": 0.00017680000000000001, "loss": 0.1321, "step": 1045 }, { "epoch": 1.75, "grad_norm": 0.7104824185371399, "learning_rate": 0.0001766888888888889, "loss": 0.1278, "step": 1050 }, { "epoch": 1.7583333333333333, "grad_norm": 0.01274389773607254, "learning_rate": 0.00017657777777777778, "loss": 0.0614, "step": 1055 }, { "epoch": 1.7666666666666666, "grad_norm": 0.015616457909345627, "learning_rate": 0.00017646666666666668, "loss": 0.0041, "step": 1060 }, { "epoch": 1.775, "grad_norm": 4.984201431274414, "learning_rate": 0.00017635555555555555, "loss": 0.0206, "step": 1065 }, { "epoch": 1.7833333333333332, "grad_norm": 4.2337446212768555, "learning_rate": 0.00017624444444444445, "loss": 0.0594, "step": 1070 }, { "epoch": 1.7916666666666665, "grad_norm": 0.023833639919757843, "learning_rate": 0.00017613333333333335, "loss": 0.1098, "step": 1075 }, { "epoch": 1.8, "grad_norm": 0.2118522822856903, "learning_rate": 0.00017602222222222222, "loss": 0.0074, "step": 1080 }, { "epoch": 1.8083333333333333, "grad_norm": 0.03874189034104347, "learning_rate": 0.00017591111111111112, "loss": 0.0066, "step": 1085 }, { "epoch": 1.8166666666666667, "grad_norm": 14.609126091003418, "learning_rate": 0.00017580000000000002, "loss": 0.0899, "step": 1090 }, { "epoch": 1.825, "grad_norm": 2.290257453918457, "learning_rate": 0.00017568888888888892, "loss": 0.0337, "step": 1095 }, { "epoch": 1.8333333333333335, "grad_norm": 0.02271149680018425, "learning_rate": 0.0001755777777777778, "loss": 0.0804, "step": 1100 }, { "epoch": 1.8333333333333335, "eval_accuracy": 0.7425, "eval_f1": 0.7228483556984977, "eval_loss": 1.1548962593078613, "eval_precision": 0.8162211465323808, "eval_recall": 0.7425, "eval_runtime": 17.2608, "eval_samples_per_second": 139.043, "eval_steps_per_second": 17.38, "step": 1100 }, { "epoch": 1.8416666666666668, "grad_norm": 5.144294738769531, "learning_rate": 0.00017546666666666666, "loss": 0.1973, "step": 1105 }, { "epoch": 1.85, "grad_norm": 7.186880111694336, "learning_rate": 0.00017535555555555556, "loss": 0.0492, "step": 1110 }, { "epoch": 1.8583333333333334, "grad_norm": 0.046076491475105286, "learning_rate": 0.00017524444444444445, "loss": 0.0457, "step": 1115 }, { "epoch": 1.8666666666666667, "grad_norm": 0.6731722354888916, "learning_rate": 0.00017513333333333335, "loss": 0.0081, "step": 1120 }, { "epoch": 1.875, "grad_norm": 5.9906439781188965, "learning_rate": 0.00017502222222222222, "loss": 0.0539, "step": 1125 }, { "epoch": 1.8833333333333333, "grad_norm": 0.03651962801814079, "learning_rate": 0.00017491111111111112, "loss": 0.0835, "step": 1130 }, { "epoch": 1.8916666666666666, "grad_norm": 2.5684845447540283, "learning_rate": 0.00017480000000000002, "loss": 0.0077, "step": 1135 }, { "epoch": 1.9, "grad_norm": 7.191393852233887, "learning_rate": 0.0001746888888888889, "loss": 0.0363, "step": 1140 }, { "epoch": 1.9083333333333332, "grad_norm": 0.009585252031683922, "learning_rate": 0.0001745777777777778, "loss": 0.0034, "step": 1145 }, { "epoch": 1.9166666666666665, "grad_norm": 0.09833250194787979, "learning_rate": 0.00017446666666666666, "loss": 0.0645, "step": 1150 }, { "epoch": 1.925, "grad_norm": 4.119343280792236, "learning_rate": 0.00017435555555555556, "loss": 0.104, "step": 1155 }, { "epoch": 1.9333333333333333, "grad_norm": 0.014504649676382542, "learning_rate": 0.00017424444444444446, "loss": 0.0437, "step": 1160 }, { "epoch": 1.9416666666666667, "grad_norm": 3.8112473487854004, "learning_rate": 0.00017413333333333336, "loss": 0.0624, "step": 1165 }, { "epoch": 1.95, "grad_norm": 4.600423336029053, "learning_rate": 0.00017402222222222223, "loss": 0.0157, "step": 1170 }, { "epoch": 1.9583333333333335, "grad_norm": 0.5576470494270325, "learning_rate": 0.00017391111111111113, "loss": 0.0707, "step": 1175 }, { "epoch": 1.9666666666666668, "grad_norm": 0.06581258028745651, "learning_rate": 0.0001738, "loss": 0.0383, "step": 1180 }, { "epoch": 1.975, "grad_norm": 0.024063002318143845, "learning_rate": 0.0001736888888888889, "loss": 0.0892, "step": 1185 }, { "epoch": 1.9833333333333334, "grad_norm": 0.11356136202812195, "learning_rate": 0.0001735777777777778, "loss": 0.1196, "step": 1190 }, { "epoch": 1.9916666666666667, "grad_norm": 8.21043586730957, "learning_rate": 0.00017346666666666666, "loss": 0.3884, "step": 1195 }, { "epoch": 2.0, "grad_norm": 1.0470291376113892, "learning_rate": 0.00017335555555555556, "loss": 0.0655, "step": 1200 }, { "epoch": 2.0, "eval_accuracy": 0.795, "eval_f1": 0.790720427646332, "eval_loss": 0.9445087909698486, "eval_precision": 0.8350101535057042, "eval_recall": 0.795, "eval_runtime": 17.5796, "eval_samples_per_second": 136.522, "eval_steps_per_second": 17.065, "step": 1200 }, { "epoch": 2.0083333333333333, "grad_norm": 3.314819574356079, "learning_rate": 0.00017324444444444446, "loss": 0.0704, "step": 1205 }, { "epoch": 2.0166666666666666, "grad_norm": 0.01590251363813877, "learning_rate": 0.00017313333333333336, "loss": 0.1632, "step": 1210 }, { "epoch": 2.025, "grad_norm": 1.4403929710388184, "learning_rate": 0.00017302222222222223, "loss": 0.082, "step": 1215 }, { "epoch": 2.033333333333333, "grad_norm": 0.02522379346191883, "learning_rate": 0.0001729111111111111, "loss": 0.0791, "step": 1220 }, { "epoch": 2.0416666666666665, "grad_norm": 0.018324781209230423, "learning_rate": 0.0001728, "loss": 0.0048, "step": 1225 }, { "epoch": 2.05, "grad_norm": 0.458107054233551, "learning_rate": 0.0001726888888888889, "loss": 0.0783, "step": 1230 }, { "epoch": 2.058333333333333, "grad_norm": 0.01706443540751934, "learning_rate": 0.0001725777777777778, "loss": 0.0064, "step": 1235 }, { "epoch": 2.066666666666667, "grad_norm": 0.010883928276598454, "learning_rate": 0.00017246666666666667, "loss": 0.0026, "step": 1240 }, { "epoch": 2.075, "grad_norm": 2.2109909057617188, "learning_rate": 0.00017235555555555556, "loss": 0.0063, "step": 1245 }, { "epoch": 2.0833333333333335, "grad_norm": 0.1612847000360489, "learning_rate": 0.00017224444444444446, "loss": 0.0032, "step": 1250 }, { "epoch": 2.091666666666667, "grad_norm": 0.3420381247997284, "learning_rate": 0.00017213333333333333, "loss": 0.0039, "step": 1255 }, { "epoch": 2.1, "grad_norm": 8.661349296569824, "learning_rate": 0.00017202222222222223, "loss": 0.0526, "step": 1260 }, { "epoch": 2.1083333333333334, "grad_norm": 0.014970864169299603, "learning_rate": 0.0001719111111111111, "loss": 0.0843, "step": 1265 }, { "epoch": 2.1166666666666667, "grad_norm": 0.01655573770403862, "learning_rate": 0.0001718, "loss": 0.0745, "step": 1270 }, { "epoch": 2.125, "grad_norm": 0.013738071545958519, "learning_rate": 0.0001716888888888889, "loss": 0.0625, "step": 1275 }, { "epoch": 2.1333333333333333, "grad_norm": 0.011484778486192226, "learning_rate": 0.0001715777777777778, "loss": 0.0274, "step": 1280 }, { "epoch": 2.1416666666666666, "grad_norm": 0.08766481280326843, "learning_rate": 0.00017146666666666667, "loss": 0.0033, "step": 1285 }, { "epoch": 2.15, "grad_norm": 0.014524525962769985, "learning_rate": 0.00017135555555555557, "loss": 0.003, "step": 1290 }, { "epoch": 2.158333333333333, "grad_norm": 0.009150991216301918, "learning_rate": 0.00017124444444444444, "loss": 0.0757, "step": 1295 }, { "epoch": 2.1666666666666665, "grad_norm": 5.8102898597717285, "learning_rate": 0.00017113333333333334, "loss": 0.1261, "step": 1300 }, { "epoch": 2.1666666666666665, "eval_accuracy": 0.8120833333333334, "eval_f1": 0.8066686632190647, "eval_loss": 0.8881622552871704, "eval_precision": 0.8448819567693518, "eval_recall": 0.8120833333333334, "eval_runtime": 17.2541, "eval_samples_per_second": 139.098, "eval_steps_per_second": 17.387, "step": 1300 }, { "epoch": 2.175, "grad_norm": 0.011899738572537899, "learning_rate": 0.00017102222222222224, "loss": 0.0022, "step": 1305 }, { "epoch": 2.183333333333333, "grad_norm": 1.5649707317352295, "learning_rate": 0.0001709111111111111, "loss": 0.0972, "step": 1310 }, { "epoch": 2.191666666666667, "grad_norm": 0.018453268334269524, "learning_rate": 0.0001708, "loss": 0.0305, "step": 1315 }, { "epoch": 2.2, "grad_norm": 0.01707005873322487, "learning_rate": 0.0001706888888888889, "loss": 0.0022, "step": 1320 }, { "epoch": 2.2083333333333335, "grad_norm": 0.007094241678714752, "learning_rate": 0.0001705777777777778, "loss": 0.0043, "step": 1325 }, { "epoch": 2.216666666666667, "grad_norm": 0.036376114934682846, "learning_rate": 0.00017046666666666667, "loss": 0.0027, "step": 1330 }, { "epoch": 2.225, "grad_norm": 0.012223577126860619, "learning_rate": 0.00017035555555555557, "loss": 0.0022, "step": 1335 }, { "epoch": 2.2333333333333334, "grad_norm": 0.006670965813100338, "learning_rate": 0.00017024444444444444, "loss": 0.002, "step": 1340 }, { "epoch": 2.2416666666666667, "grad_norm": 0.020161954686045647, "learning_rate": 0.00017013333333333334, "loss": 0.0028, "step": 1345 }, { "epoch": 2.25, "grad_norm": 0.00882883369922638, "learning_rate": 0.00017002222222222224, "loss": 0.0019, "step": 1350 }, { "epoch": 2.2583333333333333, "grad_norm": 0.00869451742619276, "learning_rate": 0.0001699111111111111, "loss": 0.0032, "step": 1355 }, { "epoch": 2.2666666666666666, "grad_norm": 0.0285855233669281, "learning_rate": 0.0001698, "loss": 0.0022, "step": 1360 }, { "epoch": 2.275, "grad_norm": 0.007087525445967913, "learning_rate": 0.0001696888888888889, "loss": 0.0646, "step": 1365 }, { "epoch": 2.283333333333333, "grad_norm": 0.00941796600818634, "learning_rate": 0.0001695777777777778, "loss": 0.0131, "step": 1370 }, { "epoch": 2.2916666666666665, "grad_norm": 0.01735394261777401, "learning_rate": 0.00016946666666666667, "loss": 0.0023, "step": 1375 }, { "epoch": 2.3, "grad_norm": 0.005590538959950209, "learning_rate": 0.00016935555555555555, "loss": 0.1, "step": 1380 }, { "epoch": 2.3083333333333336, "grad_norm": 3.8015236854553223, "learning_rate": 0.00016924444444444444, "loss": 0.0895, "step": 1385 }, { "epoch": 2.3166666666666664, "grad_norm": 3.2458441257476807, "learning_rate": 0.00016913333333333334, "loss": 0.0671, "step": 1390 }, { "epoch": 2.325, "grad_norm": 0.35884588956832886, "learning_rate": 0.00016902222222222224, "loss": 0.0048, "step": 1395 }, { "epoch": 2.3333333333333335, "grad_norm": 0.02359212562441826, "learning_rate": 0.0001689111111111111, "loss": 0.0418, "step": 1400 }, { "epoch": 2.3333333333333335, "eval_accuracy": 0.86375, "eval_f1": 0.8636240729223478, "eval_loss": 0.6411367058753967, "eval_precision": 0.8682488063777705, "eval_recall": 0.86375, "eval_runtime": 17.386, "eval_samples_per_second": 138.042, "eval_steps_per_second": 17.255, "step": 1400 }, { "epoch": 2.341666666666667, "grad_norm": 0.012670883908867836, "learning_rate": 0.0001688, "loss": 0.0507, "step": 1405 }, { "epoch": 2.35, "grad_norm": 0.02050863392651081, "learning_rate": 0.0001686888888888889, "loss": 0.0043, "step": 1410 }, { "epoch": 2.3583333333333334, "grad_norm": 0.008687810972332954, "learning_rate": 0.00016857777777777778, "loss": 0.0034, "step": 1415 }, { "epoch": 2.3666666666666667, "grad_norm": 8.880425453186035, "learning_rate": 0.00016846666666666668, "loss": 0.0159, "step": 1420 }, { "epoch": 2.375, "grad_norm": 2.9322140216827393, "learning_rate": 0.00016835555555555555, "loss": 0.0929, "step": 1425 }, { "epoch": 2.3833333333333333, "grad_norm": 0.008429259993135929, "learning_rate": 0.00016824444444444445, "loss": 0.0017, "step": 1430 }, { "epoch": 2.3916666666666666, "grad_norm": 0.7303611040115356, "learning_rate": 0.00016813333333333335, "loss": 0.0031, "step": 1435 }, { "epoch": 2.4, "grad_norm": 0.007336003240197897, "learning_rate": 0.00016802222222222224, "loss": 0.0736, "step": 1440 }, { "epoch": 2.408333333333333, "grad_norm": 0.010502235032618046, "learning_rate": 0.00016791111111111114, "loss": 0.0019, "step": 1445 }, { "epoch": 2.4166666666666665, "grad_norm": 0.0065989503636956215, "learning_rate": 0.0001678, "loss": 0.0269, "step": 1450 }, { "epoch": 2.425, "grad_norm": 3.072159767150879, "learning_rate": 0.00016768888888888888, "loss": 0.0068, "step": 1455 }, { "epoch": 2.4333333333333336, "grad_norm": 0.008269249461591244, "learning_rate": 0.00016757777777777778, "loss": 0.0029, "step": 1460 }, { "epoch": 2.4416666666666664, "grad_norm": 0.009864929132163525, "learning_rate": 0.00016746666666666668, "loss": 0.1134, "step": 1465 }, { "epoch": 2.45, "grad_norm": 5.399435997009277, "learning_rate": 0.00016735555555555555, "loss": 0.0642, "step": 1470 }, { "epoch": 2.4583333333333335, "grad_norm": 0.09911159425973892, "learning_rate": 0.00016724444444444445, "loss": 0.0535, "step": 1475 }, { "epoch": 2.466666666666667, "grad_norm": 0.009763318113982677, "learning_rate": 0.00016713333333333335, "loss": 0.0444, "step": 1480 }, { "epoch": 2.475, "grad_norm": 0.05794193223118782, "learning_rate": 0.00016702222222222225, "loss": 0.08, "step": 1485 }, { "epoch": 2.4833333333333334, "grad_norm": 2.915459156036377, "learning_rate": 0.00016691111111111112, "loss": 0.0161, "step": 1490 }, { "epoch": 2.4916666666666667, "grad_norm": 0.0298860315233469, "learning_rate": 0.0001668, "loss": 0.0173, "step": 1495 }, { "epoch": 2.5, "grad_norm": 0.009326543658971786, "learning_rate": 0.0001666888888888889, "loss": 0.0809, "step": 1500 }, { "epoch": 2.5, "eval_accuracy": 0.8708333333333333, "eval_f1": 0.8682514682726563, "eval_loss": 0.5780412554740906, "eval_precision": 0.881124228890976, "eval_recall": 0.8708333333333333, "eval_runtime": 17.2271, "eval_samples_per_second": 139.315, "eval_steps_per_second": 17.414, "step": 1500 }, { "epoch": 2.5083333333333333, "grad_norm": 0.015503071248531342, "learning_rate": 0.00016657777777777779, "loss": 0.0946, "step": 1505 }, { "epoch": 2.5166666666666666, "grad_norm": 0.1662835329771042, "learning_rate": 0.00016646666666666668, "loss": 0.0121, "step": 1510 }, { "epoch": 2.525, "grad_norm": 0.027190443128347397, "learning_rate": 0.00016635555555555555, "loss": 0.0051, "step": 1515 }, { "epoch": 2.533333333333333, "grad_norm": 0.0908505991101265, "learning_rate": 0.00016624444444444445, "loss": 0.0028, "step": 1520 }, { "epoch": 2.5416666666666665, "grad_norm": 0.033887721598148346, "learning_rate": 0.00016613333333333335, "loss": 0.0379, "step": 1525 }, { "epoch": 2.55, "grad_norm": 12.121322631835938, "learning_rate": 0.00016602222222222222, "loss": 0.0476, "step": 1530 }, { "epoch": 2.5583333333333336, "grad_norm": 0.008585413917899132, "learning_rate": 0.00016591111111111112, "loss": 0.0101, "step": 1535 }, { "epoch": 2.5666666666666664, "grad_norm": 0.30090174078941345, "learning_rate": 0.0001658, "loss": 0.0599, "step": 1540 }, { "epoch": 2.575, "grad_norm": 0.010436576791107655, "learning_rate": 0.0001656888888888889, "loss": 0.0071, "step": 1545 }, { "epoch": 2.5833333333333335, "grad_norm": 0.18919509649276733, "learning_rate": 0.0001655777777777778, "loss": 0.0295, "step": 1550 }, { "epoch": 2.591666666666667, "grad_norm": 10.122054100036621, "learning_rate": 0.00016546666666666669, "loss": 0.0448, "step": 1555 }, { "epoch": 2.6, "grad_norm": 0.08900125324726105, "learning_rate": 0.00016535555555555556, "loss": 0.0038, "step": 1560 }, { "epoch": 2.6083333333333334, "grad_norm": 0.010898564010858536, "learning_rate": 0.00016524444444444446, "loss": 0.1336, "step": 1565 }, { "epoch": 2.6166666666666667, "grad_norm": 0.036906030029058456, "learning_rate": 0.00016513333333333333, "loss": 0.0033, "step": 1570 }, { "epoch": 2.625, "grad_norm": 0.00845995545387268, "learning_rate": 0.00016502222222222222, "loss": 0.0043, "step": 1575 }, { "epoch": 2.6333333333333333, "grad_norm": 2.4540610313415527, "learning_rate": 0.00016491111111111112, "loss": 0.2784, "step": 1580 }, { "epoch": 2.6416666666666666, "grad_norm": 0.009678791277110577, "learning_rate": 0.0001648, "loss": 0.0017, "step": 1585 }, { "epoch": 2.65, "grad_norm": 0.07401396334171295, "learning_rate": 0.0001646888888888889, "loss": 0.0477, "step": 1590 }, { "epoch": 2.658333333333333, "grad_norm": 0.022737720981240273, "learning_rate": 0.0001645777777777778, "loss": 0.0094, "step": 1595 }, { "epoch": 2.6666666666666665, "grad_norm": 0.16675379872322083, "learning_rate": 0.0001644666666666667, "loss": 0.1062, "step": 1600 }, { "epoch": 2.6666666666666665, "eval_accuracy": 0.7875, "eval_f1": 0.762293115043776, "eval_loss": 1.1594880819320679, "eval_precision": 0.8248830956360603, "eval_recall": 0.7875, "eval_runtime": 17.3955, "eval_samples_per_second": 137.967, "eval_steps_per_second": 17.246, "step": 1600 }, { "epoch": 2.675, "grad_norm": 0.011642363853752613, "learning_rate": 0.0001643555555555556, "loss": 0.1109, "step": 1605 }, { "epoch": 2.6833333333333336, "grad_norm": 0.8253456950187683, "learning_rate": 0.00016424444444444446, "loss": 0.0041, "step": 1610 }, { "epoch": 2.6916666666666664, "grad_norm": 0.0610569529235363, "learning_rate": 0.00016413333333333333, "loss": 0.0098, "step": 1615 }, { "epoch": 2.7, "grad_norm": 0.01381770335137844, "learning_rate": 0.00016402222222222223, "loss": 0.0034, "step": 1620 }, { "epoch": 2.7083333333333335, "grad_norm": 0.019168343394994736, "learning_rate": 0.00016391111111111113, "loss": 0.0259, "step": 1625 }, { "epoch": 2.716666666666667, "grad_norm": 0.00557492021471262, "learning_rate": 0.0001638, "loss": 0.0019, "step": 1630 }, { "epoch": 2.725, "grad_norm": 0.011986837722361088, "learning_rate": 0.0001636888888888889, "loss": 0.0022, "step": 1635 }, { "epoch": 2.7333333333333334, "grad_norm": 0.01027438510209322, "learning_rate": 0.0001635777777777778, "loss": 0.0176, "step": 1640 }, { "epoch": 2.7416666666666667, "grad_norm": 0.005790164228528738, "learning_rate": 0.0001634666666666667, "loss": 0.0017, "step": 1645 }, { "epoch": 2.75, "grad_norm": 0.009503304027020931, "learning_rate": 0.00016335555555555556, "loss": 0.0661, "step": 1650 }, { "epoch": 2.7583333333333333, "grad_norm": 9.7177152633667, "learning_rate": 0.00016324444444444443, "loss": 0.0076, "step": 1655 }, { "epoch": 2.7666666666666666, "grad_norm": 2.11442494392395, "learning_rate": 0.00016313333333333333, "loss": 0.0048, "step": 1660 }, { "epoch": 2.775, "grad_norm": 0.00857405923306942, "learning_rate": 0.00016302222222222223, "loss": 0.0158, "step": 1665 }, { "epoch": 2.783333333333333, "grad_norm": 0.00747597124427557, "learning_rate": 0.00016291111111111113, "loss": 0.004, "step": 1670 }, { "epoch": 2.7916666666666665, "grad_norm": 0.16346777975559235, "learning_rate": 0.0001628, "loss": 0.0095, "step": 1675 }, { "epoch": 2.8, "grad_norm": 0.005353240761905909, "learning_rate": 0.0001626888888888889, "loss": 0.0015, "step": 1680 }, { "epoch": 2.8083333333333336, "grad_norm": 0.014167744666337967, "learning_rate": 0.0001625777777777778, "loss": 0.0264, "step": 1685 }, { "epoch": 2.8166666666666664, "grad_norm": 0.008902885019779205, "learning_rate": 0.00016246666666666667, "loss": 0.0732, "step": 1690 }, { "epoch": 2.825, "grad_norm": 0.017570950090885162, "learning_rate": 0.00016235555555555557, "loss": 0.0954, "step": 1695 }, { "epoch": 2.8333333333333335, "grad_norm": 0.3721277117729187, "learning_rate": 0.00016224444444444444, "loss": 0.0021, "step": 1700 }, { "epoch": 2.8333333333333335, "eval_accuracy": 0.7525, "eval_f1": 0.7378953850628042, "eval_loss": 1.4651647806167603, "eval_precision": 0.8049594984508938, "eval_recall": 0.7525, "eval_runtime": 17.4087, "eval_samples_per_second": 137.862, "eval_steps_per_second": 17.233, "step": 1700 }, { "epoch": 2.841666666666667, "grad_norm": 0.08471933007240295, "learning_rate": 0.00016213333333333334, "loss": 0.057, "step": 1705 }, { "epoch": 2.85, "grad_norm": 5.591139316558838, "learning_rate": 0.00016202222222222223, "loss": 0.0157, "step": 1710 }, { "epoch": 2.8583333333333334, "grad_norm": 7.029623508453369, "learning_rate": 0.00016191111111111113, "loss": 0.0221, "step": 1715 }, { "epoch": 2.8666666666666667, "grad_norm": 0.004947323352098465, "learning_rate": 0.00016180000000000003, "loss": 0.0015, "step": 1720 }, { "epoch": 2.875, "grad_norm": 0.004881935194134712, "learning_rate": 0.0001616888888888889, "loss": 0.081, "step": 1725 }, { "epoch": 2.8833333333333333, "grad_norm": 0.00622685719281435, "learning_rate": 0.00016157777777777777, "loss": 0.005, "step": 1730 }, { "epoch": 2.8916666666666666, "grad_norm": 9.183723449707031, "learning_rate": 0.00016146666666666667, "loss": 0.0833, "step": 1735 }, { "epoch": 2.9, "grad_norm": 0.007840245962142944, "learning_rate": 0.00016135555555555557, "loss": 0.0581, "step": 1740 }, { "epoch": 2.908333333333333, "grad_norm": 3.2768611907958984, "learning_rate": 0.00016124444444444444, "loss": 0.0047, "step": 1745 }, { "epoch": 2.9166666666666665, "grad_norm": 10.631937026977539, "learning_rate": 0.00016113333333333334, "loss": 0.106, "step": 1750 }, { "epoch": 2.925, "grad_norm": 0.21901696920394897, "learning_rate": 0.00016102222222222224, "loss": 0.0035, "step": 1755 }, { "epoch": 2.9333333333333336, "grad_norm": 0.013795444741845131, "learning_rate": 0.00016091111111111113, "loss": 0.0014, "step": 1760 }, { "epoch": 2.9416666666666664, "grad_norm": 0.007075151428580284, "learning_rate": 0.0001608, "loss": 0.096, "step": 1765 }, { "epoch": 2.95, "grad_norm": 8.797901153564453, "learning_rate": 0.00016068888888888888, "loss": 0.2405, "step": 1770 }, { "epoch": 2.9583333333333335, "grad_norm": 0.013398180715739727, "learning_rate": 0.00016057777777777777, "loss": 0.2021, "step": 1775 }, { "epoch": 2.966666666666667, "grad_norm": 0.017609668895602226, "learning_rate": 0.00016046666666666667, "loss": 0.0016, "step": 1780 }, { "epoch": 2.975, "grad_norm": 0.030231518670916557, "learning_rate": 0.00016035555555555557, "loss": 0.0205, "step": 1785 }, { "epoch": 2.9833333333333334, "grad_norm": 0.006965042091906071, "learning_rate": 0.00016024444444444444, "loss": 0.0131, "step": 1790 }, { "epoch": 2.9916666666666667, "grad_norm": 0.01270020380616188, "learning_rate": 0.00016013333333333334, "loss": 0.018, "step": 1795 }, { "epoch": 3.0, "grad_norm": 0.005832229275256395, "learning_rate": 0.00016002222222222224, "loss": 0.0031, "step": 1800 }, { "epoch": 3.0, "eval_accuracy": 0.7904166666666667, "eval_f1": 0.7646923999776803, "eval_loss": 1.1440844535827637, "eval_precision": 0.8277475522896642, "eval_recall": 0.7904166666666667, "eval_runtime": 17.4282, "eval_samples_per_second": 137.708, "eval_steps_per_second": 17.213, "step": 1800 }, { "epoch": 3.0083333333333333, "grad_norm": 3.8136823177337646, "learning_rate": 0.0001599111111111111, "loss": 0.0686, "step": 1805 }, { "epoch": 3.0166666666666666, "grad_norm": 0.006084319669753313, "learning_rate": 0.0001598, "loss": 0.0013, "step": 1810 }, { "epoch": 3.025, "grad_norm": 0.014314080588519573, "learning_rate": 0.00015968888888888888, "loss": 0.0711, "step": 1815 }, { "epoch": 3.033333333333333, "grad_norm": 0.008085310459136963, "learning_rate": 0.00015957777777777778, "loss": 0.0018, "step": 1820 }, { "epoch": 3.0416666666666665, "grad_norm": 0.006709631532430649, "learning_rate": 0.00015946666666666668, "loss": 0.0022, "step": 1825 }, { "epoch": 3.05, "grad_norm": 5.550113201141357, "learning_rate": 0.00015935555555555557, "loss": 0.0354, "step": 1830 }, { "epoch": 3.058333333333333, "grad_norm": 0.00460304319858551, "learning_rate": 0.00015924444444444447, "loss": 0.0204, "step": 1835 }, { "epoch": 3.066666666666667, "grad_norm": 0.006403545383363962, "learning_rate": 0.00015913333333333334, "loss": 0.0027, "step": 1840 }, { "epoch": 3.075, "grad_norm": 0.005506476853042841, "learning_rate": 0.00015902222222222221, "loss": 0.0793, "step": 1845 }, { "epoch": 3.0833333333333335, "grad_norm": 0.011339109390974045, "learning_rate": 0.0001589111111111111, "loss": 0.003, "step": 1850 }, { "epoch": 3.091666666666667, "grad_norm": 0.19765347242355347, "learning_rate": 0.0001588, "loss": 0.0027, "step": 1855 }, { "epoch": 3.1, "grad_norm": 0.037931181490421295, "learning_rate": 0.00015868888888888888, "loss": 0.0018, "step": 1860 }, { "epoch": 3.1083333333333334, "grad_norm": 0.005825894419103861, "learning_rate": 0.00015857777777777778, "loss": 0.0048, "step": 1865 }, { "epoch": 3.1166666666666667, "grad_norm": 7.076573371887207, "learning_rate": 0.00015846666666666668, "loss": 0.2507, "step": 1870 }, { "epoch": 3.125, "grad_norm": 0.032987114042043686, "learning_rate": 0.00015835555555555558, "loss": 0.0556, "step": 1875 }, { "epoch": 3.1333333333333333, "grad_norm": 5.945115566253662, "learning_rate": 0.00015824444444444448, "loss": 0.1282, "step": 1880 }, { "epoch": 3.1416666666666666, "grad_norm": 0.025185424834489822, "learning_rate": 0.00015813333333333335, "loss": 0.0017, "step": 1885 }, { "epoch": 3.15, "grad_norm": 3.2072715759277344, "learning_rate": 0.00015802222222222222, "loss": 0.0752, "step": 1890 }, { "epoch": 3.158333333333333, "grad_norm": 0.03885618969798088, "learning_rate": 0.00015791111111111112, "loss": 0.0462, "step": 1895 }, { "epoch": 3.1666666666666665, "grad_norm": 0.015840597450733185, "learning_rate": 0.00015780000000000001, "loss": 0.0026, "step": 1900 }, { "epoch": 3.1666666666666665, "eval_accuracy": 0.8479166666666667, "eval_f1": 0.8471444533597329, "eval_loss": 0.6132380962371826, "eval_precision": 0.8536925820626755, "eval_recall": 0.8479166666666667, "eval_runtime": 17.4989, "eval_samples_per_second": 137.151, "eval_steps_per_second": 17.144, "step": 1900 }, { "epoch": 3.175, "grad_norm": 0.012518719770014286, "learning_rate": 0.00015768888888888888, "loss": 0.0829, "step": 1905 }, { "epoch": 3.183333333333333, "grad_norm": 0.016391286626458168, "learning_rate": 0.00015757777777777778, "loss": 0.0075, "step": 1910 }, { "epoch": 3.191666666666667, "grad_norm": 0.015317020006477833, "learning_rate": 0.00015746666666666668, "loss": 0.003, "step": 1915 }, { "epoch": 3.2, "grad_norm": 0.2601831257343292, "learning_rate": 0.00015735555555555558, "loss": 0.0875, "step": 1920 }, { "epoch": 3.2083333333333335, "grad_norm": 0.022021636366844177, "learning_rate": 0.00015724444444444445, "loss": 0.0344, "step": 1925 }, { "epoch": 3.216666666666667, "grad_norm": 0.010631919838488102, "learning_rate": 0.00015713333333333332, "loss": 0.0024, "step": 1930 }, { "epoch": 3.225, "grad_norm": 0.03513744845986366, "learning_rate": 0.00015702222222222222, "loss": 0.0096, "step": 1935 }, { "epoch": 3.2333333333333334, "grad_norm": 0.025857973843812943, "learning_rate": 0.00015691111111111112, "loss": 0.01, "step": 1940 }, { "epoch": 3.2416666666666667, "grad_norm": 0.033431947231292725, "learning_rate": 0.00015680000000000002, "loss": 0.0587, "step": 1945 }, { "epoch": 3.25, "grad_norm": 9.224873542785645, "learning_rate": 0.00015668888888888891, "loss": 0.0584, "step": 1950 }, { "epoch": 3.2583333333333333, "grad_norm": 0.48128852248191833, "learning_rate": 0.00015657777777777779, "loss": 0.0027, "step": 1955 }, { "epoch": 3.2666666666666666, "grad_norm": 0.004791689105331898, "learning_rate": 0.00015646666666666668, "loss": 0.0426, "step": 1960 }, { "epoch": 3.275, "grad_norm": 0.17691510915756226, "learning_rate": 0.00015635555555555556, "loss": 0.0168, "step": 1965 }, { "epoch": 3.283333333333333, "grad_norm": 0.031016597524285316, "learning_rate": 0.00015624444444444445, "loss": 0.0014, "step": 1970 }, { "epoch": 3.2916666666666665, "grad_norm": 0.0059831407852470875, "learning_rate": 0.00015613333333333332, "loss": 0.0031, "step": 1975 }, { "epoch": 3.3, "grad_norm": 0.005690166726708412, "learning_rate": 0.00015602222222222222, "loss": 0.0011, "step": 1980 }, { "epoch": 3.3083333333333336, "grad_norm": 0.0037128266412764788, "learning_rate": 0.00015591111111111112, "loss": 0.0011, "step": 1985 }, { "epoch": 3.3166666666666664, "grad_norm": 0.01752794347703457, "learning_rate": 0.00015580000000000002, "loss": 0.0011, "step": 1990 }, { "epoch": 3.325, "grad_norm": 0.0036961915902793407, "learning_rate": 0.00015568888888888892, "loss": 0.001, "step": 1995 }, { "epoch": 3.3333333333333335, "grad_norm": 0.006226038560271263, "learning_rate": 0.0001555777777777778, "loss": 0.0011, "step": 2000 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.8925, "eval_f1": 0.8913001696063418, "eval_loss": 0.5269291400909424, "eval_precision": 0.894818768209672, "eval_recall": 0.8925, "eval_runtime": 17.2966, "eval_samples_per_second": 138.756, "eval_steps_per_second": 17.344, "step": 2000 }, { "epoch": 3.341666666666667, "grad_norm": 0.004363252315670252, "learning_rate": 0.00015546666666666666, "loss": 0.0151, "step": 2005 }, { "epoch": 3.35, "grad_norm": 9.955965042114258, "learning_rate": 0.00015535555555555556, "loss": 0.0452, "step": 2010 }, { "epoch": 3.3583333333333334, "grad_norm": 10.164335250854492, "learning_rate": 0.00015524444444444446, "loss": 0.0506, "step": 2015 }, { "epoch": 3.3666666666666667, "grad_norm": 0.004031546879559755, "learning_rate": 0.00015513333333333333, "loss": 0.005, "step": 2020 }, { "epoch": 3.375, "grad_norm": 0.005022258497774601, "learning_rate": 0.00015502222222222223, "loss": 0.001, "step": 2025 }, { "epoch": 3.3833333333333333, "grad_norm": 0.14976993203163147, "learning_rate": 0.00015491111111111112, "loss": 0.0012, "step": 2030 }, { "epoch": 3.3916666666666666, "grad_norm": 16.228790283203125, "learning_rate": 0.00015480000000000002, "loss": 0.1139, "step": 2035 }, { "epoch": 3.4, "grad_norm": 0.014710101298987865, "learning_rate": 0.0001546888888888889, "loss": 0.0081, "step": 2040 }, { "epoch": 3.408333333333333, "grad_norm": 0.012116325087845325, "learning_rate": 0.00015457777777777776, "loss": 0.1327, "step": 2045 }, { "epoch": 3.4166666666666665, "grad_norm": 0.01766209490597248, "learning_rate": 0.00015446666666666666, "loss": 0.0654, "step": 2050 }, { "epoch": 3.425, "grad_norm": 0.0437730997800827, "learning_rate": 0.00015435555555555556, "loss": 0.0441, "step": 2055 }, { "epoch": 3.4333333333333336, "grad_norm": 0.12010122835636139, "learning_rate": 0.00015424444444444446, "loss": 0.0909, "step": 2060 }, { "epoch": 3.4416666666666664, "grad_norm": 0.044571276754140854, "learning_rate": 0.00015413333333333336, "loss": 0.1645, "step": 2065 }, { "epoch": 3.45, "grad_norm": 0.6777125000953674, "learning_rate": 0.00015402222222222223, "loss": 0.0073, "step": 2070 }, { "epoch": 3.4583333333333335, "grad_norm": 0.005938471294939518, "learning_rate": 0.00015391111111111113, "loss": 0.003, "step": 2075 }, { "epoch": 3.466666666666667, "grad_norm": 0.005934237502515316, "learning_rate": 0.0001538, "loss": 0.0017, "step": 2080 }, { "epoch": 3.475, "grad_norm": 10.592692375183105, "learning_rate": 0.0001536888888888889, "loss": 0.0138, "step": 2085 }, { "epoch": 3.4833333333333334, "grad_norm": 0.010859190486371517, "learning_rate": 0.00015357777777777777, "loss": 0.0718, "step": 2090 }, { "epoch": 3.4916666666666667, "grad_norm": 0.00601377384737134, "learning_rate": 0.00015346666666666667, "loss": 0.0012, "step": 2095 }, { "epoch": 3.5, "grad_norm": 0.012158820405602455, "learning_rate": 0.00015335555555555556, "loss": 0.0014, "step": 2100 }, { "epoch": 3.5, "eval_accuracy": 0.7808333333333334, "eval_f1": 0.7723327629013902, "eval_loss": 0.8908087015151978, "eval_precision": 0.8293608432642766, "eval_recall": 0.7808333333333334, "eval_runtime": 17.4929, "eval_samples_per_second": 137.198, "eval_steps_per_second": 17.15, "step": 2100 }, { "epoch": 3.5083333333333333, "grad_norm": 0.008728913962841034, "learning_rate": 0.00015324444444444446, "loss": 0.065, "step": 2105 }, { "epoch": 3.5166666666666666, "grad_norm": 0.014821000397205353, "learning_rate": 0.00015313333333333336, "loss": 0.0133, "step": 2110 }, { "epoch": 3.525, "grad_norm": 0.014710766263306141, "learning_rate": 0.00015302222222222223, "loss": 0.003, "step": 2115 }, { "epoch": 3.533333333333333, "grad_norm": 0.011612008325755596, "learning_rate": 0.00015291111111111113, "loss": 0.0025, "step": 2120 }, { "epoch": 3.5416666666666665, "grad_norm": 0.008906609378755093, "learning_rate": 0.0001528, "loss": 0.0026, "step": 2125 }, { "epoch": 3.55, "grad_norm": 0.00849719438701868, "learning_rate": 0.0001526888888888889, "loss": 0.0271, "step": 2130 }, { "epoch": 3.5583333333333336, "grad_norm": 0.011750671081244946, "learning_rate": 0.00015257777777777777, "loss": 0.0917, "step": 2135 }, { "epoch": 3.5666666666666664, "grad_norm": 0.03323324769735336, "learning_rate": 0.00015246666666666667, "loss": 0.0025, "step": 2140 }, { "epoch": 3.575, "grad_norm": 4.098257064819336, "learning_rate": 0.00015235555555555557, "loss": 0.0824, "step": 2145 }, { "epoch": 3.5833333333333335, "grad_norm": 0.009669539518654346, "learning_rate": 0.00015224444444444446, "loss": 0.0013, "step": 2150 }, { "epoch": 3.591666666666667, "grad_norm": 0.3805016875267029, "learning_rate": 0.00015213333333333336, "loss": 0.0018, "step": 2155 }, { "epoch": 3.6, "grad_norm": 0.004773003049194813, "learning_rate": 0.00015202222222222223, "loss": 0.0017, "step": 2160 }, { "epoch": 3.6083333333333334, "grad_norm": 0.0056433300487697124, "learning_rate": 0.0001519111111111111, "loss": 0.0113, "step": 2165 }, { "epoch": 3.6166666666666667, "grad_norm": 0.005897799972444773, "learning_rate": 0.0001518, "loss": 0.0012, "step": 2170 }, { "epoch": 3.625, "grad_norm": 0.09687240421772003, "learning_rate": 0.0001516888888888889, "loss": 0.0203, "step": 2175 }, { "epoch": 3.6333333333333333, "grad_norm": 0.003985037561506033, "learning_rate": 0.00015157777777777777, "loss": 0.0872, "step": 2180 }, { "epoch": 3.6416666666666666, "grad_norm": 5.774904251098633, "learning_rate": 0.00015146666666666667, "loss": 0.0193, "step": 2185 }, { "epoch": 3.65, "grad_norm": 0.007041999604552984, "learning_rate": 0.00015135555555555557, "loss": 0.001, "step": 2190 }, { "epoch": 3.658333333333333, "grad_norm": 0.0051742312498390675, "learning_rate": 0.00015124444444444447, "loss": 0.0665, "step": 2195 }, { "epoch": 3.6666666666666665, "grad_norm": 0.044382672756910324, "learning_rate": 0.00015113333333333334, "loss": 0.0013, "step": 2200 }, { "epoch": 3.6666666666666665, "eval_accuracy": 0.8075, "eval_f1": 0.8101286452594589, "eval_loss": 0.8869180083274841, "eval_precision": 0.8465562606649951, "eval_recall": 0.8075, "eval_runtime": 17.3483, "eval_samples_per_second": 138.342, "eval_steps_per_second": 17.293, "step": 2200 }, { "epoch": 3.675, "grad_norm": 0.07093220949172974, "learning_rate": 0.0001510222222222222, "loss": 0.002, "step": 2205 }, { "epoch": 3.6833333333333336, "grad_norm": 0.005364661570638418, "learning_rate": 0.0001509111111111111, "loss": 0.06, "step": 2210 }, { "epoch": 3.6916666666666664, "grad_norm": 0.00877455621957779, "learning_rate": 0.0001508, "loss": 0.0139, "step": 2215 }, { "epoch": 3.7, "grad_norm": 0.4445798993110657, "learning_rate": 0.0001506888888888889, "loss": 0.0032, "step": 2220 }, { "epoch": 3.7083333333333335, "grad_norm": 0.013998258858919144, "learning_rate": 0.0001505777777777778, "loss": 0.019, "step": 2225 }, { "epoch": 3.716666666666667, "grad_norm": 15.777429580688477, "learning_rate": 0.00015046666666666667, "loss": 0.0488, "step": 2230 }, { "epoch": 3.725, "grad_norm": 0.004968112334609032, "learning_rate": 0.00015035555555555557, "loss": 0.0134, "step": 2235 }, { "epoch": 3.7333333333333334, "grad_norm": 0.012963583692908287, "learning_rate": 0.00015024444444444444, "loss": 0.0012, "step": 2240 }, { "epoch": 3.7416666666666667, "grad_norm": 0.0037018766161054373, "learning_rate": 0.00015013333333333334, "loss": 0.0021, "step": 2245 }, { "epoch": 3.75, "grad_norm": 0.004554762039333582, "learning_rate": 0.0001500222222222222, "loss": 0.0014, "step": 2250 }, { "epoch": 3.7583333333333333, "grad_norm": 0.004129278473556042, "learning_rate": 0.0001499111111111111, "loss": 0.0012, "step": 2255 }, { "epoch": 3.7666666666666666, "grad_norm": 0.008189404383301735, "learning_rate": 0.0001498, "loss": 0.001, "step": 2260 }, { "epoch": 3.775, "grad_norm": 0.005915345158427954, "learning_rate": 0.0001496888888888889, "loss": 0.0036, "step": 2265 }, { "epoch": 3.783333333333333, "grad_norm": 0.0036639240570366383, "learning_rate": 0.0001495777777777778, "loss": 0.0009, "step": 2270 }, { "epoch": 3.7916666666666665, "grad_norm": 0.10370665043592453, "learning_rate": 0.00014946666666666668, "loss": 0.0011, "step": 2275 }, { "epoch": 3.8, "grad_norm": 0.00474017858505249, "learning_rate": 0.00014935555555555555, "loss": 0.0128, "step": 2280 }, { "epoch": 3.8083333333333336, "grad_norm": 0.0032621833961457014, "learning_rate": 0.00014924444444444445, "loss": 0.001, "step": 2285 }, { "epoch": 3.8166666666666664, "grad_norm": 0.0027181007899343967, "learning_rate": 0.00014913333333333334, "loss": 0.0007, "step": 2290 }, { "epoch": 3.825, "grad_norm": 0.0034717011731117964, "learning_rate": 0.00014902222222222222, "loss": 0.0008, "step": 2295 }, { "epoch": 3.8333333333333335, "grad_norm": 0.003433758160099387, "learning_rate": 0.00014891111111111111, "loss": 0.0007, "step": 2300 }, { "epoch": 3.8333333333333335, "eval_accuracy": 0.8666666666666667, "eval_f1": 0.866209812394775, "eval_loss": 0.6947910785675049, "eval_precision": 0.881664122862721, "eval_recall": 0.8666666666666667, "eval_runtime": 17.179, "eval_samples_per_second": 139.706, "eval_steps_per_second": 17.463, "step": 2300 }, { "epoch": 3.841666666666667, "grad_norm": 0.002774650463834405, "learning_rate": 0.0001488, "loss": 0.0013, "step": 2305 }, { "epoch": 3.85, "grad_norm": 0.0033704515080899, "learning_rate": 0.0001486888888888889, "loss": 0.0007, "step": 2310 }, { "epoch": 3.8583333333333334, "grad_norm": 0.005870129447430372, "learning_rate": 0.00014857777777777778, "loss": 0.0007, "step": 2315 }, { "epoch": 3.8666666666666667, "grad_norm": 0.00449910294264555, "learning_rate": 0.00014846666666666665, "loss": 0.0007, "step": 2320 }, { "epoch": 3.875, "grad_norm": 0.02569647505879402, "learning_rate": 0.00014835555555555555, "loss": 0.017, "step": 2325 }, { "epoch": 3.8833333333333333, "grad_norm": 0.003048931946977973, "learning_rate": 0.00014824444444444445, "loss": 0.0467, "step": 2330 }, { "epoch": 3.8916666666666666, "grad_norm": 0.002982963575050235, "learning_rate": 0.00014813333333333335, "loss": 0.0007, "step": 2335 }, { "epoch": 3.9, "grad_norm": 0.003481502877548337, "learning_rate": 0.00014802222222222225, "loss": 0.0008, "step": 2340 }, { "epoch": 3.908333333333333, "grad_norm": 0.0031197406351566315, "learning_rate": 0.00014791111111111112, "loss": 0.0075, "step": 2345 }, { "epoch": 3.9166666666666665, "grad_norm": 10.07979965209961, "learning_rate": 0.00014780000000000001, "loss": 0.0468, "step": 2350 }, { "epoch": 3.925, "grad_norm": 6.29968786239624, "learning_rate": 0.00014768888888888889, "loss": 0.0511, "step": 2355 }, { "epoch": 3.9333333333333336, "grad_norm": 0.005928056314587593, "learning_rate": 0.00014757777777777778, "loss": 0.0073, "step": 2360 }, { "epoch": 3.9416666666666664, "grad_norm": 0.0038784488569945097, "learning_rate": 0.00014746666666666666, "loss": 0.0016, "step": 2365 }, { "epoch": 3.95, "grad_norm": 0.002142443088814616, "learning_rate": 0.00014735555555555555, "loss": 0.0011, "step": 2370 }, { "epoch": 3.9583333333333335, "grad_norm": 0.0026907792780548334, "learning_rate": 0.00014724444444444445, "loss": 0.0013, "step": 2375 }, { "epoch": 3.966666666666667, "grad_norm": 0.16546788811683655, "learning_rate": 0.00014713333333333335, "loss": 0.0009, "step": 2380 }, { "epoch": 3.975, "grad_norm": 0.003164347494021058, "learning_rate": 0.00014702222222222225, "loss": 0.0006, "step": 2385 }, { "epoch": 3.9833333333333334, "grad_norm": 0.0027834554202854633, "learning_rate": 0.00014691111111111112, "loss": 0.0007, "step": 2390 }, { "epoch": 3.9916666666666667, "grad_norm": 0.00353314564563334, "learning_rate": 0.00014680000000000002, "loss": 0.0007, "step": 2395 }, { "epoch": 4.0, "grad_norm": 0.0022645422723144293, "learning_rate": 0.0001466888888888889, "loss": 0.0824, "step": 2400 }, { "epoch": 4.0, "eval_accuracy": 0.8929166666666667, "eval_f1": 0.8933854236253793, "eval_loss": 0.4990713596343994, "eval_precision": 0.8962038206116761, "eval_recall": 0.8929166666666667, "eval_runtime": 17.321, "eval_samples_per_second": 138.56, "eval_steps_per_second": 17.32, "step": 2400 }, { "epoch": 4.008333333333334, "grad_norm": 0.0036297340411692858, "learning_rate": 0.0001465777777777778, "loss": 0.0007, "step": 2405 }, { "epoch": 4.016666666666667, "grad_norm": 0.0062110694125294685, "learning_rate": 0.00014646666666666666, "loss": 0.0006, "step": 2410 }, { "epoch": 4.025, "grad_norm": 0.12140091508626938, "learning_rate": 0.00014635555555555556, "loss": 0.0017, "step": 2415 }, { "epoch": 4.033333333333333, "grad_norm": 8.911307334899902, "learning_rate": 0.00014624444444444445, "loss": 0.0525, "step": 2420 }, { "epoch": 4.041666666666667, "grad_norm": 0.002765023848041892, "learning_rate": 0.00014613333333333335, "loss": 0.0068, "step": 2425 }, { "epoch": 4.05, "grad_norm": 0.002938666846603155, "learning_rate": 0.00014602222222222225, "loss": 0.0007, "step": 2430 }, { "epoch": 4.058333333333334, "grad_norm": 0.007680968381464481, "learning_rate": 0.00014591111111111112, "loss": 0.0008, "step": 2435 }, { "epoch": 4.066666666666666, "grad_norm": 2.4688022136688232, "learning_rate": 0.0001458, "loss": 0.0874, "step": 2440 }, { "epoch": 4.075, "grad_norm": 0.9715155363082886, "learning_rate": 0.0001456888888888889, "loss": 0.0045, "step": 2445 }, { "epoch": 4.083333333333333, "grad_norm": 0.07920628786087036, "learning_rate": 0.0001455777777777778, "loss": 0.0018, "step": 2450 }, { "epoch": 4.091666666666667, "grad_norm": 0.011928623542189598, "learning_rate": 0.0001454666666666667, "loss": 0.0636, "step": 2455 }, { "epoch": 4.1, "grad_norm": 0.03377780690789223, "learning_rate": 0.00014535555555555556, "loss": 0.1822, "step": 2460 }, { "epoch": 4.108333333333333, "grad_norm": 0.0034970776177942753, "learning_rate": 0.00014524444444444446, "loss": 0.0012, "step": 2465 }, { "epoch": 4.116666666666666, "grad_norm": 4.1345720291137695, "learning_rate": 0.00014513333333333336, "loss": 0.0186, "step": 2470 }, { "epoch": 4.125, "grad_norm": 0.032758038491010666, "learning_rate": 0.00014502222222222223, "loss": 0.0017, "step": 2475 }, { "epoch": 4.133333333333334, "grad_norm": 0.01546397153288126, "learning_rate": 0.0001449111111111111, "loss": 0.0026, "step": 2480 }, { "epoch": 4.141666666666667, "grad_norm": 0.0028166105039417744, "learning_rate": 0.0001448, "loss": 0.0015, "step": 2485 }, { "epoch": 4.15, "grad_norm": 0.0375150665640831, "learning_rate": 0.0001446888888888889, "loss": 0.0011, "step": 2490 }, { "epoch": 4.158333333333333, "grad_norm": 0.0049573336727917194, "learning_rate": 0.0001445777777777778, "loss": 0.0145, "step": 2495 }, { "epoch": 4.166666666666667, "grad_norm": 0.002907081739977002, "learning_rate": 0.0001444666666666667, "loss": 0.0021, "step": 2500 }, { "epoch": 4.166666666666667, "eval_accuracy": 0.90375, "eval_f1": 0.9024903718122713, "eval_loss": 0.5147380828857422, "eval_precision": 0.9115601297056681, "eval_recall": 0.90375, "eval_runtime": 17.2858, "eval_samples_per_second": 138.843, "eval_steps_per_second": 17.355, "step": 2500 }, { "epoch": 4.175, "grad_norm": 0.0035825788509100676, "learning_rate": 0.00014435555555555556, "loss": 0.0008, "step": 2505 }, { "epoch": 4.183333333333334, "grad_norm": 0.003034421941265464, "learning_rate": 0.00014424444444444446, "loss": 0.0555, "step": 2510 }, { "epoch": 4.191666666666666, "grad_norm": 0.0025204371195286512, "learning_rate": 0.00014413333333333333, "loss": 0.0267, "step": 2515 }, { "epoch": 4.2, "grad_norm": 0.009459509514272213, "learning_rate": 0.00014402222222222223, "loss": 0.0008, "step": 2520 }, { "epoch": 4.208333333333333, "grad_norm": 0.006892939563840628, "learning_rate": 0.0001439111111111111, "loss": 0.0009, "step": 2525 }, { "epoch": 4.216666666666667, "grad_norm": 0.006341472268104553, "learning_rate": 0.0001438, "loss": 0.0007, "step": 2530 }, { "epoch": 4.225, "grad_norm": 0.043112508952617645, "learning_rate": 0.0001436888888888889, "loss": 0.0007, "step": 2535 }, { "epoch": 4.233333333333333, "grad_norm": 0.0021893144585192204, "learning_rate": 0.0001435777777777778, "loss": 0.0006, "step": 2540 }, { "epoch": 4.241666666666666, "grad_norm": 0.0031352476216852665, "learning_rate": 0.0001434666666666667, "loss": 0.0007, "step": 2545 }, { "epoch": 4.25, "grad_norm": 0.1636456549167633, "learning_rate": 0.00014335555555555556, "loss": 0.0008, "step": 2550 }, { "epoch": 4.258333333333334, "grad_norm": 0.0028762212023139, "learning_rate": 0.00014324444444444444, "loss": 0.0006, "step": 2555 }, { "epoch": 4.266666666666667, "grad_norm": 0.004973573610186577, "learning_rate": 0.00014313333333333333, "loss": 0.0006, "step": 2560 }, { "epoch": 4.275, "grad_norm": 0.002836584812030196, "learning_rate": 0.00014302222222222223, "loss": 0.0006, "step": 2565 }, { "epoch": 4.283333333333333, "grad_norm": 0.0034624789841473103, "learning_rate": 0.00014291111111111113, "loss": 0.0006, "step": 2570 }, { "epoch": 4.291666666666667, "grad_norm": 0.00192590884398669, "learning_rate": 0.0001428, "loss": 0.0006, "step": 2575 }, { "epoch": 4.3, "grad_norm": 0.0027950166258960962, "learning_rate": 0.0001426888888888889, "loss": 0.0006, "step": 2580 }, { "epoch": 4.308333333333334, "grad_norm": 0.0025151772424578667, "learning_rate": 0.0001425777777777778, "loss": 0.0005, "step": 2585 }, { "epoch": 4.316666666666666, "grad_norm": 0.0021823071874678135, "learning_rate": 0.00014246666666666667, "loss": 0.0006, "step": 2590 }, { "epoch": 4.325, "grad_norm": 0.0031404937617480755, "learning_rate": 0.00014235555555555554, "loss": 0.0007, "step": 2595 }, { "epoch": 4.333333333333333, "grad_norm": 0.0077391634695231915, "learning_rate": 0.00014224444444444444, "loss": 0.0006, "step": 2600 }, { "epoch": 4.333333333333333, "eval_accuracy": 0.8966666666666666, "eval_f1": 0.8969860932864521, "eval_loss": 0.574761152267456, "eval_precision": 0.9043196666549776, "eval_recall": 0.8966666666666666, "eval_runtime": 17.2977, "eval_samples_per_second": 138.747, "eval_steps_per_second": 17.343, "step": 2600 }, { "epoch": 4.341666666666667, "grad_norm": 0.001999662024900317, "learning_rate": 0.00014213333333333334, "loss": 0.0005, "step": 2605 }, { "epoch": 4.35, "grad_norm": 0.0025739732664078474, "learning_rate": 0.00014202222222222224, "loss": 0.0005, "step": 2610 }, { "epoch": 4.358333333333333, "grad_norm": 0.0028773676604032516, "learning_rate": 0.00014191111111111113, "loss": 0.0005, "step": 2615 }, { "epoch": 4.366666666666666, "grad_norm": 0.0026494301855564117, "learning_rate": 0.0001418, "loss": 0.0005, "step": 2620 }, { "epoch": 4.375, "grad_norm": 0.002746234880760312, "learning_rate": 0.0001416888888888889, "loss": 0.0005, "step": 2625 }, { "epoch": 4.383333333333334, "grad_norm": 0.0014886925928294659, "learning_rate": 0.00014157777777777777, "loss": 0.0005, "step": 2630 }, { "epoch": 4.391666666666667, "grad_norm": 0.002594510093331337, "learning_rate": 0.00014146666666666667, "loss": 0.0005, "step": 2635 }, { "epoch": 4.4, "grad_norm": 0.004075936507433653, "learning_rate": 0.00014135555555555554, "loss": 0.0005, "step": 2640 }, { "epoch": 4.408333333333333, "grad_norm": 0.002209228230640292, "learning_rate": 0.00014124444444444444, "loss": 0.0005, "step": 2645 }, { "epoch": 4.416666666666667, "grad_norm": 0.0026824125088751316, "learning_rate": 0.00014113333333333334, "loss": 0.0005, "step": 2650 }, { "epoch": 4.425, "grad_norm": 0.002674804301932454, "learning_rate": 0.00014102222222222224, "loss": 0.0005, "step": 2655 }, { "epoch": 4.433333333333334, "grad_norm": 0.002218471607193351, "learning_rate": 0.00014091111111111114, "loss": 0.0005, "step": 2660 }, { "epoch": 4.441666666666666, "grad_norm": 0.0032282571773976088, "learning_rate": 0.0001408, "loss": 0.0005, "step": 2665 }, { "epoch": 4.45, "grad_norm": 0.0019050503615289927, "learning_rate": 0.0001406888888888889, "loss": 0.0005, "step": 2670 }, { "epoch": 4.458333333333333, "grad_norm": 0.0035364993382245302, "learning_rate": 0.00014057777777777778, "loss": 0.0005, "step": 2675 }, { "epoch": 4.466666666666667, "grad_norm": 0.002214940031990409, "learning_rate": 0.00014046666666666667, "loss": 0.0005, "step": 2680 }, { "epoch": 4.475, "grad_norm": 0.0023591979406774044, "learning_rate": 0.00014035555555555555, "loss": 0.0005, "step": 2685 }, { "epoch": 4.483333333333333, "grad_norm": 0.0018477700650691986, "learning_rate": 0.00014024444444444444, "loss": 0.0004, "step": 2690 }, { "epoch": 4.491666666666666, "grad_norm": 0.0022096072789281607, "learning_rate": 0.00014013333333333334, "loss": 0.0005, "step": 2695 }, { "epoch": 4.5, "grad_norm": 0.0019543273374438286, "learning_rate": 0.00014002222222222224, "loss": 0.0005, "step": 2700 }, { "epoch": 4.5, "eval_accuracy": 0.89625, "eval_f1": 0.8965535033929893, "eval_loss": 0.57966548204422, "eval_precision": 0.9034963368453439, "eval_recall": 0.89625, "eval_runtime": 17.6016, "eval_samples_per_second": 136.351, "eval_steps_per_second": 17.044, "step": 2700 }, { "epoch": 4.508333333333333, "grad_norm": 0.0018290464067831635, "learning_rate": 0.00013991111111111114, "loss": 0.0004, "step": 2705 }, { "epoch": 4.516666666666667, "grad_norm": 0.002482857322320342, "learning_rate": 0.0001398, "loss": 0.0006, "step": 2710 }, { "epoch": 4.525, "grad_norm": 0.002118943026289344, "learning_rate": 0.00013968888888888888, "loss": 0.0005, "step": 2715 }, { "epoch": 4.533333333333333, "grad_norm": 0.0016177311772480607, "learning_rate": 0.00013957777777777778, "loss": 0.0005, "step": 2720 }, { "epoch": 4.541666666666667, "grad_norm": 0.007732017897069454, "learning_rate": 0.00013946666666666668, "loss": 0.0005, "step": 2725 }, { "epoch": 4.55, "grad_norm": 0.002738809445872903, "learning_rate": 0.00013935555555555558, "loss": 0.0004, "step": 2730 }, { "epoch": 4.558333333333334, "grad_norm": 0.0016253958456218243, "learning_rate": 0.00013924444444444445, "loss": 0.0004, "step": 2735 }, { "epoch": 4.566666666666666, "grad_norm": 0.0017825576942414045, "learning_rate": 0.00013913333333333335, "loss": 0.0006, "step": 2740 }, { "epoch": 4.575, "grad_norm": 0.0021646174136549234, "learning_rate": 0.00013902222222222224, "loss": 0.0004, "step": 2745 }, { "epoch": 4.583333333333333, "grad_norm": 0.0049246735870838165, "learning_rate": 0.00013891111111111111, "loss": 0.0004, "step": 2750 }, { "epoch": 4.591666666666667, "grad_norm": 0.006074646487832069, "learning_rate": 0.00013879999999999999, "loss": 0.0004, "step": 2755 }, { "epoch": 4.6, "grad_norm": 0.0020214677788317204, "learning_rate": 0.00013868888888888888, "loss": 0.0004, "step": 2760 }, { "epoch": 4.608333333333333, "grad_norm": 0.002407652558758855, "learning_rate": 0.00013857777777777778, "loss": 0.0005, "step": 2765 }, { "epoch": 4.616666666666667, "grad_norm": 0.0015125458594411612, "learning_rate": 0.00013846666666666668, "loss": 0.0004, "step": 2770 }, { "epoch": 4.625, "grad_norm": 0.0014864656841382384, "learning_rate": 0.00013835555555555558, "loss": 0.0004, "step": 2775 }, { "epoch": 4.633333333333333, "grad_norm": 0.0026980172842741013, "learning_rate": 0.00013824444444444445, "loss": 0.0108, "step": 2780 }, { "epoch": 4.641666666666667, "grad_norm": 0.0019119129283353686, "learning_rate": 0.00013813333333333335, "loss": 0.0004, "step": 2785 }, { "epoch": 4.65, "grad_norm": 0.014654245227575302, "learning_rate": 0.00013802222222222222, "loss": 0.003, "step": 2790 }, { "epoch": 4.658333333333333, "grad_norm": 0.0024814193602651358, "learning_rate": 0.00013791111111111112, "loss": 0.0021, "step": 2795 }, { "epoch": 4.666666666666667, "grad_norm": 0.0021744852419942617, "learning_rate": 0.0001378, "loss": 0.0006, "step": 2800 }, { "epoch": 4.666666666666667, "eval_accuracy": 0.855, "eval_f1": 0.8533501929978111, "eval_loss": 0.8572934865951538, "eval_precision": 0.8741463507004659, "eval_recall": 0.855, "eval_runtime": 17.4871, "eval_samples_per_second": 137.244, "eval_steps_per_second": 17.155, "step": 2800 }, { "epoch": 4.675, "grad_norm": 13.282856941223145, "learning_rate": 0.0001376888888888889, "loss": 0.0357, "step": 2805 }, { "epoch": 4.683333333333334, "grad_norm": 0.01084210630506277, "learning_rate": 0.00013757777777777778, "loss": 0.0004, "step": 2810 }, { "epoch": 4.691666666666666, "grad_norm": 0.001905974349938333, "learning_rate": 0.00013746666666666668, "loss": 0.0683, "step": 2815 }, { "epoch": 4.7, "grad_norm": 8.076287269592285, "learning_rate": 0.00013735555555555558, "loss": 0.0945, "step": 2820 }, { "epoch": 4.708333333333333, "grad_norm": 0.0019449335522949696, "learning_rate": 0.00013724444444444445, "loss": 0.0004, "step": 2825 }, { "epoch": 4.716666666666667, "grad_norm": 0.0017690727254375815, "learning_rate": 0.00013713333333333332, "loss": 0.0586, "step": 2830 }, { "epoch": 4.725, "grad_norm": 0.002880123211070895, "learning_rate": 0.00013702222222222222, "loss": 0.0842, "step": 2835 }, { "epoch": 4.733333333333333, "grad_norm": 3.1862356662750244, "learning_rate": 0.00013691111111111112, "loss": 0.072, "step": 2840 }, { "epoch": 4.741666666666667, "grad_norm": 0.002137222560122609, "learning_rate": 0.00013680000000000002, "loss": 0.0184, "step": 2845 }, { "epoch": 4.75, "grad_norm": 0.2246892899274826, "learning_rate": 0.0001366888888888889, "loss": 0.0035, "step": 2850 }, { "epoch": 4.758333333333333, "grad_norm": 0.5492168068885803, "learning_rate": 0.0001365777777777778, "loss": 0.0045, "step": 2855 }, { "epoch": 4.766666666666667, "grad_norm": 0.02914353273808956, "learning_rate": 0.00013646666666666669, "loss": 0.0006, "step": 2860 }, { "epoch": 4.775, "grad_norm": 0.0123362448066473, "learning_rate": 0.00013637777777777778, "loss": 0.2843, "step": 2865 }, { "epoch": 4.783333333333333, "grad_norm": 0.03645666316151619, "learning_rate": 0.00013626666666666668, "loss": 0.0546, "step": 2870 }, { "epoch": 4.791666666666667, "grad_norm": 0.008310888893902302, "learning_rate": 0.00013615555555555558, "loss": 0.0005, "step": 2875 }, { "epoch": 4.8, "grad_norm": 5.8642897605896, "learning_rate": 0.00013604444444444445, "loss": 0.1226, "step": 2880 }, { "epoch": 4.808333333333334, "grad_norm": 0.12064321339130402, "learning_rate": 0.00013593333333333332, "loss": 0.0011, "step": 2885 }, { "epoch": 4.816666666666666, "grad_norm": 0.0037508071400225163, "learning_rate": 0.00013582222222222222, "loss": 0.0009, "step": 2890 }, { "epoch": 4.825, "grad_norm": 0.01345887128263712, "learning_rate": 0.00013571111111111112, "loss": 0.003, "step": 2895 }, { "epoch": 4.833333333333333, "grad_norm": 0.0017106750747188926, "learning_rate": 0.00013560000000000002, "loss": 0.0006, "step": 2900 }, { "epoch": 4.833333333333333, "eval_accuracy": 0.8445833333333334, "eval_f1": 0.8415123009928794, "eval_loss": 0.754795253276825, "eval_precision": 0.8617479065823032, "eval_recall": 0.8445833333333334, "eval_runtime": 17.336, "eval_samples_per_second": 138.44, "eval_steps_per_second": 17.305, "step": 2900 }, { "epoch": 4.841666666666667, "grad_norm": 0.1579921543598175, "learning_rate": 0.0001354888888888889, "loss": 0.0207, "step": 2905 }, { "epoch": 4.85, "grad_norm": 0.016644319519400597, "learning_rate": 0.00013537777777777779, "loss": 0.0005, "step": 2910 }, { "epoch": 4.858333333333333, "grad_norm": 0.0025971170980483294, "learning_rate": 0.00013526666666666668, "loss": 0.0179, "step": 2915 }, { "epoch": 4.866666666666667, "grad_norm": 0.05949670076370239, "learning_rate": 0.00013515555555555556, "loss": 0.0024, "step": 2920 }, { "epoch": 4.875, "grad_norm": 9.444520950317383, "learning_rate": 0.00013504444444444445, "loss": 0.0226, "step": 2925 }, { "epoch": 4.883333333333333, "grad_norm": 0.016945267096161842, "learning_rate": 0.00013493333333333332, "loss": 0.0008, "step": 2930 }, { "epoch": 4.891666666666667, "grad_norm": 6.472504615783691, "learning_rate": 0.00013482222222222222, "loss": 0.0275, "step": 2935 }, { "epoch": 4.9, "grad_norm": 0.0030138578731566668, "learning_rate": 0.00013471111111111112, "loss": 0.0005, "step": 2940 }, { "epoch": 4.908333333333333, "grad_norm": 0.002244808478280902, "learning_rate": 0.00013460000000000002, "loss": 0.0012, "step": 2945 }, { "epoch": 4.916666666666667, "grad_norm": 0.0019097230397164822, "learning_rate": 0.0001344888888888889, "loss": 0.0004, "step": 2950 }, { "epoch": 4.925, "grad_norm": 0.0052161612547934055, "learning_rate": 0.0001343777777777778, "loss": 0.0364, "step": 2955 }, { "epoch": 4.933333333333334, "grad_norm": 0.008785402402281761, "learning_rate": 0.0001342666666666667, "loss": 0.0057, "step": 2960 }, { "epoch": 4.941666666666666, "grad_norm": 0.012299603782594204, "learning_rate": 0.00013415555555555556, "loss": 0.1138, "step": 2965 }, { "epoch": 4.95, "grad_norm": 7.19777774810791, "learning_rate": 0.00013404444444444446, "loss": 0.0422, "step": 2970 }, { "epoch": 4.958333333333333, "grad_norm": 0.01734132133424282, "learning_rate": 0.00013393333333333333, "loss": 0.0779, "step": 2975 }, { "epoch": 4.966666666666667, "grad_norm": 0.005972637329250574, "learning_rate": 0.00013382222222222223, "loss": 0.0027, "step": 2980 }, { "epoch": 4.975, "grad_norm": 0.17703604698181152, "learning_rate": 0.00013371111111111112, "loss": 0.1883, "step": 2985 }, { "epoch": 4.983333333333333, "grad_norm": 0.016162624582648277, "learning_rate": 0.00013360000000000002, "loss": 0.0343, "step": 2990 }, { "epoch": 4.991666666666667, "grad_norm": 0.015555117279291153, "learning_rate": 0.0001334888888888889, "loss": 0.0656, "step": 2995 }, { "epoch": 5.0, "grad_norm": 0.009704116731882095, "learning_rate": 0.0001333777777777778, "loss": 0.0019, "step": 3000 }, { "epoch": 5.0, "eval_accuracy": 0.8733333333333333, "eval_f1": 0.8714449039371338, "eval_loss": 0.6472746729850769, "eval_precision": 0.8849846190388795, "eval_recall": 0.8733333333333333, "eval_runtime": 17.6104, "eval_samples_per_second": 136.283, "eval_steps_per_second": 17.035, "step": 3000 }, { "epoch": 5.008333333333334, "grad_norm": 0.006771671120077372, "learning_rate": 0.00013326666666666666, "loss": 0.0014, "step": 3005 }, { "epoch": 5.016666666666667, "grad_norm": 0.004050440154969692, "learning_rate": 0.00013315555555555556, "loss": 0.0033, "step": 3010 }, { "epoch": 5.025, "grad_norm": 0.00872737169265747, "learning_rate": 0.00013304444444444446, "loss": 0.0016, "step": 3015 }, { "epoch": 5.033333333333333, "grad_norm": 0.005520438309758902, "learning_rate": 0.00013293333333333333, "loss": 0.0046, "step": 3020 }, { "epoch": 5.041666666666667, "grad_norm": 0.2264736443758011, "learning_rate": 0.00013282222222222223, "loss": 0.0071, "step": 3025 }, { "epoch": 5.05, "grad_norm": 0.004222396295517683, "learning_rate": 0.00013271111111111113, "loss": 0.1514, "step": 3030 }, { "epoch": 5.058333333333334, "grad_norm": 0.008012593723833561, "learning_rate": 0.00013260000000000002, "loss": 0.0037, "step": 3035 }, { "epoch": 5.066666666666666, "grad_norm": 0.0023156246170401573, "learning_rate": 0.0001324888888888889, "loss": 0.0411, "step": 3040 }, { "epoch": 5.075, "grad_norm": 0.0022691155318170786, "learning_rate": 0.00013237777777777777, "loss": 0.003, "step": 3045 }, { "epoch": 5.083333333333333, "grad_norm": 0.002279402920976281, "learning_rate": 0.00013226666666666667, "loss": 0.0005, "step": 3050 }, { "epoch": 5.091666666666667, "grad_norm": 0.10625676065683365, "learning_rate": 0.00013215555555555556, "loss": 0.0007, "step": 3055 }, { "epoch": 5.1, "grad_norm": 0.05557141825556755, "learning_rate": 0.00013204444444444446, "loss": 0.0064, "step": 3060 }, { "epoch": 5.108333333333333, "grad_norm": 0.004349886905401945, "learning_rate": 0.00013193333333333333, "loss": 0.0005, "step": 3065 }, { "epoch": 5.116666666666666, "grad_norm": 0.0037977471947669983, "learning_rate": 0.00013182222222222223, "loss": 0.0279, "step": 3070 }, { "epoch": 5.125, "grad_norm": 0.7578153014183044, "learning_rate": 0.00013171111111111113, "loss": 0.0015, "step": 3075 }, { "epoch": 5.133333333333334, "grad_norm": 0.5718327760696411, "learning_rate": 0.0001316, "loss": 0.0014, "step": 3080 }, { "epoch": 5.141666666666667, "grad_norm": 0.4355151951313019, "learning_rate": 0.0001314888888888889, "loss": 0.0012, "step": 3085 }, { "epoch": 5.15, "grad_norm": 0.054235756397247314, "learning_rate": 0.00013137777777777777, "loss": 0.0009, "step": 3090 }, { "epoch": 5.158333333333333, "grad_norm": 6.557177543640137, "learning_rate": 0.00013126666666666667, "loss": 0.0101, "step": 3095 }, { "epoch": 5.166666666666667, "grad_norm": 0.0023339425679296255, "learning_rate": 0.00013115555555555557, "loss": 0.0469, "step": 3100 }, { "epoch": 5.166666666666667, "eval_accuracy": 0.8258333333333333, "eval_f1": 0.8273968079796609, "eval_loss": 0.8790284395217896, "eval_precision": 0.8367617127292097, "eval_recall": 0.8258333333333333, "eval_runtime": 17.5082, "eval_samples_per_second": 137.079, "eval_steps_per_second": 17.135, "step": 3100 }, { "epoch": 5.175, "grad_norm": 5.869709014892578, "learning_rate": 0.00013104444444444446, "loss": 0.008, "step": 3105 }, { "epoch": 5.183333333333334, "grad_norm": 0.0021200943738222122, "learning_rate": 0.00013093333333333334, "loss": 0.0007, "step": 3110 }, { "epoch": 5.191666666666666, "grad_norm": 0.0016469627153128386, "learning_rate": 0.00013082222222222223, "loss": 0.0009, "step": 3115 }, { "epoch": 5.2, "grad_norm": 0.0017884867265820503, "learning_rate": 0.0001307111111111111, "loss": 0.0817, "step": 3120 }, { "epoch": 5.208333333333333, "grad_norm": 1.8239507675170898, "learning_rate": 0.0001306, "loss": 0.0042, "step": 3125 }, { "epoch": 5.216666666666667, "grad_norm": 8.104567527770996, "learning_rate": 0.0001304888888888889, "loss": 0.056, "step": 3130 }, { "epoch": 5.225, "grad_norm": 0.0025653052143752575, "learning_rate": 0.00013037777777777777, "loss": 0.0005, "step": 3135 }, { "epoch": 5.233333333333333, "grad_norm": 10.982678413391113, "learning_rate": 0.00013026666666666667, "loss": 0.0975, "step": 3140 }, { "epoch": 5.241666666666666, "grad_norm": 0.0019072515424340963, "learning_rate": 0.00013015555555555557, "loss": 0.0967, "step": 3145 }, { "epoch": 5.25, "grad_norm": 0.0025458415038883686, "learning_rate": 0.00013004444444444447, "loss": 0.0004, "step": 3150 }, { "epoch": 5.258333333333334, "grad_norm": 0.010464404709637165, "learning_rate": 0.00012993333333333334, "loss": 0.0034, "step": 3155 }, { "epoch": 5.266666666666667, "grad_norm": 0.0017434442415833473, "learning_rate": 0.0001298222222222222, "loss": 0.0004, "step": 3160 }, { "epoch": 5.275, "grad_norm": 0.0025979294441640377, "learning_rate": 0.0001297111111111111, "loss": 0.0227, "step": 3165 }, { "epoch": 5.283333333333333, "grad_norm": 0.31124603748321533, "learning_rate": 0.0001296, "loss": 0.0376, "step": 3170 }, { "epoch": 5.291666666666667, "grad_norm": 0.0016426426591351628, "learning_rate": 0.0001294888888888889, "loss": 0.0005, "step": 3175 }, { "epoch": 5.3, "grad_norm": 2.483379364013672, "learning_rate": 0.00012937777777777778, "loss": 0.0376, "step": 3180 }, { "epoch": 5.308333333333334, "grad_norm": 0.001770497765392065, "learning_rate": 0.00012926666666666667, "loss": 0.0152, "step": 3185 }, { "epoch": 5.316666666666666, "grad_norm": 13.9141263961792, "learning_rate": 0.00012915555555555557, "loss": 0.034, "step": 3190 }, { "epoch": 5.325, "grad_norm": 6.280963897705078, "learning_rate": 0.00012904444444444447, "loss": 0.0704, "step": 3195 }, { "epoch": 5.333333333333333, "grad_norm": 0.002301949542015791, "learning_rate": 0.00012893333333333334, "loss": 0.0271, "step": 3200 }, { "epoch": 5.333333333333333, "eval_accuracy": 0.7525, "eval_f1": 0.7429995847523636, "eval_loss": 1.653188943862915, "eval_precision": 0.832845523543317, "eval_recall": 0.7525, "eval_runtime": 17.5184, "eval_samples_per_second": 136.999, "eval_steps_per_second": 17.125, "step": 3200 }, { "epoch": 5.341666666666667, "grad_norm": 4.021807670593262, "learning_rate": 0.0001288222222222222, "loss": 0.1103, "step": 3205 }, { "epoch": 5.35, "grad_norm": 0.008310925215482712, "learning_rate": 0.0001287111111111111, "loss": 0.0053, "step": 3210 }, { "epoch": 5.358333333333333, "grad_norm": 0.0036079809069633484, "learning_rate": 0.0001286, "loss": 0.0199, "step": 3215 }, { "epoch": 5.366666666666666, "grad_norm": 0.015376843512058258, "learning_rate": 0.0001284888888888889, "loss": 0.2928, "step": 3220 }, { "epoch": 5.375, "grad_norm": 0.0024658869951963425, "learning_rate": 0.00012837777777777778, "loss": 0.0141, "step": 3225 }, { "epoch": 5.383333333333334, "grad_norm": 4.7635931968688965, "learning_rate": 0.00012826666666666668, "loss": 0.0417, "step": 3230 }, { "epoch": 5.391666666666667, "grad_norm": 0.009536437690258026, "learning_rate": 0.00012815555555555557, "loss": 0.0008, "step": 3235 }, { "epoch": 5.4, "grad_norm": 0.027292419224977493, "learning_rate": 0.00012804444444444445, "loss": 0.0061, "step": 3240 }, { "epoch": 5.408333333333333, "grad_norm": 0.08291417360305786, "learning_rate": 0.00012793333333333334, "loss": 0.0045, "step": 3245 }, { "epoch": 5.416666666666667, "grad_norm": 0.016424935311079025, "learning_rate": 0.00012782222222222222, "loss": 0.0732, "step": 3250 }, { "epoch": 5.425, "grad_norm": 0.0019142045639455318, "learning_rate": 0.0001277111111111111, "loss": 0.0034, "step": 3255 }, { "epoch": 5.433333333333334, "grad_norm": 0.002493426436558366, "learning_rate": 0.0001276, "loss": 0.0011, "step": 3260 }, { "epoch": 5.441666666666666, "grad_norm": 0.005012031178921461, "learning_rate": 0.0001274888888888889, "loss": 0.0052, "step": 3265 }, { "epoch": 5.45, "grad_norm": 0.0034317756071686745, "learning_rate": 0.00012737777777777778, "loss": 0.0015, "step": 3270 }, { "epoch": 5.458333333333333, "grad_norm": 0.018864091485738754, "learning_rate": 0.00012726666666666668, "loss": 0.0071, "step": 3275 }, { "epoch": 5.466666666666667, "grad_norm": 1.496051549911499, "learning_rate": 0.00012715555555555555, "loss": 0.0028, "step": 3280 }, { "epoch": 5.475, "grad_norm": 0.003392173908650875, "learning_rate": 0.00012704444444444445, "loss": 0.09, "step": 3285 }, { "epoch": 5.483333333333333, "grad_norm": 0.05252930149435997, "learning_rate": 0.00012693333333333335, "loss": 0.0317, "step": 3290 }, { "epoch": 5.491666666666666, "grad_norm": 0.001968113938346505, "learning_rate": 0.00012682222222222222, "loss": 0.0011, "step": 3295 }, { "epoch": 5.5, "grad_norm": 0.0026210846845060587, "learning_rate": 0.00012671111111111112, "loss": 0.0005, "step": 3300 }, { "epoch": 5.5, "eval_accuracy": 0.8654166666666666, "eval_f1": 0.8659538102277841, "eval_loss": 0.7738529443740845, "eval_precision": 0.8743094366667922, "eval_recall": 0.8654166666666666, "eval_runtime": 17.4422, "eval_samples_per_second": 137.597, "eval_steps_per_second": 17.2, "step": 3300 }, { "epoch": 5.508333333333333, "grad_norm": 0.016507508233189583, "learning_rate": 0.00012660000000000001, "loss": 0.0006, "step": 3305 }, { "epoch": 5.516666666666667, "grad_norm": 0.004741272889077663, "learning_rate": 0.0001264888888888889, "loss": 0.0006, "step": 3310 }, { "epoch": 5.525, "grad_norm": 0.0017460114322602749, "learning_rate": 0.00012637777777777778, "loss": 0.0205, "step": 3315 }, { "epoch": 5.533333333333333, "grad_norm": 0.0021416540257632732, "learning_rate": 0.00012626666666666665, "loss": 0.0005, "step": 3320 }, { "epoch": 5.541666666666667, "grad_norm": 0.0013594377087429166, "learning_rate": 0.00012615555555555555, "loss": 0.0008, "step": 3325 }, { "epoch": 5.55, "grad_norm": 0.0028063126374036074, "learning_rate": 0.00012604444444444445, "loss": 0.0004, "step": 3330 }, { "epoch": 5.558333333333334, "grad_norm": 0.017541859298944473, "learning_rate": 0.00012593333333333335, "loss": 0.0005, "step": 3335 }, { "epoch": 5.566666666666666, "grad_norm": 2.1470248699188232, "learning_rate": 0.00012582222222222222, "loss": 0.0034, "step": 3340 }, { "epoch": 5.575, "grad_norm": 0.01083587296307087, "learning_rate": 0.00012571111111111112, "loss": 0.0046, "step": 3345 }, { "epoch": 5.583333333333333, "grad_norm": 0.0014914445346221328, "learning_rate": 0.00012560000000000002, "loss": 0.0003, "step": 3350 }, { "epoch": 5.591666666666667, "grad_norm": 0.0049253227189183235, "learning_rate": 0.0001254888888888889, "loss": 0.1875, "step": 3355 }, { "epoch": 5.6, "grad_norm": 2.527118682861328, "learning_rate": 0.0001253777777777778, "loss": 0.0841, "step": 3360 }, { "epoch": 5.608333333333333, "grad_norm": 0.004939824342727661, "learning_rate": 0.00012526666666666666, "loss": 0.006, "step": 3365 }, { "epoch": 5.616666666666667, "grad_norm": 0.0017670552479103208, "learning_rate": 0.00012515555555555556, "loss": 0.0308, "step": 3370 }, { "epoch": 5.625, "grad_norm": 4.833652973175049, "learning_rate": 0.00012504444444444445, "loss": 0.0839, "step": 3375 }, { "epoch": 5.633333333333333, "grad_norm": 0.04689953476190567, "learning_rate": 0.00012493333333333335, "loss": 0.0007, "step": 3380 }, { "epoch": 5.641666666666667, "grad_norm": 0.00734031992033124, "learning_rate": 0.00012482222222222222, "loss": 0.1068, "step": 3385 }, { "epoch": 5.65, "grad_norm": 0.001924704178236425, "learning_rate": 0.00012471111111111112, "loss": 0.1036, "step": 3390 }, { "epoch": 5.658333333333333, "grad_norm": 0.012536194175481796, "learning_rate": 0.0001246, "loss": 0.0009, "step": 3395 }, { "epoch": 5.666666666666667, "grad_norm": 2.5715599060058594, "learning_rate": 0.0001244888888888889, "loss": 0.1697, "step": 3400 }, { "epoch": 5.666666666666667, "eval_accuracy": 0.8591666666666666, "eval_f1": 0.8612448129962599, "eval_loss": 0.7311152219772339, "eval_precision": 0.881649414300762, "eval_recall": 0.8591666666666666, "eval_runtime": 17.3739, "eval_samples_per_second": 138.138, "eval_steps_per_second": 17.267, "step": 3400 }, { "epoch": 5.675, "grad_norm": 0.0033850325271487236, "learning_rate": 0.0001243777777777778, "loss": 0.0013, "step": 3405 }, { "epoch": 5.683333333333334, "grad_norm": 0.01964281126856804, "learning_rate": 0.00012426666666666666, "loss": 0.0009, "step": 3410 }, { "epoch": 5.691666666666666, "grad_norm": 0.00858697947114706, "learning_rate": 0.00012415555555555556, "loss": 0.0013, "step": 3415 }, { "epoch": 5.7, "grad_norm": 0.09200410544872284, "learning_rate": 0.00012404444444444446, "loss": 0.0019, "step": 3420 }, { "epoch": 5.708333333333333, "grad_norm": 9.945969581604004, "learning_rate": 0.00012393333333333336, "loss": 0.026, "step": 3425 }, { "epoch": 5.716666666666667, "grad_norm": 0.0023023963440209627, "learning_rate": 0.00012382222222222223, "loss": 0.0051, "step": 3430 }, { "epoch": 5.725, "grad_norm": 0.0024963514879345894, "learning_rate": 0.0001237111111111111, "loss": 0.0008, "step": 3435 }, { "epoch": 5.733333333333333, "grad_norm": 0.005243390332907438, "learning_rate": 0.0001236, "loss": 0.0007, "step": 3440 }, { "epoch": 5.741666666666667, "grad_norm": 0.0018213752191513777, "learning_rate": 0.0001234888888888889, "loss": 0.0005, "step": 3445 }, { "epoch": 5.75, "grad_norm": 0.0018132679397240281, "learning_rate": 0.0001233777777777778, "loss": 0.0016, "step": 3450 }, { "epoch": 5.758333333333333, "grad_norm": 0.0019126601982861757, "learning_rate": 0.00012326666666666666, "loss": 0.0005, "step": 3455 }, { "epoch": 5.766666666666667, "grad_norm": 0.0018284831894561648, "learning_rate": 0.00012315555555555556, "loss": 0.0488, "step": 3460 }, { "epoch": 5.775, "grad_norm": 0.08707120269536972, "learning_rate": 0.00012304444444444446, "loss": 0.0024, "step": 3465 }, { "epoch": 5.783333333333333, "grad_norm": 4.136368274688721, "learning_rate": 0.00012293333333333336, "loss": 0.2645, "step": 3470 }, { "epoch": 5.791666666666667, "grad_norm": 0.00247742235660553, "learning_rate": 0.00012282222222222223, "loss": 0.0005, "step": 3475 }, { "epoch": 5.8, "grad_norm": 0.005723950453102589, "learning_rate": 0.0001227111111111111, "loss": 0.002, "step": 3480 }, { "epoch": 5.808333333333334, "grad_norm": 0.0037300041876733303, "learning_rate": 0.0001226, "loss": 0.0573, "step": 3485 }, { "epoch": 5.816666666666666, "grad_norm": 5.5725932121276855, "learning_rate": 0.0001224888888888889, "loss": 0.1119, "step": 3490 }, { "epoch": 5.825, "grad_norm": 0.004148167558014393, "learning_rate": 0.0001223777777777778, "loss": 0.0813, "step": 3495 }, { "epoch": 5.833333333333333, "grad_norm": 2.003502368927002, "learning_rate": 0.00012226666666666667, "loss": 0.0162, "step": 3500 }, { "epoch": 5.833333333333333, "eval_accuracy": 0.8620833333333333, "eval_f1": 0.8619608015163224, "eval_loss": 0.7819076776504517, "eval_precision": 0.8677614142343483, "eval_recall": 0.8620833333333333, "eval_runtime": 17.7596, "eval_samples_per_second": 135.138, "eval_steps_per_second": 16.892, "step": 3500 }, { "epoch": 5.841666666666667, "grad_norm": 0.016711190342903137, "learning_rate": 0.00012215555555555556, "loss": 0.0008, "step": 3505 }, { "epoch": 5.85, "grad_norm": 0.006599150598049164, "learning_rate": 0.00012204444444444445, "loss": 0.0006, "step": 3510 }, { "epoch": 5.858333333333333, "grad_norm": 0.5244635939598083, "learning_rate": 0.00012193333333333335, "loss": 0.0023, "step": 3515 }, { "epoch": 5.866666666666667, "grad_norm": 14.97999382019043, "learning_rate": 0.00012182222222222223, "loss": 0.0743, "step": 3520 }, { "epoch": 5.875, "grad_norm": 3.5422418117523193, "learning_rate": 0.0001217111111111111, "loss": 0.0084, "step": 3525 }, { "epoch": 5.883333333333333, "grad_norm": 0.01440401840955019, "learning_rate": 0.0001216, "loss": 0.001, "step": 3530 }, { "epoch": 5.891666666666667, "grad_norm": 0.005602931138128042, "learning_rate": 0.0001214888888888889, "loss": 0.0004, "step": 3535 }, { "epoch": 5.9, "grad_norm": 0.0046403901651501656, "learning_rate": 0.00012137777777777778, "loss": 0.0005, "step": 3540 }, { "epoch": 5.908333333333333, "grad_norm": 0.033788248896598816, "learning_rate": 0.00012126666666666666, "loss": 0.0004, "step": 3545 }, { "epoch": 5.916666666666667, "grad_norm": 0.006399640813469887, "learning_rate": 0.00012115555555555555, "loss": 0.0008, "step": 3550 }, { "epoch": 5.925, "grad_norm": 0.0014762695645913482, "learning_rate": 0.00012104444444444445, "loss": 0.0004, "step": 3555 }, { "epoch": 5.933333333333334, "grad_norm": 0.0026642833836376667, "learning_rate": 0.00012093333333333334, "loss": 0.0004, "step": 3560 }, { "epoch": 5.941666666666666, "grad_norm": 0.8572157621383667, "learning_rate": 0.00012082222222222223, "loss": 0.0012, "step": 3565 }, { "epoch": 5.95, "grad_norm": 0.0021940753795206547, "learning_rate": 0.0001207111111111111, "loss": 0.0004, "step": 3570 }, { "epoch": 5.958333333333333, "grad_norm": 0.12391265481710434, "learning_rate": 0.0001206, "loss": 0.0007, "step": 3575 }, { "epoch": 5.966666666666667, "grad_norm": 0.0016076650936156511, "learning_rate": 0.0001204888888888889, "loss": 0.0003, "step": 3580 }, { "epoch": 5.975, "grad_norm": 7.2395195960998535, "learning_rate": 0.00012037777777777779, "loss": 0.0085, "step": 3585 }, { "epoch": 5.983333333333333, "grad_norm": 2.1840946674346924, "learning_rate": 0.00012026666666666669, "loss": 0.0032, "step": 3590 }, { "epoch": 5.991666666666667, "grad_norm": 0.0017138103721663356, "learning_rate": 0.00012015555555555556, "loss": 0.0004, "step": 3595 }, { "epoch": 6.0, "grad_norm": 0.027913009747862816, "learning_rate": 0.00012004444444444445, "loss": 0.0039, "step": 3600 }, { "epoch": 6.0, "eval_accuracy": 0.8091666666666667, "eval_f1": 0.8072960662352765, "eval_loss": 1.146187424659729, "eval_precision": 0.8281642270964236, "eval_recall": 0.8091666666666667, "eval_runtime": 17.5327, "eval_samples_per_second": 136.887, "eval_steps_per_second": 17.111, "step": 3600 }, { "epoch": 6.008333333333334, "grad_norm": 0.0018226332031190395, "learning_rate": 0.00011993333333333334, "loss": 0.0784, "step": 3605 }, { "epoch": 6.016666666666667, "grad_norm": 10.234015464782715, "learning_rate": 0.00011982222222222224, "loss": 0.0136, "step": 3610 }, { "epoch": 6.025, "grad_norm": 0.006233169697225094, "learning_rate": 0.00011971111111111111, "loss": 0.2172, "step": 3615 }, { "epoch": 6.033333333333333, "grad_norm": 4.473740100860596, "learning_rate": 0.00011960000000000001, "loss": 0.087, "step": 3620 }, { "epoch": 6.041666666666667, "grad_norm": 10.860123634338379, "learning_rate": 0.00011948888888888889, "loss": 0.1058, "step": 3625 }, { "epoch": 6.05, "grad_norm": 0.03933406248688698, "learning_rate": 0.00011937777777777779, "loss": 0.001, "step": 3630 }, { "epoch": 6.058333333333334, "grad_norm": 0.46466225385665894, "learning_rate": 0.00011926666666666669, "loss": 0.0064, "step": 3635 }, { "epoch": 6.066666666666666, "grad_norm": 0.013947012834250927, "learning_rate": 0.00011915555555555556, "loss": 0.0021, "step": 3640 }, { "epoch": 6.075, "grad_norm": 0.0960894376039505, "learning_rate": 0.00011904444444444444, "loss": 0.0009, "step": 3645 }, { "epoch": 6.083333333333333, "grad_norm": 0.03674086555838585, "learning_rate": 0.00011893333333333334, "loss": 0.1925, "step": 3650 }, { "epoch": 6.091666666666667, "grad_norm": 0.003979895729571581, "learning_rate": 0.00011882222222222224, "loss": 0.0622, "step": 3655 }, { "epoch": 6.1, "grad_norm": 0.010080799460411072, "learning_rate": 0.00011871111111111111, "loss": 0.0025, "step": 3660 }, { "epoch": 6.108333333333333, "grad_norm": 0.004944703541696072, "learning_rate": 0.0001186, "loss": 0.0007, "step": 3665 }, { "epoch": 6.116666666666666, "grad_norm": 0.005288025364279747, "learning_rate": 0.0001184888888888889, "loss": 0.0063, "step": 3670 }, { "epoch": 6.125, "grad_norm": 0.0068622916005551815, "learning_rate": 0.00011837777777777779, "loss": 0.0012, "step": 3675 }, { "epoch": 6.133333333333334, "grad_norm": 0.00209217332303524, "learning_rate": 0.00011826666666666668, "loss": 0.0331, "step": 3680 }, { "epoch": 6.141666666666667, "grad_norm": 0.0020653598476201296, "learning_rate": 0.00011815555555555555, "loss": 0.0006, "step": 3685 }, { "epoch": 6.15, "grad_norm": 0.009891466237604618, "learning_rate": 0.00011804444444444445, "loss": 0.0011, "step": 3690 }, { "epoch": 6.158333333333333, "grad_norm": 0.0016231955960392952, "learning_rate": 0.00011793333333333334, "loss": 0.0005, "step": 3695 }, { "epoch": 6.166666666666667, "grad_norm": 0.02263728715479374, "learning_rate": 0.00011782222222222223, "loss": 0.0005, "step": 3700 }, { "epoch": 6.166666666666667, "eval_accuracy": 0.8691666666666666, "eval_f1": 0.8698696012521336, "eval_loss": 0.6624749898910522, "eval_precision": 0.8749849540335246, "eval_recall": 0.8691666666666666, "eval_runtime": 17.3676, "eval_samples_per_second": 138.188, "eval_steps_per_second": 17.274, "step": 3700 }, { "epoch": 6.175, "grad_norm": 0.09278427064418793, "learning_rate": 0.00011771111111111113, "loss": 0.0158, "step": 3705 }, { "epoch": 6.183333333333334, "grad_norm": 0.01745695061981678, "learning_rate": 0.0001176, "loss": 0.0004, "step": 3710 }, { "epoch": 6.191666666666666, "grad_norm": 0.002423694357275963, "learning_rate": 0.0001174888888888889, "loss": 0.0004, "step": 3715 }, { "epoch": 6.2, "grad_norm": 3.192680835723877, "learning_rate": 0.00011737777777777778, "loss": 0.091, "step": 3720 }, { "epoch": 6.208333333333333, "grad_norm": 0.0012583857169374824, "learning_rate": 0.00011726666666666668, "loss": 0.0004, "step": 3725 }, { "epoch": 6.216666666666667, "grad_norm": 0.004605144262313843, "learning_rate": 0.00011715555555555555, "loss": 0.0006, "step": 3730 }, { "epoch": 6.225, "grad_norm": 0.004153178073465824, "learning_rate": 0.00011704444444444445, "loss": 0.0007, "step": 3735 }, { "epoch": 6.233333333333333, "grad_norm": 0.003141071181744337, "learning_rate": 0.00011693333333333333, "loss": 0.0149, "step": 3740 }, { "epoch": 6.241666666666666, "grad_norm": 0.002257751300930977, "learning_rate": 0.00011682222222222223, "loss": 0.0032, "step": 3745 }, { "epoch": 6.25, "grad_norm": 0.0023276987485587597, "learning_rate": 0.00011671111111111113, "loss": 0.0004, "step": 3750 }, { "epoch": 6.258333333333334, "grad_norm": 0.00227068061940372, "learning_rate": 0.0001166, "loss": 0.1097, "step": 3755 }, { "epoch": 6.266666666666667, "grad_norm": 0.0025389015208929777, "learning_rate": 0.00011648888888888889, "loss": 0.0005, "step": 3760 }, { "epoch": 6.275, "grad_norm": 0.005209972150623798, "learning_rate": 0.00011637777777777778, "loss": 0.0005, "step": 3765 }, { "epoch": 6.283333333333333, "grad_norm": 0.0015825736336410046, "learning_rate": 0.00011626666666666668, "loss": 0.0005, "step": 3770 }, { "epoch": 6.291666666666667, "grad_norm": 0.007465963251888752, "learning_rate": 0.00011615555555555555, "loss": 0.0006, "step": 3775 }, { "epoch": 6.3, "grad_norm": 0.0018191882409155369, "learning_rate": 0.00011604444444444444, "loss": 0.0239, "step": 3780 }, { "epoch": 6.308333333333334, "grad_norm": 0.003955521620810032, "learning_rate": 0.00011593333333333334, "loss": 0.0059, "step": 3785 }, { "epoch": 6.316666666666666, "grad_norm": 0.002473237691447139, "learning_rate": 0.00011582222222222224, "loss": 0.0004, "step": 3790 }, { "epoch": 6.325, "grad_norm": 0.0014713724376633763, "learning_rate": 0.00011571111111111112, "loss": 0.0006, "step": 3795 }, { "epoch": 6.333333333333333, "grad_norm": 0.006665609776973724, "learning_rate": 0.00011559999999999999, "loss": 0.0022, "step": 3800 }, { "epoch": 6.333333333333333, "eval_accuracy": 0.8079166666666666, "eval_f1": 0.7987599610225563, "eval_loss": 1.139549970626831, "eval_precision": 0.8245302483921386, "eval_recall": 0.8079166666666666, "eval_runtime": 17.6034, "eval_samples_per_second": 136.337, "eval_steps_per_second": 17.042, "step": 3800 }, { "epoch": 6.341666666666667, "grad_norm": 0.009388838894665241, "learning_rate": 0.00011548888888888889, "loss": 0.0008, "step": 3805 }, { "epoch": 6.35, "grad_norm": 0.002305538160726428, "learning_rate": 0.00011537777777777779, "loss": 0.0005, "step": 3810 }, { "epoch": 6.358333333333333, "grad_norm": 0.00833871215581894, "learning_rate": 0.00011526666666666667, "loss": 0.0004, "step": 3815 }, { "epoch": 6.366666666666666, "grad_norm": 0.011447874829173088, "learning_rate": 0.00011515555555555557, "loss": 0.0005, "step": 3820 }, { "epoch": 6.375, "grad_norm": 0.0014618962304666638, "learning_rate": 0.00011504444444444444, "loss": 0.1099, "step": 3825 }, { "epoch": 6.383333333333334, "grad_norm": 0.0032552119810134172, "learning_rate": 0.00011493333333333334, "loss": 0.0004, "step": 3830 }, { "epoch": 6.391666666666667, "grad_norm": 0.005783018656075001, "learning_rate": 0.00011482222222222222, "loss": 0.0008, "step": 3835 }, { "epoch": 6.4, "grad_norm": 0.005743992514908314, "learning_rate": 0.00011471111111111112, "loss": 0.0009, "step": 3840 }, { "epoch": 6.408333333333333, "grad_norm": 0.021729109808802605, "learning_rate": 0.0001146, "loss": 0.0011, "step": 3845 }, { "epoch": 6.416666666666667, "grad_norm": 0.002006419003009796, "learning_rate": 0.00011448888888888889, "loss": 0.0006, "step": 3850 }, { "epoch": 6.425, "grad_norm": 0.0036357841454446316, "learning_rate": 0.00011437777777777779, "loss": 0.0034, "step": 3855 }, { "epoch": 6.433333333333334, "grad_norm": 0.0021691988222301006, "learning_rate": 0.00011426666666666667, "loss": 0.0004, "step": 3860 }, { "epoch": 6.441666666666666, "grad_norm": 0.0017608635826036334, "learning_rate": 0.00011415555555555557, "loss": 0.0004, "step": 3865 }, { "epoch": 6.45, "grad_norm": 0.002390383742749691, "learning_rate": 0.00011404444444444444, "loss": 0.0004, "step": 3870 }, { "epoch": 6.458333333333333, "grad_norm": 0.0019823280163109303, "learning_rate": 0.00011393333333333334, "loss": 0.0004, "step": 3875 }, { "epoch": 6.466666666666667, "grad_norm": 11.862939834594727, "learning_rate": 0.00011382222222222223, "loss": 0.0304, "step": 3880 }, { "epoch": 6.475, "grad_norm": 0.0014179680729284883, "learning_rate": 0.00011371111111111113, "loss": 0.0004, "step": 3885 }, { "epoch": 6.483333333333333, "grad_norm": 0.0018378023523837328, "learning_rate": 0.0001136, "loss": 0.0004, "step": 3890 }, { "epoch": 6.491666666666666, "grad_norm": 0.0018985550850629807, "learning_rate": 0.0001134888888888889, "loss": 0.0147, "step": 3895 }, { "epoch": 6.5, "grad_norm": 0.001450804527848959, "learning_rate": 0.00011337777777777778, "loss": 0.0039, "step": 3900 }, { "epoch": 6.5, "eval_accuracy": 0.9104166666666667, "eval_f1": 0.91106309192378, "eval_loss": 0.525779664516449, "eval_precision": 0.9145154711100851, "eval_recall": 0.9104166666666667, "eval_runtime": 17.5503, "eval_samples_per_second": 136.75, "eval_steps_per_second": 17.094, "step": 3900 }, { "epoch": 6.508333333333333, "grad_norm": 0.0016366135096177459, "learning_rate": 0.00011326666666666668, "loss": 0.0004, "step": 3905 }, { "epoch": 6.516666666666667, "grad_norm": 0.004070822615176439, "learning_rate": 0.00011315555555555558, "loss": 0.0006, "step": 3910 }, { "epoch": 6.525, "grad_norm": 0.001772483577951789, "learning_rate": 0.00011304444444444445, "loss": 0.0004, "step": 3915 }, { "epoch": 6.533333333333333, "grad_norm": 0.0014627586351707578, "learning_rate": 0.00011293333333333333, "loss": 0.1321, "step": 3920 }, { "epoch": 6.541666666666667, "grad_norm": 0.0024537851568311453, "learning_rate": 0.00011282222222222223, "loss": 0.0011, "step": 3925 }, { "epoch": 6.55, "grad_norm": 0.009322610683739185, "learning_rate": 0.00011271111111111113, "loss": 0.0006, "step": 3930 }, { "epoch": 6.558333333333334, "grad_norm": 0.0026072347536683083, "learning_rate": 0.0001126, "loss": 0.0953, "step": 3935 }, { "epoch": 6.566666666666666, "grad_norm": 0.003517591394484043, "learning_rate": 0.00011248888888888888, "loss": 0.0221, "step": 3940 }, { "epoch": 6.575, "grad_norm": 0.0015140353934839368, "learning_rate": 0.00011237777777777778, "loss": 0.0005, "step": 3945 }, { "epoch": 6.583333333333333, "grad_norm": 0.0018862237920984626, "learning_rate": 0.00011226666666666668, "loss": 0.0012, "step": 3950 }, { "epoch": 6.591666666666667, "grad_norm": 0.0011866040294989944, "learning_rate": 0.00011215555555555557, "loss": 0.0004, "step": 3955 }, { "epoch": 6.6, "grad_norm": 0.001932353712618351, "learning_rate": 0.00011204444444444444, "loss": 0.0004, "step": 3960 }, { "epoch": 6.608333333333333, "grad_norm": 0.0016503403894603252, "learning_rate": 0.00011193333333333333, "loss": 0.0004, "step": 3965 }, { "epoch": 6.616666666666667, "grad_norm": 0.002733859233558178, "learning_rate": 0.00011182222222222223, "loss": 0.0004, "step": 3970 }, { "epoch": 6.625, "grad_norm": 0.002129597822204232, "learning_rate": 0.00011171111111111112, "loss": 0.0006, "step": 3975 }, { "epoch": 6.633333333333333, "grad_norm": 0.006102912127971649, "learning_rate": 0.00011160000000000002, "loss": 0.0004, "step": 3980 }, { "epoch": 6.641666666666667, "grad_norm": 0.001513359253294766, "learning_rate": 0.00011148888888888889, "loss": 0.0011, "step": 3985 }, { "epoch": 6.65, "grad_norm": 0.001455087447538972, "learning_rate": 0.00011137777777777779, "loss": 0.0003, "step": 3990 }, { "epoch": 6.658333333333333, "grad_norm": 0.0019958005286753178, "learning_rate": 0.00011126666666666667, "loss": 0.0004, "step": 3995 }, { "epoch": 6.666666666666667, "grad_norm": 0.0010942142689600587, "learning_rate": 0.00011115555555555557, "loss": 0.0003, "step": 4000 }, { "epoch": 6.666666666666667, "eval_accuracy": 0.84375, "eval_f1": 0.8444768771309843, "eval_loss": 0.8169878721237183, "eval_precision": 0.8597955584953828, "eval_recall": 0.84375, "eval_runtime": 17.3756, "eval_samples_per_second": 138.125, "eval_steps_per_second": 17.266, "step": 4000 }, { "epoch": 6.675, "grad_norm": 0.0010023521026596427, "learning_rate": 0.00011104444444444444, "loss": 0.0003, "step": 4005 }, { "epoch": 6.683333333333334, "grad_norm": 0.0013806934002786875, "learning_rate": 0.00011093333333333334, "loss": 0.0003, "step": 4010 }, { "epoch": 6.691666666666666, "grad_norm": 0.006004186812788248, "learning_rate": 0.00011082222222222222, "loss": 0.0003, "step": 4015 }, { "epoch": 6.7, "grad_norm": 0.0027895814273506403, "learning_rate": 0.00011071111111111112, "loss": 0.0004, "step": 4020 }, { "epoch": 6.708333333333333, "grad_norm": 0.0012991259573027492, "learning_rate": 0.00011060000000000002, "loss": 0.0004, "step": 4025 }, { "epoch": 6.716666666666667, "grad_norm": 0.0030002992134541273, "learning_rate": 0.00011048888888888889, "loss": 0.0003, "step": 4030 }, { "epoch": 6.725, "grad_norm": 0.0012090529780834913, "learning_rate": 0.00011037777777777777, "loss": 0.0003, "step": 4035 }, { "epoch": 6.733333333333333, "grad_norm": 0.0011846446432173252, "learning_rate": 0.00011026666666666667, "loss": 0.0003, "step": 4040 }, { "epoch": 6.741666666666667, "grad_norm": 0.0011226673377677798, "learning_rate": 0.00011015555555555557, "loss": 0.0003, "step": 4045 }, { "epoch": 6.75, "grad_norm": 0.0011065498692914844, "learning_rate": 0.00011004444444444444, "loss": 0.0003, "step": 4050 }, { "epoch": 6.758333333333333, "grad_norm": 0.0019352666568011045, "learning_rate": 0.00010993333333333333, "loss": 0.0003, "step": 4055 }, { "epoch": 6.766666666666667, "grad_norm": 0.0013184950221329927, "learning_rate": 0.00010982222222222222, "loss": 0.0003, "step": 4060 }, { "epoch": 6.775, "grad_norm": 0.0013369193766266108, "learning_rate": 0.00010971111111111112, "loss": 0.0006, "step": 4065 }, { "epoch": 6.783333333333333, "grad_norm": 0.0015546127688139677, "learning_rate": 0.00010960000000000001, "loss": 0.0003, "step": 4070 }, { "epoch": 6.791666666666667, "grad_norm": 0.0030853445641696453, "learning_rate": 0.00010948888888888888, "loss": 0.0003, "step": 4075 }, { "epoch": 6.8, "grad_norm": 0.00117677787784487, "learning_rate": 0.00010937777777777778, "loss": 0.0002, "step": 4080 }, { "epoch": 6.808333333333334, "grad_norm": 0.002436625072732568, "learning_rate": 0.00010926666666666668, "loss": 0.0003, "step": 4085 }, { "epoch": 6.816666666666666, "grad_norm": 0.0010399182792752981, "learning_rate": 0.00010915555555555556, "loss": 0.0003, "step": 4090 }, { "epoch": 6.825, "grad_norm": 0.0015837199753150344, "learning_rate": 0.00010904444444444446, "loss": 0.0003, "step": 4095 }, { "epoch": 6.833333333333333, "grad_norm": 0.0012669735588133335, "learning_rate": 0.00010893333333333333, "loss": 0.0005, "step": 4100 }, { "epoch": 6.833333333333333, "eval_accuracy": 0.88625, "eval_f1": 0.8847380090006955, "eval_loss": 0.658223569393158, "eval_precision": 0.8906414541461728, "eval_recall": 0.88625, "eval_runtime": 17.4254, "eval_samples_per_second": 137.73, "eval_steps_per_second": 17.216, "step": 4100 }, { "epoch": 6.841666666666667, "grad_norm": 0.0011135847307741642, "learning_rate": 0.00010882222222222223, "loss": 0.0003, "step": 4105 }, { "epoch": 6.85, "grad_norm": 0.0011995320674031973, "learning_rate": 0.00010871111111111113, "loss": 0.0003, "step": 4110 }, { "epoch": 6.858333333333333, "grad_norm": 0.0011971264611929655, "learning_rate": 0.00010860000000000001, "loss": 0.0003, "step": 4115 }, { "epoch": 6.866666666666667, "grad_norm": 0.0014878001529723406, "learning_rate": 0.00010848888888888888, "loss": 0.0003, "step": 4120 }, { "epoch": 6.875, "grad_norm": 0.0009385676821693778, "learning_rate": 0.00010837777777777778, "loss": 0.0658, "step": 4125 }, { "epoch": 6.883333333333333, "grad_norm": 0.0009714563493616879, "learning_rate": 0.00010826666666666668, "loss": 0.0002, "step": 4130 }, { "epoch": 6.891666666666667, "grad_norm": 0.0011026228312402964, "learning_rate": 0.00010815555555555556, "loss": 0.0002, "step": 4135 }, { "epoch": 6.9, "grad_norm": 0.0013258132385089993, "learning_rate": 0.00010804444444444446, "loss": 0.0061, "step": 4140 }, { "epoch": 6.908333333333333, "grad_norm": 0.0008102774154394865, "learning_rate": 0.00010793333333333333, "loss": 0.0002, "step": 4145 }, { "epoch": 6.916666666666667, "grad_norm": 0.0011155134998261929, "learning_rate": 0.00010782222222222223, "loss": 0.0004, "step": 4150 }, { "epoch": 6.925, "grad_norm": 0.002622139174491167, "learning_rate": 0.00010771111111111112, "loss": 0.0736, "step": 4155 }, { "epoch": 6.933333333333334, "grad_norm": 0.0055553726851940155, "learning_rate": 0.00010760000000000001, "loss": 0.0003, "step": 4160 }, { "epoch": 6.941666666666666, "grad_norm": 0.0026195587124675512, "learning_rate": 0.00010748888888888888, "loss": 0.0003, "step": 4165 }, { "epoch": 6.95, "grad_norm": 0.0011704739881679416, "learning_rate": 0.00010737777777777778, "loss": 0.0003, "step": 4170 }, { "epoch": 6.958333333333333, "grad_norm": 0.001136242295615375, "learning_rate": 0.00010726666666666667, "loss": 0.0002, "step": 4175 }, { "epoch": 6.966666666666667, "grad_norm": 0.0017040788661688566, "learning_rate": 0.00010715555555555557, "loss": 0.0003, "step": 4180 }, { "epoch": 6.975, "grad_norm": 0.001215121941640973, "learning_rate": 0.00010704444444444446, "loss": 0.0003, "step": 4185 }, { "epoch": 6.983333333333333, "grad_norm": 0.0019607204012572765, "learning_rate": 0.00010693333333333333, "loss": 0.0003, "step": 4190 }, { "epoch": 6.991666666666667, "grad_norm": 0.1829652488231659, "learning_rate": 0.00010682222222222222, "loss": 0.0008, "step": 4195 }, { "epoch": 7.0, "grad_norm": 0.0009327211882919073, "learning_rate": 0.00010671111111111112, "loss": 0.0003, "step": 4200 }, { "epoch": 7.0, "eval_accuracy": 0.8570833333333333, "eval_f1": 0.8585056497412912, "eval_loss": 0.8092911243438721, "eval_precision": 0.8707216830391129, "eval_recall": 0.8570833333333333, "eval_runtime": 17.5532, "eval_samples_per_second": 136.728, "eval_steps_per_second": 17.091, "step": 4200 }, { "epoch": 7.008333333333334, "grad_norm": 0.0012956688879057765, "learning_rate": 0.00010660000000000002, "loss": 0.0003, "step": 4205 }, { "epoch": 7.016666666666667, "grad_norm": 0.0011331706773489714, "learning_rate": 0.0001064888888888889, "loss": 0.0002, "step": 4210 }, { "epoch": 7.025, "grad_norm": 0.0011174253886565566, "learning_rate": 0.00010637777777777777, "loss": 0.0002, "step": 4215 }, { "epoch": 7.033333333333333, "grad_norm": 0.0012338000815361738, "learning_rate": 0.00010626666666666667, "loss": 0.0002, "step": 4220 }, { "epoch": 7.041666666666667, "grad_norm": 0.001068793353624642, "learning_rate": 0.00010615555555555557, "loss": 0.0002, "step": 4225 }, { "epoch": 7.05, "grad_norm": 0.0018514986149966717, "learning_rate": 0.00010604444444444445, "loss": 0.0003, "step": 4230 }, { "epoch": 7.058333333333334, "grad_norm": 0.010463840328156948, "learning_rate": 0.00010593333333333332, "loss": 0.0003, "step": 4235 }, { "epoch": 7.066666666666666, "grad_norm": 0.001022408832795918, "learning_rate": 0.00010582222222222222, "loss": 0.0002, "step": 4240 }, { "epoch": 7.075, "grad_norm": 0.000972237903624773, "learning_rate": 0.00010571111111111112, "loss": 0.0002, "step": 4245 }, { "epoch": 7.083333333333333, "grad_norm": 0.0010552583262324333, "learning_rate": 0.0001056, "loss": 0.0002, "step": 4250 }, { "epoch": 7.091666666666667, "grad_norm": 0.0010157995857298374, "learning_rate": 0.0001054888888888889, "loss": 0.0002, "step": 4255 }, { "epoch": 7.1, "grad_norm": 0.000884940498508513, "learning_rate": 0.00010537777777777777, "loss": 0.0002, "step": 4260 }, { "epoch": 7.108333333333333, "grad_norm": 0.0010820577153936028, "learning_rate": 0.00010526666666666667, "loss": 0.0002, "step": 4265 }, { "epoch": 7.116666666666666, "grad_norm": 0.0008474978967569768, "learning_rate": 0.00010515555555555556, "loss": 0.0003, "step": 4270 }, { "epoch": 7.125, "grad_norm": 0.0027483052108436823, "learning_rate": 0.00010504444444444446, "loss": 0.0002, "step": 4275 }, { "epoch": 7.133333333333334, "grad_norm": 0.0009307106956839561, "learning_rate": 0.00010493333333333333, "loss": 0.0002, "step": 4280 }, { "epoch": 7.141666666666667, "grad_norm": 0.0008620057487860322, "learning_rate": 0.00010482222222222223, "loss": 0.0002, "step": 4285 }, { "epoch": 7.15, "grad_norm": 0.0010500448988750577, "learning_rate": 0.00010471111111111111, "loss": 0.0002, "step": 4290 }, { "epoch": 7.158333333333333, "grad_norm": 0.000959272962063551, "learning_rate": 0.00010460000000000001, "loss": 0.0002, "step": 4295 }, { "epoch": 7.166666666666667, "grad_norm": 0.0010415491415187716, "learning_rate": 0.0001044888888888889, "loss": 0.0002, "step": 4300 }, { "epoch": 7.166666666666667, "eval_accuracy": 0.8633333333333333, "eval_f1": 0.8644543255307442, "eval_loss": 0.7803252339363098, "eval_precision": 0.8743532278518981, "eval_recall": 0.8633333333333333, "eval_runtime": 18.0722, "eval_samples_per_second": 132.801, "eval_steps_per_second": 16.6, "step": 4300 }, { "epoch": 7.175, "grad_norm": 0.0008577720145694911, "learning_rate": 0.00010437777777777778, "loss": 0.0002, "step": 4305 }, { "epoch": 7.183333333333334, "grad_norm": 0.013606137596070766, "learning_rate": 0.00010426666666666666, "loss": 0.0003, "step": 4310 }, { "epoch": 7.191666666666666, "grad_norm": 0.0009203195804730058, "learning_rate": 0.00010415555555555556, "loss": 0.0002, "step": 4315 }, { "epoch": 7.2, "grad_norm": 0.0011079601245000958, "learning_rate": 0.00010404444444444446, "loss": 0.0002, "step": 4320 }, { "epoch": 7.208333333333333, "grad_norm": 0.0009380297851748765, "learning_rate": 0.00010393333333333334, "loss": 0.0002, "step": 4325 }, { "epoch": 7.216666666666667, "grad_norm": 0.0010841410839930177, "learning_rate": 0.00010382222222222221, "loss": 0.0002, "step": 4330 }, { "epoch": 7.225, "grad_norm": 0.0010438356548547745, "learning_rate": 0.00010371111111111111, "loss": 0.0002, "step": 4335 }, { "epoch": 7.233333333333333, "grad_norm": 0.0008367711561731994, "learning_rate": 0.00010360000000000001, "loss": 0.0002, "step": 4340 }, { "epoch": 7.241666666666666, "grad_norm": 0.0007794944103807211, "learning_rate": 0.0001034888888888889, "loss": 0.0002, "step": 4345 }, { "epoch": 7.25, "grad_norm": 0.0009751305333338678, "learning_rate": 0.00010337777777777777, "loss": 0.0002, "step": 4350 }, { "epoch": 7.258333333333334, "grad_norm": 0.0010957254562526941, "learning_rate": 0.00010326666666666667, "loss": 0.0002, "step": 4355 }, { "epoch": 7.266666666666667, "grad_norm": 0.003089427947998047, "learning_rate": 0.00010315555555555556, "loss": 0.0002, "step": 4360 }, { "epoch": 7.275, "grad_norm": 0.001021627220325172, "learning_rate": 0.00010304444444444445, "loss": 0.0002, "step": 4365 }, { "epoch": 7.283333333333333, "grad_norm": 0.001073195249773562, "learning_rate": 0.00010293333333333335, "loss": 0.0002, "step": 4370 }, { "epoch": 7.291666666666667, "grad_norm": 0.0009259238722734153, "learning_rate": 0.00010282222222222222, "loss": 0.0002, "step": 4375 }, { "epoch": 7.3, "grad_norm": 0.0009090399835258722, "learning_rate": 0.00010271111111111112, "loss": 0.0002, "step": 4380 }, { "epoch": 7.308333333333334, "grad_norm": 0.0008316893945448101, "learning_rate": 0.00010260000000000001, "loss": 0.0002, "step": 4385 }, { "epoch": 7.316666666666666, "grad_norm": 0.000758976733777672, "learning_rate": 0.0001024888888888889, "loss": 0.0003, "step": 4390 }, { "epoch": 7.325, "grad_norm": 0.0009317917283624411, "learning_rate": 0.00010237777777777777, "loss": 0.0002, "step": 4395 }, { "epoch": 7.333333333333333, "grad_norm": 0.0009438498527742922, "learning_rate": 0.00010226666666666667, "loss": 0.0002, "step": 4400 }, { "epoch": 7.333333333333333, "eval_accuracy": 0.865, "eval_f1": 0.8659792581303789, "eval_loss": 0.7808694243431091, "eval_precision": 0.876744923566509, "eval_recall": 0.865, "eval_runtime": 17.8219, "eval_samples_per_second": 134.666, "eval_steps_per_second": 16.833, "step": 4400 }, { "epoch": 7.341666666666667, "grad_norm": 0.000905899447388947, "learning_rate": 0.00010215555555555557, "loss": 0.0002, "step": 4405 }, { "epoch": 7.35, "grad_norm": 0.000815151259303093, "learning_rate": 0.00010204444444444445, "loss": 0.0002, "step": 4410 }, { "epoch": 7.358333333333333, "grad_norm": 0.0008110615890473127, "learning_rate": 0.00010193333333333335, "loss": 0.0002, "step": 4415 }, { "epoch": 7.366666666666666, "grad_norm": 0.000789651065133512, "learning_rate": 0.00010182222222222222, "loss": 0.0002, "step": 4420 }, { "epoch": 7.375, "grad_norm": 0.0009684113902039826, "learning_rate": 0.00010171111111111112, "loss": 0.0002, "step": 4425 }, { "epoch": 7.383333333333334, "grad_norm": 0.0007030221167951822, "learning_rate": 0.0001016, "loss": 0.0002, "step": 4430 }, { "epoch": 7.391666666666667, "grad_norm": 0.0007988082943484187, "learning_rate": 0.0001014888888888889, "loss": 0.0002, "step": 4435 }, { "epoch": 7.4, "grad_norm": 0.0008844531257636845, "learning_rate": 0.0001013777777777778, "loss": 0.0002, "step": 4440 }, { "epoch": 7.408333333333333, "grad_norm": 0.0008246729848906398, "learning_rate": 0.00010126666666666667, "loss": 0.0002, "step": 4445 }, { "epoch": 7.416666666666667, "grad_norm": 0.0008857977227307856, "learning_rate": 0.00010115555555555556, "loss": 0.0002, "step": 4450 }, { "epoch": 7.425, "grad_norm": 0.0009056830313056707, "learning_rate": 0.00010104444444444445, "loss": 0.0002, "step": 4455 }, { "epoch": 7.433333333333334, "grad_norm": 0.0007518191705457866, "learning_rate": 0.00010093333333333335, "loss": 0.0002, "step": 4460 }, { "epoch": 7.441666666666666, "grad_norm": 0.0008056527585722506, "learning_rate": 0.00010082222222222222, "loss": 0.0002, "step": 4465 }, { "epoch": 7.45, "grad_norm": 0.0007888692780397832, "learning_rate": 0.00010071111111111111, "loss": 0.0002, "step": 4470 }, { "epoch": 7.458333333333333, "grad_norm": 0.0007862657657824457, "learning_rate": 0.0001006, "loss": 0.0002, "step": 4475 }, { "epoch": 7.466666666666667, "grad_norm": 0.0008222491596825421, "learning_rate": 0.0001004888888888889, "loss": 0.0002, "step": 4480 }, { "epoch": 7.475, "grad_norm": 0.0009397150715813041, "learning_rate": 0.00010037777777777779, "loss": 0.0002, "step": 4485 }, { "epoch": 7.483333333333333, "grad_norm": 0.00074296462116763, "learning_rate": 0.00010026666666666666, "loss": 0.0002, "step": 4490 }, { "epoch": 7.491666666666666, "grad_norm": 0.0006221240037120879, "learning_rate": 0.00010015555555555556, "loss": 0.0002, "step": 4495 }, { "epoch": 7.5, "grad_norm": 0.000902770843822509, "learning_rate": 0.00010004444444444446, "loss": 0.0002, "step": 4500 }, { "epoch": 7.5, "eval_accuracy": 0.8670833333333333, "eval_f1": 0.8680032499610504, "eval_loss": 0.7817099094390869, "eval_precision": 0.8787720127522883, "eval_recall": 0.8670833333333333, "eval_runtime": 17.1651, "eval_samples_per_second": 139.819, "eval_steps_per_second": 17.477, "step": 4500 }, { "epoch": 7.508333333333333, "grad_norm": 0.0007404323550872505, "learning_rate": 9.993333333333334e-05, "loss": 0.0002, "step": 4505 }, { "epoch": 7.516666666666667, "grad_norm": 0.0009695246699266136, "learning_rate": 9.982222222222223e-05, "loss": 0.0002, "step": 4510 }, { "epoch": 7.525, "grad_norm": 0.0006070019444450736, "learning_rate": 9.971111111111111e-05, "loss": 0.0002, "step": 4515 }, { "epoch": 7.533333333333333, "grad_norm": 0.0007904997910372913, "learning_rate": 9.960000000000001e-05, "loss": 0.0002, "step": 4520 }, { "epoch": 7.541666666666667, "grad_norm": 0.0008150156354531646, "learning_rate": 9.94888888888889e-05, "loss": 0.0002, "step": 4525 }, { "epoch": 7.55, "grad_norm": 0.0009679574868641794, "learning_rate": 9.937777777777778e-05, "loss": 0.0002, "step": 4530 }, { "epoch": 7.558333333333334, "grad_norm": 0.0008076719823293388, "learning_rate": 9.926666666666668e-05, "loss": 0.0002, "step": 4535 }, { "epoch": 7.566666666666666, "grad_norm": 0.0008414738695137203, "learning_rate": 9.915555555555556e-05, "loss": 0.0002, "step": 4540 }, { "epoch": 7.575, "grad_norm": 0.0005885652499273419, "learning_rate": 9.904444444444445e-05, "loss": 0.0002, "step": 4545 }, { "epoch": 7.583333333333333, "grad_norm": 0.0008890416356734931, "learning_rate": 9.893333333333333e-05, "loss": 0.0002, "step": 4550 }, { "epoch": 7.591666666666667, "grad_norm": 0.000685791892465204, "learning_rate": 9.882222222222223e-05, "loss": 0.0002, "step": 4555 }, { "epoch": 7.6, "grad_norm": 0.0008897838415578008, "learning_rate": 9.871111111111113e-05, "loss": 0.0002, "step": 4560 }, { "epoch": 7.608333333333333, "grad_norm": 0.0007411572150886059, "learning_rate": 9.86e-05, "loss": 0.0002, "step": 4565 }, { "epoch": 7.616666666666667, "grad_norm": 0.0007235973607748747, "learning_rate": 9.84888888888889e-05, "loss": 0.0002, "step": 4570 }, { "epoch": 7.625, "grad_norm": 0.0007152381003834307, "learning_rate": 9.837777777777778e-05, "loss": 0.0002, "step": 4575 }, { "epoch": 7.633333333333333, "grad_norm": 0.0006245697732083499, "learning_rate": 9.826666666666668e-05, "loss": 0.0002, "step": 4580 }, { "epoch": 7.641666666666667, "grad_norm": 0.0006313971243798733, "learning_rate": 9.815555555555555e-05, "loss": 0.0002, "step": 4585 }, { "epoch": 7.65, "grad_norm": 0.0009743543923832476, "learning_rate": 9.804444444444445e-05, "loss": 0.0002, "step": 4590 }, { "epoch": 7.658333333333333, "grad_norm": 0.0006483554607257247, "learning_rate": 9.793333333333333e-05, "loss": 0.0002, "step": 4595 }, { "epoch": 7.666666666666667, "grad_norm": 0.0006592103163711727, "learning_rate": 9.782222222222223e-05, "loss": 0.0002, "step": 4600 }, { "epoch": 7.666666666666667, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8691829201807201, "eval_loss": 0.7803764939308167, "eval_precision": 0.8792161369833322, "eval_recall": 0.8683333333333333, "eval_runtime": 17.4649, "eval_samples_per_second": 137.418, "eval_steps_per_second": 17.177, "step": 4600 }, { "epoch": 7.675, "grad_norm": 0.0008406811975874007, "learning_rate": 9.771111111111112e-05, "loss": 0.0002, "step": 4605 }, { "epoch": 7.683333333333334, "grad_norm": 0.000690567132551223, "learning_rate": 9.76e-05, "loss": 0.0002, "step": 4610 }, { "epoch": 7.691666666666666, "grad_norm": 0.0007134646293707192, "learning_rate": 9.74888888888889e-05, "loss": 0.0002, "step": 4615 }, { "epoch": 7.7, "grad_norm": 0.000665698666125536, "learning_rate": 9.737777777777778e-05, "loss": 0.0002, "step": 4620 }, { "epoch": 7.708333333333333, "grad_norm": 0.0006957294535823166, "learning_rate": 9.726666666666667e-05, "loss": 0.0002, "step": 4625 }, { "epoch": 7.716666666666667, "grad_norm": 0.005373399704694748, "learning_rate": 9.715555555555555e-05, "loss": 0.0002, "step": 4630 }, { "epoch": 7.725, "grad_norm": 0.0007365166675299406, "learning_rate": 9.704444444444445e-05, "loss": 0.0002, "step": 4635 }, { "epoch": 7.733333333333333, "grad_norm": 0.0008162031881511211, "learning_rate": 9.693333333333335e-05, "loss": 0.0002, "step": 4640 }, { "epoch": 7.741666666666667, "grad_norm": 0.0007792903343215585, "learning_rate": 9.682222222222222e-05, "loss": 0.0002, "step": 4645 }, { "epoch": 7.75, "grad_norm": 0.0007405439391732216, "learning_rate": 9.671111111111112e-05, "loss": 0.0002, "step": 4650 }, { "epoch": 7.758333333333333, "grad_norm": 0.0006775461370125413, "learning_rate": 9.66e-05, "loss": 0.0002, "step": 4655 }, { "epoch": 7.766666666666667, "grad_norm": 0.0006790847983211279, "learning_rate": 9.64888888888889e-05, "loss": 0.0001, "step": 4660 }, { "epoch": 7.775, "grad_norm": 0.0006598159088753164, "learning_rate": 9.637777777777777e-05, "loss": 0.0002, "step": 4665 }, { "epoch": 7.783333333333333, "grad_norm": 0.0005463449051603675, "learning_rate": 9.626666666666667e-05, "loss": 0.0002, "step": 4670 }, { "epoch": 7.791666666666667, "grad_norm": 0.002076552715152502, "learning_rate": 9.615555555555557e-05, "loss": 0.0002, "step": 4675 }, { "epoch": 7.8, "grad_norm": 0.000658730510622263, "learning_rate": 9.604444444444445e-05, "loss": 0.0002, "step": 4680 }, { "epoch": 7.808333333333334, "grad_norm": 0.0007925450918264687, "learning_rate": 9.593333333333334e-05, "loss": 0.0001, "step": 4685 }, { "epoch": 7.816666666666666, "grad_norm": 0.0006378130055963993, "learning_rate": 9.582222222222222e-05, "loss": 0.0002, "step": 4690 }, { "epoch": 7.825, "grad_norm": 0.0006482780445367098, "learning_rate": 9.571111111111112e-05, "loss": 0.0002, "step": 4695 }, { "epoch": 7.833333333333333, "grad_norm": 0.0006228581769391894, "learning_rate": 9.56e-05, "loss": 0.0001, "step": 4700 }, { "epoch": 7.833333333333333, "eval_accuracy": 0.87625, "eval_f1": 0.87661369812614, "eval_loss": 0.7559824585914612, "eval_precision": 0.8839719084293983, "eval_recall": 0.87625, "eval_runtime": 17.3559, "eval_samples_per_second": 138.281, "eval_steps_per_second": 17.285, "step": 4700 }, { "epoch": 7.841666666666667, "grad_norm": 0.0006292181205935776, "learning_rate": 9.548888888888889e-05, "loss": 0.0002, "step": 4705 }, { "epoch": 7.85, "grad_norm": 0.000831836718134582, "learning_rate": 9.537777777777778e-05, "loss": 0.0002, "step": 4710 }, { "epoch": 7.858333333333333, "grad_norm": 0.0007414164138026536, "learning_rate": 9.526666666666667e-05, "loss": 0.0002, "step": 4715 }, { "epoch": 7.866666666666667, "grad_norm": 0.0005785172106698155, "learning_rate": 9.515555555555556e-05, "loss": 0.0001, "step": 4720 }, { "epoch": 7.875, "grad_norm": 0.0005922564305365086, "learning_rate": 9.504444444444444e-05, "loss": 0.0001, "step": 4725 }, { "epoch": 7.883333333333333, "grad_norm": 0.0006587348761968315, "learning_rate": 9.493333333333334e-05, "loss": 0.0001, "step": 4730 }, { "epoch": 7.891666666666667, "grad_norm": 0.0007423086790367961, "learning_rate": 9.482222222222223e-05, "loss": 0.0001, "step": 4735 }, { "epoch": 7.9, "grad_norm": 0.0006448408821597695, "learning_rate": 9.471111111111111e-05, "loss": 0.0002, "step": 4740 }, { "epoch": 7.908333333333333, "grad_norm": 0.0005991917569190264, "learning_rate": 9.46e-05, "loss": 0.0001, "step": 4745 }, { "epoch": 7.916666666666667, "grad_norm": 0.0006820088601671159, "learning_rate": 9.44888888888889e-05, "loss": 0.0001, "step": 4750 }, { "epoch": 7.925, "grad_norm": 0.0006143408827483654, "learning_rate": 9.437777777777779e-05, "loss": 0.0001, "step": 4755 }, { "epoch": 7.933333333333334, "grad_norm": 0.0006703656981699169, "learning_rate": 9.426666666666666e-05, "loss": 0.0001, "step": 4760 }, { "epoch": 7.941666666666666, "grad_norm": 0.0005963409203104675, "learning_rate": 9.415555555555556e-05, "loss": 0.0001, "step": 4765 }, { "epoch": 7.95, "grad_norm": 0.0007325361366383731, "learning_rate": 9.404444444444445e-05, "loss": 0.0001, "step": 4770 }, { "epoch": 7.958333333333333, "grad_norm": 0.0011726944940164685, "learning_rate": 9.393333333333334e-05, "loss": 0.0001, "step": 4775 }, { "epoch": 7.966666666666667, "grad_norm": 0.0007116285851225257, "learning_rate": 9.382222222222223e-05, "loss": 0.0002, "step": 4780 }, { "epoch": 7.975, "grad_norm": 0.0005432302714325488, "learning_rate": 9.371111111111111e-05, "loss": 0.0001, "step": 4785 }, { "epoch": 7.983333333333333, "grad_norm": 0.0006496374844573438, "learning_rate": 9.360000000000001e-05, "loss": 0.0001, "step": 4790 }, { "epoch": 7.991666666666667, "grad_norm": 0.0007223389693535864, "learning_rate": 9.34888888888889e-05, "loss": 0.0001, "step": 4795 }, { "epoch": 8.0, "grad_norm": 0.008380964398384094, "learning_rate": 9.337777777777778e-05, "loss": 0.0002, "step": 4800 }, { "epoch": 8.0, "eval_accuracy": 0.8766666666666667, "eval_f1": 0.8770677789068835, "eval_loss": 0.7634317278862, "eval_precision": 0.8848377271356681, "eval_recall": 0.8766666666666667, "eval_runtime": 17.2615, "eval_samples_per_second": 139.038, "eval_steps_per_second": 17.38, "step": 4800 }, { "epoch": 8.008333333333333, "grad_norm": 0.0005893156048841774, "learning_rate": 9.326666666666667e-05, "loss": 0.0001, "step": 4805 }, { "epoch": 8.016666666666667, "grad_norm": 0.0005743122310377657, "learning_rate": 9.315555555555556e-05, "loss": 0.0001, "step": 4810 }, { "epoch": 8.025, "grad_norm": 0.00060702720656991, "learning_rate": 9.304444444444445e-05, "loss": 0.0001, "step": 4815 }, { "epoch": 8.033333333333333, "grad_norm": 0.0006087157526053488, "learning_rate": 9.293333333333333e-05, "loss": 0.0001, "step": 4820 }, { "epoch": 8.041666666666666, "grad_norm": 0.0005718866595998406, "learning_rate": 9.282222222222222e-05, "loss": 0.0001, "step": 4825 }, { "epoch": 8.05, "grad_norm": 0.0008910544565878808, "learning_rate": 9.271111111111112e-05, "loss": 0.0001, "step": 4830 }, { "epoch": 8.058333333333334, "grad_norm": 0.0007937710615806282, "learning_rate": 9.260000000000001e-05, "loss": 0.0001, "step": 4835 }, { "epoch": 8.066666666666666, "grad_norm": 0.0006305875722318888, "learning_rate": 9.248888888888889e-05, "loss": 0.0001, "step": 4840 }, { "epoch": 8.075, "grad_norm": 0.0006182097713463008, "learning_rate": 9.237777777777778e-05, "loss": 0.0001, "step": 4845 }, { "epoch": 8.083333333333334, "grad_norm": 0.0007346903439611197, "learning_rate": 9.226666666666667e-05, "loss": 0.0001, "step": 4850 }, { "epoch": 8.091666666666667, "grad_norm": 0.0007065036334097385, "learning_rate": 9.215555555555557e-05, "loss": 0.0001, "step": 4855 }, { "epoch": 8.1, "grad_norm": 0.0006883718306198716, "learning_rate": 9.204444444444444e-05, "loss": 0.0001, "step": 4860 }, { "epoch": 8.108333333333333, "grad_norm": 0.0005322518409229815, "learning_rate": 9.193333333333334e-05, "loss": 0.0001, "step": 4865 }, { "epoch": 8.116666666666667, "grad_norm": 0.001040603150613606, "learning_rate": 9.182222222222223e-05, "loss": 0.0001, "step": 4870 }, { "epoch": 8.125, "grad_norm": 0.0006341964472085238, "learning_rate": 9.171111111111112e-05, "loss": 0.0001, "step": 4875 }, { "epoch": 8.133333333333333, "grad_norm": 0.0004839120665565133, "learning_rate": 9.16e-05, "loss": 0.0001, "step": 4880 }, { "epoch": 8.141666666666667, "grad_norm": 0.0006444818573072553, "learning_rate": 9.148888888888889e-05, "loss": 0.0001, "step": 4885 }, { "epoch": 8.15, "grad_norm": 0.0005103222792968154, "learning_rate": 9.137777777777779e-05, "loss": 0.0001, "step": 4890 }, { "epoch": 8.158333333333333, "grad_norm": 0.0007412803824990988, "learning_rate": 9.126666666666667e-05, "loss": 0.0001, "step": 4895 }, { "epoch": 8.166666666666666, "grad_norm": 0.0006861432921141386, "learning_rate": 9.115555555555556e-05, "loss": 0.0001, "step": 4900 }, { "epoch": 8.166666666666666, "eval_accuracy": 0.8791666666666667, "eval_f1": 0.8794094546135568, "eval_loss": 0.760347843170166, "eval_precision": 0.8866066950479323, "eval_recall": 0.8791666666666667, "eval_runtime": 17.437, "eval_samples_per_second": 137.639, "eval_steps_per_second": 17.205, "step": 4900 }, { "epoch": 8.175, "grad_norm": 0.0005046571604907513, "learning_rate": 9.104444444444444e-05, "loss": 0.0001, "step": 4905 }, { "epoch": 8.183333333333334, "grad_norm": 0.0005847495631314814, "learning_rate": 9.093333333333334e-05, "loss": 0.0001, "step": 4910 }, { "epoch": 8.191666666666666, "grad_norm": 0.0004707657208200544, "learning_rate": 9.082222222222224e-05, "loss": 0.0001, "step": 4915 }, { "epoch": 8.2, "grad_norm": 0.0006115766591392457, "learning_rate": 9.071111111111111e-05, "loss": 0.0001, "step": 4920 }, { "epoch": 8.208333333333334, "grad_norm": 0.0010577376233413815, "learning_rate": 9.06e-05, "loss": 0.0001, "step": 4925 }, { "epoch": 8.216666666666667, "grad_norm": 0.0006208794075064361, "learning_rate": 9.048888888888889e-05, "loss": 0.0001, "step": 4930 }, { "epoch": 8.225, "grad_norm": 0.0005472465418279171, "learning_rate": 9.037777777777779e-05, "loss": 0.0001, "step": 4935 }, { "epoch": 8.233333333333333, "grad_norm": 0.0006446940242312849, "learning_rate": 9.026666666666666e-05, "loss": 0.0001, "step": 4940 }, { "epoch": 8.241666666666667, "grad_norm": 0.0005714447470381856, "learning_rate": 9.015555555555556e-05, "loss": 0.0001, "step": 4945 }, { "epoch": 8.25, "grad_norm": 0.0006277977372519672, "learning_rate": 9.004444444444446e-05, "loss": 0.0001, "step": 4950 }, { "epoch": 8.258333333333333, "grad_norm": 0.0005926627200096846, "learning_rate": 8.993333333333334e-05, "loss": 0.0001, "step": 4955 }, { "epoch": 8.266666666666667, "grad_norm": 0.00052871328080073, "learning_rate": 8.982222222222223e-05, "loss": 0.0001, "step": 4960 }, { "epoch": 8.275, "grad_norm": 0.00045168085489422083, "learning_rate": 8.971111111111111e-05, "loss": 0.0001, "step": 4965 }, { "epoch": 8.283333333333333, "grad_norm": 0.0007277995464392006, "learning_rate": 8.960000000000001e-05, "loss": 0.0001, "step": 4970 }, { "epoch": 8.291666666666666, "grad_norm": 0.0006309514865279198, "learning_rate": 8.94888888888889e-05, "loss": 0.0001, "step": 4975 }, { "epoch": 8.3, "grad_norm": 0.0004684205923695117, "learning_rate": 8.937777777777778e-05, "loss": 0.0001, "step": 4980 }, { "epoch": 8.308333333333334, "grad_norm": 0.0006931887473911047, "learning_rate": 8.926666666666668e-05, "loss": 0.0001, "step": 4985 }, { "epoch": 8.316666666666666, "grad_norm": 0.0005066924495622516, "learning_rate": 8.915555555555556e-05, "loss": 0.0001, "step": 4990 }, { "epoch": 8.325, "grad_norm": 0.0006239128997549415, "learning_rate": 8.904444444444445e-05, "loss": 0.0001, "step": 4995 }, { "epoch": 8.333333333333334, "grad_norm": 0.0006986987427808344, "learning_rate": 8.893333333333333e-05, "loss": 0.0001, "step": 5000 }, { "epoch": 8.333333333333334, "eval_accuracy": 0.8791666666666667, "eval_f1": 0.8793856053140553, "eval_loss": 0.7595607042312622, "eval_precision": 0.8864126380179456, "eval_recall": 0.8791666666666667, "eval_runtime": 17.7283, "eval_samples_per_second": 135.377, "eval_steps_per_second": 16.922, "step": 5000 }, { "epoch": 8.341666666666667, "grad_norm": 0.0005877182120457292, "learning_rate": 8.882222222222223e-05, "loss": 0.0001, "step": 5005 }, { "epoch": 8.35, "grad_norm": 0.0005945615703240037, "learning_rate": 8.871111111111111e-05, "loss": 0.0001, "step": 5010 }, { "epoch": 8.358333333333333, "grad_norm": 0.000464258948341012, "learning_rate": 8.86e-05, "loss": 0.0001, "step": 5015 }, { "epoch": 8.366666666666667, "grad_norm": 0.00044891255674883723, "learning_rate": 8.848888888888888e-05, "loss": 0.0001, "step": 5020 }, { "epoch": 8.375, "grad_norm": 0.0007101079681888223, "learning_rate": 8.837777777777778e-05, "loss": 0.0001, "step": 5025 }, { "epoch": 8.383333333333333, "grad_norm": 0.0006781699485145509, "learning_rate": 8.826666666666668e-05, "loss": 0.0001, "step": 5030 }, { "epoch": 8.391666666666667, "grad_norm": 0.0005283768987283111, "learning_rate": 8.815555555555556e-05, "loss": 0.0001, "step": 5035 }, { "epoch": 8.4, "grad_norm": 0.0005246053333394229, "learning_rate": 8.804444444444445e-05, "loss": 0.0001, "step": 5040 }, { "epoch": 8.408333333333333, "grad_norm": 0.000534182705450803, "learning_rate": 8.793333333333333e-05, "loss": 0.0001, "step": 5045 }, { "epoch": 8.416666666666666, "grad_norm": 0.0007425366784445941, "learning_rate": 8.782222222222223e-05, "loss": 0.0001, "step": 5050 }, { "epoch": 8.425, "grad_norm": 0.0006173907313495874, "learning_rate": 8.771111111111112e-05, "loss": 0.0001, "step": 5055 }, { "epoch": 8.433333333333334, "grad_norm": 0.0005368869169615209, "learning_rate": 8.76e-05, "loss": 0.0001, "step": 5060 }, { "epoch": 8.441666666666666, "grad_norm": 0.0005099184927530587, "learning_rate": 8.74888888888889e-05, "loss": 0.0001, "step": 5065 }, { "epoch": 8.45, "grad_norm": 0.0006462688907049596, "learning_rate": 8.737777777777778e-05, "loss": 0.0001, "step": 5070 }, { "epoch": 8.458333333333334, "grad_norm": 0.0007187098963186145, "learning_rate": 8.726666666666667e-05, "loss": 0.0001, "step": 5075 }, { "epoch": 8.466666666666667, "grad_norm": 0.0005771134165115654, "learning_rate": 8.715555555555555e-05, "loss": 0.0001, "step": 5080 }, { "epoch": 8.475, "grad_norm": 0.0005171639495529234, "learning_rate": 8.704444444444445e-05, "loss": 0.0001, "step": 5085 }, { "epoch": 8.483333333333333, "grad_norm": 0.00047042028745636344, "learning_rate": 8.693333333333334e-05, "loss": 0.0001, "step": 5090 }, { "epoch": 8.491666666666667, "grad_norm": 0.000461747869849205, "learning_rate": 8.682222222222222e-05, "loss": 0.0001, "step": 5095 }, { "epoch": 8.5, "grad_norm": 0.00047508825082331896, "learning_rate": 8.671111111111112e-05, "loss": 0.0001, "step": 5100 }, { "epoch": 8.5, "eval_accuracy": 0.8804166666666666, "eval_f1": 0.8805607320641582, "eval_loss": 0.7636107802391052, "eval_precision": 0.8875162923164875, "eval_recall": 0.8804166666666666, "eval_runtime": 17.1191, "eval_samples_per_second": 140.194, "eval_steps_per_second": 17.524, "step": 5100 }, { "epoch": 8.508333333333333, "grad_norm": 0.0005343469092622399, "learning_rate": 8.66e-05, "loss": 0.0001, "step": 5105 }, { "epoch": 8.516666666666667, "grad_norm": 0.00043780551641248167, "learning_rate": 8.64888888888889e-05, "loss": 0.0001, "step": 5110 }, { "epoch": 8.525, "grad_norm": 0.0005542599246837199, "learning_rate": 8.637777777777777e-05, "loss": 0.0001, "step": 5115 }, { "epoch": 8.533333333333333, "grad_norm": 0.0006437452975660563, "learning_rate": 8.626666666666667e-05, "loss": 0.0001, "step": 5120 }, { "epoch": 8.541666666666666, "grad_norm": 0.0006649192655459046, "learning_rate": 8.615555555555556e-05, "loss": 0.0001, "step": 5125 }, { "epoch": 8.55, "grad_norm": 0.00042472241329960525, "learning_rate": 8.604444444444445e-05, "loss": 0.0001, "step": 5130 }, { "epoch": 8.558333333333334, "grad_norm": 0.0005514469230547547, "learning_rate": 8.593333333333333e-05, "loss": 0.0001, "step": 5135 }, { "epoch": 8.566666666666666, "grad_norm": 0.0005236461292952299, "learning_rate": 8.582222222222222e-05, "loss": 0.0001, "step": 5140 }, { "epoch": 8.575, "grad_norm": 0.0005995632382109761, "learning_rate": 8.571111111111112e-05, "loss": 0.0001, "step": 5145 }, { "epoch": 8.583333333333334, "grad_norm": 0.0005066106677986681, "learning_rate": 8.560000000000001e-05, "loss": 0.0001, "step": 5150 }, { "epoch": 8.591666666666667, "grad_norm": 0.0005811863811686635, "learning_rate": 8.548888888888889e-05, "loss": 0.0001, "step": 5155 }, { "epoch": 8.6, "grad_norm": 0.0007649313192814589, "learning_rate": 8.537777777777778e-05, "loss": 0.0001, "step": 5160 }, { "epoch": 8.608333333333333, "grad_norm": 0.0005464827991090715, "learning_rate": 8.526666666666667e-05, "loss": 0.0001, "step": 5165 }, { "epoch": 8.616666666666667, "grad_norm": 0.0005536903045140207, "learning_rate": 8.515555555555556e-05, "loss": 0.0001, "step": 5170 }, { "epoch": 8.625, "grad_norm": 0.00046739334356971085, "learning_rate": 8.504444444444444e-05, "loss": 0.0001, "step": 5175 }, { "epoch": 8.633333333333333, "grad_norm": 0.0005300568882375956, "learning_rate": 8.493333333333334e-05, "loss": 0.0001, "step": 5180 }, { "epoch": 8.641666666666667, "grad_norm": 0.0005570261273533106, "learning_rate": 8.482222222222223e-05, "loss": 0.0001, "step": 5185 }, { "epoch": 8.65, "grad_norm": 0.0004235902742948383, "learning_rate": 8.471111111111113e-05, "loss": 0.0001, "step": 5190 }, { "epoch": 8.658333333333333, "grad_norm": 0.0006803914438933134, "learning_rate": 8.46e-05, "loss": 0.0001, "step": 5195 }, { "epoch": 8.666666666666666, "grad_norm": 0.0004896549507975578, "learning_rate": 8.44888888888889e-05, "loss": 0.0001, "step": 5200 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.8791666666666667, "eval_f1": 0.8793950560540839, "eval_loss": 0.7681140899658203, "eval_precision": 0.8868832830677601, "eval_recall": 0.8791666666666667, "eval_runtime": 17.6372, "eval_samples_per_second": 136.076, "eval_steps_per_second": 17.01, "step": 5200 }, { "epoch": 8.675, "grad_norm": 0.0004407647647894919, "learning_rate": 8.437777777777778e-05, "loss": 0.0001, "step": 5205 }, { "epoch": 8.683333333333334, "grad_norm": 0.0004512774758040905, "learning_rate": 8.426666666666668e-05, "loss": 0.0001, "step": 5210 }, { "epoch": 8.691666666666666, "grad_norm": 0.000437636103015393, "learning_rate": 8.415555555555555e-05, "loss": 0.0001, "step": 5215 }, { "epoch": 8.7, "grad_norm": 0.0005949974874965847, "learning_rate": 8.404444444444445e-05, "loss": 0.0001, "step": 5220 }, { "epoch": 8.708333333333334, "grad_norm": 0.0004958495846949518, "learning_rate": 8.393333333333335e-05, "loss": 0.0001, "step": 5225 }, { "epoch": 8.716666666666667, "grad_norm": 0.000493856961838901, "learning_rate": 8.382222222222223e-05, "loss": 0.0001, "step": 5230 }, { "epoch": 8.725, "grad_norm": 0.000502238399349153, "learning_rate": 8.371111111111111e-05, "loss": 0.0001, "step": 5235 }, { "epoch": 8.733333333333333, "grad_norm": 0.000562617729883641, "learning_rate": 8.36e-05, "loss": 0.0001, "step": 5240 }, { "epoch": 8.741666666666667, "grad_norm": 0.0004537556378636509, "learning_rate": 8.34888888888889e-05, "loss": 0.0001, "step": 5245 }, { "epoch": 8.75, "grad_norm": 0.00048734352458268404, "learning_rate": 8.337777777777778e-05, "loss": 0.0001, "step": 5250 }, { "epoch": 8.758333333333333, "grad_norm": 0.0005970936035737395, "learning_rate": 8.326666666666667e-05, "loss": 0.0001, "step": 5255 }, { "epoch": 8.766666666666667, "grad_norm": 0.0006076979916542768, "learning_rate": 8.315555555555557e-05, "loss": 0.0001, "step": 5260 }, { "epoch": 8.775, "grad_norm": 0.0005493343342095613, "learning_rate": 8.304444444444445e-05, "loss": 0.0001, "step": 5265 }, { "epoch": 8.783333333333333, "grad_norm": 0.0004977509379386902, "learning_rate": 8.293333333333333e-05, "loss": 0.0001, "step": 5270 }, { "epoch": 8.791666666666666, "grad_norm": 0.0005646569770760834, "learning_rate": 8.282222222222222e-05, "loss": 0.0001, "step": 5275 }, { "epoch": 8.8, "grad_norm": 0.00052513467380777, "learning_rate": 8.271111111111112e-05, "loss": 0.0001, "step": 5280 }, { "epoch": 8.808333333333334, "grad_norm": 0.00044975068885833025, "learning_rate": 8.26e-05, "loss": 0.0001, "step": 5285 }, { "epoch": 8.816666666666666, "grad_norm": 0.0003977883607149124, "learning_rate": 8.248888888888889e-05, "loss": 0.0001, "step": 5290 }, { "epoch": 8.825, "grad_norm": 0.0004531710292212665, "learning_rate": 8.237777777777778e-05, "loss": 0.0001, "step": 5295 }, { "epoch": 8.833333333333334, "grad_norm": 0.0005068019963800907, "learning_rate": 8.226666666666667e-05, "loss": 0.0001, "step": 5300 }, { "epoch": 8.833333333333334, "eval_accuracy": 0.8795833333333334, "eval_f1": 0.8798671829837154, "eval_loss": 0.7719956636428833, "eval_precision": 0.887671403295891, "eval_recall": 0.8795833333333334, "eval_runtime": 17.621, "eval_samples_per_second": 136.201, "eval_steps_per_second": 17.025, "step": 5300 }, { "epoch": 8.841666666666667, "grad_norm": 0.0004313798272050917, "learning_rate": 8.215555555555557e-05, "loss": 0.0001, "step": 5305 }, { "epoch": 8.85, "grad_norm": 0.0004567605792544782, "learning_rate": 8.204444444444445e-05, "loss": 0.0001, "step": 5310 }, { "epoch": 8.858333333333333, "grad_norm": 0.0005286894738674164, "learning_rate": 8.193333333333334e-05, "loss": 0.0001, "step": 5315 }, { "epoch": 8.866666666666667, "grad_norm": 0.0005558696575462818, "learning_rate": 8.182222222222222e-05, "loss": 0.0001, "step": 5320 }, { "epoch": 8.875, "grad_norm": 0.000521381211001426, "learning_rate": 8.171111111111112e-05, "loss": 0.0001, "step": 5325 }, { "epoch": 8.883333333333333, "grad_norm": 0.0008101433049887419, "learning_rate": 8.16e-05, "loss": 0.0001, "step": 5330 }, { "epoch": 8.891666666666667, "grad_norm": 0.0004850794794037938, "learning_rate": 8.148888888888889e-05, "loss": 0.0001, "step": 5335 }, { "epoch": 8.9, "grad_norm": 0.0005164266913197935, "learning_rate": 8.137777777777779e-05, "loss": 0.0001, "step": 5340 }, { "epoch": 8.908333333333333, "grad_norm": 0.000621224578935653, "learning_rate": 8.126666666666667e-05, "loss": 0.0001, "step": 5345 }, { "epoch": 8.916666666666666, "grad_norm": 0.0004971388843841851, "learning_rate": 8.115555555555556e-05, "loss": 0.0001, "step": 5350 }, { "epoch": 8.925, "grad_norm": 0.000433589011663571, "learning_rate": 8.104444444444444e-05, "loss": 0.0001, "step": 5355 }, { "epoch": 8.933333333333334, "grad_norm": 0.00045300982310436666, "learning_rate": 8.093333333333334e-05, "loss": 0.0001, "step": 5360 }, { "epoch": 8.941666666666666, "grad_norm": 0.00042154520633630455, "learning_rate": 8.082222222222222e-05, "loss": 0.0001, "step": 5365 }, { "epoch": 8.95, "grad_norm": 0.0004596524522639811, "learning_rate": 8.071111111111111e-05, "loss": 0.0001, "step": 5370 }, { "epoch": 8.958333333333334, "grad_norm": 0.0012809450272470713, "learning_rate": 8.060000000000001e-05, "loss": 0.0001, "step": 5375 }, { "epoch": 8.966666666666667, "grad_norm": 0.00042875119834207, "learning_rate": 8.048888888888889e-05, "loss": 0.0001, "step": 5380 }, { "epoch": 8.975, "grad_norm": 0.0004102617676835507, "learning_rate": 8.037777777777779e-05, "loss": 0.0001, "step": 5385 }, { "epoch": 8.983333333333333, "grad_norm": 0.0005320555646903813, "learning_rate": 8.026666666666666e-05, "loss": 0.0001, "step": 5390 }, { "epoch": 8.991666666666667, "grad_norm": 0.0004336040292400867, "learning_rate": 8.015555555555556e-05, "loss": 0.0001, "step": 5395 }, { "epoch": 9.0, "grad_norm": 0.00039306472172029316, "learning_rate": 8.004444444444444e-05, "loss": 0.0001, "step": 5400 }, { "epoch": 9.0, "eval_accuracy": 0.8795833333333334, "eval_f1": 0.8798465647400839, "eval_loss": 0.7743276953697205, "eval_precision": 0.8876143362280338, "eval_recall": 0.8795833333333334, "eval_runtime": 17.4407, "eval_samples_per_second": 137.609, "eval_steps_per_second": 17.201, "step": 5400 }, { "epoch": 9.008333333333333, "grad_norm": 0.0004652721981983632, "learning_rate": 7.993333333333334e-05, "loss": 0.0001, "step": 5405 }, { "epoch": 9.016666666666667, "grad_norm": 0.0004225676239002496, "learning_rate": 7.982222222222223e-05, "loss": 0.0001, "step": 5410 }, { "epoch": 9.025, "grad_norm": 0.0004252385697327554, "learning_rate": 7.971111111111111e-05, "loss": 0.0001, "step": 5415 }, { "epoch": 9.033333333333333, "grad_norm": 0.00042692877468653023, "learning_rate": 7.960000000000001e-05, "loss": 0.0001, "step": 5420 }, { "epoch": 9.041666666666666, "grad_norm": 0.0004223395080771297, "learning_rate": 7.94888888888889e-05, "loss": 0.0001, "step": 5425 }, { "epoch": 9.05, "grad_norm": 0.000479278591228649, "learning_rate": 7.937777777777778e-05, "loss": 0.0001, "step": 5430 }, { "epoch": 9.058333333333334, "grad_norm": 0.00035655719693750143, "learning_rate": 7.926666666666666e-05, "loss": 0.0001, "step": 5435 }, { "epoch": 9.066666666666666, "grad_norm": 0.0004678965196944773, "learning_rate": 7.915555555555556e-05, "loss": 0.0001, "step": 5440 }, { "epoch": 9.075, "grad_norm": 0.0004794033011421561, "learning_rate": 7.904444444444445e-05, "loss": 0.0001, "step": 5445 }, { "epoch": 9.083333333333334, "grad_norm": 0.0004546081181615591, "learning_rate": 7.893333333333333e-05, "loss": 0.0001, "step": 5450 }, { "epoch": 9.091666666666667, "grad_norm": 0.0005047711310908198, "learning_rate": 7.882222222222223e-05, "loss": 0.0001, "step": 5455 }, { "epoch": 9.1, "grad_norm": 0.0005781468935310841, "learning_rate": 7.871111111111111e-05, "loss": 0.0001, "step": 5460 }, { "epoch": 9.108333333333333, "grad_norm": 0.0004952818853780627, "learning_rate": 7.860000000000001e-05, "loss": 0.0001, "step": 5465 }, { "epoch": 9.116666666666667, "grad_norm": 0.0005105639575049281, "learning_rate": 7.848888888888888e-05, "loss": 0.0001, "step": 5470 }, { "epoch": 9.125, "grad_norm": 0.0004492227453738451, "learning_rate": 7.837777777777778e-05, "loss": 0.0001, "step": 5475 }, { "epoch": 9.133333333333333, "grad_norm": 0.00041827597306109965, "learning_rate": 7.826666666666667e-05, "loss": 0.0001, "step": 5480 }, { "epoch": 9.141666666666667, "grad_norm": 0.0004527773999143392, "learning_rate": 7.815555555555557e-05, "loss": 0.0001, "step": 5485 }, { "epoch": 9.15, "grad_norm": 0.0004656276141759008, "learning_rate": 7.804444444444445e-05, "loss": 0.0001, "step": 5490 }, { "epoch": 9.158333333333333, "grad_norm": 0.00040631412412039936, "learning_rate": 7.793333333333333e-05, "loss": 0.0001, "step": 5495 }, { "epoch": 9.166666666666666, "grad_norm": 0.0004124371043872088, "learning_rate": 7.782222222222223e-05, "loss": 0.0001, "step": 5500 }, { "epoch": 9.166666666666666, "eval_accuracy": 0.88, "eval_f1": 0.8802361801641941, "eval_loss": 0.7770705819129944, "eval_precision": 0.8879611741423177, "eval_recall": 0.88, "eval_runtime": 17.4829, "eval_samples_per_second": 137.277, "eval_steps_per_second": 17.16, "step": 5500 }, { "epoch": 9.175, "grad_norm": 0.0005530813941732049, "learning_rate": 7.771111111111112e-05, "loss": 0.0001, "step": 5505 }, { "epoch": 9.183333333333334, "grad_norm": 0.0003916459681931883, "learning_rate": 7.76e-05, "loss": 0.0001, "step": 5510 }, { "epoch": 9.191666666666666, "grad_norm": 0.00040643461397849023, "learning_rate": 7.748888888888889e-05, "loss": 0.0001, "step": 5515 }, { "epoch": 9.2, "grad_norm": 0.00046454352559521794, "learning_rate": 7.737777777777779e-05, "loss": 0.0001, "step": 5520 }, { "epoch": 9.208333333333334, "grad_norm": 0.00047920091310516, "learning_rate": 7.726666666666667e-05, "loss": 0.0001, "step": 5525 }, { "epoch": 9.216666666666667, "grad_norm": 0.0006225931574590504, "learning_rate": 7.715555555555555e-05, "loss": 0.0001, "step": 5530 }, { "epoch": 9.225, "grad_norm": 0.0004532362218014896, "learning_rate": 7.704444444444445e-05, "loss": 0.0001, "step": 5535 }, { "epoch": 9.233333333333333, "grad_norm": 0.0004309913783799857, "learning_rate": 7.693333333333334e-05, "loss": 0.0001, "step": 5540 }, { "epoch": 9.241666666666667, "grad_norm": 0.00040445607737638056, "learning_rate": 7.682222222222222e-05, "loss": 0.0001, "step": 5545 }, { "epoch": 9.25, "grad_norm": 0.00039332054439000785, "learning_rate": 7.671111111111111e-05, "loss": 0.0001, "step": 5550 }, { "epoch": 9.258333333333333, "grad_norm": 0.00039483309956267476, "learning_rate": 7.66e-05, "loss": 0.0001, "step": 5555 }, { "epoch": 9.266666666666667, "grad_norm": 0.00046368446783162653, "learning_rate": 7.648888888888889e-05, "loss": 0.0001, "step": 5560 }, { "epoch": 9.275, "grad_norm": 0.0007501105428673327, "learning_rate": 7.637777777777779e-05, "loss": 0.0001, "step": 5565 }, { "epoch": 9.283333333333333, "grad_norm": 0.0005250920075923204, "learning_rate": 7.626666666666667e-05, "loss": 0.0001, "step": 5570 }, { "epoch": 9.291666666666666, "grad_norm": 0.00047300884034484625, "learning_rate": 7.615555555555556e-05, "loss": 0.0001, "step": 5575 }, { "epoch": 9.3, "grad_norm": 0.000653983443044126, "learning_rate": 7.604444444444446e-05, "loss": 0.0001, "step": 5580 }, { "epoch": 9.308333333333334, "grad_norm": 0.00040461710887029767, "learning_rate": 7.593333333333334e-05, "loss": 0.0001, "step": 5585 }, { "epoch": 9.316666666666666, "grad_norm": 0.0004144300473853946, "learning_rate": 7.582222222222223e-05, "loss": 0.0001, "step": 5590 }, { "epoch": 9.325, "grad_norm": 0.0004948415444232523, "learning_rate": 7.571111111111111e-05, "loss": 0.0001, "step": 5595 }, { "epoch": 9.333333333333334, "grad_norm": 0.0005347439437173307, "learning_rate": 7.560000000000001e-05, "loss": 0.0001, "step": 5600 }, { "epoch": 9.333333333333334, "eval_accuracy": 0.8804166666666666, "eval_f1": 0.8806236104797504, "eval_loss": 0.7801147699356079, "eval_precision": 0.8882516731881499, "eval_recall": 0.8804166666666666, "eval_runtime": 17.4799, "eval_samples_per_second": 137.301, "eval_steps_per_second": 17.163, "step": 5600 }, { "epoch": 9.341666666666667, "grad_norm": 0.00039381973329000175, "learning_rate": 7.548888888888889e-05, "loss": 0.0001, "step": 5605 }, { "epoch": 9.35, "grad_norm": 0.00042462663259357214, "learning_rate": 7.537777777777778e-05, "loss": 0.0001, "step": 5610 }, { "epoch": 9.358333333333333, "grad_norm": 0.0005812649033032358, "learning_rate": 7.526666666666668e-05, "loss": 0.0001, "step": 5615 }, { "epoch": 9.366666666666667, "grad_norm": 0.0004944884567521513, "learning_rate": 7.515555555555556e-05, "loss": 0.0001, "step": 5620 }, { "epoch": 9.375, "grad_norm": 0.0004059509956277907, "learning_rate": 7.504444444444444e-05, "loss": 0.0001, "step": 5625 }, { "epoch": 9.383333333333333, "grad_norm": 0.0005290340632200241, "learning_rate": 7.493333333333333e-05, "loss": 0.0001, "step": 5630 }, { "epoch": 9.391666666666667, "grad_norm": 0.0004864747170358896, "learning_rate": 7.482222222222223e-05, "loss": 0.0001, "step": 5635 }, { "epoch": 9.4, "grad_norm": 0.0003927831712644547, "learning_rate": 7.471111111111111e-05, "loss": 0.0001, "step": 5640 }, { "epoch": 9.408333333333333, "grad_norm": 0.00036307511618360877, "learning_rate": 7.46e-05, "loss": 0.0001, "step": 5645 }, { "epoch": 9.416666666666666, "grad_norm": 0.00045947227044962347, "learning_rate": 7.44888888888889e-05, "loss": 0.0001, "step": 5650 }, { "epoch": 9.425, "grad_norm": 0.0003939911548513919, "learning_rate": 7.437777777777778e-05, "loss": 0.0001, "step": 5655 }, { "epoch": 9.433333333333334, "grad_norm": 0.0004549895238596946, "learning_rate": 7.426666666666668e-05, "loss": 0.0001, "step": 5660 }, { "epoch": 9.441666666666666, "grad_norm": 0.0003974262217525393, "learning_rate": 7.415555555555555e-05, "loss": 0.0001, "step": 5665 }, { "epoch": 9.45, "grad_norm": 0.00036745844408869743, "learning_rate": 7.404444444444445e-05, "loss": 0.0001, "step": 5670 }, { "epoch": 9.458333333333334, "grad_norm": 0.00041523692198097706, "learning_rate": 7.393333333333333e-05, "loss": 0.0001, "step": 5675 }, { "epoch": 9.466666666666667, "grad_norm": 0.0005098420078866184, "learning_rate": 7.382222222222223e-05, "loss": 0.0001, "step": 5680 }, { "epoch": 9.475, "grad_norm": 0.00039752357406541705, "learning_rate": 7.371111111111112e-05, "loss": 0.0001, "step": 5685 }, { "epoch": 9.483333333333333, "grad_norm": 0.00043895290582440794, "learning_rate": 7.36e-05, "loss": 0.0001, "step": 5690 }, { "epoch": 9.491666666666667, "grad_norm": 0.0003333947097416967, "learning_rate": 7.34888888888889e-05, "loss": 0.0001, "step": 5695 }, { "epoch": 9.5, "grad_norm": 0.00039290296263061464, "learning_rate": 7.337777777777778e-05, "loss": 0.0001, "step": 5700 }, { "epoch": 9.5, "eval_accuracy": 0.8804166666666666, "eval_f1": 0.8806236104797504, "eval_loss": 0.782294750213623, "eval_precision": 0.8882516731881499, "eval_recall": 0.8804166666666666, "eval_runtime": 17.3979, "eval_samples_per_second": 137.947, "eval_steps_per_second": 17.243, "step": 5700 }, { "epoch": 9.508333333333333, "grad_norm": 0.00039723003283143044, "learning_rate": 7.326666666666667e-05, "loss": 0.0001, "step": 5705 }, { "epoch": 9.516666666666667, "grad_norm": 0.0004527732089627534, "learning_rate": 7.315555555555555e-05, "loss": 0.0001, "step": 5710 }, { "epoch": 9.525, "grad_norm": 0.0004241722053848207, "learning_rate": 7.304444444444445e-05, "loss": 0.0001, "step": 5715 }, { "epoch": 9.533333333333333, "grad_norm": 0.0003958418092224747, "learning_rate": 7.293333333333334e-05, "loss": 0.0001, "step": 5720 }, { "epoch": 9.541666666666666, "grad_norm": 0.0005423824768513441, "learning_rate": 7.282222222222222e-05, "loss": 0.0001, "step": 5725 }, { "epoch": 9.55, "grad_norm": 0.00035519988159649074, "learning_rate": 7.271111111111112e-05, "loss": 0.0001, "step": 5730 }, { "epoch": 9.558333333333334, "grad_norm": 0.0004989489098079503, "learning_rate": 7.26e-05, "loss": 0.0001, "step": 5735 }, { "epoch": 9.566666666666666, "grad_norm": 0.0003438974672462791, "learning_rate": 7.24888888888889e-05, "loss": 0.0001, "step": 5740 }, { "epoch": 9.575, "grad_norm": 0.0003975847503170371, "learning_rate": 7.237777777777777e-05, "loss": 0.0001, "step": 5745 }, { "epoch": 9.583333333333334, "grad_norm": 0.0003625333192758262, "learning_rate": 7.226666666666667e-05, "loss": 0.0001, "step": 5750 }, { "epoch": 9.591666666666667, "grad_norm": 0.0004028902330901474, "learning_rate": 7.215555555555556e-05, "loss": 0.0001, "step": 5755 }, { "epoch": 9.6, "grad_norm": 0.0003277721698395908, "learning_rate": 7.204444444444445e-05, "loss": 0.0001, "step": 5760 }, { "epoch": 9.608333333333333, "grad_norm": 0.00036211320548318326, "learning_rate": 7.193333333333334e-05, "loss": 0.0001, "step": 5765 }, { "epoch": 9.616666666666667, "grad_norm": 0.0004942003288306296, "learning_rate": 7.182222222222222e-05, "loss": 0.0001, "step": 5770 }, { "epoch": 9.625, "grad_norm": 0.00031496965675614774, "learning_rate": 7.171111111111112e-05, "loss": 0.0001, "step": 5775 }, { "epoch": 9.633333333333333, "grad_norm": 0.0003243603277951479, "learning_rate": 7.16e-05, "loss": 0.0001, "step": 5780 }, { "epoch": 9.641666666666667, "grad_norm": 0.0003533444250933826, "learning_rate": 7.148888888888889e-05, "loss": 0.0001, "step": 5785 }, { "epoch": 9.65, "grad_norm": 0.0004646900051739067, "learning_rate": 7.137777777777778e-05, "loss": 0.0001, "step": 5790 }, { "epoch": 9.658333333333333, "grad_norm": 0.00034319059341214597, "learning_rate": 7.126666666666667e-05, "loss": 0.0001, "step": 5795 }, { "epoch": 9.666666666666666, "grad_norm": 0.00040155326132662594, "learning_rate": 7.115555555555556e-05, "loss": 0.0001, "step": 5800 }, { "epoch": 9.666666666666666, "eval_accuracy": 0.8808333333333334, "eval_f1": 0.881010737772863, "eval_loss": 0.7851448655128479, "eval_precision": 0.8885428485217456, "eval_recall": 0.8808333333333334, "eval_runtime": 17.2825, "eval_samples_per_second": 138.869, "eval_steps_per_second": 17.359, "step": 5800 }, { "epoch": 9.675, "grad_norm": 0.0003623182128649205, "learning_rate": 7.104444444444444e-05, "loss": 0.0001, "step": 5805 }, { "epoch": 9.683333333333334, "grad_norm": 0.0003610798448789865, "learning_rate": 7.093333333333334e-05, "loss": 0.0001, "step": 5810 }, { "epoch": 9.691666666666666, "grad_norm": 0.0003804390144068748, "learning_rate": 7.082222222222223e-05, "loss": 0.0001, "step": 5815 }, { "epoch": 9.7, "grad_norm": 0.0004041102365590632, "learning_rate": 7.071111111111111e-05, "loss": 0.0001, "step": 5820 }, { "epoch": 9.708333333333334, "grad_norm": 0.0003720351087395102, "learning_rate": 7.06e-05, "loss": 0.0001, "step": 5825 }, { "epoch": 9.716666666666667, "grad_norm": 0.0003104229108430445, "learning_rate": 7.048888888888889e-05, "loss": 0.0001, "step": 5830 }, { "epoch": 9.725, "grad_norm": 0.00031105359084904194, "learning_rate": 7.037777777777778e-05, "loss": 0.0001, "step": 5835 }, { "epoch": 9.733333333333333, "grad_norm": 0.0003377147950232029, "learning_rate": 7.026666666666668e-05, "loss": 0.0001, "step": 5840 }, { "epoch": 9.741666666666667, "grad_norm": 0.00040647349669598043, "learning_rate": 7.015555555555556e-05, "loss": 0.0001, "step": 5845 }, { "epoch": 9.75, "grad_norm": 0.0004276078543625772, "learning_rate": 7.004444444444445e-05, "loss": 0.0001, "step": 5850 }, { "epoch": 9.758333333333333, "grad_norm": 0.0003333464846946299, "learning_rate": 6.993333333333334e-05, "loss": 0.0001, "step": 5855 }, { "epoch": 9.766666666666667, "grad_norm": 0.00036082195583730936, "learning_rate": 6.982222222222223e-05, "loss": 0.0001, "step": 5860 }, { "epoch": 9.775, "grad_norm": 0.0004102488455828279, "learning_rate": 6.971111111111111e-05, "loss": 0.0001, "step": 5865 }, { "epoch": 9.783333333333333, "grad_norm": 0.00033012923086062074, "learning_rate": 6.96e-05, "loss": 0.0001, "step": 5870 }, { "epoch": 9.791666666666666, "grad_norm": 0.0004091962764505297, "learning_rate": 6.94888888888889e-05, "loss": 0.0001, "step": 5875 }, { "epoch": 9.8, "grad_norm": 0.00036389121669344604, "learning_rate": 6.937777777777778e-05, "loss": 0.0001, "step": 5880 }, { "epoch": 9.808333333333334, "grad_norm": 0.0004189432947896421, "learning_rate": 6.926666666666667e-05, "loss": 0.0001, "step": 5885 }, { "epoch": 9.816666666666666, "grad_norm": 0.0004483881057240069, "learning_rate": 6.915555555555556e-05, "loss": 0.0001, "step": 5890 }, { "epoch": 9.825, "grad_norm": 0.00033093037200160325, "learning_rate": 6.904444444444445e-05, "loss": 0.0001, "step": 5895 }, { "epoch": 9.833333333333334, "grad_norm": 0.00045201292959973216, "learning_rate": 6.893333333333333e-05, "loss": 0.0001, "step": 5900 }, { "epoch": 9.833333333333334, "eval_accuracy": 0.8808333333333334, "eval_f1": 0.881010737772863, "eval_loss": 0.7872864007949829, "eval_precision": 0.8885428485217456, "eval_recall": 0.8808333333333334, "eval_runtime": 17.4239, "eval_samples_per_second": 137.742, "eval_steps_per_second": 17.218, "step": 5900 }, { "epoch": 9.841666666666667, "grad_norm": 0.0004162530822213739, "learning_rate": 6.882222222222222e-05, "loss": 0.0001, "step": 5905 }, { "epoch": 9.85, "grad_norm": 0.00037770584458485246, "learning_rate": 6.871111111111112e-05, "loss": 0.0001, "step": 5910 }, { "epoch": 9.858333333333333, "grad_norm": 0.00038861078792251647, "learning_rate": 6.860000000000001e-05, "loss": 0.0001, "step": 5915 }, { "epoch": 9.866666666666667, "grad_norm": 0.00039814741467125714, "learning_rate": 6.848888888888889e-05, "loss": 0.0001, "step": 5920 }, { "epoch": 9.875, "grad_norm": 0.0004332556272856891, "learning_rate": 6.837777777777778e-05, "loss": 0.0001, "step": 5925 }, { "epoch": 9.883333333333333, "grad_norm": 0.0003353830543346703, "learning_rate": 6.826666666666667e-05, "loss": 0.0001, "step": 5930 }, { "epoch": 9.891666666666667, "grad_norm": 0.00030491940560750663, "learning_rate": 6.815555555555557e-05, "loss": 0.0001, "step": 5935 }, { "epoch": 9.9, "grad_norm": 0.00039570912485942245, "learning_rate": 6.804444444444444e-05, "loss": 0.0001, "step": 5940 }, { "epoch": 9.908333333333333, "grad_norm": 0.00035352862323634326, "learning_rate": 6.793333333333334e-05, "loss": 0.0001, "step": 5945 }, { "epoch": 9.916666666666666, "grad_norm": 0.00039528129855170846, "learning_rate": 6.782222222222222e-05, "loss": 0.0001, "step": 5950 }, { "epoch": 9.925, "grad_norm": 0.00034251718898303807, "learning_rate": 6.771111111111112e-05, "loss": 0.0001, "step": 5955 }, { "epoch": 9.933333333333334, "grad_norm": 0.00045614835107699037, "learning_rate": 6.76e-05, "loss": 0.0001, "step": 5960 }, { "epoch": 9.941666666666666, "grad_norm": 0.00037090267869643867, "learning_rate": 6.748888888888889e-05, "loss": 0.0001, "step": 5965 }, { "epoch": 9.95, "grad_norm": 0.0003231066802982241, "learning_rate": 6.737777777777779e-05, "loss": 0.0001, "step": 5970 }, { "epoch": 9.958333333333334, "grad_norm": 0.0004606390430126339, "learning_rate": 6.726666666666667e-05, "loss": 0.0001, "step": 5975 }, { "epoch": 9.966666666666667, "grad_norm": 0.00032920268131420016, "learning_rate": 6.715555555555556e-05, "loss": 0.0001, "step": 5980 }, { "epoch": 9.975, "grad_norm": 0.00040149924461729825, "learning_rate": 6.704444444444444e-05, "loss": 0.0001, "step": 5985 }, { "epoch": 9.983333333333333, "grad_norm": 0.00039831726462580264, "learning_rate": 6.693333333333334e-05, "loss": 0.0001, "step": 5990 }, { "epoch": 9.991666666666667, "grad_norm": 0.00033455301309004426, "learning_rate": 6.682222222222224e-05, "loss": 0.0001, "step": 5995 }, { "epoch": 10.0, "grad_norm": 0.00039889695472083986, "learning_rate": 6.671111111111111e-05, "loss": 0.0001, "step": 6000 }, { "epoch": 10.0, "eval_accuracy": 0.88125, "eval_f1": 0.8814041612868396, "eval_loss": 0.7906891107559204, "eval_precision": 0.8890034973640458, "eval_recall": 0.88125, "eval_runtime": 17.4307, "eval_samples_per_second": 137.688, "eval_steps_per_second": 17.211, "step": 6000 }, { "epoch": 10.008333333333333, "grad_norm": 0.00030316715128719807, "learning_rate": 6.66e-05, "loss": 0.0001, "step": 6005 }, { "epoch": 10.016666666666667, "grad_norm": 0.0003930546226911247, "learning_rate": 6.648888888888889e-05, "loss": 0.0001, "step": 6010 }, { "epoch": 10.025, "grad_norm": 0.0004007877432741225, "learning_rate": 6.637777777777779e-05, "loss": 0.0001, "step": 6015 }, { "epoch": 10.033333333333333, "grad_norm": 0.00039761216612532735, "learning_rate": 6.626666666666666e-05, "loss": 0.0001, "step": 6020 }, { "epoch": 10.041666666666666, "grad_norm": 0.0002897311351262033, "learning_rate": 6.615555555555556e-05, "loss": 0.0001, "step": 6025 }, { "epoch": 10.05, "grad_norm": 0.0003257059142924845, "learning_rate": 6.604444444444444e-05, "loss": 0.0001, "step": 6030 }, { "epoch": 10.058333333333334, "grad_norm": 0.0003431485965847969, "learning_rate": 6.593333333333334e-05, "loss": 0.0001, "step": 6035 }, { "epoch": 10.066666666666666, "grad_norm": 0.00045966103789396584, "learning_rate": 6.582222222222223e-05, "loss": 0.0001, "step": 6040 }, { "epoch": 10.075, "grad_norm": 0.0003718521911650896, "learning_rate": 6.571111111111111e-05, "loss": 0.0001, "step": 6045 }, { "epoch": 10.083333333333334, "grad_norm": 0.00040726008592173457, "learning_rate": 6.560000000000001e-05, "loss": 0.0001, "step": 6050 }, { "epoch": 10.091666666666667, "grad_norm": 0.0003261077799834311, "learning_rate": 6.54888888888889e-05, "loss": 0.0001, "step": 6055 }, { "epoch": 10.1, "grad_norm": 0.0003004331374540925, "learning_rate": 6.537777777777778e-05, "loss": 0.0001, "step": 6060 }, { "epoch": 10.108333333333333, "grad_norm": 0.00031846921774558723, "learning_rate": 6.526666666666666e-05, "loss": 0.0001, "step": 6065 }, { "epoch": 10.116666666666667, "grad_norm": 0.0003452165983617306, "learning_rate": 6.515555555555556e-05, "loss": 0.0001, "step": 6070 }, { "epoch": 10.125, "grad_norm": 0.00030157429864630103, "learning_rate": 6.504444444444445e-05, "loss": 0.0001, "step": 6075 }, { "epoch": 10.133333333333333, "grad_norm": 0.0003013907407876104, "learning_rate": 6.493333333333333e-05, "loss": 0.0001, "step": 6080 }, { "epoch": 10.141666666666667, "grad_norm": 0.00039939957787282765, "learning_rate": 6.482222222222223e-05, "loss": 0.0001, "step": 6085 }, { "epoch": 10.15, "grad_norm": 0.0003958263259846717, "learning_rate": 6.471111111111111e-05, "loss": 0.0001, "step": 6090 }, { "epoch": 10.158333333333333, "grad_norm": 0.0003653182357084006, "learning_rate": 6.460000000000001e-05, "loss": 0.0001, "step": 6095 }, { "epoch": 10.166666666666666, "grad_norm": 0.0003868579224217683, "learning_rate": 6.448888888888888e-05, "loss": 0.0001, "step": 6100 }, { "epoch": 10.166666666666666, "eval_accuracy": 0.8816666666666667, "eval_f1": 0.8817909108690818, "eval_loss": 0.7933974266052246, "eval_precision": 0.8892962019227069, "eval_recall": 0.8816666666666667, "eval_runtime": 17.5176, "eval_samples_per_second": 137.005, "eval_steps_per_second": 17.126, "step": 6100 }, { "epoch": 10.175, "grad_norm": 0.00039936049142852426, "learning_rate": 6.437777777777778e-05, "loss": 0.0001, "step": 6105 }, { "epoch": 10.183333333333334, "grad_norm": 0.00029849159182049334, "learning_rate": 6.426666666666668e-05, "loss": 0.0001, "step": 6110 }, { "epoch": 10.191666666666666, "grad_norm": 0.00038483220851048827, "learning_rate": 6.415555555555556e-05, "loss": 0.0001, "step": 6115 }, { "epoch": 10.2, "grad_norm": 0.00031519331969320774, "learning_rate": 6.404444444444445e-05, "loss": 0.0001, "step": 6120 }, { "epoch": 10.208333333333334, "grad_norm": 0.00033812891342677176, "learning_rate": 6.393333333333333e-05, "loss": 0.0001, "step": 6125 }, { "epoch": 10.216666666666667, "grad_norm": 0.00028197356732562184, "learning_rate": 6.382222222222223e-05, "loss": 0.0001, "step": 6130 }, { "epoch": 10.225, "grad_norm": 0.0003410507633816451, "learning_rate": 6.371111111111112e-05, "loss": 0.0001, "step": 6135 }, { "epoch": 10.233333333333333, "grad_norm": 0.00043412367813289165, "learning_rate": 6.36e-05, "loss": 0.0001, "step": 6140 }, { "epoch": 10.241666666666667, "grad_norm": 0.00037350377533584833, "learning_rate": 6.348888888888889e-05, "loss": 0.0001, "step": 6145 }, { "epoch": 10.25, "grad_norm": 0.00035267428029328585, "learning_rate": 6.337777777777778e-05, "loss": 0.0001, "step": 6150 }, { "epoch": 10.258333333333333, "grad_norm": 0.0002956648531835526, "learning_rate": 6.326666666666667e-05, "loss": 0.0001, "step": 6155 }, { "epoch": 10.266666666666667, "grad_norm": 0.00036817771615460515, "learning_rate": 6.315555555555555e-05, "loss": 0.0001, "step": 6160 }, { "epoch": 10.275, "grad_norm": 0.00031655741622671485, "learning_rate": 6.304444444444445e-05, "loss": 0.0001, "step": 6165 }, { "epoch": 10.283333333333333, "grad_norm": 0.0004520993970800191, "learning_rate": 6.293333333333334e-05, "loss": 0.0001, "step": 6170 }, { "epoch": 10.291666666666666, "grad_norm": 0.00029801420168951154, "learning_rate": 6.282222222222222e-05, "loss": 0.0001, "step": 6175 }, { "epoch": 10.3, "grad_norm": 0.00030042463913559914, "learning_rate": 6.27111111111111e-05, "loss": 0.0001, "step": 6180 }, { "epoch": 10.308333333333334, "grad_norm": 0.00037061338662169874, "learning_rate": 6.26e-05, "loss": 0.0001, "step": 6185 }, { "epoch": 10.316666666666666, "grad_norm": 0.0003039510047528893, "learning_rate": 6.24888888888889e-05, "loss": 0.0001, "step": 6190 }, { "epoch": 10.325, "grad_norm": 0.00039511374779976904, "learning_rate": 6.237777777777777e-05, "loss": 0.0001, "step": 6195 }, { "epoch": 10.333333333333334, "grad_norm": 0.00035730417585000396, "learning_rate": 6.226666666666667e-05, "loss": 0.0001, "step": 6200 }, { "epoch": 10.333333333333334, "eval_accuracy": 0.8816666666666667, "eval_f1": 0.8818336674580404, "eval_loss": 0.7968193292617798, "eval_precision": 0.8895537235311586, "eval_recall": 0.8816666666666667, "eval_runtime": 17.4444, "eval_samples_per_second": 137.58, "eval_steps_per_second": 17.198, "step": 6200 }, { "epoch": 10.341666666666667, "grad_norm": 0.0002896363439504057, "learning_rate": 6.215555555555556e-05, "loss": 0.0001, "step": 6205 }, { "epoch": 10.35, "grad_norm": 0.0003246119013056159, "learning_rate": 6.204444444444445e-05, "loss": 0.0001, "step": 6210 }, { "epoch": 10.358333333333333, "grad_norm": 0.0003407855692785233, "learning_rate": 6.193333333333333e-05, "loss": 0.0001, "step": 6215 }, { "epoch": 10.366666666666667, "grad_norm": 0.00033702253131195903, "learning_rate": 6.182222222222222e-05, "loss": 0.0001, "step": 6220 }, { "epoch": 10.375, "grad_norm": 0.000401163415517658, "learning_rate": 6.171111111111112e-05, "loss": 0.0001, "step": 6225 }, { "epoch": 10.383333333333333, "grad_norm": 0.000381866586394608, "learning_rate": 6.16e-05, "loss": 0.0001, "step": 6230 }, { "epoch": 10.391666666666667, "grad_norm": 0.00032211048528552055, "learning_rate": 6.148888888888889e-05, "loss": 0.0001, "step": 6235 }, { "epoch": 10.4, "grad_norm": 0.000293863529805094, "learning_rate": 6.137777777777778e-05, "loss": 0.0001, "step": 6240 }, { "epoch": 10.408333333333333, "grad_norm": 0.00031903735361993313, "learning_rate": 6.126666666666667e-05, "loss": 0.0001, "step": 6245 }, { "epoch": 10.416666666666666, "grad_norm": 0.00038855374441482127, "learning_rate": 6.115555555555556e-05, "loss": 0.0001, "step": 6250 }, { "epoch": 10.425, "grad_norm": 0.00034632463939487934, "learning_rate": 6.104444444444444e-05, "loss": 0.0001, "step": 6255 }, { "epoch": 10.433333333333334, "grad_norm": 0.0002837584470398724, "learning_rate": 6.093333333333333e-05, "loss": 0.0001, "step": 6260 }, { "epoch": 10.441666666666666, "grad_norm": 0.00033705259556882083, "learning_rate": 6.0822222222222226e-05, "loss": 0.0001, "step": 6265 }, { "epoch": 10.45, "grad_norm": 0.0002935341326519847, "learning_rate": 6.071111111111112e-05, "loss": 0.0001, "step": 6270 }, { "epoch": 10.458333333333334, "grad_norm": 0.0003632221487350762, "learning_rate": 6.06e-05, "loss": 0.0001, "step": 6275 }, { "epoch": 10.466666666666667, "grad_norm": 0.00029940149397589266, "learning_rate": 6.0488888888888894e-05, "loss": 0.0001, "step": 6280 }, { "epoch": 10.475, "grad_norm": 0.0002753563749138266, "learning_rate": 6.037777777777778e-05, "loss": 0.0001, "step": 6285 }, { "epoch": 10.483333333333333, "grad_norm": 0.0002755334135144949, "learning_rate": 6.026666666666667e-05, "loss": 0.0001, "step": 6290 }, { "epoch": 10.491666666666667, "grad_norm": 0.00031681032851338387, "learning_rate": 6.0155555555555555e-05, "loss": 0.0001, "step": 6295 }, { "epoch": 10.5, "grad_norm": 0.0007469338597729802, "learning_rate": 6.0044444444444446e-05, "loss": 0.0001, "step": 6300 }, { "epoch": 10.5, "eval_accuracy": 0.8816666666666667, "eval_f1": 0.8818336674580404, "eval_loss": 0.8002710938453674, "eval_precision": 0.8895537235311586, "eval_recall": 0.8816666666666667, "eval_runtime": 17.4735, "eval_samples_per_second": 137.351, "eval_steps_per_second": 17.169, "step": 6300 }, { "epoch": 10.508333333333333, "grad_norm": 0.0002980611170642078, "learning_rate": 5.9933333333333345e-05, "loss": 0.0001, "step": 6305 }, { "epoch": 10.516666666666667, "grad_norm": 0.0002913577773142606, "learning_rate": 5.982222222222222e-05, "loss": 0.0001, "step": 6310 }, { "epoch": 10.525, "grad_norm": 0.00036093429662287235, "learning_rate": 5.971111111111112e-05, "loss": 0.0001, "step": 6315 }, { "epoch": 10.533333333333333, "grad_norm": 0.00038230762584134936, "learning_rate": 5.96e-05, "loss": 0.0001, "step": 6320 }, { "epoch": 10.541666666666666, "grad_norm": 0.00026726993382908404, "learning_rate": 5.94888888888889e-05, "loss": 0.0001, "step": 6325 }, { "epoch": 10.55, "grad_norm": 0.0003427866904530674, "learning_rate": 5.9377777777777775e-05, "loss": 0.0001, "step": 6330 }, { "epoch": 10.558333333333334, "grad_norm": 0.000519891211297363, "learning_rate": 5.926666666666667e-05, "loss": 0.0001, "step": 6335 }, { "epoch": 10.566666666666666, "grad_norm": 0.00024781652609817684, "learning_rate": 5.915555555555555e-05, "loss": 0.0001, "step": 6340 }, { "epoch": 10.575, "grad_norm": 0.00045156580745242536, "learning_rate": 5.904444444444445e-05, "loss": 0.0001, "step": 6345 }, { "epoch": 10.583333333333334, "grad_norm": 0.00027737184427678585, "learning_rate": 5.893333333333334e-05, "loss": 0.0001, "step": 6350 }, { "epoch": 10.591666666666667, "grad_norm": 0.0003986417723353952, "learning_rate": 5.8822222222222225e-05, "loss": 0.0001, "step": 6355 }, { "epoch": 10.6, "grad_norm": 0.00024597058654762805, "learning_rate": 5.871111111111112e-05, "loss": 0.0001, "step": 6360 }, { "epoch": 10.608333333333333, "grad_norm": 0.0003394988307263702, "learning_rate": 5.86e-05, "loss": 0.0001, "step": 6365 }, { "epoch": 10.616666666666667, "grad_norm": 0.00037163306842558086, "learning_rate": 5.848888888888889e-05, "loss": 0.0001, "step": 6370 }, { "epoch": 10.625, "grad_norm": 0.00030882746796123683, "learning_rate": 5.837777777777778e-05, "loss": 0.0001, "step": 6375 }, { "epoch": 10.633333333333333, "grad_norm": 0.0003000967262778431, "learning_rate": 5.826666666666667e-05, "loss": 0.0001, "step": 6380 }, { "epoch": 10.641666666666667, "grad_norm": 0.00033599379821680486, "learning_rate": 5.815555555555556e-05, "loss": 0.0001, "step": 6385 }, { "epoch": 10.65, "grad_norm": 0.0003044439945369959, "learning_rate": 5.8044444444444445e-05, "loss": 0.0001, "step": 6390 }, { "epoch": 10.658333333333333, "grad_norm": 0.0003617425973061472, "learning_rate": 5.7933333333333337e-05, "loss": 0.0001, "step": 6395 }, { "epoch": 10.666666666666666, "grad_norm": 0.00028690038016065955, "learning_rate": 5.782222222222222e-05, "loss": 0.0001, "step": 6400 }, { "epoch": 10.666666666666666, "eval_accuracy": 0.8816666666666667, "eval_f1": 0.8818336674580404, "eval_loss": 0.8027015328407288, "eval_precision": 0.8895537235311586, "eval_recall": 0.8816666666666667, "eval_runtime": 17.6411, "eval_samples_per_second": 136.046, "eval_steps_per_second": 17.006, "step": 6400 }, { "epoch": 10.675, "grad_norm": 0.0003154755395371467, "learning_rate": 5.771111111111111e-05, "loss": 0.0001, "step": 6405 }, { "epoch": 10.683333333333334, "grad_norm": 0.00030140162562020123, "learning_rate": 5.76e-05, "loss": 0.0001, "step": 6410 }, { "epoch": 10.691666666666666, "grad_norm": 0.00035867447149939835, "learning_rate": 5.748888888888889e-05, "loss": 0.0001, "step": 6415 }, { "epoch": 10.7, "grad_norm": 0.0002911914780270308, "learning_rate": 5.737777777777779e-05, "loss": 0.0001, "step": 6420 }, { "epoch": 10.708333333333334, "grad_norm": 0.0002951675560325384, "learning_rate": 5.726666666666667e-05, "loss": 0.0001, "step": 6425 }, { "epoch": 10.716666666666667, "grad_norm": 0.0002642001200001687, "learning_rate": 5.715555555555556e-05, "loss": 0.0001, "step": 6430 }, { "epoch": 10.725, "grad_norm": 0.00044305186020210385, "learning_rate": 5.704444444444445e-05, "loss": 0.0001, "step": 6435 }, { "epoch": 10.733333333333333, "grad_norm": 0.00033005879959091544, "learning_rate": 5.693333333333334e-05, "loss": 0.0001, "step": 6440 }, { "epoch": 10.741666666666667, "grad_norm": 0.000864101224578917, "learning_rate": 5.6822222222222224e-05, "loss": 0.0001, "step": 6445 }, { "epoch": 10.75, "grad_norm": 0.00026849290588870645, "learning_rate": 5.6711111111111116e-05, "loss": 0.0001, "step": 6450 }, { "epoch": 10.758333333333333, "grad_norm": 0.00027614872669801116, "learning_rate": 5.66e-05, "loss": 0.0001, "step": 6455 }, { "epoch": 10.766666666666667, "grad_norm": 0.00026113976491615176, "learning_rate": 5.648888888888889e-05, "loss": 0.0001, "step": 6460 }, { "epoch": 10.775, "grad_norm": 0.00031236762879416347, "learning_rate": 5.637777777777778e-05, "loss": 0.0001, "step": 6465 }, { "epoch": 10.783333333333333, "grad_norm": 0.0004203997668810189, "learning_rate": 5.626666666666667e-05, "loss": 0.0001, "step": 6470 }, { "epoch": 10.791666666666666, "grad_norm": 0.0002848431468009949, "learning_rate": 5.615555555555556e-05, "loss": 0.0001, "step": 6475 }, { "epoch": 10.8, "grad_norm": 0.0003156019956804812, "learning_rate": 5.6044444444444444e-05, "loss": 0.0001, "step": 6480 }, { "epoch": 10.808333333333334, "grad_norm": 0.0003590992419049144, "learning_rate": 5.5933333333333335e-05, "loss": 0.0001, "step": 6485 }, { "epoch": 10.816666666666666, "grad_norm": 0.00039568913052789867, "learning_rate": 5.582222222222222e-05, "loss": 0.0001, "step": 6490 }, { "epoch": 10.825, "grad_norm": 0.0003012795641552657, "learning_rate": 5.571111111111111e-05, "loss": 0.0001, "step": 6495 }, { "epoch": 10.833333333333334, "grad_norm": 0.000449963437858969, "learning_rate": 5.560000000000001e-05, "loss": 0.0001, "step": 6500 }, { "epoch": 10.833333333333334, "eval_accuracy": 0.88125, "eval_f1": 0.8814646211211705, "eval_loss": 0.8034521341323853, "eval_precision": 0.889362614559396, "eval_recall": 0.88125, "eval_runtime": 17.5162, "eval_samples_per_second": 137.016, "eval_steps_per_second": 17.127, "step": 6500 }, { "epoch": 10.841666666666667, "grad_norm": 0.00024862735881470144, "learning_rate": 5.548888888888889e-05, "loss": 0.0001, "step": 6505 }, { "epoch": 10.85, "grad_norm": 0.0002875681675504893, "learning_rate": 5.5377777777777786e-05, "loss": 0.0001, "step": 6510 }, { "epoch": 10.858333333333333, "grad_norm": 0.0002356754703214392, "learning_rate": 5.5266666666666664e-05, "loss": 0.0001, "step": 6515 }, { "epoch": 10.866666666666667, "grad_norm": 0.00047743102186359465, "learning_rate": 5.515555555555556e-05, "loss": 0.0001, "step": 6520 }, { "epoch": 10.875, "grad_norm": 0.00023331520787905902, "learning_rate": 5.504444444444444e-05, "loss": 0.0001, "step": 6525 }, { "epoch": 10.883333333333333, "grad_norm": 0.00028034235583618283, "learning_rate": 5.493333333333334e-05, "loss": 0.0001, "step": 6530 }, { "epoch": 10.891666666666667, "grad_norm": 0.00040921461186371744, "learning_rate": 5.482222222222223e-05, "loss": 0.0001, "step": 6535 }, { "epoch": 10.9, "grad_norm": 0.0003172144934069365, "learning_rate": 5.4711111111111114e-05, "loss": 0.0001, "step": 6540 }, { "epoch": 10.908333333333333, "grad_norm": 0.0002529475896153599, "learning_rate": 5.4600000000000006e-05, "loss": 0.0001, "step": 6545 }, { "epoch": 10.916666666666666, "grad_norm": 0.0002746600948739797, "learning_rate": 5.448888888888889e-05, "loss": 0.0001, "step": 6550 }, { "epoch": 10.925, "grad_norm": 0.00029305974021553993, "learning_rate": 5.437777777777778e-05, "loss": 0.0001, "step": 6555 }, { "epoch": 10.933333333333334, "grad_norm": 0.00032844641827978194, "learning_rate": 5.4266666666666667e-05, "loss": 0.0001, "step": 6560 }, { "epoch": 10.941666666666666, "grad_norm": 0.00043372815707698464, "learning_rate": 5.415555555555556e-05, "loss": 0.0001, "step": 6565 }, { "epoch": 10.95, "grad_norm": 0.0003574789734557271, "learning_rate": 5.404444444444444e-05, "loss": 0.0001, "step": 6570 }, { "epoch": 10.958333333333334, "grad_norm": 0.0002834995393641293, "learning_rate": 5.3933333333333334e-05, "loss": 0.0001, "step": 6575 }, { "epoch": 10.966666666666667, "grad_norm": 0.00029550670296885073, "learning_rate": 5.382222222222223e-05, "loss": 0.0001, "step": 6580 }, { "epoch": 10.975, "grad_norm": 0.0003545080544427037, "learning_rate": 5.371111111111111e-05, "loss": 0.0001, "step": 6585 }, { "epoch": 10.983333333333333, "grad_norm": 0.0002554418460931629, "learning_rate": 5.360000000000001e-05, "loss": 0.0001, "step": 6590 }, { "epoch": 10.991666666666667, "grad_norm": 0.00023924396373331547, "learning_rate": 5.3488888888888886e-05, "loss": 0.0001, "step": 6595 }, { "epoch": 11.0, "grad_norm": 0.00027795866481028497, "learning_rate": 5.3377777777777785e-05, "loss": 0.0001, "step": 6600 }, { "epoch": 11.0, "eval_accuracy": 0.88125, "eval_f1": 0.8814646211211705, "eval_loss": 0.8049454689025879, "eval_precision": 0.889362614559396, "eval_recall": 0.88125, "eval_runtime": 17.6349, "eval_samples_per_second": 136.094, "eval_steps_per_second": 17.012, "step": 6600 }, { "epoch": 11.008333333333333, "grad_norm": 0.00028461511828936636, "learning_rate": 5.326666666666666e-05, "loss": 0.0001, "step": 6605 }, { "epoch": 11.016666666666667, "grad_norm": 0.00027993920957669616, "learning_rate": 5.315555555555556e-05, "loss": 0.0001, "step": 6610 }, { "epoch": 11.025, "grad_norm": 0.0002933141659013927, "learning_rate": 5.304444444444445e-05, "loss": 0.0001, "step": 6615 }, { "epoch": 11.033333333333333, "grad_norm": 0.0003731174219865352, "learning_rate": 5.293333333333334e-05, "loss": 0.0001, "step": 6620 }, { "epoch": 11.041666666666666, "grad_norm": 0.00025036028819158673, "learning_rate": 5.282222222222223e-05, "loss": 0.0001, "step": 6625 }, { "epoch": 11.05, "grad_norm": 0.00030513847013935447, "learning_rate": 5.271111111111111e-05, "loss": 0.0001, "step": 6630 }, { "epoch": 11.058333333333334, "grad_norm": 0.00023375413729809225, "learning_rate": 5.2600000000000005e-05, "loss": 0.0001, "step": 6635 }, { "epoch": 11.066666666666666, "grad_norm": 0.00028155671316199005, "learning_rate": 5.248888888888889e-05, "loss": 0.0001, "step": 6640 }, { "epoch": 11.075, "grad_norm": 0.00036318969796411693, "learning_rate": 5.237777777777778e-05, "loss": 0.0001, "step": 6645 }, { "epoch": 11.083333333333334, "grad_norm": 0.00031068146927282214, "learning_rate": 5.2266666666666665e-05, "loss": 0.0001, "step": 6650 }, { "epoch": 11.091666666666667, "grad_norm": 0.0003548171080183238, "learning_rate": 5.215555555555556e-05, "loss": 0.0001, "step": 6655 }, { "epoch": 11.1, "grad_norm": 0.00022399060253519565, "learning_rate": 5.204444444444445e-05, "loss": 0.0001, "step": 6660 }, { "epoch": 11.108333333333333, "grad_norm": 0.00027970958035439253, "learning_rate": 5.193333333333333e-05, "loss": 0.0001, "step": 6665 }, { "epoch": 11.116666666666667, "grad_norm": 0.00027306893025524914, "learning_rate": 5.1822222222222224e-05, "loss": 0.0001, "step": 6670 }, { "epoch": 11.125, "grad_norm": 0.0002766016114037484, "learning_rate": 5.171111111111111e-05, "loss": 0.0001, "step": 6675 }, { "epoch": 11.133333333333333, "grad_norm": 0.0003370473859831691, "learning_rate": 5.16e-05, "loss": 0.0001, "step": 6680 }, { "epoch": 11.141666666666667, "grad_norm": 0.00030688263359479606, "learning_rate": 5.1488888888888885e-05, "loss": 0.0001, "step": 6685 }, { "epoch": 11.15, "grad_norm": 0.00031496284645982087, "learning_rate": 5.1377777777777784e-05, "loss": 0.0001, "step": 6690 }, { "epoch": 11.158333333333333, "grad_norm": 0.00025899105821736157, "learning_rate": 5.1266666666666675e-05, "loss": 0.0001, "step": 6695 }, { "epoch": 11.166666666666666, "grad_norm": 0.00031673829653300345, "learning_rate": 5.115555555555556e-05, "loss": 0.0001, "step": 6700 }, { "epoch": 11.166666666666666, "eval_accuracy": 0.88125, "eval_f1": 0.8814646211211705, "eval_loss": 0.8070083856582642, "eval_precision": 0.889362614559396, "eval_recall": 0.88125, "eval_runtime": 17.3725, "eval_samples_per_second": 138.149, "eval_steps_per_second": 17.269, "step": 6700 }, { "epoch": 11.175, "grad_norm": 0.00032155183725990355, "learning_rate": 5.104444444444445e-05, "loss": 0.0001, "step": 6705 }, { "epoch": 11.183333333333334, "grad_norm": 0.0002423400874249637, "learning_rate": 5.0933333333333336e-05, "loss": 0.0001, "step": 6710 }, { "epoch": 11.191666666666666, "grad_norm": 0.00025863139308057725, "learning_rate": 5.082222222222223e-05, "loss": 0.0001, "step": 6715 }, { "epoch": 11.2, "grad_norm": 0.0003043998731300235, "learning_rate": 5.071111111111111e-05, "loss": 0.0001, "step": 6720 }, { "epoch": 11.208333333333334, "grad_norm": 0.0003493126714602113, "learning_rate": 5.0600000000000003e-05, "loss": 0.0001, "step": 6725 }, { "epoch": 11.216666666666667, "grad_norm": 0.0002967125328723341, "learning_rate": 5.0488888888888895e-05, "loss": 0.0001, "step": 6730 }, { "epoch": 11.225, "grad_norm": 0.00023758687893860042, "learning_rate": 5.037777777777778e-05, "loss": 0.0001, "step": 6735 }, { "epoch": 11.233333333333333, "grad_norm": 0.00027257727924734354, "learning_rate": 5.026666666666667e-05, "loss": 0.0001, "step": 6740 }, { "epoch": 11.241666666666667, "grad_norm": 0.0002431005414109677, "learning_rate": 5.0155555555555556e-05, "loss": 0.0001, "step": 6745 }, { "epoch": 11.25, "grad_norm": 0.0002386086416663602, "learning_rate": 5.004444444444445e-05, "loss": 0.0001, "step": 6750 }, { "epoch": 11.258333333333333, "grad_norm": 0.0002908215392380953, "learning_rate": 4.993333333333334e-05, "loss": 0.0001, "step": 6755 }, { "epoch": 11.266666666666667, "grad_norm": 0.0003213470336049795, "learning_rate": 4.982222222222222e-05, "loss": 0.0001, "step": 6760 }, { "epoch": 11.275, "grad_norm": 0.00031339036650024354, "learning_rate": 4.9711111111111115e-05, "loss": 0.0001, "step": 6765 }, { "epoch": 11.283333333333333, "grad_norm": 0.00022473112039733678, "learning_rate": 4.96e-05, "loss": 0.0001, "step": 6770 }, { "epoch": 11.291666666666666, "grad_norm": 0.00025096331955865026, "learning_rate": 4.948888888888889e-05, "loss": 0.0001, "step": 6775 }, { "epoch": 11.3, "grad_norm": 0.00028354173991829157, "learning_rate": 4.9377777777777776e-05, "loss": 0.0001, "step": 6780 }, { "epoch": 11.308333333333334, "grad_norm": 0.0003619015624281019, "learning_rate": 4.926666666666667e-05, "loss": 0.0001, "step": 6785 }, { "epoch": 11.316666666666666, "grad_norm": 0.0002928715548478067, "learning_rate": 4.915555555555556e-05, "loss": 0.0001, "step": 6790 }, { "epoch": 11.325, "grad_norm": 0.00024058997223619372, "learning_rate": 4.904444444444445e-05, "loss": 0.0001, "step": 6795 }, { "epoch": 11.333333333333334, "grad_norm": 0.0005697832675650716, "learning_rate": 4.8933333333333335e-05, "loss": 0.0001, "step": 6800 }, { "epoch": 11.333333333333334, "eval_accuracy": 0.88125, "eval_f1": 0.8814646211211705, "eval_loss": 0.8091026544570923, "eval_precision": 0.889362614559396, "eval_recall": 0.88125, "eval_runtime": 17.6164, "eval_samples_per_second": 136.237, "eval_steps_per_second": 17.03, "step": 6800 }, { "epoch": 11.341666666666667, "grad_norm": 0.00022835047275293618, "learning_rate": 4.8822222222222226e-05, "loss": 0.0001, "step": 6805 }, { "epoch": 11.35, "grad_norm": 0.0003392524959053844, "learning_rate": 4.871111111111111e-05, "loss": 0.0001, "step": 6810 }, { "epoch": 11.358333333333333, "grad_norm": 0.00031842131284065545, "learning_rate": 4.86e-05, "loss": 0.0001, "step": 6815 }, { "epoch": 11.366666666666667, "grad_norm": 0.0002457943046465516, "learning_rate": 4.848888888888889e-05, "loss": 0.0001, "step": 6820 }, { "epoch": 11.375, "grad_norm": 0.00024392099294345826, "learning_rate": 4.837777777777778e-05, "loss": 0.0001, "step": 6825 }, { "epoch": 11.383333333333333, "grad_norm": 0.0002252877311548218, "learning_rate": 4.826666666666667e-05, "loss": 0.0001, "step": 6830 }, { "epoch": 11.391666666666667, "grad_norm": 0.00030443802825175226, "learning_rate": 4.815555555555556e-05, "loss": 0.0001, "step": 6835 }, { "epoch": 11.4, "grad_norm": 0.0002796246262732893, "learning_rate": 4.8044444444444446e-05, "loss": 0.0001, "step": 6840 }, { "epoch": 11.408333333333333, "grad_norm": 0.00024821970146149397, "learning_rate": 4.793333333333334e-05, "loss": 0.0001, "step": 6845 }, { "epoch": 11.416666666666666, "grad_norm": 0.00023059648810885847, "learning_rate": 4.782222222222222e-05, "loss": 0.0001, "step": 6850 }, { "epoch": 11.425, "grad_norm": 0.00022333950619213283, "learning_rate": 4.7711111111111114e-05, "loss": 0.0001, "step": 6855 }, { "epoch": 11.433333333333334, "grad_norm": 0.00025017853477038443, "learning_rate": 4.76e-05, "loss": 0.0001, "step": 6860 }, { "epoch": 11.441666666666666, "grad_norm": 0.00024392231716774404, "learning_rate": 4.7488888888888897e-05, "loss": 0.0001, "step": 6865 }, { "epoch": 11.45, "grad_norm": 0.0002975657698698342, "learning_rate": 4.737777777777778e-05, "loss": 0.0001, "step": 6870 }, { "epoch": 11.458333333333334, "grad_norm": 0.00023692882678005844, "learning_rate": 4.726666666666667e-05, "loss": 0.0001, "step": 6875 }, { "epoch": 11.466666666666667, "grad_norm": 0.00023224526375997812, "learning_rate": 4.715555555555556e-05, "loss": 0.0001, "step": 6880 }, { "epoch": 11.475, "grad_norm": 0.0002236961154267192, "learning_rate": 4.704444444444445e-05, "loss": 0.0001, "step": 6885 }, { "epoch": 11.483333333333333, "grad_norm": 0.0002549228956922889, "learning_rate": 4.6933333333333333e-05, "loss": 0.0001, "step": 6890 }, { "epoch": 11.491666666666667, "grad_norm": 0.00027068532654084265, "learning_rate": 4.6822222222222225e-05, "loss": 0.0001, "step": 6895 }, { "epoch": 11.5, "grad_norm": 0.0003648961428552866, "learning_rate": 4.671111111111111e-05, "loss": 0.0001, "step": 6900 }, { "epoch": 11.5, "eval_accuracy": 0.8816666666666667, "eval_f1": 0.8818352601923577, "eval_loss": 0.8123593926429749, "eval_precision": 0.8896522231351089, "eval_recall": 0.8816666666666667, "eval_runtime": 17.5761, "eval_samples_per_second": 136.549, "eval_steps_per_second": 17.069, "step": 6900 }, { "epoch": 11.508333333333333, "grad_norm": 0.0002458704693708569, "learning_rate": 4.660000000000001e-05, "loss": 0.0001, "step": 6905 }, { "epoch": 11.516666666666667, "grad_norm": 0.0002519440313335508, "learning_rate": 4.648888888888889e-05, "loss": 0.0001, "step": 6910 }, { "epoch": 11.525, "grad_norm": 0.000245620496571064, "learning_rate": 4.6377777777777784e-05, "loss": 0.0001, "step": 6915 }, { "epoch": 11.533333333333333, "grad_norm": 0.0002269107790198177, "learning_rate": 4.626666666666667e-05, "loss": 0.0001, "step": 6920 }, { "epoch": 11.541666666666666, "grad_norm": 0.0002545846800785512, "learning_rate": 4.615555555555556e-05, "loss": 0.0001, "step": 6925 }, { "epoch": 11.55, "grad_norm": 0.00026264635380357504, "learning_rate": 4.6044444444444445e-05, "loss": 0.0001, "step": 6930 }, { "epoch": 11.558333333333334, "grad_norm": 0.0002499386027920991, "learning_rate": 4.5933333333333336e-05, "loss": 0.0001, "step": 6935 }, { "epoch": 11.566666666666666, "grad_norm": 0.0002086596068693325, "learning_rate": 4.582222222222222e-05, "loss": 0.0001, "step": 6940 }, { "epoch": 11.575, "grad_norm": 0.00028701560222543776, "learning_rate": 4.571111111111111e-05, "loss": 0.0001, "step": 6945 }, { "epoch": 11.583333333333334, "grad_norm": 0.0002361456718062982, "learning_rate": 4.5600000000000004e-05, "loss": 0.0001, "step": 6950 }, { "epoch": 11.591666666666667, "grad_norm": 0.00029449068824760616, "learning_rate": 4.5488888888888895e-05, "loss": 0.0001, "step": 6955 }, { "epoch": 11.6, "grad_norm": 0.00026908659492619336, "learning_rate": 4.537777777777778e-05, "loss": 0.0001, "step": 6960 }, { "epoch": 11.608333333333333, "grad_norm": 0.00022278583492152393, "learning_rate": 4.526666666666667e-05, "loss": 0.0001, "step": 6965 }, { "epoch": 11.616666666666667, "grad_norm": 0.0002539555716793984, "learning_rate": 4.5155555555555556e-05, "loss": 0.0001, "step": 6970 }, { "epoch": 11.625, "grad_norm": 0.0002344099193578586, "learning_rate": 4.504444444444445e-05, "loss": 0.0001, "step": 6975 }, { "epoch": 11.633333333333333, "grad_norm": 0.0002571085060480982, "learning_rate": 4.493333333333333e-05, "loss": 0.0001, "step": 6980 }, { "epoch": 11.641666666666667, "grad_norm": 0.0002258559688925743, "learning_rate": 4.4822222222222224e-05, "loss": 0.0001, "step": 6985 }, { "epoch": 11.65, "grad_norm": 0.00023642554879188538, "learning_rate": 4.4711111111111115e-05, "loss": 0.0001, "step": 6990 }, { "epoch": 11.658333333333333, "grad_norm": 0.00037614323082379997, "learning_rate": 4.46e-05, "loss": 0.0001, "step": 6995 }, { "epoch": 11.666666666666666, "grad_norm": 0.0003071832761634141, "learning_rate": 4.448888888888889e-05, "loss": 0.0001, "step": 7000 }, { "epoch": 11.666666666666666, "eval_accuracy": 0.8816666666666667, "eval_f1": 0.8818352601923577, "eval_loss": 0.8147057294845581, "eval_precision": 0.8896522231351089, "eval_recall": 0.8816666666666667, "eval_runtime": 17.4197, "eval_samples_per_second": 137.775, "eval_steps_per_second": 17.222, "step": 7000 }, { "epoch": 11.675, "grad_norm": 0.00026343914214521646, "learning_rate": 4.4377777777777776e-05, "loss": 0.0001, "step": 7005 }, { "epoch": 11.683333333333334, "grad_norm": 0.00025975413154810667, "learning_rate": 4.426666666666667e-05, "loss": 0.0001, "step": 7010 }, { "epoch": 11.691666666666666, "grad_norm": 0.00022704098955728114, "learning_rate": 4.415555555555556e-05, "loss": 0.0001, "step": 7015 }, { "epoch": 11.7, "grad_norm": 0.00021200304036028683, "learning_rate": 4.404444444444445e-05, "loss": 0.0001, "step": 7020 }, { "epoch": 11.708333333333334, "grad_norm": 0.0002674190909601748, "learning_rate": 4.3933333333333335e-05, "loss": 0.0001, "step": 7025 }, { "epoch": 11.716666666666667, "grad_norm": 0.00023305023205466568, "learning_rate": 4.3822222222222227e-05, "loss": 0.0001, "step": 7030 }, { "epoch": 11.725, "grad_norm": 0.00022969653946347535, "learning_rate": 4.371111111111111e-05, "loss": 0.0001, "step": 7035 }, { "epoch": 11.733333333333333, "grad_norm": 0.00026623017038218677, "learning_rate": 4.36e-05, "loss": 0.0001, "step": 7040 }, { "epoch": 11.741666666666667, "grad_norm": 0.00027403674903325737, "learning_rate": 4.348888888888889e-05, "loss": 0.0001, "step": 7045 }, { "epoch": 11.75, "grad_norm": 0.0003314873611088842, "learning_rate": 4.337777777777778e-05, "loss": 0.0001, "step": 7050 }, { "epoch": 11.758333333333333, "grad_norm": 0.00031716664670966566, "learning_rate": 4.3266666666666664e-05, "loss": 0.0001, "step": 7055 }, { "epoch": 11.766666666666667, "grad_norm": 0.0002099132107105106, "learning_rate": 4.315555555555556e-05, "loss": 0.0001, "step": 7060 }, { "epoch": 11.775, "grad_norm": 0.000298726256005466, "learning_rate": 4.3044444444444446e-05, "loss": 0.0001, "step": 7065 }, { "epoch": 11.783333333333333, "grad_norm": 0.00021877605468034744, "learning_rate": 4.293333333333334e-05, "loss": 0.0001, "step": 7070 }, { "epoch": 11.791666666666666, "grad_norm": 0.0002432366891298443, "learning_rate": 4.282222222222222e-05, "loss": 0.0001, "step": 7075 }, { "epoch": 11.8, "grad_norm": 0.00019653500930871814, "learning_rate": 4.2711111111111114e-05, "loss": 0.0001, "step": 7080 }, { "epoch": 11.808333333333334, "grad_norm": 0.0002973123046103865, "learning_rate": 4.26e-05, "loss": 0.0001, "step": 7085 }, { "epoch": 11.816666666666666, "grad_norm": 0.0002326599060324952, "learning_rate": 4.248888888888889e-05, "loss": 0.0001, "step": 7090 }, { "epoch": 11.825, "grad_norm": 0.00024024976301006973, "learning_rate": 4.2377777777777775e-05, "loss": 0.0001, "step": 7095 }, { "epoch": 11.833333333333334, "grad_norm": 0.00021928890782874078, "learning_rate": 4.226666666666667e-05, "loss": 0.0001, "step": 7100 }, { "epoch": 11.833333333333334, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8822212914879086, "eval_loss": 0.8162638545036316, "eval_precision": 0.8899449153971383, "eval_recall": 0.8820833333333333, "eval_runtime": 17.5323, "eval_samples_per_second": 136.891, "eval_steps_per_second": 17.111, "step": 7100 }, { "epoch": 11.841666666666667, "grad_norm": 0.0002821475500240922, "learning_rate": 4.215555555555556e-05, "loss": 0.0001, "step": 7105 }, { "epoch": 11.85, "grad_norm": 0.00024524523178115487, "learning_rate": 4.204444444444445e-05, "loss": 0.0001, "step": 7110 }, { "epoch": 11.858333333333333, "grad_norm": 0.00047786792856641114, "learning_rate": 4.1933333333333334e-05, "loss": 0.0001, "step": 7115 }, { "epoch": 11.866666666666667, "grad_norm": 0.00020760988991241902, "learning_rate": 4.1822222222222225e-05, "loss": 0.0001, "step": 7120 }, { "epoch": 11.875, "grad_norm": 0.00021455922978930175, "learning_rate": 4.171111111111111e-05, "loss": 0.0001, "step": 7125 }, { "epoch": 11.883333333333333, "grad_norm": 0.00030381581746041775, "learning_rate": 4.16e-05, "loss": 0.0001, "step": 7130 }, { "epoch": 11.891666666666667, "grad_norm": 0.00024756049970164895, "learning_rate": 4.1488888888888886e-05, "loss": 0.0001, "step": 7135 }, { "epoch": 11.9, "grad_norm": 0.00023484449775423855, "learning_rate": 4.1377777777777784e-05, "loss": 0.0001, "step": 7140 }, { "epoch": 11.908333333333333, "grad_norm": 0.00021236605243757367, "learning_rate": 4.126666666666667e-05, "loss": 0.0001, "step": 7145 }, { "epoch": 11.916666666666666, "grad_norm": 0.0002634607080835849, "learning_rate": 4.115555555555556e-05, "loss": 0.0001, "step": 7150 }, { "epoch": 11.925, "grad_norm": 0.0002453664783388376, "learning_rate": 4.1044444444444445e-05, "loss": 0.0001, "step": 7155 }, { "epoch": 11.933333333333334, "grad_norm": 0.00024303157988470048, "learning_rate": 4.093333333333334e-05, "loss": 0.0001, "step": 7160 }, { "epoch": 11.941666666666666, "grad_norm": 0.0002481674018781632, "learning_rate": 4.082222222222222e-05, "loss": 0.0001, "step": 7165 }, { "epoch": 11.95, "grad_norm": 0.00023377261823043227, "learning_rate": 4.071111111111111e-05, "loss": 0.0001, "step": 7170 }, { "epoch": 11.958333333333334, "grad_norm": 0.0002517795655876398, "learning_rate": 4.0600000000000004e-05, "loss": 0.0, "step": 7175 }, { "epoch": 11.966666666666667, "grad_norm": 0.00030341200181283057, "learning_rate": 4.0488888888888896e-05, "loss": 0.0001, "step": 7180 }, { "epoch": 11.975, "grad_norm": 0.00020417716586962342, "learning_rate": 4.037777777777778e-05, "loss": 0.0, "step": 7185 }, { "epoch": 11.983333333333333, "grad_norm": 0.000242675727349706, "learning_rate": 4.026666666666667e-05, "loss": 0.0, "step": 7190 }, { "epoch": 11.991666666666667, "grad_norm": 0.00019358268764335662, "learning_rate": 4.0155555555555557e-05, "loss": 0.0001, "step": 7195 }, { "epoch": 12.0, "grad_norm": 0.00022853926930110902, "learning_rate": 4.004444444444445e-05, "loss": 0.0001, "step": 7200 }, { "epoch": 12.0, "eval_accuracy": 0.8829166666666667, "eval_f1": 0.8830057877945806, "eval_loss": 0.8180660605430603, "eval_precision": 0.8907900702384658, "eval_recall": 0.8829166666666667, "eval_runtime": 17.4812, "eval_samples_per_second": 137.29, "eval_steps_per_second": 17.161, "step": 7200 }, { "epoch": 12.008333333333333, "grad_norm": 0.00027833302738144994, "learning_rate": 3.993333333333333e-05, "loss": 0.0001, "step": 7205 }, { "epoch": 12.016666666666667, "grad_norm": 0.00030362242250703275, "learning_rate": 3.9822222222222224e-05, "loss": 0.0001, "step": 7210 }, { "epoch": 12.025, "grad_norm": 0.00020975249935872853, "learning_rate": 3.9711111111111116e-05, "loss": 0.0001, "step": 7215 }, { "epoch": 12.033333333333333, "grad_norm": 0.00025210133753716946, "learning_rate": 3.960000000000001e-05, "loss": 0.0, "step": 7220 }, { "epoch": 12.041666666666666, "grad_norm": 0.00028956044116057456, "learning_rate": 3.948888888888889e-05, "loss": 0.0001, "step": 7225 }, { "epoch": 12.05, "grad_norm": 0.00024309511354658753, "learning_rate": 3.937777777777778e-05, "loss": 0.0, "step": 7230 }, { "epoch": 12.058333333333334, "grad_norm": 0.00028910639230161905, "learning_rate": 3.926666666666667e-05, "loss": 0.0001, "step": 7235 }, { "epoch": 12.066666666666666, "grad_norm": 0.00027919511194340885, "learning_rate": 3.915555555555556e-05, "loss": 0.0001, "step": 7240 }, { "epoch": 12.075, "grad_norm": 0.00022998980421107262, "learning_rate": 3.9044444444444444e-05, "loss": 0.0001, "step": 7245 }, { "epoch": 12.083333333333334, "grad_norm": 0.00021230232960078865, "learning_rate": 3.8933333333333336e-05, "loss": 0.0, "step": 7250 }, { "epoch": 12.091666666666667, "grad_norm": 0.00020582435536198318, "learning_rate": 3.882222222222223e-05, "loss": 0.0001, "step": 7255 }, { "epoch": 12.1, "grad_norm": 0.00023040530504658818, "learning_rate": 3.871111111111111e-05, "loss": 0.0, "step": 7260 }, { "epoch": 12.108333333333333, "grad_norm": 0.000197356945136562, "learning_rate": 3.86e-05, "loss": 0.0, "step": 7265 }, { "epoch": 12.116666666666667, "grad_norm": 0.0002543180889915675, "learning_rate": 3.848888888888889e-05, "loss": 0.0, "step": 7270 }, { "epoch": 12.125, "grad_norm": 0.0002655531861819327, "learning_rate": 3.837777777777778e-05, "loss": 0.0001, "step": 7275 }, { "epoch": 12.133333333333333, "grad_norm": 0.0003302056575194001, "learning_rate": 3.8266666666666664e-05, "loss": 0.0, "step": 7280 }, { "epoch": 12.141666666666667, "grad_norm": 0.0001913564483402297, "learning_rate": 3.8155555555555555e-05, "loss": 0.0, "step": 7285 }, { "epoch": 12.15, "grad_norm": 0.00023550026526208967, "learning_rate": 3.804444444444445e-05, "loss": 0.0, "step": 7290 }, { "epoch": 12.158333333333333, "grad_norm": 0.00024113233666867018, "learning_rate": 3.793333333333334e-05, "loss": 0.0, "step": 7295 }, { "epoch": 12.166666666666666, "grad_norm": 0.000214276704355143, "learning_rate": 3.782222222222222e-05, "loss": 0.0, "step": 7300 }, { "epoch": 12.166666666666666, "eval_accuracy": 0.8833333333333333, "eval_f1": 0.8833918514430915, "eval_loss": 0.820395827293396, "eval_precision": 0.8910844412499095, "eval_recall": 0.8833333333333333, "eval_runtime": 17.3926, "eval_samples_per_second": 137.99, "eval_steps_per_second": 17.249, "step": 7300 }, { "epoch": 12.175, "grad_norm": 0.0002340112259844318, "learning_rate": 3.7711111111111114e-05, "loss": 0.0, "step": 7305 }, { "epoch": 12.183333333333334, "grad_norm": 0.0002415943454252556, "learning_rate": 3.76e-05, "loss": 0.0, "step": 7310 }, { "epoch": 12.191666666666666, "grad_norm": 0.000256244937190786, "learning_rate": 3.748888888888889e-05, "loss": 0.0001, "step": 7315 }, { "epoch": 12.2, "grad_norm": 0.00021814809588249773, "learning_rate": 3.7377777777777775e-05, "loss": 0.0, "step": 7320 }, { "epoch": 12.208333333333334, "grad_norm": 0.000265480310190469, "learning_rate": 3.726666666666667e-05, "loss": 0.0001, "step": 7325 }, { "epoch": 12.216666666666667, "grad_norm": 0.00020536716328933835, "learning_rate": 3.715555555555555e-05, "loss": 0.0, "step": 7330 }, { "epoch": 12.225, "grad_norm": 0.0002723172365222126, "learning_rate": 3.704444444444445e-05, "loss": 0.0001, "step": 7335 }, { "epoch": 12.233333333333333, "grad_norm": 0.0002631134120747447, "learning_rate": 3.6933333333333334e-05, "loss": 0.0001, "step": 7340 }, { "epoch": 12.241666666666667, "grad_norm": 0.00020385569951031357, "learning_rate": 3.6822222222222226e-05, "loss": 0.0, "step": 7345 }, { "epoch": 12.25, "grad_norm": 0.00019544358656276017, "learning_rate": 3.671111111111111e-05, "loss": 0.0, "step": 7350 }, { "epoch": 12.258333333333333, "grad_norm": 0.0002138367126462981, "learning_rate": 3.66e-05, "loss": 0.0, "step": 7355 }, { "epoch": 12.266666666666667, "grad_norm": 0.00027293749735690653, "learning_rate": 3.648888888888889e-05, "loss": 0.0001, "step": 7360 }, { "epoch": 12.275, "grad_norm": 0.00026276163407601416, "learning_rate": 3.637777777777778e-05, "loss": 0.0, "step": 7365 }, { "epoch": 12.283333333333333, "grad_norm": 0.00021538150031119585, "learning_rate": 3.626666666666667e-05, "loss": 0.0, "step": 7370 }, { "epoch": 12.291666666666666, "grad_norm": 0.0002019204548560083, "learning_rate": 3.615555555555556e-05, "loss": 0.0, "step": 7375 }, { "epoch": 12.3, "grad_norm": 0.00019637690274976194, "learning_rate": 3.6044444444444446e-05, "loss": 0.0, "step": 7380 }, { "epoch": 12.308333333333334, "grad_norm": 0.00026585342129692435, "learning_rate": 3.593333333333334e-05, "loss": 0.0001, "step": 7385 }, { "epoch": 12.316666666666666, "grad_norm": 0.0002259531174786389, "learning_rate": 3.582222222222222e-05, "loss": 0.0, "step": 7390 }, { "epoch": 12.325, "grad_norm": 0.00029063940746709704, "learning_rate": 3.571111111111111e-05, "loss": 0.0001, "step": 7395 }, { "epoch": 12.333333333333334, "grad_norm": 0.0002523492439649999, "learning_rate": 3.56e-05, "loss": 0.0, "step": 7400 }, { "epoch": 12.333333333333334, "eval_accuracy": 0.8833333333333333, "eval_f1": 0.8833918514430915, "eval_loss": 0.8223608136177063, "eval_precision": 0.8910844412499095, "eval_recall": 0.8833333333333333, "eval_runtime": 17.3834, "eval_samples_per_second": 138.063, "eval_steps_per_second": 17.258, "step": 7400 }, { "epoch": 12.341666666666667, "grad_norm": 0.00027809091261588037, "learning_rate": 3.548888888888889e-05, "loss": 0.0, "step": 7405 }, { "epoch": 12.35, "grad_norm": 0.00025399128207936883, "learning_rate": 3.537777777777778e-05, "loss": 0.0, "step": 7410 }, { "epoch": 12.358333333333333, "grad_norm": 0.00021596623992081732, "learning_rate": 3.526666666666667e-05, "loss": 0.0, "step": 7415 }, { "epoch": 12.366666666666667, "grad_norm": 0.0002094822411891073, "learning_rate": 3.515555555555556e-05, "loss": 0.0, "step": 7420 }, { "epoch": 12.375, "grad_norm": 0.00023386710381601006, "learning_rate": 3.504444444444445e-05, "loss": 0.0, "step": 7425 }, { "epoch": 12.383333333333333, "grad_norm": 0.00020672910613939166, "learning_rate": 3.493333333333333e-05, "loss": 0.0, "step": 7430 }, { "epoch": 12.391666666666667, "grad_norm": 0.00027332809986546636, "learning_rate": 3.4822222222222225e-05, "loss": 0.0, "step": 7435 }, { "epoch": 12.4, "grad_norm": 0.00022021407494321465, "learning_rate": 3.471111111111111e-05, "loss": 0.0, "step": 7440 }, { "epoch": 12.408333333333333, "grad_norm": 0.0002101242425851524, "learning_rate": 3.46e-05, "loss": 0.0, "step": 7445 }, { "epoch": 12.416666666666666, "grad_norm": 0.00020575083908624947, "learning_rate": 3.448888888888889e-05, "loss": 0.0, "step": 7450 }, { "epoch": 12.425, "grad_norm": 0.0002491885970812291, "learning_rate": 3.4377777777777784e-05, "loss": 0.0, "step": 7455 }, { "epoch": 12.433333333333334, "grad_norm": 0.0002425894927000627, "learning_rate": 3.426666666666667e-05, "loss": 0.0, "step": 7460 }, { "epoch": 12.441666666666666, "grad_norm": 0.00022015406284481287, "learning_rate": 3.415555555555556e-05, "loss": 0.0, "step": 7465 }, { "epoch": 12.45, "grad_norm": 0.00020740607578773052, "learning_rate": 3.4044444444444445e-05, "loss": 0.0, "step": 7470 }, { "epoch": 12.458333333333334, "grad_norm": 0.00018971768440678716, "learning_rate": 3.3933333333333336e-05, "loss": 0.0, "step": 7475 }, { "epoch": 12.466666666666667, "grad_norm": 0.000295770209049806, "learning_rate": 3.382222222222222e-05, "loss": 0.0, "step": 7480 }, { "epoch": 12.475, "grad_norm": 0.0002018949162447825, "learning_rate": 3.371111111111111e-05, "loss": 0.0, "step": 7485 }, { "epoch": 12.483333333333333, "grad_norm": 0.00021908221242483705, "learning_rate": 3.3600000000000004e-05, "loss": 0.0001, "step": 7490 }, { "epoch": 12.491666666666667, "grad_norm": 0.0002095950476359576, "learning_rate": 3.3488888888888895e-05, "loss": 0.0, "step": 7495 }, { "epoch": 12.5, "grad_norm": 0.0002505708544049412, "learning_rate": 3.337777777777778e-05, "loss": 0.0, "step": 7500 }, { "epoch": 12.5, "eval_accuracy": 0.8825, "eval_f1": 0.8825563679721139, "eval_loss": 0.8246452808380127, "eval_precision": 0.890238276191427, "eval_recall": 0.8825, "eval_runtime": 17.4104, "eval_samples_per_second": 137.849, "eval_steps_per_second": 17.231, "step": 7500 }, { "epoch": 12.508333333333333, "grad_norm": 0.0001773550029611215, "learning_rate": 3.326666666666667e-05, "loss": 0.0, "step": 7505 }, { "epoch": 12.516666666666667, "grad_norm": 0.00022341728617902845, "learning_rate": 3.3155555555555556e-05, "loss": 0.0, "step": 7510 }, { "epoch": 12.525, "grad_norm": 0.00021077202109154314, "learning_rate": 3.304444444444445e-05, "loss": 0.0, "step": 7515 }, { "epoch": 12.533333333333333, "grad_norm": 0.00019056677410844713, "learning_rate": 3.293333333333333e-05, "loss": 0.0, "step": 7520 }, { "epoch": 12.541666666666666, "grad_norm": 0.0002562374575063586, "learning_rate": 3.2822222222222223e-05, "loss": 0.0, "step": 7525 }, { "epoch": 12.55, "grad_norm": 0.00023176382819656283, "learning_rate": 3.2711111111111115e-05, "loss": 0.0, "step": 7530 }, { "epoch": 12.558333333333334, "grad_norm": 0.00023261514434125274, "learning_rate": 3.26e-05, "loss": 0.0, "step": 7535 }, { "epoch": 12.566666666666666, "grad_norm": 0.00022218687809072435, "learning_rate": 3.248888888888889e-05, "loss": 0.0, "step": 7540 }, { "epoch": 12.575, "grad_norm": 0.00020125559240113944, "learning_rate": 3.2377777777777776e-05, "loss": 0.0, "step": 7545 }, { "epoch": 12.583333333333334, "grad_norm": 0.00018895274843089283, "learning_rate": 3.226666666666667e-05, "loss": 0.0, "step": 7550 }, { "epoch": 12.591666666666667, "grad_norm": 0.00020668450451921672, "learning_rate": 3.215555555555556e-05, "loss": 0.0, "step": 7555 }, { "epoch": 12.6, "grad_norm": 0.00022691735648550093, "learning_rate": 3.204444444444444e-05, "loss": 0.0, "step": 7560 }, { "epoch": 12.608333333333333, "grad_norm": 0.00019803833856713027, "learning_rate": 3.1933333333333335e-05, "loss": 0.0, "step": 7565 }, { "epoch": 12.616666666666667, "grad_norm": 0.00022973520390223712, "learning_rate": 3.1822222222222226e-05, "loss": 0.0, "step": 7570 }, { "epoch": 12.625, "grad_norm": 0.00017480483802501112, "learning_rate": 3.171111111111111e-05, "loss": 0.0, "step": 7575 }, { "epoch": 12.633333333333333, "grad_norm": 0.0002087767206830904, "learning_rate": 3.16e-05, "loss": 0.0, "step": 7580 }, { "epoch": 12.641666666666667, "grad_norm": 0.00019184596021659672, "learning_rate": 3.148888888888889e-05, "loss": 0.0, "step": 7585 }, { "epoch": 12.65, "grad_norm": 0.00021600846957881004, "learning_rate": 3.137777777777778e-05, "loss": 0.0, "step": 7590 }, { "epoch": 12.658333333333333, "grad_norm": 0.00028083674260415137, "learning_rate": 3.126666666666666e-05, "loss": 0.0, "step": 7595 }, { "epoch": 12.666666666666666, "grad_norm": 0.00020441258675418794, "learning_rate": 3.1155555555555555e-05, "loss": 0.0, "step": 7600 }, { "epoch": 12.666666666666666, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8267049193382263, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.5641, "eval_samples_per_second": 136.642, "eval_steps_per_second": 17.08, "step": 7600 }, { "epoch": 12.675, "grad_norm": 0.00020810207934118807, "learning_rate": 3.1044444444444446e-05, "loss": 0.0, "step": 7605 }, { "epoch": 12.683333333333334, "grad_norm": 0.00020417210180312395, "learning_rate": 3.093333333333334e-05, "loss": 0.0001, "step": 7610 }, { "epoch": 12.691666666666666, "grad_norm": 0.00020177822443656623, "learning_rate": 3.082222222222222e-05, "loss": 0.0, "step": 7615 }, { "epoch": 12.7, "grad_norm": 0.0001864606747403741, "learning_rate": 3.0711111111111114e-05, "loss": 0.0, "step": 7620 }, { "epoch": 12.708333333333334, "grad_norm": 0.00018905717297457159, "learning_rate": 3.06e-05, "loss": 0.0, "step": 7625 }, { "epoch": 12.716666666666667, "grad_norm": 0.00023054225312080234, "learning_rate": 3.048888888888889e-05, "loss": 0.0, "step": 7630 }, { "epoch": 12.725, "grad_norm": 0.0002065966255031526, "learning_rate": 3.0377777777777778e-05, "loss": 0.0, "step": 7635 }, { "epoch": 12.733333333333333, "grad_norm": 0.00020217035489622504, "learning_rate": 3.0266666666666666e-05, "loss": 0.0, "step": 7640 }, { "epoch": 12.741666666666667, "grad_norm": 0.000376842770492658, "learning_rate": 3.0155555555555557e-05, "loss": 0.0, "step": 7645 }, { "epoch": 12.75, "grad_norm": 0.00022803239698987454, "learning_rate": 3.004444444444445e-05, "loss": 0.0, "step": 7650 }, { "epoch": 12.758333333333333, "grad_norm": 0.00022767309565097094, "learning_rate": 2.9933333333333337e-05, "loss": 0.0, "step": 7655 }, { "epoch": 12.766666666666667, "grad_norm": 0.00022983207600191236, "learning_rate": 2.9822222222222225e-05, "loss": 0.0, "step": 7660 }, { "epoch": 12.775, "grad_norm": 0.0002216361026512459, "learning_rate": 2.9711111111111113e-05, "loss": 0.0, "step": 7665 }, { "epoch": 12.783333333333333, "grad_norm": 0.00023504573618993163, "learning_rate": 2.96e-05, "loss": 0.0, "step": 7670 }, { "epoch": 12.791666666666666, "grad_norm": 0.00018050154903903604, "learning_rate": 2.948888888888889e-05, "loss": 0.0, "step": 7675 }, { "epoch": 12.8, "grad_norm": 0.00023180610151030123, "learning_rate": 2.937777777777778e-05, "loss": 0.0, "step": 7680 }, { "epoch": 12.808333333333334, "grad_norm": 0.00018283689860254526, "learning_rate": 2.926666666666667e-05, "loss": 0.0, "step": 7685 }, { "epoch": 12.816666666666666, "grad_norm": 0.00023009150754660368, "learning_rate": 2.9155555555555557e-05, "loss": 0.0, "step": 7690 }, { "epoch": 12.825, "grad_norm": 0.00021891076175961643, "learning_rate": 2.9044444444444445e-05, "loss": 0.0, "step": 7695 }, { "epoch": 12.833333333333334, "grad_norm": 0.00020023265096824616, "learning_rate": 2.8933333333333333e-05, "loss": 0.0, "step": 7700 }, { "epoch": 12.833333333333334, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8279690742492676, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.2068, "eval_samples_per_second": 139.479, "eval_steps_per_second": 17.435, "step": 7700 }, { "epoch": 12.841666666666667, "grad_norm": 0.00019900331972166896, "learning_rate": 2.882222222222222e-05, "loss": 0.0, "step": 7705 }, { "epoch": 12.85, "grad_norm": 0.0002101636491715908, "learning_rate": 2.8711111111111113e-05, "loss": 0.0, "step": 7710 }, { "epoch": 12.858333333333333, "grad_norm": 0.00019579293439164758, "learning_rate": 2.86e-05, "loss": 0.0, "step": 7715 }, { "epoch": 12.866666666666667, "grad_norm": 0.00023615563986822963, "learning_rate": 2.8488888888888892e-05, "loss": 0.0, "step": 7720 }, { "epoch": 12.875, "grad_norm": 0.00018223539518658072, "learning_rate": 2.837777777777778e-05, "loss": 0.0, "step": 7725 }, { "epoch": 12.883333333333333, "grad_norm": 0.00021304503025021404, "learning_rate": 2.8266666666666668e-05, "loss": 0.0, "step": 7730 }, { "epoch": 12.891666666666667, "grad_norm": 0.00018971445388160646, "learning_rate": 2.8155555555555556e-05, "loss": 0.0, "step": 7735 }, { "epoch": 12.9, "grad_norm": 0.0001954557519638911, "learning_rate": 2.8044444444444444e-05, "loss": 0.0, "step": 7740 }, { "epoch": 12.908333333333333, "grad_norm": 0.00024131243117153645, "learning_rate": 2.7933333333333332e-05, "loss": 0.0, "step": 7745 }, { "epoch": 12.916666666666666, "grad_norm": 0.00031366036273539066, "learning_rate": 2.782222222222222e-05, "loss": 0.0, "step": 7750 }, { "epoch": 12.925, "grad_norm": 0.00021236491738818586, "learning_rate": 2.771111111111111e-05, "loss": 0.0, "step": 7755 }, { "epoch": 12.933333333333334, "grad_norm": 0.00021819760149810463, "learning_rate": 2.7600000000000003e-05, "loss": 0.0, "step": 7760 }, { "epoch": 12.941666666666666, "grad_norm": 0.0002034287026617676, "learning_rate": 2.748888888888889e-05, "loss": 0.0, "step": 7765 }, { "epoch": 12.95, "grad_norm": 0.0002261828922200948, "learning_rate": 2.737777777777778e-05, "loss": 0.0, "step": 7770 }, { "epoch": 12.958333333333334, "grad_norm": 0.00023608723131474108, "learning_rate": 2.7266666666666668e-05, "loss": 0.0, "step": 7775 }, { "epoch": 12.966666666666667, "grad_norm": 0.00020360689086373895, "learning_rate": 2.7155555555555556e-05, "loss": 0.0, "step": 7780 }, { "epoch": 12.975, "grad_norm": 0.00023216618865262717, "learning_rate": 2.7044444444444444e-05, "loss": 0.0, "step": 7785 }, { "epoch": 12.983333333333333, "grad_norm": 0.0002459129609633237, "learning_rate": 2.6933333333333332e-05, "loss": 0.0, "step": 7790 }, { "epoch": 12.991666666666667, "grad_norm": 0.00019421732577029616, "learning_rate": 2.682222222222222e-05, "loss": 0.0, "step": 7795 }, { "epoch": 13.0, "grad_norm": 0.00020216488337609917, "learning_rate": 2.6711111111111115e-05, "loss": 0.0, "step": 7800 }, { "epoch": 13.0, "eval_accuracy": 0.8825, "eval_f1": 0.8825651568398084, "eval_loss": 0.8289538621902466, "eval_precision": 0.890188855849929, "eval_recall": 0.8825, "eval_runtime": 17.5806, "eval_samples_per_second": 136.514, "eval_steps_per_second": 17.064, "step": 7800 }, { "epoch": 13.008333333333333, "grad_norm": 0.00019263019203208387, "learning_rate": 2.6600000000000003e-05, "loss": 0.0, "step": 7805 }, { "epoch": 13.016666666666667, "grad_norm": 0.00027772114844992757, "learning_rate": 2.648888888888889e-05, "loss": 0.0, "step": 7810 }, { "epoch": 13.025, "grad_norm": 0.0002678349846974015, "learning_rate": 2.637777777777778e-05, "loss": 0.0, "step": 7815 }, { "epoch": 13.033333333333333, "grad_norm": 0.00021899386774748564, "learning_rate": 2.6266666666666667e-05, "loss": 0.0, "step": 7820 }, { "epoch": 13.041666666666666, "grad_norm": 0.00019974577298853546, "learning_rate": 2.6155555555555555e-05, "loss": 0.0, "step": 7825 }, { "epoch": 13.05, "grad_norm": 0.00024388344900216907, "learning_rate": 2.6044444444444443e-05, "loss": 0.0, "step": 7830 }, { "epoch": 13.058333333333334, "grad_norm": 0.00019522596267051995, "learning_rate": 2.5933333333333338e-05, "loss": 0.0, "step": 7835 }, { "epoch": 13.066666666666666, "grad_norm": 0.00018114069825969636, "learning_rate": 2.5822222222222226e-05, "loss": 0.0, "step": 7840 }, { "epoch": 13.075, "grad_norm": 0.00024914200184866786, "learning_rate": 2.5711111111111114e-05, "loss": 0.0, "step": 7845 }, { "epoch": 13.083333333333334, "grad_norm": 0.0001867000391939655, "learning_rate": 2.5600000000000002e-05, "loss": 0.0, "step": 7850 }, { "epoch": 13.091666666666667, "grad_norm": 0.00016311294166371226, "learning_rate": 2.548888888888889e-05, "loss": 0.0, "step": 7855 }, { "epoch": 13.1, "grad_norm": 0.000189823069376871, "learning_rate": 2.537777777777778e-05, "loss": 0.0, "step": 7860 }, { "epoch": 13.108333333333333, "grad_norm": 0.00023518610396422446, "learning_rate": 2.5266666666666666e-05, "loss": 0.0, "step": 7865 }, { "epoch": 13.116666666666667, "grad_norm": 0.00023489471641369164, "learning_rate": 2.5155555555555555e-05, "loss": 0.0, "step": 7870 }, { "epoch": 13.125, "grad_norm": 0.00016635841166134924, "learning_rate": 2.504444444444445e-05, "loss": 0.0, "step": 7875 }, { "epoch": 13.133333333333333, "grad_norm": 0.00022358581190928817, "learning_rate": 2.4933333333333334e-05, "loss": 0.0, "step": 7880 }, { "epoch": 13.141666666666667, "grad_norm": 0.0001778573205228895, "learning_rate": 2.4822222222222225e-05, "loss": 0.0, "step": 7885 }, { "epoch": 13.15, "grad_norm": 0.00022743082081433386, "learning_rate": 2.4711111111111114e-05, "loss": 0.0, "step": 7890 }, { "epoch": 13.158333333333333, "grad_norm": 0.0002745579113252461, "learning_rate": 2.46e-05, "loss": 0.0, "step": 7895 }, { "epoch": 13.166666666666666, "grad_norm": 0.00017478906374890357, "learning_rate": 2.448888888888889e-05, "loss": 0.0, "step": 7900 }, { "epoch": 13.166666666666666, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8309497833251953, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.3461, "eval_samples_per_second": 138.359, "eval_steps_per_second": 17.295, "step": 7900 }, { "epoch": 13.175, "grad_norm": 0.0002579372958280146, "learning_rate": 2.437777777777778e-05, "loss": 0.0, "step": 7905 }, { "epoch": 13.183333333333334, "grad_norm": 0.00016828881052788347, "learning_rate": 2.426666666666667e-05, "loss": 0.0, "step": 7910 }, { "epoch": 13.191666666666666, "grad_norm": 0.00016676438099239022, "learning_rate": 2.4155555555555557e-05, "loss": 0.0, "step": 7915 }, { "epoch": 13.2, "grad_norm": 0.00022408449149224907, "learning_rate": 2.4044444444444445e-05, "loss": 0.0, "step": 7920 }, { "epoch": 13.208333333333334, "grad_norm": 0.00019597579375840724, "learning_rate": 2.3933333333333337e-05, "loss": 0.0, "step": 7925 }, { "epoch": 13.216666666666667, "grad_norm": 0.00021354817727115005, "learning_rate": 2.3822222222222225e-05, "loss": 0.0, "step": 7930 }, { "epoch": 13.225, "grad_norm": 0.0002328067203052342, "learning_rate": 2.3711111111111113e-05, "loss": 0.0, "step": 7935 }, { "epoch": 13.233333333333333, "grad_norm": 0.00019325132598169148, "learning_rate": 2.36e-05, "loss": 0.0, "step": 7940 }, { "epoch": 13.241666666666667, "grad_norm": 0.00018644663214217871, "learning_rate": 2.3488888888888893e-05, "loss": 0.0, "step": 7945 }, { "epoch": 13.25, "grad_norm": 0.00019255092774983495, "learning_rate": 2.337777777777778e-05, "loss": 0.0, "step": 7950 }, { "epoch": 13.258333333333333, "grad_norm": 0.0002351307775825262, "learning_rate": 2.326666666666667e-05, "loss": 0.0, "step": 7955 }, { "epoch": 13.266666666666667, "grad_norm": 0.00019937430624850094, "learning_rate": 2.3155555555555557e-05, "loss": 0.0, "step": 7960 }, { "epoch": 13.275, "grad_norm": 0.00018397392705082893, "learning_rate": 2.3044444444444445e-05, "loss": 0.0, "step": 7965 }, { "epoch": 13.283333333333333, "grad_norm": 0.0001981027889996767, "learning_rate": 2.2933333333333333e-05, "loss": 0.0, "step": 7970 }, { "epoch": 13.291666666666666, "grad_norm": 0.00017628191562835127, "learning_rate": 2.282222222222222e-05, "loss": 0.0, "step": 7975 }, { "epoch": 13.3, "grad_norm": 0.00017062958795577288, "learning_rate": 2.2711111111111112e-05, "loss": 0.0, "step": 7980 }, { "epoch": 13.308333333333334, "grad_norm": 0.00019359414000064135, "learning_rate": 2.26e-05, "loss": 0.0, "step": 7985 }, { "epoch": 13.316666666666666, "grad_norm": 0.0001965119008673355, "learning_rate": 2.248888888888889e-05, "loss": 0.0, "step": 7990 }, { "epoch": 13.325, "grad_norm": 0.00016932205471675843, "learning_rate": 2.2377777777777777e-05, "loss": 0.0, "step": 7995 }, { "epoch": 13.333333333333334, "grad_norm": 0.00021258252672851086, "learning_rate": 2.2266666666666668e-05, "loss": 0.0, "step": 8000 }, { "epoch": 13.333333333333334, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8328311443328857, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.5274, "eval_samples_per_second": 136.929, "eval_steps_per_second": 17.116, "step": 8000 }, { "epoch": 13.341666666666667, "grad_norm": 0.0002150936343241483, "learning_rate": 2.2155555555555556e-05, "loss": 0.0, "step": 8005 }, { "epoch": 13.35, "grad_norm": 0.00017150466737803072, "learning_rate": 2.2044444444444444e-05, "loss": 0.0, "step": 8010 }, { "epoch": 13.358333333333333, "grad_norm": 0.00020388461416587234, "learning_rate": 2.1933333333333332e-05, "loss": 0.0, "step": 8015 }, { "epoch": 13.366666666666667, "grad_norm": 0.00021628753165714443, "learning_rate": 2.1822222222222224e-05, "loss": 0.0, "step": 8020 }, { "epoch": 13.375, "grad_norm": 0.0001740349835017696, "learning_rate": 2.1711111111111112e-05, "loss": 0.0, "step": 8025 }, { "epoch": 13.383333333333333, "grad_norm": 0.00020285432401578873, "learning_rate": 2.16e-05, "loss": 0.0, "step": 8030 }, { "epoch": 13.391666666666667, "grad_norm": 0.00020065135322511196, "learning_rate": 2.1488888888888888e-05, "loss": 0.0, "step": 8035 }, { "epoch": 13.4, "grad_norm": 0.0001836601149989292, "learning_rate": 2.137777777777778e-05, "loss": 0.0, "step": 8040 }, { "epoch": 13.408333333333333, "grad_norm": 0.00018342453404329717, "learning_rate": 2.1266666666666667e-05, "loss": 0.0, "step": 8045 }, { "epoch": 13.416666666666666, "grad_norm": 0.00019347487250342965, "learning_rate": 2.1155555555555556e-05, "loss": 0.0, "step": 8050 }, { "epoch": 13.425, "grad_norm": 0.00016614058404229581, "learning_rate": 2.1044444444444444e-05, "loss": 0.0, "step": 8055 }, { "epoch": 13.433333333333334, "grad_norm": 0.0001831506669986993, "learning_rate": 2.0933333333333335e-05, "loss": 0.0, "step": 8060 }, { "epoch": 13.441666666666666, "grad_norm": 0.00018661354260984808, "learning_rate": 2.0822222222222223e-05, "loss": 0.0, "step": 8065 }, { "epoch": 13.45, "grad_norm": 0.00020262367615941912, "learning_rate": 2.071111111111111e-05, "loss": 0.0, "step": 8070 }, { "epoch": 13.458333333333334, "grad_norm": 0.0002054392680292949, "learning_rate": 2.06e-05, "loss": 0.0, "step": 8075 }, { "epoch": 13.466666666666667, "grad_norm": 0.00018578562594484538, "learning_rate": 2.048888888888889e-05, "loss": 0.0, "step": 8080 }, { "epoch": 13.475, "grad_norm": 0.00019214267376810312, "learning_rate": 2.037777777777778e-05, "loss": 0.0, "step": 8085 }, { "epoch": 13.483333333333333, "grad_norm": 0.00019647339649964124, "learning_rate": 2.0266666666666667e-05, "loss": 0.0, "step": 8090 }, { "epoch": 13.491666666666667, "grad_norm": 0.0001878721232060343, "learning_rate": 2.0155555555555555e-05, "loss": 0.0, "step": 8095 }, { "epoch": 13.5, "grad_norm": 0.00021670157730113715, "learning_rate": 2.0044444444444446e-05, "loss": 0.0, "step": 8100 }, { "epoch": 13.5, "eval_accuracy": 0.8825, "eval_f1": 0.8825651568398084, "eval_loss": 0.8339550495147705, "eval_precision": 0.890188855849929, "eval_recall": 0.8825, "eval_runtime": 17.2366, "eval_samples_per_second": 139.239, "eval_steps_per_second": 17.405, "step": 8100 }, { "epoch": 13.508333333333333, "grad_norm": 0.0001958951906999573, "learning_rate": 1.9933333333333334e-05, "loss": 0.0, "step": 8105 }, { "epoch": 13.516666666666667, "grad_norm": 0.00018712430028244853, "learning_rate": 1.9822222222222223e-05, "loss": 0.0, "step": 8110 }, { "epoch": 13.525, "grad_norm": 0.0001629511098144576, "learning_rate": 1.971111111111111e-05, "loss": 0.0, "step": 8115 }, { "epoch": 13.533333333333333, "grad_norm": 0.00018618795729707927, "learning_rate": 1.9600000000000002e-05, "loss": 0.0, "step": 8120 }, { "epoch": 13.541666666666666, "grad_norm": 0.00017485523130744696, "learning_rate": 1.948888888888889e-05, "loss": 0.0, "step": 8125 }, { "epoch": 13.55, "grad_norm": 0.00017204122559633106, "learning_rate": 1.9377777777777778e-05, "loss": 0.0, "step": 8130 }, { "epoch": 13.558333333333334, "grad_norm": 0.0001719749707262963, "learning_rate": 1.926666666666667e-05, "loss": 0.0, "step": 8135 }, { "epoch": 13.566666666666666, "grad_norm": 0.0001830024120863527, "learning_rate": 1.9155555555555558e-05, "loss": 0.0, "step": 8140 }, { "epoch": 13.575, "grad_norm": 0.00021283696696627885, "learning_rate": 1.9044444444444446e-05, "loss": 0.0, "step": 8145 }, { "epoch": 13.583333333333334, "grad_norm": 0.00017752833082340658, "learning_rate": 1.8933333333333334e-05, "loss": 0.0, "step": 8150 }, { "epoch": 13.591666666666667, "grad_norm": 0.00016963263624347746, "learning_rate": 1.8822222222222225e-05, "loss": 0.0, "step": 8155 }, { "epoch": 13.6, "grad_norm": 0.0001882654760265723, "learning_rate": 1.8711111111111113e-05, "loss": 0.0, "step": 8160 }, { "epoch": 13.608333333333333, "grad_norm": 0.00017300769104622304, "learning_rate": 1.86e-05, "loss": 0.0, "step": 8165 }, { "epoch": 13.616666666666667, "grad_norm": 0.00024888862390071154, "learning_rate": 1.848888888888889e-05, "loss": 0.0, "step": 8170 }, { "epoch": 13.625, "grad_norm": 0.00020068699086550623, "learning_rate": 1.837777777777778e-05, "loss": 0.0, "step": 8175 }, { "epoch": 13.633333333333333, "grad_norm": 0.00020417645282577723, "learning_rate": 1.826666666666667e-05, "loss": 0.0, "step": 8180 }, { "epoch": 13.641666666666667, "grad_norm": 0.00020832961308769882, "learning_rate": 1.8155555555555557e-05, "loss": 0.0, "step": 8185 }, { "epoch": 13.65, "grad_norm": 0.00017992101493291557, "learning_rate": 1.8044444444444445e-05, "loss": 0.0, "step": 8190 }, { "epoch": 13.658333333333333, "grad_norm": 0.0001696436374913901, "learning_rate": 1.7933333333333337e-05, "loss": 0.0, "step": 8195 }, { "epoch": 13.666666666666666, "grad_norm": 0.0002831541933119297, "learning_rate": 1.7822222222222225e-05, "loss": 0.0, "step": 8200 }, { "epoch": 13.666666666666666, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8347686529159546, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.502, "eval_samples_per_second": 137.128, "eval_steps_per_second": 17.141, "step": 8200 }, { "epoch": 13.675, "grad_norm": 0.00022698688553646207, "learning_rate": 1.7711111111111113e-05, "loss": 0.0, "step": 8205 }, { "epoch": 13.683333333333334, "grad_norm": 0.00015609456750098616, "learning_rate": 1.76e-05, "loss": 0.0, "step": 8210 }, { "epoch": 13.691666666666666, "grad_norm": 0.00015745119890198112, "learning_rate": 1.7488888888888892e-05, "loss": 0.0, "step": 8215 }, { "epoch": 13.7, "grad_norm": 0.00018208676192443818, "learning_rate": 1.737777777777778e-05, "loss": 0.0, "step": 8220 }, { "epoch": 13.708333333333334, "grad_norm": 0.00019308170885778964, "learning_rate": 1.726666666666667e-05, "loss": 0.0, "step": 8225 }, { "epoch": 13.716666666666667, "grad_norm": 0.00021918737911619246, "learning_rate": 1.7155555555555557e-05, "loss": 0.0, "step": 8230 }, { "epoch": 13.725, "grad_norm": 0.00017365686653647572, "learning_rate": 1.7044444444444445e-05, "loss": 0.0, "step": 8235 }, { "epoch": 13.733333333333333, "grad_norm": 0.00022654425993096083, "learning_rate": 1.6933333333333333e-05, "loss": 0.0, "step": 8240 }, { "epoch": 13.741666666666667, "grad_norm": 0.00023471162421628833, "learning_rate": 1.6822222222222224e-05, "loss": 0.0, "step": 8245 }, { "epoch": 13.75, "grad_norm": 0.00017353685689158738, "learning_rate": 1.6711111111111112e-05, "loss": 0.0, "step": 8250 }, { "epoch": 13.758333333333333, "grad_norm": 0.00019254790095146745, "learning_rate": 1.66e-05, "loss": 0.0, "step": 8255 }, { "epoch": 13.766666666666667, "grad_norm": 0.00018481566803529859, "learning_rate": 1.648888888888889e-05, "loss": 0.0, "step": 8260 }, { "epoch": 13.775, "grad_norm": 0.00018267150153405964, "learning_rate": 1.6377777777777776e-05, "loss": 0.0, "step": 8265 }, { "epoch": 13.783333333333333, "grad_norm": 0.0001947663549799472, "learning_rate": 1.6266666666666665e-05, "loss": 0.0, "step": 8270 }, { "epoch": 13.791666666666666, "grad_norm": 0.00022752855147700757, "learning_rate": 1.6155555555555556e-05, "loss": 0.0, "step": 8275 }, { "epoch": 13.8, "grad_norm": 0.0002141165896318853, "learning_rate": 1.6044444444444444e-05, "loss": 0.0, "step": 8280 }, { "epoch": 13.808333333333334, "grad_norm": 0.00016464630607515574, "learning_rate": 1.5933333333333332e-05, "loss": 0.0, "step": 8285 }, { "epoch": 13.816666666666666, "grad_norm": 0.0001729343057377264, "learning_rate": 1.582222222222222e-05, "loss": 0.0, "step": 8290 }, { "epoch": 13.825, "grad_norm": 0.00019105155661236495, "learning_rate": 1.571111111111111e-05, "loss": 0.0, "step": 8295 }, { "epoch": 13.833333333333334, "grad_norm": 0.00017406356346327811, "learning_rate": 1.56e-05, "loss": 0.0, "step": 8300 }, { "epoch": 13.833333333333334, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8359626531600952, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.5476, "eval_samples_per_second": 136.771, "eval_steps_per_second": 17.096, "step": 8300 }, { "epoch": 13.841666666666667, "grad_norm": 0.00017486086289864033, "learning_rate": 1.5488888888888888e-05, "loss": 0.0, "step": 8305 }, { "epoch": 13.85, "grad_norm": 0.00016005273209884763, "learning_rate": 1.537777777777778e-05, "loss": 0.0, "step": 8310 }, { "epoch": 13.858333333333333, "grad_norm": 0.0001879615883808583, "learning_rate": 1.5266666666666667e-05, "loss": 0.0, "step": 8315 }, { "epoch": 13.866666666666667, "grad_norm": 0.00018064409960061312, "learning_rate": 1.5155555555555555e-05, "loss": 0.0, "step": 8320 }, { "epoch": 13.875, "grad_norm": 0.00028529722476378083, "learning_rate": 1.5044444444444445e-05, "loss": 0.0, "step": 8325 }, { "epoch": 13.883333333333333, "grad_norm": 0.00017931727052200586, "learning_rate": 1.4933333333333335e-05, "loss": 0.0, "step": 8330 }, { "epoch": 13.891666666666667, "grad_norm": 0.00018616454326547682, "learning_rate": 1.4822222222222223e-05, "loss": 0.0, "step": 8335 }, { "epoch": 13.9, "grad_norm": 0.00020125175069551915, "learning_rate": 1.4711111111111111e-05, "loss": 0.0, "step": 8340 }, { "epoch": 13.908333333333333, "grad_norm": 0.0001605808356544003, "learning_rate": 1.4599999999999999e-05, "loss": 0.0, "step": 8345 }, { "epoch": 13.916666666666666, "grad_norm": 0.00018761292449198663, "learning_rate": 1.448888888888889e-05, "loss": 0.0, "step": 8350 }, { "epoch": 13.925, "grad_norm": 0.00017785238742362708, "learning_rate": 1.4377777777777779e-05, "loss": 0.0, "step": 8355 }, { "epoch": 13.933333333333334, "grad_norm": 0.00018561346223577857, "learning_rate": 1.4266666666666667e-05, "loss": 0.0, "step": 8360 }, { "epoch": 13.941666666666666, "grad_norm": 0.00027865299489349127, "learning_rate": 1.4155555555555555e-05, "loss": 0.0, "step": 8365 }, { "epoch": 13.95, "grad_norm": 0.00019391313253436238, "learning_rate": 1.4044444444444446e-05, "loss": 0.0, "step": 8370 }, { "epoch": 13.958333333333334, "grad_norm": 0.00015461099974345416, "learning_rate": 1.3933333333333334e-05, "loss": 0.0, "step": 8375 }, { "epoch": 13.966666666666667, "grad_norm": 0.00017030435265041888, "learning_rate": 1.3822222222222222e-05, "loss": 0.0, "step": 8380 }, { "epoch": 13.975, "grad_norm": 0.0001709229254629463, "learning_rate": 1.371111111111111e-05, "loss": 0.0, "step": 8385 }, { "epoch": 13.983333333333333, "grad_norm": 0.00017545394075568765, "learning_rate": 1.3600000000000002e-05, "loss": 0.0, "step": 8390 }, { "epoch": 13.991666666666667, "grad_norm": 0.00018598328460939229, "learning_rate": 1.348888888888889e-05, "loss": 0.0, "step": 8395 }, { "epoch": 14.0, "grad_norm": 0.00016162589599844068, "learning_rate": 1.3377777777777778e-05, "loss": 0.0, "step": 8400 }, { "epoch": 14.0, "eval_accuracy": 0.8825, "eval_f1": 0.8825651568398084, "eval_loss": 0.8369132280349731, "eval_precision": 0.890188855849929, "eval_recall": 0.8825, "eval_runtime": 17.5157, "eval_samples_per_second": 137.02, "eval_steps_per_second": 17.128, "step": 8400 }, { "epoch": 14.008333333333333, "grad_norm": 0.00014753300638403744, "learning_rate": 1.3266666666666666e-05, "loss": 0.0, "step": 8405 }, { "epoch": 14.016666666666667, "grad_norm": 0.00018144505156669766, "learning_rate": 1.3155555555555558e-05, "loss": 0.0, "step": 8410 }, { "epoch": 14.025, "grad_norm": 0.00015316056669689715, "learning_rate": 1.3044444444444446e-05, "loss": 0.0, "step": 8415 }, { "epoch": 14.033333333333333, "grad_norm": 0.0001806470681913197, "learning_rate": 1.2933333333333334e-05, "loss": 0.0, "step": 8420 }, { "epoch": 14.041666666666666, "grad_norm": 0.0001604976278031245, "learning_rate": 1.2822222222222222e-05, "loss": 0.0, "step": 8425 }, { "epoch": 14.05, "grad_norm": 0.00019361906743142754, "learning_rate": 1.2711111111111113e-05, "loss": 0.0, "step": 8430 }, { "epoch": 14.058333333333334, "grad_norm": 0.00019791728118434548, "learning_rate": 1.2600000000000001e-05, "loss": 0.0, "step": 8435 }, { "epoch": 14.066666666666666, "grad_norm": 0.00017698849842417985, "learning_rate": 1.248888888888889e-05, "loss": 0.0, "step": 8440 }, { "epoch": 14.075, "grad_norm": 0.00018551423272583634, "learning_rate": 1.237777777777778e-05, "loss": 0.0, "step": 8445 }, { "epoch": 14.083333333333334, "grad_norm": 0.0001913801534101367, "learning_rate": 1.2266666666666667e-05, "loss": 0.0, "step": 8450 }, { "epoch": 14.091666666666667, "grad_norm": 0.00023565313313156366, "learning_rate": 1.2155555555555555e-05, "loss": 0.0, "step": 8455 }, { "epoch": 14.1, "grad_norm": 0.00017532789206597954, "learning_rate": 1.2044444444444445e-05, "loss": 0.0, "step": 8460 }, { "epoch": 14.108333333333333, "grad_norm": 0.00015906778571661562, "learning_rate": 1.1933333333333333e-05, "loss": 0.0, "step": 8465 }, { "epoch": 14.116666666666667, "grad_norm": 0.0001740664738463238, "learning_rate": 1.1822222222222223e-05, "loss": 0.0, "step": 8470 }, { "epoch": 14.125, "grad_norm": 0.0002242460468551144, "learning_rate": 1.1711111111111111e-05, "loss": 0.0, "step": 8475 }, { "epoch": 14.133333333333333, "grad_norm": 0.00017000439402181655, "learning_rate": 1.16e-05, "loss": 0.0, "step": 8480 }, { "epoch": 14.141666666666667, "grad_norm": 0.0001850762200774625, "learning_rate": 1.1488888888888889e-05, "loss": 0.0, "step": 8485 }, { "epoch": 14.15, "grad_norm": 0.00016777652490418404, "learning_rate": 1.1377777777777779e-05, "loss": 0.0, "step": 8490 }, { "epoch": 14.158333333333333, "grad_norm": 0.00017902145918924361, "learning_rate": 1.1266666666666667e-05, "loss": 0.0, "step": 8495 }, { "epoch": 14.166666666666666, "grad_norm": 0.00018070245278067887, "learning_rate": 1.1155555555555556e-05, "loss": 0.0, "step": 8500 }, { "epoch": 14.166666666666666, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8378671407699585, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.2204, "eval_samples_per_second": 139.37, "eval_steps_per_second": 17.421, "step": 8500 }, { "epoch": 14.175, "grad_norm": 0.00018030994397122413, "learning_rate": 1.1044444444444444e-05, "loss": 0.0, "step": 8505 }, { "epoch": 14.183333333333334, "grad_norm": 0.0002057211968349293, "learning_rate": 1.0933333333333334e-05, "loss": 0.0, "step": 8510 }, { "epoch": 14.191666666666666, "grad_norm": 0.000186962031875737, "learning_rate": 1.0822222222222222e-05, "loss": 0.0, "step": 8515 }, { "epoch": 14.2, "grad_norm": 0.00020547689928207546, "learning_rate": 1.0711111111111112e-05, "loss": 0.0, "step": 8520 }, { "epoch": 14.208333333333334, "grad_norm": 0.0001720040017971769, "learning_rate": 1.06e-05, "loss": 0.0, "step": 8525 }, { "epoch": 14.216666666666667, "grad_norm": 0.00021744644618593156, "learning_rate": 1.048888888888889e-05, "loss": 0.0, "step": 8530 }, { "epoch": 14.225, "grad_norm": 0.00018521465244702995, "learning_rate": 1.0377777777777778e-05, "loss": 0.0, "step": 8535 }, { "epoch": 14.233333333333333, "grad_norm": 0.00022781931329518557, "learning_rate": 1.0266666666666668e-05, "loss": 0.0, "step": 8540 }, { "epoch": 14.241666666666667, "grad_norm": 0.00026794298901222646, "learning_rate": 1.0155555555555556e-05, "loss": 0.0, "step": 8545 }, { "epoch": 14.25, "grad_norm": 0.00017206993652507663, "learning_rate": 1.0044444444444446e-05, "loss": 0.0, "step": 8550 }, { "epoch": 14.258333333333333, "grad_norm": 0.00014935017679817975, "learning_rate": 9.933333333333334e-06, "loss": 0.0, "step": 8555 }, { "epoch": 14.266666666666667, "grad_norm": 0.0001935766777023673, "learning_rate": 9.822222222222223e-06, "loss": 0.0, "step": 8560 }, { "epoch": 14.275, "grad_norm": 0.0002156337577616796, "learning_rate": 9.711111111111111e-06, "loss": 0.0, "step": 8565 }, { "epoch": 14.283333333333333, "grad_norm": 0.000174568485817872, "learning_rate": 9.600000000000001e-06, "loss": 0.0, "step": 8570 }, { "epoch": 14.291666666666666, "grad_norm": 0.00018659196211956441, "learning_rate": 9.48888888888889e-06, "loss": 0.0, "step": 8575 }, { "epoch": 14.3, "grad_norm": 0.00019295972015243024, "learning_rate": 9.377777777777779e-06, "loss": 0.0, "step": 8580 }, { "epoch": 14.308333333333334, "grad_norm": 0.00019174799672327936, "learning_rate": 9.266666666666667e-06, "loss": 0.0, "step": 8585 }, { "epoch": 14.316666666666666, "grad_norm": 0.0001675879320828244, "learning_rate": 9.155555555555557e-06, "loss": 0.0, "step": 8590 }, { "epoch": 14.325, "grad_norm": 0.00020306541409809142, "learning_rate": 9.044444444444445e-06, "loss": 0.0, "step": 8595 }, { "epoch": 14.333333333333334, "grad_norm": 0.00015437847469002008, "learning_rate": 8.933333333333333e-06, "loss": 0.0, "step": 8600 }, { "epoch": 14.333333333333334, "eval_accuracy": 0.8820833333333333, "eval_f1": 0.8821434157810476, "eval_loss": 0.8385883569717407, "eval_precision": 0.8897927137824982, "eval_recall": 0.8820833333333333, "eval_runtime": 17.0633, "eval_samples_per_second": 140.653, "eval_steps_per_second": 17.582, "step": 8600 }, { "epoch": 14.341666666666667, "grad_norm": 0.00015664852980989963, "learning_rate": 8.822222222222223e-06, "loss": 0.0, "step": 8605 }, { "epoch": 14.35, "grad_norm": 0.00016705259622540325, "learning_rate": 8.711111111111111e-06, "loss": 0.0, "step": 8610 }, { "epoch": 14.358333333333333, "grad_norm": 0.00016577212954871356, "learning_rate": 8.599999999999999e-06, "loss": 0.0, "step": 8615 }, { "epoch": 14.366666666666667, "grad_norm": 0.00017201888840645552, "learning_rate": 8.488888888888889e-06, "loss": 0.0, "step": 8620 }, { "epoch": 14.375, "grad_norm": 0.00017752927669789642, "learning_rate": 8.377777777777779e-06, "loss": 0.0, "step": 8625 }, { "epoch": 14.383333333333333, "grad_norm": 0.00020672370737884194, "learning_rate": 8.266666666666667e-06, "loss": 0.0, "step": 8630 }, { "epoch": 14.391666666666667, "grad_norm": 0.00017699558520689607, "learning_rate": 8.155555555555556e-06, "loss": 0.0, "step": 8635 }, { "epoch": 14.4, "grad_norm": 0.00021340607781894505, "learning_rate": 8.044444444444444e-06, "loss": 0.0, "step": 8640 }, { "epoch": 14.408333333333333, "grad_norm": 0.00015180215996224433, "learning_rate": 7.933333333333334e-06, "loss": 0.0, "step": 8645 }, { "epoch": 14.416666666666666, "grad_norm": 0.000207578283152543, "learning_rate": 7.822222222222222e-06, "loss": 0.0, "step": 8650 }, { "epoch": 14.425, "grad_norm": 0.00017632119124755263, "learning_rate": 7.711111111111112e-06, "loss": 0.0, "step": 8655 }, { "epoch": 14.433333333333334, "grad_norm": 0.00021763173572253436, "learning_rate": 7.6e-06, "loss": 0.0, "step": 8660 }, { "epoch": 14.441666666666666, "grad_norm": 0.0001956472551682964, "learning_rate": 7.48888888888889e-06, "loss": 0.0, "step": 8665 }, { "epoch": 14.45, "grad_norm": 0.00014841601660009474, "learning_rate": 7.377777777777778e-06, "loss": 0.0, "step": 8670 }, { "epoch": 14.458333333333334, "grad_norm": 0.0001999816158786416, "learning_rate": 7.266666666666668e-06, "loss": 0.0, "step": 8675 }, { "epoch": 14.466666666666667, "grad_norm": 0.00016472434799652547, "learning_rate": 7.155555555555556e-06, "loss": 0.0, "step": 8680 }, { "epoch": 14.475, "grad_norm": 0.00016283878358080983, "learning_rate": 7.0444444444444455e-06, "loss": 0.0, "step": 8685 }, { "epoch": 14.483333333333333, "grad_norm": 0.00015117033035494387, "learning_rate": 6.933333333333334e-06, "loss": 0.0, "step": 8690 }, { "epoch": 14.491666666666667, "grad_norm": 0.0001656676467973739, "learning_rate": 6.8222222222222225e-06, "loss": 0.0, "step": 8695 }, { "epoch": 14.5, "grad_norm": 0.00015544629422947764, "learning_rate": 6.711111111111111e-06, "loss": 0.0, "step": 8700 }, { "epoch": 14.5, "eval_accuracy": 0.8829166666666667, "eval_f1": 0.8829507318546753, "eval_loss": 0.8390428423881531, "eval_precision": 0.8904845032632345, "eval_recall": 0.8829166666666667, "eval_runtime": 17.619, "eval_samples_per_second": 136.217, "eval_steps_per_second": 17.027, "step": 8700 }, { "epoch": 14.508333333333333, "grad_norm": 0.00021947435743641108, "learning_rate": 6.6e-06, "loss": 0.0, "step": 8705 }, { "epoch": 14.516666666666667, "grad_norm": 0.00017974227375816554, "learning_rate": 6.488888888888888e-06, "loss": 0.0, "step": 8710 }, { "epoch": 14.525, "grad_norm": 0.00016470765694975853, "learning_rate": 6.377777777777778e-06, "loss": 0.0, "step": 8715 }, { "epoch": 14.533333333333333, "grad_norm": 0.00021862164430785924, "learning_rate": 6.266666666666666e-06, "loss": 0.0, "step": 8720 }, { "epoch": 14.541666666666666, "grad_norm": 0.00018498621648177505, "learning_rate": 6.155555555555556e-06, "loss": 0.0, "step": 8725 }, { "epoch": 14.55, "grad_norm": 0.00018079612345900387, "learning_rate": 6.044444444444445e-06, "loss": 0.0, "step": 8730 }, { "epoch": 14.558333333333334, "grad_norm": 0.00017500856483820826, "learning_rate": 5.933333333333334e-06, "loss": 0.0, "step": 8735 }, { "epoch": 14.566666666666666, "grad_norm": 0.00016951694851741195, "learning_rate": 5.822222222222223e-06, "loss": 0.0, "step": 8740 }, { "epoch": 14.575, "grad_norm": 0.0001690676435828209, "learning_rate": 5.711111111111112e-06, "loss": 0.0, "step": 8745 }, { "epoch": 14.583333333333334, "grad_norm": 0.00021018316328991205, "learning_rate": 5.600000000000001e-06, "loss": 0.0, "step": 8750 }, { "epoch": 14.591666666666667, "grad_norm": 0.00016379222506657243, "learning_rate": 5.4888888888888895e-06, "loss": 0.0, "step": 8755 }, { "epoch": 14.6, "grad_norm": 0.00017098097305279225, "learning_rate": 5.3777777777777784e-06, "loss": 0.0, "step": 8760 }, { "epoch": 14.608333333333333, "grad_norm": 0.00019389684894122183, "learning_rate": 5.266666666666667e-06, "loss": 0.0, "step": 8765 }, { "epoch": 14.616666666666667, "grad_norm": 0.00022138305939733982, "learning_rate": 5.155555555555555e-06, "loss": 0.0, "step": 8770 }, { "epoch": 14.625, "grad_norm": 0.00015149179671425372, "learning_rate": 5.044444444444444e-06, "loss": 0.0, "step": 8775 }, { "epoch": 14.633333333333333, "grad_norm": 0.00022329755302052945, "learning_rate": 4.933333333333333e-06, "loss": 0.0, "step": 8780 }, { "epoch": 14.641666666666667, "grad_norm": 0.00018298950453754514, "learning_rate": 4.822222222222222e-06, "loss": 0.0, "step": 8785 }, { "epoch": 14.65, "grad_norm": 0.00014787739200983196, "learning_rate": 4.711111111111111e-06, "loss": 0.0, "step": 8790 }, { "epoch": 14.658333333333333, "grad_norm": 0.00019398657605051994, "learning_rate": 4.6e-06, "loss": 0.0, "step": 8795 }, { "epoch": 14.666666666666666, "grad_norm": 0.00015126177459023893, "learning_rate": 4.488888888888889e-06, "loss": 0.0, "step": 8800 }, { "epoch": 14.666666666666666, "eval_accuracy": 0.8825, "eval_f1": 0.8825296048852935, "eval_loss": 0.839695155620575, "eval_precision": 0.8900886429982962, "eval_recall": 0.8825, "eval_runtime": 17.2538, "eval_samples_per_second": 139.1, "eval_steps_per_second": 17.387, "step": 8800 }, { "epoch": 14.675, "grad_norm": 0.00020376119937282056, "learning_rate": 4.377777777777778e-06, "loss": 0.0, "step": 8805 }, { "epoch": 14.683333333333334, "grad_norm": 0.00017308522365055978, "learning_rate": 4.266666666666667e-06, "loss": 0.0, "step": 8810 }, { "epoch": 14.691666666666666, "grad_norm": 0.00018230153364129364, "learning_rate": 4.155555555555556e-06, "loss": 0.0, "step": 8815 }, { "epoch": 14.7, "grad_norm": 0.00023948033049236983, "learning_rate": 4.044444444444445e-06, "loss": 0.0, "step": 8820 }, { "epoch": 14.708333333333334, "grad_norm": 0.00014872875181026757, "learning_rate": 3.9333333333333335e-06, "loss": 0.0, "step": 8825 }, { "epoch": 14.716666666666667, "grad_norm": 0.00014592104707844555, "learning_rate": 3.8222222222222224e-06, "loss": 0.0, "step": 8830 }, { "epoch": 14.725, "grad_norm": 0.00017497778753750026, "learning_rate": 3.711111111111111e-06, "loss": 0.0, "step": 8835 }, { "epoch": 14.733333333333333, "grad_norm": 0.00017888775619212538, "learning_rate": 3.6e-06, "loss": 0.0, "step": 8840 }, { "epoch": 14.741666666666667, "grad_norm": 0.0002010221651289612, "learning_rate": 3.4888888888888888e-06, "loss": 0.0, "step": 8845 }, { "epoch": 14.75, "grad_norm": 0.00022031199478078634, "learning_rate": 3.3777777777777777e-06, "loss": 0.0, "step": 8850 }, { "epoch": 14.758333333333333, "grad_norm": 0.00016287455218844116, "learning_rate": 3.2666666666666666e-06, "loss": 0.0, "step": 8855 }, { "epoch": 14.766666666666667, "grad_norm": 0.00018465262837707996, "learning_rate": 3.155555555555556e-06, "loss": 0.0, "step": 8860 }, { "epoch": 14.775, "grad_norm": 0.00020838412456214428, "learning_rate": 3.0444444444444444e-06, "loss": 0.0, "step": 8865 }, { "epoch": 14.783333333333333, "grad_norm": 0.00015559619350824505, "learning_rate": 2.9333333333333333e-06, "loss": 0.0, "step": 8870 }, { "epoch": 14.791666666666666, "grad_norm": 0.00019436363072600216, "learning_rate": 2.8222222222222223e-06, "loss": 0.0, "step": 8875 }, { "epoch": 14.8, "grad_norm": 0.00016151760064531118, "learning_rate": 2.711111111111111e-06, "loss": 0.0, "step": 8880 }, { "epoch": 14.808333333333334, "grad_norm": 0.0001963631366379559, "learning_rate": 2.6e-06, "loss": 0.0, "step": 8885 }, { "epoch": 14.816666666666666, "grad_norm": 0.00014729569375049323, "learning_rate": 2.488888888888889e-06, "loss": 0.0, "step": 8890 }, { "epoch": 14.825, "grad_norm": 0.00018281878146808594, "learning_rate": 2.377777777777778e-06, "loss": 0.0, "step": 8895 }, { "epoch": 14.833333333333334, "grad_norm": 0.00021018454572185874, "learning_rate": 2.266666666666667e-06, "loss": 0.0, "step": 8900 }, { "epoch": 14.833333333333334, "eval_accuracy": 0.8825, "eval_f1": 0.8825296048852935, "eval_loss": 0.8400650024414062, "eval_precision": 0.8900886429982962, "eval_recall": 0.8825, "eval_runtime": 17.2331, "eval_samples_per_second": 139.267, "eval_steps_per_second": 17.408, "step": 8900 }, { "epoch": 14.841666666666667, "grad_norm": 0.00019177206559106708, "learning_rate": 2.1555555555555558e-06, "loss": 0.0, "step": 8905 }, { "epoch": 14.85, "grad_norm": 0.00023605432943440974, "learning_rate": 2.0444444444444447e-06, "loss": 0.0, "step": 8910 }, { "epoch": 14.858333333333333, "grad_norm": 0.00015869643539190292, "learning_rate": 1.9333333333333336e-06, "loss": 0.0, "step": 8915 }, { "epoch": 14.866666666666667, "grad_norm": 0.00021770063904114068, "learning_rate": 1.8222222222222223e-06, "loss": 0.0, "step": 8920 }, { "epoch": 14.875, "grad_norm": 0.00018532425747253, "learning_rate": 1.7111111111111112e-06, "loss": 0.0, "step": 8925 }, { "epoch": 14.883333333333333, "grad_norm": 0.00017083488637581468, "learning_rate": 1.6000000000000001e-06, "loss": 0.0, "step": 8930 }, { "epoch": 14.891666666666667, "grad_norm": 0.00018595991423353553, "learning_rate": 1.488888888888889e-06, "loss": 0.0, "step": 8935 }, { "epoch": 14.9, "grad_norm": 0.00015359399549197406, "learning_rate": 1.3777777777777778e-06, "loss": 0.0, "step": 8940 }, { "epoch": 14.908333333333333, "grad_norm": 0.0001837653253460303, "learning_rate": 1.2666666666666667e-06, "loss": 0.0, "step": 8945 }, { "epoch": 14.916666666666666, "grad_norm": 0.00021580066822934896, "learning_rate": 1.1555555555555556e-06, "loss": 0.0, "step": 8950 }, { "epoch": 14.925, "grad_norm": 0.0002074449002975598, "learning_rate": 1.0444444444444445e-06, "loss": 0.0, "step": 8955 }, { "epoch": 14.933333333333334, "grad_norm": 0.00017030177696142346, "learning_rate": 9.333333333333334e-07, "loss": 0.0, "step": 8960 }, { "epoch": 14.941666666666666, "grad_norm": 0.00016798007709439844, "learning_rate": 8.222222222222223e-07, "loss": 0.0, "step": 8965 }, { "epoch": 14.95, "grad_norm": 0.0002434858470223844, "learning_rate": 7.111111111111112e-07, "loss": 0.0, "step": 8970 }, { "epoch": 14.958333333333334, "grad_norm": 0.00021428774925880134, "learning_rate": 6.000000000000001e-07, "loss": 0.0, "step": 8975 }, { "epoch": 14.966666666666667, "grad_norm": 0.00020753203716594726, "learning_rate": 4.888888888888889e-07, "loss": 0.0, "step": 8980 }, { "epoch": 14.975, "grad_norm": 0.00016551815497223288, "learning_rate": 3.777777777777778e-07, "loss": 0.0, "step": 8985 }, { "epoch": 14.983333333333333, "grad_norm": 0.00016772464732639492, "learning_rate": 2.6666666666666667e-07, "loss": 0.0, "step": 8990 }, { "epoch": 14.991666666666667, "grad_norm": 0.00017770359409041703, "learning_rate": 1.5555555555555556e-07, "loss": 0.0, "step": 8995 }, { "epoch": 15.0, "grad_norm": 0.00020490336464717984, "learning_rate": 4.444444444444445e-08, "loss": 0.0, "step": 9000 }, { "epoch": 15.0, "eval_accuracy": 0.8825, "eval_f1": 0.8825296048852935, "eval_loss": 0.8401473760604858, "eval_precision": 0.8900886429982962, "eval_recall": 0.8825, "eval_runtime": 17.4456, "eval_samples_per_second": 137.57, "eval_steps_per_second": 17.196, "step": 9000 }, { "epoch": 15.0, "step": 9000, "total_flos": 1.115924655734784e+19, "train_loss": 0.031536090492374366, "train_runtime": 3055.3611, "train_samples_per_second": 47.13, "train_steps_per_second": 2.946 } ], "logging_steps": 5, "max_steps": 9000, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.115924655734784e+19, "train_batch_size": 16, "trial_name": null, "trial_params": null }