{ "best_metric": 0.5182899236679077, "best_model_checkpoint": "vit-base-kidney-stone-4-Michel_Daudon_-w256_1k_v1-_MIX\\checkpoint-300", "epoch": 15.0, "eval_steps": 100, "global_step": 9000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.008333333333333333, "grad_norm": 2.2496018409729004, "learning_rate": 0.0001998888888888889, "loss": 1.7284, "step": 5 }, { "epoch": 0.016666666666666666, "grad_norm": 2.495887517929077, "learning_rate": 0.0001997777777777778, "loss": 1.6238, "step": 10 }, { "epoch": 0.025, "grad_norm": 2.0848536491394043, "learning_rate": 0.00019966666666666668, "loss": 1.3986, "step": 15 }, { "epoch": 0.03333333333333333, "grad_norm": 3.294027328491211, "learning_rate": 0.00019955555555555558, "loss": 1.2169, "step": 20 }, { "epoch": 0.041666666666666664, "grad_norm": 2.3460912704467773, "learning_rate": 0.00019944444444444445, "loss": 1.0075, "step": 25 }, { "epoch": 0.05, "grad_norm": 2.0625927448272705, "learning_rate": 0.00019933333333333334, "loss": 0.9131, "step": 30 }, { "epoch": 0.058333333333333334, "grad_norm": 3.178321599960327, "learning_rate": 0.00019922222222222222, "loss": 0.9761, "step": 35 }, { "epoch": 0.06666666666666667, "grad_norm": 4.111609935760498, "learning_rate": 0.00019911111111111111, "loss": 0.9725, "step": 40 }, { "epoch": 0.075, "grad_norm": 2.883267641067505, "learning_rate": 0.000199, "loss": 0.9463, "step": 45 }, { "epoch": 0.08333333333333333, "grad_norm": 2.1702375411987305, "learning_rate": 0.0001988888888888889, "loss": 0.68, "step": 50 }, { "epoch": 0.09166666666666666, "grad_norm": 2.520656108856201, "learning_rate": 0.0001987777777777778, "loss": 0.8121, "step": 55 }, { "epoch": 0.1, "grad_norm": 1.7874717712402344, "learning_rate": 0.00019866666666666668, "loss": 0.831, "step": 60 }, { "epoch": 0.10833333333333334, "grad_norm": 2.2217721939086914, "learning_rate": 0.00019855555555555555, "loss": 0.6143, "step": 65 }, { "epoch": 0.11666666666666667, "grad_norm": 3.13059139251709, "learning_rate": 0.00019844444444444445, "loss": 0.6739, "step": 70 }, { "epoch": 0.125, "grad_norm": 4.167845249176025, "learning_rate": 0.00019833333333333335, "loss": 0.7498, "step": 75 }, { "epoch": 0.13333333333333333, "grad_norm": 2.884220838546753, "learning_rate": 0.00019822222222222225, "loss": 0.6327, "step": 80 }, { "epoch": 0.14166666666666666, "grad_norm": 5.328771591186523, "learning_rate": 0.00019811111111111112, "loss": 0.6116, "step": 85 }, { "epoch": 0.15, "grad_norm": 1.4236434698104858, "learning_rate": 0.00019800000000000002, "loss": 0.3901, "step": 90 }, { "epoch": 0.15833333333333333, "grad_norm": 3.476452589035034, "learning_rate": 0.0001978888888888889, "loss": 0.529, "step": 95 }, { "epoch": 0.16666666666666666, "grad_norm": 5.051921367645264, "learning_rate": 0.00019777777777777778, "loss": 0.4337, "step": 100 }, { "epoch": 0.16666666666666666, "eval_accuracy": 0.76875, "eval_f1": 0.7619682189839767, "eval_loss": 0.6415127515792847, "eval_precision": 0.7865668052881615, "eval_recall": 0.76875, "eval_runtime": 18.0597, "eval_samples_per_second": 132.892, "eval_steps_per_second": 16.612, "step": 100 }, { "epoch": 0.175, "grad_norm": 2.3170275688171387, "learning_rate": 0.00019766666666666666, "loss": 0.5959, "step": 105 }, { "epoch": 0.18333333333333332, "grad_norm": 6.184014797210693, "learning_rate": 0.00019755555555555555, "loss": 0.4344, "step": 110 }, { "epoch": 0.19166666666666668, "grad_norm": 4.983543395996094, "learning_rate": 0.00019744444444444445, "loss": 0.6026, "step": 115 }, { "epoch": 0.2, "grad_norm": 7.150985240936279, "learning_rate": 0.00019733333333333335, "loss": 0.5339, "step": 120 }, { "epoch": 0.20833333333333334, "grad_norm": 3.1863768100738525, "learning_rate": 0.00019722222222222225, "loss": 0.3566, "step": 125 }, { "epoch": 0.21666666666666667, "grad_norm": 2.1676628589630127, "learning_rate": 0.00019711111111111112, "loss": 0.4281, "step": 130 }, { "epoch": 0.225, "grad_norm": 4.599277019500732, "learning_rate": 0.00019700000000000002, "loss": 0.7168, "step": 135 }, { "epoch": 0.23333333333333334, "grad_norm": 3.791949987411499, "learning_rate": 0.0001968888888888889, "loss": 0.5336, "step": 140 }, { "epoch": 0.24166666666666667, "grad_norm": 2.9463765621185303, "learning_rate": 0.0001967777777777778, "loss": 0.3714, "step": 145 }, { "epoch": 0.25, "grad_norm": 1.1960675716400146, "learning_rate": 0.00019666666666666666, "loss": 0.2353, "step": 150 }, { "epoch": 0.25833333333333336, "grad_norm": 2.5569522380828857, "learning_rate": 0.00019655555555555556, "loss": 0.4302, "step": 155 }, { "epoch": 0.26666666666666666, "grad_norm": 6.091992378234863, "learning_rate": 0.00019644444444444445, "loss": 0.4621, "step": 160 }, { "epoch": 0.275, "grad_norm": 6.613382816314697, "learning_rate": 0.00019633333333333335, "loss": 0.8553, "step": 165 }, { "epoch": 0.2833333333333333, "grad_norm": 7.816857814788818, "learning_rate": 0.00019622222222222225, "loss": 0.4347, "step": 170 }, { "epoch": 0.2916666666666667, "grad_norm": 2.932603120803833, "learning_rate": 0.00019611111111111112, "loss": 0.6215, "step": 175 }, { "epoch": 0.3, "grad_norm": 1.3492988348007202, "learning_rate": 0.000196, "loss": 0.3146, "step": 180 }, { "epoch": 0.30833333333333335, "grad_norm": 4.258238315582275, "learning_rate": 0.0001958888888888889, "loss": 0.3412, "step": 185 }, { "epoch": 0.31666666666666665, "grad_norm": 4.30371618270874, "learning_rate": 0.0001957777777777778, "loss": 0.2856, "step": 190 }, { "epoch": 0.325, "grad_norm": 5.020020961761475, "learning_rate": 0.0001956666666666667, "loss": 0.3215, "step": 195 }, { "epoch": 0.3333333333333333, "grad_norm": 4.156823635101318, "learning_rate": 0.00019555555555555556, "loss": 0.5458, "step": 200 }, { "epoch": 0.3333333333333333, "eval_accuracy": 0.7204166666666667, "eval_f1": 0.692881123581782, "eval_loss": 1.0269856452941895, "eval_precision": 0.8071589010686718, "eval_recall": 0.7204166666666667, "eval_runtime": 18.6517, "eval_samples_per_second": 128.674, "eval_steps_per_second": 16.084, "step": 200 }, { "epoch": 0.3416666666666667, "grad_norm": 0.6583724617958069, "learning_rate": 0.00019544444444444446, "loss": 0.7273, "step": 205 }, { "epoch": 0.35, "grad_norm": 5.7633891105651855, "learning_rate": 0.00019533333333333336, "loss": 0.5599, "step": 210 }, { "epoch": 0.35833333333333334, "grad_norm": 3.5997495651245117, "learning_rate": 0.00019522222222222223, "loss": 0.3144, "step": 215 }, { "epoch": 0.36666666666666664, "grad_norm": 3.038442373275757, "learning_rate": 0.0001951111111111111, "loss": 0.4424, "step": 220 }, { "epoch": 0.375, "grad_norm": 2.0171852111816406, "learning_rate": 0.000195, "loss": 0.3899, "step": 225 }, { "epoch": 0.38333333333333336, "grad_norm": 4.811845779418945, "learning_rate": 0.0001948888888888889, "loss": 0.3829, "step": 230 }, { "epoch": 0.39166666666666666, "grad_norm": 2.4900505542755127, "learning_rate": 0.0001947777777777778, "loss": 0.1581, "step": 235 }, { "epoch": 0.4, "grad_norm": 4.513252258300781, "learning_rate": 0.0001946666666666667, "loss": 0.1984, "step": 240 }, { "epoch": 0.4083333333333333, "grad_norm": 3.024510145187378, "learning_rate": 0.00019455555555555556, "loss": 0.2121, "step": 245 }, { "epoch": 0.4166666666666667, "grad_norm": 6.1483941078186035, "learning_rate": 0.00019444444444444446, "loss": 0.3022, "step": 250 }, { "epoch": 0.425, "grad_norm": 1.7129511833190918, "learning_rate": 0.00019433333333333333, "loss": 0.3033, "step": 255 }, { "epoch": 0.43333333333333335, "grad_norm": 4.62209415435791, "learning_rate": 0.00019422222222222223, "loss": 0.498, "step": 260 }, { "epoch": 0.44166666666666665, "grad_norm": 6.0904340744018555, "learning_rate": 0.0001941111111111111, "loss": 0.1781, "step": 265 }, { "epoch": 0.45, "grad_norm": 5.6336588859558105, "learning_rate": 0.000194, "loss": 0.4761, "step": 270 }, { "epoch": 0.4583333333333333, "grad_norm": 3.3391575813293457, "learning_rate": 0.0001938888888888889, "loss": 0.2371, "step": 275 }, { "epoch": 0.4666666666666667, "grad_norm": 0.5167920589447021, "learning_rate": 0.0001937777777777778, "loss": 0.1822, "step": 280 }, { "epoch": 0.475, "grad_norm": 1.5344135761260986, "learning_rate": 0.0001936666666666667, "loss": 0.3206, "step": 285 }, { "epoch": 0.48333333333333334, "grad_norm": 1.6594878435134888, "learning_rate": 0.00019355555555555557, "loss": 0.2211, "step": 290 }, { "epoch": 0.49166666666666664, "grad_norm": 2.266079902648926, "learning_rate": 0.00019344444444444446, "loss": 0.2517, "step": 295 }, { "epoch": 0.5, "grad_norm": 3.294487476348877, "learning_rate": 0.00019333333333333333, "loss": 0.1893, "step": 300 }, { "epoch": 0.5, "eval_accuracy": 0.8333333333333334, "eval_f1": 0.8312823840804323, "eval_loss": 0.5182899236679077, "eval_precision": 0.8596272111598016, "eval_recall": 0.8333333333333334, "eval_runtime": 17.9658, "eval_samples_per_second": 133.587, "eval_steps_per_second": 16.698, "step": 300 }, { "epoch": 0.5083333333333333, "grad_norm": 1.3389480113983154, "learning_rate": 0.00019322222222222223, "loss": 0.1642, "step": 305 }, { "epoch": 0.5166666666666667, "grad_norm": 2.018641948699951, "learning_rate": 0.0001931111111111111, "loss": 0.3105, "step": 310 }, { "epoch": 0.525, "grad_norm": 8.057267189025879, "learning_rate": 0.000193, "loss": 0.3149, "step": 315 }, { "epoch": 0.5333333333333333, "grad_norm": 3.877058744430542, "learning_rate": 0.0001928888888888889, "loss": 0.2888, "step": 320 }, { "epoch": 0.5416666666666666, "grad_norm": 4.887022972106934, "learning_rate": 0.0001927777777777778, "loss": 0.1554, "step": 325 }, { "epoch": 0.55, "grad_norm": 4.1714982986450195, "learning_rate": 0.0001926666666666667, "loss": 0.2117, "step": 330 }, { "epoch": 0.5583333333333333, "grad_norm": 3.438103437423706, "learning_rate": 0.00019255555555555557, "loss": 0.3409, "step": 335 }, { "epoch": 0.5666666666666667, "grad_norm": 8.518227577209473, "learning_rate": 0.00019244444444444444, "loss": 0.2486, "step": 340 }, { "epoch": 0.575, "grad_norm": 4.521608829498291, "learning_rate": 0.00019233333333333334, "loss": 0.1701, "step": 345 }, { "epoch": 0.5833333333333334, "grad_norm": 0.2302248179912567, "learning_rate": 0.00019222222222222224, "loss": 0.0837, "step": 350 }, { "epoch": 0.5916666666666667, "grad_norm": 0.2371383011341095, "learning_rate": 0.00019211111111111113, "loss": 0.1488, "step": 355 }, { "epoch": 0.6, "grad_norm": 4.665721416473389, "learning_rate": 0.000192, "loss": 0.317, "step": 360 }, { "epoch": 0.6083333333333333, "grad_norm": 4.082240581512451, "learning_rate": 0.0001918888888888889, "loss": 0.2431, "step": 365 }, { "epoch": 0.6166666666666667, "grad_norm": 8.597616195678711, "learning_rate": 0.0001917777777777778, "loss": 0.1931, "step": 370 }, { "epoch": 0.625, "grad_norm": 3.3942854404449463, "learning_rate": 0.00019166666666666667, "loss": 0.4236, "step": 375 }, { "epoch": 0.6333333333333333, "grad_norm": 1.09407377243042, "learning_rate": 0.00019155555555555554, "loss": 0.194, "step": 380 }, { "epoch": 0.6416666666666667, "grad_norm": 4.0513739585876465, "learning_rate": 0.00019144444444444444, "loss": 0.1129, "step": 385 }, { "epoch": 0.65, "grad_norm": 0.2610982656478882, "learning_rate": 0.00019133333333333334, "loss": 0.1847, "step": 390 }, { "epoch": 0.6583333333333333, "grad_norm": 3.8588204383850098, "learning_rate": 0.00019122222222222224, "loss": 0.2797, "step": 395 }, { "epoch": 0.6666666666666666, "grad_norm": 3.1752443313598633, "learning_rate": 0.00019111111111111114, "loss": 0.2041, "step": 400 }, { "epoch": 0.6666666666666666, "eval_accuracy": 0.8333333333333334, "eval_f1": 0.8360281743388888, "eval_loss": 0.5610790848731995, "eval_precision": 0.8651157480670417, "eval_recall": 0.8333333333333334, "eval_runtime": 18.4177, "eval_samples_per_second": 130.31, "eval_steps_per_second": 16.289, "step": 400 }, { "epoch": 0.675, "grad_norm": 2.7836809158325195, "learning_rate": 0.000191, "loss": 0.2242, "step": 405 }, { "epoch": 0.6833333333333333, "grad_norm": 3.005587100982666, "learning_rate": 0.0001908888888888889, "loss": 0.0672, "step": 410 }, { "epoch": 0.6916666666666667, "grad_norm": 0.95849609375, "learning_rate": 0.00019077777777777778, "loss": 0.2198, "step": 415 }, { "epoch": 0.7, "grad_norm": 0.11787495017051697, "learning_rate": 0.00019066666666666668, "loss": 0.2217, "step": 420 }, { "epoch": 0.7083333333333334, "grad_norm": 6.427811145782471, "learning_rate": 0.00019055555555555555, "loss": 0.2186, "step": 425 }, { "epoch": 0.7166666666666667, "grad_norm": 2.171051502227783, "learning_rate": 0.00019044444444444444, "loss": 0.1435, "step": 430 }, { "epoch": 0.725, "grad_norm": 10.628514289855957, "learning_rate": 0.00019033333333333334, "loss": 0.4815, "step": 435 }, { "epoch": 0.7333333333333333, "grad_norm": 8.90291976928711, "learning_rate": 0.00019022222222222224, "loss": 0.3585, "step": 440 }, { "epoch": 0.7416666666666667, "grad_norm": 0.7666055560112, "learning_rate": 0.00019011111111111114, "loss": 0.1768, "step": 445 }, { "epoch": 0.75, "grad_norm": 4.580178260803223, "learning_rate": 0.00019, "loss": 0.1433, "step": 450 }, { "epoch": 0.7583333333333333, "grad_norm": 5.587320327758789, "learning_rate": 0.00018988888888888888, "loss": 0.3615, "step": 455 }, { "epoch": 0.7666666666666667, "grad_norm": 8.701805114746094, "learning_rate": 0.00018977777777777778, "loss": 0.1738, "step": 460 }, { "epoch": 0.775, "grad_norm": 0.8040100336074829, "learning_rate": 0.00018966666666666668, "loss": 0.1979, "step": 465 }, { "epoch": 0.7833333333333333, "grad_norm": 0.23449303209781647, "learning_rate": 0.00018955555555555558, "loss": 0.0533, "step": 470 }, { "epoch": 0.7916666666666666, "grad_norm": 3.644671678543091, "learning_rate": 0.00018944444444444445, "loss": 0.2888, "step": 475 }, { "epoch": 0.8, "grad_norm": 9.65188217163086, "learning_rate": 0.00018933333333333335, "loss": 0.1278, "step": 480 }, { "epoch": 0.8083333333333333, "grad_norm": 1.701130986213684, "learning_rate": 0.00018922222222222224, "loss": 0.2095, "step": 485 }, { "epoch": 0.8166666666666667, "grad_norm": 0.14732544124126434, "learning_rate": 0.00018911111111111112, "loss": 0.1921, "step": 490 }, { "epoch": 0.825, "grad_norm": 2.8289554119110107, "learning_rate": 0.00018899999999999999, "loss": 0.0756, "step": 495 }, { "epoch": 0.8333333333333334, "grad_norm": 4.687591075897217, "learning_rate": 0.00018888888888888888, "loss": 0.2087, "step": 500 }, { "epoch": 0.8333333333333334, "eval_accuracy": 0.7845833333333333, "eval_f1": 0.7916256719345341, "eval_loss": 0.8035779595375061, "eval_precision": 0.8253423557741513, "eval_recall": 0.7845833333333333, "eval_runtime": 18.3739, "eval_samples_per_second": 130.62, "eval_steps_per_second": 16.328, "step": 500 }, { "epoch": 0.8416666666666667, "grad_norm": 2.9499456882476807, "learning_rate": 0.00018877777777777778, "loss": 0.1923, "step": 505 }, { "epoch": 0.85, "grad_norm": 0.2067914754152298, "learning_rate": 0.00018866666666666668, "loss": 0.2516, "step": 510 }, { "epoch": 0.8583333333333333, "grad_norm": 5.007239818572998, "learning_rate": 0.00018855555555555558, "loss": 0.2364, "step": 515 }, { "epoch": 0.8666666666666667, "grad_norm": 3.213813543319702, "learning_rate": 0.00018844444444444445, "loss": 0.0893, "step": 520 }, { "epoch": 0.875, "grad_norm": 0.08503437787294388, "learning_rate": 0.00018833333333333335, "loss": 0.2248, "step": 525 }, { "epoch": 0.8833333333333333, "grad_norm": 5.318356990814209, "learning_rate": 0.00018822222222222222, "loss": 0.1578, "step": 530 }, { "epoch": 0.8916666666666667, "grad_norm": 2.243978500366211, "learning_rate": 0.00018811111111111112, "loss": 0.1569, "step": 535 }, { "epoch": 0.9, "grad_norm": 0.23651619255542755, "learning_rate": 0.000188, "loss": 0.0324, "step": 540 }, { "epoch": 0.9083333333333333, "grad_norm": 0.8996135592460632, "learning_rate": 0.0001878888888888889, "loss": 0.0501, "step": 545 }, { "epoch": 0.9166666666666666, "grad_norm": 7.9236555099487305, "learning_rate": 0.00018777777777777779, "loss": 0.1767, "step": 550 }, { "epoch": 0.925, "grad_norm": 0.09563718736171722, "learning_rate": 0.00018766666666666668, "loss": 0.1415, "step": 555 }, { "epoch": 0.9333333333333333, "grad_norm": 0.056759871542453766, "learning_rate": 0.00018755555555555558, "loss": 0.4077, "step": 560 }, { "epoch": 0.9416666666666667, "grad_norm": 1.2789130210876465, "learning_rate": 0.00018744444444444445, "loss": 0.0952, "step": 565 }, { "epoch": 0.95, "grad_norm": 0.23569685220718384, "learning_rate": 0.00018733333333333335, "loss": 0.1118, "step": 570 }, { "epoch": 0.9583333333333334, "grad_norm": 2.405914545059204, "learning_rate": 0.00018722222222222222, "loss": 0.1946, "step": 575 }, { "epoch": 0.9666666666666667, "grad_norm": 0.4238249361515045, "learning_rate": 0.00018711111111111112, "loss": 0.1567, "step": 580 }, { "epoch": 0.975, "grad_norm": 7.039488315582275, "learning_rate": 0.00018700000000000002, "loss": 0.3309, "step": 585 }, { "epoch": 0.9833333333333333, "grad_norm": 4.673556327819824, "learning_rate": 0.0001868888888888889, "loss": 0.2188, "step": 590 }, { "epoch": 0.9916666666666667, "grad_norm": 0.9906653165817261, "learning_rate": 0.0001867777777777778, "loss": 0.2483, "step": 595 }, { "epoch": 1.0, "grad_norm": 4.171483516693115, "learning_rate": 0.0001866666666666667, "loss": 0.1888, "step": 600 }, { "epoch": 1.0, "eval_accuracy": 0.8045833333333333, "eval_f1": 0.7959636319245313, "eval_loss": 0.7426676750183105, "eval_precision": 0.8312265577730075, "eval_recall": 0.8045833333333333, "eval_runtime": 19.0876, "eval_samples_per_second": 125.736, "eval_steps_per_second": 15.717, "step": 600 }, { "epoch": 1.0083333333333333, "grad_norm": 2.1136932373046875, "learning_rate": 0.00018655555555555558, "loss": 0.2395, "step": 605 }, { "epoch": 1.0166666666666666, "grad_norm": 0.733923077583313, "learning_rate": 0.00018644444444444446, "loss": 0.1071, "step": 610 }, { "epoch": 1.025, "grad_norm": 1.9602711200714111, "learning_rate": 0.00018633333333333333, "loss": 0.0294, "step": 615 }, { "epoch": 1.0333333333333334, "grad_norm": 2.430354595184326, "learning_rate": 0.00018622222222222223, "loss": 0.15, "step": 620 }, { "epoch": 1.0416666666666667, "grad_norm": 0.09469880163669586, "learning_rate": 0.00018611111111111112, "loss": 0.0191, "step": 625 }, { "epoch": 1.05, "grad_norm": 0.05656212940812111, "learning_rate": 0.00018600000000000002, "loss": 0.0759, "step": 630 }, { "epoch": 1.0583333333333333, "grad_norm": 0.34049826860427856, "learning_rate": 0.0001858888888888889, "loss": 0.0701, "step": 635 }, { "epoch": 1.0666666666666667, "grad_norm": 0.1076187789440155, "learning_rate": 0.0001857777777777778, "loss": 0.0768, "step": 640 }, { "epoch": 1.075, "grad_norm": 6.472487926483154, "learning_rate": 0.0001856666666666667, "loss": 0.1947, "step": 645 }, { "epoch": 1.0833333333333333, "grad_norm": 0.14079591631889343, "learning_rate": 0.00018555555555555556, "loss": 0.0205, "step": 650 }, { "epoch": 1.0916666666666666, "grad_norm": 8.24166488647461, "learning_rate": 0.00018544444444444443, "loss": 0.0825, "step": 655 }, { "epoch": 1.1, "grad_norm": 0.06294634938240051, "learning_rate": 0.00018533333333333333, "loss": 0.1314, "step": 660 }, { "epoch": 1.1083333333333334, "grad_norm": 2.3569366931915283, "learning_rate": 0.00018522222222222223, "loss": 0.0575, "step": 665 }, { "epoch": 1.1166666666666667, "grad_norm": 0.03337935730814934, "learning_rate": 0.00018511111111111113, "loss": 0.1048, "step": 670 }, { "epoch": 1.125, "grad_norm": 0.038773927837610245, "learning_rate": 0.00018500000000000002, "loss": 0.1616, "step": 675 }, { "epoch": 1.1333333333333333, "grad_norm": 10.87926197052002, "learning_rate": 0.0001848888888888889, "loss": 0.0962, "step": 680 }, { "epoch": 1.1416666666666666, "grad_norm": 1.4937539100646973, "learning_rate": 0.0001847777777777778, "loss": 0.1343, "step": 685 }, { "epoch": 1.15, "grad_norm": 2.613548994064331, "learning_rate": 0.00018466666666666666, "loss": 0.1325, "step": 690 }, { "epoch": 1.1583333333333332, "grad_norm": 4.310102462768555, "learning_rate": 0.00018455555555555556, "loss": 0.0913, "step": 695 }, { "epoch": 1.1666666666666667, "grad_norm": 3.952800750732422, "learning_rate": 0.00018444444444444446, "loss": 0.1175, "step": 700 }, { "epoch": 1.1666666666666667, "eval_accuracy": 0.78375, "eval_f1": 0.7770076145581983, "eval_loss": 0.7926509380340576, "eval_precision": 0.790552908445089, "eval_recall": 0.78375, "eval_runtime": 18.1589, "eval_samples_per_second": 132.167, "eval_steps_per_second": 16.521, "step": 700 }, { "epoch": 1.175, "grad_norm": 0.38804319500923157, "learning_rate": 0.00018433333333333333, "loss": 0.1571, "step": 705 }, { "epoch": 1.1833333333333333, "grad_norm": 6.437322616577148, "learning_rate": 0.00018422222222222223, "loss": 0.0569, "step": 710 }, { "epoch": 1.1916666666666667, "grad_norm": 0.054909270256757736, "learning_rate": 0.00018411111111111113, "loss": 0.0346, "step": 715 }, { "epoch": 1.2, "grad_norm": 10.60816478729248, "learning_rate": 0.00018400000000000003, "loss": 0.2128, "step": 720 }, { "epoch": 1.2083333333333333, "grad_norm": 0.20509034395217896, "learning_rate": 0.0001838888888888889, "loss": 0.0352, "step": 725 }, { "epoch": 1.2166666666666668, "grad_norm": 1.0820976495742798, "learning_rate": 0.00018377777777777777, "loss": 0.0699, "step": 730 }, { "epoch": 1.225, "grad_norm": 0.10244014859199524, "learning_rate": 0.00018366666666666667, "loss": 0.174, "step": 735 }, { "epoch": 1.2333333333333334, "grad_norm": 10.84445858001709, "learning_rate": 0.00018355555555555557, "loss": 0.1117, "step": 740 }, { "epoch": 1.2416666666666667, "grad_norm": 2.6378021240234375, "learning_rate": 0.00018344444444444446, "loss": 0.1846, "step": 745 }, { "epoch": 1.25, "grad_norm": 1.418130874633789, "learning_rate": 0.00018333333333333334, "loss": 0.1572, "step": 750 }, { "epoch": 1.2583333333333333, "grad_norm": 5.761021614074707, "learning_rate": 0.00018322222222222223, "loss": 0.0322, "step": 755 }, { "epoch": 1.2666666666666666, "grad_norm": 7.350227355957031, "learning_rate": 0.00018311111111111113, "loss": 0.2094, "step": 760 }, { "epoch": 1.275, "grad_norm": 3.275629997253418, "learning_rate": 0.000183, "loss": 0.0822, "step": 765 }, { "epoch": 1.2833333333333332, "grad_norm": 0.885545551776886, "learning_rate": 0.00018288888888888887, "loss": 0.1508, "step": 770 }, { "epoch": 1.2916666666666667, "grad_norm": 1.1846145391464233, "learning_rate": 0.00018277777777777777, "loss": 0.1082, "step": 775 }, { "epoch": 1.3, "grad_norm": 1.3660482168197632, "learning_rate": 0.00018266666666666667, "loss": 0.0443, "step": 780 }, { "epoch": 1.3083333333333333, "grad_norm": 5.1618828773498535, "learning_rate": 0.00018255555555555557, "loss": 0.1896, "step": 785 }, { "epoch": 1.3166666666666667, "grad_norm": 6.400636672973633, "learning_rate": 0.00018244444444444447, "loss": 0.2619, "step": 790 }, { "epoch": 1.325, "grad_norm": 7.945240020751953, "learning_rate": 0.00018233333333333334, "loss": 0.1781, "step": 795 }, { "epoch": 1.3333333333333333, "grad_norm": 1.464800238609314, "learning_rate": 0.00018222222222222224, "loss": 0.5783, "step": 800 }, { "epoch": 1.3333333333333333, "eval_accuracy": 0.7520833333333333, "eval_f1": 0.7550791584547641, "eval_loss": 0.9453935027122498, "eval_precision": 0.8095319975284289, "eval_recall": 0.7520833333333333, "eval_runtime": 18.1123, "eval_samples_per_second": 132.507, "eval_steps_per_second": 16.563, "step": 800 }, { "epoch": 1.3416666666666668, "grad_norm": 6.043260097503662, "learning_rate": 0.00018211111111111113, "loss": 0.0895, "step": 805 }, { "epoch": 1.35, "grad_norm": 14.458117485046387, "learning_rate": 0.000182, "loss": 0.1649, "step": 810 }, { "epoch": 1.3583333333333334, "grad_norm": 3.134190797805786, "learning_rate": 0.0001818888888888889, "loss": 0.0658, "step": 815 }, { "epoch": 1.3666666666666667, "grad_norm": 0.18851661682128906, "learning_rate": 0.00018177777777777778, "loss": 0.0309, "step": 820 }, { "epoch": 1.375, "grad_norm": 3.0031518936157227, "learning_rate": 0.00018166666666666667, "loss": 0.0392, "step": 825 }, { "epoch": 1.3833333333333333, "grad_norm": 0.6985848546028137, "learning_rate": 0.00018155555555555557, "loss": 0.1553, "step": 830 }, { "epoch": 1.3916666666666666, "grad_norm": 1.5488618612289429, "learning_rate": 0.00018144444444444447, "loss": 0.0698, "step": 835 }, { "epoch": 1.4, "grad_norm": 0.23444947600364685, "learning_rate": 0.00018133333333333334, "loss": 0.037, "step": 840 }, { "epoch": 1.4083333333333332, "grad_norm": 8.278327941894531, "learning_rate": 0.00018122222222222224, "loss": 0.2767, "step": 845 }, { "epoch": 1.4166666666666667, "grad_norm": 5.306277751922607, "learning_rate": 0.0001811111111111111, "loss": 0.0921, "step": 850 }, { "epoch": 1.425, "grad_norm": 1.348892092704773, "learning_rate": 0.000181, "loss": 0.2006, "step": 855 }, { "epoch": 1.4333333333333333, "grad_norm": 0.580933690071106, "learning_rate": 0.0001808888888888889, "loss": 0.0684, "step": 860 }, { "epoch": 1.4416666666666667, "grad_norm": 0.03567817807197571, "learning_rate": 0.00018077777777777778, "loss": 0.0403, "step": 865 }, { "epoch": 1.45, "grad_norm": 0.2142370641231537, "learning_rate": 0.00018066666666666668, "loss": 0.1508, "step": 870 }, { "epoch": 1.4583333333333333, "grad_norm": 11.600722312927246, "learning_rate": 0.00018055555555555557, "loss": 0.2265, "step": 875 }, { "epoch": 1.4666666666666668, "grad_norm": 1.2279818058013916, "learning_rate": 0.00018044444444444447, "loss": 0.0971, "step": 880 }, { "epoch": 1.475, "grad_norm": 0.1267862617969513, "learning_rate": 0.00018033333333333334, "loss": 0.042, "step": 885 }, { "epoch": 1.4833333333333334, "grad_norm": 0.05969135835766792, "learning_rate": 0.00018022222222222221, "loss": 0.0103, "step": 890 }, { "epoch": 1.4916666666666667, "grad_norm": 2.969378709793091, "learning_rate": 0.0001801111111111111, "loss": 0.0351, "step": 895 }, { "epoch": 1.5, "grad_norm": 4.16003942489624, "learning_rate": 0.00018, "loss": 0.1242, "step": 900 }, { "epoch": 1.5, "eval_accuracy": 0.7704166666666666, "eval_f1": 0.7796241964164831, "eval_loss": 1.0772207975387573, "eval_precision": 0.8101832596857051, "eval_recall": 0.7704166666666666, "eval_runtime": 18.0252, "eval_samples_per_second": 133.147, "eval_steps_per_second": 16.643, "step": 900 }, { "epoch": 1.5083333333333333, "grad_norm": 0.025975283235311508, "learning_rate": 0.0001798888888888889, "loss": 0.1133, "step": 905 }, { "epoch": 1.5166666666666666, "grad_norm": 6.979773998260498, "learning_rate": 0.00017977777777777778, "loss": 0.1578, "step": 910 }, { "epoch": 1.525, "grad_norm": 5.109651565551758, "learning_rate": 0.00017966666666666668, "loss": 0.059, "step": 915 }, { "epoch": 1.5333333333333332, "grad_norm": 5.779540538787842, "learning_rate": 0.00017955555555555558, "loss": 0.0446, "step": 920 }, { "epoch": 1.5416666666666665, "grad_norm": 1.5098557472229004, "learning_rate": 0.00017944444444444445, "loss": 0.1481, "step": 925 }, { "epoch": 1.55, "grad_norm": 0.030412793159484863, "learning_rate": 0.00017933333333333332, "loss": 0.066, "step": 930 }, { "epoch": 1.5583333333333333, "grad_norm": 0.049747664481401443, "learning_rate": 0.00017922222222222222, "loss": 0.0176, "step": 935 }, { "epoch": 1.5666666666666667, "grad_norm": 0.8870022892951965, "learning_rate": 0.00017911111111111112, "loss": 0.014, "step": 940 }, { "epoch": 1.575, "grad_norm": 0.17263713479042053, "learning_rate": 0.00017900000000000001, "loss": 0.0104, "step": 945 }, { "epoch": 1.5833333333333335, "grad_norm": 2.437835454940796, "learning_rate": 0.0001788888888888889, "loss": 0.0837, "step": 950 }, { "epoch": 1.5916666666666668, "grad_norm": 0.19128166139125824, "learning_rate": 0.00017877777777777778, "loss": 0.0926, "step": 955 }, { "epoch": 1.6, "grad_norm": 3.305394172668457, "learning_rate": 0.00017866666666666668, "loss": 0.0455, "step": 960 }, { "epoch": 1.6083333333333334, "grad_norm": 0.034758828580379486, "learning_rate": 0.00017855555555555555, "loss": 0.0123, "step": 965 }, { "epoch": 1.6166666666666667, "grad_norm": 5.037721633911133, "learning_rate": 0.00017844444444444445, "loss": 0.0753, "step": 970 }, { "epoch": 1.625, "grad_norm": 0.08648474514484406, "learning_rate": 0.00017833333333333335, "loss": 0.0928, "step": 975 }, { "epoch": 1.6333333333333333, "grad_norm": 5.476212978363037, "learning_rate": 0.00017822222222222222, "loss": 0.0605, "step": 980 }, { "epoch": 1.6416666666666666, "grad_norm": 0.029494499787688255, "learning_rate": 0.00017811111111111112, "loss": 0.1307, "step": 985 }, { "epoch": 1.65, "grad_norm": 0.7401522994041443, "learning_rate": 0.00017800000000000002, "loss": 0.09, "step": 990 }, { "epoch": 1.6583333333333332, "grad_norm": 0.038200341165065765, "learning_rate": 0.00017788888888888892, "loss": 0.008, "step": 995 }, { "epoch": 1.6666666666666665, "grad_norm": 0.022435810416936874, "learning_rate": 0.00017777777777777779, "loss": 0.1045, "step": 1000 }, { "epoch": 1.6666666666666665, "eval_accuracy": 0.8295833333333333, "eval_f1": 0.8222723979066976, "eval_loss": 0.8234286904335022, "eval_precision": 0.8332995670025105, "eval_recall": 0.8295833333333333, "eval_runtime": 18.1946, "eval_samples_per_second": 131.907, "eval_steps_per_second": 16.488, "step": 1000 }, { "epoch": 1.675, "grad_norm": 0.1259230226278305, "learning_rate": 0.00017766666666666666, "loss": 0.0105, "step": 1005 }, { "epoch": 1.6833333333333333, "grad_norm": 4.553035259246826, "learning_rate": 0.00017755555555555556, "loss": 0.0458, "step": 1010 }, { "epoch": 1.6916666666666667, "grad_norm": 0.04058966040611267, "learning_rate": 0.00017744444444444445, "loss": 0.1403, "step": 1015 }, { "epoch": 1.7, "grad_norm": 0.04686415567994118, "learning_rate": 0.00017733333333333335, "loss": 0.009, "step": 1020 }, { "epoch": 1.7083333333333335, "grad_norm": 0.6194881796836853, "learning_rate": 0.00017722222222222222, "loss": 0.0388, "step": 1025 }, { "epoch": 1.7166666666666668, "grad_norm": 0.02042161114513874, "learning_rate": 0.00017711111111111112, "loss": 0.0368, "step": 1030 }, { "epoch": 1.725, "grad_norm": 8.613395690917969, "learning_rate": 0.00017700000000000002, "loss": 0.1299, "step": 1035 }, { "epoch": 1.7333333333333334, "grad_norm": 0.09454654157161713, "learning_rate": 0.0001768888888888889, "loss": 0.1904, "step": 1040 }, { "epoch": 1.7416666666666667, "grad_norm": 0.029059233143925667, "learning_rate": 0.00017677777777777776, "loss": 0.0469, "step": 1045 }, { "epoch": 1.75, "grad_norm": 1.5210379362106323, "learning_rate": 0.00017666666666666666, "loss": 0.1159, "step": 1050 }, { "epoch": 1.7583333333333333, "grad_norm": 1.662307858467102, "learning_rate": 0.00017655555555555556, "loss": 0.0813, "step": 1055 }, { "epoch": 1.7666666666666666, "grad_norm": 3.791964292526245, "learning_rate": 0.00017644444444444446, "loss": 0.2267, "step": 1060 }, { "epoch": 1.775, "grad_norm": 0.05541926622390747, "learning_rate": 0.00017633333333333335, "loss": 0.0436, "step": 1065 }, { "epoch": 1.7833333333333332, "grad_norm": 0.0756758376955986, "learning_rate": 0.00017622222222222223, "loss": 0.1916, "step": 1070 }, { "epoch": 1.7916666666666665, "grad_norm": 0.08944481611251831, "learning_rate": 0.00017611111111111112, "loss": 0.2239, "step": 1075 }, { "epoch": 1.8, "grad_norm": 8.514383316040039, "learning_rate": 0.00017600000000000002, "loss": 0.0331, "step": 1080 }, { "epoch": 1.8083333333333333, "grad_norm": 0.15985538065433502, "learning_rate": 0.0001758888888888889, "loss": 0.1114, "step": 1085 }, { "epoch": 1.8166666666666667, "grad_norm": 5.954916477203369, "learning_rate": 0.0001757777777777778, "loss": 0.0998, "step": 1090 }, { "epoch": 1.825, "grad_norm": 0.0530860498547554, "learning_rate": 0.00017566666666666666, "loss": 0.122, "step": 1095 }, { "epoch": 1.8333333333333335, "grad_norm": 0.22221684455871582, "learning_rate": 0.00017555555555555556, "loss": 0.1007, "step": 1100 }, { "epoch": 1.8333333333333335, "eval_accuracy": 0.7545833333333334, "eval_f1": 0.7460171878938288, "eval_loss": 1.1755529642105103, "eval_precision": 0.7483350955008106, "eval_recall": 0.7545833333333334, "eval_runtime": 18.016, "eval_samples_per_second": 133.215, "eval_steps_per_second": 16.652, "step": 1100 }, { "epoch": 1.8416666666666668, "grad_norm": 10.146465301513672, "learning_rate": 0.00017544444444444446, "loss": 0.0274, "step": 1105 }, { "epoch": 1.85, "grad_norm": 15.549821853637695, "learning_rate": 0.00017533333333333336, "loss": 0.1093, "step": 1110 }, { "epoch": 1.8583333333333334, "grad_norm": 0.32004624605178833, "learning_rate": 0.00017522222222222223, "loss": 0.2086, "step": 1115 }, { "epoch": 1.8666666666666667, "grad_norm": 0.8888370990753174, "learning_rate": 0.00017511111111111113, "loss": 0.0185, "step": 1120 }, { "epoch": 1.875, "grad_norm": 0.9219191074371338, "learning_rate": 0.000175, "loss": 0.0083, "step": 1125 }, { "epoch": 1.8833333333333333, "grad_norm": 3.8903403282165527, "learning_rate": 0.0001748888888888889, "loss": 0.0691, "step": 1130 }, { "epoch": 1.8916666666666666, "grad_norm": 9.25015926361084, "learning_rate": 0.0001747777777777778, "loss": 0.0792, "step": 1135 }, { "epoch": 1.9, "grad_norm": 0.06439521908760071, "learning_rate": 0.00017466666666666667, "loss": 0.0052, "step": 1140 }, { "epoch": 1.9083333333333332, "grad_norm": 0.047238197177648544, "learning_rate": 0.00017455555555555556, "loss": 0.0658, "step": 1145 }, { "epoch": 1.9166666666666665, "grad_norm": 11.641410827636719, "learning_rate": 0.00017444444444444446, "loss": 0.1185, "step": 1150 }, { "epoch": 1.925, "grad_norm": 0.0362086221575737, "learning_rate": 0.00017433333333333336, "loss": 0.0806, "step": 1155 }, { "epoch": 1.9333333333333333, "grad_norm": 7.575094699859619, "learning_rate": 0.00017422222222222223, "loss": 0.0565, "step": 1160 }, { "epoch": 1.9416666666666667, "grad_norm": 5.987691879272461, "learning_rate": 0.0001741111111111111, "loss": 0.0572, "step": 1165 }, { "epoch": 1.95, "grad_norm": 1.4280240535736084, "learning_rate": 0.000174, "loss": 0.1209, "step": 1170 }, { "epoch": 1.9583333333333335, "grad_norm": 0.2531176209449768, "learning_rate": 0.0001738888888888889, "loss": 0.1365, "step": 1175 }, { "epoch": 1.9666666666666668, "grad_norm": 5.968636989593506, "learning_rate": 0.0001737777777777778, "loss": 0.3853, "step": 1180 }, { "epoch": 1.975, "grad_norm": 1.292290210723877, "learning_rate": 0.00017366666666666667, "loss": 0.134, "step": 1185 }, { "epoch": 1.9833333333333334, "grad_norm": 0.572566032409668, "learning_rate": 0.00017355555555555557, "loss": 0.0333, "step": 1190 }, { "epoch": 1.9916666666666667, "grad_norm": 0.10165812075138092, "learning_rate": 0.00017344444444444447, "loss": 0.0964, "step": 1195 }, { "epoch": 2.0, "grad_norm": 0.035776931792497635, "learning_rate": 0.00017333333333333334, "loss": 0.0101, "step": 1200 }, { "epoch": 2.0, "eval_accuracy": 0.8445833333333334, "eval_f1": 0.8486388555893708, "eval_loss": 0.7921315431594849, "eval_precision": 0.8781963968966942, "eval_recall": 0.8445833333333334, "eval_runtime": 18.3931, "eval_samples_per_second": 130.484, "eval_steps_per_second": 16.31, "step": 1200 }, { "epoch": 2.0083333333333333, "grad_norm": 0.17690494656562805, "learning_rate": 0.00017322222222222223, "loss": 0.0185, "step": 1205 }, { "epoch": 2.0166666666666666, "grad_norm": 0.7300027012825012, "learning_rate": 0.0001731111111111111, "loss": 0.0178, "step": 1210 }, { "epoch": 2.025, "grad_norm": 0.04118001461029053, "learning_rate": 0.000173, "loss": 0.0676, "step": 1215 }, { "epoch": 2.033333333333333, "grad_norm": 0.02037004753947258, "learning_rate": 0.0001728888888888889, "loss": 0.007, "step": 1220 }, { "epoch": 2.0416666666666665, "grad_norm": 0.04270787537097931, "learning_rate": 0.0001727777777777778, "loss": 0.0039, "step": 1225 }, { "epoch": 2.05, "grad_norm": 5.223938465118408, "learning_rate": 0.00017266666666666667, "loss": 0.0915, "step": 1230 }, { "epoch": 2.058333333333333, "grad_norm": 11.873512268066406, "learning_rate": 0.00017255555555555557, "loss": 0.1172, "step": 1235 }, { "epoch": 2.066666666666667, "grad_norm": 0.011548622511327267, "learning_rate": 0.00017244444444444444, "loss": 0.0046, "step": 1240 }, { "epoch": 2.075, "grad_norm": 4.348635196685791, "learning_rate": 0.00017233333333333334, "loss": 0.0575, "step": 1245 }, { "epoch": 2.0833333333333335, "grad_norm": 0.014801756478846073, "learning_rate": 0.00017222222222222224, "loss": 0.097, "step": 1250 }, { "epoch": 2.091666666666667, "grad_norm": 0.018487483263015747, "learning_rate": 0.0001721111111111111, "loss": 0.0098, "step": 1255 }, { "epoch": 2.1, "grad_norm": 0.019285380840301514, "learning_rate": 0.000172, "loss": 0.0033, "step": 1260 }, { "epoch": 2.1083333333333334, "grad_norm": 0.19825060665607452, "learning_rate": 0.0001718888888888889, "loss": 0.0062, "step": 1265 }, { "epoch": 2.1166666666666667, "grad_norm": 2.0035433769226074, "learning_rate": 0.0001717777777777778, "loss": 0.0064, "step": 1270 }, { "epoch": 2.125, "grad_norm": 0.010347206145524979, "learning_rate": 0.00017166666666666667, "loss": 0.0216, "step": 1275 }, { "epoch": 2.1333333333333333, "grad_norm": 0.01208220049738884, "learning_rate": 0.00017155555555555555, "loss": 0.0033, "step": 1280 }, { "epoch": 2.1416666666666666, "grad_norm": 0.020755639299750328, "learning_rate": 0.00017144444444444444, "loss": 0.0029, "step": 1285 }, { "epoch": 2.15, "grad_norm": 0.013217347674071789, "learning_rate": 0.00017133333333333334, "loss": 0.0061, "step": 1290 }, { "epoch": 2.158333333333333, "grad_norm": 0.2892434000968933, "learning_rate": 0.00017122222222222224, "loss": 0.0911, "step": 1295 }, { "epoch": 2.1666666666666665, "grad_norm": 0.26983487606048584, "learning_rate": 0.0001711111111111111, "loss": 0.0079, "step": 1300 }, { "epoch": 2.1666666666666665, "eval_accuracy": 0.8204166666666667, "eval_f1": 0.8241283685565426, "eval_loss": 0.962633490562439, "eval_precision": 0.8643605634661621, "eval_recall": 0.8204166666666667, "eval_runtime": 17.8284, "eval_samples_per_second": 134.617, "eval_steps_per_second": 16.827, "step": 1300 }, { "epoch": 2.175, "grad_norm": 0.018236879259347916, "learning_rate": 0.000171, "loss": 0.0068, "step": 1305 }, { "epoch": 2.183333333333333, "grad_norm": 0.05130280181765556, "learning_rate": 0.0001708888888888889, "loss": 0.017, "step": 1310 }, { "epoch": 2.191666666666667, "grad_norm": 3.7243845462799072, "learning_rate": 0.00017077777777777778, "loss": 0.1692, "step": 1315 }, { "epoch": 2.2, "grad_norm": 0.08574812114238739, "learning_rate": 0.00017066666666666668, "loss": 0.1629, "step": 1320 }, { "epoch": 2.2083333333333335, "grad_norm": 0.13291341066360474, "learning_rate": 0.00017055555555555555, "loss": 0.0673, "step": 1325 }, { "epoch": 2.216666666666667, "grad_norm": 0.3502316474914551, "learning_rate": 0.00017044444444444445, "loss": 0.0128, "step": 1330 }, { "epoch": 2.225, "grad_norm": 0.017176169902086258, "learning_rate": 0.00017033333333333334, "loss": 0.0552, "step": 1335 }, { "epoch": 2.2333333333333334, "grad_norm": 0.01065369974821806, "learning_rate": 0.00017022222222222224, "loss": 0.0027, "step": 1340 }, { "epoch": 2.2416666666666667, "grad_norm": 0.14484953880310059, "learning_rate": 0.00017011111111111111, "loss": 0.005, "step": 1345 }, { "epoch": 2.25, "grad_norm": 0.014878982678055763, "learning_rate": 0.00017, "loss": 0.0489, "step": 1350 }, { "epoch": 2.2583333333333333, "grad_norm": 6.600656032562256, "learning_rate": 0.0001698888888888889, "loss": 0.121, "step": 1355 }, { "epoch": 2.2666666666666666, "grad_norm": 0.03402682766318321, "learning_rate": 0.00016977777777777778, "loss": 0.1141, "step": 1360 }, { "epoch": 2.275, "grad_norm": 0.015115485526621342, "learning_rate": 0.00016966666666666668, "loss": 0.0037, "step": 1365 }, { "epoch": 2.283333333333333, "grad_norm": 0.05517643317580223, "learning_rate": 0.0001695777777777778, "loss": 0.0521, "step": 1370 }, { "epoch": 2.2916666666666665, "grad_norm": 3.667025566101074, "learning_rate": 0.00016946666666666667, "loss": 0.1231, "step": 1375 }, { "epoch": 2.3, "grad_norm": 1.4767664670944214, "learning_rate": 0.00016935555555555555, "loss": 0.0746, "step": 1380 }, { "epoch": 2.3083333333333336, "grad_norm": 2.5289435386657715, "learning_rate": 0.00016924444444444444, "loss": 0.0515, "step": 1385 }, { "epoch": 2.3166666666666664, "grad_norm": 0.10865817219018936, "learning_rate": 0.00016913333333333334, "loss": 0.1535, "step": 1390 }, { "epoch": 2.325, "grad_norm": 1.41209876537323, "learning_rate": 0.00016902222222222224, "loss": 0.2002, "step": 1395 }, { "epoch": 2.3333333333333335, "grad_norm": 0.5001236200332642, "learning_rate": 0.0001689111111111111, "loss": 0.0626, "step": 1400 }, { "epoch": 2.3333333333333335, "eval_accuracy": 0.8025, "eval_f1": 0.8040186405512059, "eval_loss": 1.0139660835266113, "eval_precision": 0.8440957589455216, "eval_recall": 0.8025, "eval_runtime": 17.8962, "eval_samples_per_second": 134.107, "eval_steps_per_second": 16.763, "step": 1400 }, { "epoch": 2.341666666666667, "grad_norm": 1.935197114944458, "learning_rate": 0.0001688, "loss": 0.1836, "step": 1405 }, { "epoch": 2.35, "grad_norm": 0.11680977046489716, "learning_rate": 0.0001686888888888889, "loss": 0.0267, "step": 1410 }, { "epoch": 2.3583333333333334, "grad_norm": 0.5115224719047546, "learning_rate": 0.00016857777777777778, "loss": 0.1003, "step": 1415 }, { "epoch": 2.3666666666666667, "grad_norm": 8.335643768310547, "learning_rate": 0.00016846666666666668, "loss": 0.0615, "step": 1420 }, { "epoch": 2.375, "grad_norm": 6.623330593109131, "learning_rate": 0.00016835555555555555, "loss": 0.1622, "step": 1425 }, { "epoch": 2.3833333333333333, "grad_norm": 0.0888131856918335, "learning_rate": 0.00016824444444444445, "loss": 0.0515, "step": 1430 }, { "epoch": 2.3916666666666666, "grad_norm": 0.06386950612068176, "learning_rate": 0.00016813333333333335, "loss": 0.0204, "step": 1435 }, { "epoch": 2.4, "grad_norm": 5.526276588439941, "learning_rate": 0.00016802222222222224, "loss": 0.1539, "step": 1440 }, { "epoch": 2.408333333333333, "grad_norm": 0.030088569968938828, "learning_rate": 0.00016791111111111114, "loss": 0.0077, "step": 1445 }, { "epoch": 2.4166666666666665, "grad_norm": 0.029290739446878433, "learning_rate": 0.0001678, "loss": 0.0218, "step": 1450 }, { "epoch": 2.425, "grad_norm": 0.05510641634464264, "learning_rate": 0.00016768888888888888, "loss": 0.0124, "step": 1455 }, { "epoch": 2.4333333333333336, "grad_norm": 3.8548693656921387, "learning_rate": 0.00016757777777777778, "loss": 0.21, "step": 1460 }, { "epoch": 2.4416666666666664, "grad_norm": 0.6242858171463013, "learning_rate": 0.00016746666666666668, "loss": 0.0117, "step": 1465 }, { "epoch": 2.45, "grad_norm": 0.01914370246231556, "learning_rate": 0.00016735555555555555, "loss": 0.0079, "step": 1470 }, { "epoch": 2.4583333333333335, "grad_norm": 0.017447274178266525, "learning_rate": 0.00016724444444444445, "loss": 0.0073, "step": 1475 }, { "epoch": 2.466666666666667, "grad_norm": 0.0133663946762681, "learning_rate": 0.00016713333333333335, "loss": 0.0052, "step": 1480 }, { "epoch": 2.475, "grad_norm": 0.07016890496015549, "learning_rate": 0.00016702222222222225, "loss": 0.003, "step": 1485 }, { "epoch": 2.4833333333333334, "grad_norm": 0.055881988257169724, "learning_rate": 0.00016691111111111112, "loss": 0.0036, "step": 1490 }, { "epoch": 2.4916666666666667, "grad_norm": 0.01157098077237606, "learning_rate": 0.0001668, "loss": 0.004, "step": 1495 }, { "epoch": 2.5, "grad_norm": 5.6324462890625, "learning_rate": 0.0001666888888888889, "loss": 0.0216, "step": 1500 }, { "epoch": 2.5, "eval_accuracy": 0.8358333333333333, "eval_f1": 0.8364121407754843, "eval_loss": 0.9296824932098389, "eval_precision": 0.8540249157231362, "eval_recall": 0.8358333333333333, "eval_runtime": 18.0934, "eval_samples_per_second": 132.645, "eval_steps_per_second": 16.581, "step": 1500 }, { "epoch": 2.5083333333333333, "grad_norm": 5.373868942260742, "learning_rate": 0.00016657777777777779, "loss": 0.0759, "step": 1505 }, { "epoch": 2.5166666666666666, "grad_norm": 0.012565645389258862, "learning_rate": 0.00016646666666666668, "loss": 0.0444, "step": 1510 }, { "epoch": 2.525, "grad_norm": 0.012813134118914604, "learning_rate": 0.00016635555555555555, "loss": 0.0854, "step": 1515 }, { "epoch": 2.533333333333333, "grad_norm": 0.009016650728881359, "learning_rate": 0.00016624444444444445, "loss": 0.0761, "step": 1520 }, { "epoch": 2.5416666666666665, "grad_norm": 0.00858945120126009, "learning_rate": 0.00016613333333333335, "loss": 0.0029, "step": 1525 }, { "epoch": 2.55, "grad_norm": 0.010254341177642345, "learning_rate": 0.00016602222222222222, "loss": 0.0033, "step": 1530 }, { "epoch": 2.5583333333333336, "grad_norm": 0.2695866525173187, "learning_rate": 0.00016591111111111112, "loss": 0.0773, "step": 1535 }, { "epoch": 2.5666666666666664, "grad_norm": 0.05986815690994263, "learning_rate": 0.0001658, "loss": 0.0168, "step": 1540 }, { "epoch": 2.575, "grad_norm": 0.010940656997263432, "learning_rate": 0.0001656888888888889, "loss": 0.0039, "step": 1545 }, { "epoch": 2.5833333333333335, "grad_norm": 1.5893652439117432, "learning_rate": 0.0001655777777777778, "loss": 0.1364, "step": 1550 }, { "epoch": 2.591666666666667, "grad_norm": 0.00945369154214859, "learning_rate": 0.00016546666666666669, "loss": 0.0024, "step": 1555 }, { "epoch": 2.6, "grad_norm": 2.4074699878692627, "learning_rate": 0.00016535555555555556, "loss": 0.106, "step": 1560 }, { "epoch": 2.6083333333333334, "grad_norm": 0.020845500752329826, "learning_rate": 0.00016524444444444446, "loss": 0.0034, "step": 1565 }, { "epoch": 2.6166666666666667, "grad_norm": 4.210861682891846, "learning_rate": 0.00016513333333333333, "loss": 0.0318, "step": 1570 }, { "epoch": 2.625, "grad_norm": 0.3067626953125, "learning_rate": 0.00016502222222222222, "loss": 0.0062, "step": 1575 }, { "epoch": 2.6333333333333333, "grad_norm": 4.853736877441406, "learning_rate": 0.00016491111111111112, "loss": 0.0833, "step": 1580 }, { "epoch": 2.6416666666666666, "grad_norm": 0.16983097791671753, "learning_rate": 0.0001648, "loss": 0.0244, "step": 1585 }, { "epoch": 2.65, "grad_norm": 0.027604274451732635, "learning_rate": 0.0001646888888888889, "loss": 0.1258, "step": 1590 }, { "epoch": 2.658333333333333, "grad_norm": 0.40857452154159546, "learning_rate": 0.0001645777777777778, "loss": 0.221, "step": 1595 }, { "epoch": 2.6666666666666665, "grad_norm": 0.23683498799800873, "learning_rate": 0.0001644666666666667, "loss": 0.0707, "step": 1600 }, { "epoch": 2.6666666666666665, "eval_accuracy": 0.8195833333333333, "eval_f1": 0.8202834501977931, "eval_loss": 0.9192949533462524, "eval_precision": 0.8424994774015306, "eval_recall": 0.8195833333333333, "eval_runtime": 18.7909, "eval_samples_per_second": 127.722, "eval_steps_per_second": 15.965, "step": 1600 }, { "epoch": 2.675, "grad_norm": 0.012423655949532986, "learning_rate": 0.0001643555555555556, "loss": 0.181, "step": 1605 }, { "epoch": 2.6833333333333336, "grad_norm": 0.23234008252620697, "learning_rate": 0.00016424444444444446, "loss": 0.0722, "step": 1610 }, { "epoch": 2.6916666666666664, "grad_norm": 0.01295930054038763, "learning_rate": 0.00016413333333333333, "loss": 0.0078, "step": 1615 }, { "epoch": 2.7, "grad_norm": 0.011570543050765991, "learning_rate": 0.00016402222222222223, "loss": 0.0368, "step": 1620 }, { "epoch": 2.7083333333333335, "grad_norm": 0.02480444870889187, "learning_rate": 0.00016391111111111113, "loss": 0.003, "step": 1625 }, { "epoch": 2.716666666666667, "grad_norm": 0.009134211577475071, "learning_rate": 0.0001638, "loss": 0.0117, "step": 1630 }, { "epoch": 2.725, "grad_norm": 0.3629448711872101, "learning_rate": 0.0001636888888888889, "loss": 0.0181, "step": 1635 }, { "epoch": 2.7333333333333334, "grad_norm": 0.6004688739776611, "learning_rate": 0.0001635777777777778, "loss": 0.0042, "step": 1640 }, { "epoch": 2.7416666666666667, "grad_norm": 0.007855626754462719, "learning_rate": 0.0001634666666666667, "loss": 0.0238, "step": 1645 }, { "epoch": 2.75, "grad_norm": 0.03700835630297661, "learning_rate": 0.00016335555555555556, "loss": 0.0557, "step": 1650 }, { "epoch": 2.7583333333333333, "grad_norm": 0.007613690569996834, "learning_rate": 0.00016324444444444443, "loss": 0.0018, "step": 1655 }, { "epoch": 2.7666666666666666, "grad_norm": 0.018960734829306602, "learning_rate": 0.00016313333333333333, "loss": 0.0106, "step": 1660 }, { "epoch": 2.775, "grad_norm": 0.026479866355657578, "learning_rate": 0.00016302222222222223, "loss": 0.003, "step": 1665 }, { "epoch": 2.783333333333333, "grad_norm": 2.494203567504883, "learning_rate": 0.00016291111111111113, "loss": 0.0104, "step": 1670 }, { "epoch": 2.7916666666666665, "grad_norm": 0.08876601606607437, "learning_rate": 0.0001628, "loss": 0.0976, "step": 1675 }, { "epoch": 2.8, "grad_norm": 0.04258675500750542, "learning_rate": 0.0001626888888888889, "loss": 0.0025, "step": 1680 }, { "epoch": 2.8083333333333336, "grad_norm": 15.745745658874512, "learning_rate": 0.0001625777777777778, "loss": 0.0459, "step": 1685 }, { "epoch": 2.8166666666666664, "grad_norm": 0.09257371723651886, "learning_rate": 0.00016246666666666667, "loss": 0.0049, "step": 1690 }, { "epoch": 2.825, "grad_norm": 0.026056913658976555, "learning_rate": 0.00016235555555555557, "loss": 0.0459, "step": 1695 }, { "epoch": 2.8333333333333335, "grad_norm": 0.017743397504091263, "learning_rate": 0.00016224444444444444, "loss": 0.0308, "step": 1700 }, { "epoch": 2.8333333333333335, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8208696951303304, "eval_loss": 0.9988083839416504, "eval_precision": 0.8428827597589568, "eval_recall": 0.8245833333333333, "eval_runtime": 18.0806, "eval_samples_per_second": 132.739, "eval_steps_per_second": 16.592, "step": 1700 }, { "epoch": 2.841666666666667, "grad_norm": 1.869798183441162, "learning_rate": 0.00016213333333333334, "loss": 0.1467, "step": 1705 }, { "epoch": 2.85, "grad_norm": 0.7135327458381653, "learning_rate": 0.00016202222222222223, "loss": 0.043, "step": 1710 }, { "epoch": 2.8583333333333334, "grad_norm": 0.00916217640042305, "learning_rate": 0.00016191111111111113, "loss": 0.0077, "step": 1715 }, { "epoch": 2.8666666666666667, "grad_norm": 0.03528512641787529, "learning_rate": 0.00016180000000000003, "loss": 0.1586, "step": 1720 }, { "epoch": 2.875, "grad_norm": 0.32827553153038025, "learning_rate": 0.0001616888888888889, "loss": 0.0967, "step": 1725 }, { "epoch": 2.8833333333333333, "grad_norm": 0.009072713553905487, "learning_rate": 0.00016157777777777777, "loss": 0.0791, "step": 1730 }, { "epoch": 2.8916666666666666, "grad_norm": 0.07432930916547775, "learning_rate": 0.00016146666666666667, "loss": 0.003, "step": 1735 }, { "epoch": 2.9, "grad_norm": 0.01160107459872961, "learning_rate": 0.00016135555555555557, "loss": 0.0472, "step": 1740 }, { "epoch": 2.908333333333333, "grad_norm": 4.919012546539307, "learning_rate": 0.00016124444444444444, "loss": 0.0661, "step": 1745 }, { "epoch": 2.9166666666666665, "grad_norm": 0.6997659206390381, "learning_rate": 0.00016113333333333334, "loss": 0.0389, "step": 1750 }, { "epoch": 2.925, "grad_norm": 6.525749206542969, "learning_rate": 0.00016102222222222224, "loss": 0.0172, "step": 1755 }, { "epoch": 2.9333333333333336, "grad_norm": 8.557374954223633, "learning_rate": 0.00016091111111111113, "loss": 0.1692, "step": 1760 }, { "epoch": 2.9416666666666664, "grad_norm": 0.05786851793527603, "learning_rate": 0.0001608, "loss": 0.0031, "step": 1765 }, { "epoch": 2.95, "grad_norm": 2.11715030670166, "learning_rate": 0.00016068888888888888, "loss": 0.0057, "step": 1770 }, { "epoch": 2.9583333333333335, "grad_norm": 0.7119795083999634, "learning_rate": 0.00016057777777777777, "loss": 0.1777, "step": 1775 }, { "epoch": 2.966666666666667, "grad_norm": 1.015515923500061, "learning_rate": 0.00016046666666666667, "loss": 0.0077, "step": 1780 }, { "epoch": 2.975, "grad_norm": 0.012864797376096249, "learning_rate": 0.00016035555555555557, "loss": 0.0613, "step": 1785 }, { "epoch": 2.9833333333333334, "grad_norm": 0.009866280481219292, "learning_rate": 0.00016024444444444444, "loss": 0.0027, "step": 1790 }, { "epoch": 2.9916666666666667, "grad_norm": 0.5316603779792786, "learning_rate": 0.00016013333333333334, "loss": 0.0442, "step": 1795 }, { "epoch": 3.0, "grad_norm": 1.2434297800064087, "learning_rate": 0.00016002222222222224, "loss": 0.0863, "step": 1800 }, { "epoch": 3.0, "eval_accuracy": 0.83, "eval_f1": 0.833228715529858, "eval_loss": 0.8082871437072754, "eval_precision": 0.8591813627152114, "eval_recall": 0.83, "eval_runtime": 17.9341, "eval_samples_per_second": 133.823, "eval_steps_per_second": 16.728, "step": 1800 }, { "epoch": 3.0083333333333333, "grad_norm": 0.033254630863666534, "learning_rate": 0.0001599111111111111, "loss": 0.0179, "step": 1805 }, { "epoch": 3.0166666666666666, "grad_norm": 6.121527194976807, "learning_rate": 0.0001598, "loss": 0.0398, "step": 1810 }, { "epoch": 3.025, "grad_norm": 0.006764343939721584, "learning_rate": 0.00015968888888888888, "loss": 0.0064, "step": 1815 }, { "epoch": 3.033333333333333, "grad_norm": 5.11829948425293, "learning_rate": 0.00015957777777777778, "loss": 0.0119, "step": 1820 }, { "epoch": 3.0416666666666665, "grad_norm": 0.012330752797424793, "learning_rate": 0.00015946666666666668, "loss": 0.1141, "step": 1825 }, { "epoch": 3.05, "grad_norm": 3.2880618572235107, "learning_rate": 0.00015935555555555557, "loss": 0.0095, "step": 1830 }, { "epoch": 3.058333333333333, "grad_norm": 9.05775260925293, "learning_rate": 0.00015924444444444447, "loss": 0.0562, "step": 1835 }, { "epoch": 3.066666666666667, "grad_norm": 2.7329421043395996, "learning_rate": 0.00015913333333333334, "loss": 0.0915, "step": 1840 }, { "epoch": 3.075, "grad_norm": 3.682798147201538, "learning_rate": 0.00015902222222222221, "loss": 0.1855, "step": 1845 }, { "epoch": 3.0833333333333335, "grad_norm": 0.011415238492190838, "learning_rate": 0.0001589111111111111, "loss": 0.0238, "step": 1850 }, { "epoch": 3.091666666666667, "grad_norm": 0.008496593683958054, "learning_rate": 0.0001588, "loss": 0.0019, "step": 1855 }, { "epoch": 3.1, "grad_norm": 0.02646704949438572, "learning_rate": 0.00015868888888888888, "loss": 0.0726, "step": 1860 }, { "epoch": 3.1083333333333334, "grad_norm": 0.013407823629677296, "learning_rate": 0.00015857777777777778, "loss": 0.0814, "step": 1865 }, { "epoch": 3.1166666666666667, "grad_norm": 0.2641480267047882, "learning_rate": 0.00015846666666666668, "loss": 0.0083, "step": 1870 }, { "epoch": 3.125, "grad_norm": 0.01854868233203888, "learning_rate": 0.00015835555555555558, "loss": 0.0028, "step": 1875 }, { "epoch": 3.1333333333333333, "grad_norm": 7.923130512237549, "learning_rate": 0.00015824444444444448, "loss": 0.0173, "step": 1880 }, { "epoch": 3.1416666666666666, "grad_norm": 0.006003677845001221, "learning_rate": 0.00015813333333333335, "loss": 0.0046, "step": 1885 }, { "epoch": 3.15, "grad_norm": 0.009980116970837116, "learning_rate": 0.00015802222222222222, "loss": 0.0018, "step": 1890 }, { "epoch": 3.158333333333333, "grad_norm": 0.008412596769630909, "learning_rate": 0.00015791111111111112, "loss": 0.0103, "step": 1895 }, { "epoch": 3.1666666666666665, "grad_norm": 0.010537034831941128, "learning_rate": 0.00015780000000000001, "loss": 0.0016, "step": 1900 }, { "epoch": 3.1666666666666665, "eval_accuracy": 0.8029166666666666, "eval_f1": 0.8079004600681534, "eval_loss": 1.193318486213684, "eval_precision": 0.8474838477453119, "eval_recall": 0.8029166666666666, "eval_runtime": 18.2452, "eval_samples_per_second": 131.542, "eval_steps_per_second": 16.443, "step": 1900 }, { "epoch": 3.175, "grad_norm": 0.005589265376329422, "learning_rate": 0.00015768888888888888, "loss": 0.0021, "step": 1905 }, { "epoch": 3.183333333333333, "grad_norm": 0.007199297659099102, "learning_rate": 0.00015757777777777778, "loss": 0.0507, "step": 1910 }, { "epoch": 3.191666666666667, "grad_norm": 0.30990833044052124, "learning_rate": 0.00015746666666666668, "loss": 0.0023, "step": 1915 }, { "epoch": 3.2, "grad_norm": 0.014677413739264011, "learning_rate": 0.00015735555555555558, "loss": 0.0018, "step": 1920 }, { "epoch": 3.2083333333333335, "grad_norm": 0.02718236669898033, "learning_rate": 0.00015724444444444445, "loss": 0.032, "step": 1925 }, { "epoch": 3.216666666666667, "grad_norm": 0.009980247355997562, "learning_rate": 0.00015713333333333332, "loss": 0.002, "step": 1930 }, { "epoch": 3.225, "grad_norm": 0.005029183346778154, "learning_rate": 0.00015702222222222222, "loss": 0.0013, "step": 1935 }, { "epoch": 3.2333333333333334, "grad_norm": 0.006297443527728319, "learning_rate": 0.00015691111111111112, "loss": 0.0242, "step": 1940 }, { "epoch": 3.2416666666666667, "grad_norm": 0.09490521997213364, "learning_rate": 0.00015680000000000002, "loss": 0.0025, "step": 1945 }, { "epoch": 3.25, "grad_norm": 0.008948792703449726, "learning_rate": 0.00015668888888888891, "loss": 0.0524, "step": 1950 }, { "epoch": 3.2583333333333333, "grad_norm": 0.007879581302404404, "learning_rate": 0.00015657777777777779, "loss": 0.0645, "step": 1955 }, { "epoch": 3.2666666666666666, "grad_norm": 0.0681127980351448, "learning_rate": 0.00015646666666666668, "loss": 0.0026, "step": 1960 }, { "epoch": 3.275, "grad_norm": 0.004999805241823196, "learning_rate": 0.00015635555555555556, "loss": 0.1341, "step": 1965 }, { "epoch": 3.283333333333333, "grad_norm": 0.009472894482314587, "learning_rate": 0.00015624444444444445, "loss": 0.0521, "step": 1970 }, { "epoch": 3.2916666666666665, "grad_norm": 0.010226757265627384, "learning_rate": 0.00015613333333333332, "loss": 0.0031, "step": 1975 }, { "epoch": 3.3, "grad_norm": 0.013093075715005398, "learning_rate": 0.00015602222222222222, "loss": 0.01, "step": 1980 }, { "epoch": 3.3083333333333336, "grad_norm": 0.01161549985408783, "learning_rate": 0.00015591111111111112, "loss": 0.0573, "step": 1985 }, { "epoch": 3.3166666666666664, "grad_norm": 0.36183589696884155, "learning_rate": 0.00015580000000000002, "loss": 0.0599, "step": 1990 }, { "epoch": 3.325, "grad_norm": 0.004613443277776241, "learning_rate": 0.00015568888888888892, "loss": 0.0018, "step": 1995 }, { "epoch": 3.3333333333333335, "grad_norm": 0.006088438909500837, "learning_rate": 0.0001555777777777778, "loss": 0.0014, "step": 2000 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.8141666666666667, "eval_f1": 0.8132378773675633, "eval_loss": 1.0994751453399658, "eval_precision": 0.8376052682414116, "eval_recall": 0.8141666666666667, "eval_runtime": 18.8022, "eval_samples_per_second": 127.645, "eval_steps_per_second": 15.956, "step": 2000 }, { "epoch": 3.341666666666667, "grad_norm": 0.004645043984055519, "learning_rate": 0.00015546666666666666, "loss": 0.0024, "step": 2005 }, { "epoch": 3.35, "grad_norm": 0.006229855120182037, "learning_rate": 0.00015535555555555556, "loss": 0.0015, "step": 2010 }, { "epoch": 3.3583333333333334, "grad_norm": 0.006309430580586195, "learning_rate": 0.00015524444444444446, "loss": 0.0018, "step": 2015 }, { "epoch": 3.3666666666666667, "grad_norm": 0.005387200973927975, "learning_rate": 0.00015513333333333333, "loss": 0.0012, "step": 2020 }, { "epoch": 3.375, "grad_norm": 0.005517189856618643, "learning_rate": 0.00015502222222222223, "loss": 0.0457, "step": 2025 }, { "epoch": 3.3833333333333333, "grad_norm": 0.006549169775098562, "learning_rate": 0.00015491111111111112, "loss": 0.002, "step": 2030 }, { "epoch": 3.3916666666666666, "grad_norm": 0.005114941392093897, "learning_rate": 0.00015480000000000002, "loss": 0.0474, "step": 2035 }, { "epoch": 3.4, "grad_norm": 9.307825088500977, "learning_rate": 0.0001546888888888889, "loss": 0.0838, "step": 2040 }, { "epoch": 3.408333333333333, "grad_norm": 0.08294854313135147, "learning_rate": 0.00015457777777777776, "loss": 0.1001, "step": 2045 }, { "epoch": 3.4166666666666665, "grad_norm": 0.005071722902357578, "learning_rate": 0.00015446666666666666, "loss": 0.0019, "step": 2050 }, { "epoch": 3.425, "grad_norm": 0.1845548152923584, "learning_rate": 0.00015435555555555556, "loss": 0.0028, "step": 2055 }, { "epoch": 3.4333333333333336, "grad_norm": 0.008177589625120163, "learning_rate": 0.00015424444444444446, "loss": 0.0027, "step": 2060 }, { "epoch": 3.4416666666666664, "grad_norm": 0.07816571742296219, "learning_rate": 0.00015413333333333336, "loss": 0.0293, "step": 2065 }, { "epoch": 3.45, "grad_norm": 0.008550903759896755, "learning_rate": 0.00015402222222222223, "loss": 0.0635, "step": 2070 }, { "epoch": 3.4583333333333335, "grad_norm": 0.010175446979701519, "learning_rate": 0.00015391111111111113, "loss": 0.0727, "step": 2075 }, { "epoch": 3.466666666666667, "grad_norm": 0.04684434086084366, "learning_rate": 0.0001538, "loss": 0.0332, "step": 2080 }, { "epoch": 3.475, "grad_norm": 3.877901554107666, "learning_rate": 0.0001536888888888889, "loss": 0.0149, "step": 2085 }, { "epoch": 3.4833333333333334, "grad_norm": 0.006674007046967745, "learning_rate": 0.00015357777777777777, "loss": 0.0084, "step": 2090 }, { "epoch": 3.4916666666666667, "grad_norm": 0.6899317502975464, "learning_rate": 0.00015346666666666667, "loss": 0.0794, "step": 2095 }, { "epoch": 3.5, "grad_norm": 0.051600661128759384, "learning_rate": 0.00015335555555555556, "loss": 0.0745, "step": 2100 }, { "epoch": 3.5, "eval_accuracy": 0.8154166666666667, "eval_f1": 0.8258845657738993, "eval_loss": 1.0347716808319092, "eval_precision": 0.8720171442710104, "eval_recall": 0.8154166666666667, "eval_runtime": 17.9402, "eval_samples_per_second": 133.778, "eval_steps_per_second": 16.722, "step": 2100 }, { "epoch": 3.5083333333333333, "grad_norm": 2.2478811740875244, "learning_rate": 0.00015324444444444446, "loss": 0.0678, "step": 2105 }, { "epoch": 3.5166666666666666, "grad_norm": 0.01159503310918808, "learning_rate": 0.00015313333333333336, "loss": 0.0019, "step": 2110 }, { "epoch": 3.525, "grad_norm": 0.004447268787771463, "learning_rate": 0.00015302222222222223, "loss": 0.0513, "step": 2115 }, { "epoch": 3.533333333333333, "grad_norm": 0.005516712553799152, "learning_rate": 0.00015291111111111113, "loss": 0.0212, "step": 2120 }, { "epoch": 3.5416666666666665, "grad_norm": 0.004948765505105257, "learning_rate": 0.0001528, "loss": 0.2967, "step": 2125 }, { "epoch": 3.55, "grad_norm": 0.01642264612019062, "learning_rate": 0.0001526888888888889, "loss": 0.0015, "step": 2130 }, { "epoch": 3.5583333333333336, "grad_norm": 0.021371973678469658, "learning_rate": 0.00015257777777777777, "loss": 0.0025, "step": 2135 }, { "epoch": 3.5666666666666664, "grad_norm": 0.06802453845739365, "learning_rate": 0.00015246666666666667, "loss": 0.0027, "step": 2140 }, { "epoch": 3.575, "grad_norm": 0.021275917068123817, "learning_rate": 0.00015235555555555557, "loss": 0.0503, "step": 2145 }, { "epoch": 3.5833333333333335, "grad_norm": 0.14588746428489685, "learning_rate": 0.00015224444444444446, "loss": 0.0062, "step": 2150 }, { "epoch": 3.591666666666667, "grad_norm": 3.6198761463165283, "learning_rate": 0.00015213333333333336, "loss": 0.0228, "step": 2155 }, { "epoch": 3.6, "grad_norm": 0.009636612609028816, "learning_rate": 0.00015202222222222223, "loss": 0.0179, "step": 2160 }, { "epoch": 3.6083333333333334, "grad_norm": 0.004948497749865055, "learning_rate": 0.0001519111111111111, "loss": 0.0646, "step": 2165 }, { "epoch": 3.6166666666666667, "grad_norm": 6.074162483215332, "learning_rate": 0.0001518, "loss": 0.0857, "step": 2170 }, { "epoch": 3.625, "grad_norm": 0.060495831072330475, "learning_rate": 0.0001516888888888889, "loss": 0.1161, "step": 2175 }, { "epoch": 3.6333333333333333, "grad_norm": 6.233484745025635, "learning_rate": 0.00015157777777777777, "loss": 0.3805, "step": 2180 }, { "epoch": 3.6416666666666666, "grad_norm": 0.5714023113250732, "learning_rate": 0.00015146666666666667, "loss": 0.1591, "step": 2185 }, { "epoch": 3.65, "grad_norm": 9.162524223327637, "learning_rate": 0.00015135555555555557, "loss": 0.1003, "step": 2190 }, { "epoch": 3.658333333333333, "grad_norm": 0.0637994259595871, "learning_rate": 0.00015124444444444447, "loss": 0.0461, "step": 2195 }, { "epoch": 3.6666666666666665, "grad_norm": 0.056585535407066345, "learning_rate": 0.00015113333333333334, "loss": 0.0226, "step": 2200 }, { "epoch": 3.6666666666666665, "eval_accuracy": 0.8275, "eval_f1": 0.8303002595386237, "eval_loss": 0.8861278295516968, "eval_precision": 0.8576301843455633, "eval_recall": 0.8275, "eval_runtime": 17.9177, "eval_samples_per_second": 133.946, "eval_steps_per_second": 16.743, "step": 2200 }, { "epoch": 3.675, "grad_norm": 0.228486567735672, "learning_rate": 0.0001510222222222222, "loss": 0.0093, "step": 2205 }, { "epoch": 3.6833333333333336, "grad_norm": 0.006598909385502338, "learning_rate": 0.0001509111111111111, "loss": 0.0033, "step": 2210 }, { "epoch": 3.6916666666666664, "grad_norm": 0.1500961184501648, "learning_rate": 0.0001508, "loss": 0.055, "step": 2215 }, { "epoch": 3.7, "grad_norm": 0.014531717635691166, "learning_rate": 0.0001506888888888889, "loss": 0.1585, "step": 2220 }, { "epoch": 3.7083333333333335, "grad_norm": 0.03280093893408775, "learning_rate": 0.0001505777777777778, "loss": 0.0022, "step": 2225 }, { "epoch": 3.716666666666667, "grad_norm": 0.275345116853714, "learning_rate": 0.00015046666666666667, "loss": 0.0635, "step": 2230 }, { "epoch": 3.725, "grad_norm": 0.25307852029800415, "learning_rate": 0.00015035555555555557, "loss": 0.0029, "step": 2235 }, { "epoch": 3.7333333333333334, "grad_norm": 0.006063135340809822, "learning_rate": 0.00015024444444444444, "loss": 0.0022, "step": 2240 }, { "epoch": 3.7416666666666667, "grad_norm": 0.010847946628928185, "learning_rate": 0.00015013333333333334, "loss": 0.0575, "step": 2245 }, { "epoch": 3.75, "grad_norm": 8.533001899719238, "learning_rate": 0.0001500222222222222, "loss": 0.1632, "step": 2250 }, { "epoch": 3.7583333333333333, "grad_norm": 0.214799702167511, "learning_rate": 0.0001499111111111111, "loss": 0.0478, "step": 2255 }, { "epoch": 3.7666666666666666, "grad_norm": 0.013580258004367352, "learning_rate": 0.0001498, "loss": 0.1663, "step": 2260 }, { "epoch": 3.775, "grad_norm": 0.3218544125556946, "learning_rate": 0.0001496888888888889, "loss": 0.0031, "step": 2265 }, { "epoch": 3.783333333333333, "grad_norm": 0.00958680734038353, "learning_rate": 0.0001495777777777778, "loss": 0.0035, "step": 2270 }, { "epoch": 3.7916666666666665, "grad_norm": 0.024218592792749405, "learning_rate": 0.00014946666666666668, "loss": 0.0333, "step": 2275 }, { "epoch": 3.8, "grad_norm": 0.014411198906600475, "learning_rate": 0.00014935555555555555, "loss": 0.0025, "step": 2280 }, { "epoch": 3.8083333333333336, "grad_norm": 0.007269784342497587, "learning_rate": 0.00014924444444444445, "loss": 0.0335, "step": 2285 }, { "epoch": 3.8166666666666664, "grad_norm": 12.294364929199219, "learning_rate": 0.00014913333333333334, "loss": 0.1584, "step": 2290 }, { "epoch": 3.825, "grad_norm": 0.1902618557214737, "learning_rate": 0.00014902222222222222, "loss": 0.0026, "step": 2295 }, { "epoch": 3.8333333333333335, "grad_norm": 0.013722378760576248, "learning_rate": 0.00014891111111111111, "loss": 0.0159, "step": 2300 }, { "epoch": 3.8333333333333335, "eval_accuracy": 0.79, "eval_f1": 0.7981183278425654, "eval_loss": 1.147566318511963, "eval_precision": 0.8250781182600171, "eval_recall": 0.79, "eval_runtime": 18.0732, "eval_samples_per_second": 132.794, "eval_steps_per_second": 16.599, "step": 2300 }, { "epoch": 3.841666666666667, "grad_norm": 5.189751148223877, "learning_rate": 0.0001488, "loss": 0.064, "step": 2305 }, { "epoch": 3.85, "grad_norm": 0.7780084013938904, "learning_rate": 0.0001486888888888889, "loss": 0.0032, "step": 2310 }, { "epoch": 3.8583333333333334, "grad_norm": 2.466583728790283, "learning_rate": 0.00014857777777777778, "loss": 0.1025, "step": 2315 }, { "epoch": 3.8666666666666667, "grad_norm": 0.4215017557144165, "learning_rate": 0.00014846666666666665, "loss": 0.1298, "step": 2320 }, { "epoch": 3.875, "grad_norm": 3.3944811820983887, "learning_rate": 0.00014835555555555555, "loss": 0.0902, "step": 2325 }, { "epoch": 3.8833333333333333, "grad_norm": 0.00720182154327631, "learning_rate": 0.00014824444444444445, "loss": 0.1217, "step": 2330 }, { "epoch": 3.8916666666666666, "grad_norm": 0.020751161500811577, "learning_rate": 0.00014813333333333335, "loss": 0.0075, "step": 2335 }, { "epoch": 3.9, "grad_norm": 0.025827821344137192, "learning_rate": 0.00014802222222222225, "loss": 0.0037, "step": 2340 }, { "epoch": 3.908333333333333, "grad_norm": 0.1629042774438858, "learning_rate": 0.00014791111111111112, "loss": 0.0099, "step": 2345 }, { "epoch": 3.9166666666666665, "grad_norm": 0.03242980316281319, "learning_rate": 0.00014780000000000001, "loss": 0.0018, "step": 2350 }, { "epoch": 3.925, "grad_norm": 2.801682949066162, "learning_rate": 0.00014768888888888889, "loss": 0.0395, "step": 2355 }, { "epoch": 3.9333333333333336, "grad_norm": 0.004669086541980505, "learning_rate": 0.00014757777777777778, "loss": 0.0019, "step": 2360 }, { "epoch": 3.9416666666666664, "grad_norm": 0.01964460127055645, "learning_rate": 0.00014746666666666666, "loss": 0.0027, "step": 2365 }, { "epoch": 3.95, "grad_norm": 0.005648770835250616, "learning_rate": 0.00014735555555555555, "loss": 0.0241, "step": 2370 }, { "epoch": 3.9583333333333335, "grad_norm": 0.006218981463462114, "learning_rate": 0.00014724444444444445, "loss": 0.0992, "step": 2375 }, { "epoch": 3.966666666666667, "grad_norm": 0.012952107936143875, "learning_rate": 0.00014713333333333335, "loss": 0.0741, "step": 2380 }, { "epoch": 3.975, "grad_norm": 7.1673078536987305, "learning_rate": 0.00014702222222222225, "loss": 0.0878, "step": 2385 }, { "epoch": 3.9833333333333334, "grad_norm": 2.917966842651367, "learning_rate": 0.00014691111111111112, "loss": 0.0101, "step": 2390 }, { "epoch": 3.9916666666666667, "grad_norm": 0.011230905540287495, "learning_rate": 0.00014680000000000002, "loss": 0.0028, "step": 2395 }, { "epoch": 4.0, "grad_norm": 9.848793029785156, "learning_rate": 0.0001466888888888889, "loss": 0.1398, "step": 2400 }, { "epoch": 4.0, "eval_accuracy": 0.7879166666666667, "eval_f1": 0.7844615477989856, "eval_loss": 1.2558895349502563, "eval_precision": 0.8283958853373351, "eval_recall": 0.7879166666666667, "eval_runtime": 17.9171, "eval_samples_per_second": 133.95, "eval_steps_per_second": 16.744, "step": 2400 }, { "epoch": 4.008333333333334, "grad_norm": 0.0042354208417236805, "learning_rate": 0.0001465777777777778, "loss": 0.0685, "step": 2405 }, { "epoch": 4.016666666666667, "grad_norm": 0.01662423089146614, "learning_rate": 0.00014646666666666666, "loss": 0.0014, "step": 2410 }, { "epoch": 4.025, "grad_norm": 0.20503905415534973, "learning_rate": 0.00014635555555555556, "loss": 0.0654, "step": 2415 }, { "epoch": 4.033333333333333, "grad_norm": 0.007462750654667616, "learning_rate": 0.00014624444444444445, "loss": 0.0263, "step": 2420 }, { "epoch": 4.041666666666667, "grad_norm": 0.09308388829231262, "learning_rate": 0.00014613333333333335, "loss": 0.0604, "step": 2425 }, { "epoch": 4.05, "grad_norm": 0.7329992055892944, "learning_rate": 0.00014602222222222225, "loss": 0.0733, "step": 2430 }, { "epoch": 4.058333333333334, "grad_norm": 0.01413158979266882, "learning_rate": 0.00014591111111111112, "loss": 0.0047, "step": 2435 }, { "epoch": 4.066666666666666, "grad_norm": 0.006979461293667555, "learning_rate": 0.0001458, "loss": 0.0044, "step": 2440 }, { "epoch": 4.075, "grad_norm": 0.007107558660209179, "learning_rate": 0.0001456888888888889, "loss": 0.0571, "step": 2445 }, { "epoch": 4.083333333333333, "grad_norm": 0.00612219562754035, "learning_rate": 0.0001455777777777778, "loss": 0.0157, "step": 2450 }, { "epoch": 4.091666666666667, "grad_norm": 0.009310494177043438, "learning_rate": 0.0001454666666666667, "loss": 0.0025, "step": 2455 }, { "epoch": 4.1, "grad_norm": 0.010407622903585434, "learning_rate": 0.00014535555555555556, "loss": 0.0018, "step": 2460 }, { "epoch": 4.108333333333333, "grad_norm": 0.014666792005300522, "learning_rate": 0.00014524444444444446, "loss": 0.0249, "step": 2465 }, { "epoch": 4.116666666666666, "grad_norm": 0.0038064043037593365, "learning_rate": 0.00014513333333333336, "loss": 0.1238, "step": 2470 }, { "epoch": 4.125, "grad_norm": 0.010144430212676525, "learning_rate": 0.00014502222222222223, "loss": 0.0014, "step": 2475 }, { "epoch": 4.133333333333334, "grad_norm": 0.004822994116693735, "learning_rate": 0.0001449111111111111, "loss": 0.0035, "step": 2480 }, { "epoch": 4.141666666666667, "grad_norm": 0.006171021144837141, "learning_rate": 0.0001448, "loss": 0.0019, "step": 2485 }, { "epoch": 4.15, "grad_norm": 0.005800753831863403, "learning_rate": 0.0001446888888888889, "loss": 0.0012, "step": 2490 }, { "epoch": 4.158333333333333, "grad_norm": 0.007147638592869043, "learning_rate": 0.0001445777777777778, "loss": 0.0537, "step": 2495 }, { "epoch": 4.166666666666667, "grad_norm": 0.005487163085490465, "learning_rate": 0.0001444666666666667, "loss": 0.0011, "step": 2500 }, { "epoch": 4.166666666666667, "eval_accuracy": 0.8008333333333333, "eval_f1": 0.8060574361676208, "eval_loss": 1.2794567346572876, "eval_precision": 0.8418661112212559, "eval_recall": 0.8008333333333333, "eval_runtime": 18.0112, "eval_samples_per_second": 133.25, "eval_steps_per_second": 16.656, "step": 2500 }, { "epoch": 4.175, "grad_norm": 0.06163109838962555, "learning_rate": 0.00014435555555555556, "loss": 0.0041, "step": 2505 }, { "epoch": 4.183333333333334, "grad_norm": 0.008717293851077557, "learning_rate": 0.00014424444444444446, "loss": 0.0262, "step": 2510 }, { "epoch": 4.191666666666666, "grad_norm": 0.11825855821371078, "learning_rate": 0.00014413333333333333, "loss": 0.0012, "step": 2515 }, { "epoch": 4.2, "grad_norm": 6.228672027587891, "learning_rate": 0.00014402222222222223, "loss": 0.006, "step": 2520 }, { "epoch": 4.208333333333333, "grad_norm": 0.00417776545509696, "learning_rate": 0.0001439111111111111, "loss": 0.1831, "step": 2525 }, { "epoch": 4.216666666666667, "grad_norm": 7.840208530426025, "learning_rate": 0.0001438, "loss": 0.0636, "step": 2530 }, { "epoch": 4.225, "grad_norm": 0.0037735318765044212, "learning_rate": 0.0001436888888888889, "loss": 0.0013, "step": 2535 }, { "epoch": 4.233333333333333, "grad_norm": 0.06914371997117996, "learning_rate": 0.0001435777777777778, "loss": 0.0781, "step": 2540 }, { "epoch": 4.241666666666666, "grad_norm": 0.007420560345053673, "learning_rate": 0.0001434666666666667, "loss": 0.0045, "step": 2545 }, { "epoch": 4.25, "grad_norm": 0.004801429342478514, "learning_rate": 0.00014335555555555556, "loss": 0.0022, "step": 2550 }, { "epoch": 4.258333333333334, "grad_norm": 0.008184113539755344, "learning_rate": 0.00014324444444444444, "loss": 0.0019, "step": 2555 }, { "epoch": 4.266666666666667, "grad_norm": 16.751728057861328, "learning_rate": 0.00014313333333333333, "loss": 0.032, "step": 2560 }, { "epoch": 4.275, "grad_norm": 0.004151226487010717, "learning_rate": 0.00014302222222222223, "loss": 0.0012, "step": 2565 }, { "epoch": 4.283333333333333, "grad_norm": 0.0051192487590014935, "learning_rate": 0.00014291111111111113, "loss": 0.0012, "step": 2570 }, { "epoch": 4.291666666666667, "grad_norm": 0.01995849423110485, "learning_rate": 0.0001428, "loss": 0.0969, "step": 2575 }, { "epoch": 4.3, "grad_norm": 0.2010396271944046, "learning_rate": 0.0001426888888888889, "loss": 0.0019, "step": 2580 }, { "epoch": 4.308333333333334, "grad_norm": 0.2110566347837448, "learning_rate": 0.0001425777777777778, "loss": 0.0091, "step": 2585 }, { "epoch": 4.316666666666666, "grad_norm": 0.0060601793229579926, "learning_rate": 0.00014246666666666667, "loss": 0.0296, "step": 2590 }, { "epoch": 4.325, "grad_norm": 9.193086624145508, "learning_rate": 0.00014235555555555554, "loss": 0.0467, "step": 2595 }, { "epoch": 4.333333333333333, "grad_norm": 0.11277163028717041, "learning_rate": 0.00014224444444444444, "loss": 0.0016, "step": 2600 }, { "epoch": 4.333333333333333, "eval_accuracy": 0.8108333333333333, "eval_f1": 0.8154046448982624, "eval_loss": 1.1345198154449463, "eval_precision": 0.8471572274430461, "eval_recall": 0.8108333333333333, "eval_runtime": 18.0165, "eval_samples_per_second": 133.211, "eval_steps_per_second": 16.651, "step": 2600 }, { "epoch": 4.341666666666667, "grad_norm": 0.004907356109470129, "learning_rate": 0.00014213333333333334, "loss": 0.0014, "step": 2605 }, { "epoch": 4.35, "grad_norm": 0.24393445253372192, "learning_rate": 0.00014202222222222224, "loss": 0.0123, "step": 2610 }, { "epoch": 4.358333333333333, "grad_norm": 0.05953679978847504, "learning_rate": 0.00014191111111111113, "loss": 0.0577, "step": 2615 }, { "epoch": 4.366666666666666, "grad_norm": 0.007226182613521814, "learning_rate": 0.0001418, "loss": 0.0013, "step": 2620 }, { "epoch": 4.375, "grad_norm": 0.0038411500863730907, "learning_rate": 0.0001416888888888889, "loss": 0.001, "step": 2625 }, { "epoch": 4.383333333333334, "grad_norm": 0.06592255085706711, "learning_rate": 0.00014157777777777777, "loss": 0.003, "step": 2630 }, { "epoch": 4.391666666666667, "grad_norm": 0.008257136680185795, "learning_rate": 0.00014146666666666667, "loss": 0.0079, "step": 2635 }, { "epoch": 4.4, "grad_norm": 0.007782685570418835, "learning_rate": 0.00014135555555555554, "loss": 0.0017, "step": 2640 }, { "epoch": 4.408333333333333, "grad_norm": 3.1597378253936768, "learning_rate": 0.00014124444444444444, "loss": 0.079, "step": 2645 }, { "epoch": 4.416666666666667, "grad_norm": 0.014977210201323032, "learning_rate": 0.00014113333333333334, "loss": 0.001, "step": 2650 }, { "epoch": 4.425, "grad_norm": 0.04009208828210831, "learning_rate": 0.00014102222222222224, "loss": 0.0038, "step": 2655 }, { "epoch": 4.433333333333334, "grad_norm": 0.051443420350551605, "learning_rate": 0.00014091111111111114, "loss": 0.0011, "step": 2660 }, { "epoch": 4.441666666666666, "grad_norm": 0.02224000357091427, "learning_rate": 0.0001408, "loss": 0.0012, "step": 2665 }, { "epoch": 4.45, "grad_norm": 9.52963924407959, "learning_rate": 0.0001406888888888889, "loss": 0.0377, "step": 2670 }, { "epoch": 4.458333333333333, "grad_norm": 0.0028528880793601274, "learning_rate": 0.00014057777777777778, "loss": 0.0009, "step": 2675 }, { "epoch": 4.466666666666667, "grad_norm": 0.003787110559642315, "learning_rate": 0.00014046666666666667, "loss": 0.0009, "step": 2680 }, { "epoch": 4.475, "grad_norm": 0.09915761649608612, "learning_rate": 0.00014035555555555555, "loss": 0.0235, "step": 2685 }, { "epoch": 4.483333333333333, "grad_norm": 0.003774709068238735, "learning_rate": 0.00014024444444444444, "loss": 0.0009, "step": 2690 }, { "epoch": 4.491666666666666, "grad_norm": 0.003200098406523466, "learning_rate": 0.00014013333333333334, "loss": 0.0509, "step": 2695 }, { "epoch": 4.5, "grad_norm": 0.032873235642910004, "learning_rate": 0.00014002222222222224, "loss": 0.001, "step": 2700 }, { "epoch": 4.5, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8219938557092411, "eval_loss": 1.0012949705123901, "eval_precision": 0.8419377401938242, "eval_recall": 0.8241666666666667, "eval_runtime": 18.0186, "eval_samples_per_second": 133.196, "eval_steps_per_second": 16.649, "step": 2700 }, { "epoch": 4.508333333333333, "grad_norm": 0.02159281075000763, "learning_rate": 0.00013991111111111114, "loss": 0.0708, "step": 2705 }, { "epoch": 4.516666666666667, "grad_norm": 0.0028358979616314173, "learning_rate": 0.0001398, "loss": 0.0007, "step": 2710 }, { "epoch": 4.525, "grad_norm": 0.002999934833496809, "learning_rate": 0.00013968888888888888, "loss": 0.0009, "step": 2715 }, { "epoch": 4.533333333333333, "grad_norm": 0.00423269160091877, "learning_rate": 0.00013957777777777778, "loss": 0.0008, "step": 2720 }, { "epoch": 4.541666666666667, "grad_norm": 0.0047384086064994335, "learning_rate": 0.00013946666666666668, "loss": 0.0479, "step": 2725 }, { "epoch": 4.55, "grad_norm": 0.756858766078949, "learning_rate": 0.00013935555555555558, "loss": 0.0321, "step": 2730 }, { "epoch": 4.558333333333334, "grad_norm": 0.004281241912394762, "learning_rate": 0.00013924444444444445, "loss": 0.0011, "step": 2735 }, { "epoch": 4.566666666666666, "grad_norm": 0.6753747463226318, "learning_rate": 0.00013913333333333335, "loss": 0.0827, "step": 2740 }, { "epoch": 4.575, "grad_norm": 0.0064533366821706295, "learning_rate": 0.00013902222222222224, "loss": 0.0485, "step": 2745 }, { "epoch": 4.583333333333333, "grad_norm": 0.015963394194841385, "learning_rate": 0.00013891111111111111, "loss": 0.0018, "step": 2750 }, { "epoch": 4.591666666666667, "grad_norm": 0.0035235860850661993, "learning_rate": 0.00013879999999999999, "loss": 0.0027, "step": 2755 }, { "epoch": 4.6, "grad_norm": 0.005299894139170647, "learning_rate": 0.00013868888888888888, "loss": 0.0007, "step": 2760 }, { "epoch": 4.608333333333333, "grad_norm": 0.02317904680967331, "learning_rate": 0.00013857777777777778, "loss": 0.0007, "step": 2765 }, { "epoch": 4.616666666666667, "grad_norm": 0.002816630993038416, "learning_rate": 0.00013846666666666668, "loss": 0.0007, "step": 2770 }, { "epoch": 4.625, "grad_norm": 0.0030127994250506163, "learning_rate": 0.00013835555555555558, "loss": 0.0007, "step": 2775 }, { "epoch": 4.633333333333333, "grad_norm": 0.0028281754348427057, "learning_rate": 0.00013824444444444445, "loss": 0.0037, "step": 2780 }, { "epoch": 4.641666666666667, "grad_norm": 0.015962064266204834, "learning_rate": 0.00013813333333333335, "loss": 0.0007, "step": 2785 }, { "epoch": 4.65, "grad_norm": 0.010605460032820702, "learning_rate": 0.00013802222222222222, "loss": 0.0036, "step": 2790 }, { "epoch": 4.658333333333333, "grad_norm": 0.0023087579756975174, "learning_rate": 0.00013791111111111112, "loss": 0.1127, "step": 2795 }, { "epoch": 4.666666666666667, "grad_norm": 1.956446886062622, "learning_rate": 0.0001378, "loss": 0.0888, "step": 2800 }, { "epoch": 4.666666666666667, "eval_accuracy": 0.83125, "eval_f1": 0.8356784192103128, "eval_loss": 1.070803165435791, "eval_precision": 0.8614154487115392, "eval_recall": 0.83125, "eval_runtime": 18.1095, "eval_samples_per_second": 132.527, "eval_steps_per_second": 16.566, "step": 2800 }, { "epoch": 4.675, "grad_norm": 0.007471850607544184, "learning_rate": 0.0001376888888888889, "loss": 0.0568, "step": 2805 }, { "epoch": 4.683333333333334, "grad_norm": 0.011644667945802212, "learning_rate": 0.00013757777777777778, "loss": 0.0009, "step": 2810 }, { "epoch": 4.691666666666666, "grad_norm": 0.002766940975561738, "learning_rate": 0.00013746666666666668, "loss": 0.0029, "step": 2815 }, { "epoch": 4.7, "grad_norm": 0.0029687860514968634, "learning_rate": 0.00013735555555555558, "loss": 0.0018, "step": 2820 }, { "epoch": 4.708333333333333, "grad_norm": 8.071706771850586, "learning_rate": 0.00013724444444444445, "loss": 0.0106, "step": 2825 }, { "epoch": 4.716666666666667, "grad_norm": 0.0050516435876488686, "learning_rate": 0.00013713333333333332, "loss": 0.0008, "step": 2830 }, { "epoch": 4.725, "grad_norm": 0.013779419474303722, "learning_rate": 0.00013702222222222222, "loss": 0.0863, "step": 2835 }, { "epoch": 4.733333333333333, "grad_norm": 0.0029020493384450674, "learning_rate": 0.00013691111111111112, "loss": 0.0326, "step": 2840 }, { "epoch": 4.741666666666667, "grad_norm": 0.21853862702846527, "learning_rate": 0.00013680000000000002, "loss": 0.0014, "step": 2845 }, { "epoch": 4.75, "grad_norm": 0.008590479381382465, "learning_rate": 0.0001366888888888889, "loss": 0.0042, "step": 2850 }, { "epoch": 4.758333333333333, "grad_norm": 0.006891333963721991, "learning_rate": 0.0001365777777777778, "loss": 0.0012, "step": 2855 }, { "epoch": 4.766666666666667, "grad_norm": 0.5189658403396606, "learning_rate": 0.00013646666666666669, "loss": 0.0018, "step": 2860 }, { "epoch": 4.775, "grad_norm": 8.614935874938965, "learning_rate": 0.00013635555555555556, "loss": 0.0775, "step": 2865 }, { "epoch": 4.783333333333333, "grad_norm": 6.5556640625, "learning_rate": 0.00013624444444444443, "loss": 0.0798, "step": 2870 }, { "epoch": 4.791666666666667, "grad_norm": 0.3292016386985779, "learning_rate": 0.00013613333333333333, "loss": 0.0017, "step": 2875 }, { "epoch": 4.8, "grad_norm": 0.09718131273984909, "learning_rate": 0.00013602222222222222, "loss": 0.0019, "step": 2880 }, { "epoch": 4.808333333333334, "grad_norm": 0.0033797312062233686, "learning_rate": 0.00013591111111111112, "loss": 0.0094, "step": 2885 }, { "epoch": 4.816666666666666, "grad_norm": 0.0028653033077716827, "learning_rate": 0.00013580000000000002, "loss": 0.0009, "step": 2890 }, { "epoch": 4.825, "grad_norm": 0.02723637968301773, "learning_rate": 0.0001356888888888889, "loss": 0.0009, "step": 2895 }, { "epoch": 4.833333333333333, "grad_norm": 0.003065098775550723, "learning_rate": 0.0001355777777777778, "loss": 0.0212, "step": 2900 }, { "epoch": 4.833333333333333, "eval_accuracy": 0.81125, "eval_f1": 0.8123318171994321, "eval_loss": 1.1487839221954346, "eval_precision": 0.843507835848946, "eval_recall": 0.81125, "eval_runtime": 18.0472, "eval_samples_per_second": 132.984, "eval_steps_per_second": 16.623, "step": 2900 }, { "epoch": 4.841666666666667, "grad_norm": 0.002678174525499344, "learning_rate": 0.00013546666666666666, "loss": 0.0006, "step": 2905 }, { "epoch": 4.85, "grad_norm": 0.003774324432015419, "learning_rate": 0.00013535555555555556, "loss": 0.1136, "step": 2910 }, { "epoch": 4.858333333333333, "grad_norm": 0.007721633650362492, "learning_rate": 0.00013524444444444443, "loss": 0.0011, "step": 2915 }, { "epoch": 4.866666666666667, "grad_norm": 0.0024733291938900948, "learning_rate": 0.00013513333333333333, "loss": 0.0251, "step": 2920 }, { "epoch": 4.875, "grad_norm": 4.60730504989624, "learning_rate": 0.00013502222222222223, "loss": 0.021, "step": 2925 }, { "epoch": 4.883333333333333, "grad_norm": 0.0036353522446006536, "learning_rate": 0.00013491111111111113, "loss": 0.0841, "step": 2930 }, { "epoch": 4.891666666666667, "grad_norm": 0.0038442504592239857, "learning_rate": 0.00013480000000000002, "loss": 0.0018, "step": 2935 }, { "epoch": 4.9, "grad_norm": 9.853224754333496, "learning_rate": 0.0001346888888888889, "loss": 0.035, "step": 2940 }, { "epoch": 4.908333333333333, "grad_norm": 0.006492947228252888, "learning_rate": 0.0001345777777777778, "loss": 0.0009, "step": 2945 }, { "epoch": 4.916666666666667, "grad_norm": 0.002371382201090455, "learning_rate": 0.00013446666666666666, "loss": 0.0007, "step": 2950 }, { "epoch": 4.925, "grad_norm": 0.003281039884313941, "learning_rate": 0.00013435555555555556, "loss": 0.0609, "step": 2955 }, { "epoch": 4.933333333333334, "grad_norm": 0.003007108811289072, "learning_rate": 0.00013424444444444446, "loss": 0.0008, "step": 2960 }, { "epoch": 4.941666666666666, "grad_norm": 0.00895001646131277, "learning_rate": 0.00013413333333333333, "loss": 0.0008, "step": 2965 }, { "epoch": 4.95, "grad_norm": 0.004504045937210321, "learning_rate": 0.00013402222222222223, "loss": 0.0351, "step": 2970 }, { "epoch": 4.958333333333333, "grad_norm": 3.6277549266815186, "learning_rate": 0.00013391111111111113, "loss": 0.0203, "step": 2975 }, { "epoch": 4.966666666666667, "grad_norm": 0.03735450282692909, "learning_rate": 0.00013380000000000003, "loss": 0.0009, "step": 2980 }, { "epoch": 4.975, "grad_norm": 0.0023062629625201225, "learning_rate": 0.0001336888888888889, "loss": 0.0021, "step": 2985 }, { "epoch": 4.983333333333333, "grad_norm": 11.903265953063965, "learning_rate": 0.00013357777777777777, "loss": 0.0339, "step": 2990 }, { "epoch": 4.991666666666667, "grad_norm": 0.00717342970892787, "learning_rate": 0.00013346666666666667, "loss": 0.0009, "step": 2995 }, { "epoch": 5.0, "grad_norm": 0.004770750645548105, "learning_rate": 0.00013335555555555557, "loss": 0.0857, "step": 3000 }, { "epoch": 5.0, "eval_accuracy": 0.81125, "eval_f1": 0.8181590660587146, "eval_loss": 1.0804638862609863, "eval_precision": 0.8506485882999472, "eval_recall": 0.81125, "eval_runtime": 18.482, "eval_samples_per_second": 129.856, "eval_steps_per_second": 16.232, "step": 3000 }, { "epoch": 5.008333333333334, "grad_norm": 0.00793832540512085, "learning_rate": 0.00013324444444444446, "loss": 0.0008, "step": 3005 }, { "epoch": 5.016666666666667, "grad_norm": 0.00317798787727952, "learning_rate": 0.00013313333333333333, "loss": 0.0007, "step": 3010 }, { "epoch": 5.025, "grad_norm": 0.00674514751881361, "learning_rate": 0.00013302222222222223, "loss": 0.0112, "step": 3015 }, { "epoch": 5.033333333333333, "grad_norm": 0.0455859936773777, "learning_rate": 0.00013291111111111113, "loss": 0.0011, "step": 3020 }, { "epoch": 5.041666666666667, "grad_norm": 6.841028690338135, "learning_rate": 0.0001328, "loss": 0.0663, "step": 3025 }, { "epoch": 5.05, "grad_norm": 0.010156597942113876, "learning_rate": 0.00013268888888888887, "loss": 0.0658, "step": 3030 }, { "epoch": 5.058333333333334, "grad_norm": 0.005546232219785452, "learning_rate": 0.00013257777777777777, "loss": 0.001, "step": 3035 }, { "epoch": 5.066666666666666, "grad_norm": 0.11884152144193649, "learning_rate": 0.00013246666666666667, "loss": 0.0169, "step": 3040 }, { "epoch": 5.075, "grad_norm": 0.002940158359706402, "learning_rate": 0.00013235555555555557, "loss": 0.0051, "step": 3045 }, { "epoch": 5.083333333333333, "grad_norm": 0.009776769205927849, "learning_rate": 0.00013224444444444447, "loss": 0.0009, "step": 3050 }, { "epoch": 5.091666666666667, "grad_norm": 0.003339997259899974, "learning_rate": 0.00013213333333333334, "loss": 0.0185, "step": 3055 }, { "epoch": 5.1, "grad_norm": 0.6491706371307373, "learning_rate": 0.00013202222222222224, "loss": 0.0012, "step": 3060 }, { "epoch": 5.108333333333333, "grad_norm": 0.004326824564486742, "learning_rate": 0.0001319111111111111, "loss": 0.001, "step": 3065 }, { "epoch": 5.116666666666666, "grad_norm": 0.0044735269621014595, "learning_rate": 0.0001318, "loss": 0.0007, "step": 3070 }, { "epoch": 5.125, "grad_norm": 0.003469101618975401, "learning_rate": 0.0001316888888888889, "loss": 0.0007, "step": 3075 }, { "epoch": 5.133333333333334, "grad_norm": 0.0037216851487755775, "learning_rate": 0.00013157777777777777, "loss": 0.0654, "step": 3080 }, { "epoch": 5.141666666666667, "grad_norm": 0.004586871713399887, "learning_rate": 0.00013146666666666667, "loss": 0.0006, "step": 3085 }, { "epoch": 5.15, "grad_norm": 0.0030808872543275356, "learning_rate": 0.00013135555555555557, "loss": 0.0009, "step": 3090 }, { "epoch": 5.158333333333333, "grad_norm": 0.02674485556781292, "learning_rate": 0.00013124444444444447, "loss": 0.0007, "step": 3095 }, { "epoch": 5.166666666666667, "grad_norm": 0.025330983102321625, "learning_rate": 0.00013113333333333334, "loss": 0.0029, "step": 3100 }, { "epoch": 5.166666666666667, "eval_accuracy": 0.85875, "eval_f1": 0.8619078691561091, "eval_loss": 0.8731207251548767, "eval_precision": 0.8762464398770089, "eval_recall": 0.85875, "eval_runtime": 18.2215, "eval_samples_per_second": 131.713, "eval_steps_per_second": 16.464, "step": 3100 }, { "epoch": 5.175, "grad_norm": 0.004115327727049589, "learning_rate": 0.0001310222222222222, "loss": 0.0135, "step": 3105 }, { "epoch": 5.183333333333334, "grad_norm": 0.01208171434700489, "learning_rate": 0.0001309111111111111, "loss": 0.0007, "step": 3110 }, { "epoch": 5.191666666666666, "grad_norm": 0.06405236572027206, "learning_rate": 0.0001308, "loss": 0.1125, "step": 3115 }, { "epoch": 5.2, "grad_norm": 0.007820898666977882, "learning_rate": 0.0001306888888888889, "loss": 0.01, "step": 3120 }, { "epoch": 5.208333333333333, "grad_norm": 0.6343463659286499, "learning_rate": 0.00013057777777777778, "loss": 0.0028, "step": 3125 }, { "epoch": 5.216666666666667, "grad_norm": 0.01850924827158451, "learning_rate": 0.00013046666666666668, "loss": 0.0092, "step": 3130 }, { "epoch": 5.225, "grad_norm": 0.10912729054689407, "learning_rate": 0.00013035555555555557, "loss": 0.0064, "step": 3135 }, { "epoch": 5.233333333333333, "grad_norm": 0.0031821930315345526, "learning_rate": 0.00013024444444444445, "loss": 0.0797, "step": 3140 }, { "epoch": 5.241666666666666, "grad_norm": 8.920080184936523, "learning_rate": 0.00013013333333333332, "loss": 0.2042, "step": 3145 }, { "epoch": 5.25, "grad_norm": 0.048588499426841736, "learning_rate": 0.00013002222222222221, "loss": 0.0024, "step": 3150 }, { "epoch": 5.258333333333334, "grad_norm": 0.08853364735841751, "learning_rate": 0.0001299111111111111, "loss": 0.0832, "step": 3155 }, { "epoch": 5.266666666666667, "grad_norm": 0.28051474690437317, "learning_rate": 0.0001298, "loss": 0.0204, "step": 3160 }, { "epoch": 5.275, "grad_norm": 0.03818877413868904, "learning_rate": 0.0001296888888888889, "loss": 0.2599, "step": 3165 }, { "epoch": 5.283333333333333, "grad_norm": 0.015932561829686165, "learning_rate": 0.00012957777777777778, "loss": 0.0038, "step": 3170 }, { "epoch": 5.291666666666667, "grad_norm": 5.095800876617432, "learning_rate": 0.00012946666666666668, "loss": 0.0727, "step": 3175 }, { "epoch": 5.3, "grad_norm": 0.013441212475299835, "learning_rate": 0.00012935555555555558, "loss": 0.0032, "step": 3180 }, { "epoch": 5.308333333333334, "grad_norm": 0.056997109204530716, "learning_rate": 0.00012924444444444445, "loss": 0.0033, "step": 3185 }, { "epoch": 5.316666666666666, "grad_norm": 0.003202044637873769, "learning_rate": 0.00012913333333333335, "loss": 0.0019, "step": 3190 }, { "epoch": 5.325, "grad_norm": 0.009546520188450813, "learning_rate": 0.00012902222222222222, "loss": 0.0009, "step": 3195 }, { "epoch": 5.333333333333333, "grad_norm": 0.00347840110771358, "learning_rate": 0.00012891111111111112, "loss": 0.0226, "step": 3200 }, { "epoch": 5.333333333333333, "eval_accuracy": 0.81125, "eval_f1": 0.812768982686177, "eval_loss": 1.2513303756713867, "eval_precision": 0.8410234918255942, "eval_recall": 0.81125, "eval_runtime": 18.0579, "eval_samples_per_second": 132.905, "eval_steps_per_second": 16.613, "step": 3200 }, { "epoch": 5.341666666666667, "grad_norm": 0.01048616785556078, "learning_rate": 0.00012880000000000001, "loss": 0.0415, "step": 3205 }, { "epoch": 5.35, "grad_norm": 0.003188794245943427, "learning_rate": 0.0001286888888888889, "loss": 0.0046, "step": 3210 }, { "epoch": 5.358333333333333, "grad_norm": 0.004431897308677435, "learning_rate": 0.00012857777777777778, "loss": 0.0189, "step": 3215 }, { "epoch": 5.366666666666666, "grad_norm": 0.9439765810966492, "learning_rate": 0.00012846666666666668, "loss": 0.1207, "step": 3220 }, { "epoch": 5.375, "grad_norm": 0.005461348220705986, "learning_rate": 0.00012835555555555555, "loss": 0.0008, "step": 3225 }, { "epoch": 5.383333333333334, "grad_norm": 0.006381037179380655, "learning_rate": 0.00012824444444444445, "loss": 0.0012, "step": 3230 }, { "epoch": 5.391666666666667, "grad_norm": 17.236434936523438, "learning_rate": 0.00012813333333333335, "loss": 0.0345, "step": 3235 }, { "epoch": 5.4, "grad_norm": 0.004964529071003199, "learning_rate": 0.00012802222222222222, "loss": 0.1241, "step": 3240 }, { "epoch": 5.408333333333333, "grad_norm": 0.02323867753148079, "learning_rate": 0.00012791111111111112, "loss": 0.0043, "step": 3245 }, { "epoch": 5.416666666666667, "grad_norm": 0.9963157176971436, "learning_rate": 0.00012780000000000002, "loss": 0.0089, "step": 3250 }, { "epoch": 5.425, "grad_norm": 0.00697910925373435, "learning_rate": 0.00012768888888888891, "loss": 0.004, "step": 3255 }, { "epoch": 5.433333333333334, "grad_norm": 3.705225706100464, "learning_rate": 0.00012757777777777779, "loss": 0.0873, "step": 3260 }, { "epoch": 5.441666666666666, "grad_norm": 10.599546432495117, "learning_rate": 0.00012746666666666666, "loss": 0.0779, "step": 3265 }, { "epoch": 5.45, "grad_norm": 0.00739826075732708, "learning_rate": 0.00012735555555555556, "loss": 0.0012, "step": 3270 }, { "epoch": 5.458333333333333, "grad_norm": 0.008776627480983734, "learning_rate": 0.00012724444444444445, "loss": 0.0742, "step": 3275 }, { "epoch": 5.466666666666667, "grad_norm": 0.004598716739565134, "learning_rate": 0.00012713333333333335, "loss": 0.0016, "step": 3280 }, { "epoch": 5.475, "grad_norm": 0.0053038704209029675, "learning_rate": 0.00012702222222222222, "loss": 0.0525, "step": 3285 }, { "epoch": 5.483333333333333, "grad_norm": 0.00685352785512805, "learning_rate": 0.00012691111111111112, "loss": 0.0295, "step": 3290 }, { "epoch": 5.491666666666666, "grad_norm": 0.010029829107224941, "learning_rate": 0.00012680000000000002, "loss": 0.0011, "step": 3295 }, { "epoch": 5.5, "grad_norm": 0.005011238157749176, "learning_rate": 0.0001266888888888889, "loss": 0.0627, "step": 3300 }, { "epoch": 5.5, "eval_accuracy": 0.80625, "eval_f1": 0.8066359874964636, "eval_loss": 1.1714723110198975, "eval_precision": 0.8393592524466347, "eval_recall": 0.80625, "eval_runtime": 18.0284, "eval_samples_per_second": 133.123, "eval_steps_per_second": 16.64, "step": 3300 }, { "epoch": 5.508333333333333, "grad_norm": 0.0036202657502144575, "learning_rate": 0.00012657777777777776, "loss": 0.0012, "step": 3305 }, { "epoch": 5.516666666666667, "grad_norm": 0.005252979230135679, "learning_rate": 0.00012646666666666666, "loss": 0.0041, "step": 3310 }, { "epoch": 5.525, "grad_norm": 12.357048988342285, "learning_rate": 0.00012635555555555556, "loss": 0.1064, "step": 3315 }, { "epoch": 5.533333333333333, "grad_norm": 0.19982363283634186, "learning_rate": 0.00012624444444444446, "loss": 0.0014, "step": 3320 }, { "epoch": 5.541666666666667, "grad_norm": 0.02521987073123455, "learning_rate": 0.00012613333333333335, "loss": 0.0521, "step": 3325 }, { "epoch": 5.55, "grad_norm": 0.026076845824718475, "learning_rate": 0.00012602222222222223, "loss": 0.0012, "step": 3330 }, { "epoch": 5.558333333333334, "grad_norm": 0.3493938446044922, "learning_rate": 0.00012591111111111112, "loss": 0.159, "step": 3335 }, { "epoch": 5.566666666666666, "grad_norm": 0.8519282341003418, "learning_rate": 0.0001258, "loss": 0.0027, "step": 3340 }, { "epoch": 5.575, "grad_norm": 0.003952813800424337, "learning_rate": 0.0001256888888888889, "loss": 0.0014, "step": 3345 }, { "epoch": 5.583333333333333, "grad_norm": 0.00981323141604662, "learning_rate": 0.0001255777777777778, "loss": 0.0012, "step": 3350 }, { "epoch": 5.591666666666667, "grad_norm": 9.172137260437012, "learning_rate": 0.00012546666666666666, "loss": 0.1643, "step": 3355 }, { "epoch": 5.6, "grad_norm": 0.010983748361468315, "learning_rate": 0.00012535555555555556, "loss": 0.1503, "step": 3360 }, { "epoch": 5.608333333333333, "grad_norm": 0.03570283204317093, "learning_rate": 0.00012524444444444446, "loss": 0.0131, "step": 3365 }, { "epoch": 5.616666666666667, "grad_norm": 0.05126586928963661, "learning_rate": 0.00012513333333333336, "loss": 0.0034, "step": 3370 }, { "epoch": 5.625, "grad_norm": 0.004872790537774563, "learning_rate": 0.00012502222222222223, "loss": 0.1541, "step": 3375 }, { "epoch": 5.633333333333333, "grad_norm": 0.0027241806965321302, "learning_rate": 0.0001249111111111111, "loss": 0.0011, "step": 3380 }, { "epoch": 5.641666666666667, "grad_norm": 0.004340996965765953, "learning_rate": 0.0001248, "loss": 0.0011, "step": 3385 }, { "epoch": 5.65, "grad_norm": 0.0057530878111720085, "learning_rate": 0.0001246888888888889, "loss": 0.0009, "step": 3390 }, { "epoch": 5.658333333333333, "grad_norm": 0.005860215052962303, "learning_rate": 0.0001245777777777778, "loss": 0.002, "step": 3395 }, { "epoch": 5.666666666666667, "grad_norm": 4.951140880584717, "learning_rate": 0.00012446666666666667, "loss": 0.1471, "step": 3400 }, { "epoch": 5.666666666666667, "eval_accuracy": 0.8325, "eval_f1": 0.834051596880314, "eval_loss": 0.825998842716217, "eval_precision": 0.8434287267272261, "eval_recall": 0.8325, "eval_runtime": 18.2172, "eval_samples_per_second": 131.744, "eval_steps_per_second": 16.468, "step": 3400 }, { "epoch": 5.675, "grad_norm": 0.0033370351884514093, "learning_rate": 0.00012435555555555556, "loss": 0.0009, "step": 3405 }, { "epoch": 5.683333333333334, "grad_norm": 3.7583529949188232, "learning_rate": 0.00012424444444444446, "loss": 0.0097, "step": 3410 }, { "epoch": 5.691666666666666, "grad_norm": 0.004701213911175728, "learning_rate": 0.00012413333333333333, "loss": 0.0163, "step": 3415 }, { "epoch": 5.7, "grad_norm": 0.05059840530157089, "learning_rate": 0.0001240222222222222, "loss": 0.0012, "step": 3420 }, { "epoch": 5.708333333333333, "grad_norm": 0.07352755218744278, "learning_rate": 0.0001239111111111111, "loss": 0.0012, "step": 3425 }, { "epoch": 5.716666666666667, "grad_norm": 0.006308966316282749, "learning_rate": 0.0001238, "loss": 0.0015, "step": 3430 }, { "epoch": 5.725, "grad_norm": 16.25316619873047, "learning_rate": 0.0001236888888888889, "loss": 0.0163, "step": 3435 }, { "epoch": 5.733333333333333, "grad_norm": 0.14715419709682465, "learning_rate": 0.0001235777777777778, "loss": 0.0011, "step": 3440 }, { "epoch": 5.741666666666667, "grad_norm": 0.010804948396980762, "learning_rate": 0.00012346666666666667, "loss": 0.2539, "step": 3445 }, { "epoch": 5.75, "grad_norm": 0.0028094048611819744, "learning_rate": 0.00012335555555555557, "loss": 0.0008, "step": 3450 }, { "epoch": 5.758333333333333, "grad_norm": 0.003639696165919304, "learning_rate": 0.00012324444444444446, "loss": 0.0012, "step": 3455 }, { "epoch": 5.766666666666667, "grad_norm": 0.010604240000247955, "learning_rate": 0.00012313333333333334, "loss": 0.0441, "step": 3460 }, { "epoch": 5.775, "grad_norm": 0.004710893612354994, "learning_rate": 0.00012302222222222223, "loss": 0.0009, "step": 3465 }, { "epoch": 5.783333333333333, "grad_norm": 0.007812973111867905, "learning_rate": 0.0001229111111111111, "loss": 0.001, "step": 3470 }, { "epoch": 5.791666666666667, "grad_norm": 0.0035233288072049618, "learning_rate": 0.0001228, "loss": 0.0013, "step": 3475 }, { "epoch": 5.8, "grad_norm": 0.05732293426990509, "learning_rate": 0.0001226888888888889, "loss": 0.0014, "step": 3480 }, { "epoch": 5.808333333333334, "grad_norm": 3.3355653285980225, "learning_rate": 0.0001225777777777778, "loss": 0.1058, "step": 3485 }, { "epoch": 5.816666666666666, "grad_norm": 0.0032767774537205696, "learning_rate": 0.00012246666666666667, "loss": 0.0011, "step": 3490 }, { "epoch": 5.825, "grad_norm": 0.0039475164376199245, "learning_rate": 0.00012235555555555557, "loss": 0.097, "step": 3495 }, { "epoch": 5.833333333333333, "grad_norm": 0.0025384097825735807, "learning_rate": 0.00012224444444444444, "loss": 0.0008, "step": 3500 }, { "epoch": 5.833333333333333, "eval_accuracy": 0.8404166666666667, "eval_f1": 0.8430461849236577, "eval_loss": 0.8540858030319214, "eval_precision": 0.8636343345900725, "eval_recall": 0.8404166666666667, "eval_runtime": 17.9841, "eval_samples_per_second": 133.451, "eval_steps_per_second": 16.681, "step": 3500 }, { "epoch": 5.841666666666667, "grad_norm": 7.5558671951293945, "learning_rate": 0.00012213333333333334, "loss": 0.0054, "step": 3505 }, { "epoch": 5.85, "grad_norm": 0.0723811462521553, "learning_rate": 0.00012202222222222224, "loss": 0.0009, "step": 3510 }, { "epoch": 5.858333333333333, "grad_norm": 0.7188805937767029, "learning_rate": 0.00012191111111111111, "loss": 0.0025, "step": 3515 }, { "epoch": 5.866666666666667, "grad_norm": 0.014084117487072945, "learning_rate": 0.0001218, "loss": 0.0015, "step": 3520 }, { "epoch": 5.875, "grad_norm": 0.005967804696410894, "learning_rate": 0.00012168888888888889, "loss": 0.0122, "step": 3525 }, { "epoch": 5.883333333333333, "grad_norm": 0.00296393851749599, "learning_rate": 0.00012157777777777779, "loss": 0.0007, "step": 3530 }, { "epoch": 5.891666666666667, "grad_norm": 0.0035983093548566103, "learning_rate": 0.00012146666666666666, "loss": 0.0007, "step": 3535 }, { "epoch": 5.9, "grad_norm": 0.00576781015843153, "learning_rate": 0.00012135555555555556, "loss": 0.0009, "step": 3540 }, { "epoch": 5.908333333333333, "grad_norm": 0.35618215799331665, "learning_rate": 0.00012124444444444444, "loss": 0.0017, "step": 3545 }, { "epoch": 5.916666666666667, "grad_norm": 0.003527471562847495, "learning_rate": 0.00012113333333333334, "loss": 0.0011, "step": 3550 }, { "epoch": 5.925, "grad_norm": 0.003876707050949335, "learning_rate": 0.00012102222222222224, "loss": 0.0007, "step": 3555 }, { "epoch": 5.933333333333334, "grad_norm": 0.0033130308147519827, "learning_rate": 0.00012091111111111111, "loss": 0.0007, "step": 3560 }, { "epoch": 5.941666666666666, "grad_norm": 0.0026528756134212017, "learning_rate": 0.0001208, "loss": 0.0006, "step": 3565 }, { "epoch": 5.95, "grad_norm": 0.003190552582964301, "learning_rate": 0.0001206888888888889, "loss": 0.0006, "step": 3570 }, { "epoch": 5.958333333333333, "grad_norm": 0.003283768892288208, "learning_rate": 0.00012057777777777779, "loss": 0.0006, "step": 3575 }, { "epoch": 5.966666666666667, "grad_norm": 0.0028605915140360594, "learning_rate": 0.00012046666666666668, "loss": 0.0006, "step": 3580 }, { "epoch": 5.975, "grad_norm": 0.002502308925613761, "learning_rate": 0.00012035555555555556, "loss": 0.0005, "step": 3585 }, { "epoch": 5.983333333333333, "grad_norm": 0.0023721170146018267, "learning_rate": 0.00012024444444444445, "loss": 0.0005, "step": 3590 }, { "epoch": 5.991666666666667, "grad_norm": 0.7972573637962341, "learning_rate": 0.00012013333333333334, "loss": 0.0015, "step": 3595 }, { "epoch": 6.0, "grad_norm": 0.0019682510755956173, "learning_rate": 0.00012002222222222224, "loss": 0.0005, "step": 3600 }, { "epoch": 6.0, "eval_accuracy": 0.8129166666666666, "eval_f1": 0.8164974373531924, "eval_loss": 1.1118906736373901, "eval_precision": 0.8340311714397614, "eval_recall": 0.8129166666666666, "eval_runtime": 19.3855, "eval_samples_per_second": 123.804, "eval_steps_per_second": 15.475, "step": 3600 }, { "epoch": 6.008333333333334, "grad_norm": 0.00202967319637537, "learning_rate": 0.00011991111111111111, "loss": 0.0005, "step": 3605 }, { "epoch": 6.016666666666667, "grad_norm": 0.0028431930113583803, "learning_rate": 0.0001198, "loss": 0.0005, "step": 3610 }, { "epoch": 6.025, "grad_norm": 0.15426301956176758, "learning_rate": 0.0001196888888888889, "loss": 0.0008, "step": 3615 }, { "epoch": 6.033333333333333, "grad_norm": 0.003482394851744175, "learning_rate": 0.0001195777777777778, "loss": 0.0006, "step": 3620 }, { "epoch": 6.041666666666667, "grad_norm": 0.004316964652389288, "learning_rate": 0.00011946666666666668, "loss": 0.0005, "step": 3625 }, { "epoch": 6.05, "grad_norm": 0.007598796393722296, "learning_rate": 0.00011935555555555555, "loss": 0.0005, "step": 3630 }, { "epoch": 6.058333333333334, "grad_norm": 0.0020473096519708633, "learning_rate": 0.00011924444444444445, "loss": 0.0543, "step": 3635 }, { "epoch": 6.066666666666666, "grad_norm": 5.366212368011475, "learning_rate": 0.00011913333333333335, "loss": 0.0077, "step": 3640 }, { "epoch": 6.075, "grad_norm": 0.003926806151866913, "learning_rate": 0.00011902222222222223, "loss": 0.0005, "step": 3645 }, { "epoch": 6.083333333333333, "grad_norm": 0.6725348830223083, "learning_rate": 0.0001189111111111111, "loss": 0.0044, "step": 3650 }, { "epoch": 6.091666666666667, "grad_norm": 0.04183907434344292, "learning_rate": 0.0001188, "loss": 0.0072, "step": 3655 }, { "epoch": 6.1, "grad_norm": 0.0021308385767042637, "learning_rate": 0.0001186888888888889, "loss": 0.0005, "step": 3660 }, { "epoch": 6.108333333333333, "grad_norm": 0.003496721154078841, "learning_rate": 0.00011857777777777778, "loss": 0.0006, "step": 3665 }, { "epoch": 6.116666666666666, "grad_norm": 0.0021626609377563, "learning_rate": 0.00011846666666666668, "loss": 0.0011, "step": 3670 }, { "epoch": 6.125, "grad_norm": 0.002112306421622634, "learning_rate": 0.00011835555555555555, "loss": 0.0064, "step": 3675 }, { "epoch": 6.133333333333334, "grad_norm": 0.0026574749499559402, "learning_rate": 0.00011824444444444445, "loss": 0.0005, "step": 3680 }, { "epoch": 6.141666666666667, "grad_norm": 0.5003806352615356, "learning_rate": 0.00011813333333333334, "loss": 0.0013, "step": 3685 }, { "epoch": 6.15, "grad_norm": 0.3205367922782898, "learning_rate": 0.00011802222222222223, "loss": 0.0091, "step": 3690 }, { "epoch": 6.158333333333333, "grad_norm": 0.001655111089348793, "learning_rate": 0.00011791111111111113, "loss": 0.0006, "step": 3695 }, { "epoch": 6.166666666666667, "grad_norm": 0.0017244907794520259, "learning_rate": 0.0001178, "loss": 0.0005, "step": 3700 }, { "epoch": 6.166666666666667, "eval_accuracy": 0.7754166666666666, "eval_f1": 0.7761886234789311, "eval_loss": 1.6585557460784912, "eval_precision": 0.8260977430902234, "eval_recall": 0.7754166666666666, "eval_runtime": 18.1428, "eval_samples_per_second": 132.284, "eval_steps_per_second": 16.536, "step": 3700 }, { "epoch": 6.175, "grad_norm": 0.0018782407278195024, "learning_rate": 0.00011768888888888889, "loss": 0.0005, "step": 3705 }, { "epoch": 6.183333333333334, "grad_norm": 0.0027490914799273014, "learning_rate": 0.00011757777777777779, "loss": 0.0035, "step": 3710 }, { "epoch": 6.191666666666666, "grad_norm": 0.0016789453802630305, "learning_rate": 0.00011746666666666668, "loss": 0.0004, "step": 3715 }, { "epoch": 6.2, "grad_norm": 0.0028063664212822914, "learning_rate": 0.00011735555555555556, "loss": 0.1364, "step": 3720 }, { "epoch": 6.208333333333333, "grad_norm": 0.06323453038930893, "learning_rate": 0.00011724444444444444, "loss": 0.0006, "step": 3725 }, { "epoch": 6.216666666666667, "grad_norm": 0.002302733017131686, "learning_rate": 0.00011713333333333334, "loss": 0.0006, "step": 3730 }, { "epoch": 6.225, "grad_norm": 0.001954070059582591, "learning_rate": 0.00011702222222222224, "loss": 0.0005, "step": 3735 }, { "epoch": 6.233333333333333, "grad_norm": 0.005761296022683382, "learning_rate": 0.00011691111111111112, "loss": 0.0005, "step": 3740 }, { "epoch": 6.241666666666666, "grad_norm": 0.0022794920951128006, "learning_rate": 0.00011679999999999999, "loss": 0.0022, "step": 3745 }, { "epoch": 6.25, "grad_norm": 9.927177429199219, "learning_rate": 0.00011668888888888889, "loss": 0.0107, "step": 3750 }, { "epoch": 6.258333333333334, "grad_norm": 0.0021976903080940247, "learning_rate": 0.00011657777777777779, "loss": 0.0094, "step": 3755 }, { "epoch": 6.266666666666667, "grad_norm": 1.6095707416534424, "learning_rate": 0.00011646666666666667, "loss": 0.1201, "step": 3760 }, { "epoch": 6.275, "grad_norm": 0.002478398848325014, "learning_rate": 0.00011635555555555555, "loss": 0.0005, "step": 3765 }, { "epoch": 6.283333333333333, "grad_norm": 0.002851113909855485, "learning_rate": 0.00011624444444444444, "loss": 0.0006, "step": 3770 }, { "epoch": 6.291666666666667, "grad_norm": 2.8488893508911133, "learning_rate": 0.00011613333333333334, "loss": 0.045, "step": 3775 }, { "epoch": 6.3, "grad_norm": 0.005491293966770172, "learning_rate": 0.00011602222222222223, "loss": 0.0999, "step": 3780 }, { "epoch": 6.308333333333334, "grad_norm": 0.004936845041811466, "learning_rate": 0.00011591111111111112, "loss": 0.001, "step": 3785 }, { "epoch": 6.316666666666666, "grad_norm": 0.5572565793991089, "learning_rate": 0.0001158, "loss": 0.0084, "step": 3790 }, { "epoch": 6.325, "grad_norm": 0.030538031831383705, "learning_rate": 0.0001156888888888889, "loss": 0.0012, "step": 3795 }, { "epoch": 6.333333333333333, "grad_norm": 9.302164077758789, "learning_rate": 0.00011557777777777778, "loss": 0.0693, "step": 3800 }, { "epoch": 6.333333333333333, "eval_accuracy": 0.8066666666666666, "eval_f1": 0.8106853653781521, "eval_loss": 1.2958506345748901, "eval_precision": 0.8427423317086155, "eval_recall": 0.8066666666666666, "eval_runtime": 17.8978, "eval_samples_per_second": 134.095, "eval_steps_per_second": 16.762, "step": 3800 }, { "epoch": 6.341666666666667, "grad_norm": 0.017784342169761658, "learning_rate": 0.00011546666666666668, "loss": 0.0015, "step": 3805 }, { "epoch": 6.35, "grad_norm": 0.005893997382372618, "learning_rate": 0.00011535555555555555, "loss": 0.0011, "step": 3810 }, { "epoch": 6.358333333333333, "grad_norm": 0.006353956181555986, "learning_rate": 0.00011524444444444445, "loss": 0.0009, "step": 3815 }, { "epoch": 6.366666666666666, "grad_norm": 0.0059325359761714935, "learning_rate": 0.00011513333333333333, "loss": 0.0011, "step": 3820 }, { "epoch": 6.375, "grad_norm": 0.004590154625475407, "learning_rate": 0.00011502222222222223, "loss": 0.0008, "step": 3825 }, { "epoch": 6.383333333333334, "grad_norm": 0.0029400319326668978, "learning_rate": 0.00011491111111111113, "loss": 0.1305, "step": 3830 }, { "epoch": 6.391666666666667, "grad_norm": 0.0033246593084186316, "learning_rate": 0.0001148, "loss": 0.0007, "step": 3835 }, { "epoch": 6.4, "grad_norm": 0.00466878991574049, "learning_rate": 0.0001146888888888889, "loss": 0.0625, "step": 3840 }, { "epoch": 6.408333333333333, "grad_norm": 10.863823890686035, "learning_rate": 0.00011457777777777778, "loss": 0.1993, "step": 3845 }, { "epoch": 6.416666666666667, "grad_norm": 0.007920840755105019, "learning_rate": 0.00011446666666666668, "loss": 0.0009, "step": 3850 }, { "epoch": 6.425, "grad_norm": 0.01989702880382538, "learning_rate": 0.00011435555555555558, "loss": 0.0025, "step": 3855 }, { "epoch": 6.433333333333334, "grad_norm": 0.05580327287316322, "learning_rate": 0.00011424444444444445, "loss": 0.0071, "step": 3860 }, { "epoch": 6.441666666666666, "grad_norm": 0.004567018244415522, "learning_rate": 0.00011413333333333333, "loss": 0.0132, "step": 3865 }, { "epoch": 6.45, "grad_norm": 0.011452917940914631, "learning_rate": 0.00011402222222222223, "loss": 0.1101, "step": 3870 }, { "epoch": 6.458333333333333, "grad_norm": 0.002683397615328431, "learning_rate": 0.00011391111111111113, "loss": 0.012, "step": 3875 }, { "epoch": 6.466666666666667, "grad_norm": 0.003730751806870103, "learning_rate": 0.0001138, "loss": 0.001, "step": 3880 }, { "epoch": 6.475, "grad_norm": 0.09976396709680557, "learning_rate": 0.00011368888888888889, "loss": 0.0732, "step": 3885 }, { "epoch": 6.483333333333333, "grad_norm": 5.628818511962891, "learning_rate": 0.00011357777777777778, "loss": 0.0557, "step": 3890 }, { "epoch": 6.491666666666666, "grad_norm": 5.913239002227783, "learning_rate": 0.00011346666666666668, "loss": 0.1744, "step": 3895 }, { "epoch": 6.5, "grad_norm": 0.00852190051227808, "learning_rate": 0.00011335555555555557, "loss": 0.0007, "step": 3900 }, { "epoch": 6.5, "eval_accuracy": 0.8141666666666667, "eval_f1": 0.8140286529593539, "eval_loss": 1.0675075054168701, "eval_precision": 0.8194817767534078, "eval_recall": 0.8141666666666667, "eval_runtime": 18.1434, "eval_samples_per_second": 132.28, "eval_steps_per_second": 16.535, "step": 3900 }, { "epoch": 6.508333333333333, "grad_norm": 0.0307608749717474, "learning_rate": 0.00011324444444444444, "loss": 0.0046, "step": 3905 }, { "epoch": 6.516666666666667, "grad_norm": 7.473491191864014, "learning_rate": 0.00011313333333333334, "loss": 0.1039, "step": 3910 }, { "epoch": 6.525, "grad_norm": 0.003654002444818616, "learning_rate": 0.00011302222222222223, "loss": 0.098, "step": 3915 }, { "epoch": 6.533333333333333, "grad_norm": 0.006449045147746801, "learning_rate": 0.00011291111111111112, "loss": 0.0017, "step": 3920 }, { "epoch": 6.541666666666667, "grad_norm": 0.003598675597459078, "learning_rate": 0.00011279999999999999, "loss": 0.0009, "step": 3925 }, { "epoch": 6.55, "grad_norm": 4.897794723510742, "learning_rate": 0.00011268888888888889, "loss": 0.0151, "step": 3930 }, { "epoch": 6.558333333333334, "grad_norm": 0.0632496029138565, "learning_rate": 0.00011257777777777779, "loss": 0.001, "step": 3935 }, { "epoch": 6.566666666666666, "grad_norm": 0.003649181919172406, "learning_rate": 0.00011246666666666667, "loss": 0.0009, "step": 3940 }, { "epoch": 6.575, "grad_norm": 0.006597050465643406, "learning_rate": 0.00011235555555555557, "loss": 0.0008, "step": 3945 }, { "epoch": 6.583333333333333, "grad_norm": 0.0342070609331131, "learning_rate": 0.00011224444444444444, "loss": 0.001, "step": 3950 }, { "epoch": 6.591666666666667, "grad_norm": 0.002951887436211109, "learning_rate": 0.00011213333333333334, "loss": 0.0783, "step": 3955 }, { "epoch": 6.6, "grad_norm": 0.002315513091161847, "learning_rate": 0.00011202222222222222, "loss": 0.0189, "step": 3960 }, { "epoch": 6.608333333333333, "grad_norm": 0.02118636481463909, "learning_rate": 0.00011191111111111112, "loss": 0.0007, "step": 3965 }, { "epoch": 6.616666666666667, "grad_norm": 4.008122444152832, "learning_rate": 0.00011180000000000002, "loss": 0.0081, "step": 3970 }, { "epoch": 6.625, "grad_norm": 0.0036419820971786976, "learning_rate": 0.00011168888888888889, "loss": 0.001, "step": 3975 }, { "epoch": 6.633333333333333, "grad_norm": 0.002363891340792179, "learning_rate": 0.00011157777777777778, "loss": 0.0011, "step": 3980 }, { "epoch": 6.641666666666667, "grad_norm": 0.003223976818844676, "learning_rate": 0.00011146666666666667, "loss": 0.0009, "step": 3985 }, { "epoch": 6.65, "grad_norm": 0.0026267264038324356, "learning_rate": 0.00011135555555555557, "loss": 0.029, "step": 3990 }, { "epoch": 6.658333333333333, "grad_norm": 0.004962367005646229, "learning_rate": 0.00011124444444444444, "loss": 0.0007, "step": 3995 }, { "epoch": 6.666666666666667, "grad_norm": 0.0038162493146955967, "learning_rate": 0.00011113333333333333, "loss": 0.0008, "step": 4000 }, { "epoch": 6.666666666666667, "eval_accuracy": 0.7904166666666667, "eval_f1": 0.790291950480943, "eval_loss": 1.3692227602005005, "eval_precision": 0.8077740951470266, "eval_recall": 0.7904166666666667, "eval_runtime": 18.4921, "eval_samples_per_second": 129.785, "eval_steps_per_second": 16.223, "step": 4000 }, { "epoch": 6.675, "grad_norm": 0.009275160729885101, "learning_rate": 0.00011102222222222223, "loss": 0.0006, "step": 4005 }, { "epoch": 6.683333333333334, "grad_norm": 0.007745435927063227, "learning_rate": 0.00011091111111111113, "loss": 0.0007, "step": 4010 }, { "epoch": 6.691666666666666, "grad_norm": 0.07704033702611923, "learning_rate": 0.00011080000000000001, "loss": 0.0008, "step": 4015 }, { "epoch": 6.7, "grad_norm": 0.0017590982606634498, "learning_rate": 0.00011068888888888888, "loss": 0.0557, "step": 4020 }, { "epoch": 6.708333333333333, "grad_norm": 0.0023117507807910442, "learning_rate": 0.00011057777777777778, "loss": 0.0005, "step": 4025 }, { "epoch": 6.716666666666667, "grad_norm": 0.0029507651925086975, "learning_rate": 0.00011046666666666668, "loss": 0.0007, "step": 4030 }, { "epoch": 6.725, "grad_norm": 0.003124380949884653, "learning_rate": 0.00011035555555555556, "loss": 0.0005, "step": 4035 }, { "epoch": 6.733333333333333, "grad_norm": 0.00214362726546824, "learning_rate": 0.00011024444444444443, "loss": 0.0006, "step": 4040 }, { "epoch": 6.741666666666667, "grad_norm": 0.6754726767539978, "learning_rate": 0.00011013333333333333, "loss": 0.0009, "step": 4045 }, { "epoch": 6.75, "grad_norm": 0.0026435451582074165, "learning_rate": 0.00011002222222222223, "loss": 0.0006, "step": 4050 }, { "epoch": 6.758333333333333, "grad_norm": 0.08668801188468933, "learning_rate": 0.00010991111111111111, "loss": 0.0072, "step": 4055 }, { "epoch": 6.766666666666667, "grad_norm": 0.002398624550551176, "learning_rate": 0.00010980000000000001, "loss": 0.0005, "step": 4060 }, { "epoch": 6.775, "grad_norm": 0.0022862572222948074, "learning_rate": 0.00010968888888888888, "loss": 0.1452, "step": 4065 }, { "epoch": 6.783333333333333, "grad_norm": 0.0021376553922891617, "learning_rate": 0.00010957777777777778, "loss": 0.0006, "step": 4070 }, { "epoch": 6.791666666666667, "grad_norm": 0.003418923122808337, "learning_rate": 0.00010946666666666667, "loss": 0.002, "step": 4075 }, { "epoch": 6.8, "grad_norm": 0.36830148100852966, "learning_rate": 0.00010935555555555556, "loss": 0.001, "step": 4080 }, { "epoch": 6.808333333333334, "grad_norm": 0.0021318630315363407, "learning_rate": 0.00010924444444444446, "loss": 0.0005, "step": 4085 }, { "epoch": 6.816666666666666, "grad_norm": 0.0024653475265949965, "learning_rate": 0.00010913333333333333, "loss": 0.0006, "step": 4090 }, { "epoch": 6.825, "grad_norm": 0.006878227926790714, "learning_rate": 0.00010902222222222222, "loss": 0.0005, "step": 4095 }, { "epoch": 6.833333333333333, "grad_norm": 0.0022874558344483376, "learning_rate": 0.00010891111111111112, "loss": 0.0063, "step": 4100 }, { "epoch": 6.833333333333333, "eval_accuracy": 0.8091666666666667, "eval_f1": 0.8072546731909792, "eval_loss": 1.246267557144165, "eval_precision": 0.8325778349334061, "eval_recall": 0.8091666666666667, "eval_runtime": 17.7389, "eval_samples_per_second": 135.296, "eval_steps_per_second": 16.912, "step": 4100 }, { "epoch": 6.841666666666667, "grad_norm": 0.009411840699613094, "learning_rate": 0.00010880000000000002, "loss": 0.0005, "step": 4105 }, { "epoch": 6.85, "grad_norm": 0.002033449010923505, "learning_rate": 0.00010868888888888889, "loss": 0.0005, "step": 4110 }, { "epoch": 6.858333333333333, "grad_norm": 1.9759594202041626, "learning_rate": 0.00010857777777777778, "loss": 0.0039, "step": 4115 }, { "epoch": 6.866666666666667, "grad_norm": 0.003168121911585331, "learning_rate": 0.00010846666666666667, "loss": 0.0749, "step": 4120 }, { "epoch": 6.875, "grad_norm": 0.001964178867638111, "learning_rate": 0.00010835555555555557, "loss": 0.0006, "step": 4125 }, { "epoch": 6.883333333333333, "grad_norm": 0.007505439221858978, "learning_rate": 0.00010824444444444447, "loss": 0.0005, "step": 4130 }, { "epoch": 6.891666666666667, "grad_norm": 0.00185912917368114, "learning_rate": 0.00010813333333333334, "loss": 0.0014, "step": 4135 }, { "epoch": 6.9, "grad_norm": 0.0025130559224635363, "learning_rate": 0.00010802222222222222, "loss": 0.0004, "step": 4140 }, { "epoch": 6.908333333333333, "grad_norm": 0.02055543102324009, "learning_rate": 0.00010791111111111112, "loss": 0.0005, "step": 4145 }, { "epoch": 6.916666666666667, "grad_norm": 0.00220493390224874, "learning_rate": 0.00010780000000000002, "loss": 0.0321, "step": 4150 }, { "epoch": 6.925, "grad_norm": 0.018720634281635284, "learning_rate": 0.00010768888888888889, "loss": 0.0006, "step": 4155 }, { "epoch": 6.933333333333334, "grad_norm": 0.004638391546905041, "learning_rate": 0.00010757777777777777, "loss": 0.0005, "step": 4160 }, { "epoch": 6.941666666666666, "grad_norm": 0.002068839268758893, "learning_rate": 0.00010746666666666667, "loss": 0.0005, "step": 4165 }, { "epoch": 6.95, "grad_norm": 0.00626786844804883, "learning_rate": 0.00010735555555555557, "loss": 0.0008, "step": 4170 }, { "epoch": 6.958333333333333, "grad_norm": 0.0025487090460956097, "learning_rate": 0.00010724444444444446, "loss": 0.0006, "step": 4175 }, { "epoch": 6.966666666666667, "grad_norm": 0.019085291773080826, "learning_rate": 0.00010713333333333333, "loss": 0.0013, "step": 4180 }, { "epoch": 6.975, "grad_norm": 9.847161293029785, "learning_rate": 0.00010702222222222222, "loss": 0.0132, "step": 4185 }, { "epoch": 6.983333333333333, "grad_norm": 0.0045811887830495834, "learning_rate": 0.00010691111111111112, "loss": 0.0139, "step": 4190 }, { "epoch": 6.991666666666667, "grad_norm": 0.7987191677093506, "learning_rate": 0.00010680000000000001, "loss": 0.1006, "step": 4195 }, { "epoch": 7.0, "grad_norm": 0.005585179664194584, "learning_rate": 0.0001066888888888889, "loss": 0.0006, "step": 4200 }, { "epoch": 7.0, "eval_accuracy": 0.8170833333333334, "eval_f1": 0.8186709421860983, "eval_loss": 1.2368261814117432, "eval_precision": 0.8433289145116005, "eval_recall": 0.8170833333333334, "eval_runtime": 17.9056, "eval_samples_per_second": 134.036, "eval_steps_per_second": 16.755, "step": 4200 }, { "epoch": 7.008333333333334, "grad_norm": 0.002493297215551138, "learning_rate": 0.00010657777777777778, "loss": 0.0006, "step": 4205 }, { "epoch": 7.016666666666667, "grad_norm": 0.03822970762848854, "learning_rate": 0.00010646666666666668, "loss": 0.0011, "step": 4210 }, { "epoch": 7.025, "grad_norm": 0.003267091466113925, "learning_rate": 0.00010635555555555556, "loss": 0.0009, "step": 4215 }, { "epoch": 7.033333333333333, "grad_norm": 0.010033726692199707, "learning_rate": 0.00010624444444444446, "loss": 0.0793, "step": 4220 }, { "epoch": 7.041666666666667, "grad_norm": 0.27400872111320496, "learning_rate": 0.00010613333333333333, "loss": 0.0025, "step": 4225 }, { "epoch": 7.05, "grad_norm": 0.002294251462444663, "learning_rate": 0.00010602222222222223, "loss": 0.0006, "step": 4230 }, { "epoch": 7.058333333333334, "grad_norm": 0.002020907821133733, "learning_rate": 0.00010591111111111111, "loss": 0.0006, "step": 4235 }, { "epoch": 7.066666666666666, "grad_norm": 0.29849129915237427, "learning_rate": 0.00010580000000000001, "loss": 0.0243, "step": 4240 }, { "epoch": 7.075, "grad_norm": 0.013467399403452873, "learning_rate": 0.00010568888888888891, "loss": 0.0008, "step": 4245 }, { "epoch": 7.083333333333333, "grad_norm": 0.04788585752248764, "learning_rate": 0.00010557777777777778, "loss": 0.0011, "step": 4250 }, { "epoch": 7.091666666666667, "grad_norm": 0.012452193535864353, "learning_rate": 0.00010546666666666666, "loss": 0.0009, "step": 4255 }, { "epoch": 7.1, "grad_norm": 0.3542737364768982, "learning_rate": 0.00010535555555555556, "loss": 0.0159, "step": 4260 }, { "epoch": 7.108333333333333, "grad_norm": 0.0020437061320990324, "learning_rate": 0.00010524444444444446, "loss": 0.0006, "step": 4265 }, { "epoch": 7.116666666666666, "grad_norm": 0.0036841121036559343, "learning_rate": 0.00010513333333333333, "loss": 0.0005, "step": 4270 }, { "epoch": 7.125, "grad_norm": 0.0028364115860313177, "learning_rate": 0.00010502222222222222, "loss": 0.0006, "step": 4275 }, { "epoch": 7.133333333333334, "grad_norm": 0.002407371299341321, "learning_rate": 0.00010491111111111111, "loss": 0.0904, "step": 4280 }, { "epoch": 7.141666666666667, "grad_norm": 0.0021666146349161863, "learning_rate": 0.00010480000000000001, "loss": 0.0004, "step": 4285 }, { "epoch": 7.15, "grad_norm": 0.0018513142131268978, "learning_rate": 0.0001046888888888889, "loss": 0.0006, "step": 4290 }, { "epoch": 7.158333333333333, "grad_norm": 0.0024850056506693363, "learning_rate": 0.00010457777777777777, "loss": 0.0005, "step": 4295 }, { "epoch": 7.166666666666667, "grad_norm": 0.003956371918320656, "learning_rate": 0.00010446666666666667, "loss": 0.0014, "step": 4300 }, { "epoch": 7.166666666666667, "eval_accuracy": 0.7979166666666667, "eval_f1": 0.800387537481852, "eval_loss": 1.224525809288025, "eval_precision": 0.8126325787236149, "eval_recall": 0.7979166666666667, "eval_runtime": 18.2327, "eval_samples_per_second": 131.631, "eval_steps_per_second": 16.454, "step": 4300 }, { "epoch": 7.175, "grad_norm": 0.002190897474065423, "learning_rate": 0.00010435555555555557, "loss": 0.0005, "step": 4305 }, { "epoch": 7.183333333333334, "grad_norm": 0.003893352812156081, "learning_rate": 0.00010424444444444445, "loss": 0.0006, "step": 4310 }, { "epoch": 7.191666666666666, "grad_norm": 0.0025790848303586245, "learning_rate": 0.00010413333333333335, "loss": 0.0005, "step": 4315 }, { "epoch": 7.2, "grad_norm": 0.0033332102466374636, "learning_rate": 0.00010402222222222222, "loss": 0.0818, "step": 4320 }, { "epoch": 7.208333333333333, "grad_norm": 0.004384297411888838, "learning_rate": 0.00010391111111111112, "loss": 0.0004, "step": 4325 }, { "epoch": 7.216666666666667, "grad_norm": 0.37269988656044006, "learning_rate": 0.0001038, "loss": 0.0012, "step": 4330 }, { "epoch": 7.225, "grad_norm": 0.002154160989448428, "learning_rate": 0.0001036888888888889, "loss": 0.0005, "step": 4335 }, { "epoch": 7.233333333333333, "grad_norm": 0.001931973616592586, "learning_rate": 0.00010357777777777777, "loss": 0.0005, "step": 4340 }, { "epoch": 7.241666666666666, "grad_norm": 0.007139918394386768, "learning_rate": 0.00010346666666666667, "loss": 0.0004, "step": 4345 }, { "epoch": 7.25, "grad_norm": 0.6516969799995422, "learning_rate": 0.00010335555555555555, "loss": 0.0015, "step": 4350 }, { "epoch": 7.258333333333334, "grad_norm": 0.0016340233851224184, "learning_rate": 0.00010324444444444445, "loss": 0.0005, "step": 4355 }, { "epoch": 7.266666666666667, "grad_norm": 0.0025384167674928904, "learning_rate": 0.00010313333333333335, "loss": 0.0005, "step": 4360 }, { "epoch": 7.275, "grad_norm": 0.0019792395178228617, "learning_rate": 0.00010302222222222222, "loss": 0.0053, "step": 4365 }, { "epoch": 7.283333333333333, "grad_norm": 0.0016639833338558674, "learning_rate": 0.00010291111111111112, "loss": 0.0004, "step": 4370 }, { "epoch": 7.291666666666667, "grad_norm": 0.0017050477908924222, "learning_rate": 0.0001028, "loss": 0.0602, "step": 4375 }, { "epoch": 7.3, "grad_norm": 0.007233903277665377, "learning_rate": 0.0001026888888888889, "loss": 0.0004, "step": 4380 }, { "epoch": 7.308333333333334, "grad_norm": 0.002827920252457261, "learning_rate": 0.00010257777777777777, "loss": 0.0005, "step": 4385 }, { "epoch": 7.316666666666666, "grad_norm": 0.013786641880869865, "learning_rate": 0.00010246666666666667, "loss": 0.0005, "step": 4390 }, { "epoch": 7.325, "grad_norm": 9.637537956237793, "learning_rate": 0.00010235555555555556, "loss": 0.1133, "step": 4395 }, { "epoch": 7.333333333333333, "grad_norm": 0.03561023622751236, "learning_rate": 0.00010224444444444446, "loss": 0.0005, "step": 4400 }, { "epoch": 7.333333333333333, "eval_accuracy": 0.7995833333333333, "eval_f1": 0.7995888124781865, "eval_loss": 1.248620629310608, "eval_precision": 0.8133599789674458, "eval_recall": 0.7995833333333333, "eval_runtime": 18.4512, "eval_samples_per_second": 130.073, "eval_steps_per_second": 16.259, "step": 4400 }, { "epoch": 7.341666666666667, "grad_norm": 0.0020466342102736235, "learning_rate": 0.00010213333333333335, "loss": 0.0008, "step": 4405 }, { "epoch": 7.35, "grad_norm": 3.2304627895355225, "learning_rate": 0.00010202222222222222, "loss": 0.0118, "step": 4410 }, { "epoch": 7.358333333333333, "grad_norm": 0.001565932878293097, "learning_rate": 0.00010191111111111111, "loss": 0.0541, "step": 4415 }, { "epoch": 7.366666666666666, "grad_norm": 10.113313674926758, "learning_rate": 0.00010180000000000001, "loss": 0.0348, "step": 4420 }, { "epoch": 7.375, "grad_norm": 0.0018576865550130606, "learning_rate": 0.0001016888888888889, "loss": 0.0005, "step": 4425 }, { "epoch": 7.383333333333334, "grad_norm": 0.0033017718233168125, "learning_rate": 0.00010157777777777778, "loss": 0.1698, "step": 4430 }, { "epoch": 7.391666666666667, "grad_norm": 0.0035009433049708605, "learning_rate": 0.00010146666666666666, "loss": 0.0094, "step": 4435 }, { "epoch": 7.4, "grad_norm": 0.017848649993538857, "learning_rate": 0.00010135555555555556, "loss": 0.0024, "step": 4440 }, { "epoch": 7.408333333333333, "grad_norm": 0.051200512796640396, "learning_rate": 0.00010124444444444446, "loss": 0.0499, "step": 4445 }, { "epoch": 7.416666666666667, "grad_norm": 3.5321269035339355, "learning_rate": 0.00010113333333333334, "loss": 0.1075, "step": 4450 }, { "epoch": 7.425, "grad_norm": 0.012632478028535843, "learning_rate": 0.00010102222222222221, "loss": 0.0146, "step": 4455 }, { "epoch": 7.433333333333334, "grad_norm": 0.01773531548678875, "learning_rate": 0.00010091111111111111, "loss": 0.0015, "step": 4460 }, { "epoch": 7.441666666666666, "grad_norm": 0.0167500339448452, "learning_rate": 0.00010080000000000001, "loss": 0.0015, "step": 4465 }, { "epoch": 7.45, "grad_norm": 0.006985655054450035, "learning_rate": 0.0001006888888888889, "loss": 0.0047, "step": 4470 }, { "epoch": 7.458333333333333, "grad_norm": 0.002679118886590004, "learning_rate": 0.0001005777777777778, "loss": 0.1237, "step": 4475 }, { "epoch": 7.466666666666667, "grad_norm": 0.011784889735281467, "learning_rate": 0.00010046666666666666, "loss": 0.0014, "step": 4480 }, { "epoch": 7.475, "grad_norm": 0.007196694612503052, "learning_rate": 0.00010035555555555556, "loss": 0.0382, "step": 4485 }, { "epoch": 7.483333333333333, "grad_norm": 0.011246589943766594, "learning_rate": 0.00010024444444444445, "loss": 0.0012, "step": 4490 }, { "epoch": 7.491666666666666, "grad_norm": 0.03219161182641983, "learning_rate": 0.00010013333333333335, "loss": 0.0058, "step": 4495 }, { "epoch": 7.5, "grad_norm": 9.362371444702148, "learning_rate": 0.00010002222222222222, "loss": 0.0793, "step": 4500 }, { "epoch": 7.5, "eval_accuracy": 0.77625, "eval_f1": 0.7696428141087324, "eval_loss": 1.3575351238250732, "eval_precision": 0.800451363605362, "eval_recall": 0.77625, "eval_runtime": 18.488, "eval_samples_per_second": 129.814, "eval_steps_per_second": 16.227, "step": 4500 }, { "epoch": 7.508333333333333, "grad_norm": 0.003254137234762311, "learning_rate": 9.991111111111112e-05, "loss": 0.0596, "step": 4505 }, { "epoch": 7.516666666666667, "grad_norm": 0.0035405727103352547, "learning_rate": 9.98e-05, "loss": 0.0419, "step": 4510 }, { "epoch": 7.525, "grad_norm": 0.0025845735799521208, "learning_rate": 9.96888888888889e-05, "loss": 0.0007, "step": 4515 }, { "epoch": 7.533333333333333, "grad_norm": 0.0035965354181826115, "learning_rate": 9.957777777777778e-05, "loss": 0.0406, "step": 4520 }, { "epoch": 7.541666666666667, "grad_norm": 0.02385864593088627, "learning_rate": 9.946666666666668e-05, "loss": 0.001, "step": 4525 }, { "epoch": 7.55, "grad_norm": 0.004266361240297556, "learning_rate": 9.935555555555555e-05, "loss": 0.0008, "step": 4530 }, { "epoch": 7.558333333333334, "grad_norm": 10.367888450622559, "learning_rate": 9.924444444444445e-05, "loss": 0.086, "step": 4535 }, { "epoch": 7.566666666666666, "grad_norm": 0.005195547826588154, "learning_rate": 9.913333333333334e-05, "loss": 0.0018, "step": 4540 }, { "epoch": 7.575, "grad_norm": 0.003064212156459689, "learning_rate": 9.902222222222223e-05, "loss": 0.0011, "step": 4545 }, { "epoch": 7.583333333333333, "grad_norm": 0.06963126361370087, "learning_rate": 9.891111111111112e-05, "loss": 0.0772, "step": 4550 }, { "epoch": 7.591666666666667, "grad_norm": 0.3093690276145935, "learning_rate": 9.88e-05, "loss": 0.015, "step": 4555 }, { "epoch": 7.6, "grad_norm": 0.0942772775888443, "learning_rate": 9.86888888888889e-05, "loss": 0.0008, "step": 4560 }, { "epoch": 7.608333333333333, "grad_norm": 0.010500328615307808, "learning_rate": 9.857777777777779e-05, "loss": 0.0026, "step": 4565 }, { "epoch": 7.616666666666667, "grad_norm": 0.002502851653844118, "learning_rate": 9.846666666666667e-05, "loss": 0.0134, "step": 4570 }, { "epoch": 7.625, "grad_norm": 0.0071341972798109055, "learning_rate": 9.835555555555556e-05, "loss": 0.0007, "step": 4575 }, { "epoch": 7.633333333333333, "grad_norm": 0.06868123263120651, "learning_rate": 9.824444444444445e-05, "loss": 0.0764, "step": 4580 }, { "epoch": 7.641666666666667, "grad_norm": 0.001805054140277207, "learning_rate": 9.813333333333334e-05, "loss": 0.0074, "step": 4585 }, { "epoch": 7.65, "grad_norm": 0.2737463414669037, "learning_rate": 9.802222222222222e-05, "loss": 0.0015, "step": 4590 }, { "epoch": 7.658333333333333, "grad_norm": 0.0022107267286628485, "learning_rate": 9.791111111111112e-05, "loss": 0.1623, "step": 4595 }, { "epoch": 7.666666666666667, "grad_norm": 0.0022805279586464167, "learning_rate": 9.78e-05, "loss": 0.0006, "step": 4600 }, { "epoch": 7.666666666666667, "eval_accuracy": 0.80125, "eval_f1": 0.7995960330256122, "eval_loss": 1.2692971229553223, "eval_precision": 0.8150540539119545, "eval_recall": 0.80125, "eval_runtime": 18.72, "eval_samples_per_second": 128.205, "eval_steps_per_second": 16.026, "step": 4600 }, { "epoch": 7.675, "grad_norm": 0.6644483804702759, "learning_rate": 9.768888888888889e-05, "loss": 0.0926, "step": 4605 }, { "epoch": 7.683333333333334, "grad_norm": 0.007860844023525715, "learning_rate": 9.757777777777777e-05, "loss": 0.0011, "step": 4610 }, { "epoch": 7.691666666666666, "grad_norm": 0.005825599655508995, "learning_rate": 9.746666666666667e-05, "loss": 0.002, "step": 4615 }, { "epoch": 7.7, "grad_norm": 0.002667010994628072, "learning_rate": 9.735555555555556e-05, "loss": 0.0015, "step": 4620 }, { "epoch": 7.708333333333333, "grad_norm": 0.10531929135322571, "learning_rate": 9.724444444444444e-05, "loss": 0.0012, "step": 4625 }, { "epoch": 7.716666666666667, "grad_norm": 0.009005175903439522, "learning_rate": 9.713333333333334e-05, "loss": 0.0007, "step": 4630 }, { "epoch": 7.725, "grad_norm": 0.0034402853343635798, "learning_rate": 9.702222222222223e-05, "loss": 0.0568, "step": 4635 }, { "epoch": 7.733333333333333, "grad_norm": 0.0016546129481866956, "learning_rate": 9.691111111111112e-05, "loss": 0.0004, "step": 4640 }, { "epoch": 7.741666666666667, "grad_norm": 0.09486468881368637, "learning_rate": 9.680000000000001e-05, "loss": 0.0009, "step": 4645 }, { "epoch": 7.75, "grad_norm": 0.006779166869819164, "learning_rate": 9.668888888888889e-05, "loss": 0.0006, "step": 4650 }, { "epoch": 7.758333333333333, "grad_norm": 0.0018887241603806615, "learning_rate": 9.657777777777778e-05, "loss": 0.0528, "step": 4655 }, { "epoch": 7.766666666666667, "grad_norm": 0.00159288733266294, "learning_rate": 9.646666666666668e-05, "loss": 0.0004, "step": 4660 }, { "epoch": 7.775, "grad_norm": 0.002197465393692255, "learning_rate": 9.635555555555556e-05, "loss": 0.0008, "step": 4665 }, { "epoch": 7.783333333333333, "grad_norm": 0.0020881604868918657, "learning_rate": 9.624444444444445e-05, "loss": 0.0006, "step": 4670 }, { "epoch": 7.791666666666667, "grad_norm": 0.005545620806515217, "learning_rate": 9.613333333333334e-05, "loss": 0.0009, "step": 4675 }, { "epoch": 7.8, "grad_norm": 0.0016975982580333948, "learning_rate": 9.602222222222223e-05, "loss": 0.0004, "step": 4680 }, { "epoch": 7.808333333333334, "grad_norm": 0.001595878740772605, "learning_rate": 9.591111111111111e-05, "loss": 0.0005, "step": 4685 }, { "epoch": 7.816666666666666, "grad_norm": 0.002294294536113739, "learning_rate": 9.58e-05, "loss": 0.0004, "step": 4690 }, { "epoch": 7.825, "grad_norm": 0.001976243918761611, "learning_rate": 9.56888888888889e-05, "loss": 0.0259, "step": 4695 }, { "epoch": 7.833333333333333, "grad_norm": 0.001720887841656804, "learning_rate": 9.557777777777778e-05, "loss": 0.0005, "step": 4700 }, { "epoch": 7.833333333333333, "eval_accuracy": 0.8191666666666667, "eval_f1": 0.8199043597047633, "eval_loss": 1.1998887062072754, "eval_precision": 0.8405486522020116, "eval_recall": 0.8191666666666667, "eval_runtime": 17.835, "eval_samples_per_second": 134.567, "eval_steps_per_second": 16.821, "step": 4700 }, { "epoch": 7.841666666666667, "grad_norm": 0.0019497304456308484, "learning_rate": 9.546666666666667e-05, "loss": 0.0593, "step": 4705 }, { "epoch": 7.85, "grad_norm": 0.0020708946976810694, "learning_rate": 9.535555555555556e-05, "loss": 0.0024, "step": 4710 }, { "epoch": 7.858333333333333, "grad_norm": 0.0024371573235839605, "learning_rate": 9.524444444444445e-05, "loss": 0.0087, "step": 4715 }, { "epoch": 7.866666666666667, "grad_norm": 0.004640860948711634, "learning_rate": 9.513333333333335e-05, "loss": 0.0106, "step": 4720 }, { "epoch": 7.875, "grad_norm": 0.021634545177221298, "learning_rate": 9.502222222222222e-05, "loss": 0.0005, "step": 4725 }, { "epoch": 7.883333333333333, "grad_norm": 0.0028453627601265907, "learning_rate": 9.491111111111112e-05, "loss": 0.0152, "step": 4730 }, { "epoch": 7.891666666666667, "grad_norm": 0.003747039707377553, "learning_rate": 9.48e-05, "loss": 0.0004, "step": 4735 }, { "epoch": 7.9, "grad_norm": 0.004712098278105259, "learning_rate": 9.46888888888889e-05, "loss": 0.0004, "step": 4740 }, { "epoch": 7.908333333333333, "grad_norm": 3.7353694438934326, "learning_rate": 9.457777777777778e-05, "loss": 0.0094, "step": 4745 }, { "epoch": 7.916666666666667, "grad_norm": 0.002233565552160144, "learning_rate": 9.446666666666667e-05, "loss": 0.0005, "step": 4750 }, { "epoch": 7.925, "grad_norm": 0.0033051795326173306, "learning_rate": 9.435555555555557e-05, "loss": 0.0011, "step": 4755 }, { "epoch": 7.933333333333334, "grad_norm": 0.0015059810830280185, "learning_rate": 9.424444444444445e-05, "loss": 0.0107, "step": 4760 }, { "epoch": 7.941666666666666, "grad_norm": 0.5520133972167969, "learning_rate": 9.413333333333334e-05, "loss": 0.0014, "step": 4765 }, { "epoch": 7.95, "grad_norm": 0.006833518855273724, "learning_rate": 9.402222222222222e-05, "loss": 0.1114, "step": 4770 }, { "epoch": 7.958333333333333, "grad_norm": 0.01859143003821373, "learning_rate": 9.391111111111112e-05, "loss": 0.0009, "step": 4775 }, { "epoch": 7.966666666666667, "grad_norm": 0.005612580105662346, "learning_rate": 9.38e-05, "loss": 0.0082, "step": 4780 }, { "epoch": 7.975, "grad_norm": 0.006635615602135658, "learning_rate": 9.368888888888889e-05, "loss": 0.0011, "step": 4785 }, { "epoch": 7.983333333333333, "grad_norm": 0.008790500462055206, "learning_rate": 9.357777777777779e-05, "loss": 0.0328, "step": 4790 }, { "epoch": 7.991666666666667, "grad_norm": 0.0388391837477684, "learning_rate": 9.346666666666667e-05, "loss": 0.0254, "step": 4795 }, { "epoch": 8.0, "grad_norm": 0.008438260294497013, "learning_rate": 9.335555555555557e-05, "loss": 0.0007, "step": 4800 }, { "epoch": 8.0, "eval_accuracy": 0.8345833333333333, "eval_f1": 0.8353171017749312, "eval_loss": 1.0169364213943481, "eval_precision": 0.8516998265370749, "eval_recall": 0.8345833333333333, "eval_runtime": 18.1889, "eval_samples_per_second": 131.949, "eval_steps_per_second": 16.494, "step": 4800 }, { "epoch": 8.008333333333333, "grad_norm": 0.004464373458176851, "learning_rate": 9.324444444444444e-05, "loss": 0.0031, "step": 4805 }, { "epoch": 8.016666666666667, "grad_norm": 0.0021182007621973753, "learning_rate": 9.313333333333334e-05, "loss": 0.0106, "step": 4810 }, { "epoch": 8.025, "grad_norm": 0.001880035037174821, "learning_rate": 9.302222222222222e-05, "loss": 0.0004, "step": 4815 }, { "epoch": 8.033333333333333, "grad_norm": 0.0017032003961503506, "learning_rate": 9.291111111111112e-05, "loss": 0.0004, "step": 4820 }, { "epoch": 8.041666666666666, "grad_norm": 0.0018063685856759548, "learning_rate": 9.28e-05, "loss": 0.0005, "step": 4825 }, { "epoch": 8.05, "grad_norm": 0.0031107966788113117, "learning_rate": 9.268888888888889e-05, "loss": 0.0004, "step": 4830 }, { "epoch": 8.058333333333334, "grad_norm": 0.0025420652236789465, "learning_rate": 9.257777777777779e-05, "loss": 0.0004, "step": 4835 }, { "epoch": 8.066666666666666, "grad_norm": 0.0024412223137915134, "learning_rate": 9.246666666666667e-05, "loss": 0.0004, "step": 4840 }, { "epoch": 8.075, "grad_norm": 0.003921416588127613, "learning_rate": 9.235555555555556e-05, "loss": 0.0564, "step": 4845 }, { "epoch": 8.083333333333334, "grad_norm": 0.0013325904728844762, "learning_rate": 9.224444444444444e-05, "loss": 0.0004, "step": 4850 }, { "epoch": 8.091666666666667, "grad_norm": 0.0014394528698176146, "learning_rate": 9.213333333333334e-05, "loss": 0.0006, "step": 4855 }, { "epoch": 8.1, "grad_norm": 0.003788233967497945, "learning_rate": 9.202222222222223e-05, "loss": 0.0004, "step": 4860 }, { "epoch": 8.108333333333333, "grad_norm": 0.0015241383807733655, "learning_rate": 9.191111111111111e-05, "loss": 0.0004, "step": 4865 }, { "epoch": 8.116666666666667, "grad_norm": 0.21485622227191925, "learning_rate": 9.180000000000001e-05, "loss": 0.0007, "step": 4870 }, { "epoch": 8.125, "grad_norm": 0.0030197377782315016, "learning_rate": 9.16888888888889e-05, "loss": 0.0004, "step": 4875 }, { "epoch": 8.133333333333333, "grad_norm": 0.003229889553040266, "learning_rate": 9.157777777777778e-05, "loss": 0.0004, "step": 4880 }, { "epoch": 8.141666666666667, "grad_norm": 0.005856408271938562, "learning_rate": 9.146666666666666e-05, "loss": 0.0116, "step": 4885 }, { "epoch": 8.15, "grad_norm": 0.0014968873001635075, "learning_rate": 9.135555555555556e-05, "loss": 0.0004, "step": 4890 }, { "epoch": 8.158333333333333, "grad_norm": 0.0014685502974316478, "learning_rate": 9.124444444444445e-05, "loss": 0.0012, "step": 4895 }, { "epoch": 8.166666666666666, "grad_norm": 0.0031129689887166023, "learning_rate": 9.113333333333334e-05, "loss": 0.067, "step": 4900 }, { "epoch": 8.166666666666666, "eval_accuracy": 0.8345833333333333, "eval_f1": 0.832487471710099, "eval_loss": 1.0822874307632446, "eval_precision": 0.8602239977388368, "eval_recall": 0.8345833333333333, "eval_runtime": 18.0483, "eval_samples_per_second": 132.976, "eval_steps_per_second": 16.622, "step": 4900 }, { "epoch": 8.175, "grad_norm": 0.0027243588119745255, "learning_rate": 9.102222222222223e-05, "loss": 0.0473, "step": 4905 }, { "epoch": 8.183333333333334, "grad_norm": 0.001571020344272256, "learning_rate": 9.091111111111111e-05, "loss": 0.0004, "step": 4910 }, { "epoch": 8.191666666666666, "grad_norm": 1.7120968103408813, "learning_rate": 9.080000000000001e-05, "loss": 0.1749, "step": 4915 }, { "epoch": 8.2, "grad_norm": 0.0018422957509756088, "learning_rate": 9.06888888888889e-05, "loss": 0.0195, "step": 4920 }, { "epoch": 8.208333333333334, "grad_norm": 0.0032854112796485424, "learning_rate": 9.057777777777778e-05, "loss": 0.0004, "step": 4925 }, { "epoch": 8.216666666666667, "grad_norm": 11.092028617858887, "learning_rate": 9.046666666666667e-05, "loss": 0.0883, "step": 4930 }, { "epoch": 8.225, "grad_norm": 0.02730483189225197, "learning_rate": 9.035555555555556e-05, "loss": 0.0012, "step": 4935 }, { "epoch": 8.233333333333333, "grad_norm": 0.00577032333239913, "learning_rate": 9.024444444444445e-05, "loss": 0.0008, "step": 4940 }, { "epoch": 8.241666666666667, "grad_norm": 0.01072395034134388, "learning_rate": 9.013333333333333e-05, "loss": 0.0007, "step": 4945 }, { "epoch": 8.25, "grad_norm": 0.003782175248488784, "learning_rate": 9.002222222222223e-05, "loss": 0.0005, "step": 4950 }, { "epoch": 8.258333333333333, "grad_norm": 0.002671755850315094, "learning_rate": 8.991111111111112e-05, "loss": 0.0005, "step": 4955 }, { "epoch": 8.266666666666667, "grad_norm": 0.0016187657602131367, "learning_rate": 8.98e-05, "loss": 0.0008, "step": 4960 }, { "epoch": 8.275, "grad_norm": 0.030228691175580025, "learning_rate": 8.968888888888889e-05, "loss": 0.0005, "step": 4965 }, { "epoch": 8.283333333333333, "grad_norm": 0.00189516122918576, "learning_rate": 8.957777777777778e-05, "loss": 0.0494, "step": 4970 }, { "epoch": 8.291666666666666, "grad_norm": 0.0015982779441401362, "learning_rate": 8.946666666666668e-05, "loss": 0.0005, "step": 4975 }, { "epoch": 8.3, "grad_norm": 0.0021958542056381702, "learning_rate": 8.935555555555555e-05, "loss": 0.0005, "step": 4980 }, { "epoch": 8.308333333333334, "grad_norm": 0.0024760086089372635, "learning_rate": 8.924444444444445e-05, "loss": 0.0012, "step": 4985 }, { "epoch": 8.316666666666666, "grad_norm": 0.014488672837615013, "learning_rate": 8.913333333333334e-05, "loss": 0.0005, "step": 4990 }, { "epoch": 8.325, "grad_norm": 0.0032799814362078905, "learning_rate": 8.902222222222223e-05, "loss": 0.0005, "step": 4995 }, { "epoch": 8.333333333333334, "grad_norm": 0.014586912468075752, "learning_rate": 8.89111111111111e-05, "loss": 0.0007, "step": 5000 }, { "epoch": 8.333333333333334, "eval_accuracy": 0.7995833333333333, "eval_f1": 0.7978038660395801, "eval_loss": 1.3014228343963623, "eval_precision": 0.8438977916420323, "eval_recall": 0.7995833333333333, "eval_runtime": 18.4944, "eval_samples_per_second": 129.769, "eval_steps_per_second": 16.221, "step": 5000 }, { "epoch": 8.341666666666667, "grad_norm": 0.0028951503336429596, "learning_rate": 8.88e-05, "loss": 0.0005, "step": 5005 }, { "epoch": 8.35, "grad_norm": 0.012304726056754589, "learning_rate": 8.868888888888889e-05, "loss": 0.0005, "step": 5010 }, { "epoch": 8.358333333333333, "grad_norm": 0.0021752656903117895, "learning_rate": 8.857777777777779e-05, "loss": 0.0005, "step": 5015 }, { "epoch": 8.366666666666667, "grad_norm": 0.002644604304805398, "learning_rate": 8.846666666666667e-05, "loss": 0.0004, "step": 5020 }, { "epoch": 8.375, "grad_norm": 0.0025647738948464394, "learning_rate": 8.835555555555556e-05, "loss": 0.0005, "step": 5025 }, { "epoch": 8.383333333333333, "grad_norm": 0.0018767263973131776, "learning_rate": 8.824444444444445e-05, "loss": 0.0003, "step": 5030 }, { "epoch": 8.391666666666667, "grad_norm": 0.0015689575811848044, "learning_rate": 8.813333333333334e-05, "loss": 0.0004, "step": 5035 }, { "epoch": 8.4, "grad_norm": 0.001307573402300477, "learning_rate": 8.802222222222222e-05, "loss": 0.0003, "step": 5040 }, { "epoch": 8.408333333333333, "grad_norm": 0.028265563771128654, "learning_rate": 8.791111111111111e-05, "loss": 0.0004, "step": 5045 }, { "epoch": 8.416666666666666, "grad_norm": 0.0018882303265854716, "learning_rate": 8.78e-05, "loss": 0.0027, "step": 5050 }, { "epoch": 8.425, "grad_norm": 0.0018096283311024308, "learning_rate": 8.76888888888889e-05, "loss": 0.0003, "step": 5055 }, { "epoch": 8.433333333333334, "grad_norm": 0.0015225678216665983, "learning_rate": 8.757777777777778e-05, "loss": 0.0003, "step": 5060 }, { "epoch": 8.441666666666666, "grad_norm": 0.007878858596086502, "learning_rate": 8.746666666666667e-05, "loss": 0.0003, "step": 5065 }, { "epoch": 8.45, "grad_norm": 0.0016748522175475955, "learning_rate": 8.735555555555556e-05, "loss": 0.0003, "step": 5070 }, { "epoch": 8.458333333333334, "grad_norm": 0.0014724996872246265, "learning_rate": 8.724444444444446e-05, "loss": 0.0003, "step": 5075 }, { "epoch": 8.466666666666667, "grad_norm": 0.0018748282454907894, "learning_rate": 8.713333333333333e-05, "loss": 0.0003, "step": 5080 }, { "epoch": 8.475, "grad_norm": 0.005462238099426031, "learning_rate": 8.702222222222223e-05, "loss": 0.0003, "step": 5085 }, { "epoch": 8.483333333333333, "grad_norm": 0.0012754176277667284, "learning_rate": 8.691111111111111e-05, "loss": 0.0003, "step": 5090 }, { "epoch": 8.491666666666667, "grad_norm": 0.002526805968955159, "learning_rate": 8.680000000000001e-05, "loss": 0.0003, "step": 5095 }, { "epoch": 8.5, "grad_norm": 0.001269698259420693, "learning_rate": 8.66888888888889e-05, "loss": 0.0003, "step": 5100 }, { "epoch": 8.5, "eval_accuracy": 0.7954166666666667, "eval_f1": 0.7986419356455468, "eval_loss": 1.3176263570785522, "eval_precision": 0.8397898765671731, "eval_recall": 0.7954166666666667, "eval_runtime": 18.1515, "eval_samples_per_second": 132.22, "eval_steps_per_second": 16.528, "step": 5100 }, { "epoch": 8.508333333333333, "grad_norm": 0.0012388181639835238, "learning_rate": 8.657777777777778e-05, "loss": 0.0011, "step": 5105 }, { "epoch": 8.516666666666667, "grad_norm": 0.0014382405206561089, "learning_rate": 8.646666666666668e-05, "loss": 0.0004, "step": 5110 }, { "epoch": 8.525, "grad_norm": 0.0013633264461532235, "learning_rate": 8.635555555555556e-05, "loss": 0.0003, "step": 5115 }, { "epoch": 8.533333333333333, "grad_norm": 0.0012709638103842735, "learning_rate": 8.624444444444445e-05, "loss": 0.0003, "step": 5120 }, { "epoch": 8.541666666666666, "grad_norm": 0.002305518137291074, "learning_rate": 8.613333333333333e-05, "loss": 0.0003, "step": 5125 }, { "epoch": 8.55, "grad_norm": 0.005266694352030754, "learning_rate": 8.602222222222223e-05, "loss": 0.0003, "step": 5130 }, { "epoch": 8.558333333333334, "grad_norm": 0.006585756316781044, "learning_rate": 8.591111111111111e-05, "loss": 0.0003, "step": 5135 }, { "epoch": 8.566666666666666, "grad_norm": 0.001255087205208838, "learning_rate": 8.58e-05, "loss": 0.0003, "step": 5140 }, { "epoch": 8.575, "grad_norm": 0.0010666524758562446, "learning_rate": 8.56888888888889e-05, "loss": 0.0003, "step": 5145 }, { "epoch": 8.583333333333334, "grad_norm": 0.0013116669142618775, "learning_rate": 8.557777777777778e-05, "loss": 0.0003, "step": 5150 }, { "epoch": 8.591666666666667, "grad_norm": 0.001487078028731048, "learning_rate": 8.546666666666667e-05, "loss": 0.0003, "step": 5155 }, { "epoch": 8.6, "grad_norm": 0.0010952592128887773, "learning_rate": 8.535555555555555e-05, "loss": 0.0003, "step": 5160 }, { "epoch": 8.608333333333333, "grad_norm": 0.0012562531046569347, "learning_rate": 8.524444444444445e-05, "loss": 0.0003, "step": 5165 }, { "epoch": 8.616666666666667, "grad_norm": 0.001168701215647161, "learning_rate": 8.513333333333335e-05, "loss": 0.0003, "step": 5170 }, { "epoch": 8.625, "grad_norm": 0.0012071920791640878, "learning_rate": 8.502222222222223e-05, "loss": 0.0003, "step": 5175 }, { "epoch": 8.633333333333333, "grad_norm": 0.0010822160402312875, "learning_rate": 8.491111111111112e-05, "loss": 0.0003, "step": 5180 }, { "epoch": 8.641666666666667, "grad_norm": 0.001139395171776414, "learning_rate": 8.48e-05, "loss": 0.0003, "step": 5185 }, { "epoch": 8.65, "grad_norm": 0.0010857543675228953, "learning_rate": 8.46888888888889e-05, "loss": 0.0003, "step": 5190 }, { "epoch": 8.658333333333333, "grad_norm": 0.0012551040854305029, "learning_rate": 8.457777777777778e-05, "loss": 0.0003, "step": 5195 }, { "epoch": 8.666666666666666, "grad_norm": 0.0021674716845154762, "learning_rate": 8.446666666666667e-05, "loss": 0.0003, "step": 5200 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.81125, "eval_f1": 0.812358316337729, "eval_loss": 1.2994208335876465, "eval_precision": 0.8558914351953846, "eval_recall": 0.81125, "eval_runtime": 18.5639, "eval_samples_per_second": 129.284, "eval_steps_per_second": 16.16, "step": 5200 }, { "epoch": 8.675, "grad_norm": 0.0013331255177035928, "learning_rate": 8.435555555555555e-05, "loss": 0.0003, "step": 5205 }, { "epoch": 8.683333333333334, "grad_norm": 0.001223869970999658, "learning_rate": 8.424444444444445e-05, "loss": 0.0003, "step": 5210 }, { "epoch": 8.691666666666666, "grad_norm": 0.001190881826914847, "learning_rate": 8.413333333333334e-05, "loss": 0.0003, "step": 5215 }, { "epoch": 8.7, "grad_norm": 0.0012936778366565704, "learning_rate": 8.402222222222222e-05, "loss": 0.0003, "step": 5220 }, { "epoch": 8.708333333333334, "grad_norm": 0.0011625731131061912, "learning_rate": 8.391111111111112e-05, "loss": 0.0003, "step": 5225 }, { "epoch": 8.716666666666667, "grad_norm": 0.0009399696136824787, "learning_rate": 8.38e-05, "loss": 0.0003, "step": 5230 }, { "epoch": 8.725, "grad_norm": 0.0010412222472950816, "learning_rate": 8.368888888888889e-05, "loss": 0.0003, "step": 5235 }, { "epoch": 8.733333333333333, "grad_norm": 0.0009861089056357741, "learning_rate": 8.357777777777777e-05, "loss": 0.0003, "step": 5240 }, { "epoch": 8.741666666666667, "grad_norm": 0.0012285622069612145, "learning_rate": 8.346666666666667e-05, "loss": 0.0002, "step": 5245 }, { "epoch": 8.75, "grad_norm": 0.0012984727509319782, "learning_rate": 8.335555555555557e-05, "loss": 0.0003, "step": 5250 }, { "epoch": 8.758333333333333, "grad_norm": 0.00112599425483495, "learning_rate": 8.324444444444444e-05, "loss": 0.0003, "step": 5255 }, { "epoch": 8.766666666666667, "grad_norm": 0.0010774628026410937, "learning_rate": 8.313333333333334e-05, "loss": 0.0002, "step": 5260 }, { "epoch": 8.775, "grad_norm": 0.0010056387400254607, "learning_rate": 8.302222222222222e-05, "loss": 0.0003, "step": 5265 }, { "epoch": 8.783333333333333, "grad_norm": 0.0012177320895716548, "learning_rate": 8.291111111111112e-05, "loss": 0.0309, "step": 5270 }, { "epoch": 8.791666666666666, "grad_norm": 0.001081516733393073, "learning_rate": 8.28e-05, "loss": 0.0002, "step": 5275 }, { "epoch": 8.8, "grad_norm": 0.0010835860157385468, "learning_rate": 8.268888888888889e-05, "loss": 0.0003, "step": 5280 }, { "epoch": 8.808333333333334, "grad_norm": 1.6564055681228638, "learning_rate": 8.257777777777779e-05, "loss": 0.0025, "step": 5285 }, { "epoch": 8.816666666666666, "grad_norm": 0.001208757166750729, "learning_rate": 8.246666666666667e-05, "loss": 0.0002, "step": 5290 }, { "epoch": 8.825, "grad_norm": 0.004277400206774473, "learning_rate": 8.235555555555556e-05, "loss": 0.0003, "step": 5295 }, { "epoch": 8.833333333333334, "grad_norm": 0.001116048777475953, "learning_rate": 8.224444444444444e-05, "loss": 0.0002, "step": 5300 }, { "epoch": 8.833333333333334, "eval_accuracy": 0.79375, "eval_f1": 0.7908316941739639, "eval_loss": 1.346003770828247, "eval_precision": 0.8308173576195076, "eval_recall": 0.79375, "eval_runtime": 18.5582, "eval_samples_per_second": 129.323, "eval_steps_per_second": 16.165, "step": 5300 }, { "epoch": 8.841666666666667, "grad_norm": 0.028774453327059746, "learning_rate": 8.213333333333334e-05, "loss": 0.0004, "step": 5305 }, { "epoch": 8.85, "grad_norm": 0.0013273048680275679, "learning_rate": 8.202222222222223e-05, "loss": 0.0006, "step": 5310 }, { "epoch": 8.858333333333333, "grad_norm": 0.0021637175232172012, "learning_rate": 8.191111111111111e-05, "loss": 0.0985, "step": 5315 }, { "epoch": 8.866666666666667, "grad_norm": 0.002020201412960887, "learning_rate": 8.18e-05, "loss": 0.0003, "step": 5320 }, { "epoch": 8.875, "grad_norm": 0.007847962900996208, "learning_rate": 8.16888888888889e-05, "loss": 0.0651, "step": 5325 }, { "epoch": 8.883333333333333, "grad_norm": 0.0029011364094913006, "learning_rate": 8.157777777777779e-05, "loss": 0.0006, "step": 5330 }, { "epoch": 8.891666666666667, "grad_norm": 0.00266357883810997, "learning_rate": 8.146666666666666e-05, "loss": 0.0004, "step": 5335 }, { "epoch": 8.9, "grad_norm": 0.003137425519526005, "learning_rate": 8.135555555555556e-05, "loss": 0.0003, "step": 5340 }, { "epoch": 8.908333333333333, "grad_norm": 0.001334360451437533, "learning_rate": 8.124444444444445e-05, "loss": 0.0002, "step": 5345 }, { "epoch": 8.916666666666666, "grad_norm": 0.02377103641629219, "learning_rate": 8.113333333333334e-05, "loss": 0.0047, "step": 5350 }, { "epoch": 8.925, "grad_norm": 0.5134826302528381, "learning_rate": 8.102222222222222e-05, "loss": 0.0008, "step": 5355 }, { "epoch": 8.933333333333334, "grad_norm": 0.0014036045176908374, "learning_rate": 8.091111111111111e-05, "loss": 0.0003, "step": 5360 }, { "epoch": 8.941666666666666, "grad_norm": 0.0012253022287040949, "learning_rate": 8.080000000000001e-05, "loss": 0.0003, "step": 5365 }, { "epoch": 8.95, "grad_norm": 0.0011784350499510765, "learning_rate": 8.06888888888889e-05, "loss": 0.0004, "step": 5370 }, { "epoch": 8.958333333333334, "grad_norm": 0.0028952532447874546, "learning_rate": 8.060000000000001e-05, "loss": 0.0376, "step": 5375 }, { "epoch": 8.966666666666667, "grad_norm": 0.001750854542478919, "learning_rate": 8.048888888888889e-05, "loss": 0.0002, "step": 5380 }, { "epoch": 8.975, "grad_norm": 0.0400676392018795, "learning_rate": 8.037777777777779e-05, "loss": 0.0003, "step": 5385 }, { "epoch": 8.983333333333333, "grad_norm": 9.401113510131836, "learning_rate": 8.026666666666666e-05, "loss": 0.0547, "step": 5390 }, { "epoch": 8.991666666666667, "grad_norm": 0.0012322692200541496, "learning_rate": 8.015555555555556e-05, "loss": 0.0015, "step": 5395 }, { "epoch": 9.0, "grad_norm": 0.0013038220349699259, "learning_rate": 8.004444444444444e-05, "loss": 0.0003, "step": 5400 }, { "epoch": 9.0, "eval_accuracy": 0.8345833333333333, "eval_f1": 0.8362948941615953, "eval_loss": 1.0408397912979126, "eval_precision": 0.8541142790053812, "eval_recall": 0.8345833333333333, "eval_runtime": 18.5251, "eval_samples_per_second": 129.554, "eval_steps_per_second": 16.194, "step": 5400 }, { "epoch": 9.008333333333333, "grad_norm": 0.0018346981378272176, "learning_rate": 7.993333333333334e-05, "loss": 0.0003, "step": 5405 }, { "epoch": 9.016666666666667, "grad_norm": 0.0013850562972947955, "learning_rate": 7.982222222222223e-05, "loss": 0.0741, "step": 5410 }, { "epoch": 9.025, "grad_norm": 0.0009629763080738485, "learning_rate": 7.971111111111111e-05, "loss": 0.0002, "step": 5415 }, { "epoch": 9.033333333333333, "grad_norm": 0.005034321919083595, "learning_rate": 7.960000000000001e-05, "loss": 0.0003, "step": 5420 }, { "epoch": 9.041666666666666, "grad_norm": 0.007224700413644314, "learning_rate": 7.94888888888889e-05, "loss": 0.0003, "step": 5425 }, { "epoch": 9.05, "grad_norm": 0.2458488792181015, "learning_rate": 7.937777777777778e-05, "loss": 0.0006, "step": 5430 }, { "epoch": 9.058333333333334, "grad_norm": 0.001252181245945394, "learning_rate": 7.926666666666666e-05, "loss": 0.0003, "step": 5435 }, { "epoch": 9.066666666666666, "grad_norm": 0.0010707697365432978, "learning_rate": 7.915555555555556e-05, "loss": 0.0004, "step": 5440 }, { "epoch": 9.075, "grad_norm": 0.0012539888266474009, "learning_rate": 7.904444444444445e-05, "loss": 0.0002, "step": 5445 }, { "epoch": 9.083333333333334, "grad_norm": 0.029164060950279236, "learning_rate": 7.893333333333333e-05, "loss": 0.0003, "step": 5450 }, { "epoch": 9.091666666666667, "grad_norm": 0.0009366451995447278, "learning_rate": 7.882222222222223e-05, "loss": 0.0002, "step": 5455 }, { "epoch": 9.1, "grad_norm": 0.0009910990484058857, "learning_rate": 7.871111111111111e-05, "loss": 0.0002, "step": 5460 }, { "epoch": 9.108333333333333, "grad_norm": 0.0009680807706899941, "learning_rate": 7.860000000000001e-05, "loss": 0.0002, "step": 5465 }, { "epoch": 9.116666666666667, "grad_norm": 0.0008522036951035261, "learning_rate": 7.848888888888888e-05, "loss": 0.0003, "step": 5470 }, { "epoch": 9.125, "grad_norm": 0.0016613422194495797, "learning_rate": 7.837777777777778e-05, "loss": 0.0002, "step": 5475 }, { "epoch": 9.133333333333333, "grad_norm": 0.3078015148639679, "learning_rate": 7.826666666666667e-05, "loss": 0.0009, "step": 5480 }, { "epoch": 9.141666666666667, "grad_norm": 0.0009623811347410083, "learning_rate": 7.815555555555557e-05, "loss": 0.0002, "step": 5485 }, { "epoch": 9.15, "grad_norm": 0.0011003322433680296, "learning_rate": 7.804444444444445e-05, "loss": 0.0003, "step": 5490 }, { "epoch": 9.158333333333333, "grad_norm": 0.0008207191131077707, "learning_rate": 7.793333333333333e-05, "loss": 0.0002, "step": 5495 }, { "epoch": 9.166666666666666, "grad_norm": 0.0009419197449460626, "learning_rate": 7.782222222222223e-05, "loss": 0.0002, "step": 5500 }, { "epoch": 9.166666666666666, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8258481610792536, "eval_loss": 1.1658748388290405, "eval_precision": 0.8651009918431825, "eval_recall": 0.8245833333333333, "eval_runtime": 18.3512, "eval_samples_per_second": 130.782, "eval_steps_per_second": 16.348, "step": 5500 }, { "epoch": 9.175, "grad_norm": 0.0009926841594278812, "learning_rate": 7.771111111111112e-05, "loss": 0.0002, "step": 5505 }, { "epoch": 9.183333333333334, "grad_norm": 0.001257641357369721, "learning_rate": 7.76e-05, "loss": 0.0002, "step": 5510 }, { "epoch": 9.191666666666666, "grad_norm": 0.0010470019187778234, "learning_rate": 7.748888888888889e-05, "loss": 0.0002, "step": 5515 }, { "epoch": 9.2, "grad_norm": 0.001068792538717389, "learning_rate": 7.737777777777779e-05, "loss": 0.0002, "step": 5520 }, { "epoch": 9.208333333333334, "grad_norm": 0.002308251801878214, "learning_rate": 7.726666666666667e-05, "loss": 0.0002, "step": 5525 }, { "epoch": 9.216666666666667, "grad_norm": 0.0010499281343072653, "learning_rate": 7.715555555555555e-05, "loss": 0.0002, "step": 5530 }, { "epoch": 9.225, "grad_norm": 0.0007911797729320824, "learning_rate": 7.704444444444445e-05, "loss": 0.0002, "step": 5535 }, { "epoch": 9.233333333333333, "grad_norm": 0.0008423263789154589, "learning_rate": 7.693333333333334e-05, "loss": 0.0002, "step": 5540 }, { "epoch": 9.241666666666667, "grad_norm": 0.0008619206491857767, "learning_rate": 7.682222222222222e-05, "loss": 0.0002, "step": 5545 }, { "epoch": 9.25, "grad_norm": 0.003464031731709838, "learning_rate": 7.671111111111111e-05, "loss": 0.0002, "step": 5550 }, { "epoch": 9.258333333333333, "grad_norm": 0.001201487029902637, "learning_rate": 7.66e-05, "loss": 0.0002, "step": 5555 }, { "epoch": 9.266666666666667, "grad_norm": 0.001021482632495463, "learning_rate": 7.648888888888889e-05, "loss": 0.0002, "step": 5560 }, { "epoch": 9.275, "grad_norm": 0.0008893812191672623, "learning_rate": 7.637777777777779e-05, "loss": 0.0002, "step": 5565 }, { "epoch": 9.283333333333333, "grad_norm": 0.0010239302646368742, "learning_rate": 7.626666666666667e-05, "loss": 0.0002, "step": 5570 }, { "epoch": 9.291666666666666, "grad_norm": 0.0010389845119789243, "learning_rate": 7.615555555555556e-05, "loss": 0.0002, "step": 5575 }, { "epoch": 9.3, "grad_norm": 0.0008383331005461514, "learning_rate": 7.604444444444446e-05, "loss": 0.0002, "step": 5580 }, { "epoch": 9.308333333333334, "grad_norm": 0.009199973195791245, "learning_rate": 7.593333333333334e-05, "loss": 0.0002, "step": 5585 }, { "epoch": 9.316666666666666, "grad_norm": 0.000865420326590538, "learning_rate": 7.582222222222223e-05, "loss": 0.0002, "step": 5590 }, { "epoch": 9.325, "grad_norm": 0.0009912363020703197, "learning_rate": 7.571111111111111e-05, "loss": 0.0002, "step": 5595 }, { "epoch": 9.333333333333334, "grad_norm": 0.0008318329928442836, "learning_rate": 7.560000000000001e-05, "loss": 0.0002, "step": 5600 }, { "epoch": 9.333333333333334, "eval_accuracy": 0.82625, "eval_f1": 0.8269858297762426, "eval_loss": 1.182138204574585, "eval_precision": 0.8657438793772979, "eval_recall": 0.82625, "eval_runtime": 18.1719, "eval_samples_per_second": 132.072, "eval_steps_per_second": 16.509, "step": 5600 }, { "epoch": 9.341666666666667, "grad_norm": 0.00365930306725204, "learning_rate": 7.548888888888889e-05, "loss": 0.0002, "step": 5605 }, { "epoch": 9.35, "grad_norm": 0.0009552662959322333, "learning_rate": 7.537777777777778e-05, "loss": 0.0002, "step": 5610 }, { "epoch": 9.358333333333333, "grad_norm": 0.0013393379049375653, "learning_rate": 7.526666666666668e-05, "loss": 0.0002, "step": 5615 }, { "epoch": 9.366666666666667, "grad_norm": 0.000839283165987581, "learning_rate": 7.515555555555556e-05, "loss": 0.0002, "step": 5620 }, { "epoch": 9.375, "grad_norm": 0.0007811982650309801, "learning_rate": 7.504444444444444e-05, "loss": 0.0002, "step": 5625 }, { "epoch": 9.383333333333333, "grad_norm": 0.0008713383576832712, "learning_rate": 7.493333333333333e-05, "loss": 0.0004, "step": 5630 }, { "epoch": 9.391666666666667, "grad_norm": 0.0007420368492603302, "learning_rate": 7.482222222222223e-05, "loss": 0.0002, "step": 5635 }, { "epoch": 9.4, "grad_norm": 0.0009224326349794865, "learning_rate": 7.471111111111111e-05, "loss": 0.0002, "step": 5640 }, { "epoch": 9.408333333333333, "grad_norm": 0.0012517764698714018, "learning_rate": 7.46e-05, "loss": 0.0002, "step": 5645 }, { "epoch": 9.416666666666666, "grad_norm": 0.0008241108735091984, "learning_rate": 7.44888888888889e-05, "loss": 0.0002, "step": 5650 }, { "epoch": 9.425, "grad_norm": 0.0009615992894396186, "learning_rate": 7.437777777777778e-05, "loss": 0.0002, "step": 5655 }, { "epoch": 9.433333333333334, "grad_norm": 0.0008037268999032676, "learning_rate": 7.426666666666668e-05, "loss": 0.0002, "step": 5660 }, { "epoch": 9.441666666666666, "grad_norm": 0.0009113966953009367, "learning_rate": 7.415555555555555e-05, "loss": 0.0002, "step": 5665 }, { "epoch": 9.45, "grad_norm": 0.0007515185279771686, "learning_rate": 7.404444444444445e-05, "loss": 0.0008, "step": 5670 }, { "epoch": 9.458333333333334, "grad_norm": 0.000765470671467483, "learning_rate": 7.393333333333333e-05, "loss": 0.0002, "step": 5675 }, { "epoch": 9.466666666666667, "grad_norm": 0.0008239589515142143, "learning_rate": 7.382222222222223e-05, "loss": 0.0002, "step": 5680 }, { "epoch": 9.475, "grad_norm": 0.0008905070717446506, "learning_rate": 7.371111111111112e-05, "loss": 0.0002, "step": 5685 }, { "epoch": 9.483333333333333, "grad_norm": 0.0007725146715529263, "learning_rate": 7.36e-05, "loss": 0.0002, "step": 5690 }, { "epoch": 9.491666666666667, "grad_norm": 0.002431974746286869, "learning_rate": 7.34888888888889e-05, "loss": 0.0002, "step": 5695 }, { "epoch": 9.5, "grad_norm": 0.00680494075641036, "learning_rate": 7.337777777777778e-05, "loss": 0.0002, "step": 5700 }, { "epoch": 9.5, "eval_accuracy": 0.8233333333333334, "eval_f1": 0.8227406294785573, "eval_loss": 1.2786237001419067, "eval_precision": 0.8607293141728131, "eval_recall": 0.8233333333333334, "eval_runtime": 18.3515, "eval_samples_per_second": 130.779, "eval_steps_per_second": 16.347, "step": 5700 }, { "epoch": 9.508333333333333, "grad_norm": 0.003784808097407222, "learning_rate": 7.326666666666667e-05, "loss": 0.0008, "step": 5705 }, { "epoch": 9.516666666666667, "grad_norm": 0.0007530453149229288, "learning_rate": 7.315555555555555e-05, "loss": 0.0002, "step": 5710 }, { "epoch": 9.525, "grad_norm": 0.0008318196050822735, "learning_rate": 7.304444444444445e-05, "loss": 0.0002, "step": 5715 }, { "epoch": 9.533333333333333, "grad_norm": 0.0007680055568926036, "learning_rate": 7.293333333333334e-05, "loss": 0.0002, "step": 5720 }, { "epoch": 9.541666666666666, "grad_norm": 0.0008074689540080726, "learning_rate": 7.282222222222222e-05, "loss": 0.0002, "step": 5725 }, { "epoch": 9.55, "grad_norm": 0.0008582723094150424, "learning_rate": 7.271111111111112e-05, "loss": 0.0002, "step": 5730 }, { "epoch": 9.558333333333334, "grad_norm": 0.0010530594736337662, "learning_rate": 7.26e-05, "loss": 0.0002, "step": 5735 }, { "epoch": 9.566666666666666, "grad_norm": 0.0009651319705881178, "learning_rate": 7.24888888888889e-05, "loss": 0.0002, "step": 5740 }, { "epoch": 9.575, "grad_norm": 0.0008767535910010338, "learning_rate": 7.237777777777777e-05, "loss": 0.0002, "step": 5745 }, { "epoch": 9.583333333333334, "grad_norm": 0.0006876476691104472, "learning_rate": 7.226666666666667e-05, "loss": 0.0002, "step": 5750 }, { "epoch": 9.591666666666667, "grad_norm": 0.0009580470505170524, "learning_rate": 7.215555555555556e-05, "loss": 0.0002, "step": 5755 }, { "epoch": 9.6, "grad_norm": 0.0010438320459797978, "learning_rate": 7.204444444444445e-05, "loss": 0.0002, "step": 5760 }, { "epoch": 9.608333333333333, "grad_norm": 0.0008343408117070794, "learning_rate": 7.193333333333334e-05, "loss": 0.0002, "step": 5765 }, { "epoch": 9.616666666666667, "grad_norm": 0.0007265022140927613, "learning_rate": 7.182222222222222e-05, "loss": 0.0002, "step": 5770 }, { "epoch": 9.625, "grad_norm": 0.016007952392101288, "learning_rate": 7.171111111111112e-05, "loss": 0.0002, "step": 5775 }, { "epoch": 9.633333333333333, "grad_norm": 0.0008638690342195332, "learning_rate": 7.16e-05, "loss": 0.0002, "step": 5780 }, { "epoch": 9.641666666666667, "grad_norm": 0.0007897046161815524, "learning_rate": 7.148888888888889e-05, "loss": 0.0002, "step": 5785 }, { "epoch": 9.65, "grad_norm": 0.005871389526873827, "learning_rate": 7.137777777777778e-05, "loss": 0.0002, "step": 5790 }, { "epoch": 9.658333333333333, "grad_norm": 0.0009566211956553161, "learning_rate": 7.126666666666667e-05, "loss": 0.0002, "step": 5795 }, { "epoch": 9.666666666666666, "grad_norm": 0.0009313467307947576, "learning_rate": 7.115555555555556e-05, "loss": 0.0002, "step": 5800 }, { "epoch": 9.666666666666666, "eval_accuracy": 0.8216666666666667, "eval_f1": 0.8209575308302461, "eval_loss": 1.2610738277435303, "eval_precision": 0.8576505825348333, "eval_recall": 0.8216666666666667, "eval_runtime": 18.0971, "eval_samples_per_second": 132.618, "eval_steps_per_second": 16.577, "step": 5800 }, { "epoch": 9.675, "grad_norm": 0.0007594567141495645, "learning_rate": 7.104444444444444e-05, "loss": 0.0002, "step": 5805 }, { "epoch": 9.683333333333334, "grad_norm": 0.0007839714526198804, "learning_rate": 7.093333333333334e-05, "loss": 0.0002, "step": 5810 }, { "epoch": 9.691666666666666, "grad_norm": 0.0009332532063126564, "learning_rate": 7.082222222222223e-05, "loss": 0.0002, "step": 5815 }, { "epoch": 9.7, "grad_norm": 0.0008868243312463164, "learning_rate": 7.071111111111111e-05, "loss": 0.0002, "step": 5820 }, { "epoch": 9.708333333333334, "grad_norm": 0.0007776845013722777, "learning_rate": 7.06e-05, "loss": 0.0002, "step": 5825 }, { "epoch": 9.716666666666667, "grad_norm": 0.0007733421516604722, "learning_rate": 7.048888888888889e-05, "loss": 0.0002, "step": 5830 }, { "epoch": 9.725, "grad_norm": 0.0009907345520332456, "learning_rate": 7.037777777777778e-05, "loss": 0.0002, "step": 5835 }, { "epoch": 9.733333333333333, "grad_norm": 0.0007281082798726857, "learning_rate": 7.026666666666668e-05, "loss": 0.0002, "step": 5840 }, { "epoch": 9.741666666666667, "grad_norm": 0.0009891972877085209, "learning_rate": 7.015555555555556e-05, "loss": 0.0002, "step": 5845 }, { "epoch": 9.75, "grad_norm": 0.002230957383289933, "learning_rate": 7.004444444444445e-05, "loss": 0.0002, "step": 5850 }, { "epoch": 9.758333333333333, "grad_norm": 0.0007820578175596893, "learning_rate": 6.993333333333334e-05, "loss": 0.0002, "step": 5855 }, { "epoch": 9.766666666666667, "grad_norm": 0.0006960494793020189, "learning_rate": 6.982222222222223e-05, "loss": 0.0002, "step": 5860 }, { "epoch": 9.775, "grad_norm": 0.0007643363205716014, "learning_rate": 6.971111111111111e-05, "loss": 0.0002, "step": 5865 }, { "epoch": 9.783333333333333, "grad_norm": 0.0006895543774589896, "learning_rate": 6.96e-05, "loss": 0.0002, "step": 5870 }, { "epoch": 9.791666666666666, "grad_norm": 0.0007149095763452351, "learning_rate": 6.94888888888889e-05, "loss": 0.0002, "step": 5875 }, { "epoch": 9.8, "grad_norm": 0.0007269998895935714, "learning_rate": 6.937777777777778e-05, "loss": 0.0002, "step": 5880 }, { "epoch": 9.808333333333334, "grad_norm": 0.0008266782970167696, "learning_rate": 6.926666666666667e-05, "loss": 0.0002, "step": 5885 }, { "epoch": 9.816666666666666, "grad_norm": 0.0007755840779282153, "learning_rate": 6.915555555555556e-05, "loss": 0.0002, "step": 5890 }, { "epoch": 9.825, "grad_norm": 0.0037971462588757277, "learning_rate": 6.904444444444445e-05, "loss": 0.0002, "step": 5895 }, { "epoch": 9.833333333333334, "grad_norm": 0.0006950185634195805, "learning_rate": 6.893333333333333e-05, "loss": 0.0002, "step": 5900 }, { "epoch": 9.833333333333334, "eval_accuracy": 0.82125, "eval_f1": 0.8206336162536201, "eval_loss": 1.2555683851242065, "eval_precision": 0.8567901791138409, "eval_recall": 0.82125, "eval_runtime": 18.5799, "eval_samples_per_second": 129.172, "eval_steps_per_second": 16.146, "step": 5900 }, { "epoch": 9.841666666666667, "grad_norm": 0.0007028293912298977, "learning_rate": 6.882222222222222e-05, "loss": 0.0002, "step": 5905 }, { "epoch": 9.85, "grad_norm": 0.0007872290443629026, "learning_rate": 6.871111111111112e-05, "loss": 0.0002, "step": 5910 }, { "epoch": 9.858333333333333, "grad_norm": 0.0009258424397557974, "learning_rate": 6.860000000000001e-05, "loss": 0.0002, "step": 5915 }, { "epoch": 9.866666666666667, "grad_norm": 0.0009778121020644903, "learning_rate": 6.848888888888889e-05, "loss": 0.0002, "step": 5920 }, { "epoch": 9.875, "grad_norm": 0.0006997496238909662, "learning_rate": 6.837777777777778e-05, "loss": 0.0002, "step": 5925 }, { "epoch": 9.883333333333333, "grad_norm": 0.0007326524355448782, "learning_rate": 6.826666666666667e-05, "loss": 0.0002, "step": 5930 }, { "epoch": 9.891666666666667, "grad_norm": 0.0007033259025774896, "learning_rate": 6.815555555555557e-05, "loss": 0.0002, "step": 5935 }, { "epoch": 9.9, "grad_norm": 0.006114003714174032, "learning_rate": 6.804444444444444e-05, "loss": 0.0002, "step": 5940 }, { "epoch": 9.908333333333333, "grad_norm": 0.001013890141621232, "learning_rate": 6.793333333333334e-05, "loss": 0.0002, "step": 5945 }, { "epoch": 9.916666666666666, "grad_norm": 0.0008536350796930492, "learning_rate": 6.782222222222222e-05, "loss": 0.0002, "step": 5950 }, { "epoch": 9.925, "grad_norm": 1.4337728023529053, "learning_rate": 6.771111111111112e-05, "loss": 0.0012, "step": 5955 }, { "epoch": 9.933333333333334, "grad_norm": 0.0007836073054932058, "learning_rate": 6.76e-05, "loss": 0.0002, "step": 5960 }, { "epoch": 9.941666666666666, "grad_norm": 0.0006535999709740281, "learning_rate": 6.748888888888889e-05, "loss": 0.0002, "step": 5965 }, { "epoch": 9.95, "grad_norm": 0.0008059216197580099, "learning_rate": 6.737777777777779e-05, "loss": 0.0002, "step": 5970 }, { "epoch": 9.958333333333334, "grad_norm": 0.0010298272827640176, "learning_rate": 6.726666666666667e-05, "loss": 0.0015, "step": 5975 }, { "epoch": 9.966666666666667, "grad_norm": 0.0008291558478958905, "learning_rate": 6.715555555555556e-05, "loss": 0.0002, "step": 5980 }, { "epoch": 9.975, "grad_norm": 0.0006247684941627085, "learning_rate": 6.704444444444444e-05, "loss": 0.0002, "step": 5985 }, { "epoch": 9.983333333333333, "grad_norm": 0.0008153562084771693, "learning_rate": 6.693333333333334e-05, "loss": 0.0002, "step": 5990 }, { "epoch": 9.991666666666667, "grad_norm": 0.0006969192181713879, "learning_rate": 6.682222222222224e-05, "loss": 0.0002, "step": 5995 }, { "epoch": 10.0, "grad_norm": 0.0007797215366736054, "learning_rate": 6.671111111111111e-05, "loss": 0.0002, "step": 6000 }, { "epoch": 10.0, "eval_accuracy": 0.8158333333333333, "eval_f1": 0.8157594583699, "eval_loss": 1.3472198247909546, "eval_precision": 0.8490918481954799, "eval_recall": 0.8158333333333333, "eval_runtime": 18.2507, "eval_samples_per_second": 131.502, "eval_steps_per_second": 16.438, "step": 6000 }, { "epoch": 10.008333333333333, "grad_norm": 0.0007617296651005745, "learning_rate": 6.66e-05, "loss": 0.0002, "step": 6005 }, { "epoch": 10.016666666666667, "grad_norm": 0.0006196133908815682, "learning_rate": 6.648888888888889e-05, "loss": 0.0002, "step": 6010 }, { "epoch": 10.025, "grad_norm": 0.0006404166924767196, "learning_rate": 6.637777777777779e-05, "loss": 0.0002, "step": 6015 }, { "epoch": 10.033333333333333, "grad_norm": 0.0007542711100541055, "learning_rate": 6.626666666666666e-05, "loss": 0.0002, "step": 6020 }, { "epoch": 10.041666666666666, "grad_norm": 0.0011842260137200356, "learning_rate": 6.615555555555556e-05, "loss": 0.0002, "step": 6025 }, { "epoch": 10.05, "grad_norm": 0.00120836915448308, "learning_rate": 6.604444444444444e-05, "loss": 0.0002, "step": 6030 }, { "epoch": 10.058333333333334, "grad_norm": 0.000822668254841119, "learning_rate": 6.593333333333334e-05, "loss": 0.0002, "step": 6035 }, { "epoch": 10.066666666666666, "grad_norm": 0.000639484147541225, "learning_rate": 6.582222222222223e-05, "loss": 0.0002, "step": 6040 }, { "epoch": 10.075, "grad_norm": 0.0008042759145610034, "learning_rate": 6.571111111111111e-05, "loss": 0.0002, "step": 6045 }, { "epoch": 10.083333333333334, "grad_norm": 0.0006389530026353896, "learning_rate": 6.560000000000001e-05, "loss": 0.0002, "step": 6050 }, { "epoch": 10.091666666666667, "grad_norm": 0.0005884898127987981, "learning_rate": 6.54888888888889e-05, "loss": 0.0002, "step": 6055 }, { "epoch": 10.1, "grad_norm": 0.0008616768755018711, "learning_rate": 6.537777777777778e-05, "loss": 0.0002, "step": 6060 }, { "epoch": 10.108333333333333, "grad_norm": 0.0007082959054969251, "learning_rate": 6.526666666666666e-05, "loss": 0.0002, "step": 6065 }, { "epoch": 10.116666666666667, "grad_norm": 0.0006776349036954343, "learning_rate": 6.515555555555556e-05, "loss": 0.0002, "step": 6070 }, { "epoch": 10.125, "grad_norm": 0.0006830878555774689, "learning_rate": 6.504444444444445e-05, "loss": 0.0002, "step": 6075 }, { "epoch": 10.133333333333333, "grad_norm": 0.0008772220462560654, "learning_rate": 6.493333333333333e-05, "loss": 0.0002, "step": 6080 }, { "epoch": 10.141666666666667, "grad_norm": 0.0006550228572450578, "learning_rate": 6.482222222222223e-05, "loss": 0.0002, "step": 6085 }, { "epoch": 10.15, "grad_norm": 0.0006468156934715807, "learning_rate": 6.471111111111111e-05, "loss": 0.0002, "step": 6090 }, { "epoch": 10.158333333333333, "grad_norm": 0.0010098794009536505, "learning_rate": 6.460000000000001e-05, "loss": 0.0002, "step": 6095 }, { "epoch": 10.166666666666666, "grad_norm": 0.0007428113603964448, "learning_rate": 6.448888888888888e-05, "loss": 0.0002, "step": 6100 }, { "epoch": 10.166666666666666, "eval_accuracy": 0.8175, "eval_f1": 0.8175606681481901, "eval_loss": 1.3344614505767822, "eval_precision": 0.8502218253306513, "eval_recall": 0.8175, "eval_runtime": 18.1317, "eval_samples_per_second": 132.365, "eval_steps_per_second": 16.546, "step": 6100 }, { "epoch": 10.175, "grad_norm": 0.0006367929745465517, "learning_rate": 6.437777777777778e-05, "loss": 0.0002, "step": 6105 }, { "epoch": 10.183333333333334, "grad_norm": 0.0013397249858826399, "learning_rate": 6.426666666666668e-05, "loss": 0.0002, "step": 6110 }, { "epoch": 10.191666666666666, "grad_norm": 0.0006182223442010581, "learning_rate": 6.415555555555556e-05, "loss": 0.0001, "step": 6115 }, { "epoch": 10.2, "grad_norm": 0.0007648523314855993, "learning_rate": 6.404444444444445e-05, "loss": 0.0002, "step": 6120 }, { "epoch": 10.208333333333334, "grad_norm": 0.0005947829340584576, "learning_rate": 6.393333333333333e-05, "loss": 0.0002, "step": 6125 }, { "epoch": 10.216666666666667, "grad_norm": 0.0007538155186921358, "learning_rate": 6.382222222222223e-05, "loss": 0.0002, "step": 6130 }, { "epoch": 10.225, "grad_norm": 0.0006668209680356085, "learning_rate": 6.371111111111112e-05, "loss": 0.0002, "step": 6135 }, { "epoch": 10.233333333333333, "grad_norm": 0.0006989166722632945, "learning_rate": 6.36e-05, "loss": 0.0001, "step": 6140 }, { "epoch": 10.241666666666667, "grad_norm": 0.001163683133199811, "learning_rate": 6.348888888888889e-05, "loss": 0.0002, "step": 6145 }, { "epoch": 10.25, "grad_norm": 0.000639254052657634, "learning_rate": 6.337777777777778e-05, "loss": 0.0001, "step": 6150 }, { "epoch": 10.258333333333333, "grad_norm": 0.0006209752173162997, "learning_rate": 6.326666666666667e-05, "loss": 0.0001, "step": 6155 }, { "epoch": 10.266666666666667, "grad_norm": 0.0006477818824350834, "learning_rate": 6.315555555555555e-05, "loss": 0.0001, "step": 6160 }, { "epoch": 10.275, "grad_norm": 0.0009242859086953104, "learning_rate": 6.304444444444445e-05, "loss": 0.0001, "step": 6165 }, { "epoch": 10.283333333333333, "grad_norm": 0.0006606071256101131, "learning_rate": 6.293333333333334e-05, "loss": 0.0001, "step": 6170 }, { "epoch": 10.291666666666666, "grad_norm": 0.0010548114078119397, "learning_rate": 6.282222222222222e-05, "loss": 0.0002, "step": 6175 }, { "epoch": 10.3, "grad_norm": 0.000713770801667124, "learning_rate": 6.27111111111111e-05, "loss": 0.0001, "step": 6180 }, { "epoch": 10.308333333333334, "grad_norm": 0.0005960146081633866, "learning_rate": 6.26e-05, "loss": 0.0001, "step": 6185 }, { "epoch": 10.316666666666666, "grad_norm": 0.0007829904789105058, "learning_rate": 6.24888888888889e-05, "loss": 0.0002, "step": 6190 }, { "epoch": 10.325, "grad_norm": 0.0006212044390849769, "learning_rate": 6.237777777777777e-05, "loss": 0.0001, "step": 6195 }, { "epoch": 10.333333333333334, "grad_norm": 0.0006882916204631329, "learning_rate": 6.226666666666667e-05, "loss": 0.0001, "step": 6200 }, { "epoch": 10.333333333333334, "eval_accuracy": 0.81875, "eval_f1": 0.8188315084769204, "eval_loss": 1.33660089969635, "eval_precision": 0.8511544113949212, "eval_recall": 0.81875, "eval_runtime": 18.572, "eval_samples_per_second": 129.227, "eval_steps_per_second": 16.153, "step": 6200 }, { "epoch": 10.341666666666667, "grad_norm": 0.0012351188343018293, "learning_rate": 6.215555555555556e-05, "loss": 0.0001, "step": 6205 }, { "epoch": 10.35, "grad_norm": 0.0006313659250736237, "learning_rate": 6.204444444444445e-05, "loss": 0.0001, "step": 6210 }, { "epoch": 10.358333333333333, "grad_norm": 0.0009024040191434324, "learning_rate": 6.193333333333333e-05, "loss": 0.0002, "step": 6215 }, { "epoch": 10.366666666666667, "grad_norm": 0.0005953456275165081, "learning_rate": 6.182222222222222e-05, "loss": 0.0001, "step": 6220 }, { "epoch": 10.375, "grad_norm": 0.0006905103218741715, "learning_rate": 6.171111111111112e-05, "loss": 0.0001, "step": 6225 }, { "epoch": 10.383333333333333, "grad_norm": 0.0007023761281743646, "learning_rate": 6.16e-05, "loss": 0.0001, "step": 6230 }, { "epoch": 10.391666666666667, "grad_norm": 0.0008684241329319775, "learning_rate": 6.148888888888889e-05, "loss": 0.0002, "step": 6235 }, { "epoch": 10.4, "grad_norm": 0.000651313632261008, "learning_rate": 6.137777777777778e-05, "loss": 0.0002, "step": 6240 }, { "epoch": 10.408333333333333, "grad_norm": 0.0005947950994595885, "learning_rate": 6.126666666666667e-05, "loss": 0.0001, "step": 6245 }, { "epoch": 10.416666666666666, "grad_norm": 0.0006660635117441416, "learning_rate": 6.115555555555556e-05, "loss": 0.0001, "step": 6250 }, { "epoch": 10.425, "grad_norm": 0.0005948302568867803, "learning_rate": 6.104444444444444e-05, "loss": 0.0001, "step": 6255 }, { "epoch": 10.433333333333334, "grad_norm": 0.000630512775387615, "learning_rate": 6.093333333333333e-05, "loss": 0.0001, "step": 6260 }, { "epoch": 10.441666666666666, "grad_norm": 0.0006161433993838727, "learning_rate": 6.0822222222222226e-05, "loss": 0.0001, "step": 6265 }, { "epoch": 10.45, "grad_norm": 0.0007753423997201025, "learning_rate": 6.071111111111112e-05, "loss": 0.0001, "step": 6270 }, { "epoch": 10.458333333333334, "grad_norm": 0.0006355245131999254, "learning_rate": 6.06e-05, "loss": 0.0001, "step": 6275 }, { "epoch": 10.466666666666667, "grad_norm": 0.0006601325003430247, "learning_rate": 6.0488888888888894e-05, "loss": 0.0001, "step": 6280 }, { "epoch": 10.475, "grad_norm": 0.0007268107146956027, "learning_rate": 6.037777777777778e-05, "loss": 0.0002, "step": 6285 }, { "epoch": 10.483333333333333, "grad_norm": 0.0007480881758965552, "learning_rate": 6.026666666666667e-05, "loss": 0.0001, "step": 6290 }, { "epoch": 10.491666666666667, "grad_norm": 0.0005992217920720577, "learning_rate": 6.0155555555555555e-05, "loss": 0.0001, "step": 6295 }, { "epoch": 10.5, "grad_norm": 0.0006052407552488148, "learning_rate": 6.0044444444444446e-05, "loss": 0.0001, "step": 6300 }, { "epoch": 10.5, "eval_accuracy": 0.8170833333333334, "eval_f1": 0.8174273754102424, "eval_loss": 1.3362832069396973, "eval_precision": 0.8496682479951491, "eval_recall": 0.8170833333333334, "eval_runtime": 18.359, "eval_samples_per_second": 130.726, "eval_steps_per_second": 16.341, "step": 6300 }, { "epoch": 10.508333333333333, "grad_norm": 0.0006618450279347599, "learning_rate": 5.9933333333333345e-05, "loss": 0.0002, "step": 6305 }, { "epoch": 10.516666666666667, "grad_norm": 0.0005847912980243564, "learning_rate": 5.982222222222222e-05, "loss": 0.0001, "step": 6310 }, { "epoch": 10.525, "grad_norm": 0.0006148474058136344, "learning_rate": 5.971111111111112e-05, "loss": 0.0001, "step": 6315 }, { "epoch": 10.533333333333333, "grad_norm": 0.0005697245942428708, "learning_rate": 5.96e-05, "loss": 0.0001, "step": 6320 }, { "epoch": 10.541666666666666, "grad_norm": 0.0006648455746471882, "learning_rate": 5.94888888888889e-05, "loss": 0.0001, "step": 6325 }, { "epoch": 10.55, "grad_norm": 0.0006106301443651319, "learning_rate": 5.9377777777777775e-05, "loss": 0.0001, "step": 6330 }, { "epoch": 10.558333333333334, "grad_norm": 0.0006070677773095667, "learning_rate": 5.926666666666667e-05, "loss": 0.0002, "step": 6335 }, { "epoch": 10.566666666666666, "grad_norm": 0.000765189528465271, "learning_rate": 5.915555555555555e-05, "loss": 0.0001, "step": 6340 }, { "epoch": 10.575, "grad_norm": 0.0006719662342220545, "learning_rate": 5.904444444444445e-05, "loss": 0.0001, "step": 6345 }, { "epoch": 10.583333333333334, "grad_norm": 0.0006646363763138652, "learning_rate": 5.893333333333334e-05, "loss": 0.0001, "step": 6350 }, { "epoch": 10.591666666666667, "grad_norm": 0.0007356636342592537, "learning_rate": 5.8822222222222225e-05, "loss": 0.0001, "step": 6355 }, { "epoch": 10.6, "grad_norm": 0.0007011078996583819, "learning_rate": 5.871111111111112e-05, "loss": 0.0001, "step": 6360 }, { "epoch": 10.608333333333333, "grad_norm": 0.0006038883002474904, "learning_rate": 5.86e-05, "loss": 0.0001, "step": 6365 }, { "epoch": 10.616666666666667, "grad_norm": 0.0005955101805739105, "learning_rate": 5.848888888888889e-05, "loss": 0.0001, "step": 6370 }, { "epoch": 10.625, "grad_norm": 0.000590805197134614, "learning_rate": 5.837777777777778e-05, "loss": 0.0001, "step": 6375 }, { "epoch": 10.633333333333333, "grad_norm": 0.0005425077397376299, "learning_rate": 5.826666666666667e-05, "loss": 0.0001, "step": 6380 }, { "epoch": 10.641666666666667, "grad_norm": 0.0006232214509509504, "learning_rate": 5.815555555555556e-05, "loss": 0.0001, "step": 6385 }, { "epoch": 10.65, "grad_norm": 0.0005686040967702866, "learning_rate": 5.8044444444444445e-05, "loss": 0.0001, "step": 6390 }, { "epoch": 10.658333333333333, "grad_norm": 0.000545601942576468, "learning_rate": 5.7933333333333337e-05, "loss": 0.0001, "step": 6395 }, { "epoch": 10.666666666666666, "grad_norm": 0.0005896830116398633, "learning_rate": 5.782222222222222e-05, "loss": 0.0001, "step": 6400 }, { "epoch": 10.666666666666666, "eval_accuracy": 0.8195833333333333, "eval_f1": 0.8198337477570065, "eval_loss": 1.333965539932251, "eval_precision": 0.8516525839051599, "eval_recall": 0.8195833333333333, "eval_runtime": 18.257, "eval_samples_per_second": 131.457, "eval_steps_per_second": 16.432, "step": 6400 }, { "epoch": 10.675, "grad_norm": 0.000576981226913631, "learning_rate": 5.771111111111111e-05, "loss": 0.0001, "step": 6405 }, { "epoch": 10.683333333333334, "grad_norm": 0.0005057179951108992, "learning_rate": 5.76e-05, "loss": 0.0001, "step": 6410 }, { "epoch": 10.691666666666666, "grad_norm": 0.0006342566339299083, "learning_rate": 5.748888888888889e-05, "loss": 0.0001, "step": 6415 }, { "epoch": 10.7, "grad_norm": 0.000593676115386188, "learning_rate": 5.737777777777779e-05, "loss": 0.0001, "step": 6420 }, { "epoch": 10.708333333333334, "grad_norm": 0.0006453676032833755, "learning_rate": 5.726666666666667e-05, "loss": 0.0001, "step": 6425 }, { "epoch": 10.716666666666667, "grad_norm": 0.0007206158479675651, "learning_rate": 5.715555555555556e-05, "loss": 0.0001, "step": 6430 }, { "epoch": 10.725, "grad_norm": 0.0005986125324852765, "learning_rate": 5.704444444444445e-05, "loss": 0.0001, "step": 6435 }, { "epoch": 10.733333333333333, "grad_norm": 0.0006063361652195454, "learning_rate": 5.693333333333334e-05, "loss": 0.0001, "step": 6440 }, { "epoch": 10.741666666666667, "grad_norm": 0.0005408660508692265, "learning_rate": 5.6822222222222224e-05, "loss": 0.0001, "step": 6445 }, { "epoch": 10.75, "grad_norm": 0.000554003519937396, "learning_rate": 5.6711111111111116e-05, "loss": 0.0003, "step": 6450 }, { "epoch": 10.758333333333333, "grad_norm": 0.0005553930532187223, "learning_rate": 5.66e-05, "loss": 0.0001, "step": 6455 }, { "epoch": 10.766666666666667, "grad_norm": 0.0009742838446982205, "learning_rate": 5.648888888888889e-05, "loss": 0.0001, "step": 6460 }, { "epoch": 10.775, "grad_norm": 0.0006966202636249363, "learning_rate": 5.637777777777778e-05, "loss": 0.0001, "step": 6465 }, { "epoch": 10.783333333333333, "grad_norm": 0.0005736821913160384, "learning_rate": 5.626666666666667e-05, "loss": 0.0001, "step": 6470 }, { "epoch": 10.791666666666666, "grad_norm": 0.0005368809797801077, "learning_rate": 5.615555555555556e-05, "loss": 0.0001, "step": 6475 }, { "epoch": 10.8, "grad_norm": 0.0006695727934129536, "learning_rate": 5.6044444444444444e-05, "loss": 0.0001, "step": 6480 }, { "epoch": 10.808333333333334, "grad_norm": 0.000537110841833055, "learning_rate": 5.5933333333333335e-05, "loss": 0.0001, "step": 6485 }, { "epoch": 10.816666666666666, "grad_norm": 0.0005455692880786955, "learning_rate": 5.582222222222222e-05, "loss": 0.0001, "step": 6490 }, { "epoch": 10.825, "grad_norm": 0.008493797853589058, "learning_rate": 5.571111111111111e-05, "loss": 0.0001, "step": 6495 }, { "epoch": 10.833333333333334, "grad_norm": 0.0006584751536138356, "learning_rate": 5.560000000000001e-05, "loss": 0.0001, "step": 6500 }, { "epoch": 10.833333333333334, "eval_accuracy": 0.8233333333333334, "eval_f1": 0.8243244361165576, "eval_loss": 1.3657629489898682, "eval_precision": 0.859284613951612, "eval_recall": 0.8233333333333334, "eval_runtime": 18.2975, "eval_samples_per_second": 131.165, "eval_steps_per_second": 16.396, "step": 6500 }, { "epoch": 10.841666666666667, "grad_norm": 0.0006145316874608397, "learning_rate": 5.548888888888889e-05, "loss": 0.0001, "step": 6505 }, { "epoch": 10.85, "grad_norm": 0.0005247116787359118, "learning_rate": 5.5377777777777786e-05, "loss": 0.0001, "step": 6510 }, { "epoch": 10.858333333333333, "grad_norm": 0.0007184727001003921, "learning_rate": 5.5266666666666664e-05, "loss": 0.0001, "step": 6515 }, { "epoch": 10.866666666666667, "grad_norm": 0.0005957568064332008, "learning_rate": 5.515555555555556e-05, "loss": 0.0001, "step": 6520 }, { "epoch": 10.875, "grad_norm": 0.0006277114152908325, "learning_rate": 5.504444444444444e-05, "loss": 0.0001, "step": 6525 }, { "epoch": 10.883333333333333, "grad_norm": 0.0014081740519031882, "learning_rate": 5.493333333333334e-05, "loss": 0.0001, "step": 6530 }, { "epoch": 10.891666666666667, "grad_norm": 0.0005116913234815001, "learning_rate": 5.482222222222223e-05, "loss": 0.0001, "step": 6535 }, { "epoch": 10.9, "grad_norm": 0.0005332265864126384, "learning_rate": 5.4711111111111114e-05, "loss": 0.0001, "step": 6540 }, { "epoch": 10.908333333333333, "grad_norm": 0.0005375162581913173, "learning_rate": 5.4600000000000006e-05, "loss": 0.0001, "step": 6545 }, { "epoch": 10.916666666666666, "grad_norm": 0.0005599938449449837, "learning_rate": 5.448888888888889e-05, "loss": 0.0001, "step": 6550 }, { "epoch": 10.925, "grad_norm": 0.0004985817358829081, "learning_rate": 5.437777777777778e-05, "loss": 0.0001, "step": 6555 }, { "epoch": 10.933333333333334, "grad_norm": 0.0005920694675296545, "learning_rate": 5.4266666666666667e-05, "loss": 0.0001, "step": 6560 }, { "epoch": 10.941666666666666, "grad_norm": 0.0005402617971412838, "learning_rate": 5.415555555555556e-05, "loss": 0.0001, "step": 6565 }, { "epoch": 10.95, "grad_norm": 0.0005805408582091331, "learning_rate": 5.404444444444444e-05, "loss": 0.0001, "step": 6570 }, { "epoch": 10.958333333333334, "grad_norm": 0.0004932158626616001, "learning_rate": 5.3933333333333334e-05, "loss": 0.0001, "step": 6575 }, { "epoch": 10.966666666666667, "grad_norm": 0.0005690606776624918, "learning_rate": 5.382222222222223e-05, "loss": 0.0001, "step": 6580 }, { "epoch": 10.975, "grad_norm": 0.0005123337032273412, "learning_rate": 5.371111111111111e-05, "loss": 0.0001, "step": 6585 }, { "epoch": 10.983333333333333, "grad_norm": 0.0005926656303927302, "learning_rate": 5.360000000000001e-05, "loss": 0.0001, "step": 6590 }, { "epoch": 10.991666666666667, "grad_norm": 0.0005818104255013168, "learning_rate": 5.3488888888888886e-05, "loss": 0.0001, "step": 6595 }, { "epoch": 11.0, "grad_norm": 0.0005826727137900889, "learning_rate": 5.3377777777777785e-05, "loss": 0.0001, "step": 6600 }, { "epoch": 11.0, "eval_accuracy": 0.82375, "eval_f1": 0.8247022657658046, "eval_loss": 1.370850682258606, "eval_precision": 0.8595431665492219, "eval_recall": 0.82375, "eval_runtime": 18.175, "eval_samples_per_second": 132.05, "eval_steps_per_second": 16.506, "step": 6600 }, { "epoch": 11.008333333333333, "grad_norm": 0.0004514521569944918, "learning_rate": 5.326666666666666e-05, "loss": 0.0001, "step": 6605 }, { "epoch": 11.016666666666667, "grad_norm": 0.0004834923311136663, "learning_rate": 5.315555555555556e-05, "loss": 0.0001, "step": 6610 }, { "epoch": 11.025, "grad_norm": 0.0005325529491528869, "learning_rate": 5.304444444444445e-05, "loss": 0.0001, "step": 6615 }, { "epoch": 11.033333333333333, "grad_norm": 0.0010346847120672464, "learning_rate": 5.293333333333334e-05, "loss": 0.0001, "step": 6620 }, { "epoch": 11.041666666666666, "grad_norm": 0.0005535251111723483, "learning_rate": 5.282222222222223e-05, "loss": 0.0001, "step": 6625 }, { "epoch": 11.05, "grad_norm": 0.0005177569109946489, "learning_rate": 5.271111111111111e-05, "loss": 0.0001, "step": 6630 }, { "epoch": 11.058333333333334, "grad_norm": 0.0006657259073108435, "learning_rate": 5.2600000000000005e-05, "loss": 0.0001, "step": 6635 }, { "epoch": 11.066666666666666, "grad_norm": 0.0005323018995113671, "learning_rate": 5.248888888888889e-05, "loss": 0.0001, "step": 6640 }, { "epoch": 11.075, "grad_norm": 0.000503746559843421, "learning_rate": 5.237777777777778e-05, "loss": 0.0001, "step": 6645 }, { "epoch": 11.083333333333334, "grad_norm": 0.00046736374497413635, "learning_rate": 5.2266666666666665e-05, "loss": 0.0001, "step": 6650 }, { "epoch": 11.091666666666667, "grad_norm": 0.0005175730329938233, "learning_rate": 5.215555555555556e-05, "loss": 0.0001, "step": 6655 }, { "epoch": 11.1, "grad_norm": 0.0005206156056374311, "learning_rate": 5.204444444444445e-05, "loss": 0.0001, "step": 6660 }, { "epoch": 11.108333333333333, "grad_norm": 0.00045403940021060407, "learning_rate": 5.193333333333333e-05, "loss": 0.0001, "step": 6665 }, { "epoch": 11.116666666666667, "grad_norm": 0.0006261487142182887, "learning_rate": 5.1822222222222224e-05, "loss": 0.0001, "step": 6670 }, { "epoch": 11.125, "grad_norm": 0.000699338037520647, "learning_rate": 5.171111111111111e-05, "loss": 0.0001, "step": 6675 }, { "epoch": 11.133333333333333, "grad_norm": 0.0005187708884477615, "learning_rate": 5.16e-05, "loss": 0.0001, "step": 6680 }, { "epoch": 11.141666666666667, "grad_norm": 0.00043869149521924555, "learning_rate": 5.1488888888888885e-05, "loss": 0.0001, "step": 6685 }, { "epoch": 11.15, "grad_norm": 0.00047371553955599666, "learning_rate": 5.1377777777777784e-05, "loss": 0.0001, "step": 6690 }, { "epoch": 11.158333333333333, "grad_norm": 0.0005079036927781999, "learning_rate": 5.1266666666666675e-05, "loss": 0.0001, "step": 6695 }, { "epoch": 11.166666666666666, "grad_norm": 0.0006647506961598992, "learning_rate": 5.115555555555556e-05, "loss": 0.0001, "step": 6700 }, { "epoch": 11.166666666666666, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8249192951849192, "eval_loss": 1.3651756048202515, "eval_precision": 0.8585005306466523, "eval_recall": 0.8241666666666667, "eval_runtime": 18.1971, "eval_samples_per_second": 131.889, "eval_steps_per_second": 16.486, "step": 6700 }, { "epoch": 11.175, "grad_norm": 0.0005561176803894341, "learning_rate": 5.104444444444445e-05, "loss": 0.0001, "step": 6705 }, { "epoch": 11.183333333333334, "grad_norm": 0.000727316364645958, "learning_rate": 5.0933333333333336e-05, "loss": 0.0001, "step": 6710 }, { "epoch": 11.191666666666666, "grad_norm": 0.00056845584185794, "learning_rate": 5.082222222222223e-05, "loss": 0.0001, "step": 6715 }, { "epoch": 11.2, "grad_norm": 0.0005078176036477089, "learning_rate": 5.071111111111111e-05, "loss": 0.0001, "step": 6720 }, { "epoch": 11.208333333333334, "grad_norm": 0.0005057771923020482, "learning_rate": 5.0600000000000003e-05, "loss": 0.0001, "step": 6725 }, { "epoch": 11.216666666666667, "grad_norm": 0.000508237280882895, "learning_rate": 5.0488888888888895e-05, "loss": 0.0001, "step": 6730 }, { "epoch": 11.225, "grad_norm": 0.0005523670697584748, "learning_rate": 5.037777777777778e-05, "loss": 0.0001, "step": 6735 }, { "epoch": 11.233333333333333, "grad_norm": 0.0006332244374789298, "learning_rate": 5.026666666666667e-05, "loss": 0.0001, "step": 6740 }, { "epoch": 11.241666666666667, "grad_norm": 0.0004733493260573596, "learning_rate": 5.0155555555555556e-05, "loss": 0.0001, "step": 6745 }, { "epoch": 11.25, "grad_norm": 0.0005050125764682889, "learning_rate": 5.004444444444445e-05, "loss": 0.0001, "step": 6750 }, { "epoch": 11.258333333333333, "grad_norm": 0.00045458023669198155, "learning_rate": 4.993333333333334e-05, "loss": 0.0001, "step": 6755 }, { "epoch": 11.266666666666667, "grad_norm": 0.0005489554605446756, "learning_rate": 4.982222222222222e-05, "loss": 0.0001, "step": 6760 }, { "epoch": 11.275, "grad_norm": 0.0005050277686677873, "learning_rate": 4.9711111111111115e-05, "loss": 0.0001, "step": 6765 }, { "epoch": 11.283333333333333, "grad_norm": 0.0005804018001072109, "learning_rate": 4.96e-05, "loss": 0.0001, "step": 6770 }, { "epoch": 11.291666666666666, "grad_norm": 0.000498745299410075, "learning_rate": 4.948888888888889e-05, "loss": 0.0001, "step": 6775 }, { "epoch": 11.3, "grad_norm": 0.0006867604097351432, "learning_rate": 4.9377777777777776e-05, "loss": 0.0001, "step": 6780 }, { "epoch": 11.308333333333334, "grad_norm": 0.0005235482240095735, "learning_rate": 4.926666666666667e-05, "loss": 0.0001, "step": 6785 }, { "epoch": 11.316666666666666, "grad_norm": 0.00045795037294737995, "learning_rate": 4.915555555555556e-05, "loss": 0.0001, "step": 6790 }, { "epoch": 11.325, "grad_norm": 0.0005321766366250813, "learning_rate": 4.904444444444445e-05, "loss": 0.0001, "step": 6795 }, { "epoch": 11.333333333333334, "grad_norm": 0.0005057633970864117, "learning_rate": 4.8933333333333335e-05, "loss": 0.0001, "step": 6800 }, { "epoch": 11.333333333333334, "eval_accuracy": 0.825, "eval_f1": 0.825813832978926, "eval_loss": 1.3702805042266846, "eval_precision": 0.8594348394087512, "eval_recall": 0.825, "eval_runtime": 18.3764, "eval_samples_per_second": 130.603, "eval_steps_per_second": 16.325, "step": 6800 }, { "epoch": 11.341666666666667, "grad_norm": 0.0005611376836895943, "learning_rate": 4.8822222222222226e-05, "loss": 0.0001, "step": 6805 }, { "epoch": 11.35, "grad_norm": 0.0004955355543643236, "learning_rate": 4.871111111111111e-05, "loss": 0.0001, "step": 6810 }, { "epoch": 11.358333333333333, "grad_norm": 0.00048431981122121215, "learning_rate": 4.86e-05, "loss": 0.0001, "step": 6815 }, { "epoch": 11.366666666666667, "grad_norm": 0.0004591705510392785, "learning_rate": 4.848888888888889e-05, "loss": 0.0001, "step": 6820 }, { "epoch": 11.375, "grad_norm": 0.008771992288529873, "learning_rate": 4.837777777777778e-05, "loss": 0.0001, "step": 6825 }, { "epoch": 11.383333333333333, "grad_norm": 0.0005253329873085022, "learning_rate": 4.826666666666667e-05, "loss": 0.0001, "step": 6830 }, { "epoch": 11.391666666666667, "grad_norm": 0.00046361968270502985, "learning_rate": 4.815555555555556e-05, "loss": 0.0001, "step": 6835 }, { "epoch": 11.4, "grad_norm": 0.0005164684844203293, "learning_rate": 4.8044444444444446e-05, "loss": 0.0001, "step": 6840 }, { "epoch": 11.408333333333333, "grad_norm": 0.0006900911103002727, "learning_rate": 4.793333333333334e-05, "loss": 0.0001, "step": 6845 }, { "epoch": 11.416666666666666, "grad_norm": 0.0004773307591676712, "learning_rate": 4.782222222222222e-05, "loss": 0.0001, "step": 6850 }, { "epoch": 11.425, "grad_norm": 0.0008057226659730077, "learning_rate": 4.7711111111111114e-05, "loss": 0.0001, "step": 6855 }, { "epoch": 11.433333333333334, "grad_norm": 0.0005682262708432972, "learning_rate": 4.76e-05, "loss": 0.0001, "step": 6860 }, { "epoch": 11.441666666666666, "grad_norm": 0.0005307867540977895, "learning_rate": 4.7488888888888897e-05, "loss": 0.0001, "step": 6865 }, { "epoch": 11.45, "grad_norm": 0.0005404683761298656, "learning_rate": 4.737777777777778e-05, "loss": 0.0001, "step": 6870 }, { "epoch": 11.458333333333334, "grad_norm": 0.0006801317795179784, "learning_rate": 4.726666666666667e-05, "loss": 0.0001, "step": 6875 }, { "epoch": 11.466666666666667, "grad_norm": 0.0005148720811121166, "learning_rate": 4.715555555555556e-05, "loss": 0.0001, "step": 6880 }, { "epoch": 11.475, "grad_norm": 0.0005836860509589314, "learning_rate": 4.704444444444445e-05, "loss": 0.0001, "step": 6885 }, { "epoch": 11.483333333333333, "grad_norm": 0.0004738565185107291, "learning_rate": 4.6933333333333333e-05, "loss": 0.0001, "step": 6890 }, { "epoch": 11.491666666666667, "grad_norm": 0.0005394300096668303, "learning_rate": 4.6822222222222225e-05, "loss": 0.0001, "step": 6895 }, { "epoch": 11.5, "grad_norm": 0.0005076228408142924, "learning_rate": 4.671111111111111e-05, "loss": 0.0001, "step": 6900 }, { "epoch": 11.5, "eval_accuracy": 0.82375, "eval_f1": 0.8246575644970386, "eval_loss": 1.375512719154358, "eval_precision": 0.8578869878676261, "eval_recall": 0.82375, "eval_runtime": 18.5655, "eval_samples_per_second": 129.272, "eval_steps_per_second": 16.159, "step": 6900 }, { "epoch": 11.508333333333333, "grad_norm": 0.000661301426589489, "learning_rate": 4.660000000000001e-05, "loss": 0.0001, "step": 6905 }, { "epoch": 11.516666666666667, "grad_norm": 0.0004380093887448311, "learning_rate": 4.648888888888889e-05, "loss": 0.0001, "step": 6910 }, { "epoch": 11.525, "grad_norm": 0.000526891672052443, "learning_rate": 4.6377777777777784e-05, "loss": 0.0001, "step": 6915 }, { "epoch": 11.533333333333333, "grad_norm": 0.0004979672958143055, "learning_rate": 4.626666666666667e-05, "loss": 0.0001, "step": 6920 }, { "epoch": 11.541666666666666, "grad_norm": 0.0006162117351777852, "learning_rate": 4.615555555555556e-05, "loss": 0.0001, "step": 6925 }, { "epoch": 11.55, "grad_norm": 0.0004308745847083628, "learning_rate": 4.6044444444444445e-05, "loss": 0.0001, "step": 6930 }, { "epoch": 11.558333333333334, "grad_norm": 0.00048256973968818784, "learning_rate": 4.5933333333333336e-05, "loss": 0.0001, "step": 6935 }, { "epoch": 11.566666666666666, "grad_norm": 0.0008367598638869822, "learning_rate": 4.582222222222222e-05, "loss": 0.0001, "step": 6940 }, { "epoch": 11.575, "grad_norm": 0.0005378990317694843, "learning_rate": 4.571111111111111e-05, "loss": 0.0001, "step": 6945 }, { "epoch": 11.583333333333334, "grad_norm": 0.0005166303599253297, "learning_rate": 4.5600000000000004e-05, "loss": 0.0001, "step": 6950 }, { "epoch": 11.591666666666667, "grad_norm": 0.0004492754233069718, "learning_rate": 4.5488888888888895e-05, "loss": 0.0001, "step": 6955 }, { "epoch": 11.6, "grad_norm": 0.0004306653281673789, "learning_rate": 4.537777777777778e-05, "loss": 0.0001, "step": 6960 }, { "epoch": 11.608333333333333, "grad_norm": 0.0004940804792568088, "learning_rate": 4.526666666666667e-05, "loss": 0.0001, "step": 6965 }, { "epoch": 11.616666666666667, "grad_norm": 0.00042793419561348855, "learning_rate": 4.5155555555555556e-05, "loss": 0.0001, "step": 6970 }, { "epoch": 11.625, "grad_norm": 0.00043160433415323496, "learning_rate": 4.504444444444445e-05, "loss": 0.0001, "step": 6975 }, { "epoch": 11.633333333333333, "grad_norm": 0.00043123855721205473, "learning_rate": 4.493333333333333e-05, "loss": 0.0001, "step": 6980 }, { "epoch": 11.641666666666667, "grad_norm": 0.0005215457640588284, "learning_rate": 4.4822222222222224e-05, "loss": 0.0001, "step": 6985 }, { "epoch": 11.65, "grad_norm": 0.00042495355592109263, "learning_rate": 4.4711111111111115e-05, "loss": 0.0001, "step": 6990 }, { "epoch": 11.658333333333333, "grad_norm": 0.00046995599404908717, "learning_rate": 4.46e-05, "loss": 0.0001, "step": 6995 }, { "epoch": 11.666666666666666, "grad_norm": 0.0004837663727812469, "learning_rate": 4.448888888888889e-05, "loss": 0.0001, "step": 7000 }, { "epoch": 11.666666666666666, "eval_accuracy": 0.82375, "eval_f1": 0.8246575644970386, "eval_loss": 1.3780838251113892, "eval_precision": 0.8578869878676261, "eval_recall": 0.82375, "eval_runtime": 18.2745, "eval_samples_per_second": 131.331, "eval_steps_per_second": 16.416, "step": 7000 }, { "epoch": 11.675, "grad_norm": 0.0006574945291504264, "learning_rate": 4.4377777777777776e-05, "loss": 0.0001, "step": 7005 }, { "epoch": 11.683333333333334, "grad_norm": 0.00042309716809540987, "learning_rate": 4.426666666666667e-05, "loss": 0.0001, "step": 7010 }, { "epoch": 11.691666666666666, "grad_norm": 0.0006367659079842269, "learning_rate": 4.415555555555556e-05, "loss": 0.0001, "step": 7015 }, { "epoch": 11.7, "grad_norm": 0.00046530095278285444, "learning_rate": 4.404444444444445e-05, "loss": 0.0001, "step": 7020 }, { "epoch": 11.708333333333334, "grad_norm": 0.00047611366608180106, "learning_rate": 4.3933333333333335e-05, "loss": 0.0001, "step": 7025 }, { "epoch": 11.716666666666667, "grad_norm": 0.0007362097385339439, "learning_rate": 4.3822222222222227e-05, "loss": 0.0001, "step": 7030 }, { "epoch": 11.725, "grad_norm": 0.0006020494038239121, "learning_rate": 4.371111111111111e-05, "loss": 0.0001, "step": 7035 }, { "epoch": 11.733333333333333, "grad_norm": 0.000432642555097118, "learning_rate": 4.36e-05, "loss": 0.0001, "step": 7040 }, { "epoch": 11.741666666666667, "grad_norm": 0.0004198742099106312, "learning_rate": 4.348888888888889e-05, "loss": 0.0001, "step": 7045 }, { "epoch": 11.75, "grad_norm": 0.0005722015048377216, "learning_rate": 4.337777777777778e-05, "loss": 0.0001, "step": 7050 }, { "epoch": 11.758333333333333, "grad_norm": 0.0006349142058752477, "learning_rate": 4.3266666666666664e-05, "loss": 0.0001, "step": 7055 }, { "epoch": 11.766666666666667, "grad_norm": 0.000593913602642715, "learning_rate": 4.315555555555556e-05, "loss": 0.0001, "step": 7060 }, { "epoch": 11.775, "grad_norm": 0.0004960476071573794, "learning_rate": 4.3044444444444446e-05, "loss": 0.0001, "step": 7065 }, { "epoch": 11.783333333333333, "grad_norm": 0.0003962348564527929, "learning_rate": 4.293333333333334e-05, "loss": 0.0001, "step": 7070 }, { "epoch": 11.791666666666666, "grad_norm": 0.001308353035710752, "learning_rate": 4.282222222222222e-05, "loss": 0.0001, "step": 7075 }, { "epoch": 11.8, "grad_norm": 0.000508679891936481, "learning_rate": 4.2711111111111114e-05, "loss": 0.0001, "step": 7080 }, { "epoch": 11.808333333333334, "grad_norm": 0.0005883373669348657, "learning_rate": 4.26e-05, "loss": 0.0001, "step": 7085 }, { "epoch": 11.816666666666666, "grad_norm": 0.0004262687871232629, "learning_rate": 4.248888888888889e-05, "loss": 0.0001, "step": 7090 }, { "epoch": 11.825, "grad_norm": 0.00044181750854477286, "learning_rate": 4.2377777777777775e-05, "loss": 0.0001, "step": 7095 }, { "epoch": 11.833333333333334, "grad_norm": 0.000545486225746572, "learning_rate": 4.226666666666667e-05, "loss": 0.0001, "step": 7100 }, { "epoch": 11.833333333333334, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.825082442596489, "eval_loss": 1.3811156749725342, "eval_precision": 0.8582104159930615, "eval_recall": 0.8241666666666667, "eval_runtime": 18.5128, "eval_samples_per_second": 129.64, "eval_steps_per_second": 16.205, "step": 7100 }, { "epoch": 11.841666666666667, "grad_norm": 0.00046239650691859424, "learning_rate": 4.215555555555556e-05, "loss": 0.0001, "step": 7105 }, { "epoch": 11.85, "grad_norm": 0.0005156578845344484, "learning_rate": 4.204444444444445e-05, "loss": 0.0001, "step": 7110 }, { "epoch": 11.858333333333333, "grad_norm": 0.00041606329614296556, "learning_rate": 4.1933333333333334e-05, "loss": 0.0001, "step": 7115 }, { "epoch": 11.866666666666667, "grad_norm": 0.0005161067238077521, "learning_rate": 4.1822222222222225e-05, "loss": 0.0001, "step": 7120 }, { "epoch": 11.875, "grad_norm": 0.00043923084740526974, "learning_rate": 4.171111111111111e-05, "loss": 0.0001, "step": 7125 }, { "epoch": 11.883333333333333, "grad_norm": 0.00043223632383160293, "learning_rate": 4.16e-05, "loss": 0.0001, "step": 7130 }, { "epoch": 11.891666666666667, "grad_norm": 0.00047290624934248626, "learning_rate": 4.1488888888888886e-05, "loss": 0.0001, "step": 7135 }, { "epoch": 11.9, "grad_norm": 0.00046254624612629414, "learning_rate": 4.1377777777777784e-05, "loss": 0.0001, "step": 7140 }, { "epoch": 11.908333333333333, "grad_norm": 0.0005742640933021903, "learning_rate": 4.126666666666667e-05, "loss": 0.0001, "step": 7145 }, { "epoch": 11.916666666666666, "grad_norm": 0.00060677231522277, "learning_rate": 4.115555555555556e-05, "loss": 0.0001, "step": 7150 }, { "epoch": 11.925, "grad_norm": 0.0004509868158493191, "learning_rate": 4.1044444444444445e-05, "loss": 0.0001, "step": 7155 }, { "epoch": 11.933333333333334, "grad_norm": 0.0004459586925804615, "learning_rate": 4.093333333333334e-05, "loss": 0.0001, "step": 7160 }, { "epoch": 11.941666666666666, "grad_norm": 0.00043453648686408997, "learning_rate": 4.082222222222222e-05, "loss": 0.0001, "step": 7165 }, { "epoch": 11.95, "grad_norm": 0.00044679277925752103, "learning_rate": 4.071111111111111e-05, "loss": 0.0001, "step": 7170 }, { "epoch": 11.958333333333334, "grad_norm": 0.0004192161140963435, "learning_rate": 4.0600000000000004e-05, "loss": 0.0001, "step": 7175 }, { "epoch": 11.966666666666667, "grad_norm": 0.0004325911868363619, "learning_rate": 4.0488888888888896e-05, "loss": 0.0001, "step": 7180 }, { "epoch": 11.975, "grad_norm": 0.0005940438713878393, "learning_rate": 4.037777777777778e-05, "loss": 0.0001, "step": 7185 }, { "epoch": 11.983333333333333, "grad_norm": 0.00045917037641629577, "learning_rate": 4.026666666666667e-05, "loss": 0.0001, "step": 7190 }, { "epoch": 11.991666666666667, "grad_norm": 0.0008869346929714084, "learning_rate": 4.0155555555555557e-05, "loss": 0.0001, "step": 7195 }, { "epoch": 12.0, "grad_norm": 0.000449428305728361, "learning_rate": 4.004444444444445e-05, "loss": 0.0001, "step": 7200 }, { "epoch": 12.0, "eval_accuracy": 0.82375, "eval_f1": 0.8247237857591991, "eval_loss": 1.3851231336593628, "eval_precision": 0.8577923262103732, "eval_recall": 0.82375, "eval_runtime": 18.426, "eval_samples_per_second": 130.25, "eval_steps_per_second": 16.281, "step": 7200 }, { "epoch": 12.008333333333333, "grad_norm": 0.00041375099681317806, "learning_rate": 3.993333333333333e-05, "loss": 0.0001, "step": 7205 }, { "epoch": 12.016666666666667, "grad_norm": 0.00044174189679324627, "learning_rate": 3.9822222222222224e-05, "loss": 0.0001, "step": 7210 }, { "epoch": 12.025, "grad_norm": 0.000941599952057004, "learning_rate": 3.9711111111111116e-05, "loss": 0.0001, "step": 7215 }, { "epoch": 12.033333333333333, "grad_norm": 0.00045322091318666935, "learning_rate": 3.960000000000001e-05, "loss": 0.0001, "step": 7220 }, { "epoch": 12.041666666666666, "grad_norm": 0.0006815177039243281, "learning_rate": 3.948888888888889e-05, "loss": 0.0001, "step": 7225 }, { "epoch": 12.05, "grad_norm": 0.0009934775298461318, "learning_rate": 3.937777777777778e-05, "loss": 0.0001, "step": 7230 }, { "epoch": 12.058333333333334, "grad_norm": 0.00040556403109803796, "learning_rate": 3.926666666666667e-05, "loss": 0.0001, "step": 7235 }, { "epoch": 12.066666666666666, "grad_norm": 0.00040209112921729684, "learning_rate": 3.915555555555556e-05, "loss": 0.0001, "step": 7240 }, { "epoch": 12.075, "grad_norm": 0.0005132457590661943, "learning_rate": 3.9044444444444444e-05, "loss": 0.0001, "step": 7245 }, { "epoch": 12.083333333333334, "grad_norm": 0.0005364056560210884, "learning_rate": 3.8933333333333336e-05, "loss": 0.0001, "step": 7250 }, { "epoch": 12.091666666666667, "grad_norm": 0.0006670449511148036, "learning_rate": 3.882222222222223e-05, "loss": 0.0001, "step": 7255 }, { "epoch": 12.1, "grad_norm": 0.0003928669902961701, "learning_rate": 3.871111111111111e-05, "loss": 0.0001, "step": 7260 }, { "epoch": 12.108333333333333, "grad_norm": 0.000700164760928601, "learning_rate": 3.86e-05, "loss": 0.0001, "step": 7265 }, { "epoch": 12.116666666666667, "grad_norm": 0.0004022257053293288, "learning_rate": 3.848888888888889e-05, "loss": 0.0001, "step": 7270 }, { "epoch": 12.125, "grad_norm": 0.0003731944307219237, "learning_rate": 3.837777777777778e-05, "loss": 0.0001, "step": 7275 }, { "epoch": 12.133333333333333, "grad_norm": 0.00044076054473407567, "learning_rate": 3.8266666666666664e-05, "loss": 0.0001, "step": 7280 }, { "epoch": 12.141666666666667, "grad_norm": 0.0005085532902739942, "learning_rate": 3.8155555555555555e-05, "loss": 0.0001, "step": 7285 }, { "epoch": 12.15, "grad_norm": 0.0005286951782181859, "learning_rate": 3.804444444444445e-05, "loss": 0.0001, "step": 7290 }, { "epoch": 12.158333333333333, "grad_norm": 0.0005377719644457102, "learning_rate": 3.793333333333334e-05, "loss": 0.0001, "step": 7295 }, { "epoch": 12.166666666666666, "grad_norm": 0.0004231789498589933, "learning_rate": 3.782222222222222e-05, "loss": 0.0001, "step": 7300 }, { "epoch": 12.166666666666666, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8251093661288398, "eval_loss": 1.3881044387817383, "eval_precision": 0.8579576680071278, "eval_recall": 0.8241666666666667, "eval_runtime": 18.1346, "eval_samples_per_second": 132.344, "eval_steps_per_second": 16.543, "step": 7300 }, { "epoch": 12.175, "grad_norm": 0.0007733327220194042, "learning_rate": 3.7711111111111114e-05, "loss": 0.0001, "step": 7305 }, { "epoch": 12.183333333333334, "grad_norm": 0.0003747630980797112, "learning_rate": 3.76e-05, "loss": 0.0001, "step": 7310 }, { "epoch": 12.191666666666666, "grad_norm": 0.0005912589840590954, "learning_rate": 3.748888888888889e-05, "loss": 0.0001, "step": 7315 }, { "epoch": 12.2, "grad_norm": 0.0004663715371862054, "learning_rate": 3.7377777777777775e-05, "loss": 0.0001, "step": 7320 }, { "epoch": 12.208333333333334, "grad_norm": 0.0003985895018558949, "learning_rate": 3.726666666666667e-05, "loss": 0.0001, "step": 7325 }, { "epoch": 12.216666666666667, "grad_norm": 0.00043880101293325424, "learning_rate": 3.715555555555555e-05, "loss": 0.0001, "step": 7330 }, { "epoch": 12.225, "grad_norm": 0.0004159927775617689, "learning_rate": 3.704444444444445e-05, "loss": 0.0001, "step": 7335 }, { "epoch": 12.233333333333333, "grad_norm": 0.0004549678706098348, "learning_rate": 3.6933333333333334e-05, "loss": 0.0001, "step": 7340 }, { "epoch": 12.241666666666667, "grad_norm": 0.0004796825523953885, "learning_rate": 3.6822222222222226e-05, "loss": 0.0001, "step": 7345 }, { "epoch": 12.25, "grad_norm": 0.0004271277866791934, "learning_rate": 3.671111111111111e-05, "loss": 0.0001, "step": 7350 }, { "epoch": 12.258333333333333, "grad_norm": 0.0004967559361830354, "learning_rate": 3.66e-05, "loss": 0.0001, "step": 7355 }, { "epoch": 12.266666666666667, "grad_norm": 0.00047417712630704045, "learning_rate": 3.648888888888889e-05, "loss": 0.0001, "step": 7360 }, { "epoch": 12.275, "grad_norm": 0.0004026749811600894, "learning_rate": 3.637777777777778e-05, "loss": 0.0001, "step": 7365 }, { "epoch": 12.283333333333333, "grad_norm": 0.00045370598672889173, "learning_rate": 3.626666666666667e-05, "loss": 0.0001, "step": 7370 }, { "epoch": 12.291666666666666, "grad_norm": 0.00046597604523412883, "learning_rate": 3.615555555555556e-05, "loss": 0.0001, "step": 7375 }, { "epoch": 12.3, "grad_norm": 0.0004049469134770334, "learning_rate": 3.6044444444444446e-05, "loss": 0.0001, "step": 7380 }, { "epoch": 12.308333333333334, "grad_norm": 0.0008248354424722493, "learning_rate": 3.593333333333334e-05, "loss": 0.0001, "step": 7385 }, { "epoch": 12.316666666666666, "grad_norm": 0.000385368155548349, "learning_rate": 3.582222222222222e-05, "loss": 0.0001, "step": 7390 }, { "epoch": 12.325, "grad_norm": 0.00041240884456783533, "learning_rate": 3.571111111111111e-05, "loss": 0.0001, "step": 7395 }, { "epoch": 12.333333333333334, "grad_norm": 0.0004627451708074659, "learning_rate": 3.56e-05, "loss": 0.0001, "step": 7400 }, { "epoch": 12.333333333333334, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.390952467918396, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.4426, "eval_samples_per_second": 130.134, "eval_steps_per_second": 16.267, "step": 7400 }, { "epoch": 12.341666666666667, "grad_norm": 0.0003887239727191627, "learning_rate": 3.548888888888889e-05, "loss": 0.0001, "step": 7405 }, { "epoch": 12.35, "grad_norm": 0.0003953032137360424, "learning_rate": 3.537777777777778e-05, "loss": 0.0001, "step": 7410 }, { "epoch": 12.358333333333333, "grad_norm": 0.0003906291094608605, "learning_rate": 3.526666666666667e-05, "loss": 0.0001, "step": 7415 }, { "epoch": 12.366666666666667, "grad_norm": 0.0005005869315937161, "learning_rate": 3.515555555555556e-05, "loss": 0.0001, "step": 7420 }, { "epoch": 12.375, "grad_norm": 0.0003735747595783323, "learning_rate": 3.504444444444445e-05, "loss": 0.0001, "step": 7425 }, { "epoch": 12.383333333333333, "grad_norm": 0.00035883625969290733, "learning_rate": 3.493333333333333e-05, "loss": 0.0001, "step": 7430 }, { "epoch": 12.391666666666667, "grad_norm": 0.0003970731049776077, "learning_rate": 3.4822222222222225e-05, "loss": 0.0001, "step": 7435 }, { "epoch": 12.4, "grad_norm": 0.0003867565537802875, "learning_rate": 3.471111111111111e-05, "loss": 0.0001, "step": 7440 }, { "epoch": 12.408333333333333, "grad_norm": 0.0003762682608794421, "learning_rate": 3.46e-05, "loss": 0.0001, "step": 7445 }, { "epoch": 12.416666666666666, "grad_norm": 0.00046727160224691033, "learning_rate": 3.448888888888889e-05, "loss": 0.0001, "step": 7450 }, { "epoch": 12.425, "grad_norm": 0.0003924863995052874, "learning_rate": 3.4377777777777784e-05, "loss": 0.0001, "step": 7455 }, { "epoch": 12.433333333333334, "grad_norm": 0.00036956125404685736, "learning_rate": 3.426666666666667e-05, "loss": 0.0001, "step": 7460 }, { "epoch": 12.441666666666666, "grad_norm": 0.000365294108632952, "learning_rate": 3.415555555555556e-05, "loss": 0.0001, "step": 7465 }, { "epoch": 12.45, "grad_norm": 0.0003773056378122419, "learning_rate": 3.4044444444444445e-05, "loss": 0.0001, "step": 7470 }, { "epoch": 12.458333333333334, "grad_norm": 0.0005858006770722568, "learning_rate": 3.3933333333333336e-05, "loss": 0.0001, "step": 7475 }, { "epoch": 12.466666666666667, "grad_norm": 0.0004055030585732311, "learning_rate": 3.382222222222222e-05, "loss": 0.0001, "step": 7480 }, { "epoch": 12.475, "grad_norm": 0.00040051856194622815, "learning_rate": 3.371111111111111e-05, "loss": 0.0001, "step": 7485 }, { "epoch": 12.483333333333333, "grad_norm": 0.0004083556996192783, "learning_rate": 3.3600000000000004e-05, "loss": 0.0001, "step": 7490 }, { "epoch": 12.491666666666667, "grad_norm": 0.00036605235072784126, "learning_rate": 3.3488888888888895e-05, "loss": 0.0001, "step": 7495 }, { "epoch": 12.5, "grad_norm": 0.000376599287847057, "learning_rate": 3.337777777777778e-05, "loss": 0.0001, "step": 7500 }, { "epoch": 12.5, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.3937443494796753, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.3191, "eval_samples_per_second": 131.011, "eval_steps_per_second": 16.376, "step": 7500 }, { "epoch": 12.508333333333333, "grad_norm": 0.00040043372428044677, "learning_rate": 3.326666666666667e-05, "loss": 0.0001, "step": 7505 }, { "epoch": 12.516666666666667, "grad_norm": 0.0004863941576331854, "learning_rate": 3.3155555555555556e-05, "loss": 0.0001, "step": 7510 }, { "epoch": 12.525, "grad_norm": 0.0003951008548028767, "learning_rate": 3.304444444444445e-05, "loss": 0.0001, "step": 7515 }, { "epoch": 12.533333333333333, "grad_norm": 0.0005890594329684973, "learning_rate": 3.293333333333333e-05, "loss": 0.0001, "step": 7520 }, { "epoch": 12.541666666666666, "grad_norm": 0.0004093022143933922, "learning_rate": 3.2822222222222223e-05, "loss": 0.0001, "step": 7525 }, { "epoch": 12.55, "grad_norm": 0.0004830595280509442, "learning_rate": 3.2711111111111115e-05, "loss": 0.0001, "step": 7530 }, { "epoch": 12.558333333333334, "grad_norm": 0.0003759435494430363, "learning_rate": 3.26e-05, "loss": 0.0001, "step": 7535 }, { "epoch": 12.566666666666666, "grad_norm": 0.00037202390376478434, "learning_rate": 3.248888888888889e-05, "loss": 0.0001, "step": 7540 }, { "epoch": 12.575, "grad_norm": 0.00037519316538237035, "learning_rate": 3.2377777777777776e-05, "loss": 0.0001, "step": 7545 }, { "epoch": 12.583333333333334, "grad_norm": 0.0004145005950704217, "learning_rate": 3.226666666666667e-05, "loss": 0.0001, "step": 7550 }, { "epoch": 12.591666666666667, "grad_norm": 0.0003955464344471693, "learning_rate": 3.215555555555556e-05, "loss": 0.0001, "step": 7555 }, { "epoch": 12.6, "grad_norm": 0.0003457553102634847, "learning_rate": 3.204444444444444e-05, "loss": 0.0001, "step": 7560 }, { "epoch": 12.608333333333333, "grad_norm": 0.0004020553024020046, "learning_rate": 3.1933333333333335e-05, "loss": 0.0001, "step": 7565 }, { "epoch": 12.616666666666667, "grad_norm": 0.0003803831059485674, "learning_rate": 3.1822222222222226e-05, "loss": 0.0001, "step": 7570 }, { "epoch": 12.625, "grad_norm": 0.00047710892977193, "learning_rate": 3.171111111111111e-05, "loss": 0.0001, "step": 7575 }, { "epoch": 12.633333333333333, "grad_norm": 0.00039982094313018024, "learning_rate": 3.16e-05, "loss": 0.0001, "step": 7580 }, { "epoch": 12.641666666666667, "grad_norm": 0.00041062600212171674, "learning_rate": 3.148888888888889e-05, "loss": 0.0001, "step": 7585 }, { "epoch": 12.65, "grad_norm": 0.0004058949707541615, "learning_rate": 3.137777777777778e-05, "loss": 0.0001, "step": 7590 }, { "epoch": 12.658333333333333, "grad_norm": 0.0003884659381583333, "learning_rate": 3.126666666666666e-05, "loss": 0.0001, "step": 7595 }, { "epoch": 12.666666666666666, "grad_norm": 0.0004205872246529907, "learning_rate": 3.1155555555555555e-05, "loss": 0.0001, "step": 7600 }, { "epoch": 12.666666666666666, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.3976839780807495, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.532, "eval_samples_per_second": 129.506, "eval_steps_per_second": 16.188, "step": 7600 }, { "epoch": 12.675, "grad_norm": 0.00037065817741677165, "learning_rate": 3.1044444444444446e-05, "loss": 0.0001, "step": 7605 }, { "epoch": 12.683333333333334, "grad_norm": 0.000382413825718686, "learning_rate": 3.093333333333334e-05, "loss": 0.0001, "step": 7610 }, { "epoch": 12.691666666666666, "grad_norm": 0.0010162547696381807, "learning_rate": 3.082222222222222e-05, "loss": 0.0001, "step": 7615 }, { "epoch": 12.7, "grad_norm": 0.0003589971165638417, "learning_rate": 3.0711111111111114e-05, "loss": 0.0001, "step": 7620 }, { "epoch": 12.708333333333334, "grad_norm": 0.00043974327854812145, "learning_rate": 3.06e-05, "loss": 0.0001, "step": 7625 }, { "epoch": 12.716666666666667, "grad_norm": 0.0003465871268417686, "learning_rate": 3.048888888888889e-05, "loss": 0.0001, "step": 7630 }, { "epoch": 12.725, "grad_norm": 0.00040102293132804334, "learning_rate": 3.0377777777777778e-05, "loss": 0.0001, "step": 7635 }, { "epoch": 12.733333333333333, "grad_norm": 0.00040679462836124003, "learning_rate": 3.0266666666666666e-05, "loss": 0.0001, "step": 7640 }, { "epoch": 12.741666666666667, "grad_norm": 0.00033191448892466724, "learning_rate": 3.0155555555555557e-05, "loss": 0.0001, "step": 7645 }, { "epoch": 12.75, "grad_norm": 0.0003547274391166866, "learning_rate": 3.004444444444445e-05, "loss": 0.0001, "step": 7650 }, { "epoch": 12.758333333333333, "grad_norm": 0.0003300440439488739, "learning_rate": 2.9933333333333337e-05, "loss": 0.0001, "step": 7655 }, { "epoch": 12.766666666666667, "grad_norm": 0.0004255892417859286, "learning_rate": 2.9822222222222225e-05, "loss": 0.0001, "step": 7660 }, { "epoch": 12.775, "grad_norm": 0.00043635768815875053, "learning_rate": 2.9711111111111113e-05, "loss": 0.0001, "step": 7665 }, { "epoch": 12.783333333333333, "grad_norm": 0.00038433654117397964, "learning_rate": 2.96e-05, "loss": 0.0001, "step": 7670 }, { "epoch": 12.791666666666666, "grad_norm": 0.00036065198946744204, "learning_rate": 2.948888888888889e-05, "loss": 0.0001, "step": 7675 }, { "epoch": 12.8, "grad_norm": 0.00036280558560974896, "learning_rate": 2.937777777777778e-05, "loss": 0.0001, "step": 7680 }, { "epoch": 12.808333333333334, "grad_norm": 0.00036848834133706987, "learning_rate": 2.926666666666667e-05, "loss": 0.0001, "step": 7685 }, { "epoch": 12.816666666666666, "grad_norm": 0.0004197373054921627, "learning_rate": 2.9155555555555557e-05, "loss": 0.0001, "step": 7690 }, { "epoch": 12.825, "grad_norm": 0.0011079185642302036, "learning_rate": 2.9044444444444445e-05, "loss": 0.0001, "step": 7695 }, { "epoch": 12.833333333333334, "grad_norm": 0.0003795675002038479, "learning_rate": 2.8933333333333333e-05, "loss": 0.0001, "step": 7700 }, { "epoch": 12.833333333333334, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.3995190858840942, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.4883, "eval_samples_per_second": 129.812, "eval_steps_per_second": 16.227, "step": 7700 }, { "epoch": 12.841666666666667, "grad_norm": 0.0004290227370802313, "learning_rate": 2.882222222222222e-05, "loss": 0.0001, "step": 7705 }, { "epoch": 12.85, "grad_norm": 0.00038179929833859205, "learning_rate": 2.8711111111111113e-05, "loss": 0.0001, "step": 7710 }, { "epoch": 12.858333333333333, "grad_norm": 0.0003485574561636895, "learning_rate": 2.86e-05, "loss": 0.0001, "step": 7715 }, { "epoch": 12.866666666666667, "grad_norm": 0.00044295142288319767, "learning_rate": 2.8488888888888892e-05, "loss": 0.0001, "step": 7720 }, { "epoch": 12.875, "grad_norm": 0.0003721510584000498, "learning_rate": 2.837777777777778e-05, "loss": 0.0001, "step": 7725 }, { "epoch": 12.883333333333333, "grad_norm": 0.00035109397140331566, "learning_rate": 2.8266666666666668e-05, "loss": 0.0001, "step": 7730 }, { "epoch": 12.891666666666667, "grad_norm": 0.0003847751358989626, "learning_rate": 2.8155555555555556e-05, "loss": 0.0001, "step": 7735 }, { "epoch": 12.9, "grad_norm": 0.00041203334694728255, "learning_rate": 2.8044444444444444e-05, "loss": 0.0001, "step": 7740 }, { "epoch": 12.908333333333333, "grad_norm": 0.00043652302701957524, "learning_rate": 2.7933333333333332e-05, "loss": 0.0001, "step": 7745 }, { "epoch": 12.916666666666666, "grad_norm": 0.00038014777237549424, "learning_rate": 2.782222222222222e-05, "loss": 0.0001, "step": 7750 }, { "epoch": 12.925, "grad_norm": 0.00032745825592428446, "learning_rate": 2.771111111111111e-05, "loss": 0.0001, "step": 7755 }, { "epoch": 12.933333333333334, "grad_norm": 0.0003546374791767448, "learning_rate": 2.7600000000000003e-05, "loss": 0.0001, "step": 7760 }, { "epoch": 12.941666666666666, "grad_norm": 0.0003590897540561855, "learning_rate": 2.748888888888889e-05, "loss": 0.0001, "step": 7765 }, { "epoch": 12.95, "grad_norm": 0.0004503269155975431, "learning_rate": 2.737777777777778e-05, "loss": 0.0001, "step": 7770 }, { "epoch": 12.958333333333334, "grad_norm": 0.00039048935286700726, "learning_rate": 2.7266666666666668e-05, "loss": 0.0001, "step": 7775 }, { "epoch": 12.966666666666667, "grad_norm": 0.00037571517168544233, "learning_rate": 2.7155555555555556e-05, "loss": 0.0001, "step": 7780 }, { "epoch": 12.975, "grad_norm": 0.00036088787601329386, "learning_rate": 2.7044444444444444e-05, "loss": 0.0001, "step": 7785 }, { "epoch": 12.983333333333333, "grad_norm": 0.000362628314178437, "learning_rate": 2.6933333333333332e-05, "loss": 0.0001, "step": 7790 }, { "epoch": 12.991666666666667, "grad_norm": 0.0005962448776699603, "learning_rate": 2.682222222222222e-05, "loss": 0.0001, "step": 7795 }, { "epoch": 13.0, "grad_norm": 0.0004152738838456571, "learning_rate": 2.6711111111111115e-05, "loss": 0.0001, "step": 7800 }, { "epoch": 13.0, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.4021415710449219, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.2195, "eval_samples_per_second": 131.727, "eval_steps_per_second": 16.466, "step": 7800 }, { "epoch": 13.008333333333333, "grad_norm": 0.0005408341530710459, "learning_rate": 2.6600000000000003e-05, "loss": 0.0001, "step": 7805 }, { "epoch": 13.016666666666667, "grad_norm": 0.00042096260585822165, "learning_rate": 2.648888888888889e-05, "loss": 0.0001, "step": 7810 }, { "epoch": 13.025, "grad_norm": 0.00037876568967476487, "learning_rate": 2.637777777777778e-05, "loss": 0.0001, "step": 7815 }, { "epoch": 13.033333333333333, "grad_norm": 0.0003601407806854695, "learning_rate": 2.6266666666666667e-05, "loss": 0.0001, "step": 7820 }, { "epoch": 13.041666666666666, "grad_norm": 0.0005142168374732137, "learning_rate": 2.6155555555555555e-05, "loss": 0.0001, "step": 7825 }, { "epoch": 13.05, "grad_norm": 0.0003697772335726768, "learning_rate": 2.6044444444444443e-05, "loss": 0.0001, "step": 7830 }, { "epoch": 13.058333333333334, "grad_norm": 0.0003545851504895836, "learning_rate": 2.5933333333333338e-05, "loss": 0.0001, "step": 7835 }, { "epoch": 13.066666666666666, "grad_norm": 0.0004086746776010841, "learning_rate": 2.5822222222222226e-05, "loss": 0.0001, "step": 7840 }, { "epoch": 13.075, "grad_norm": 0.00033289240673184395, "learning_rate": 2.5711111111111114e-05, "loss": 0.0001, "step": 7845 }, { "epoch": 13.083333333333334, "grad_norm": 0.0005776479374617338, "learning_rate": 2.5600000000000002e-05, "loss": 0.0001, "step": 7850 }, { "epoch": 13.091666666666667, "grad_norm": 0.0004157981020398438, "learning_rate": 2.548888888888889e-05, "loss": 0.0001, "step": 7855 }, { "epoch": 13.1, "grad_norm": 0.00035688909702003, "learning_rate": 2.537777777777778e-05, "loss": 0.0001, "step": 7860 }, { "epoch": 13.108333333333333, "grad_norm": 0.0003693710023071617, "learning_rate": 2.5266666666666666e-05, "loss": 0.0001, "step": 7865 }, { "epoch": 13.116666666666667, "grad_norm": 0.00032150879269465804, "learning_rate": 2.5155555555555555e-05, "loss": 0.0001, "step": 7870 }, { "epoch": 13.125, "grad_norm": 0.0004432180430740118, "learning_rate": 2.504444444444445e-05, "loss": 0.0001, "step": 7875 }, { "epoch": 13.133333333333333, "grad_norm": 0.00034520772169344127, "learning_rate": 2.4933333333333334e-05, "loss": 0.0001, "step": 7880 }, { "epoch": 13.141666666666667, "grad_norm": 0.0003710399614647031, "learning_rate": 2.4822222222222225e-05, "loss": 0.0001, "step": 7885 }, { "epoch": 13.15, "grad_norm": 0.00046263966942206025, "learning_rate": 2.4711111111111114e-05, "loss": 0.0001, "step": 7890 }, { "epoch": 13.158333333333333, "grad_norm": 0.0003490612143650651, "learning_rate": 2.46e-05, "loss": 0.0001, "step": 7895 }, { "epoch": 13.166666666666666, "grad_norm": 0.0003556726442184299, "learning_rate": 2.448888888888889e-05, "loss": 0.0001, "step": 7900 }, { "epoch": 13.166666666666666, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.4048336744308472, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.4489, "eval_samples_per_second": 130.089, "eval_steps_per_second": 16.261, "step": 7900 }, { "epoch": 13.175, "grad_norm": 0.0004012535500805825, "learning_rate": 2.437777777777778e-05, "loss": 0.0001, "step": 7905 }, { "epoch": 13.183333333333334, "grad_norm": 0.0004188623861409724, "learning_rate": 2.426666666666667e-05, "loss": 0.0001, "step": 7910 }, { "epoch": 13.191666666666666, "grad_norm": 0.00043160849600099027, "learning_rate": 2.4155555555555557e-05, "loss": 0.0001, "step": 7915 }, { "epoch": 13.2, "grad_norm": 0.0003280006640125066, "learning_rate": 2.4044444444444445e-05, "loss": 0.0001, "step": 7920 }, { "epoch": 13.208333333333334, "grad_norm": 0.00037349906051531434, "learning_rate": 2.3933333333333337e-05, "loss": 0.0001, "step": 7925 }, { "epoch": 13.216666666666667, "grad_norm": 0.0003129677497781813, "learning_rate": 2.3822222222222225e-05, "loss": 0.0001, "step": 7930 }, { "epoch": 13.225, "grad_norm": 0.00035483852843753994, "learning_rate": 2.3711111111111113e-05, "loss": 0.0001, "step": 7935 }, { "epoch": 13.233333333333333, "grad_norm": 0.0003575640730559826, "learning_rate": 2.36e-05, "loss": 0.0001, "step": 7940 }, { "epoch": 13.241666666666667, "grad_norm": 0.00035716782440431416, "learning_rate": 2.3488888888888893e-05, "loss": 0.0001, "step": 7945 }, { "epoch": 13.25, "grad_norm": 0.00033485444146208465, "learning_rate": 2.337777777777778e-05, "loss": 0.0001, "step": 7950 }, { "epoch": 13.258333333333333, "grad_norm": 0.000389173801522702, "learning_rate": 2.326666666666667e-05, "loss": 0.0001, "step": 7955 }, { "epoch": 13.266666666666667, "grad_norm": 0.00034865475026890635, "learning_rate": 2.3155555555555557e-05, "loss": 0.0001, "step": 7960 }, { "epoch": 13.275, "grad_norm": 0.00037059298483654857, "learning_rate": 2.3044444444444445e-05, "loss": 0.0001, "step": 7965 }, { "epoch": 13.283333333333333, "grad_norm": 0.0003893170796800405, "learning_rate": 2.2933333333333333e-05, "loss": 0.0001, "step": 7970 }, { "epoch": 13.291666666666666, "grad_norm": 0.0005469413590617478, "learning_rate": 2.282222222222222e-05, "loss": 0.0001, "step": 7975 }, { "epoch": 13.3, "grad_norm": 0.00034091618726961315, "learning_rate": 2.2711111111111112e-05, "loss": 0.0001, "step": 7980 }, { "epoch": 13.308333333333334, "grad_norm": 0.00034197792410850525, "learning_rate": 2.26e-05, "loss": 0.0001, "step": 7985 }, { "epoch": 13.316666666666666, "grad_norm": 0.00038844806840643287, "learning_rate": 2.248888888888889e-05, "loss": 0.0001, "step": 7990 }, { "epoch": 13.325, "grad_norm": 0.00036107024061493576, "learning_rate": 2.2377777777777777e-05, "loss": 0.0001, "step": 7995 }, { "epoch": 13.333333333333334, "grad_norm": 0.0003193200973328203, "learning_rate": 2.2266666666666668e-05, "loss": 0.0001, "step": 8000 }, { "epoch": 13.333333333333334, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.4074379205703735, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.5176, "eval_samples_per_second": 129.606, "eval_steps_per_second": 16.201, "step": 8000 }, { "epoch": 13.341666666666667, "grad_norm": 0.000349676760379225, "learning_rate": 2.2155555555555556e-05, "loss": 0.0001, "step": 8005 }, { "epoch": 13.35, "grad_norm": 0.00033983762841671705, "learning_rate": 2.2044444444444444e-05, "loss": 0.0001, "step": 8010 }, { "epoch": 13.358333333333333, "grad_norm": 0.0004948312416672707, "learning_rate": 2.1933333333333332e-05, "loss": 0.0001, "step": 8015 }, { "epoch": 13.366666666666667, "grad_norm": 0.0003985862131230533, "learning_rate": 2.1822222222222224e-05, "loss": 0.0001, "step": 8020 }, { "epoch": 13.375, "grad_norm": 0.0003303490811958909, "learning_rate": 2.1711111111111112e-05, "loss": 0.0001, "step": 8025 }, { "epoch": 13.383333333333333, "grad_norm": 0.0004971749149262905, "learning_rate": 2.16e-05, "loss": 0.0001, "step": 8030 }, { "epoch": 13.391666666666667, "grad_norm": 0.00038460572250187397, "learning_rate": 2.1488888888888888e-05, "loss": 0.0001, "step": 8035 }, { "epoch": 13.4, "grad_norm": 0.00039292610017582774, "learning_rate": 2.137777777777778e-05, "loss": 0.0001, "step": 8040 }, { "epoch": 13.408333333333333, "grad_norm": 0.00033739442005753517, "learning_rate": 2.1266666666666667e-05, "loss": 0.0001, "step": 8045 }, { "epoch": 13.416666666666666, "grad_norm": 0.00032319960882887244, "learning_rate": 2.1155555555555556e-05, "loss": 0.0001, "step": 8050 }, { "epoch": 13.425, "grad_norm": 0.0004480242496356368, "learning_rate": 2.1044444444444444e-05, "loss": 0.0001, "step": 8055 }, { "epoch": 13.433333333333334, "grad_norm": 0.0004771481326315552, "learning_rate": 2.0933333333333335e-05, "loss": 0.0001, "step": 8060 }, { "epoch": 13.441666666666666, "grad_norm": 0.0003479143779259175, "learning_rate": 2.0822222222222223e-05, "loss": 0.0001, "step": 8065 }, { "epoch": 13.45, "grad_norm": 0.00044757151044905186, "learning_rate": 2.071111111111111e-05, "loss": 0.0001, "step": 8070 }, { "epoch": 13.458333333333334, "grad_norm": 0.00030499871354550123, "learning_rate": 2.06e-05, "loss": 0.0001, "step": 8075 }, { "epoch": 13.466666666666667, "grad_norm": 0.0003128983953502029, "learning_rate": 2.048888888888889e-05, "loss": 0.0001, "step": 8080 }, { "epoch": 13.475, "grad_norm": 0.00033999321749433875, "learning_rate": 2.037777777777778e-05, "loss": 0.0001, "step": 8085 }, { "epoch": 13.483333333333333, "grad_norm": 0.0003824002342298627, "learning_rate": 2.0266666666666667e-05, "loss": 0.0001, "step": 8090 }, { "epoch": 13.491666666666667, "grad_norm": 0.0003915838024113327, "learning_rate": 2.0155555555555555e-05, "loss": 0.0001, "step": 8095 }, { "epoch": 13.5, "grad_norm": 0.0003894790424965322, "learning_rate": 2.0044444444444446e-05, "loss": 0.0001, "step": 8100 }, { "epoch": 13.5, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.409901738166809, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 18.2697, "eval_samples_per_second": 131.365, "eval_steps_per_second": 16.421, "step": 8100 }, { "epoch": 13.508333333333333, "grad_norm": 0.0003329915343783796, "learning_rate": 1.9933333333333334e-05, "loss": 0.0001, "step": 8105 }, { "epoch": 13.516666666666667, "grad_norm": 0.00031788222258910537, "learning_rate": 1.9822222222222223e-05, "loss": 0.0001, "step": 8110 }, { "epoch": 13.525, "grad_norm": 0.00048702070489525795, "learning_rate": 1.971111111111111e-05, "loss": 0.0001, "step": 8115 }, { "epoch": 13.533333333333333, "grad_norm": 0.00031933115678839386, "learning_rate": 1.9600000000000002e-05, "loss": 0.0001, "step": 8120 }, { "epoch": 13.541666666666666, "grad_norm": 0.0004623760178219527, "learning_rate": 1.948888888888889e-05, "loss": 0.0001, "step": 8125 }, { "epoch": 13.55, "grad_norm": 0.0005749340052716434, "learning_rate": 1.9377777777777778e-05, "loss": 0.0001, "step": 8130 }, { "epoch": 13.558333333333334, "grad_norm": 0.00038741319440305233, "learning_rate": 1.926666666666667e-05, "loss": 0.0001, "step": 8135 }, { "epoch": 13.566666666666666, "grad_norm": 0.00045862773549742997, "learning_rate": 1.9155555555555558e-05, "loss": 0.0001, "step": 8140 }, { "epoch": 13.575, "grad_norm": 0.0003530282119754702, "learning_rate": 1.9044444444444446e-05, "loss": 0.0001, "step": 8145 }, { "epoch": 13.583333333333334, "grad_norm": 0.0003271048772148788, "learning_rate": 1.8933333333333334e-05, "loss": 0.0001, "step": 8150 }, { "epoch": 13.591666666666667, "grad_norm": 0.0003434489481151104, "learning_rate": 1.8822222222222225e-05, "loss": 0.0001, "step": 8155 }, { "epoch": 13.6, "grad_norm": 0.0003298399969935417, "learning_rate": 1.8711111111111113e-05, "loss": 0.0001, "step": 8160 }, { "epoch": 13.608333333333333, "grad_norm": 0.00030905724270269275, "learning_rate": 1.86e-05, "loss": 0.0001, "step": 8165 }, { "epoch": 13.616666666666667, "grad_norm": 0.0003508078516460955, "learning_rate": 1.848888888888889e-05, "loss": 0.0001, "step": 8170 }, { "epoch": 13.625, "grad_norm": 0.0004488564154598862, "learning_rate": 1.837777777777778e-05, "loss": 0.0001, "step": 8175 }, { "epoch": 13.633333333333333, "grad_norm": 0.0003854240640066564, "learning_rate": 1.826666666666667e-05, "loss": 0.0001, "step": 8180 }, { "epoch": 13.641666666666667, "grad_norm": 0.00034628884168341756, "learning_rate": 1.8155555555555557e-05, "loss": 0.0001, "step": 8185 }, { "epoch": 13.65, "grad_norm": 0.00033160255406983197, "learning_rate": 1.8044444444444445e-05, "loss": 0.0001, "step": 8190 }, { "epoch": 13.658333333333333, "grad_norm": 0.0003542742342688143, "learning_rate": 1.7933333333333337e-05, "loss": 0.0001, "step": 8195 }, { "epoch": 13.666666666666666, "grad_norm": 0.00034505789517425, "learning_rate": 1.7822222222222225e-05, "loss": 0.0001, "step": 8200 }, { "epoch": 13.666666666666666, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8256575324507148, "eval_loss": 1.4117413759231567, "eval_precision": 0.8579885724129855, "eval_recall": 0.8245833333333333, "eval_runtime": 20.201, "eval_samples_per_second": 118.806, "eval_steps_per_second": 14.851, "step": 8200 }, { "epoch": 13.675, "grad_norm": 0.00029653622186742723, "learning_rate": 1.7711111111111113e-05, "loss": 0.0001, "step": 8205 }, { "epoch": 13.683333333333334, "grad_norm": 0.00036016269586980343, "learning_rate": 1.76e-05, "loss": 0.0001, "step": 8210 }, { "epoch": 13.691666666666666, "grad_norm": 0.0004054538730997592, "learning_rate": 1.7488888888888892e-05, "loss": 0.0001, "step": 8215 }, { "epoch": 13.7, "grad_norm": 0.00030277480254881084, "learning_rate": 1.737777777777778e-05, "loss": 0.0001, "step": 8220 }, { "epoch": 13.708333333333334, "grad_norm": 0.0003467584610916674, "learning_rate": 1.726666666666667e-05, "loss": 0.0001, "step": 8225 }, { "epoch": 13.716666666666667, "grad_norm": 0.0005076255183666945, "learning_rate": 1.7155555555555557e-05, "loss": 0.0001, "step": 8230 }, { "epoch": 13.725, "grad_norm": 0.0003456475678831339, "learning_rate": 1.7044444444444445e-05, "loss": 0.0001, "step": 8235 }, { "epoch": 13.733333333333333, "grad_norm": 0.0003623644297476858, "learning_rate": 1.6933333333333333e-05, "loss": 0.0001, "step": 8240 }, { "epoch": 13.741666666666667, "grad_norm": 0.0003590309352148324, "learning_rate": 1.6822222222222224e-05, "loss": 0.0001, "step": 8245 }, { "epoch": 13.75, "grad_norm": 0.00037374775274656713, "learning_rate": 1.6711111111111112e-05, "loss": 0.0001, "step": 8250 }, { "epoch": 13.758333333333333, "grad_norm": 0.00034284908906556666, "learning_rate": 1.66e-05, "loss": 0.0001, "step": 8255 }, { "epoch": 13.766666666666667, "grad_norm": 0.0003145568771287799, "learning_rate": 1.648888888888889e-05, "loss": 0.0001, "step": 8260 }, { "epoch": 13.775, "grad_norm": 0.0003234481264371425, "learning_rate": 1.6377777777777776e-05, "loss": 0.0001, "step": 8265 }, { "epoch": 13.783333333333333, "grad_norm": 0.0003517933073453605, "learning_rate": 1.6266666666666665e-05, "loss": 0.0001, "step": 8270 }, { "epoch": 13.791666666666666, "grad_norm": 0.00033587098005227745, "learning_rate": 1.6155555555555556e-05, "loss": 0.0001, "step": 8275 }, { "epoch": 13.8, "grad_norm": 0.00035203699371777475, "learning_rate": 1.6044444444444444e-05, "loss": 0.0001, "step": 8280 }, { "epoch": 13.808333333333334, "grad_norm": 0.0003495515265967697, "learning_rate": 1.5933333333333332e-05, "loss": 0.0001, "step": 8285 }, { "epoch": 13.816666666666666, "grad_norm": 0.0003849548811558634, "learning_rate": 1.582222222222222e-05, "loss": 0.0001, "step": 8290 }, { "epoch": 13.825, "grad_norm": 0.0003326910373289138, "learning_rate": 1.571111111111111e-05, "loss": 0.0001, "step": 8295 }, { "epoch": 13.833333333333334, "grad_norm": 0.00032454452593810856, "learning_rate": 1.56e-05, "loss": 0.0001, "step": 8300 }, { "epoch": 13.833333333333334, "eval_accuracy": 0.825, "eval_f1": 0.8261097724910968, "eval_loss": 1.413382649421692, "eval_precision": 0.858212311613282, "eval_recall": 0.825, "eval_runtime": 20.7552, "eval_samples_per_second": 115.633, "eval_steps_per_second": 14.454, "step": 8300 }, { "epoch": 13.841666666666667, "grad_norm": 0.00033390719909220934, "learning_rate": 1.5488888888888888e-05, "loss": 0.0001, "step": 8305 }, { "epoch": 13.85, "grad_norm": 0.00039605904021300375, "learning_rate": 1.537777777777778e-05, "loss": 0.0001, "step": 8310 }, { "epoch": 13.858333333333333, "grad_norm": 0.0002970903005916625, "learning_rate": 1.5266666666666667e-05, "loss": 0.0001, "step": 8315 }, { "epoch": 13.866666666666667, "grad_norm": 0.0003776454832404852, "learning_rate": 1.5155555555555555e-05, "loss": 0.0001, "step": 8320 }, { "epoch": 13.875, "grad_norm": 0.0003326006990391761, "learning_rate": 1.5044444444444445e-05, "loss": 0.0001, "step": 8325 }, { "epoch": 13.883333333333333, "grad_norm": 0.0004221514391247183, "learning_rate": 1.4933333333333335e-05, "loss": 0.0001, "step": 8330 }, { "epoch": 13.891666666666667, "grad_norm": 0.000294290017336607, "learning_rate": 1.4822222222222223e-05, "loss": 0.0001, "step": 8335 }, { "epoch": 13.9, "grad_norm": 0.0003111393307335675, "learning_rate": 1.4711111111111111e-05, "loss": 0.0001, "step": 8340 }, { "epoch": 13.908333333333333, "grad_norm": 0.0003848693741019815, "learning_rate": 1.4599999999999999e-05, "loss": 0.0001, "step": 8345 }, { "epoch": 13.916666666666666, "grad_norm": 0.0002959505654871464, "learning_rate": 1.448888888888889e-05, "loss": 0.0001, "step": 8350 }, { "epoch": 13.925, "grad_norm": 0.00033235421869903803, "learning_rate": 1.4377777777777779e-05, "loss": 0.0001, "step": 8355 }, { "epoch": 13.933333333333334, "grad_norm": 0.00031168133136816323, "learning_rate": 1.4266666666666667e-05, "loss": 0.0001, "step": 8360 }, { "epoch": 13.941666666666666, "grad_norm": 0.0003348593309056014, "learning_rate": 1.4155555555555555e-05, "loss": 0.0001, "step": 8365 }, { "epoch": 13.95, "grad_norm": 0.00035929479054175317, "learning_rate": 1.4044444444444446e-05, "loss": 0.0001, "step": 8370 }, { "epoch": 13.958333333333334, "grad_norm": 0.00033812510082498193, "learning_rate": 1.3933333333333334e-05, "loss": 0.0001, "step": 8375 }, { "epoch": 13.966666666666667, "grad_norm": 0.00032165751326829195, "learning_rate": 1.3822222222222222e-05, "loss": 0.0001, "step": 8380 }, { "epoch": 13.975, "grad_norm": 0.00033529303618706763, "learning_rate": 1.371111111111111e-05, "loss": 0.0001, "step": 8385 }, { "epoch": 13.983333333333333, "grad_norm": 0.00030750149744562805, "learning_rate": 1.3600000000000002e-05, "loss": 0.0001, "step": 8390 }, { "epoch": 13.991666666666667, "grad_norm": 0.00031219766242429614, "learning_rate": 1.348888888888889e-05, "loss": 0.0001, "step": 8395 }, { "epoch": 14.0, "grad_norm": 0.000366823049262166, "learning_rate": 1.3377777777777778e-05, "loss": 0.0001, "step": 8400 }, { "epoch": 14.0, "eval_accuracy": 0.825, "eval_f1": 0.8261097724910968, "eval_loss": 1.4150114059448242, "eval_precision": 0.858212311613282, "eval_recall": 0.825, "eval_runtime": 20.2688, "eval_samples_per_second": 118.408, "eval_steps_per_second": 14.801, "step": 8400 }, { "epoch": 14.008333333333333, "grad_norm": 0.0010701261926442385, "learning_rate": 1.3266666666666666e-05, "loss": 0.0001, "step": 8405 }, { "epoch": 14.016666666666667, "grad_norm": 0.00030093142413534224, "learning_rate": 1.3155555555555558e-05, "loss": 0.0001, "step": 8410 }, { "epoch": 14.025, "grad_norm": 0.00030148346559144557, "learning_rate": 1.3044444444444446e-05, "loss": 0.0001, "step": 8415 }, { "epoch": 14.033333333333333, "grad_norm": 0.0003663400129880756, "learning_rate": 1.2933333333333334e-05, "loss": 0.0001, "step": 8420 }, { "epoch": 14.041666666666666, "grad_norm": 0.00034310907358303666, "learning_rate": 1.2822222222222222e-05, "loss": 0.0001, "step": 8425 }, { "epoch": 14.05, "grad_norm": 0.0003105229989159852, "learning_rate": 1.2711111111111113e-05, "loss": 0.0001, "step": 8430 }, { "epoch": 14.058333333333334, "grad_norm": 0.0003301667748019099, "learning_rate": 1.2600000000000001e-05, "loss": 0.0001, "step": 8435 }, { "epoch": 14.066666666666666, "grad_norm": 0.00030807056464254856, "learning_rate": 1.248888888888889e-05, "loss": 0.0001, "step": 8440 }, { "epoch": 14.075, "grad_norm": 0.000438639079220593, "learning_rate": 1.237777777777778e-05, "loss": 0.0001, "step": 8445 }, { "epoch": 14.083333333333334, "grad_norm": 0.000303552282275632, "learning_rate": 1.2266666666666667e-05, "loss": 0.0001, "step": 8450 }, { "epoch": 14.091666666666667, "grad_norm": 0.00038808875251561403, "learning_rate": 1.2155555555555555e-05, "loss": 0.0001, "step": 8455 }, { "epoch": 14.1, "grad_norm": 0.00030307090491987765, "learning_rate": 1.2044444444444445e-05, "loss": 0.0001, "step": 8460 }, { "epoch": 14.108333333333333, "grad_norm": 0.00031208927975967526, "learning_rate": 1.1933333333333333e-05, "loss": 0.0001, "step": 8465 }, { "epoch": 14.116666666666667, "grad_norm": 0.00038164693978615105, "learning_rate": 1.1822222222222223e-05, "loss": 0.0001, "step": 8470 }, { "epoch": 14.125, "grad_norm": 0.00033908564364537597, "learning_rate": 1.1711111111111111e-05, "loss": 0.0001, "step": 8475 }, { "epoch": 14.133333333333333, "grad_norm": 0.0003435859107412398, "learning_rate": 1.16e-05, "loss": 0.0001, "step": 8480 }, { "epoch": 14.141666666666667, "grad_norm": 0.00032262178137898445, "learning_rate": 1.1488888888888889e-05, "loss": 0.0001, "step": 8485 }, { "epoch": 14.15, "grad_norm": 0.00034588633570820093, "learning_rate": 1.1377777777777779e-05, "loss": 0.0001, "step": 8490 }, { "epoch": 14.158333333333333, "grad_norm": 0.0003053388500120491, "learning_rate": 1.1266666666666667e-05, "loss": 0.0001, "step": 8495 }, { "epoch": 14.166666666666666, "grad_norm": 0.00030523905297741294, "learning_rate": 1.1155555555555556e-05, "loss": 0.0001, "step": 8500 }, { "epoch": 14.166666666666666, "eval_accuracy": 0.8245833333333333, "eval_f1": 0.8257507602418821, "eval_loss": 1.4163964986801147, "eval_precision": 0.8577969518835461, "eval_recall": 0.8245833333333333, "eval_runtime": 18.1038, "eval_samples_per_second": 132.569, "eval_steps_per_second": 16.571, "step": 8500 }, { "epoch": 14.175, "grad_norm": 0.0003181042557116598, "learning_rate": 1.1044444444444444e-05, "loss": 0.0001, "step": 8505 }, { "epoch": 14.183333333333334, "grad_norm": 0.0003221993974875659, "learning_rate": 1.0933333333333334e-05, "loss": 0.0001, "step": 8510 }, { "epoch": 14.191666666666666, "grad_norm": 0.00032941889367066324, "learning_rate": 1.0822222222222222e-05, "loss": 0.0001, "step": 8515 }, { "epoch": 14.2, "grad_norm": 0.0003109782701358199, "learning_rate": 1.0711111111111112e-05, "loss": 0.0001, "step": 8520 }, { "epoch": 14.208333333333334, "grad_norm": 0.0003156247257720679, "learning_rate": 1.06e-05, "loss": 0.0001, "step": 8525 }, { "epoch": 14.216666666666667, "grad_norm": 0.00030126390629447997, "learning_rate": 1.048888888888889e-05, "loss": 0.0001, "step": 8530 }, { "epoch": 14.225, "grad_norm": 0.0002982111764140427, "learning_rate": 1.0377777777777778e-05, "loss": 0.0001, "step": 8535 }, { "epoch": 14.233333333333333, "grad_norm": 0.00031460245372727513, "learning_rate": 1.0266666666666668e-05, "loss": 0.0001, "step": 8540 }, { "epoch": 14.241666666666667, "grad_norm": 0.00039774749893695116, "learning_rate": 1.0155555555555556e-05, "loss": 0.0001, "step": 8545 }, { "epoch": 14.25, "grad_norm": 0.0006752362241968513, "learning_rate": 1.0044444444444446e-05, "loss": 0.0001, "step": 8550 }, { "epoch": 14.258333333333333, "grad_norm": 0.0003350953629706055, "learning_rate": 9.933333333333334e-06, "loss": 0.0001, "step": 8555 }, { "epoch": 14.266666666666667, "grad_norm": 0.0003047759528271854, "learning_rate": 9.822222222222223e-06, "loss": 0.0001, "step": 8560 }, { "epoch": 14.275, "grad_norm": 0.0003133053833153099, "learning_rate": 9.711111111111111e-06, "loss": 0.0001, "step": 8565 }, { "epoch": 14.283333333333333, "grad_norm": 0.00048779763164930046, "learning_rate": 9.600000000000001e-06, "loss": 0.0001, "step": 8570 }, { "epoch": 14.291666666666666, "grad_norm": 0.0003029101644642651, "learning_rate": 9.48888888888889e-06, "loss": 0.0001, "step": 8575 }, { "epoch": 14.3, "grad_norm": 0.0002853863115888089, "learning_rate": 9.377777777777779e-06, "loss": 0.0001, "step": 8580 }, { "epoch": 14.308333333333334, "grad_norm": 0.0004367511428426951, "learning_rate": 9.266666666666667e-06, "loss": 0.0001, "step": 8585 }, { "epoch": 14.316666666666666, "grad_norm": 0.0003608675906434655, "learning_rate": 9.155555555555557e-06, "loss": 0.0001, "step": 8590 }, { "epoch": 14.325, "grad_norm": 0.0002870437456294894, "learning_rate": 9.044444444444445e-06, "loss": 0.0001, "step": 8595 }, { "epoch": 14.333333333333334, "grad_norm": 0.001796862343326211, "learning_rate": 8.933333333333333e-06, "loss": 0.0001, "step": 8600 }, { "epoch": 14.333333333333334, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8253917352526898, "eval_loss": 1.4175758361816406, "eval_precision": 0.8573827901425399, "eval_recall": 0.8241666666666667, "eval_runtime": 18.3716, "eval_samples_per_second": 130.637, "eval_steps_per_second": 16.33, "step": 8600 }, { "epoch": 14.341666666666667, "grad_norm": 0.0003142754139844328, "learning_rate": 8.822222222222223e-06, "loss": 0.0001, "step": 8605 }, { "epoch": 14.35, "grad_norm": 0.0003916557179763913, "learning_rate": 8.711111111111111e-06, "loss": 0.0001, "step": 8610 }, { "epoch": 14.358333333333333, "grad_norm": 0.0003419801651034504, "learning_rate": 8.599999999999999e-06, "loss": 0.0001, "step": 8615 }, { "epoch": 14.366666666666667, "grad_norm": 0.0002934688818641007, "learning_rate": 8.488888888888889e-06, "loss": 0.0001, "step": 8620 }, { "epoch": 14.375, "grad_norm": 0.00040784775046631694, "learning_rate": 8.377777777777779e-06, "loss": 0.0001, "step": 8625 }, { "epoch": 14.383333333333333, "grad_norm": 0.00032440759241580963, "learning_rate": 8.266666666666667e-06, "loss": 0.0001, "step": 8630 }, { "epoch": 14.391666666666667, "grad_norm": 0.0002910681942012161, "learning_rate": 8.155555555555556e-06, "loss": 0.0001, "step": 8635 }, { "epoch": 14.4, "grad_norm": 0.00038870779098942876, "learning_rate": 8.044444444444444e-06, "loss": 0.0001, "step": 8640 }, { "epoch": 14.408333333333333, "grad_norm": 0.0003435661201365292, "learning_rate": 7.933333333333334e-06, "loss": 0.0001, "step": 8645 }, { "epoch": 14.416666666666666, "grad_norm": 0.0003127196978311986, "learning_rate": 7.822222222222222e-06, "loss": 0.0001, "step": 8650 }, { "epoch": 14.425, "grad_norm": 0.0003209597198292613, "learning_rate": 7.711111111111112e-06, "loss": 0.0001, "step": 8655 }, { "epoch": 14.433333333333334, "grad_norm": 0.0003321100666653365, "learning_rate": 7.6e-06, "loss": 0.0001, "step": 8660 }, { "epoch": 14.441666666666666, "grad_norm": 0.00030726054683327675, "learning_rate": 7.48888888888889e-06, "loss": 0.0001, "step": 8665 }, { "epoch": 14.45, "grad_norm": 0.00032573178759776056, "learning_rate": 7.377777777777778e-06, "loss": 0.0001, "step": 8670 }, { "epoch": 14.458333333333334, "grad_norm": 0.0002996810944750905, "learning_rate": 7.266666666666668e-06, "loss": 0.0001, "step": 8675 }, { "epoch": 14.466666666666667, "grad_norm": 0.00046270564780570567, "learning_rate": 7.155555555555556e-06, "loss": 0.0001, "step": 8680 }, { "epoch": 14.475, "grad_norm": 0.00030952150700613856, "learning_rate": 7.0444444444444455e-06, "loss": 0.0001, "step": 8685 }, { "epoch": 14.483333333333333, "grad_norm": 0.00033105345210060477, "learning_rate": 6.933333333333334e-06, "loss": 0.0001, "step": 8690 }, { "epoch": 14.491666666666667, "grad_norm": 0.00032249282230623066, "learning_rate": 6.8222222222222225e-06, "loss": 0.0001, "step": 8695 }, { "epoch": 14.5, "grad_norm": 0.00029874773463234305, "learning_rate": 6.711111111111111e-06, "loss": 0.0001, "step": 8700 }, { "epoch": 14.5, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8253917352526898, "eval_loss": 1.418643593788147, "eval_precision": 0.8573827901425399, "eval_recall": 0.8241666666666667, "eval_runtime": 20.2639, "eval_samples_per_second": 118.437, "eval_steps_per_second": 14.805, "step": 8700 }, { "epoch": 14.508333333333333, "grad_norm": 0.0003288841980975121, "learning_rate": 6.6e-06, "loss": 0.0001, "step": 8705 }, { "epoch": 14.516666666666667, "grad_norm": 0.00032262009335681796, "learning_rate": 6.488888888888888e-06, "loss": 0.0001, "step": 8710 }, { "epoch": 14.525, "grad_norm": 0.0004114665789529681, "learning_rate": 6.377777777777778e-06, "loss": 0.0001, "step": 8715 }, { "epoch": 14.533333333333333, "grad_norm": 0.00032446839031763375, "learning_rate": 6.266666666666666e-06, "loss": 0.0001, "step": 8720 }, { "epoch": 14.541666666666666, "grad_norm": 0.00039629387902095914, "learning_rate": 6.155555555555556e-06, "loss": 0.0001, "step": 8725 }, { "epoch": 14.55, "grad_norm": 0.000456485926406458, "learning_rate": 6.044444444444445e-06, "loss": 0.0001, "step": 8730 }, { "epoch": 14.558333333333334, "grad_norm": 0.00033100374275818467, "learning_rate": 5.933333333333334e-06, "loss": 0.0001, "step": 8735 }, { "epoch": 14.566666666666666, "grad_norm": 0.0003677963395603001, "learning_rate": 5.822222222222223e-06, "loss": 0.0001, "step": 8740 }, { "epoch": 14.575, "grad_norm": 0.00029217012342996895, "learning_rate": 5.711111111111112e-06, "loss": 0.0001, "step": 8745 }, { "epoch": 14.583333333333334, "grad_norm": 0.00029486248968169093, "learning_rate": 5.600000000000001e-06, "loss": 0.0001, "step": 8750 }, { "epoch": 14.591666666666667, "grad_norm": 0.00033162676845677197, "learning_rate": 5.4888888888888895e-06, "loss": 0.0001, "step": 8755 }, { "epoch": 14.6, "grad_norm": 0.0005571521469391882, "learning_rate": 5.3777777777777784e-06, "loss": 0.0001, "step": 8760 }, { "epoch": 14.608333333333333, "grad_norm": 0.00029558796086348593, "learning_rate": 5.266666666666667e-06, "loss": 0.0001, "step": 8765 }, { "epoch": 14.616666666666667, "grad_norm": 0.00031574894092045724, "learning_rate": 5.155555555555555e-06, "loss": 0.0001, "step": 8770 }, { "epoch": 14.625, "grad_norm": 0.00040991679998114705, "learning_rate": 5.044444444444444e-06, "loss": 0.0001, "step": 8775 }, { "epoch": 14.633333333333333, "grad_norm": 0.00031708585447631776, "learning_rate": 4.933333333333333e-06, "loss": 0.0001, "step": 8780 }, { "epoch": 14.641666666666667, "grad_norm": 0.00039245927473530173, "learning_rate": 4.822222222222222e-06, "loss": 0.0001, "step": 8785 }, { "epoch": 14.65, "grad_norm": 0.0003353845386300236, "learning_rate": 4.711111111111111e-06, "loss": 0.0001, "step": 8790 }, { "epoch": 14.658333333333333, "grad_norm": 0.000453892134828493, "learning_rate": 4.6e-06, "loss": 0.0001, "step": 8795 }, { "epoch": 14.666666666666666, "grad_norm": 0.00033166087814606726, "learning_rate": 4.488888888888889e-06, "loss": 0.0001, "step": 8800 }, { "epoch": 14.666666666666666, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8253917352526898, "eval_loss": 1.419190526008606, "eval_precision": 0.8573827901425399, "eval_recall": 0.8241666666666667, "eval_runtime": 19.6179, "eval_samples_per_second": 122.337, "eval_steps_per_second": 15.292, "step": 8800 }, { "epoch": 14.675, "grad_norm": 0.00032048451248556376, "learning_rate": 4.377777777777778e-06, "loss": 0.0001, "step": 8805 }, { "epoch": 14.683333333333334, "grad_norm": 0.00042022488196380436, "learning_rate": 4.266666666666667e-06, "loss": 0.0001, "step": 8810 }, { "epoch": 14.691666666666666, "grad_norm": 0.000267522205831483, "learning_rate": 4.155555555555556e-06, "loss": 0.0001, "step": 8815 }, { "epoch": 14.7, "grad_norm": 0.0003261179372202605, "learning_rate": 4.044444444444445e-06, "loss": 0.0001, "step": 8820 }, { "epoch": 14.708333333333334, "grad_norm": 0.0003284654812887311, "learning_rate": 3.9333333333333335e-06, "loss": 0.0001, "step": 8825 }, { "epoch": 14.716666666666667, "grad_norm": 0.0003550841938704252, "learning_rate": 3.8222222222222224e-06, "loss": 0.0001, "step": 8830 }, { "epoch": 14.725, "grad_norm": 0.00032094665220938623, "learning_rate": 3.711111111111111e-06, "loss": 0.0001, "step": 8835 }, { "epoch": 14.733333333333333, "grad_norm": 0.00028344575548544526, "learning_rate": 3.6e-06, "loss": 0.0001, "step": 8840 }, { "epoch": 14.741666666666667, "grad_norm": 0.0002945625747088343, "learning_rate": 3.4888888888888888e-06, "loss": 0.0001, "step": 8845 }, { "epoch": 14.75, "grad_norm": 0.0003473708056844771, "learning_rate": 3.3777777777777777e-06, "loss": 0.0001, "step": 8850 }, { "epoch": 14.758333333333333, "grad_norm": 0.0003136787563562393, "learning_rate": 3.2666666666666666e-06, "loss": 0.0001, "step": 8855 }, { "epoch": 14.766666666666667, "grad_norm": 0.00028752823709510267, "learning_rate": 3.155555555555556e-06, "loss": 0.0001, "step": 8860 }, { "epoch": 14.775, "grad_norm": 0.000316179939545691, "learning_rate": 3.0444444444444444e-06, "loss": 0.0001, "step": 8865 }, { "epoch": 14.783333333333333, "grad_norm": 0.00033353944309055805, "learning_rate": 2.9333333333333333e-06, "loss": 0.0001, "step": 8870 }, { "epoch": 14.791666666666666, "grad_norm": 0.00031073138234205544, "learning_rate": 2.8222222222222223e-06, "loss": 0.0001, "step": 8875 }, { "epoch": 14.8, "grad_norm": 0.00041760035674087703, "learning_rate": 2.711111111111111e-06, "loss": 0.0001, "step": 8880 }, { "epoch": 14.808333333333334, "grad_norm": 0.00038239179411903024, "learning_rate": 2.6e-06, "loss": 0.0001, "step": 8885 }, { "epoch": 14.816666666666666, "grad_norm": 0.00038238035631366074, "learning_rate": 2.488888888888889e-06, "loss": 0.0001, "step": 8890 }, { "epoch": 14.825, "grad_norm": 0.0003121039771940559, "learning_rate": 2.377777777777778e-06, "loss": 0.0001, "step": 8895 }, { "epoch": 14.833333333333334, "grad_norm": 0.0003342683194205165, "learning_rate": 2.266666666666667e-06, "loss": 0.0001, "step": 8900 }, { "epoch": 14.833333333333334, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8253917352526898, "eval_loss": 1.4197375774383545, "eval_precision": 0.8573827901425399, "eval_recall": 0.8241666666666667, "eval_runtime": 18.8063, "eval_samples_per_second": 127.617, "eval_steps_per_second": 15.952, "step": 8900 }, { "epoch": 14.841666666666667, "grad_norm": 0.00035432775621302426, "learning_rate": 2.1555555555555558e-06, "loss": 0.0001, "step": 8905 }, { "epoch": 14.85, "grad_norm": 0.00036676027229987085, "learning_rate": 2.0444444444444447e-06, "loss": 0.0001, "step": 8910 }, { "epoch": 14.858333333333333, "grad_norm": 0.00043310420005582273, "learning_rate": 1.9333333333333336e-06, "loss": 0.0001, "step": 8915 }, { "epoch": 14.866666666666667, "grad_norm": 0.00031130158458836377, "learning_rate": 1.8222222222222223e-06, "loss": 0.0001, "step": 8920 }, { "epoch": 14.875, "grad_norm": 0.0002939142577815801, "learning_rate": 1.7111111111111112e-06, "loss": 0.0001, "step": 8925 }, { "epoch": 14.883333333333333, "grad_norm": 0.00038912208401598036, "learning_rate": 1.6000000000000001e-06, "loss": 0.0001, "step": 8930 }, { "epoch": 14.891666666666667, "grad_norm": 0.0003677493950817734, "learning_rate": 1.488888888888889e-06, "loss": 0.0001, "step": 8935 }, { "epoch": 14.9, "grad_norm": 0.00030830351170152426, "learning_rate": 1.3777777777777778e-06, "loss": 0.0001, "step": 8940 }, { "epoch": 14.908333333333333, "grad_norm": 0.00034665281418710947, "learning_rate": 1.2666666666666667e-06, "loss": 0.0001, "step": 8945 }, { "epoch": 14.916666666666666, "grad_norm": 0.00035094842314720154, "learning_rate": 1.1555555555555556e-06, "loss": 0.0001, "step": 8950 }, { "epoch": 14.925, "grad_norm": 0.00031136226607486606, "learning_rate": 1.0444444444444445e-06, "loss": 0.0001, "step": 8955 }, { "epoch": 14.933333333333334, "grad_norm": 0.00037354990490712225, "learning_rate": 9.333333333333334e-07, "loss": 0.0001, "step": 8960 }, { "epoch": 14.941666666666666, "grad_norm": 0.00040528515819460154, "learning_rate": 8.222222222222223e-07, "loss": 0.0001, "step": 8965 }, { "epoch": 14.95, "grad_norm": 0.00032020226353779435, "learning_rate": 7.111111111111112e-07, "loss": 0.0001, "step": 8970 }, { "epoch": 14.958333333333334, "grad_norm": 0.0002966771135106683, "learning_rate": 6.000000000000001e-07, "loss": 0.0001, "step": 8975 }, { "epoch": 14.966666666666667, "grad_norm": 0.00030583818443119526, "learning_rate": 4.888888888888889e-07, "loss": 0.0001, "step": 8980 }, { "epoch": 14.975, "grad_norm": 0.00029550286126323044, "learning_rate": 3.777777777777778e-07, "loss": 0.0001, "step": 8985 }, { "epoch": 14.983333333333333, "grad_norm": 0.00028674560599029064, "learning_rate": 2.6666666666666667e-07, "loss": 0.0001, "step": 8990 }, { "epoch": 14.991666666666667, "grad_norm": 0.00027991042588837445, "learning_rate": 1.5555555555555556e-07, "loss": 0.0001, "step": 8995 }, { "epoch": 15.0, "grad_norm": 0.00030722483643330634, "learning_rate": 4.444444444444445e-08, "loss": 0.0001, "step": 9000 }, { "epoch": 15.0, "eval_accuracy": 0.8241666666666667, "eval_f1": 0.8253917352526898, "eval_loss": 1.4199734926223755, "eval_precision": 0.8573827901425399, "eval_recall": 0.8241666666666667, "eval_runtime": 18.7517, "eval_samples_per_second": 127.988, "eval_steps_per_second": 15.999, "step": 9000 }, { "epoch": 15.0, "step": 9000, "total_flos": 1.115924655734784e+19, "train_loss": 0.04577389787799782, "train_runtime": 3268.1428, "train_samples_per_second": 44.062, "train_steps_per_second": 2.754 } ], "logging_steps": 5, "max_steps": 9000, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.115924655734784e+19, "train_batch_size": 16, "trial_name": null, "trial_params": null }