{ "best_metric": 0.5090746879577637, "best_model_checkpoint": "vit-base-kidney-stone-5-Jonathan_El-Beze_-w256_1k_v1-_SUR\\checkpoint-300", "epoch": 15.0, "eval_steps": 100, "global_step": 4500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, "grad_norm": 2.208289623260498, "learning_rate": 0.0001997777777777778, "loss": 1.7209, "step": 5 }, { "epoch": 0.03333333333333333, "grad_norm": 2.1859800815582275, "learning_rate": 0.00019955555555555558, "loss": 1.4042, "step": 10 }, { "epoch": 0.05, "grad_norm": 3.6672606468200684, "learning_rate": 0.00019933333333333334, "loss": 1.3045, "step": 15 }, { "epoch": 0.06666666666666667, "grad_norm": 2.0550994873046875, "learning_rate": 0.00019911111111111111, "loss": 1.018, "step": 20 }, { "epoch": 0.08333333333333333, "grad_norm": 2.3794546127319336, "learning_rate": 0.0001988888888888889, "loss": 0.787, "step": 25 }, { "epoch": 0.1, "grad_norm": 1.7275760173797607, "learning_rate": 0.00019866666666666668, "loss": 0.6651, "step": 30 }, { "epoch": 0.11666666666666667, "grad_norm": 3.5090646743774414, "learning_rate": 0.00019844444444444445, "loss": 0.722, "step": 35 }, { "epoch": 0.13333333333333333, "grad_norm": 5.817049980163574, "learning_rate": 0.00019822222222222225, "loss": 0.6728, "step": 40 }, { "epoch": 0.15, "grad_norm": 3.381983518600464, "learning_rate": 0.00019800000000000002, "loss": 0.772, "step": 45 }, { "epoch": 0.16666666666666666, "grad_norm": 2.2961716651916504, "learning_rate": 0.00019777777777777778, "loss": 0.5605, "step": 50 }, { "epoch": 0.18333333333333332, "grad_norm": 3.2704546451568604, "learning_rate": 0.00019755555555555555, "loss": 0.4023, "step": 55 }, { "epoch": 0.2, "grad_norm": 1.084259033203125, "learning_rate": 0.00019733333333333335, "loss": 0.4112, "step": 60 }, { "epoch": 0.21666666666666667, "grad_norm": 1.0876542329788208, "learning_rate": 0.00019711111111111112, "loss": 0.5516, "step": 65 }, { "epoch": 0.23333333333333334, "grad_norm": 2.11075496673584, "learning_rate": 0.0001968888888888889, "loss": 0.5288, "step": 70 }, { "epoch": 0.25, "grad_norm": 4.502438068389893, "learning_rate": 0.00019666666666666666, "loss": 0.5109, "step": 75 }, { "epoch": 0.26666666666666666, "grad_norm": 6.044731616973877, "learning_rate": 0.00019644444444444445, "loss": 0.2648, "step": 80 }, { "epoch": 0.2833333333333333, "grad_norm": 5.056354999542236, "learning_rate": 0.00019622222222222225, "loss": 0.3038, "step": 85 }, { "epoch": 0.3, "grad_norm": 0.47962576150894165, "learning_rate": 0.000196, "loss": 0.2568, "step": 90 }, { "epoch": 0.31666666666666665, "grad_norm": 5.804176330566406, "learning_rate": 0.0001957777777777778, "loss": 0.3157, "step": 95 }, { "epoch": 0.3333333333333333, "grad_norm": 1.163446307182312, "learning_rate": 0.00019555555555555556, "loss": 0.2613, "step": 100 }, { "epoch": 0.3333333333333333, "eval_accuracy": 0.7883333333333333, "eval_f1": 0.7915238697775755, "eval_loss": 0.6234478950500488, "eval_precision": 0.8363841678947798, "eval_recall": 0.7883333333333333, "eval_runtime": 8.5672, "eval_samples_per_second": 140.07, "eval_steps_per_second": 17.509, "step": 100 }, { "epoch": 0.35, "grad_norm": 4.552916526794434, "learning_rate": 0.00019533333333333336, "loss": 0.2243, "step": 105 }, { "epoch": 0.36666666666666664, "grad_norm": 1.738736867904663, "learning_rate": 0.0001951111111111111, "loss": 0.1824, "step": 110 }, { "epoch": 0.38333333333333336, "grad_norm": 8.762458801269531, "learning_rate": 0.0001948888888888889, "loss": 0.3327, "step": 115 }, { "epoch": 0.4, "grad_norm": 2.6049439907073975, "learning_rate": 0.0001946666666666667, "loss": 0.2434, "step": 120 }, { "epoch": 0.4166666666666667, "grad_norm": 3.3248531818389893, "learning_rate": 0.00019444444444444446, "loss": 0.2267, "step": 125 }, { "epoch": 0.43333333333333335, "grad_norm": 3.354048013687134, "learning_rate": 0.00019422222222222223, "loss": 0.4415, "step": 130 }, { "epoch": 0.45, "grad_norm": 4.555789470672607, "learning_rate": 0.000194, "loss": 0.3899, "step": 135 }, { "epoch": 0.4666666666666667, "grad_norm": 0.8254397511482239, "learning_rate": 0.0001937777777777778, "loss": 0.3747, "step": 140 }, { "epoch": 0.48333333333333334, "grad_norm": 2.474085569381714, "learning_rate": 0.00019355555555555557, "loss": 0.268, "step": 145 }, { "epoch": 0.5, "grad_norm": 1.2710399627685547, "learning_rate": 0.00019333333333333333, "loss": 0.1617, "step": 150 }, { "epoch": 0.5166666666666667, "grad_norm": 1.4239128828048706, "learning_rate": 0.0001931111111111111, "loss": 0.1142, "step": 155 }, { "epoch": 0.5333333333333333, "grad_norm": 0.8507234454154968, "learning_rate": 0.0001928888888888889, "loss": 0.1646, "step": 160 }, { "epoch": 0.55, "grad_norm": 1.5107651948928833, "learning_rate": 0.0001926666666666667, "loss": 0.1634, "step": 165 }, { "epoch": 0.5666666666666667, "grad_norm": 1.7994493246078491, "learning_rate": 0.00019244444444444444, "loss": 0.1622, "step": 170 }, { "epoch": 0.5833333333333334, "grad_norm": 3.9629430770874023, "learning_rate": 0.00019222222222222224, "loss": 0.3373, "step": 175 }, { "epoch": 0.6, "grad_norm": 0.22704611718654633, "learning_rate": 0.000192, "loss": 0.1699, "step": 180 }, { "epoch": 0.6166666666666667, "grad_norm": 2.482250928878784, "learning_rate": 0.0001917777777777778, "loss": 0.2278, "step": 185 }, { "epoch": 0.6333333333333333, "grad_norm": 2.1992948055267334, "learning_rate": 0.00019155555555555554, "loss": 0.2637, "step": 190 }, { "epoch": 0.65, "grad_norm": 0.4465661346912384, "learning_rate": 0.00019133333333333334, "loss": 0.1562, "step": 195 }, { "epoch": 0.6666666666666666, "grad_norm": 1.3790558576583862, "learning_rate": 0.00019111111111111114, "loss": 0.1745, "step": 200 }, { "epoch": 0.6666666666666666, "eval_accuracy": 0.7341666666666666, "eval_f1": 0.7087833072622064, "eval_loss": 0.7693394422531128, "eval_precision": 0.773865264943083, "eval_recall": 0.7341666666666666, "eval_runtime": 8.8932, "eval_samples_per_second": 134.935, "eval_steps_per_second": 16.867, "step": 200 }, { "epoch": 0.6833333333333333, "grad_norm": 7.197749137878418, "learning_rate": 0.0001908888888888889, "loss": 0.3024, "step": 205 }, { "epoch": 0.7, "grad_norm": 2.7111029624938965, "learning_rate": 0.00019066666666666668, "loss": 0.1861, "step": 210 }, { "epoch": 0.7166666666666667, "grad_norm": 3.2437264919281006, "learning_rate": 0.00019044444444444444, "loss": 0.2536, "step": 215 }, { "epoch": 0.7333333333333333, "grad_norm": 2.303571939468384, "learning_rate": 0.00019022222222222224, "loss": 0.1467, "step": 220 }, { "epoch": 0.75, "grad_norm": 0.25484490394592285, "learning_rate": 0.00019, "loss": 0.1108, "step": 225 }, { "epoch": 0.7666666666666667, "grad_norm": 0.5674318075180054, "learning_rate": 0.00018977777777777778, "loss": 0.1629, "step": 230 }, { "epoch": 0.7833333333333333, "grad_norm": 4.876891136169434, "learning_rate": 0.00018955555555555558, "loss": 0.0795, "step": 235 }, { "epoch": 0.8, "grad_norm": 0.25859981775283813, "learning_rate": 0.00018933333333333335, "loss": 0.2467, "step": 240 }, { "epoch": 0.8166666666666667, "grad_norm": 0.5743807554244995, "learning_rate": 0.00018911111111111112, "loss": 0.1314, "step": 245 }, { "epoch": 0.8333333333333334, "grad_norm": 6.680776596069336, "learning_rate": 0.00018888888888888888, "loss": 0.1592, "step": 250 }, { "epoch": 0.85, "grad_norm": 4.162766456604004, "learning_rate": 0.00018866666666666668, "loss": 0.2424, "step": 255 }, { "epoch": 0.8666666666666667, "grad_norm": 12.550395965576172, "learning_rate": 0.00018844444444444445, "loss": 0.3104, "step": 260 }, { "epoch": 0.8833333333333333, "grad_norm": 1.7621504068374634, "learning_rate": 0.00018822222222222222, "loss": 0.1626, "step": 265 }, { "epoch": 0.9, "grad_norm": 1.5526984930038452, "learning_rate": 0.000188, "loss": 0.1074, "step": 270 }, { "epoch": 0.9166666666666666, "grad_norm": 17.203044891357422, "learning_rate": 0.00018777777777777779, "loss": 0.1801, "step": 275 }, { "epoch": 0.9333333333333333, "grad_norm": 1.106997013092041, "learning_rate": 0.00018755555555555558, "loss": 0.1131, "step": 280 }, { "epoch": 0.95, "grad_norm": 1.7709431648254395, "learning_rate": 0.00018733333333333335, "loss": 0.0556, "step": 285 }, { "epoch": 0.9666666666666667, "grad_norm": 2.8498892784118652, "learning_rate": 0.00018711111111111112, "loss": 0.1977, "step": 290 }, { "epoch": 0.9833333333333333, "grad_norm": 2.6095733642578125, "learning_rate": 0.0001868888888888889, "loss": 0.1221, "step": 295 }, { "epoch": 1.0, "grad_norm": 2.336395025253296, "learning_rate": 0.0001866666666666667, "loss": 0.1303, "step": 300 }, { "epoch": 1.0, "eval_accuracy": 0.8616666666666667, "eval_f1": 0.8604478619877372, "eval_loss": 0.5090746879577637, "eval_precision": 0.8756807267844546, "eval_recall": 0.8616666666666667, "eval_runtime": 8.5876, "eval_samples_per_second": 139.737, "eval_steps_per_second": 17.467, "step": 300 }, { "epoch": 1.0166666666666666, "grad_norm": 0.06966517865657806, "learning_rate": 0.00018644444444444446, "loss": 0.0286, "step": 305 }, { "epoch": 1.0333333333333334, "grad_norm": 0.09925777465105057, "learning_rate": 0.00018622222222222223, "loss": 0.0269, "step": 310 }, { "epoch": 1.05, "grad_norm": 1.217972755432129, "learning_rate": 0.00018600000000000002, "loss": 0.0856, "step": 315 }, { "epoch": 1.0666666666666667, "grad_norm": 4.045693397521973, "learning_rate": 0.0001857777777777778, "loss": 0.0529, "step": 320 }, { "epoch": 1.0833333333333333, "grad_norm": 0.08343147486448288, "learning_rate": 0.00018555555555555556, "loss": 0.0181, "step": 325 }, { "epoch": 1.1, "grad_norm": 0.054219767451286316, "learning_rate": 0.00018533333333333333, "loss": 0.0143, "step": 330 }, { "epoch": 1.1166666666666667, "grad_norm": 0.08753052353858948, "learning_rate": 0.00018511111111111113, "loss": 0.0554, "step": 335 }, { "epoch": 1.1333333333333333, "grad_norm": 2.694857358932495, "learning_rate": 0.0001848888888888889, "loss": 0.0761, "step": 340 }, { "epoch": 1.15, "grad_norm": 0.05108467489480972, "learning_rate": 0.00018466666666666666, "loss": 0.0197, "step": 345 }, { "epoch": 1.1666666666666667, "grad_norm": 0.3109508752822876, "learning_rate": 0.00018448888888888889, "loss": 0.1338, "step": 350 }, { "epoch": 1.1833333333333333, "grad_norm": 0.8587603569030762, "learning_rate": 0.00018426666666666668, "loss": 0.1605, "step": 355 }, { "epoch": 1.2, "grad_norm": 1.0719205141067505, "learning_rate": 0.00018404444444444445, "loss": 0.1398, "step": 360 }, { "epoch": 1.2166666666666668, "grad_norm": 5.571323871612549, "learning_rate": 0.00018382222222222222, "loss": 0.2198, "step": 365 }, { "epoch": 1.2333333333333334, "grad_norm": 0.0623321570456028, "learning_rate": 0.00018360000000000002, "loss": 0.0193, "step": 370 }, { "epoch": 1.25, "grad_norm": 0.7513957023620605, "learning_rate": 0.0001833777777777778, "loss": 0.0408, "step": 375 }, { "epoch": 1.2666666666666666, "grad_norm": 2.5169761180877686, "learning_rate": 0.00018315555555555556, "loss": 0.1343, "step": 380 }, { "epoch": 1.2833333333333332, "grad_norm": 5.885697841644287, "learning_rate": 0.00018293333333333333, "loss": 0.0913, "step": 385 }, { "epoch": 1.3, "grad_norm": 0.1251125931739807, "learning_rate": 0.00018271111111111112, "loss": 0.0453, "step": 390 }, { "epoch": 1.3166666666666667, "grad_norm": 3.2245686054229736, "learning_rate": 0.0001824888888888889, "loss": 0.0975, "step": 395 }, { "epoch": 1.3333333333333333, "grad_norm": 0.050698306411504745, "learning_rate": 0.0001822666666666667, "loss": 0.0163, "step": 400 }, { "epoch": 1.3333333333333333, "eval_accuracy": 0.8708333333333333, "eval_f1": 0.8705551945861907, "eval_loss": 0.5309242010116577, "eval_precision": 0.8869096899547119, "eval_recall": 0.8708333333333333, "eval_runtime": 8.5095, "eval_samples_per_second": 141.019, "eval_steps_per_second": 17.627, "step": 400 }, { "epoch": 1.35, "grad_norm": 4.094293117523193, "learning_rate": 0.00018204444444444446, "loss": 0.0233, "step": 405 }, { "epoch": 1.3666666666666667, "grad_norm": 0.0671314224600792, "learning_rate": 0.00018182222222222223, "loss": 0.0854, "step": 410 }, { "epoch": 1.3833333333333333, "grad_norm": 0.042328402400016785, "learning_rate": 0.00018160000000000002, "loss": 0.0101, "step": 415 }, { "epoch": 1.4, "grad_norm": 0.09067436307668686, "learning_rate": 0.0001813777777777778, "loss": 0.022, "step": 420 }, { "epoch": 1.4166666666666667, "grad_norm": 0.0499679297208786, "learning_rate": 0.00018115555555555556, "loss": 0.1306, "step": 425 }, { "epoch": 1.4333333333333333, "grad_norm": 0.04644998162984848, "learning_rate": 0.00018093333333333333, "loss": 0.1098, "step": 430 }, { "epoch": 1.45, "grad_norm": 1.732666254043579, "learning_rate": 0.00018071111111111113, "loss": 0.2266, "step": 435 }, { "epoch": 1.4666666666666668, "grad_norm": 2.232651948928833, "learning_rate": 0.0001804888888888889, "loss": 0.1363, "step": 440 }, { "epoch": 1.4833333333333334, "grad_norm": 7.544521808624268, "learning_rate": 0.00018026666666666667, "loss": 0.1555, "step": 445 }, { "epoch": 1.5, "grad_norm": 0.05003746226429939, "learning_rate": 0.00018004444444444446, "loss": 0.0794, "step": 450 }, { "epoch": 1.5166666666666666, "grad_norm": 0.1106652095913887, "learning_rate": 0.00017982222222222223, "loss": 0.0275, "step": 455 }, { "epoch": 1.5333333333333332, "grad_norm": 0.6483151316642761, "learning_rate": 0.0001796, "loss": 0.0623, "step": 460 }, { "epoch": 1.55, "grad_norm": 0.03340791165828705, "learning_rate": 0.00017937777777777777, "loss": 0.0186, "step": 465 }, { "epoch": 1.5666666666666667, "grad_norm": 0.05372637137770653, "learning_rate": 0.00017915555555555557, "loss": 0.0577, "step": 470 }, { "epoch": 1.5833333333333335, "grad_norm": 6.220208168029785, "learning_rate": 0.00017893333333333336, "loss": 0.078, "step": 475 }, { "epoch": 1.6, "grad_norm": 2.3692970275878906, "learning_rate": 0.0001787111111111111, "loss": 0.0538, "step": 480 }, { "epoch": 1.6166666666666667, "grad_norm": 2.149282217025757, "learning_rate": 0.0001784888888888889, "loss": 0.1104, "step": 485 }, { "epoch": 1.6333333333333333, "grad_norm": 13.554374694824219, "learning_rate": 0.00017826666666666667, "loss": 0.0369, "step": 490 }, { "epoch": 1.65, "grad_norm": 13.917972564697266, "learning_rate": 0.00017804444444444447, "loss": 0.2596, "step": 495 }, { "epoch": 1.6666666666666665, "grad_norm": 0.07077931612730026, "learning_rate": 0.0001778222222222222, "loss": 0.009, "step": 500 }, { "epoch": 1.6666666666666665, "eval_accuracy": 0.7725, "eval_f1": 0.7705648543574429, "eval_loss": 0.9663403034210205, "eval_precision": 0.8344746036547038, "eval_recall": 0.7725, "eval_runtime": 8.8057, "eval_samples_per_second": 136.276, "eval_steps_per_second": 17.034, "step": 500 }, { "epoch": 1.6833333333333333, "grad_norm": 3.8385181427001953, "learning_rate": 0.0001776, "loss": 0.1271, "step": 505 }, { "epoch": 1.7, "grad_norm": 0.050812650471925735, "learning_rate": 0.00017737777777777778, "loss": 0.0703, "step": 510 }, { "epoch": 1.7166666666666668, "grad_norm": 0.060619790107011795, "learning_rate": 0.00017715555555555557, "loss": 0.0573, "step": 515 }, { "epoch": 1.7333333333333334, "grad_norm": 0.21368597447872162, "learning_rate": 0.00017693333333333334, "loss": 0.0986, "step": 520 }, { "epoch": 1.75, "grad_norm": 0.27332666516304016, "learning_rate": 0.0001767111111111111, "loss": 0.0316, "step": 525 }, { "epoch": 1.7666666666666666, "grad_norm": 0.07889816910028458, "learning_rate": 0.0001764888888888889, "loss": 0.1684, "step": 530 }, { "epoch": 1.7833333333333332, "grad_norm": 4.718958854675293, "learning_rate": 0.00017626666666666668, "loss": 0.1448, "step": 535 }, { "epoch": 1.8, "grad_norm": 0.11263217777013779, "learning_rate": 0.00017604444444444445, "loss": 0.1226, "step": 540 }, { "epoch": 1.8166666666666667, "grad_norm": 5.056457042694092, "learning_rate": 0.00017582222222222222, "loss": 0.0652, "step": 545 }, { "epoch": 1.8333333333333335, "grad_norm": 0.03880561888217926, "learning_rate": 0.0001756, "loss": 0.0493, "step": 550 }, { "epoch": 1.85, "grad_norm": 0.1066993921995163, "learning_rate": 0.0001753777777777778, "loss": 0.1305, "step": 555 }, { "epoch": 1.8666666666666667, "grad_norm": 0.03981771692633629, "learning_rate": 0.00017515555555555555, "loss": 0.0347, "step": 560 }, { "epoch": 1.8833333333333333, "grad_norm": 0.031449705362319946, "learning_rate": 0.00017493333333333335, "loss": 0.1224, "step": 565 }, { "epoch": 1.9, "grad_norm": 0.026092467829585075, "learning_rate": 0.00017471111111111112, "loss": 0.0135, "step": 570 }, { "epoch": 1.9166666666666665, "grad_norm": 0.047221601009368896, "learning_rate": 0.00017448888888888891, "loss": 0.043, "step": 575 }, { "epoch": 1.9333333333333333, "grad_norm": 0.03607597202062607, "learning_rate": 0.00017426666666666666, "loss": 0.01, "step": 580 }, { "epoch": 1.95, "grad_norm": 0.04113628342747688, "learning_rate": 0.00017404444444444445, "loss": 0.0089, "step": 585 }, { "epoch": 1.9666666666666668, "grad_norm": 0.08356430381536484, "learning_rate": 0.00017382222222222222, "loss": 0.0055, "step": 590 }, { "epoch": 1.9833333333333334, "grad_norm": 0.03293712064623833, "learning_rate": 0.00017360000000000002, "loss": 0.0429, "step": 595 }, { "epoch": 2.0, "grad_norm": 13.886670112609863, "learning_rate": 0.0001733777777777778, "loss": 0.0221, "step": 600 }, { "epoch": 2.0, "eval_accuracy": 0.7225, "eval_f1": 0.7218843579476422, "eval_loss": 1.3265354633331299, "eval_precision": 0.8132869714150721, "eval_recall": 0.7225, "eval_runtime": 8.5616, "eval_samples_per_second": 140.161, "eval_steps_per_second": 17.52, "step": 600 }, { "epoch": 2.0166666666666666, "grad_norm": 0.03838833421468735, "learning_rate": 0.00017315555555555556, "loss": 0.1313, "step": 605 }, { "epoch": 2.033333333333333, "grad_norm": 0.044966407120227814, "learning_rate": 0.00017293333333333335, "loss": 0.0065, "step": 610 }, { "epoch": 2.05, "grad_norm": 4.306401252746582, "learning_rate": 0.00017271111111111112, "loss": 0.2553, "step": 615 }, { "epoch": 2.066666666666667, "grad_norm": 0.309880793094635, "learning_rate": 0.0001724888888888889, "loss": 0.0536, "step": 620 }, { "epoch": 2.0833333333333335, "grad_norm": 0.08983626216650009, "learning_rate": 0.00017226666666666666, "loss": 0.0166, "step": 625 }, { "epoch": 2.1, "grad_norm": 0.08470829576253891, "learning_rate": 0.00017204444444444446, "loss": 0.0094, "step": 630 }, { "epoch": 2.1166666666666667, "grad_norm": 5.469742298126221, "learning_rate": 0.00017182222222222223, "loss": 0.0705, "step": 635 }, { "epoch": 2.1333333333333333, "grad_norm": 0.0532383918762207, "learning_rate": 0.0001716, "loss": 0.0936, "step": 640 }, { "epoch": 2.15, "grad_norm": 0.03499307855963707, "learning_rate": 0.0001713777777777778, "loss": 0.0185, "step": 645 }, { "epoch": 2.1666666666666665, "grad_norm": 3.0164413452148438, "learning_rate": 0.00017115555555555556, "loss": 0.0129, "step": 650 }, { "epoch": 2.183333333333333, "grad_norm": 0.04029814526438713, "learning_rate": 0.00017093333333333333, "loss": 0.0331, "step": 655 }, { "epoch": 2.2, "grad_norm": 4.0708794593811035, "learning_rate": 0.0001707111111111111, "loss": 0.0915, "step": 660 }, { "epoch": 2.216666666666667, "grad_norm": 0.044113241136074066, "learning_rate": 0.0001704888888888889, "loss": 0.0491, "step": 665 }, { "epoch": 2.2333333333333334, "grad_norm": 0.06674450635910034, "learning_rate": 0.0001702666666666667, "loss": 0.0061, "step": 670 }, { "epoch": 2.25, "grad_norm": 0.024389464408159256, "learning_rate": 0.00017004444444444446, "loss": 0.0695, "step": 675 }, { "epoch": 2.2666666666666666, "grad_norm": 0.01655452884733677, "learning_rate": 0.00016982222222222223, "loss": 0.0047, "step": 680 }, { "epoch": 2.283333333333333, "grad_norm": 0.6704605221748352, "learning_rate": 0.0001696, "loss": 0.0068, "step": 685 }, { "epoch": 2.3, "grad_norm": 0.01743842102587223, "learning_rate": 0.0001693777777777778, "loss": 0.0047, "step": 690 }, { "epoch": 2.3166666666666664, "grad_norm": 0.012950308620929718, "learning_rate": 0.00016915555555555557, "loss": 0.106, "step": 695 }, { "epoch": 2.3333333333333335, "grad_norm": 0.0696750059723854, "learning_rate": 0.00016893333333333334, "loss": 0.0053, "step": 700 }, { "epoch": 2.3333333333333335, "eval_accuracy": 0.8408333333333333, "eval_f1": 0.8365911985560789, "eval_loss": 0.8728139996528625, "eval_precision": 0.8727005735649215, "eval_recall": 0.8408333333333333, "eval_runtime": 8.6292, "eval_samples_per_second": 139.063, "eval_steps_per_second": 17.383, "step": 700 }, { "epoch": 2.35, "grad_norm": 0.037234917283058167, "learning_rate": 0.0001687111111111111, "loss": 0.0046, "step": 705 }, { "epoch": 2.3666666666666667, "grad_norm": 0.01593877375125885, "learning_rate": 0.0001684888888888889, "loss": 0.1065, "step": 710 }, { "epoch": 2.3833333333333333, "grad_norm": 0.011334872804582119, "learning_rate": 0.00016826666666666667, "loss": 0.0037, "step": 715 }, { "epoch": 2.4, "grad_norm": 0.02323583886027336, "learning_rate": 0.00016804444444444444, "loss": 0.0692, "step": 720 }, { "epoch": 2.4166666666666665, "grad_norm": 0.01852521114051342, "learning_rate": 0.00016782222222222224, "loss": 0.004, "step": 725 }, { "epoch": 2.4333333333333336, "grad_norm": 0.012805821374058723, "learning_rate": 0.0001676, "loss": 0.0036, "step": 730 }, { "epoch": 2.45, "grad_norm": 0.034041836857795715, "learning_rate": 0.00016737777777777778, "loss": 0.004, "step": 735 }, { "epoch": 2.466666666666667, "grad_norm": 0.024058189243078232, "learning_rate": 0.00016715555555555555, "loss": 0.004, "step": 740 }, { "epoch": 2.4833333333333334, "grad_norm": 10.413853645324707, "learning_rate": 0.00016693333333333334, "loss": 0.0504, "step": 745 }, { "epoch": 2.5, "grad_norm": 0.016012758016586304, "learning_rate": 0.00016671111111111114, "loss": 0.0072, "step": 750 }, { "epoch": 2.5166666666666666, "grad_norm": 0.018229959532618523, "learning_rate": 0.00016648888888888888, "loss": 0.0838, "step": 755 }, { "epoch": 2.533333333333333, "grad_norm": 0.02764282561838627, "learning_rate": 0.00016626666666666668, "loss": 0.0089, "step": 760 }, { "epoch": 2.55, "grad_norm": 0.014806599356234074, "learning_rate": 0.00016604444444444445, "loss": 0.0909, "step": 765 }, { "epoch": 2.5666666666666664, "grad_norm": 0.050159793347120285, "learning_rate": 0.00016582222222222224, "loss": 0.0427, "step": 770 }, { "epoch": 2.5833333333333335, "grad_norm": 0.3267223536968231, "learning_rate": 0.0001656, "loss": 0.0384, "step": 775 }, { "epoch": 2.6, "grad_norm": 0.027470499277114868, "learning_rate": 0.00016537777777777778, "loss": 0.0806, "step": 780 }, { "epoch": 2.6166666666666667, "grad_norm": 0.026491738855838776, "learning_rate": 0.00016515555555555558, "loss": 0.051, "step": 785 }, { "epoch": 2.6333333333333333, "grad_norm": 0.04537283629179001, "learning_rate": 0.00016493333333333335, "loss": 0.0294, "step": 790 }, { "epoch": 2.65, "grad_norm": 0.12830990552902222, "learning_rate": 0.00016471111111111112, "loss": 0.0614, "step": 795 }, { "epoch": 2.6666666666666665, "grad_norm": 0.014517356641590595, "learning_rate": 0.0001644888888888889, "loss": 0.0031, "step": 800 }, { "epoch": 2.6666666666666665, "eval_accuracy": 0.8258333333333333, "eval_f1": 0.8225132790041669, "eval_loss": 0.9498867988586426, "eval_precision": 0.8596047291997188, "eval_recall": 0.8258333333333333, "eval_runtime": 8.7292, "eval_samples_per_second": 137.469, "eval_steps_per_second": 17.184, "step": 800 }, { "epoch": 2.6833333333333336, "grad_norm": 0.014020893722772598, "learning_rate": 0.00016426666666666668, "loss": 0.0106, "step": 805 }, { "epoch": 2.7, "grad_norm": 0.018887478858232498, "learning_rate": 0.00016404444444444445, "loss": 0.008, "step": 810 }, { "epoch": 2.716666666666667, "grad_norm": 0.048164647072553635, "learning_rate": 0.00016382222222222222, "loss": 0.0036, "step": 815 }, { "epoch": 2.7333333333333334, "grad_norm": 1.3923968076705933, "learning_rate": 0.0001636, "loss": 0.0592, "step": 820 }, { "epoch": 2.75, "grad_norm": 0.01867029443383217, "learning_rate": 0.0001633777777777778, "loss": 0.0036, "step": 825 }, { "epoch": 2.7666666666666666, "grad_norm": 0.17151452600955963, "learning_rate": 0.00016315555555555559, "loss": 0.0033, "step": 830 }, { "epoch": 2.783333333333333, "grad_norm": 0.11271153390407562, "learning_rate": 0.00016293333333333333, "loss": 0.0036, "step": 835 }, { "epoch": 2.8, "grad_norm": 0.015081772580742836, "learning_rate": 0.00016271111111111112, "loss": 0.0045, "step": 840 }, { "epoch": 2.8166666666666664, "grad_norm": 0.045304328203201294, "learning_rate": 0.0001624888888888889, "loss": 0.0744, "step": 845 }, { "epoch": 2.8333333333333335, "grad_norm": 0.02582884579896927, "learning_rate": 0.0001622666666666667, "loss": 0.0028, "step": 850 }, { "epoch": 2.85, "grad_norm": 0.009411230683326721, "learning_rate": 0.00016204444444444443, "loss": 0.0471, "step": 855 }, { "epoch": 2.8666666666666667, "grad_norm": 11.964629173278809, "learning_rate": 0.00016182222222222223, "loss": 0.0395, "step": 860 }, { "epoch": 2.8833333333333333, "grad_norm": 0.0107168760150671, "learning_rate": 0.00016160000000000002, "loss": 0.0026, "step": 865 }, { "epoch": 2.9, "grad_norm": 1.2103270292282104, "learning_rate": 0.0001613777777777778, "loss": 0.1128, "step": 870 }, { "epoch": 2.9166666666666665, "grad_norm": 0.33123689889907837, "learning_rate": 0.00016115555555555556, "loss": 0.0906, "step": 875 }, { "epoch": 2.9333333333333336, "grad_norm": 0.013882935047149658, "learning_rate": 0.00016093333333333333, "loss": 0.041, "step": 880 }, { "epoch": 2.95, "grad_norm": 1.6173515319824219, "learning_rate": 0.00016071111111111113, "loss": 0.0261, "step": 885 }, { "epoch": 2.966666666666667, "grad_norm": 0.021518494933843613, "learning_rate": 0.0001604888888888889, "loss": 0.0053, "step": 890 }, { "epoch": 2.9833333333333334, "grad_norm": 12.325495719909668, "learning_rate": 0.00016026666666666667, "loss": 0.0872, "step": 895 }, { "epoch": 3.0, "grad_norm": 1.7106252908706665, "learning_rate": 0.00016004444444444444, "loss": 0.0733, "step": 900 }, { "epoch": 3.0, "eval_accuracy": 0.8558333333333333, "eval_f1": 0.8553526230405267, "eval_loss": 0.8134686350822449, "eval_precision": 0.8840441151302575, "eval_recall": 0.8558333333333333, "eval_runtime": 8.4056, "eval_samples_per_second": 142.762, "eval_steps_per_second": 17.845, "step": 900 }, { "epoch": 3.0166666666666666, "grad_norm": 0.024461040273308754, "learning_rate": 0.00015982222222222223, "loss": 0.0034, "step": 905 }, { "epoch": 3.033333333333333, "grad_norm": 0.024331258609890938, "learning_rate": 0.0001596, "loss": 0.1128, "step": 910 }, { "epoch": 3.05, "grad_norm": 0.19232450425624847, "learning_rate": 0.00015937777777777777, "loss": 0.003, "step": 915 }, { "epoch": 3.066666666666667, "grad_norm": 0.14441834390163422, "learning_rate": 0.00015915555555555557, "loss": 0.0763, "step": 920 }, { "epoch": 3.0833333333333335, "grad_norm": 0.012051014229655266, "learning_rate": 0.00015893333333333334, "loss": 0.0026, "step": 925 }, { "epoch": 3.1, "grad_norm": 0.014720206148922443, "learning_rate": 0.00015871111111111114, "loss": 0.003, "step": 930 }, { "epoch": 3.1166666666666667, "grad_norm": 0.021598391234874725, "learning_rate": 0.00015848888888888888, "loss": 0.003, "step": 935 }, { "epoch": 3.1333333333333333, "grad_norm": 0.0218663290143013, "learning_rate": 0.00015826666666666667, "loss": 0.0033, "step": 940 }, { "epoch": 3.15, "grad_norm": 0.008952026255428791, "learning_rate": 0.00015804444444444447, "loss": 0.0027, "step": 945 }, { "epoch": 3.1666666666666665, "grad_norm": 0.013226469978690147, "learning_rate": 0.00015782222222222224, "loss": 0.0028, "step": 950 }, { "epoch": 3.183333333333333, "grad_norm": 0.01641731895506382, "learning_rate": 0.0001576, "loss": 0.003, "step": 955 }, { "epoch": 3.2, "grad_norm": 0.04407569393515587, "learning_rate": 0.00015737777777777778, "loss": 0.0026, "step": 960 }, { "epoch": 3.216666666666667, "grad_norm": 0.008022269234061241, "learning_rate": 0.00015715555555555557, "loss": 0.0023, "step": 965 }, { "epoch": 3.2333333333333334, "grad_norm": 0.012135597877204418, "learning_rate": 0.00015693333333333334, "loss": 0.0025, "step": 970 }, { "epoch": 3.25, "grad_norm": 0.010111128911376, "learning_rate": 0.0001567111111111111, "loss": 0.0024, "step": 975 }, { "epoch": 3.2666666666666666, "grad_norm": 0.0079947579652071, "learning_rate": 0.0001564888888888889, "loss": 0.0022, "step": 980 }, { "epoch": 3.283333333333333, "grad_norm": 0.008035738952457905, "learning_rate": 0.00015626666666666668, "loss": 0.002, "step": 985 }, { "epoch": 3.3, "grad_norm": 0.012029600329697132, "learning_rate": 0.00015604444444444445, "loss": 0.0021, "step": 990 }, { "epoch": 3.3166666666666664, "grad_norm": 0.04579595476388931, "learning_rate": 0.00015582222222222222, "loss": 0.0021, "step": 995 }, { "epoch": 3.3333333333333335, "grad_norm": 0.009974322281777859, "learning_rate": 0.00015560000000000001, "loss": 0.0026, "step": 1000 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.885, "eval_f1": 0.8826408594783441, "eval_loss": 0.6857856512069702, "eval_precision": 0.8963183636311404, "eval_recall": 0.885, "eval_runtime": 8.6859, "eval_samples_per_second": 138.155, "eval_steps_per_second": 17.269, "step": 1000 }, { "epoch": 3.35, "grad_norm": 0.007176090497523546, "learning_rate": 0.00015537777777777778, "loss": 0.0019, "step": 1005 }, { "epoch": 3.3666666666666667, "grad_norm": 0.009716546162962914, "learning_rate": 0.00015515555555555555, "loss": 0.0019, "step": 1010 }, { "epoch": 3.3833333333333333, "grad_norm": 0.006820878945291042, "learning_rate": 0.00015493333333333332, "loss": 0.0018, "step": 1015 }, { "epoch": 3.4, "grad_norm": 0.009595015086233616, "learning_rate": 0.00015471111111111112, "loss": 0.0018, "step": 1020 }, { "epoch": 3.4166666666666665, "grad_norm": 0.008633381687104702, "learning_rate": 0.00015448888888888892, "loss": 0.002, "step": 1025 }, { "epoch": 3.4333333333333336, "grad_norm": 0.007367326412349939, "learning_rate": 0.00015426666666666666, "loss": 0.0017, "step": 1030 }, { "epoch": 3.45, "grad_norm": 0.19101399183273315, "learning_rate": 0.00015404444444444445, "loss": 0.0021, "step": 1035 }, { "epoch": 3.466666666666667, "grad_norm": 0.009430905804038048, "learning_rate": 0.00015382222222222222, "loss": 0.0018, "step": 1040 }, { "epoch": 3.4833333333333334, "grad_norm": 0.007318128366023302, "learning_rate": 0.00015360000000000002, "loss": 0.0018, "step": 1045 }, { "epoch": 3.5, "grad_norm": 0.008334868587553501, "learning_rate": 0.00015337777777777776, "loss": 0.0018, "step": 1050 }, { "epoch": 3.5166666666666666, "grad_norm": 0.006544196978211403, "learning_rate": 0.00015315555555555556, "loss": 0.0018, "step": 1055 }, { "epoch": 3.533333333333333, "grad_norm": 0.007956958375871181, "learning_rate": 0.00015293333333333336, "loss": 0.0018, "step": 1060 }, { "epoch": 3.55, "grad_norm": 0.0071182046085596085, "learning_rate": 0.00015271111111111112, "loss": 0.0016, "step": 1065 }, { "epoch": 3.5666666666666664, "grad_norm": 0.005583111196756363, "learning_rate": 0.0001524888888888889, "loss": 0.0016, "step": 1070 }, { "epoch": 3.5833333333333335, "grad_norm": 0.005967405159026384, "learning_rate": 0.00015226666666666666, "loss": 0.0198, "step": 1075 }, { "epoch": 3.6, "grad_norm": 0.009646731428802013, "learning_rate": 0.00015204444444444446, "loss": 0.0018, "step": 1080 }, { "epoch": 3.6166666666666667, "grad_norm": 0.00736756157130003, "learning_rate": 0.00015182222222222223, "loss": 0.0018, "step": 1085 }, { "epoch": 3.6333333333333333, "grad_norm": 0.01163206622004509, "learning_rate": 0.0001516, "loss": 0.0019, "step": 1090 }, { "epoch": 3.65, "grad_norm": 0.31265562772750854, "learning_rate": 0.0001513777777777778, "loss": 0.0026, "step": 1095 }, { "epoch": 3.6666666666666665, "grad_norm": 0.013057752512395382, "learning_rate": 0.00015115555555555556, "loss": 0.0028, "step": 1100 }, { "epoch": 3.6666666666666665, "eval_accuracy": 0.8608333333333333, "eval_f1": 0.8630583739468862, "eval_loss": 0.8497281670570374, "eval_precision": 0.9003658860868646, "eval_recall": 0.8608333333333333, "eval_runtime": 8.4648, "eval_samples_per_second": 141.764, "eval_steps_per_second": 17.721, "step": 1100 }, { "epoch": 3.6833333333333336, "grad_norm": 5.218932628631592, "learning_rate": 0.00015093333333333336, "loss": 0.0806, "step": 1105 }, { "epoch": 3.7, "grad_norm": 0.006139532197266817, "learning_rate": 0.0001507111111111111, "loss": 0.0176, "step": 1110 }, { "epoch": 3.716666666666667, "grad_norm": 0.007575639523565769, "learning_rate": 0.0001504888888888889, "loss": 0.0016, "step": 1115 }, { "epoch": 3.7333333333333334, "grad_norm": 0.009325952269136906, "learning_rate": 0.00015026666666666667, "loss": 0.0555, "step": 1120 }, { "epoch": 3.75, "grad_norm": 0.6155376434326172, "learning_rate": 0.00015004444444444447, "loss": 0.0428, "step": 1125 }, { "epoch": 3.7666666666666666, "grad_norm": 0.23569880425930023, "learning_rate": 0.0001498222222222222, "loss": 0.1205, "step": 1130 }, { "epoch": 3.783333333333333, "grad_norm": 3.5778796672821045, "learning_rate": 0.0001496, "loss": 0.0055, "step": 1135 }, { "epoch": 3.8, "grad_norm": 0.010719189420342445, "learning_rate": 0.0001493777777777778, "loss": 0.0386, "step": 1140 }, { "epoch": 3.8166666666666664, "grad_norm": 2.208207130432129, "learning_rate": 0.00014915555555555557, "loss": 0.0984, "step": 1145 }, { "epoch": 3.8333333333333335, "grad_norm": 0.10183501243591309, "learning_rate": 0.00014893333333333334, "loss": 0.0529, "step": 1150 }, { "epoch": 3.85, "grad_norm": 0.023700004443526268, "learning_rate": 0.0001487111111111111, "loss": 0.0028, "step": 1155 }, { "epoch": 3.8666666666666667, "grad_norm": 1.8450065851211548, "learning_rate": 0.0001484888888888889, "loss": 0.0091, "step": 1160 }, { "epoch": 3.8833333333333333, "grad_norm": 0.025485007092356682, "learning_rate": 0.00014826666666666667, "loss": 0.0547, "step": 1165 }, { "epoch": 3.9, "grad_norm": 0.013709242455661297, "learning_rate": 0.00014804444444444444, "loss": 0.0032, "step": 1170 }, { "epoch": 3.9166666666666665, "grad_norm": 4.475658893585205, "learning_rate": 0.00014782222222222224, "loss": 0.0677, "step": 1175 }, { "epoch": 3.9333333333333336, "grad_norm": 0.018618497997522354, "learning_rate": 0.0001476, "loss": 0.0242, "step": 1180 }, { "epoch": 3.95, "grad_norm": 4.587765693664551, "learning_rate": 0.00014737777777777778, "loss": 0.0064, "step": 1185 }, { "epoch": 3.966666666666667, "grad_norm": 11.108481407165527, "learning_rate": 0.00014715555555555555, "loss": 0.099, "step": 1190 }, { "epoch": 3.9833333333333334, "grad_norm": 0.012734731659293175, "learning_rate": 0.00014693333333333335, "loss": 0.0892, "step": 1195 }, { "epoch": 4.0, "grad_norm": 0.03672908619046211, "learning_rate": 0.00014671111111111111, "loss": 0.0021, "step": 1200 }, { "epoch": 4.0, "eval_accuracy": 0.81, "eval_f1": 0.8114018878426226, "eval_loss": 1.0721813440322876, "eval_precision": 0.8493419552493093, "eval_recall": 0.81, "eval_runtime": 8.684, "eval_samples_per_second": 138.185, "eval_steps_per_second": 17.273, "step": 1200 }, { "epoch": 4.016666666666667, "grad_norm": 0.014342083595693111, "learning_rate": 0.0001464888888888889, "loss": 0.012, "step": 1205 }, { "epoch": 4.033333333333333, "grad_norm": 0.004688834771513939, "learning_rate": 0.00014626666666666665, "loss": 0.0016, "step": 1210 }, { "epoch": 4.05, "grad_norm": 0.010201087221503258, "learning_rate": 0.00014604444444444445, "loss": 0.0027, "step": 1215 }, { "epoch": 4.066666666666666, "grad_norm": 0.009677249006927013, "learning_rate": 0.00014582222222222225, "loss": 0.0021, "step": 1220 }, { "epoch": 4.083333333333333, "grad_norm": 0.004783807788044214, "learning_rate": 0.00014560000000000002, "loss": 0.0022, "step": 1225 }, { "epoch": 4.1, "grad_norm": 0.012746911495923996, "learning_rate": 0.00014537777777777778, "loss": 0.0863, "step": 1230 }, { "epoch": 4.116666666666666, "grad_norm": 4.99091911315918, "learning_rate": 0.00014515555555555555, "loss": 0.1888, "step": 1235 }, { "epoch": 4.133333333333334, "grad_norm": 0.023342862725257874, "learning_rate": 0.00014493333333333335, "loss": 0.036, "step": 1240 }, { "epoch": 4.15, "grad_norm": 0.040608469396829605, "learning_rate": 0.00014471111111111112, "loss": 0.0487, "step": 1245 }, { "epoch": 4.166666666666667, "grad_norm": 1.9106533527374268, "learning_rate": 0.0001444888888888889, "loss": 0.0104, "step": 1250 }, { "epoch": 4.183333333333334, "grad_norm": 0.04202974960207939, "learning_rate": 0.00014426666666666669, "loss": 0.013, "step": 1255 }, { "epoch": 4.2, "grad_norm": 0.015945272520184517, "learning_rate": 0.00014404444444444446, "loss": 0.0327, "step": 1260 }, { "epoch": 4.216666666666667, "grad_norm": 0.044023096561431885, "learning_rate": 0.00014382222222222222, "loss": 0.0025, "step": 1265 }, { "epoch": 4.233333333333333, "grad_norm": 0.011237604543566704, "learning_rate": 0.0001436, "loss": 0.0039, "step": 1270 }, { "epoch": 4.25, "grad_norm": 3.7533059120178223, "learning_rate": 0.0001433777777777778, "loss": 0.08, "step": 1275 }, { "epoch": 4.266666666666667, "grad_norm": 0.014147402718663216, "learning_rate": 0.00014315555555555556, "loss": 0.0497, "step": 1280 }, { "epoch": 4.283333333333333, "grad_norm": 15.499512672424316, "learning_rate": 0.00014293333333333333, "loss": 0.052, "step": 1285 }, { "epoch": 4.3, "grad_norm": 0.00785121601074934, "learning_rate": 0.00014271111111111113, "loss": 0.0122, "step": 1290 }, { "epoch": 4.316666666666666, "grad_norm": 0.01840803027153015, "learning_rate": 0.0001424888888888889, "loss": 0.0021, "step": 1295 }, { "epoch": 4.333333333333333, "grad_norm": 0.005680915433913469, "learning_rate": 0.0001422666666666667, "loss": 0.0023, "step": 1300 }, { "epoch": 4.333333333333333, "eval_accuracy": 0.8741666666666666, "eval_f1": 0.8736696517282013, "eval_loss": 0.7216801047325134, "eval_precision": 0.874179575159524, "eval_recall": 0.8741666666666666, "eval_runtime": 8.5035, "eval_samples_per_second": 141.119, "eval_steps_per_second": 17.64, "step": 1300 }, { "epoch": 4.35, "grad_norm": 6.644092559814453, "learning_rate": 0.00014204444444444443, "loss": 0.0419, "step": 1305 }, { "epoch": 4.366666666666666, "grad_norm": 1.7790203094482422, "learning_rate": 0.00014182222222222223, "loss": 0.0735, "step": 1310 }, { "epoch": 4.383333333333334, "grad_norm": 0.014206045307219028, "learning_rate": 0.0001416, "loss": 0.1253, "step": 1315 }, { "epoch": 4.4, "grad_norm": 9.30543041229248, "learning_rate": 0.0001413777777777778, "loss": 0.2207, "step": 1320 }, { "epoch": 4.416666666666667, "grad_norm": 0.01079009659588337, "learning_rate": 0.00014115555555555557, "loss": 0.0264, "step": 1325 }, { "epoch": 4.433333333333334, "grad_norm": 0.017153671011328697, "learning_rate": 0.00014093333333333333, "loss": 0.0032, "step": 1330 }, { "epoch": 4.45, "grad_norm": 0.05720142647624016, "learning_rate": 0.00014071111111111113, "loss": 0.1144, "step": 1335 }, { "epoch": 4.466666666666667, "grad_norm": 0.03782143071293831, "learning_rate": 0.0001404888888888889, "loss": 0.0022, "step": 1340 }, { "epoch": 4.483333333333333, "grad_norm": 0.43943724036216736, "learning_rate": 0.00014026666666666667, "loss": 0.2235, "step": 1345 }, { "epoch": 4.5, "grad_norm": 0.01539943739771843, "learning_rate": 0.00014004444444444444, "loss": 0.0016, "step": 1350 }, { "epoch": 4.516666666666667, "grad_norm": 0.007469181902706623, "learning_rate": 0.00013982222222222224, "loss": 0.2015, "step": 1355 }, { "epoch": 4.533333333333333, "grad_norm": 1.5316814184188843, "learning_rate": 0.0001396, "loss": 0.0341, "step": 1360 }, { "epoch": 4.55, "grad_norm": 0.011117405258119106, "learning_rate": 0.00013937777777777777, "loss": 0.0706, "step": 1365 }, { "epoch": 4.566666666666666, "grad_norm": 0.009905427694320679, "learning_rate": 0.00013915555555555557, "loss": 0.0139, "step": 1370 }, { "epoch": 4.583333333333333, "grad_norm": 0.011820288375020027, "learning_rate": 0.00013893333333333334, "loss": 0.0896, "step": 1375 }, { "epoch": 4.6, "grad_norm": 0.005342086311429739, "learning_rate": 0.00013871111111111114, "loss": 0.1561, "step": 1380 }, { "epoch": 4.616666666666667, "grad_norm": 2.0660650730133057, "learning_rate": 0.00013848888888888888, "loss": 0.0726, "step": 1385 }, { "epoch": 4.633333333333333, "grad_norm": 0.00874674879014492, "learning_rate": 0.00013826666666666668, "loss": 0.0046, "step": 1390 }, { "epoch": 4.65, "grad_norm": 0.06165945529937744, "learning_rate": 0.00013804444444444444, "loss": 0.0055, "step": 1395 }, { "epoch": 4.666666666666667, "grad_norm": 0.009331022389233112, "learning_rate": 0.00013782222222222224, "loss": 0.0243, "step": 1400 }, { "epoch": 4.666666666666667, "eval_accuracy": 0.8466666666666667, "eval_f1": 0.8449391077113874, "eval_loss": 0.8720933198928833, "eval_precision": 0.8627023305693831, "eval_recall": 0.8466666666666667, "eval_runtime": 8.5714, "eval_samples_per_second": 140.001, "eval_steps_per_second": 17.5, "step": 1400 }, { "epoch": 4.683333333333334, "grad_norm": 24.88484764099121, "learning_rate": 0.00013759999999999998, "loss": 0.0361, "step": 1405 }, { "epoch": 4.7, "grad_norm": 0.007358456030488014, "learning_rate": 0.00013737777777777778, "loss": 0.0016, "step": 1410 }, { "epoch": 4.716666666666667, "grad_norm": 4.731387615203857, "learning_rate": 0.00013715555555555558, "loss": 0.1339, "step": 1415 }, { "epoch": 4.733333333333333, "grad_norm": 0.007948680780827999, "learning_rate": 0.00013693333333333335, "loss": 0.0028, "step": 1420 }, { "epoch": 4.75, "grad_norm": 9.380406379699707, "learning_rate": 0.00013671111111111112, "loss": 0.1451, "step": 1425 }, { "epoch": 4.766666666666667, "grad_norm": 0.008410623297095299, "learning_rate": 0.00013648888888888888, "loss": 0.0036, "step": 1430 }, { "epoch": 4.783333333333333, "grad_norm": 0.05698215961456299, "learning_rate": 0.00013626666666666668, "loss": 0.0494, "step": 1435 }, { "epoch": 4.8, "grad_norm": 0.0067721824161708355, "learning_rate": 0.00013604444444444445, "loss": 0.0081, "step": 1440 }, { "epoch": 4.816666666666666, "grad_norm": 0.008014468476176262, "learning_rate": 0.00013582222222222222, "loss": 0.0128, "step": 1445 }, { "epoch": 4.833333333333333, "grad_norm": 11.585015296936035, "learning_rate": 0.00013560000000000002, "loss": 0.0822, "step": 1450 }, { "epoch": 4.85, "grad_norm": 6.453427791595459, "learning_rate": 0.00013537777777777779, "loss": 0.0697, "step": 1455 }, { "epoch": 4.866666666666667, "grad_norm": 0.003919912036508322, "learning_rate": 0.00013515555555555556, "loss": 0.0023, "step": 1460 }, { "epoch": 4.883333333333333, "grad_norm": 0.006454234942793846, "learning_rate": 0.00013493333333333332, "loss": 0.0224, "step": 1465 }, { "epoch": 4.9, "grad_norm": 0.030097154900431633, "learning_rate": 0.00013471111111111112, "loss": 0.0016, "step": 1470 }, { "epoch": 4.916666666666667, "grad_norm": 0.0048883953131735325, "learning_rate": 0.0001344888888888889, "loss": 0.0926, "step": 1475 }, { "epoch": 4.933333333333334, "grad_norm": 0.0053365034982562065, "learning_rate": 0.0001342666666666667, "loss": 0.0014, "step": 1480 }, { "epoch": 4.95, "grad_norm": 8.823843955993652, "learning_rate": 0.00013404444444444446, "loss": 0.047, "step": 1485 }, { "epoch": 4.966666666666667, "grad_norm": 0.008398232981562614, "learning_rate": 0.00013382222222222223, "loss": 0.0285, "step": 1490 }, { "epoch": 4.983333333333333, "grad_norm": 0.05128835514187813, "learning_rate": 0.00013360000000000002, "loss": 0.1177, "step": 1495 }, { "epoch": 5.0, "grad_norm": 0.009355626069009304, "learning_rate": 0.0001333777777777778, "loss": 0.004, "step": 1500 }, { "epoch": 5.0, "eval_accuracy": 0.8425, "eval_f1": 0.8401643953373985, "eval_loss": 0.8314429521560669, "eval_precision": 0.8500199020639272, "eval_recall": 0.8425, "eval_runtime": 8.5816, "eval_samples_per_second": 139.834, "eval_steps_per_second": 17.479, "step": 1500 }, { "epoch": 5.016666666666667, "grad_norm": 0.010551623068749905, "learning_rate": 0.00013315555555555556, "loss": 0.0017, "step": 1505 }, { "epoch": 5.033333333333333, "grad_norm": 0.011250492185354233, "learning_rate": 0.00013293333333333333, "loss": 0.0237, "step": 1510 }, { "epoch": 5.05, "grad_norm": 0.010826527141034603, "learning_rate": 0.00013271111111111113, "loss": 0.002, "step": 1515 }, { "epoch": 5.066666666666666, "grad_norm": 1.4145227670669556, "learning_rate": 0.0001324888888888889, "loss": 0.0032, "step": 1520 }, { "epoch": 5.083333333333333, "grad_norm": 0.018742254003882408, "learning_rate": 0.00013226666666666667, "loss": 0.0019, "step": 1525 }, { "epoch": 5.1, "grad_norm": 0.005670695099979639, "learning_rate": 0.00013204444444444446, "loss": 0.0426, "step": 1530 }, { "epoch": 5.116666666666666, "grad_norm": 7.956353187561035, "learning_rate": 0.00013182222222222223, "loss": 0.0866, "step": 1535 }, { "epoch": 5.133333333333334, "grad_norm": 0.015181062743067741, "learning_rate": 0.0001316, "loss": 0.0065, "step": 1540 }, { "epoch": 5.15, "grad_norm": 5.024839878082275, "learning_rate": 0.00013137777777777777, "loss": 0.0893, "step": 1545 }, { "epoch": 5.166666666666667, "grad_norm": 0.16089694201946259, "learning_rate": 0.00013115555555555557, "loss": 0.0013, "step": 1550 }, { "epoch": 5.183333333333334, "grad_norm": 0.008863291703164577, "learning_rate": 0.00013093333333333334, "loss": 0.0023, "step": 1555 }, { "epoch": 5.2, "grad_norm": 0.005815539043396711, "learning_rate": 0.0001307111111111111, "loss": 0.0019, "step": 1560 }, { "epoch": 5.216666666666667, "grad_norm": 0.031558211892843246, "learning_rate": 0.0001304888888888889, "loss": 0.0024, "step": 1565 }, { "epoch": 5.233333333333333, "grad_norm": 0.049538612365722656, "learning_rate": 0.00013026666666666667, "loss": 0.0059, "step": 1570 }, { "epoch": 5.25, "grad_norm": 0.006766201928257942, "learning_rate": 0.00013004444444444447, "loss": 0.005, "step": 1575 }, { "epoch": 5.266666666666667, "grad_norm": 0.006935945246368647, "learning_rate": 0.0001298222222222222, "loss": 0.094, "step": 1580 }, { "epoch": 5.283333333333333, "grad_norm": 0.007931070402264595, "learning_rate": 0.0001296, "loss": 0.0013, "step": 1585 }, { "epoch": 5.3, "grad_norm": 0.019129278138279915, "learning_rate": 0.00012937777777777778, "loss": 0.0019, "step": 1590 }, { "epoch": 5.316666666666666, "grad_norm": 0.009263014420866966, "learning_rate": 0.00012915555555555557, "loss": 0.0013, "step": 1595 }, { "epoch": 5.333333333333333, "grad_norm": 0.010344603098928928, "learning_rate": 0.00012893333333333334, "loss": 0.0011, "step": 1600 }, { "epoch": 5.333333333333333, "eval_accuracy": 0.8366666666666667, "eval_f1": 0.8346536297050231, "eval_loss": 0.9169537425041199, "eval_precision": 0.836227312617498, "eval_recall": 0.8366666666666667, "eval_runtime": 8.5764, "eval_samples_per_second": 139.92, "eval_steps_per_second": 17.49, "step": 1600 }, { "epoch": 5.35, "grad_norm": 0.004544167313724756, "learning_rate": 0.0001287111111111111, "loss": 0.0013, "step": 1605 }, { "epoch": 5.366666666666666, "grad_norm": 0.01042899675667286, "learning_rate": 0.0001284888888888889, "loss": 0.0013, "step": 1610 }, { "epoch": 5.383333333333334, "grad_norm": 0.004015676211565733, "learning_rate": 0.00012826666666666668, "loss": 0.0012, "step": 1615 }, { "epoch": 5.4, "grad_norm": 0.0053498647175729275, "learning_rate": 0.00012804444444444445, "loss": 0.0013, "step": 1620 }, { "epoch": 5.416666666666667, "grad_norm": 0.004431703593581915, "learning_rate": 0.00012782222222222222, "loss": 0.0011, "step": 1625 }, { "epoch": 5.433333333333334, "grad_norm": 0.0038053698372095823, "learning_rate": 0.0001276, "loss": 0.0011, "step": 1630 }, { "epoch": 5.45, "grad_norm": 0.00662876246497035, "learning_rate": 0.00012737777777777778, "loss": 0.0013, "step": 1635 }, { "epoch": 5.466666666666667, "grad_norm": 0.005391869228333235, "learning_rate": 0.00012715555555555555, "loss": 0.0011, "step": 1640 }, { "epoch": 5.483333333333333, "grad_norm": 0.004023087210953236, "learning_rate": 0.00012693333333333335, "loss": 0.001, "step": 1645 }, { "epoch": 5.5, "grad_norm": 0.003374818479642272, "learning_rate": 0.00012671111111111112, "loss": 0.0009, "step": 1650 }, { "epoch": 5.516666666666667, "grad_norm": 0.004078878089785576, "learning_rate": 0.0001264888888888889, "loss": 0.0009, "step": 1655 }, { "epoch": 5.533333333333333, "grad_norm": 0.04155849292874336, "learning_rate": 0.00012626666666666665, "loss": 0.001, "step": 1660 }, { "epoch": 5.55, "grad_norm": 0.006481468677520752, "learning_rate": 0.00012604444444444445, "loss": 0.0011, "step": 1665 }, { "epoch": 5.566666666666666, "grad_norm": 0.00649288110435009, "learning_rate": 0.00012582222222222222, "loss": 0.001, "step": 1670 }, { "epoch": 5.583333333333333, "grad_norm": 0.004181603901088238, "learning_rate": 0.00012560000000000002, "loss": 0.0012, "step": 1675 }, { "epoch": 5.6, "grad_norm": 0.005301055498421192, "learning_rate": 0.0001253777777777778, "loss": 0.0009, "step": 1680 }, { "epoch": 5.616666666666667, "grad_norm": 0.003939451649785042, "learning_rate": 0.00012515555555555556, "loss": 0.0009, "step": 1685 }, { "epoch": 5.633333333333333, "grad_norm": 0.004135144874453545, "learning_rate": 0.00012493333333333335, "loss": 0.0009, "step": 1690 }, { "epoch": 5.65, "grad_norm": 0.003453885903581977, "learning_rate": 0.00012471111111111112, "loss": 0.0009, "step": 1695 }, { "epoch": 5.666666666666667, "grad_norm": 0.0031615181360393763, "learning_rate": 0.0001244888888888889, "loss": 0.0008, "step": 1700 }, { "epoch": 5.666666666666667, "eval_accuracy": 0.8475, "eval_f1": 0.8451988452667865, "eval_loss": 0.9080225825309753, "eval_precision": 0.8535819883945576, "eval_recall": 0.8475, "eval_runtime": 8.4501, "eval_samples_per_second": 142.01, "eval_steps_per_second": 17.751, "step": 1700 }, { "epoch": 5.683333333333334, "grad_norm": 0.003467655973508954, "learning_rate": 0.00012426666666666666, "loss": 0.0009, "step": 1705 }, { "epoch": 5.7, "grad_norm": 0.0032528925221413374, "learning_rate": 0.00012404444444444446, "loss": 0.0008, "step": 1710 }, { "epoch": 5.716666666666667, "grad_norm": 0.00434854393824935, "learning_rate": 0.00012382222222222223, "loss": 0.0009, "step": 1715 }, { "epoch": 5.733333333333333, "grad_norm": 0.0030469377525150776, "learning_rate": 0.0001236, "loss": 0.0009, "step": 1720 }, { "epoch": 5.75, "grad_norm": 0.00402431096881628, "learning_rate": 0.0001233777777777778, "loss": 0.0008, "step": 1725 }, { "epoch": 5.766666666666667, "grad_norm": 0.003106710035353899, "learning_rate": 0.00012315555555555556, "loss": 0.0008, "step": 1730 }, { "epoch": 5.783333333333333, "grad_norm": 0.0028747424948960543, "learning_rate": 0.00012293333333333336, "loss": 0.0008, "step": 1735 }, { "epoch": 5.8, "grad_norm": 0.0033329306170344353, "learning_rate": 0.0001227111111111111, "loss": 0.0008, "step": 1740 }, { "epoch": 5.816666666666666, "grad_norm": 0.005045827012509108, "learning_rate": 0.0001224888888888889, "loss": 0.0009, "step": 1745 }, { "epoch": 5.833333333333333, "grad_norm": 0.003215071512386203, "learning_rate": 0.00012226666666666667, "loss": 0.0008, "step": 1750 }, { "epoch": 5.85, "grad_norm": 0.0056326016783714294, "learning_rate": 0.00012204444444444445, "loss": 0.0009, "step": 1755 }, { "epoch": 5.866666666666667, "grad_norm": 0.004664156585931778, "learning_rate": 0.00012182222222222223, "loss": 0.0009, "step": 1760 }, { "epoch": 5.883333333333333, "grad_norm": 0.0032766489312052727, "learning_rate": 0.0001216, "loss": 0.0008, "step": 1765 }, { "epoch": 5.9, "grad_norm": 0.0045204912312328815, "learning_rate": 0.00012137777777777778, "loss": 0.0008, "step": 1770 }, { "epoch": 5.916666666666667, "grad_norm": 0.004817618522793055, "learning_rate": 0.00012115555555555555, "loss": 0.0008, "step": 1775 }, { "epoch": 5.933333333333334, "grad_norm": 0.003760852850973606, "learning_rate": 0.00012093333333333334, "loss": 0.0008, "step": 1780 }, { "epoch": 5.95, "grad_norm": 0.003496952122077346, "learning_rate": 0.0001207111111111111, "loss": 0.0008, "step": 1785 }, { "epoch": 5.966666666666667, "grad_norm": 0.0033429006580263376, "learning_rate": 0.0001204888888888889, "loss": 0.0007, "step": 1790 }, { "epoch": 5.983333333333333, "grad_norm": 0.0037298351526260376, "learning_rate": 0.00012026666666666669, "loss": 0.0008, "step": 1795 }, { "epoch": 6.0, "grad_norm": 1.0432941913604736, "learning_rate": 0.00012004444444444445, "loss": 0.0017, "step": 1800 }, { "epoch": 6.0, "eval_accuracy": 0.855, "eval_f1": 0.8527335341001453, "eval_loss": 0.8709325194358826, "eval_precision": 0.8642418810357194, "eval_recall": 0.855, "eval_runtime": 8.5378, "eval_samples_per_second": 140.552, "eval_steps_per_second": 17.569, "step": 1800 }, { "epoch": 6.016666666666667, "grad_norm": 0.0039853742346167564, "learning_rate": 0.00011982222222222224, "loss": 0.0008, "step": 1805 }, { "epoch": 6.033333333333333, "grad_norm": 0.0027199145406484604, "learning_rate": 0.00011960000000000001, "loss": 0.0007, "step": 1810 }, { "epoch": 6.05, "grad_norm": 0.003306955797597766, "learning_rate": 0.00011937777777777779, "loss": 0.001, "step": 1815 }, { "epoch": 6.066666666666666, "grad_norm": 0.0030319029465317726, "learning_rate": 0.00011915555555555556, "loss": 0.0008, "step": 1820 }, { "epoch": 6.083333333333333, "grad_norm": 0.003830424277111888, "learning_rate": 0.00011893333333333334, "loss": 0.0007, "step": 1825 }, { "epoch": 6.1, "grad_norm": 0.0035003770608454943, "learning_rate": 0.00011871111111111111, "loss": 0.0008, "step": 1830 }, { "epoch": 6.116666666666666, "grad_norm": 0.0044647702015936375, "learning_rate": 0.0001184888888888889, "loss": 0.0008, "step": 1835 }, { "epoch": 6.133333333333334, "grad_norm": 0.003081211354583502, "learning_rate": 0.00011826666666666668, "loss": 0.0007, "step": 1840 }, { "epoch": 6.15, "grad_norm": 0.006125086452811956, "learning_rate": 0.00011804444444444445, "loss": 0.0007, "step": 1845 }, { "epoch": 6.166666666666667, "grad_norm": 0.0029033198952674866, "learning_rate": 0.00011782222222222223, "loss": 0.0007, "step": 1850 }, { "epoch": 6.183333333333334, "grad_norm": 0.0024676560424268246, "learning_rate": 0.0001176, "loss": 0.0007, "step": 1855 }, { "epoch": 6.2, "grad_norm": 0.0032939203083515167, "learning_rate": 0.00011737777777777778, "loss": 0.0007, "step": 1860 }, { "epoch": 6.216666666666667, "grad_norm": 0.005795349832624197, "learning_rate": 0.00011715555555555555, "loss": 0.0007, "step": 1865 }, { "epoch": 6.233333333333333, "grad_norm": 0.0027761368546634912, "learning_rate": 0.00011693333333333333, "loss": 0.0006, "step": 1870 }, { "epoch": 6.25, "grad_norm": 0.002433259505778551, "learning_rate": 0.00011671111111111113, "loss": 0.0007, "step": 1875 }, { "epoch": 6.266666666666667, "grad_norm": 0.0021892499644309282, "learning_rate": 0.00011648888888888889, "loss": 0.0007, "step": 1880 }, { "epoch": 6.283333333333333, "grad_norm": 0.0031156991608440876, "learning_rate": 0.00011626666666666668, "loss": 0.0007, "step": 1885 }, { "epoch": 6.3, "grad_norm": 0.009440210647881031, "learning_rate": 0.00011604444444444444, "loss": 0.0006, "step": 1890 }, { "epoch": 6.316666666666666, "grad_norm": 0.005798889324069023, "learning_rate": 0.00011582222222222224, "loss": 0.0008, "step": 1895 }, { "epoch": 6.333333333333333, "grad_norm": 0.0020701689645648003, "learning_rate": 0.00011559999999999999, "loss": 0.0007, "step": 1900 }, { "epoch": 6.333333333333333, "eval_accuracy": 0.8808333333333334, "eval_f1": 0.8777287825307415, "eval_loss": 0.7878209352493286, "eval_precision": 0.8898920597981103, "eval_recall": 0.8808333333333334, "eval_runtime": 8.5055, "eval_samples_per_second": 141.085, "eval_steps_per_second": 17.636, "step": 1900 }, { "epoch": 6.35, "grad_norm": 0.0031915383879095316, "learning_rate": 0.00011537777777777779, "loss": 0.0007, "step": 1905 }, { "epoch": 6.366666666666666, "grad_norm": 0.002810791367664933, "learning_rate": 0.00011515555555555557, "loss": 0.0007, "step": 1910 }, { "epoch": 6.383333333333334, "grad_norm": 0.0040374938398599625, "learning_rate": 0.00011493333333333334, "loss": 0.0006, "step": 1915 }, { "epoch": 6.4, "grad_norm": 0.0020520961843430996, "learning_rate": 0.00011471111111111112, "loss": 0.0007, "step": 1920 }, { "epoch": 6.416666666666667, "grad_norm": 0.002510226797312498, "learning_rate": 0.00011448888888888889, "loss": 0.0006, "step": 1925 }, { "epoch": 6.433333333333334, "grad_norm": 0.003581676399335265, "learning_rate": 0.00011426666666666667, "loss": 0.0007, "step": 1930 }, { "epoch": 6.45, "grad_norm": 0.0032677087001502514, "learning_rate": 0.00011404444444444444, "loss": 0.0006, "step": 1935 }, { "epoch": 6.466666666666667, "grad_norm": 0.0030111183878034353, "learning_rate": 0.00011382222222222223, "loss": 0.0006, "step": 1940 }, { "epoch": 6.483333333333333, "grad_norm": 0.0037052365951240063, "learning_rate": 0.0001136, "loss": 0.0007, "step": 1945 }, { "epoch": 6.5, "grad_norm": 0.002169802552089095, "learning_rate": 0.00011337777777777778, "loss": 0.0006, "step": 1950 }, { "epoch": 6.516666666666667, "grad_norm": 0.0028026788495481014, "learning_rate": 0.00011315555555555558, "loss": 0.0006, "step": 1955 }, { "epoch": 6.533333333333333, "grad_norm": 0.002606199821457267, "learning_rate": 0.00011293333333333333, "loss": 0.0006, "step": 1960 }, { "epoch": 6.55, "grad_norm": 0.0025322784204035997, "learning_rate": 0.00011271111111111113, "loss": 0.0006, "step": 1965 }, { "epoch": 6.566666666666666, "grad_norm": 0.003398539964109659, "learning_rate": 0.00011248888888888888, "loss": 0.0007, "step": 1970 }, { "epoch": 6.583333333333333, "grad_norm": 0.0024535132106393576, "learning_rate": 0.00011226666666666668, "loss": 0.0006, "step": 1975 }, { "epoch": 6.6, "grad_norm": 0.003040070878341794, "learning_rate": 0.00011204444444444444, "loss": 0.0006, "step": 1980 }, { "epoch": 6.616666666666667, "grad_norm": 0.0027420404367148876, "learning_rate": 0.00011182222222222223, "loss": 0.0006, "step": 1985 }, { "epoch": 6.633333333333333, "grad_norm": 0.0032716391142457724, "learning_rate": 0.00011160000000000002, "loss": 0.0006, "step": 1990 }, { "epoch": 6.65, "grad_norm": 0.002799520967528224, "learning_rate": 0.00011137777777777779, "loss": 0.0006, "step": 1995 }, { "epoch": 6.666666666666667, "grad_norm": 0.0034133754670619965, "learning_rate": 0.00011115555555555557, "loss": 0.0006, "step": 2000 }, { "epoch": 6.666666666666667, "eval_accuracy": 0.8825, "eval_f1": 0.879514718200063, "eval_loss": 0.7953646779060364, "eval_precision": 0.8925542663457074, "eval_recall": 0.8825, "eval_runtime": 8.4819, "eval_samples_per_second": 141.477, "eval_steps_per_second": 17.685, "step": 2000 }, { "epoch": 6.683333333333334, "grad_norm": 0.0026530215982347727, "learning_rate": 0.00011093333333333334, "loss": 0.0006, "step": 2005 }, { "epoch": 6.7, "grad_norm": 0.0025650160387158394, "learning_rate": 0.00011071111111111112, "loss": 0.0006, "step": 2010 }, { "epoch": 6.716666666666667, "grad_norm": 0.0035439005587249994, "learning_rate": 0.00011048888888888889, "loss": 0.0006, "step": 2015 }, { "epoch": 6.733333333333333, "grad_norm": 0.0019511673599481583, "learning_rate": 0.00011026666666666667, "loss": 0.0005, "step": 2020 }, { "epoch": 6.75, "grad_norm": 0.0025025131180882454, "learning_rate": 0.00011004444444444444, "loss": 0.0006, "step": 2025 }, { "epoch": 6.766666666666667, "grad_norm": 0.002607636386528611, "learning_rate": 0.00010982222222222222, "loss": 0.0006, "step": 2030 }, { "epoch": 6.783333333333333, "grad_norm": 0.00222940556704998, "learning_rate": 0.00010960000000000001, "loss": 0.0006, "step": 2035 }, { "epoch": 6.8, "grad_norm": 0.0024641987401992083, "learning_rate": 0.00010937777777777778, "loss": 0.0016, "step": 2040 }, { "epoch": 6.816666666666666, "grad_norm": 0.00301099824719131, "learning_rate": 0.00010915555555555556, "loss": 0.0006, "step": 2045 }, { "epoch": 6.833333333333333, "grad_norm": 1.6235581636428833, "learning_rate": 0.00010893333333333333, "loss": 0.0939, "step": 2050 }, { "epoch": 6.85, "grad_norm": 0.0036449162289500237, "learning_rate": 0.00010871111111111113, "loss": 0.0006, "step": 2055 }, { "epoch": 6.866666666666667, "grad_norm": 0.01936226338148117, "learning_rate": 0.00010848888888888888, "loss": 0.001, "step": 2060 }, { "epoch": 6.883333333333333, "grad_norm": 0.015576176345348358, "learning_rate": 0.00010826666666666668, "loss": 0.0015, "step": 2065 }, { "epoch": 6.9, "grad_norm": 0.015317040495574474, "learning_rate": 0.00010804444444444446, "loss": 0.0013, "step": 2070 }, { "epoch": 6.916666666666667, "grad_norm": 0.019998151808977127, "learning_rate": 0.00010782222222222223, "loss": 0.0013, "step": 2075 }, { "epoch": 6.933333333333334, "grad_norm": 0.005999366287142038, "learning_rate": 0.00010760000000000001, "loss": 0.0015, "step": 2080 }, { "epoch": 6.95, "grad_norm": 0.009385558776557446, "learning_rate": 0.00010737777777777778, "loss": 0.001, "step": 2085 }, { "epoch": 6.966666666666667, "grad_norm": 0.0035112854093313217, "learning_rate": 0.00010715555555555557, "loss": 0.001, "step": 2090 }, { "epoch": 6.983333333333333, "grad_norm": 0.0031134693417698145, "learning_rate": 0.00010693333333333333, "loss": 0.001, "step": 2095 }, { "epoch": 7.0, "grad_norm": 0.00348948547616601, "learning_rate": 0.00010671111111111112, "loss": 0.0007, "step": 2100 }, { "epoch": 7.0, "eval_accuracy": 0.8475, "eval_f1": 0.84382887232843, "eval_loss": 1.0196360349655151, "eval_precision": 0.8639553007901826, "eval_recall": 0.8475, "eval_runtime": 8.6327, "eval_samples_per_second": 139.007, "eval_steps_per_second": 17.376, "step": 2100 }, { "epoch": 7.016666666666667, "grad_norm": 0.002782625611871481, "learning_rate": 0.0001064888888888889, "loss": 0.0641, "step": 2105 }, { "epoch": 7.033333333333333, "grad_norm": 0.0025441725738346577, "learning_rate": 0.00010626666666666667, "loss": 0.0007, "step": 2110 }, { "epoch": 7.05, "grad_norm": 0.13979198038578033, "learning_rate": 0.00010604444444444445, "loss": 0.0188, "step": 2115 }, { "epoch": 7.066666666666666, "grad_norm": 0.02321728505194187, "learning_rate": 0.00010582222222222222, "loss": 0.0006, "step": 2120 }, { "epoch": 7.083333333333333, "grad_norm": 0.0030887930188328028, "learning_rate": 0.0001056, "loss": 0.07, "step": 2125 }, { "epoch": 7.1, "grad_norm": 0.003165618749335408, "learning_rate": 0.00010537777777777777, "loss": 0.0006, "step": 2130 }, { "epoch": 7.116666666666666, "grad_norm": 0.0027039654087275267, "learning_rate": 0.00010515555555555556, "loss": 0.0007, "step": 2135 }, { "epoch": 7.133333333333334, "grad_norm": 0.0025635671336203814, "learning_rate": 0.00010493333333333333, "loss": 0.0006, "step": 2140 }, { "epoch": 7.15, "grad_norm": 0.0027596934232860804, "learning_rate": 0.00010471111111111111, "loss": 0.0007, "step": 2145 }, { "epoch": 7.166666666666667, "grad_norm": 0.0031290268525481224, "learning_rate": 0.0001044888888888889, "loss": 0.0006, "step": 2150 }, { "epoch": 7.183333333333334, "grad_norm": 0.0026961718685925007, "learning_rate": 0.00010426666666666666, "loss": 0.0006, "step": 2155 }, { "epoch": 7.2, "grad_norm": 0.0025459695607423782, "learning_rate": 0.00010404444444444446, "loss": 0.0006, "step": 2160 }, { "epoch": 7.216666666666667, "grad_norm": 0.0036110514774918556, "learning_rate": 0.00010382222222222221, "loss": 0.0006, "step": 2165 }, { "epoch": 7.233333333333333, "grad_norm": 0.003302538301795721, "learning_rate": 0.00010360000000000001, "loss": 0.0005, "step": 2170 }, { "epoch": 7.25, "grad_norm": 0.0046531339175999165, "learning_rate": 0.00010337777777777777, "loss": 0.0006, "step": 2175 }, { "epoch": 7.266666666666667, "grad_norm": 0.0023748010862618685, "learning_rate": 0.00010315555555555556, "loss": 0.0006, "step": 2180 }, { "epoch": 7.283333333333333, "grad_norm": 0.004215647932142019, "learning_rate": 0.00010293333333333335, "loss": 0.0006, "step": 2185 }, { "epoch": 7.3, "grad_norm": 0.0020745014771819115, "learning_rate": 0.00010271111111111112, "loss": 0.0009, "step": 2190 }, { "epoch": 7.316666666666666, "grad_norm": 0.0031880170572549105, "learning_rate": 0.0001024888888888889, "loss": 0.0005, "step": 2195 }, { "epoch": 7.333333333333333, "grad_norm": 0.0022652570623904467, "learning_rate": 0.00010226666666666667, "loss": 0.0005, "step": 2200 }, { "epoch": 7.333333333333333, "eval_accuracy": 0.8508333333333333, "eval_f1": 0.8463261909627133, "eval_loss": 1.064659833908081, "eval_precision": 0.8664573917988446, "eval_recall": 0.8508333333333333, "eval_runtime": 8.4203, "eval_samples_per_second": 142.512, "eval_steps_per_second": 17.814, "step": 2200 }, { "epoch": 7.35, "grad_norm": 0.0027140197344124317, "learning_rate": 0.00010204444444444445, "loss": 0.0006, "step": 2205 }, { "epoch": 7.366666666666666, "grad_norm": 0.004270640667527914, "learning_rate": 0.00010182222222222222, "loss": 0.0005, "step": 2210 }, { "epoch": 7.383333333333334, "grad_norm": 0.001891718478873372, "learning_rate": 0.0001016, "loss": 0.0008, "step": 2215 }, { "epoch": 7.4, "grad_norm": 0.0024542182218283415, "learning_rate": 0.0001013777777777778, "loss": 0.0005, "step": 2220 }, { "epoch": 7.416666666666667, "grad_norm": 0.14781856536865234, "learning_rate": 0.00010115555555555556, "loss": 0.0007, "step": 2225 }, { "epoch": 7.433333333333334, "grad_norm": 0.002086364198476076, "learning_rate": 0.00010093333333333335, "loss": 0.0005, "step": 2230 }, { "epoch": 7.45, "grad_norm": 0.001884354860521853, "learning_rate": 0.00010071111111111111, "loss": 0.0005, "step": 2235 }, { "epoch": 7.466666666666667, "grad_norm": 0.0029874600004404783, "learning_rate": 0.0001004888888888889, "loss": 0.0005, "step": 2240 }, { "epoch": 7.483333333333333, "grad_norm": 0.0021988521330058575, "learning_rate": 0.00010026666666666666, "loss": 0.0005, "step": 2245 }, { "epoch": 7.5, "grad_norm": 0.002084364416077733, "learning_rate": 0.00010004444444444446, "loss": 0.0005, "step": 2250 }, { "epoch": 7.516666666666667, "grad_norm": 0.0024356828071177006, "learning_rate": 9.982222222222223e-05, "loss": 0.0006, "step": 2255 }, { "epoch": 7.533333333333333, "grad_norm": 0.002192368498072028, "learning_rate": 9.960000000000001e-05, "loss": 0.0005, "step": 2260 }, { "epoch": 7.55, "grad_norm": 0.0032441699877381325, "learning_rate": 9.937777777777778e-05, "loss": 0.0005, "step": 2265 }, { "epoch": 7.566666666666666, "grad_norm": 0.0024502137675881386, "learning_rate": 9.915555555555556e-05, "loss": 0.0005, "step": 2270 }, { "epoch": 7.583333333333333, "grad_norm": 0.002073746407404542, "learning_rate": 9.893333333333333e-05, "loss": 0.0005, "step": 2275 }, { "epoch": 7.6, "grad_norm": 0.0021007428877055645, "learning_rate": 9.871111111111113e-05, "loss": 0.0005, "step": 2280 }, { "epoch": 7.616666666666667, "grad_norm": 0.001993477111682296, "learning_rate": 9.84888888888889e-05, "loss": 0.0005, "step": 2285 }, { "epoch": 7.633333333333333, "grad_norm": 0.0021192326676100492, "learning_rate": 9.826666666666668e-05, "loss": 0.0132, "step": 2290 }, { "epoch": 7.65, "grad_norm": 0.002214607549831271, "learning_rate": 9.804444444444445e-05, "loss": 0.0005, "step": 2295 }, { "epoch": 7.666666666666667, "grad_norm": 0.0019857583101838827, "learning_rate": 9.782222222222223e-05, "loss": 0.0005, "step": 2300 }, { "epoch": 7.666666666666667, "eval_accuracy": 0.8125, "eval_f1": 0.8110777221034449, "eval_loss": 1.2970032691955566, "eval_precision": 0.8430169670888199, "eval_recall": 0.8125, "eval_runtime": 8.2918, "eval_samples_per_second": 144.72, "eval_steps_per_second": 18.09, "step": 2300 }, { "epoch": 7.683333333333334, "grad_norm": 0.002051049144938588, "learning_rate": 9.76e-05, "loss": 0.0005, "step": 2305 }, { "epoch": 7.7, "grad_norm": 0.0017361313803121448, "learning_rate": 9.737777777777778e-05, "loss": 0.093, "step": 2310 }, { "epoch": 7.716666666666667, "grad_norm": 0.0025037815794348717, "learning_rate": 9.715555555555555e-05, "loss": 0.0515, "step": 2315 }, { "epoch": 7.733333333333333, "grad_norm": 0.003869944717735052, "learning_rate": 9.693333333333335e-05, "loss": 0.0006, "step": 2320 }, { "epoch": 7.75, "grad_norm": 0.0023458856157958508, "learning_rate": 9.671111111111112e-05, "loss": 0.0542, "step": 2325 }, { "epoch": 7.766666666666667, "grad_norm": 0.005104554817080498, "learning_rate": 9.64888888888889e-05, "loss": 0.0006, "step": 2330 }, { "epoch": 7.783333333333333, "grad_norm": 0.0024311754386872053, "learning_rate": 9.626666666666667e-05, "loss": 0.0005, "step": 2335 }, { "epoch": 7.8, "grad_norm": 0.005760380998253822, "learning_rate": 9.604444444444445e-05, "loss": 0.0005, "step": 2340 }, { "epoch": 7.816666666666666, "grad_norm": 0.0031037896405905485, "learning_rate": 9.582222222222222e-05, "loss": 0.0006, "step": 2345 }, { "epoch": 7.833333333333333, "grad_norm": 0.002071030205115676, "learning_rate": 9.56e-05, "loss": 0.0005, "step": 2350 }, { "epoch": 7.85, "grad_norm": 0.0038880386855453253, "learning_rate": 9.537777777777778e-05, "loss": 0.0005, "step": 2355 }, { "epoch": 7.866666666666667, "grad_norm": 0.0015718061476945877, "learning_rate": 9.515555555555556e-05, "loss": 0.0005, "step": 2360 }, { "epoch": 7.883333333333333, "grad_norm": 0.0021492764353752136, "learning_rate": 9.493333333333334e-05, "loss": 0.0005, "step": 2365 }, { "epoch": 7.9, "grad_norm": 0.001888036960735917, "learning_rate": 9.471111111111111e-05, "loss": 0.0004, "step": 2370 }, { "epoch": 7.916666666666667, "grad_norm": 0.0022231729235500097, "learning_rate": 9.44888888888889e-05, "loss": 0.0005, "step": 2375 }, { "epoch": 7.933333333333334, "grad_norm": 0.0030491272918879986, "learning_rate": 9.426666666666666e-05, "loss": 0.0005, "step": 2380 }, { "epoch": 7.95, "grad_norm": 0.0020528859458863735, "learning_rate": 9.404444444444445e-05, "loss": 0.0005, "step": 2385 }, { "epoch": 7.966666666666667, "grad_norm": 0.0019649346359074116, "learning_rate": 9.382222222222223e-05, "loss": 0.0004, "step": 2390 }, { "epoch": 7.983333333333333, "grad_norm": 0.0034376399125903845, "learning_rate": 9.360000000000001e-05, "loss": 0.0011, "step": 2395 }, { "epoch": 8.0, "grad_norm": 0.002521902322769165, "learning_rate": 9.337777777777778e-05, "loss": 0.0005, "step": 2400 }, { "epoch": 8.0, "eval_accuracy": 0.8166666666666667, "eval_f1": 0.8143439057990626, "eval_loss": 1.2049200534820557, "eval_precision": 0.8214041241299835, "eval_recall": 0.8166666666666667, "eval_runtime": 8.4688, "eval_samples_per_second": 141.697, "eval_steps_per_second": 17.712, "step": 2400 }, { "epoch": 8.016666666666667, "grad_norm": 0.002076116157695651, "learning_rate": 9.315555555555556e-05, "loss": 0.0005, "step": 2405 }, { "epoch": 8.033333333333333, "grad_norm": 0.0025723432190716267, "learning_rate": 9.293333333333333e-05, "loss": 0.0005, "step": 2410 }, { "epoch": 8.05, "grad_norm": 0.0020202461164444685, "learning_rate": 9.271111111111112e-05, "loss": 0.0005, "step": 2415 }, { "epoch": 8.066666666666666, "grad_norm": 0.001939392532221973, "learning_rate": 9.248888888888889e-05, "loss": 0.0005, "step": 2420 }, { "epoch": 8.083333333333334, "grad_norm": 0.0018050920916721225, "learning_rate": 9.226666666666667e-05, "loss": 0.002, "step": 2425 }, { "epoch": 8.1, "grad_norm": 0.003142706351354718, "learning_rate": 9.204444444444444e-05, "loss": 0.0005, "step": 2430 }, { "epoch": 8.116666666666667, "grad_norm": 0.002595666330307722, "learning_rate": 9.182222222222223e-05, "loss": 0.0006, "step": 2435 }, { "epoch": 8.133333333333333, "grad_norm": 1.7766621112823486, "learning_rate": 9.16e-05, "loss": 0.0063, "step": 2440 }, { "epoch": 8.15, "grad_norm": 0.003581622615456581, "learning_rate": 9.137777777777779e-05, "loss": 0.0004, "step": 2445 }, { "epoch": 8.166666666666666, "grad_norm": 0.0047254012897610664, "learning_rate": 9.115555555555556e-05, "loss": 0.0005, "step": 2450 }, { "epoch": 8.183333333333334, "grad_norm": 0.0016325454926118255, "learning_rate": 9.093333333333334e-05, "loss": 0.0639, "step": 2455 }, { "epoch": 8.2, "grad_norm": 0.006115608382970095, "learning_rate": 9.071111111111111e-05, "loss": 0.0034, "step": 2460 }, { "epoch": 8.216666666666667, "grad_norm": 0.006886833347380161, "learning_rate": 9.048888888888889e-05, "loss": 0.0005, "step": 2465 }, { "epoch": 8.233333333333333, "grad_norm": 0.003666622331365943, "learning_rate": 9.026666666666666e-05, "loss": 0.0794, "step": 2470 }, { "epoch": 8.25, "grad_norm": 0.00164215883705765, "learning_rate": 9.004444444444446e-05, "loss": 0.0004, "step": 2475 }, { "epoch": 8.266666666666667, "grad_norm": 0.002379081444814801, "learning_rate": 8.982222222222223e-05, "loss": 0.0005, "step": 2480 }, { "epoch": 8.283333333333333, "grad_norm": 0.006122312042862177, "learning_rate": 8.960000000000001e-05, "loss": 0.0005, "step": 2485 }, { "epoch": 8.3, "grad_norm": 0.0019356354605406523, "learning_rate": 8.937777777777778e-05, "loss": 0.0017, "step": 2490 }, { "epoch": 8.316666666666666, "grad_norm": 0.0018204948864877224, "learning_rate": 8.915555555555556e-05, "loss": 0.0005, "step": 2495 }, { "epoch": 8.333333333333334, "grad_norm": 0.0024176621809601784, "learning_rate": 8.893333333333333e-05, "loss": 0.0021, "step": 2500 }, { "epoch": 8.333333333333334, "eval_accuracy": 0.8641666666666666, "eval_f1": 0.8601825093650314, "eval_loss": 0.9407299757003784, "eval_precision": 0.8663328974467144, "eval_recall": 0.8641666666666666, "eval_runtime": 8.634, "eval_samples_per_second": 138.986, "eval_steps_per_second": 17.373, "step": 2500 }, { "epoch": 8.35, "grad_norm": 0.002498525893315673, "learning_rate": 8.871111111111111e-05, "loss": 0.0004, "step": 2505 }, { "epoch": 8.366666666666667, "grad_norm": 0.0384209118783474, "learning_rate": 8.848888888888888e-05, "loss": 0.0005, "step": 2510 }, { "epoch": 8.383333333333333, "grad_norm": 0.003669807454571128, "learning_rate": 8.826666666666668e-05, "loss": 0.0005, "step": 2515 }, { "epoch": 8.4, "grad_norm": 0.0021935757249593735, "learning_rate": 8.804444444444445e-05, "loss": 0.0005, "step": 2520 }, { "epoch": 8.416666666666666, "grad_norm": 0.0066655161790549755, "learning_rate": 8.782222222222223e-05, "loss": 0.0006, "step": 2525 }, { "epoch": 8.433333333333334, "grad_norm": 0.001873963512480259, "learning_rate": 8.76e-05, "loss": 0.0005, "step": 2530 }, { "epoch": 8.45, "grad_norm": 0.002338885562494397, "learning_rate": 8.737777777777778e-05, "loss": 0.0572, "step": 2535 }, { "epoch": 8.466666666666667, "grad_norm": 0.0019337664125487208, "learning_rate": 8.715555555555555e-05, "loss": 0.0298, "step": 2540 }, { "epoch": 8.483333333333333, "grad_norm": 0.0015296690398827195, "learning_rate": 8.693333333333334e-05, "loss": 0.0004, "step": 2545 }, { "epoch": 8.5, "grad_norm": 0.0027683323714882135, "learning_rate": 8.671111111111112e-05, "loss": 0.0005, "step": 2550 }, { "epoch": 8.516666666666667, "grad_norm": 0.6706671714782715, "learning_rate": 8.64888888888889e-05, "loss": 0.0011, "step": 2555 }, { "epoch": 8.533333333333333, "grad_norm": 0.001669232384301722, "learning_rate": 8.626666666666667e-05, "loss": 0.0078, "step": 2560 }, { "epoch": 8.55, "grad_norm": 0.01035506371408701, "learning_rate": 8.604444444444445e-05, "loss": 0.0005, "step": 2565 }, { "epoch": 8.566666666666666, "grad_norm": 0.002854671562090516, "learning_rate": 8.582222222222222e-05, "loss": 0.0004, "step": 2570 }, { "epoch": 8.583333333333334, "grad_norm": 0.0019188800361007452, "learning_rate": 8.560000000000001e-05, "loss": 0.0005, "step": 2575 }, { "epoch": 8.6, "grad_norm": 18.827878952026367, "learning_rate": 8.537777777777778e-05, "loss": 0.0169, "step": 2580 }, { "epoch": 8.616666666666667, "grad_norm": 0.002589485375210643, "learning_rate": 8.515555555555556e-05, "loss": 0.0004, "step": 2585 }, { "epoch": 8.633333333333333, "grad_norm": 0.0025287193711847067, "learning_rate": 8.493333333333334e-05, "loss": 0.0758, "step": 2590 }, { "epoch": 8.65, "grad_norm": 0.005133676342666149, "learning_rate": 8.471111111111113e-05, "loss": 0.0005, "step": 2595 }, { "epoch": 8.666666666666666, "grad_norm": 0.06638040393590927, "learning_rate": 8.44888888888889e-05, "loss": 0.0006, "step": 2600 }, { "epoch": 8.666666666666666, "eval_accuracy": 0.7258333333333333, "eval_f1": 0.7256120637421509, "eval_loss": 1.842067837715149, "eval_precision": 0.8273062634764762, "eval_recall": 0.7258333333333333, "eval_runtime": 8.4061, "eval_samples_per_second": 142.753, "eval_steps_per_second": 17.844, "step": 2600 }, { "epoch": 8.683333333333334, "grad_norm": 0.015184612944722176, "learning_rate": 8.426666666666668e-05, "loss": 0.0032, "step": 2605 }, { "epoch": 8.7, "grad_norm": 0.0024708874989300966, "learning_rate": 8.404444444444445e-05, "loss": 0.0005, "step": 2610 }, { "epoch": 8.716666666666667, "grad_norm": 0.002203833544626832, "learning_rate": 8.382222222222223e-05, "loss": 0.0004, "step": 2615 }, { "epoch": 8.733333333333333, "grad_norm": 0.001893380074761808, "learning_rate": 8.36e-05, "loss": 0.0005, "step": 2620 }, { "epoch": 8.75, "grad_norm": 0.002038012258708477, "learning_rate": 8.337777777777778e-05, "loss": 0.0005, "step": 2625 }, { "epoch": 8.766666666666667, "grad_norm": 0.001939457026310265, "learning_rate": 8.315555555555557e-05, "loss": 0.0004, "step": 2630 }, { "epoch": 8.783333333333333, "grad_norm": 0.00247605936601758, "learning_rate": 8.293333333333333e-05, "loss": 0.0005, "step": 2635 }, { "epoch": 8.8, "grad_norm": 0.0016201582038775086, "learning_rate": 8.271111111111112e-05, "loss": 0.0004, "step": 2640 }, { "epoch": 8.816666666666666, "grad_norm": 0.0017054718919098377, "learning_rate": 8.248888888888889e-05, "loss": 0.0004, "step": 2645 }, { "epoch": 8.833333333333334, "grad_norm": 0.003758511506021023, "learning_rate": 8.226666666666667e-05, "loss": 0.0004, "step": 2650 }, { "epoch": 8.85, "grad_norm": 0.002900876337662339, "learning_rate": 8.204444444444445e-05, "loss": 0.0004, "step": 2655 }, { "epoch": 8.866666666666667, "grad_norm": 0.0018155504949390888, "learning_rate": 8.182222222222222e-05, "loss": 0.0004, "step": 2660 }, { "epoch": 8.883333333333333, "grad_norm": 0.003782250452786684, "learning_rate": 8.16e-05, "loss": 0.0004, "step": 2665 }, { "epoch": 8.9, "grad_norm": 0.0020743105560541153, "learning_rate": 8.137777777777779e-05, "loss": 0.0004, "step": 2670 }, { "epoch": 8.916666666666666, "grad_norm": 0.22320835292339325, "learning_rate": 8.115555555555556e-05, "loss": 0.0006, "step": 2675 }, { "epoch": 8.933333333333334, "grad_norm": 0.001259553013369441, "learning_rate": 8.093333333333334e-05, "loss": 0.0019, "step": 2680 }, { "epoch": 8.95, "grad_norm": 0.002095993608236313, "learning_rate": 8.071111111111111e-05, "loss": 0.0004, "step": 2685 }, { "epoch": 8.966666666666667, "grad_norm": 0.962779700756073, "learning_rate": 8.048888888888889e-05, "loss": 0.0011, "step": 2690 }, { "epoch": 8.983333333333333, "grad_norm": 0.018091807141900063, "learning_rate": 8.026666666666666e-05, "loss": 0.0004, "step": 2695 }, { "epoch": 9.0, "grad_norm": 0.006867669057101011, "learning_rate": 8.004444444444444e-05, "loss": 0.0005, "step": 2700 }, { "epoch": 9.0, "eval_accuracy": 0.76, "eval_f1": 0.7554989532374303, "eval_loss": 1.6229697465896606, "eval_precision": 0.79206692437336, "eval_recall": 0.76, "eval_runtime": 8.4625, "eval_samples_per_second": 141.801, "eval_steps_per_second": 17.725, "step": 2700 }, { "epoch": 9.016666666666667, "grad_norm": 0.0026171617209911346, "learning_rate": 7.982222222222223e-05, "loss": 0.0571, "step": 2705 }, { "epoch": 9.033333333333333, "grad_norm": 0.0015404780860990286, "learning_rate": 7.960000000000001e-05, "loss": 0.0004, "step": 2710 }, { "epoch": 9.05, "grad_norm": 0.0015620854683220387, "learning_rate": 7.937777777777778e-05, "loss": 0.0004, "step": 2715 }, { "epoch": 9.066666666666666, "grad_norm": 0.0020621875301003456, "learning_rate": 7.915555555555556e-05, "loss": 0.0004, "step": 2720 }, { "epoch": 9.083333333333334, "grad_norm": 0.0017004151595756412, "learning_rate": 7.893333333333333e-05, "loss": 0.0005, "step": 2725 }, { "epoch": 9.1, "grad_norm": 0.0019510473357513547, "learning_rate": 7.871111111111111e-05, "loss": 0.0004, "step": 2730 }, { "epoch": 9.116666666666667, "grad_norm": 0.0029418321792036295, "learning_rate": 7.848888888888888e-05, "loss": 0.0004, "step": 2735 }, { "epoch": 9.133333333333333, "grad_norm": 0.0032149357721209526, "learning_rate": 7.826666666666667e-05, "loss": 0.0005, "step": 2740 }, { "epoch": 9.15, "grad_norm": 0.001790427602827549, "learning_rate": 7.804444444444445e-05, "loss": 0.0004, "step": 2745 }, { "epoch": 9.166666666666666, "grad_norm": 0.0013530703727155924, "learning_rate": 7.782222222222223e-05, "loss": 0.0004, "step": 2750 }, { "epoch": 9.183333333333334, "grad_norm": 0.0035368818789720535, "learning_rate": 7.76e-05, "loss": 0.0004, "step": 2755 }, { "epoch": 9.2, "grad_norm": 0.0021714430768042803, "learning_rate": 7.737777777777779e-05, "loss": 0.0004, "step": 2760 }, { "epoch": 9.216666666666667, "grad_norm": 0.0014961960259824991, "learning_rate": 7.715555555555555e-05, "loss": 0.0004, "step": 2765 }, { "epoch": 9.233333333333333, "grad_norm": 0.0022291429340839386, "learning_rate": 7.693333333333334e-05, "loss": 0.0004, "step": 2770 }, { "epoch": 9.25, "grad_norm": 0.0016520776553079486, "learning_rate": 7.671111111111111e-05, "loss": 0.0853, "step": 2775 }, { "epoch": 9.266666666666667, "grad_norm": 0.002062709303572774, "learning_rate": 7.648888888888889e-05, "loss": 0.0004, "step": 2780 }, { "epoch": 9.283333333333333, "grad_norm": 0.0012347393203526735, "learning_rate": 7.626666666666667e-05, "loss": 0.0003, "step": 2785 }, { "epoch": 9.3, "grad_norm": 0.01446629874408245, "learning_rate": 7.604444444444446e-05, "loss": 0.0009, "step": 2790 }, { "epoch": 9.316666666666666, "grad_norm": 2.312814950942993, "learning_rate": 7.582222222222223e-05, "loss": 0.0283, "step": 2795 }, { "epoch": 9.333333333333334, "grad_norm": 7.728909969329834, "learning_rate": 7.560000000000001e-05, "loss": 0.0116, "step": 2800 }, { "epoch": 9.333333333333334, "eval_accuracy": 0.8258333333333333, "eval_f1": 0.8182099172908559, "eval_loss": 1.2095714807510376, "eval_precision": 0.849523246877837, "eval_recall": 0.8258333333333333, "eval_runtime": 8.4844, "eval_samples_per_second": 141.437, "eval_steps_per_second": 17.68, "step": 2800 }, { "epoch": 9.35, "grad_norm": 0.001890773419290781, "learning_rate": 7.537777777777778e-05, "loss": 0.0005, "step": 2805 }, { "epoch": 9.366666666666667, "grad_norm": 0.001674674334935844, "learning_rate": 7.515555555555556e-05, "loss": 0.0172, "step": 2810 }, { "epoch": 9.383333333333333, "grad_norm": 0.001995210535824299, "learning_rate": 7.493333333333333e-05, "loss": 0.0004, "step": 2815 }, { "epoch": 9.4, "grad_norm": 0.0033503274898976088, "learning_rate": 7.471111111111111e-05, "loss": 0.0005, "step": 2820 }, { "epoch": 9.416666666666666, "grad_norm": 0.0014060711255297065, "learning_rate": 7.44888888888889e-05, "loss": 0.0008, "step": 2825 }, { "epoch": 9.433333333333334, "grad_norm": 0.0012448800262063742, "learning_rate": 7.426666666666668e-05, "loss": 0.0003, "step": 2830 }, { "epoch": 9.45, "grad_norm": 0.0031002650503069162, "learning_rate": 7.404444444444445e-05, "loss": 0.0004, "step": 2835 }, { "epoch": 9.466666666666667, "grad_norm": 0.0019295926904305816, "learning_rate": 7.382222222222223e-05, "loss": 0.0003, "step": 2840 }, { "epoch": 9.483333333333333, "grad_norm": 0.0019863350316882133, "learning_rate": 7.36e-05, "loss": 0.0004, "step": 2845 }, { "epoch": 9.5, "grad_norm": 0.0016343952156603336, "learning_rate": 7.337777777777778e-05, "loss": 0.0007, "step": 2850 }, { "epoch": 9.516666666666667, "grad_norm": 4.179478645324707, "learning_rate": 7.315555555555555e-05, "loss": 0.0839, "step": 2855 }, { "epoch": 9.533333333333333, "grad_norm": 0.0015245769172906876, "learning_rate": 7.293333333333334e-05, "loss": 0.0003, "step": 2860 }, { "epoch": 9.55, "grad_norm": 0.0013775582192465663, "learning_rate": 7.271111111111112e-05, "loss": 0.0003, "step": 2865 }, { "epoch": 9.566666666666666, "grad_norm": 0.0022263024002313614, "learning_rate": 7.24888888888889e-05, "loss": 0.0004, "step": 2870 }, { "epoch": 9.583333333333334, "grad_norm": 0.0021121418103575706, "learning_rate": 7.226666666666667e-05, "loss": 0.0004, "step": 2875 }, { "epoch": 9.6, "grad_norm": 0.0016616969369351864, "learning_rate": 7.204444444444445e-05, "loss": 0.0003, "step": 2880 }, { "epoch": 9.616666666666667, "grad_norm": 0.001180942403152585, "learning_rate": 7.182222222222222e-05, "loss": 0.0003, "step": 2885 }, { "epoch": 9.633333333333333, "grad_norm": 0.0012127147056162357, "learning_rate": 7.16e-05, "loss": 0.0003, "step": 2890 }, { "epoch": 9.65, "grad_norm": 0.001301257754676044, "learning_rate": 7.137777777777778e-05, "loss": 0.095, "step": 2895 }, { "epoch": 9.666666666666666, "grad_norm": 0.0017142429715022445, "learning_rate": 7.115555555555556e-05, "loss": 0.0004, "step": 2900 }, { "epoch": 9.666666666666666, "eval_accuracy": 0.8158333333333333, "eval_f1": 0.8111211347045437, "eval_loss": 1.4233206510543823, "eval_precision": 0.8257994446291146, "eval_recall": 0.8158333333333333, "eval_runtime": 8.5411, "eval_samples_per_second": 140.497, "eval_steps_per_second": 17.562, "step": 2900 }, { "epoch": 9.683333333333334, "grad_norm": 0.032633695751428604, "learning_rate": 7.093333333333334e-05, "loss": 0.1047, "step": 2905 }, { "epoch": 9.7, "grad_norm": 0.0038039605133235455, "learning_rate": 7.071111111111111e-05, "loss": 0.0889, "step": 2910 }, { "epoch": 9.716666666666667, "grad_norm": 0.0014661472523584962, "learning_rate": 7.048888888888889e-05, "loss": 0.0005, "step": 2915 }, { "epoch": 9.733333333333333, "grad_norm": 3.3111562728881836, "learning_rate": 7.026666666666668e-05, "loss": 0.1009, "step": 2920 }, { "epoch": 9.75, "grad_norm": 0.002511600498110056, "learning_rate": 7.004444444444445e-05, "loss": 0.0004, "step": 2925 }, { "epoch": 9.766666666666667, "grad_norm": 0.0035750367678701878, "learning_rate": 6.982222222222223e-05, "loss": 0.061, "step": 2930 }, { "epoch": 9.783333333333333, "grad_norm": 0.0104001360014081, "learning_rate": 6.96e-05, "loss": 0.0007, "step": 2935 }, { "epoch": 9.8, "grad_norm": 1.0012212991714478, "learning_rate": 6.937777777777778e-05, "loss": 0.0025, "step": 2940 }, { "epoch": 9.816666666666666, "grad_norm": 0.002306971698999405, "learning_rate": 6.915555555555556e-05, "loss": 0.0008, "step": 2945 }, { "epoch": 9.833333333333334, "grad_norm": 7.675650596618652, "learning_rate": 6.893333333333333e-05, "loss": 0.0042, "step": 2950 }, { "epoch": 9.85, "grad_norm": 8.966618537902832, "learning_rate": 6.871111111111112e-05, "loss": 0.0204, "step": 2955 }, { "epoch": 9.866666666666667, "grad_norm": 0.003678051522001624, "learning_rate": 6.848888888888889e-05, "loss": 0.0004, "step": 2960 }, { "epoch": 9.883333333333333, "grad_norm": 0.00415858393535018, "learning_rate": 6.826666666666667e-05, "loss": 0.0005, "step": 2965 }, { "epoch": 9.9, "grad_norm": 0.0024121918249875307, "learning_rate": 6.804444444444444e-05, "loss": 0.0782, "step": 2970 }, { "epoch": 9.916666666666666, "grad_norm": 0.3736204206943512, "learning_rate": 6.782222222222222e-05, "loss": 0.001, "step": 2975 }, { "epoch": 9.933333333333334, "grad_norm": 0.0027154474519193172, "learning_rate": 6.76e-05, "loss": 0.0999, "step": 2980 }, { "epoch": 9.95, "grad_norm": 9.349282264709473, "learning_rate": 6.737777777777779e-05, "loss": 0.0827, "step": 2985 }, { "epoch": 9.966666666666667, "grad_norm": 0.0027649779804050922, "learning_rate": 6.715555555555556e-05, "loss": 0.0007, "step": 2990 }, { "epoch": 9.983333333333333, "grad_norm": 0.0020583111327141523, "learning_rate": 6.693333333333334e-05, "loss": 0.0004, "step": 2995 }, { "epoch": 10.0, "grad_norm": 0.06373900175094604, "learning_rate": 6.671111111111111e-05, "loss": 0.0006, "step": 3000 }, { "epoch": 10.0, "eval_accuracy": 0.7775, "eval_f1": 0.77603559810928, "eval_loss": 1.5142462253570557, "eval_precision": 0.834018136841444, "eval_recall": 0.7775, "eval_runtime": 8.5445, "eval_samples_per_second": 140.441, "eval_steps_per_second": 17.555, "step": 3000 }, { "epoch": 10.016666666666667, "grad_norm": 0.0028097876347601414, "learning_rate": 6.648888888888889e-05, "loss": 0.0005, "step": 3005 }, { "epoch": 10.033333333333333, "grad_norm": 0.0024380080867558718, "learning_rate": 6.626666666666666e-05, "loss": 0.0005, "step": 3010 }, { "epoch": 10.05, "grad_norm": 0.043221160769462585, "learning_rate": 6.604444444444444e-05, "loss": 0.0007, "step": 3015 }, { "epoch": 10.066666666666666, "grad_norm": 0.0018608486279845238, "learning_rate": 6.582222222222223e-05, "loss": 0.0004, "step": 3020 }, { "epoch": 10.083333333333334, "grad_norm": 0.00613190745934844, "learning_rate": 6.560000000000001e-05, "loss": 0.0487, "step": 3025 }, { "epoch": 10.1, "grad_norm": 0.0024951656814664602, "learning_rate": 6.537777777777778e-05, "loss": 0.0004, "step": 3030 }, { "epoch": 10.116666666666667, "grad_norm": 0.30267655849456787, "learning_rate": 6.515555555555556e-05, "loss": 0.0007, "step": 3035 }, { "epoch": 10.133333333333333, "grad_norm": 0.0017727413214743137, "learning_rate": 6.493333333333333e-05, "loss": 0.0004, "step": 3040 }, { "epoch": 10.15, "grad_norm": 0.0019227680750191212, "learning_rate": 6.471111111111111e-05, "loss": 0.0005, "step": 3045 }, { "epoch": 10.166666666666666, "grad_norm": 0.001827712170779705, "learning_rate": 6.448888888888888e-05, "loss": 0.0004, "step": 3050 }, { "epoch": 10.183333333333334, "grad_norm": 32.18736267089844, "learning_rate": 6.426666666666668e-05, "loss": 0.0205, "step": 3055 }, { "epoch": 10.2, "grad_norm": 0.001532943919301033, "learning_rate": 6.404444444444445e-05, "loss": 0.0444, "step": 3060 }, { "epoch": 10.216666666666667, "grad_norm": 0.0024186531081795692, "learning_rate": 6.382222222222223e-05, "loss": 0.0004, "step": 3065 }, { "epoch": 10.233333333333333, "grad_norm": 0.002252971986308694, "learning_rate": 6.36e-05, "loss": 0.0004, "step": 3070 }, { "epoch": 10.25, "grad_norm": 0.0031231562606990337, "learning_rate": 6.337777777777778e-05, "loss": 0.0006, "step": 3075 }, { "epoch": 10.266666666666667, "grad_norm": 0.0037209708243608475, "learning_rate": 6.315555555555555e-05, "loss": 0.007, "step": 3080 }, { "epoch": 10.283333333333333, "grad_norm": 0.0025607082061469555, "learning_rate": 6.293333333333334e-05, "loss": 0.0004, "step": 3085 }, { "epoch": 10.3, "grad_norm": 0.0016200091922655702, "learning_rate": 6.27111111111111e-05, "loss": 0.0004, "step": 3090 }, { "epoch": 10.316666666666666, "grad_norm": 0.0022511854767799377, "learning_rate": 6.24888888888889e-05, "loss": 0.0004, "step": 3095 }, { "epoch": 10.333333333333334, "grad_norm": 0.001993870362639427, "learning_rate": 6.226666666666667e-05, "loss": 0.0004, "step": 3100 }, { "epoch": 10.333333333333334, "eval_accuracy": 0.875, "eval_f1": 0.8715006352630079, "eval_loss": 0.8259854316711426, "eval_precision": 0.883305168994579, "eval_recall": 0.875, "eval_runtime": 8.7148, "eval_samples_per_second": 137.697, "eval_steps_per_second": 17.212, "step": 3100 }, { "epoch": 10.35, "grad_norm": 0.0020567800384014845, "learning_rate": 6.204444444444445e-05, "loss": 0.0004, "step": 3105 }, { "epoch": 10.366666666666667, "grad_norm": 0.001245063729584217, "learning_rate": 6.182222222222222e-05, "loss": 0.0004, "step": 3110 }, { "epoch": 10.383333333333333, "grad_norm": 0.0017343615181744099, "learning_rate": 6.16e-05, "loss": 0.0004, "step": 3115 }, { "epoch": 10.4, "grad_norm": 0.001916777458973229, "learning_rate": 6.137777777777778e-05, "loss": 0.0622, "step": 3120 }, { "epoch": 10.416666666666666, "grad_norm": 0.0012972489930689335, "learning_rate": 6.115555555555556e-05, "loss": 0.0003, "step": 3125 }, { "epoch": 10.433333333333334, "grad_norm": 0.0014717732556164265, "learning_rate": 6.093333333333333e-05, "loss": 0.0004, "step": 3130 }, { "epoch": 10.45, "grad_norm": 0.005142189562320709, "learning_rate": 6.071111111111112e-05, "loss": 0.0004, "step": 3135 }, { "epoch": 10.466666666666667, "grad_norm": 0.005986502394080162, "learning_rate": 6.0488888888888894e-05, "loss": 0.0004, "step": 3140 }, { "epoch": 10.483333333333333, "grad_norm": 13.118406295776367, "learning_rate": 6.026666666666667e-05, "loss": 0.0431, "step": 3145 }, { "epoch": 10.5, "grad_norm": 0.0016926875105127692, "learning_rate": 6.0044444444444446e-05, "loss": 0.0004, "step": 3150 }, { "epoch": 10.516666666666667, "grad_norm": 0.0021159437019377947, "learning_rate": 5.982222222222222e-05, "loss": 0.0004, "step": 3155 }, { "epoch": 10.533333333333333, "grad_norm": 0.001531762070953846, "learning_rate": 5.96e-05, "loss": 0.0004, "step": 3160 }, { "epoch": 10.55, "grad_norm": 0.0022365280892699957, "learning_rate": 5.9377777777777775e-05, "loss": 0.0003, "step": 3165 }, { "epoch": 10.566666666666666, "grad_norm": 0.0015103392070159316, "learning_rate": 5.915555555555555e-05, "loss": 0.0003, "step": 3170 }, { "epoch": 10.583333333333334, "grad_norm": 0.001387620810419321, "learning_rate": 5.893333333333334e-05, "loss": 0.0003, "step": 3175 }, { "epoch": 10.6, "grad_norm": 0.00136385892983526, "learning_rate": 5.871111111111112e-05, "loss": 0.0004, "step": 3180 }, { "epoch": 10.616666666666667, "grad_norm": 0.0013320622965693474, "learning_rate": 5.848888888888889e-05, "loss": 0.0003, "step": 3185 }, { "epoch": 10.633333333333333, "grad_norm": 0.0016545933904126287, "learning_rate": 5.826666666666667e-05, "loss": 0.0003, "step": 3190 }, { "epoch": 10.65, "grad_norm": 0.0013174484483897686, "learning_rate": 5.8044444444444445e-05, "loss": 0.0003, "step": 3195 }, { "epoch": 10.666666666666666, "grad_norm": 0.00229137996211648, "learning_rate": 5.782222222222222e-05, "loss": 0.0004, "step": 3200 }, { "epoch": 10.666666666666666, "eval_accuracy": 0.8641666666666666, "eval_f1": 0.8631267774043103, "eval_loss": 0.8945208787918091, "eval_precision": 0.8754489213739517, "eval_recall": 0.8641666666666666, "eval_runtime": 8.5722, "eval_samples_per_second": 139.987, "eval_steps_per_second": 17.498, "step": 3200 }, { "epoch": 10.683333333333334, "grad_norm": 0.002233444480225444, "learning_rate": 5.76e-05, "loss": 0.0004, "step": 3205 }, { "epoch": 10.7, "grad_norm": 0.0011960604460909963, "learning_rate": 5.737777777777779e-05, "loss": 0.0159, "step": 3210 }, { "epoch": 10.716666666666667, "grad_norm": 0.0013327156193554401, "learning_rate": 5.715555555555556e-05, "loss": 0.0003, "step": 3215 }, { "epoch": 10.733333333333333, "grad_norm": 0.0015530382515862584, "learning_rate": 5.693333333333334e-05, "loss": 0.0004, "step": 3220 }, { "epoch": 10.75, "grad_norm": 0.0014668426010757685, "learning_rate": 5.6711111111111116e-05, "loss": 0.0003, "step": 3225 }, { "epoch": 10.766666666666667, "grad_norm": 0.0024464228190481663, "learning_rate": 5.648888888888889e-05, "loss": 0.0004, "step": 3230 }, { "epoch": 10.783333333333333, "grad_norm": 0.002027082024142146, "learning_rate": 5.626666666666667e-05, "loss": 0.0003, "step": 3235 }, { "epoch": 10.8, "grad_norm": 0.001432035001926124, "learning_rate": 5.6044444444444444e-05, "loss": 0.0085, "step": 3240 }, { "epoch": 10.816666666666666, "grad_norm": 0.001499245292507112, "learning_rate": 5.582222222222222e-05, "loss": 0.0003, "step": 3245 }, { "epoch": 10.833333333333334, "grad_norm": 0.001738474820740521, "learning_rate": 5.560000000000001e-05, "loss": 0.0003, "step": 3250 }, { "epoch": 10.85, "grad_norm": 0.0023718324955552816, "learning_rate": 5.5377777777777786e-05, "loss": 0.0003, "step": 3255 }, { "epoch": 10.866666666666667, "grad_norm": 0.0016343836905434728, "learning_rate": 5.515555555555556e-05, "loss": 0.0003, "step": 3260 }, { "epoch": 10.883333333333333, "grad_norm": 0.0011803604429587722, "learning_rate": 5.493333333333334e-05, "loss": 0.0003, "step": 3265 }, { "epoch": 10.9, "grad_norm": 0.001507938141003251, "learning_rate": 5.4711111111111114e-05, "loss": 0.0003, "step": 3270 }, { "epoch": 10.916666666666666, "grad_norm": 0.002482309006154537, "learning_rate": 5.448888888888889e-05, "loss": 0.0004, "step": 3275 }, { "epoch": 10.933333333333334, "grad_norm": 0.0017230326775461435, "learning_rate": 5.4266666666666667e-05, "loss": 0.0003, "step": 3280 }, { "epoch": 10.95, "grad_norm": 0.0020383859518915415, "learning_rate": 5.404444444444444e-05, "loss": 0.0004, "step": 3285 }, { "epoch": 10.966666666666667, "grad_norm": 0.0013365100603550673, "learning_rate": 5.382222222222223e-05, "loss": 0.0003, "step": 3290 }, { "epoch": 10.983333333333333, "grad_norm": 0.0013743388699367642, "learning_rate": 5.360000000000001e-05, "loss": 0.0003, "step": 3295 }, { "epoch": 11.0, "grad_norm": 0.0015713865868747234, "learning_rate": 5.3377777777777785e-05, "loss": 0.0003, "step": 3300 }, { "epoch": 11.0, "eval_accuracy": 0.865, "eval_f1": 0.8595955845084893, "eval_loss": 0.9189497828483582, "eval_precision": 0.8658297716051402, "eval_recall": 0.865, "eval_runtime": 8.636, "eval_samples_per_second": 138.953, "eval_steps_per_second": 17.369, "step": 3300 }, { "epoch": 11.016666666666667, "grad_norm": 0.0012864682357758284, "learning_rate": 5.315555555555556e-05, "loss": 0.0003, "step": 3305 }, { "epoch": 11.033333333333333, "grad_norm": 0.001335111097432673, "learning_rate": 5.293333333333334e-05, "loss": 0.0003, "step": 3310 }, { "epoch": 11.05, "grad_norm": 0.0016735129756852984, "learning_rate": 5.271111111111111e-05, "loss": 0.0003, "step": 3315 }, { "epoch": 11.066666666666666, "grad_norm": 0.0016134382458403707, "learning_rate": 5.248888888888889e-05, "loss": 0.0003, "step": 3320 }, { "epoch": 11.083333333333334, "grad_norm": 0.0014015769120305777, "learning_rate": 5.2266666666666665e-05, "loss": 0.0003, "step": 3325 }, { "epoch": 11.1, "grad_norm": 0.0014330127742141485, "learning_rate": 5.204444444444445e-05, "loss": 0.0003, "step": 3330 }, { "epoch": 11.116666666666667, "grad_norm": 0.0014589036582037807, "learning_rate": 5.1822222222222224e-05, "loss": 0.0003, "step": 3335 }, { "epoch": 11.133333333333333, "grad_norm": 0.0017383291851729155, "learning_rate": 5.16e-05, "loss": 0.0003, "step": 3340 }, { "epoch": 11.15, "grad_norm": 0.0017747778911143541, "learning_rate": 5.1377777777777784e-05, "loss": 0.0003, "step": 3345 }, { "epoch": 11.166666666666666, "grad_norm": 0.0011969446204602718, "learning_rate": 5.115555555555556e-05, "loss": 0.0003, "step": 3350 }, { "epoch": 11.183333333333334, "grad_norm": 0.0011464952258393168, "learning_rate": 5.0933333333333336e-05, "loss": 0.0003, "step": 3355 }, { "epoch": 11.2, "grad_norm": 0.0015173573046922684, "learning_rate": 5.071111111111111e-05, "loss": 0.0004, "step": 3360 }, { "epoch": 11.216666666666667, "grad_norm": 0.0015298640355467796, "learning_rate": 5.0488888888888895e-05, "loss": 0.0003, "step": 3365 }, { "epoch": 11.233333333333333, "grad_norm": 0.0010930441785603762, "learning_rate": 5.026666666666667e-05, "loss": 0.0003, "step": 3370 }, { "epoch": 11.25, "grad_norm": 0.002055104123428464, "learning_rate": 5.004444444444445e-05, "loss": 0.0003, "step": 3375 }, { "epoch": 11.266666666666667, "grad_norm": 0.0015300210798159242, "learning_rate": 4.982222222222222e-05, "loss": 0.0003, "step": 3380 }, { "epoch": 11.283333333333333, "grad_norm": 0.001404647366143763, "learning_rate": 4.96e-05, "loss": 0.0003, "step": 3385 }, { "epoch": 11.3, "grad_norm": 0.0017933609196916223, "learning_rate": 4.9377777777777776e-05, "loss": 0.0003, "step": 3390 }, { "epoch": 11.316666666666666, "grad_norm": 0.0011732981074601412, "learning_rate": 4.915555555555556e-05, "loss": 0.0003, "step": 3395 }, { "epoch": 11.333333333333334, "grad_norm": 0.0016474477015435696, "learning_rate": 4.8933333333333335e-05, "loss": 0.0003, "step": 3400 }, { "epoch": 11.333333333333334, "eval_accuracy": 0.8916666666666667, "eval_f1": 0.8882461345166729, "eval_loss": 0.6928975582122803, "eval_precision": 0.8926134596723359, "eval_recall": 0.8916666666666667, "eval_runtime": 8.7035, "eval_samples_per_second": 137.876, "eval_steps_per_second": 17.234, "step": 3400 }, { "epoch": 11.35, "grad_norm": 0.0014090208569541574, "learning_rate": 4.871111111111111e-05, "loss": 0.0003, "step": 3405 }, { "epoch": 11.366666666666667, "grad_norm": 0.0018424694426357746, "learning_rate": 4.848888888888889e-05, "loss": 0.0003, "step": 3410 }, { "epoch": 11.383333333333333, "grad_norm": 0.0014224790502339602, "learning_rate": 4.826666666666667e-05, "loss": 0.0003, "step": 3415 }, { "epoch": 11.4, "grad_norm": 0.0012458838755264878, "learning_rate": 4.8044444444444446e-05, "loss": 0.0003, "step": 3420 }, { "epoch": 11.416666666666666, "grad_norm": 0.0013212627964094281, "learning_rate": 4.782222222222222e-05, "loss": 0.0003, "step": 3425 }, { "epoch": 11.433333333333334, "grad_norm": 0.000943222374189645, "learning_rate": 4.76e-05, "loss": 0.0003, "step": 3430 }, { "epoch": 11.45, "grad_norm": 0.0012452988885343075, "learning_rate": 4.737777777777778e-05, "loss": 0.0003, "step": 3435 }, { "epoch": 11.466666666666667, "grad_norm": 0.001349261263385415, "learning_rate": 4.715555555555556e-05, "loss": 0.0003, "step": 3440 }, { "epoch": 11.483333333333333, "grad_norm": 0.0013885938096791506, "learning_rate": 4.6933333333333333e-05, "loss": 0.0003, "step": 3445 }, { "epoch": 11.5, "grad_norm": 0.0011886832071468234, "learning_rate": 4.671111111111111e-05, "loss": 0.0003, "step": 3450 }, { "epoch": 11.516666666666667, "grad_norm": 0.0015486598713323474, "learning_rate": 4.648888888888889e-05, "loss": 0.0003, "step": 3455 }, { "epoch": 11.533333333333333, "grad_norm": 0.0017922603292390704, "learning_rate": 4.626666666666667e-05, "loss": 0.0003, "step": 3460 }, { "epoch": 11.55, "grad_norm": 0.0011062102857977152, "learning_rate": 4.6044444444444445e-05, "loss": 0.0002, "step": 3465 }, { "epoch": 11.566666666666666, "grad_norm": 0.0012668754206970334, "learning_rate": 4.582222222222222e-05, "loss": 0.0003, "step": 3470 }, { "epoch": 11.583333333333334, "grad_norm": 0.0010187900625169277, "learning_rate": 4.5600000000000004e-05, "loss": 0.0003, "step": 3475 }, { "epoch": 11.6, "grad_norm": 0.0016676780069246888, "learning_rate": 4.537777777777778e-05, "loss": 0.0003, "step": 3480 }, { "epoch": 11.616666666666667, "grad_norm": 0.0012592221610248089, "learning_rate": 4.5155555555555556e-05, "loss": 0.0003, "step": 3485 }, { "epoch": 11.633333333333333, "grad_norm": 0.001086089643649757, "learning_rate": 4.493333333333333e-05, "loss": 0.0003, "step": 3490 }, { "epoch": 11.65, "grad_norm": 0.0011737250024452806, "learning_rate": 4.4711111111111115e-05, "loss": 0.012, "step": 3495 }, { "epoch": 11.666666666666666, "grad_norm": 0.0011277091689407825, "learning_rate": 4.448888888888889e-05, "loss": 0.0003, "step": 3500 }, { "epoch": 11.666666666666666, "eval_accuracy": 0.8908333333333334, "eval_f1": 0.8878502994277049, "eval_loss": 0.7764349579811096, "eval_precision": 0.9000046295363018, "eval_recall": 0.8908333333333334, "eval_runtime": 8.5499, "eval_samples_per_second": 140.352, "eval_steps_per_second": 17.544, "step": 3500 }, { "epoch": 11.683333333333334, "grad_norm": 0.0026248686481267214, "learning_rate": 4.426666666666667e-05, "loss": 0.0003, "step": 3505 }, { "epoch": 11.7, "grad_norm": 0.0015824720030650496, "learning_rate": 4.404444444444445e-05, "loss": 0.0004, "step": 3510 }, { "epoch": 11.716666666666667, "grad_norm": 0.0033804471604526043, "learning_rate": 4.3822222222222227e-05, "loss": 0.0003, "step": 3515 }, { "epoch": 11.733333333333333, "grad_norm": 0.0011950613697990775, "learning_rate": 4.36e-05, "loss": 0.0549, "step": 3520 }, { "epoch": 11.75, "grad_norm": 0.0014861224917694926, "learning_rate": 4.337777777777778e-05, "loss": 0.0003, "step": 3525 }, { "epoch": 11.766666666666667, "grad_norm": 0.0010819070739671588, "learning_rate": 4.315555555555556e-05, "loss": 0.0003, "step": 3530 }, { "epoch": 11.783333333333333, "grad_norm": 0.002266546245664358, "learning_rate": 4.293333333333334e-05, "loss": 0.0003, "step": 3535 }, { "epoch": 11.8, "grad_norm": 0.0015351728070527315, "learning_rate": 4.2711111111111114e-05, "loss": 0.0003, "step": 3540 }, { "epoch": 11.816666666666666, "grad_norm": 0.0018479111604392529, "learning_rate": 4.248888888888889e-05, "loss": 0.0062, "step": 3545 }, { "epoch": 11.833333333333334, "grad_norm": 0.001542224083095789, "learning_rate": 4.226666666666667e-05, "loss": 0.0003, "step": 3550 }, { "epoch": 11.85, "grad_norm": 0.0012192220892757177, "learning_rate": 4.204444444444445e-05, "loss": 0.0003, "step": 3555 }, { "epoch": 11.866666666666667, "grad_norm": 0.0016990448348224163, "learning_rate": 4.1822222222222225e-05, "loss": 0.0003, "step": 3560 }, { "epoch": 11.883333333333333, "grad_norm": 0.0012768966844305396, "learning_rate": 4.16e-05, "loss": 0.0003, "step": 3565 }, { "epoch": 11.9, "grad_norm": 0.0010636007646098733, "learning_rate": 4.1377777777777784e-05, "loss": 0.0003, "step": 3570 }, { "epoch": 11.916666666666666, "grad_norm": 0.0009845581371337175, "learning_rate": 4.115555555555556e-05, "loss": 0.0003, "step": 3575 }, { "epoch": 11.933333333333334, "grad_norm": 0.0011775285238400102, "learning_rate": 4.093333333333334e-05, "loss": 0.0003, "step": 3580 }, { "epoch": 11.95, "grad_norm": 0.001384636969305575, "learning_rate": 4.071111111111111e-05, "loss": 0.0003, "step": 3585 }, { "epoch": 11.966666666666667, "grad_norm": 0.0009220022475346923, "learning_rate": 4.0488888888888896e-05, "loss": 0.0002, "step": 3590 }, { "epoch": 11.983333333333333, "grad_norm": 0.0010263891890645027, "learning_rate": 4.026666666666667e-05, "loss": 0.0002, "step": 3595 }, { "epoch": 12.0, "grad_norm": 0.0014569932827726007, "learning_rate": 4.004444444444445e-05, "loss": 0.0003, "step": 3600 }, { "epoch": 12.0, "eval_accuracy": 0.8616666666666667, "eval_f1": 0.8597758310042694, "eval_loss": 0.9250171184539795, "eval_precision": 0.8748725308647297, "eval_recall": 0.8616666666666667, "eval_runtime": 8.7271, "eval_samples_per_second": 137.503, "eval_steps_per_second": 17.188, "step": 3600 }, { "epoch": 12.016666666666667, "grad_norm": 0.0013052490539848804, "learning_rate": 3.9822222222222224e-05, "loss": 0.0003, "step": 3605 }, { "epoch": 12.033333333333333, "grad_norm": 0.001073316321708262, "learning_rate": 3.960000000000001e-05, "loss": 0.0003, "step": 3610 }, { "epoch": 12.05, "grad_norm": 0.0013709955383092165, "learning_rate": 3.937777777777778e-05, "loss": 0.0003, "step": 3615 }, { "epoch": 12.066666666666666, "grad_norm": 0.0012627794640138745, "learning_rate": 3.915555555555556e-05, "loss": 0.0003, "step": 3620 }, { "epoch": 12.083333333333334, "grad_norm": 0.0015063256723806262, "learning_rate": 3.8933333333333336e-05, "loss": 0.0003, "step": 3625 }, { "epoch": 12.1, "grad_norm": 0.0015316841891035438, "learning_rate": 3.871111111111111e-05, "loss": 0.0003, "step": 3630 }, { "epoch": 12.116666666666667, "grad_norm": 0.0011499280808493495, "learning_rate": 3.848888888888889e-05, "loss": 0.0003, "step": 3635 }, { "epoch": 12.133333333333333, "grad_norm": 0.000982353463768959, "learning_rate": 3.8266666666666664e-05, "loss": 0.0003, "step": 3640 }, { "epoch": 12.15, "grad_norm": 0.004948371089994907, "learning_rate": 3.804444444444445e-05, "loss": 0.0003, "step": 3645 }, { "epoch": 12.166666666666666, "grad_norm": 0.00567929120734334, "learning_rate": 3.782222222222222e-05, "loss": 0.0003, "step": 3650 }, { "epoch": 12.183333333333334, "grad_norm": 0.0011115901870653033, "learning_rate": 3.76e-05, "loss": 0.0003, "step": 3655 }, { "epoch": 12.2, "grad_norm": 0.0009219167986884713, "learning_rate": 3.7377777777777775e-05, "loss": 0.0002, "step": 3660 }, { "epoch": 12.216666666666667, "grad_norm": 0.0009637073380872607, "learning_rate": 3.715555555555555e-05, "loss": 0.0002, "step": 3665 }, { "epoch": 12.233333333333333, "grad_norm": 0.0012105575297027826, "learning_rate": 3.6933333333333334e-05, "loss": 0.0002, "step": 3670 }, { "epoch": 12.25, "grad_norm": 0.001330082886852324, "learning_rate": 3.671111111111111e-05, "loss": 0.0003, "step": 3675 }, { "epoch": 12.266666666666667, "grad_norm": 0.001343924435786903, "learning_rate": 3.648888888888889e-05, "loss": 0.0002, "step": 3680 }, { "epoch": 12.283333333333333, "grad_norm": 0.001238767639733851, "learning_rate": 3.626666666666667e-05, "loss": 0.0002, "step": 3685 }, { "epoch": 12.3, "grad_norm": 0.001232936279848218, "learning_rate": 3.6044444444444446e-05, "loss": 0.0002, "step": 3690 }, { "epoch": 12.316666666666666, "grad_norm": 0.0010732858208939433, "learning_rate": 3.582222222222222e-05, "loss": 0.0002, "step": 3695 }, { "epoch": 12.333333333333334, "grad_norm": 0.001242554746568203, "learning_rate": 3.56e-05, "loss": 0.0002, "step": 3700 }, { "epoch": 12.333333333333334, "eval_accuracy": 0.865, "eval_f1": 0.8628488100422472, "eval_loss": 0.9109199047088623, "eval_precision": 0.8772019560478479, "eval_recall": 0.865, "eval_runtime": 8.5138, "eval_samples_per_second": 140.948, "eval_steps_per_second": 17.618, "step": 3700 }, { "epoch": 12.35, "grad_norm": 0.0010867074597626925, "learning_rate": 3.537777777777778e-05, "loss": 0.0003, "step": 3705 }, { "epoch": 12.366666666666667, "grad_norm": 0.0015041906153783202, "learning_rate": 3.515555555555556e-05, "loss": 0.0003, "step": 3710 }, { "epoch": 12.383333333333333, "grad_norm": 0.0013329191133379936, "learning_rate": 3.493333333333333e-05, "loss": 0.0002, "step": 3715 }, { "epoch": 12.4, "grad_norm": 0.001078193774446845, "learning_rate": 3.471111111111111e-05, "loss": 0.0002, "step": 3720 }, { "epoch": 12.416666666666666, "grad_norm": 0.00125105120241642, "learning_rate": 3.448888888888889e-05, "loss": 0.0002, "step": 3725 }, { "epoch": 12.433333333333334, "grad_norm": 0.0010558542562648654, "learning_rate": 3.426666666666667e-05, "loss": 0.0002, "step": 3730 }, { "epoch": 12.45, "grad_norm": 0.0015771571779623628, "learning_rate": 3.4044444444444445e-05, "loss": 0.0002, "step": 3735 }, { "epoch": 12.466666666666667, "grad_norm": 0.0012832481879740953, "learning_rate": 3.382222222222222e-05, "loss": 0.0002, "step": 3740 }, { "epoch": 12.483333333333333, "grad_norm": 0.001506016356870532, "learning_rate": 3.3600000000000004e-05, "loss": 0.0003, "step": 3745 }, { "epoch": 12.5, "grad_norm": 0.001088597346097231, "learning_rate": 3.337777777777778e-05, "loss": 0.0002, "step": 3750 }, { "epoch": 12.516666666666667, "grad_norm": 0.0013224872527644038, "learning_rate": 3.3155555555555556e-05, "loss": 0.0002, "step": 3755 }, { "epoch": 12.533333333333333, "grad_norm": 0.0013083405792713165, "learning_rate": 3.293333333333333e-05, "loss": 0.0002, "step": 3760 }, { "epoch": 12.55, "grad_norm": 0.0012214956805109978, "learning_rate": 3.2711111111111115e-05, "loss": 0.0002, "step": 3765 }, { "epoch": 12.566666666666666, "grad_norm": 0.0011000190861523151, "learning_rate": 3.248888888888889e-05, "loss": 0.0002, "step": 3770 }, { "epoch": 12.583333333333334, "grad_norm": 0.007483938708901405, "learning_rate": 3.226666666666667e-05, "loss": 0.0003, "step": 3775 }, { "epoch": 12.6, "grad_norm": 0.0010402854532003403, "learning_rate": 3.204444444444444e-05, "loss": 0.0002, "step": 3780 }, { "epoch": 12.616666666666667, "grad_norm": 0.0012803610879927874, "learning_rate": 3.1822222222222226e-05, "loss": 0.0002, "step": 3785 }, { "epoch": 12.633333333333333, "grad_norm": 0.0008567477925680578, "learning_rate": 3.16e-05, "loss": 0.0002, "step": 3790 }, { "epoch": 12.65, "grad_norm": 0.0011515081860125065, "learning_rate": 3.137777777777778e-05, "loss": 0.0002, "step": 3795 }, { "epoch": 12.666666666666666, "grad_norm": 0.001215915777720511, "learning_rate": 3.1155555555555555e-05, "loss": 0.0002, "step": 3800 }, { "epoch": 12.666666666666666, "eval_accuracy": 0.865, "eval_f1": 0.8628488100422472, "eval_loss": 0.9101312160491943, "eval_precision": 0.8772019560478479, "eval_recall": 0.865, "eval_runtime": 8.7375, "eval_samples_per_second": 137.34, "eval_steps_per_second": 17.167, "step": 3800 }, { "epoch": 12.683333333333334, "grad_norm": 0.0012230200227349997, "learning_rate": 3.093333333333334e-05, "loss": 0.0002, "step": 3805 }, { "epoch": 12.7, "grad_norm": 0.0009071430540643632, "learning_rate": 3.0711111111111114e-05, "loss": 0.0002, "step": 3810 }, { "epoch": 12.716666666666667, "grad_norm": 0.0013346484629437327, "learning_rate": 3.048888888888889e-05, "loss": 0.0003, "step": 3815 }, { "epoch": 12.733333333333333, "grad_norm": 0.0011986028403043747, "learning_rate": 3.0266666666666666e-05, "loss": 0.0002, "step": 3820 }, { "epoch": 12.75, "grad_norm": 0.0014066204894334078, "learning_rate": 3.004444444444445e-05, "loss": 0.0002, "step": 3825 }, { "epoch": 12.766666666666667, "grad_norm": 0.0010365727357566357, "learning_rate": 2.9822222222222225e-05, "loss": 0.0002, "step": 3830 }, { "epoch": 12.783333333333333, "grad_norm": 0.0009767424780875444, "learning_rate": 2.96e-05, "loss": 0.0002, "step": 3835 }, { "epoch": 12.8, "grad_norm": 0.0010243882425129414, "learning_rate": 2.937777777777778e-05, "loss": 0.0002, "step": 3840 }, { "epoch": 12.816666666666666, "grad_norm": 0.0010041996138170362, "learning_rate": 2.9155555555555557e-05, "loss": 0.0002, "step": 3845 }, { "epoch": 12.833333333333334, "grad_norm": 0.0010595896746963263, "learning_rate": 2.8933333333333333e-05, "loss": 0.0002, "step": 3850 }, { "epoch": 12.85, "grad_norm": 0.0009683365351520479, "learning_rate": 2.8711111111111113e-05, "loss": 0.0002, "step": 3855 }, { "epoch": 12.866666666666667, "grad_norm": 0.0010778330033645034, "learning_rate": 2.8488888888888892e-05, "loss": 0.0002, "step": 3860 }, { "epoch": 12.883333333333333, "grad_norm": 0.0009641871438361704, "learning_rate": 2.8266666666666668e-05, "loss": 0.0002, "step": 3865 }, { "epoch": 12.9, "grad_norm": 0.0010485869133844972, "learning_rate": 2.8044444444444444e-05, "loss": 0.0002, "step": 3870 }, { "epoch": 12.916666666666666, "grad_norm": 0.0008772484725341201, "learning_rate": 2.782222222222222e-05, "loss": 0.0002, "step": 3875 }, { "epoch": 12.933333333333334, "grad_norm": 0.0010452147107571363, "learning_rate": 2.7600000000000003e-05, "loss": 0.0002, "step": 3880 }, { "epoch": 12.95, "grad_norm": 0.0010583980474621058, "learning_rate": 2.737777777777778e-05, "loss": 0.0002, "step": 3885 }, { "epoch": 12.966666666666667, "grad_norm": 0.0008542913128621876, "learning_rate": 2.7155555555555556e-05, "loss": 0.0002, "step": 3890 }, { "epoch": 12.983333333333333, "grad_norm": 0.0011009940644726157, "learning_rate": 2.6933333333333332e-05, "loss": 0.0002, "step": 3895 }, { "epoch": 13.0, "grad_norm": 0.0011797796469181776, "learning_rate": 2.6711111111111115e-05, "loss": 0.0002, "step": 3900 }, { "epoch": 13.0, "eval_accuracy": 0.8675, "eval_f1": 0.8653489569306125, "eval_loss": 0.9113307595252991, "eval_precision": 0.8791725605635567, "eval_recall": 0.8675, "eval_runtime": 8.6393, "eval_samples_per_second": 138.901, "eval_steps_per_second": 17.363, "step": 3900 }, { "epoch": 13.016666666666667, "grad_norm": 0.000974777271039784, "learning_rate": 2.648888888888889e-05, "loss": 0.0002, "step": 3905 }, { "epoch": 13.033333333333333, "grad_norm": 0.0008126385509967804, "learning_rate": 2.6266666666666667e-05, "loss": 0.0002, "step": 3910 }, { "epoch": 13.05, "grad_norm": 0.0009841653518378735, "learning_rate": 2.6044444444444443e-05, "loss": 0.0002, "step": 3915 }, { "epoch": 13.066666666666666, "grad_norm": 0.001155352802015841, "learning_rate": 2.5822222222222226e-05, "loss": 0.0002, "step": 3920 }, { "epoch": 13.083333333333334, "grad_norm": 0.0008333691512234509, "learning_rate": 2.5600000000000002e-05, "loss": 0.0002, "step": 3925 }, { "epoch": 13.1, "grad_norm": 0.0008260849863290787, "learning_rate": 2.537777777777778e-05, "loss": 0.0002, "step": 3930 }, { "epoch": 13.116666666666667, "grad_norm": 0.0011717848246917129, "learning_rate": 2.5155555555555555e-05, "loss": 0.0002, "step": 3935 }, { "epoch": 13.133333333333333, "grad_norm": 0.0009493640973232687, "learning_rate": 2.4933333333333334e-05, "loss": 0.0002, "step": 3940 }, { "epoch": 13.15, "grad_norm": 0.0010694536613300443, "learning_rate": 2.4711111111111114e-05, "loss": 0.0002, "step": 3945 }, { "epoch": 13.166666666666666, "grad_norm": 0.0010569182923063636, "learning_rate": 2.448888888888889e-05, "loss": 0.0002, "step": 3950 }, { "epoch": 13.183333333333334, "grad_norm": 0.0010735576506704092, "learning_rate": 2.426666666666667e-05, "loss": 0.0002, "step": 3955 }, { "epoch": 13.2, "grad_norm": 0.0009017607080750167, "learning_rate": 2.4044444444444445e-05, "loss": 0.0002, "step": 3960 }, { "epoch": 13.216666666666667, "grad_norm": 0.0010776235722005367, "learning_rate": 2.3822222222222225e-05, "loss": 0.0002, "step": 3965 }, { "epoch": 13.233333333333333, "grad_norm": 0.0009979140013456345, "learning_rate": 2.36e-05, "loss": 0.0002, "step": 3970 }, { "epoch": 13.25, "grad_norm": 0.0009763720445334911, "learning_rate": 2.337777777777778e-05, "loss": 0.0002, "step": 3975 }, { "epoch": 13.266666666666667, "grad_norm": 0.00138624117244035, "learning_rate": 2.3155555555555557e-05, "loss": 0.0002, "step": 3980 }, { "epoch": 13.283333333333333, "grad_norm": 0.0009859746787697077, "learning_rate": 2.2933333333333333e-05, "loss": 0.0002, "step": 3985 }, { "epoch": 13.3, "grad_norm": 0.0024169215466827154, "learning_rate": 2.2711111111111112e-05, "loss": 0.0002, "step": 3990 }, { "epoch": 13.316666666666666, "grad_norm": 0.0009063694160431623, "learning_rate": 2.248888888888889e-05, "loss": 0.0002, "step": 3995 }, { "epoch": 13.333333333333334, "grad_norm": 0.0010980329243466258, "learning_rate": 2.2266666666666668e-05, "loss": 0.0002, "step": 4000 }, { "epoch": 13.333333333333334, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8662054494258439, "eval_loss": 0.9124165773391724, "eval_precision": 0.8799916621015984, "eval_recall": 0.8683333333333333, "eval_runtime": 8.5899, "eval_samples_per_second": 139.699, "eval_steps_per_second": 17.462, "step": 4000 }, { "epoch": 13.35, "grad_norm": 0.001108839875087142, "learning_rate": 2.2044444444444444e-05, "loss": 0.0002, "step": 4005 }, { "epoch": 13.366666666666667, "grad_norm": 0.0010376395657658577, "learning_rate": 2.1822222222222224e-05, "loss": 0.0002, "step": 4010 }, { "epoch": 13.383333333333333, "grad_norm": 0.0009023257298395038, "learning_rate": 2.16e-05, "loss": 0.0002, "step": 4015 }, { "epoch": 13.4, "grad_norm": 0.0012054431717842817, "learning_rate": 2.137777777777778e-05, "loss": 0.0002, "step": 4020 }, { "epoch": 13.416666666666666, "grad_norm": 0.001209812588058412, "learning_rate": 2.1155555555555556e-05, "loss": 0.0002, "step": 4025 }, { "epoch": 13.433333333333334, "grad_norm": 0.001066188095137477, "learning_rate": 2.0933333333333335e-05, "loss": 0.0002, "step": 4030 }, { "epoch": 13.45, "grad_norm": 0.0011846404522657394, "learning_rate": 2.071111111111111e-05, "loss": 0.0002, "step": 4035 }, { "epoch": 13.466666666666667, "grad_norm": 0.0012806459562852979, "learning_rate": 2.048888888888889e-05, "loss": 0.0002, "step": 4040 }, { "epoch": 13.483333333333333, "grad_norm": 0.0009496557177044451, "learning_rate": 2.0266666666666667e-05, "loss": 0.0002, "step": 4045 }, { "epoch": 13.5, "grad_norm": 0.0010594555642455816, "learning_rate": 2.0044444444444446e-05, "loss": 0.0002, "step": 4050 }, { "epoch": 13.516666666666667, "grad_norm": 0.0011220441665500402, "learning_rate": 1.9822222222222223e-05, "loss": 0.0002, "step": 4055 }, { "epoch": 13.533333333333333, "grad_norm": 0.0013798715081065893, "learning_rate": 1.9600000000000002e-05, "loss": 0.0002, "step": 4060 }, { "epoch": 13.55, "grad_norm": 0.0010349206859245896, "learning_rate": 1.9377777777777778e-05, "loss": 0.0002, "step": 4065 }, { "epoch": 13.566666666666666, "grad_norm": 0.0008303927024826407, "learning_rate": 1.9155555555555558e-05, "loss": 0.0002, "step": 4070 }, { "epoch": 13.583333333333334, "grad_norm": 0.0009135144064202905, "learning_rate": 1.8933333333333334e-05, "loss": 0.0002, "step": 4075 }, { "epoch": 13.6, "grad_norm": 0.0009139656904153526, "learning_rate": 1.8711111111111113e-05, "loss": 0.0002, "step": 4080 }, { "epoch": 13.616666666666667, "grad_norm": 0.0015188547549769282, "learning_rate": 1.848888888888889e-05, "loss": 0.0002, "step": 4085 }, { "epoch": 13.633333333333333, "grad_norm": 0.000991416280157864, "learning_rate": 1.826666666666667e-05, "loss": 0.0002, "step": 4090 }, { "epoch": 13.65, "grad_norm": 0.0008409863221459091, "learning_rate": 1.8044444444444445e-05, "loss": 0.0002, "step": 4095 }, { "epoch": 13.666666666666666, "grad_norm": 0.0010441892081871629, "learning_rate": 1.7822222222222225e-05, "loss": 0.0002, "step": 4100 }, { "epoch": 13.666666666666666, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8662054494258439, "eval_loss": 0.9130155444145203, "eval_precision": 0.8799916621015984, "eval_recall": 0.8683333333333333, "eval_runtime": 8.8186, "eval_samples_per_second": 136.076, "eval_steps_per_second": 17.01, "step": 4100 }, { "epoch": 13.683333333333334, "grad_norm": 0.0010945101967081428, "learning_rate": 1.76e-05, "loss": 0.0002, "step": 4105 }, { "epoch": 13.7, "grad_norm": 0.0009312895708717406, "learning_rate": 1.737777777777778e-05, "loss": 0.0002, "step": 4110 }, { "epoch": 13.716666666666667, "grad_norm": 0.0010571458842605352, "learning_rate": 1.7155555555555557e-05, "loss": 0.0002, "step": 4115 }, { "epoch": 13.733333333333333, "grad_norm": 0.0008640410960651934, "learning_rate": 1.6933333333333333e-05, "loss": 0.0002, "step": 4120 }, { "epoch": 13.75, "grad_norm": 0.0011680213501676917, "learning_rate": 1.6711111111111112e-05, "loss": 0.0002, "step": 4125 }, { "epoch": 13.766666666666667, "grad_norm": 0.0009616559254936874, "learning_rate": 1.648888888888889e-05, "loss": 0.0002, "step": 4130 }, { "epoch": 13.783333333333333, "grad_norm": 0.000967467378359288, "learning_rate": 1.6266666666666665e-05, "loss": 0.0002, "step": 4135 }, { "epoch": 13.8, "grad_norm": 0.0008415755582973361, "learning_rate": 1.6044444444444444e-05, "loss": 0.0002, "step": 4140 }, { "epoch": 13.816666666666666, "grad_norm": 0.0007956422632560134, "learning_rate": 1.582222222222222e-05, "loss": 0.0002, "step": 4145 }, { "epoch": 13.833333333333334, "grad_norm": 0.0006983898347243667, "learning_rate": 1.56e-05, "loss": 0.0002, "step": 4150 }, { "epoch": 13.85, "grad_norm": 0.0010508123086765409, "learning_rate": 1.537777777777778e-05, "loss": 0.0002, "step": 4155 }, { "epoch": 13.866666666666667, "grad_norm": 0.0009309173910878599, "learning_rate": 1.5155555555555555e-05, "loss": 0.0002, "step": 4160 }, { "epoch": 13.883333333333333, "grad_norm": 0.0010053145233541727, "learning_rate": 1.4933333333333335e-05, "loss": 0.0002, "step": 4165 }, { "epoch": 13.9, "grad_norm": 0.0009263809770345688, "learning_rate": 1.4711111111111111e-05, "loss": 0.0002, "step": 4170 }, { "epoch": 13.916666666666666, "grad_norm": 0.0009699989459477365, "learning_rate": 1.448888888888889e-05, "loss": 0.0002, "step": 4175 }, { "epoch": 13.933333333333334, "grad_norm": 0.001039581373333931, "learning_rate": 1.4266666666666667e-05, "loss": 0.0002, "step": 4180 }, { "epoch": 13.95, "grad_norm": 0.0010692535433918238, "learning_rate": 1.4044444444444446e-05, "loss": 0.0002, "step": 4185 }, { "epoch": 13.966666666666667, "grad_norm": 0.0009307617438025773, "learning_rate": 1.3822222222222222e-05, "loss": 0.0002, "step": 4190 }, { "epoch": 13.983333333333333, "grad_norm": 0.00100109470076859, "learning_rate": 1.3600000000000002e-05, "loss": 0.0002, "step": 4195 }, { "epoch": 14.0, "grad_norm": 0.0014318906469270587, "learning_rate": 1.3377777777777778e-05, "loss": 0.0002, "step": 4200 }, { "epoch": 14.0, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8662054494258439, "eval_loss": 0.912448525428772, "eval_precision": 0.8799916621015984, "eval_recall": 0.8683333333333333, "eval_runtime": 8.6327, "eval_samples_per_second": 139.006, "eval_steps_per_second": 17.376, "step": 4200 }, { "epoch": 14.016666666666667, "grad_norm": 0.0009112833067774773, "learning_rate": 1.3155555555555558e-05, "loss": 0.0002, "step": 4205 }, { "epoch": 14.033333333333333, "grad_norm": 0.0008922222768887877, "learning_rate": 1.2933333333333334e-05, "loss": 0.0002, "step": 4210 }, { "epoch": 14.05, "grad_norm": 0.0010068031260743737, "learning_rate": 1.2711111111111113e-05, "loss": 0.0002, "step": 4215 }, { "epoch": 14.066666666666666, "grad_norm": 0.0011091630440205336, "learning_rate": 1.248888888888889e-05, "loss": 0.0002, "step": 4220 }, { "epoch": 14.083333333333334, "grad_norm": 0.0010797716677188873, "learning_rate": 1.2266666666666667e-05, "loss": 0.0002, "step": 4225 }, { "epoch": 14.1, "grad_norm": 0.0008676221477799118, "learning_rate": 1.2044444444444445e-05, "loss": 0.0002, "step": 4230 }, { "epoch": 14.116666666666667, "grad_norm": 0.0008416885393671691, "learning_rate": 1.1822222222222223e-05, "loss": 0.0002, "step": 4235 }, { "epoch": 14.133333333333333, "grad_norm": 0.0006986764492467046, "learning_rate": 1.16e-05, "loss": 0.0002, "step": 4240 }, { "epoch": 14.15, "grad_norm": 0.0012195877498015761, "learning_rate": 1.1377777777777779e-05, "loss": 0.0002, "step": 4245 }, { "epoch": 14.166666666666666, "grad_norm": 0.0008148361230269074, "learning_rate": 1.1155555555555556e-05, "loss": 0.0002, "step": 4250 }, { "epoch": 14.183333333333334, "grad_norm": 0.000903773121535778, "learning_rate": 1.0933333333333334e-05, "loss": 0.0002, "step": 4255 }, { "epoch": 14.2, "grad_norm": 0.0007951482548378408, "learning_rate": 1.0711111111111112e-05, "loss": 0.0002, "step": 4260 }, { "epoch": 14.216666666666667, "grad_norm": 0.0010219771647825837, "learning_rate": 1.048888888888889e-05, "loss": 0.0002, "step": 4265 }, { "epoch": 14.233333333333333, "grad_norm": 0.0008164571481756866, "learning_rate": 1.0266666666666668e-05, "loss": 0.0002, "step": 4270 }, { "epoch": 14.25, "grad_norm": 0.0009997694287449121, "learning_rate": 1.0044444444444446e-05, "loss": 0.0002, "step": 4275 }, { "epoch": 14.266666666666667, "grad_norm": 0.0008948759641498327, "learning_rate": 9.822222222222223e-06, "loss": 0.0002, "step": 4280 }, { "epoch": 14.283333333333333, "grad_norm": 0.0010801523458212614, "learning_rate": 9.600000000000001e-06, "loss": 0.0002, "step": 4285 }, { "epoch": 14.3, "grad_norm": 0.0009272038587369025, "learning_rate": 9.377777777777779e-06, "loss": 0.0002, "step": 4290 }, { "epoch": 14.316666666666666, "grad_norm": 0.0010733893141150475, "learning_rate": 9.155555555555557e-06, "loss": 0.0002, "step": 4295 }, { "epoch": 14.333333333333334, "grad_norm": 0.0010622100671753287, "learning_rate": 8.933333333333333e-06, "loss": 0.0002, "step": 4300 }, { "epoch": 14.333333333333334, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8662054494258439, "eval_loss": 0.9125186204910278, "eval_precision": 0.8799916621015984, "eval_recall": 0.8683333333333333, "eval_runtime": 9.6276, "eval_samples_per_second": 124.641, "eval_steps_per_second": 15.58, "step": 4300 }, { "epoch": 14.35, "grad_norm": 0.0007723625167272985, "learning_rate": 8.711111111111111e-06, "loss": 0.0002, "step": 4305 }, { "epoch": 14.366666666666667, "grad_norm": 0.0009308660519309342, "learning_rate": 8.488888888888889e-06, "loss": 0.0002, "step": 4310 }, { "epoch": 14.383333333333333, "grad_norm": 0.0009453694219700992, "learning_rate": 8.266666666666667e-06, "loss": 0.0002, "step": 4315 }, { "epoch": 14.4, "grad_norm": 0.0008883333648554981, "learning_rate": 8.044444444444444e-06, "loss": 0.0002, "step": 4320 }, { "epoch": 14.416666666666666, "grad_norm": 0.0024156623985618353, "learning_rate": 7.822222222222222e-06, "loss": 0.0002, "step": 4325 }, { "epoch": 14.433333333333334, "grad_norm": 0.0009812297066673636, "learning_rate": 7.6e-06, "loss": 0.0002, "step": 4330 }, { "epoch": 14.45, "grad_norm": 0.0008855509804561734, "learning_rate": 7.377777777777778e-06, "loss": 0.0002, "step": 4335 }, { "epoch": 14.466666666666667, "grad_norm": 0.0008073800709098577, "learning_rate": 7.155555555555556e-06, "loss": 0.0002, "step": 4340 }, { "epoch": 14.483333333333333, "grad_norm": 0.0009413220686838031, "learning_rate": 6.933333333333334e-06, "loss": 0.0002, "step": 4345 }, { "epoch": 14.5, "grad_norm": 0.0010885632364079356, "learning_rate": 6.711111111111111e-06, "loss": 0.0002, "step": 4350 }, { "epoch": 14.516666666666667, "grad_norm": 0.0011338436743244529, "learning_rate": 6.488888888888888e-06, "loss": 0.0002, "step": 4355 }, { "epoch": 14.533333333333333, "grad_norm": 0.000994774978607893, "learning_rate": 6.266666666666666e-06, "loss": 0.0002, "step": 4360 }, { "epoch": 14.55, "grad_norm": 0.0009399533737450838, "learning_rate": 6.044444444444445e-06, "loss": 0.0002, "step": 4365 }, { "epoch": 14.566666666666666, "grad_norm": 0.0008130625355988741, "learning_rate": 5.822222222222223e-06, "loss": 0.0002, "step": 4370 }, { "epoch": 14.583333333333334, "grad_norm": 0.0007989128935150802, "learning_rate": 5.600000000000001e-06, "loss": 0.0002, "step": 4375 }, { "epoch": 14.6, "grad_norm": 0.0009085009805858135, "learning_rate": 5.3777777777777784e-06, "loss": 0.0002, "step": 4380 }, { "epoch": 14.616666666666667, "grad_norm": 0.0009112312109209597, "learning_rate": 5.155555555555555e-06, "loss": 0.0002, "step": 4385 }, { "epoch": 14.633333333333333, "grad_norm": 0.0013780698645859957, "learning_rate": 4.933333333333333e-06, "loss": 0.0002, "step": 4390 }, { "epoch": 14.65, "grad_norm": 0.0009466470219194889, "learning_rate": 4.711111111111111e-06, "loss": 0.0002, "step": 4395 }, { "epoch": 14.666666666666666, "grad_norm": 0.0008939657127484679, "learning_rate": 4.488888888888889e-06, "loss": 0.0002, "step": 4400 }, { "epoch": 14.666666666666666, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8662054494258439, "eval_loss": 0.9129561185836792, "eval_precision": 0.8799916621015984, "eval_recall": 0.8683333333333333, "eval_runtime": 8.7443, "eval_samples_per_second": 137.232, "eval_steps_per_second": 17.154, "step": 4400 }, { "epoch": 14.683333333333334, "grad_norm": 0.0014176799450069666, "learning_rate": 4.266666666666667e-06, "loss": 0.0002, "step": 4405 }, { "epoch": 14.7, "grad_norm": 0.0007848498644307256, "learning_rate": 4.044444444444445e-06, "loss": 0.0002, "step": 4410 }, { "epoch": 14.716666666666667, "grad_norm": 0.0008102475549094379, "learning_rate": 3.8222222222222224e-06, "loss": 0.0002, "step": 4415 }, { "epoch": 14.733333333333333, "grad_norm": 0.0008677626610733569, "learning_rate": 3.6e-06, "loss": 0.0002, "step": 4420 }, { "epoch": 14.75, "grad_norm": 0.0009485006448812783, "learning_rate": 3.3777777777777777e-06, "loss": 0.0002, "step": 4425 }, { "epoch": 14.766666666666667, "grad_norm": 0.0008669234230183065, "learning_rate": 3.155555555555556e-06, "loss": 0.0002, "step": 4430 }, { "epoch": 14.783333333333333, "grad_norm": 0.0008200660231523216, "learning_rate": 2.9333333333333333e-06, "loss": 0.0002, "step": 4435 }, { "epoch": 14.8, "grad_norm": 0.0009207354742102325, "learning_rate": 2.711111111111111e-06, "loss": 0.0002, "step": 4440 }, { "epoch": 14.816666666666666, "grad_norm": 0.0008159075514413416, "learning_rate": 2.488888888888889e-06, "loss": 0.0002, "step": 4445 }, { "epoch": 14.833333333333334, "grad_norm": 0.0012124241329729557, "learning_rate": 2.266666666666667e-06, "loss": 0.0002, "step": 4450 }, { "epoch": 14.85, "grad_norm": 0.0010082798544317484, "learning_rate": 2.0444444444444447e-06, "loss": 0.0002, "step": 4455 }, { "epoch": 14.866666666666667, "grad_norm": 0.0010259953560307622, "learning_rate": 1.8222222222222223e-06, "loss": 0.0002, "step": 4460 }, { "epoch": 14.883333333333333, "grad_norm": 0.0008410926093347371, "learning_rate": 1.6000000000000001e-06, "loss": 0.0002, "step": 4465 }, { "epoch": 14.9, "grad_norm": 0.001311168889515102, "learning_rate": 1.3777777777777778e-06, "loss": 0.0002, "step": 4470 }, { "epoch": 14.916666666666666, "grad_norm": 0.0011399708455428481, "learning_rate": 1.1555555555555556e-06, "loss": 0.0002, "step": 4475 }, { "epoch": 14.933333333333334, "grad_norm": 0.0007954046595841646, "learning_rate": 9.333333333333334e-07, "loss": 0.0002, "step": 4480 }, { "epoch": 14.95, "grad_norm": 0.0008534889202564955, "learning_rate": 7.111111111111112e-07, "loss": 0.0002, "step": 4485 }, { "epoch": 14.966666666666667, "grad_norm": 0.0009493738180026412, "learning_rate": 4.888888888888889e-07, "loss": 0.0002, "step": 4490 }, { "epoch": 14.983333333333333, "grad_norm": 0.0010394933633506298, "learning_rate": 2.6666666666666667e-07, "loss": 0.0002, "step": 4495 }, { "epoch": 15.0, "grad_norm": 0.0009004945168271661, "learning_rate": 4.444444444444445e-08, "loss": 0.0002, "step": 4500 }, { "epoch": 15.0, "eval_accuracy": 0.8683333333333333, "eval_f1": 0.8662054494258439, "eval_loss": 0.9130643606185913, "eval_precision": 0.8799916621015984, "eval_recall": 0.8683333333333333, "eval_runtime": 8.9426, "eval_samples_per_second": 134.189, "eval_steps_per_second": 16.774, "step": 4500 }, { "epoch": 15.0, "step": 4500, "total_flos": 5.57962327867392e+18, "train_loss": 0.03953544595837593, "train_runtime": 1130.6287, "train_samples_per_second": 63.681, "train_steps_per_second": 3.98 } ], "logging_steps": 5, "max_steps": 4500, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 5.57962327867392e+18, "train_batch_size": 16, "trial_name": null, "trial_params": null }