{ "best_global_step": 37500, "best_metric": 6.10477352142334, "best_model_checkpoint": "/work/HauSeq/train_results/results_bart/m2m100_418M/checkpoint-37500", "epoch": 3.0, "eval_steps": 500, "global_step": 37500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.004, "grad_norm": 0.17288358509540558, "learning_rate": 0.0004993333333333334, "loss": 7.5173, "step": 50 }, { "epoch": 0.008, "grad_norm": 0.1369473934173584, "learning_rate": 0.0004986666666666667, "loss": 6.3329, "step": 100 }, { "epoch": 0.012, "grad_norm": 0.11485234647989273, "learning_rate": 0.000498, "loss": 6.2476, "step": 150 }, { "epoch": 0.016, "grad_norm": 0.18780231475830078, "learning_rate": 0.0004973333333333334, "loss": 6.2647, "step": 200 }, { "epoch": 0.02, "grad_norm": 0.16586555540561676, "learning_rate": 0.0004966666666666666, "loss": 6.2735, "step": 250 }, { "epoch": 0.024, "grad_norm": 0.09097462147474289, "learning_rate": 0.000496, "loss": 6.2276, "step": 300 }, { "epoch": 0.028, "grad_norm": 0.09753222018480301, "learning_rate": 0.0004953333333333334, "loss": 6.22, "step": 350 }, { "epoch": 0.032, "grad_norm": 0.1208500862121582, "learning_rate": 0.0004946666666666667, "loss": 6.219, "step": 400 }, { "epoch": 0.036, "grad_norm": 0.12027961760759354, "learning_rate": 0.000494, "loss": 6.2154, "step": 450 }, { "epoch": 0.04, "grad_norm": 0.07851122319698334, "learning_rate": 0.0004933333333333334, "loss": 6.2141, "step": 500 }, { "epoch": 0.044, "grad_norm": 0.1014733538031578, "learning_rate": 0.0004926666666666666, "loss": 6.1975, "step": 550 }, { "epoch": 0.048, "grad_norm": 0.08273967355489731, "learning_rate": 0.000492, "loss": 6.1848, "step": 600 }, { "epoch": 0.052, "grad_norm": 0.07933519780635834, "learning_rate": 0.0004913333333333333, "loss": 6.1911, "step": 650 }, { "epoch": 0.056, "grad_norm": 0.0944221243262291, "learning_rate": 0.0004906666666666667, "loss": 6.1872, "step": 700 }, { "epoch": 0.06, "grad_norm": 0.12889821827411652, "learning_rate": 0.00049, "loss": 6.1885, "step": 750 }, { "epoch": 0.064, "grad_norm": 0.09511765837669373, "learning_rate": 0.0004893333333333334, "loss": 6.1849, "step": 800 }, { "epoch": 0.068, "grad_norm": 0.18209193646907806, "learning_rate": 0.0004886666666666667, "loss": 6.159, "step": 850 }, { "epoch": 0.072, "grad_norm": 0.09750299155712128, "learning_rate": 0.000488, "loss": 6.192, "step": 900 }, { "epoch": 0.076, "grad_norm": 0.09913253784179688, "learning_rate": 0.0004873333333333333, "loss": 6.1639, "step": 950 }, { "epoch": 0.08, "grad_norm": 0.08655453473329544, "learning_rate": 0.0004866666666666667, "loss": 6.1418, "step": 1000 }, { "epoch": 0.084, "grad_norm": 0.12075524777173996, "learning_rate": 0.000486, "loss": 6.1866, "step": 1050 }, { "epoch": 0.088, "grad_norm": 0.09878800064325333, "learning_rate": 0.00048533333333333333, "loss": 6.1778, "step": 1100 }, { "epoch": 0.092, "grad_norm": 0.10742035508155823, "learning_rate": 0.0004846666666666667, "loss": 6.192, "step": 1150 }, { "epoch": 0.096, "grad_norm": 0.09515393525362015, "learning_rate": 0.000484, "loss": 6.1412, "step": 1200 }, { "epoch": 0.1, "grad_norm": 0.3111189603805542, "learning_rate": 0.00048333333333333334, "loss": 6.1597, "step": 1250 }, { "epoch": 0.104, "grad_norm": 0.09835302084684372, "learning_rate": 0.00048266666666666667, "loss": 6.1455, "step": 1300 }, { "epoch": 0.108, "grad_norm": 0.08931953459978104, "learning_rate": 0.000482, "loss": 6.1648, "step": 1350 }, { "epoch": 0.112, "grad_norm": 0.09964313358068466, "learning_rate": 0.00048133333333333334, "loss": 6.1533, "step": 1400 }, { "epoch": 0.116, "grad_norm": 0.08410210907459259, "learning_rate": 0.0004806666666666667, "loss": 6.1526, "step": 1450 }, { "epoch": 0.12, "grad_norm": 0.10518144071102142, "learning_rate": 0.00048, "loss": 6.1492, "step": 1500 }, { "epoch": 0.124, "grad_norm": 0.12738625705242157, "learning_rate": 0.00047933333333333335, "loss": 6.1581, "step": 1550 }, { "epoch": 0.128, "grad_norm": 0.10969135165214539, "learning_rate": 0.0004786666666666667, "loss": 6.1859, "step": 1600 }, { "epoch": 0.132, "grad_norm": 0.08940576761960983, "learning_rate": 0.00047799999999999996, "loss": 6.1313, "step": 1650 }, { "epoch": 0.136, "grad_norm": 0.0728912279009819, "learning_rate": 0.00047733333333333335, "loss": 6.1411, "step": 1700 }, { "epoch": 0.14, "grad_norm": 0.08607441186904907, "learning_rate": 0.0004766666666666667, "loss": 6.1608, "step": 1750 }, { "epoch": 0.144, "grad_norm": 0.09020092338323593, "learning_rate": 0.00047599999999999997, "loss": 6.1538, "step": 1800 }, { "epoch": 0.148, "grad_norm": 0.08604450523853302, "learning_rate": 0.00047533333333333336, "loss": 6.1434, "step": 1850 }, { "epoch": 0.152, "grad_norm": 0.09820722788572311, "learning_rate": 0.0004746666666666667, "loss": 6.1263, "step": 1900 }, { "epoch": 0.156, "grad_norm": 0.1608031839132309, "learning_rate": 0.000474, "loss": 6.1469, "step": 1950 }, { "epoch": 0.16, "grad_norm": 0.10718920081853867, "learning_rate": 0.00047333333333333336, "loss": 6.1502, "step": 2000 }, { "epoch": 0.164, "grad_norm": 0.12366873025894165, "learning_rate": 0.0004726666666666667, "loss": 6.1349, "step": 2050 }, { "epoch": 0.168, "grad_norm": 0.10269736498594284, "learning_rate": 0.000472, "loss": 6.1487, "step": 2100 }, { "epoch": 0.172, "grad_norm": 0.0781385749578476, "learning_rate": 0.0004713333333333333, "loss": 6.1683, "step": 2150 }, { "epoch": 0.176, "grad_norm": 0.0976349413394928, "learning_rate": 0.0004706666666666667, "loss": 6.1837, "step": 2200 }, { "epoch": 0.18, "grad_norm": 0.10818152874708176, "learning_rate": 0.00047, "loss": 6.1191, "step": 2250 }, { "epoch": 0.184, "grad_norm": 0.09553058445453644, "learning_rate": 0.0004693333333333333, "loss": 6.1407, "step": 2300 }, { "epoch": 0.188, "grad_norm": 0.09858255833387375, "learning_rate": 0.0004686666666666667, "loss": 6.1636, "step": 2350 }, { "epoch": 0.192, "grad_norm": 0.08040735125541687, "learning_rate": 0.00046800000000000005, "loss": 6.1569, "step": 2400 }, { "epoch": 0.196, "grad_norm": 0.12108004093170166, "learning_rate": 0.0004673333333333333, "loss": 6.146, "step": 2450 }, { "epoch": 0.2, "grad_norm": 0.10650964081287384, "learning_rate": 0.00046666666666666666, "loss": 6.1913, "step": 2500 }, { "epoch": 0.204, "grad_norm": 0.09476235508918762, "learning_rate": 0.00046600000000000005, "loss": 6.1379, "step": 2550 }, { "epoch": 0.208, "grad_norm": 0.13399960100650787, "learning_rate": 0.00046533333333333333, "loss": 6.1157, "step": 2600 }, { "epoch": 0.212, "grad_norm": 0.0917024314403534, "learning_rate": 0.00046466666666666667, "loss": 6.1857, "step": 2650 }, { "epoch": 0.216, "grad_norm": 0.13566653430461884, "learning_rate": 0.00046400000000000006, "loss": 6.1392, "step": 2700 }, { "epoch": 0.22, "grad_norm": 0.07204718142747879, "learning_rate": 0.00046333333333333334, "loss": 6.1463, "step": 2750 }, { "epoch": 0.224, "grad_norm": 0.09178570657968521, "learning_rate": 0.0004626666666666667, "loss": 6.1788, "step": 2800 }, { "epoch": 0.228, "grad_norm": 0.08382175862789154, "learning_rate": 0.000462, "loss": 6.1409, "step": 2850 }, { "epoch": 0.232, "grad_norm": 0.10026837140321732, "learning_rate": 0.00046133333333333334, "loss": 6.1417, "step": 2900 }, { "epoch": 0.236, "grad_norm": 0.0923471599817276, "learning_rate": 0.0004606666666666667, "loss": 6.13, "step": 2950 }, { "epoch": 0.24, "grad_norm": 0.12011588364839554, "learning_rate": 0.00046, "loss": 6.1638, "step": 3000 }, { "epoch": 0.244, "grad_norm": 0.0990859642624855, "learning_rate": 0.00045933333333333335, "loss": 6.1821, "step": 3050 }, { "epoch": 0.248, "grad_norm": 0.08359402418136597, "learning_rate": 0.0004586666666666667, "loss": 6.1458, "step": 3100 }, { "epoch": 0.252, "grad_norm": 0.06513530761003494, "learning_rate": 0.000458, "loss": 6.1688, "step": 3150 }, { "epoch": 0.256, "grad_norm": 0.12649784982204437, "learning_rate": 0.0004573333333333333, "loss": 6.1539, "step": 3200 }, { "epoch": 0.26, "grad_norm": 0.13505388796329498, "learning_rate": 0.0004566666666666667, "loss": 6.1542, "step": 3250 }, { "epoch": 0.264, "grad_norm": 0.1346210092306137, "learning_rate": 0.000456, "loss": 6.1719, "step": 3300 }, { "epoch": 0.268, "grad_norm": 0.1194111704826355, "learning_rate": 0.0004553333333333333, "loss": 6.1706, "step": 3350 }, { "epoch": 0.272, "grad_norm": 0.16909293830394745, "learning_rate": 0.0004546666666666667, "loss": 6.1582, "step": 3400 }, { "epoch": 0.276, "grad_norm": 0.08598814159631729, "learning_rate": 0.00045400000000000003, "loss": 6.1142, "step": 3450 }, { "epoch": 0.28, "grad_norm": 0.19381625950336456, "learning_rate": 0.0004533333333333333, "loss": 6.1472, "step": 3500 }, { "epoch": 0.284, "grad_norm": 0.09644381701946259, "learning_rate": 0.00045266666666666665, "loss": 6.1557, "step": 3550 }, { "epoch": 0.288, "grad_norm": 0.09698914736509323, "learning_rate": 0.00045200000000000004, "loss": 6.1554, "step": 3600 }, { "epoch": 0.292, "grad_norm": 0.11119239777326584, "learning_rate": 0.0004513333333333333, "loss": 6.1104, "step": 3650 }, { "epoch": 0.296, "grad_norm": 0.10751861333847046, "learning_rate": 0.00045066666666666665, "loss": 6.1289, "step": 3700 }, { "epoch": 0.3, "grad_norm": 0.09202956408262253, "learning_rate": 0.00045000000000000004, "loss": 6.1152, "step": 3750 }, { "epoch": 0.304, "grad_norm": 0.08296677470207214, "learning_rate": 0.0004493333333333333, "loss": 6.1296, "step": 3800 }, { "epoch": 0.308, "grad_norm": 0.09129928052425385, "learning_rate": 0.00044866666666666666, "loss": 6.1447, "step": 3850 }, { "epoch": 0.312, "grad_norm": 0.11897583305835724, "learning_rate": 0.000448, "loss": 6.122, "step": 3900 }, { "epoch": 0.316, "grad_norm": 0.08367006480693817, "learning_rate": 0.0004473333333333334, "loss": 6.1359, "step": 3950 }, { "epoch": 0.32, "grad_norm": 0.09747407585382462, "learning_rate": 0.00044666666666666666, "loss": 6.1596, "step": 4000 }, { "epoch": 0.324, "grad_norm": 0.08322244137525558, "learning_rate": 0.0004460133333333333, "loss": 6.1501, "step": 4050 }, { "epoch": 0.328, "grad_norm": 0.06503091752529144, "learning_rate": 0.00044536, "loss": 6.1429, "step": 4100 }, { "epoch": 0.332, "grad_norm": 0.1123075857758522, "learning_rate": 0.00044469333333333334, "loss": 6.1278, "step": 4150 }, { "epoch": 0.336, "grad_norm": 0.08546511083841324, "learning_rate": 0.0004440266666666667, "loss": 6.1314, "step": 4200 }, { "epoch": 0.34, "grad_norm": 0.09403111040592194, "learning_rate": 0.00044336, "loss": 6.1089, "step": 4250 }, { "epoch": 0.344, "grad_norm": 0.14043301343917847, "learning_rate": 0.00044269333333333335, "loss": 6.1172, "step": 4300 }, { "epoch": 0.348, "grad_norm": 0.12077099084854126, "learning_rate": 0.0004420266666666667, "loss": 6.1376, "step": 4350 }, { "epoch": 0.352, "grad_norm": 0.12638172507286072, "learning_rate": 0.00044135999999999996, "loss": 6.1238, "step": 4400 }, { "epoch": 0.356, "grad_norm": 0.1000106930732727, "learning_rate": 0.00044069333333333335, "loss": 6.1374, "step": 4450 }, { "epoch": 0.36, "grad_norm": 0.08081661909818649, "learning_rate": 0.0004400266666666667, "loss": 6.1436, "step": 4500 }, { "epoch": 0.364, "grad_norm": 0.36294370889663696, "learning_rate": 0.00043935999999999997, "loss": 6.1199, "step": 4550 }, { "epoch": 0.368, "grad_norm": 0.09185244888067245, "learning_rate": 0.00043869333333333336, "loss": 6.1628, "step": 4600 }, { "epoch": 0.372, "grad_norm": 0.082149438560009, "learning_rate": 0.0004380266666666667, "loss": 6.1346, "step": 4650 }, { "epoch": 0.376, "grad_norm": 0.15230901539325714, "learning_rate": 0.00043736000000000003, "loss": 6.1291, "step": 4700 }, { "epoch": 0.38, "grad_norm": 0.13319584727287292, "learning_rate": 0.0004366933333333333, "loss": 6.162, "step": 4750 }, { "epoch": 0.384, "grad_norm": 0.10392823070287704, "learning_rate": 0.0004360266666666667, "loss": 6.1072, "step": 4800 }, { "epoch": 0.388, "grad_norm": 0.11571666598320007, "learning_rate": 0.00043536000000000003, "loss": 6.144, "step": 4850 }, { "epoch": 0.392, "grad_norm": 0.08762400597333908, "learning_rate": 0.0004346933333333333, "loss": 6.1326, "step": 4900 }, { "epoch": 0.396, "grad_norm": 0.09438224136829376, "learning_rate": 0.0004340266666666667, "loss": 6.1615, "step": 4950 }, { "epoch": 0.4, "grad_norm": 0.10719005763530731, "learning_rate": 0.00043336000000000004, "loss": 6.1203, "step": 5000 }, { "epoch": 0.404, "grad_norm": 0.08503378927707672, "learning_rate": 0.0004326933333333333, "loss": 6.1329, "step": 5050 }, { "epoch": 0.408, "grad_norm": 0.11886569857597351, "learning_rate": 0.00043202666666666665, "loss": 6.1303, "step": 5100 }, { "epoch": 0.412, "grad_norm": 0.08584501594305038, "learning_rate": 0.00043136000000000004, "loss": 6.1346, "step": 5150 }, { "epoch": 0.416, "grad_norm": 0.1441144049167633, "learning_rate": 0.0004306933333333333, "loss": 6.1348, "step": 5200 }, { "epoch": 0.42, "grad_norm": 0.08251897245645523, "learning_rate": 0.00043002666666666666, "loss": 6.1407, "step": 5250 }, { "epoch": 0.424, "grad_norm": 0.059318505227565765, "learning_rate": 0.00042936000000000005, "loss": 6.1359, "step": 5300 }, { "epoch": 0.428, "grad_norm": 0.09927847981452942, "learning_rate": 0.00042869333333333333, "loss": 6.1554, "step": 5350 }, { "epoch": 0.432, "grad_norm": 0.08691399544477463, "learning_rate": 0.00042802666666666667, "loss": 6.1437, "step": 5400 }, { "epoch": 0.436, "grad_norm": 0.09928593784570694, "learning_rate": 0.00042736, "loss": 6.1244, "step": 5450 }, { "epoch": 0.44, "grad_norm": 0.11381001770496368, "learning_rate": 0.00042669333333333334, "loss": 6.149, "step": 5500 }, { "epoch": 0.444, "grad_norm": 0.0796261876821518, "learning_rate": 0.00042602666666666667, "loss": 6.1446, "step": 5550 }, { "epoch": 0.448, "grad_norm": 0.08676674962043762, "learning_rate": 0.00042536, "loss": 6.1334, "step": 5600 }, { "epoch": 0.452, "grad_norm": 0.1110544204711914, "learning_rate": 0.00042469333333333334, "loss": 6.1194, "step": 5650 }, { "epoch": 0.456, "grad_norm": 0.07186205685138702, "learning_rate": 0.0004240266666666667, "loss": 6.1437, "step": 5700 }, { "epoch": 0.46, "grad_norm": 0.09055492281913757, "learning_rate": 0.00042336, "loss": 6.1664, "step": 5750 }, { "epoch": 0.464, "grad_norm": 0.11605997383594513, "learning_rate": 0.0004226933333333333, "loss": 6.1497, "step": 5800 }, { "epoch": 0.468, "grad_norm": 0.11643537878990173, "learning_rate": 0.0004220266666666667, "loss": 6.1578, "step": 5850 }, { "epoch": 0.472, "grad_norm": 0.0981464758515358, "learning_rate": 0.00042136, "loss": 6.1255, "step": 5900 }, { "epoch": 0.476, "grad_norm": 0.08023341000080109, "learning_rate": 0.0004206933333333333, "loss": 6.1407, "step": 5950 }, { "epoch": 0.48, "grad_norm": 0.07115794718265533, "learning_rate": 0.0004200266666666667, "loss": 6.1528, "step": 6000 }, { "epoch": 0.484, "grad_norm": 0.12999577820301056, "learning_rate": 0.00041936, "loss": 6.1304, "step": 6050 }, { "epoch": 0.488, "grad_norm": 0.09674675762653351, "learning_rate": 0.0004186933333333333, "loss": 6.1362, "step": 6100 }, { "epoch": 0.492, "grad_norm": 0.11859974265098572, "learning_rate": 0.00041802666666666664, "loss": 6.1352, "step": 6150 }, { "epoch": 0.496, "grad_norm": 0.11366712301969528, "learning_rate": 0.00041736000000000003, "loss": 6.1393, "step": 6200 }, { "epoch": 0.5, "grad_norm": 0.10001197457313538, "learning_rate": 0.00041669333333333336, "loss": 6.1269, "step": 6250 }, { "epoch": 0.504, "grad_norm": 0.12915226817131042, "learning_rate": 0.00041602666666666665, "loss": 6.1145, "step": 6300 }, { "epoch": 0.508, "grad_norm": 0.12828227877616882, "learning_rate": 0.00041536000000000003, "loss": 6.1369, "step": 6350 }, { "epoch": 0.512, "grad_norm": 0.10364627838134766, "learning_rate": 0.00041469333333333337, "loss": 6.15, "step": 6400 }, { "epoch": 0.516, "grad_norm": 0.07533346116542816, "learning_rate": 0.00041402666666666665, "loss": 6.0986, "step": 6450 }, { "epoch": 0.52, "grad_norm": 0.08103260397911072, "learning_rate": 0.00041336000000000004, "loss": 6.1353, "step": 6500 }, { "epoch": 0.524, "grad_norm": 0.09203949570655823, "learning_rate": 0.0004126933333333334, "loss": 6.1436, "step": 6550 }, { "epoch": 0.528, "grad_norm": 0.10133110731840134, "learning_rate": 0.00041202666666666666, "loss": 6.1553, "step": 6600 }, { "epoch": 0.532, "grad_norm": 0.08488768339157104, "learning_rate": 0.00041136, "loss": 6.1304, "step": 6650 }, { "epoch": 0.536, "grad_norm": 0.09025304019451141, "learning_rate": 0.0004106933333333334, "loss": 6.1567, "step": 6700 }, { "epoch": 0.54, "grad_norm": 0.08501194417476654, "learning_rate": 0.00041002666666666666, "loss": 6.1222, "step": 6750 }, { "epoch": 0.544, "grad_norm": 0.12507081031799316, "learning_rate": 0.0004093733333333333, "loss": 6.1505, "step": 6800 }, { "epoch": 0.548, "grad_norm": 0.08626360446214676, "learning_rate": 0.0004087066666666667, "loss": 6.131, "step": 6850 }, { "epoch": 0.552, "grad_norm": 0.12089431285858154, "learning_rate": 0.00040804000000000003, "loss": 6.1411, "step": 6900 }, { "epoch": 0.556, "grad_norm": 0.0857025608420372, "learning_rate": 0.0004073733333333333, "loss": 6.1472, "step": 6950 }, { "epoch": 0.56, "grad_norm": 0.1202261671423912, "learning_rate": 0.00040670666666666665, "loss": 6.1477, "step": 7000 }, { "epoch": 0.564, "grad_norm": 0.09355634450912476, "learning_rate": 0.00040604000000000004, "loss": 6.1491, "step": 7050 }, { "epoch": 0.568, "grad_norm": 0.07126226276159286, "learning_rate": 0.0004053733333333333, "loss": 6.129, "step": 7100 }, { "epoch": 0.572, "grad_norm": 0.07841909676790237, "learning_rate": 0.00040470666666666665, "loss": 6.1012, "step": 7150 }, { "epoch": 0.576, "grad_norm": 0.14395035803318024, "learning_rate": 0.00040404000000000004, "loss": 6.1545, "step": 7200 }, { "epoch": 0.58, "grad_norm": 0.15453246235847473, "learning_rate": 0.0004033733333333333, "loss": 6.1415, "step": 7250 }, { "epoch": 0.584, "grad_norm": 0.1082344800233841, "learning_rate": 0.00040270666666666666, "loss": 6.1338, "step": 7300 }, { "epoch": 0.588, "grad_norm": 0.09815361350774765, "learning_rate": 0.00040204, "loss": 6.118, "step": 7350 }, { "epoch": 0.592, "grad_norm": 0.10957151651382446, "learning_rate": 0.0004013733333333334, "loss": 6.1205, "step": 7400 }, { "epoch": 0.596, "grad_norm": 0.07010533660650253, "learning_rate": 0.00040070666666666666, "loss": 6.1383, "step": 7450 }, { "epoch": 0.6, "grad_norm": 0.12188254296779633, "learning_rate": 0.00040004, "loss": 6.1231, "step": 7500 }, { "epoch": 0.604, "grad_norm": 0.12290220707654953, "learning_rate": 0.0003993733333333334, "loss": 6.1216, "step": 7550 }, { "epoch": 0.608, "grad_norm": 0.0807683989405632, "learning_rate": 0.00039870666666666667, "loss": 6.1554, "step": 7600 }, { "epoch": 0.612, "grad_norm": 0.10026227682828903, "learning_rate": 0.00039804, "loss": 6.1316, "step": 7650 }, { "epoch": 0.616, "grad_norm": 0.0905427560210228, "learning_rate": 0.00039737333333333334, "loss": 6.1192, "step": 7700 }, { "epoch": 0.62, "grad_norm": 0.10912169516086578, "learning_rate": 0.0003967066666666667, "loss": 6.1349, "step": 7750 }, { "epoch": 0.624, "grad_norm": 0.08967164158821106, "learning_rate": 0.00039604, "loss": 6.1535, "step": 7800 }, { "epoch": 0.628, "grad_norm": 0.1440640389919281, "learning_rate": 0.00039537333333333334, "loss": 6.1407, "step": 7850 }, { "epoch": 0.632, "grad_norm": 0.13149599730968475, "learning_rate": 0.0003947066666666667, "loss": 6.1468, "step": 7900 }, { "epoch": 0.636, "grad_norm": 0.10279414802789688, "learning_rate": 0.00039404, "loss": 6.121, "step": 7950 }, { "epoch": 0.64, "grad_norm": 0.09198473393917084, "learning_rate": 0.00039337333333333335, "loss": 6.1377, "step": 8000 }, { "epoch": 0.644, "grad_norm": 0.12933483719825745, "learning_rate": 0.00039270666666666663, "loss": 6.1464, "step": 8050 }, { "epoch": 0.648, "grad_norm": 0.1936270296573639, "learning_rate": 0.00039204, "loss": 6.1166, "step": 8100 }, { "epoch": 0.652, "grad_norm": 0.12195608764886856, "learning_rate": 0.00039137333333333336, "loss": 6.1174, "step": 8150 }, { "epoch": 0.656, "grad_norm": 0.072402723133564, "learning_rate": 0.00039070666666666664, "loss": 6.1317, "step": 8200 }, { "epoch": 0.66, "grad_norm": 0.09233975410461426, "learning_rate": 0.00039004, "loss": 6.1311, "step": 8250 }, { "epoch": 0.664, "grad_norm": 0.11127981543540955, "learning_rate": 0.00038937333333333336, "loss": 6.1215, "step": 8300 }, { "epoch": 0.668, "grad_norm": 0.10880014300346375, "learning_rate": 0.00038870666666666664, "loss": 6.114, "step": 8350 }, { "epoch": 0.672, "grad_norm": 0.10606002807617188, "learning_rate": 0.00038804, "loss": 6.1291, "step": 8400 }, { "epoch": 0.676, "grad_norm": 0.09350768476724625, "learning_rate": 0.00038737333333333337, "loss": 6.1069, "step": 8450 }, { "epoch": 0.68, "grad_norm": 0.09924355149269104, "learning_rate": 0.00038670666666666665, "loss": 6.1029, "step": 8500 }, { "epoch": 0.684, "grad_norm": 0.11456730961799622, "learning_rate": 0.00038604, "loss": 6.1537, "step": 8550 }, { "epoch": 0.688, "grad_norm": 0.11353268474340439, "learning_rate": 0.00038537333333333337, "loss": 6.1215, "step": 8600 }, { "epoch": 0.692, "grad_norm": 0.08415506780147552, "learning_rate": 0.00038470666666666665, "loss": 6.0972, "step": 8650 }, { "epoch": 0.696, "grad_norm": 0.08291291445493698, "learning_rate": 0.00038404, "loss": 6.1049, "step": 8700 }, { "epoch": 0.7, "grad_norm": 0.21915902197360992, "learning_rate": 0.0003833733333333334, "loss": 6.1197, "step": 8750 }, { "epoch": 0.704, "grad_norm": 0.07533496618270874, "learning_rate": 0.00038270666666666666, "loss": 6.1298, "step": 8800 }, { "epoch": 0.708, "grad_norm": 0.08725524693727493, "learning_rate": 0.00038204, "loss": 6.1249, "step": 8850 }, { "epoch": 0.712, "grad_norm": 0.06773918867111206, "learning_rate": 0.00038137333333333333, "loss": 6.122, "step": 8900 }, { "epoch": 0.716, "grad_norm": 0.10093361139297485, "learning_rate": 0.0003807066666666667, "loss": 6.1536, "step": 8950 }, { "epoch": 0.72, "grad_norm": 0.08091417700052261, "learning_rate": 0.00038004, "loss": 6.1269, "step": 9000 }, { "epoch": 0.724, "grad_norm": 0.0783878043293953, "learning_rate": 0.00037937333333333334, "loss": 6.129, "step": 9050 }, { "epoch": 0.728, "grad_norm": 0.11172500997781754, "learning_rate": 0.0003787066666666667, "loss": 6.1301, "step": 9100 }, { "epoch": 0.732, "grad_norm": 0.10341805964708328, "learning_rate": 0.00037804, "loss": 6.1348, "step": 9150 }, { "epoch": 0.736, "grad_norm": 0.07265458256006241, "learning_rate": 0.00037737333333333334, "loss": 6.0938, "step": 9200 }, { "epoch": 0.74, "grad_norm": 0.24730075895786285, "learning_rate": 0.0003767066666666667, "loss": 6.14, "step": 9250 }, { "epoch": 0.744, "grad_norm": 0.082618847489357, "learning_rate": 0.00037604, "loss": 6.1277, "step": 9300 }, { "epoch": 0.748, "grad_norm": 0.08660747855901718, "learning_rate": 0.00037537333333333335, "loss": 6.1075, "step": 9350 }, { "epoch": 0.752, "grad_norm": 0.08398722112178802, "learning_rate": 0.0003747066666666667, "loss": 6.1292, "step": 9400 }, { "epoch": 0.756, "grad_norm": 0.08045294880867004, "learning_rate": 0.00037404, "loss": 6.1248, "step": 9450 }, { "epoch": 0.76, "grad_norm": 0.07380557805299759, "learning_rate": 0.00037337333333333335, "loss": 6.1309, "step": 9500 }, { "epoch": 0.764, "grad_norm": 0.09808892756700516, "learning_rate": 0.0003727066666666667, "loss": 6.1087, "step": 9550 }, { "epoch": 0.768, "grad_norm": 0.1060815081000328, "learning_rate": 0.00037203999999999997, "loss": 6.078, "step": 9600 }, { "epoch": 0.772, "grad_norm": 0.13874872028827667, "learning_rate": 0.00037137333333333336, "loss": 6.1412, "step": 9650 }, { "epoch": 0.776, "grad_norm": 0.13686728477478027, "learning_rate": 0.0003707066666666667, "loss": 6.158, "step": 9700 }, { "epoch": 0.78, "grad_norm": 0.07966756820678711, "learning_rate": 0.00037004, "loss": 6.1165, "step": 9750 }, { "epoch": 0.784, "grad_norm": 0.10043661296367645, "learning_rate": 0.00036937333333333336, "loss": 6.1681, "step": 9800 }, { "epoch": 0.788, "grad_norm": 0.08822102844715118, "learning_rate": 0.0003687066666666667, "loss": 6.1272, "step": 9850 }, { "epoch": 0.792, "grad_norm": 0.10552317649126053, "learning_rate": 0.00036804, "loss": 6.1501, "step": 9900 }, { "epoch": 0.796, "grad_norm": 0.08902155607938766, "learning_rate": 0.0003673733333333333, "loss": 6.1152, "step": 9950 }, { "epoch": 0.8, "grad_norm": 0.09760366380214691, "learning_rate": 0.0003667066666666667, "loss": 6.1029, "step": 10000 }, { "epoch": 0.804, "grad_norm": 0.10177834331989288, "learning_rate": 0.00036604, "loss": 6.1354, "step": 10050 }, { "epoch": 0.808, "grad_norm": 0.07950626313686371, "learning_rate": 0.0003653733333333333, "loss": 6.124, "step": 10100 }, { "epoch": 0.812, "grad_norm": 0.1150452271103859, "learning_rate": 0.0003647066666666667, "loss": 6.0977, "step": 10150 }, { "epoch": 0.816, "grad_norm": 0.07665413618087769, "learning_rate": 0.00036404, "loss": 6.124, "step": 10200 }, { "epoch": 0.82, "grad_norm": 0.09552320092916489, "learning_rate": 0.0003633733333333333, "loss": 6.1103, "step": 10250 }, { "epoch": 0.824, "grad_norm": 0.08140858262777328, "learning_rate": 0.00036270666666666666, "loss": 6.1353, "step": 10300 }, { "epoch": 0.828, "grad_norm": 0.07286569476127625, "learning_rate": 0.00036204, "loss": 6.1046, "step": 10350 }, { "epoch": 0.832, "grad_norm": 0.09404148906469345, "learning_rate": 0.00036137333333333333, "loss": 6.1502, "step": 10400 }, { "epoch": 0.836, "grad_norm": 0.1536465734243393, "learning_rate": 0.00036070666666666667, "loss": 6.1156, "step": 10450 }, { "epoch": 0.84, "grad_norm": 0.08193391561508179, "learning_rate": 0.00036004000000000006, "loss": 6.0812, "step": 10500 }, { "epoch": 0.844, "grad_norm": 0.09778832644224167, "learning_rate": 0.00035937333333333334, "loss": 6.1574, "step": 10550 }, { "epoch": 0.848, "grad_norm": 0.0808732733130455, "learning_rate": 0.00035870666666666667, "loss": 6.1508, "step": 10600 }, { "epoch": 0.852, "grad_norm": 0.10465650260448456, "learning_rate": 0.00035804, "loss": 6.138, "step": 10650 }, { "epoch": 0.856, "grad_norm": 0.1152452602982521, "learning_rate": 0.00035737333333333334, "loss": 6.1039, "step": 10700 }, { "epoch": 0.86, "grad_norm": 0.08761215209960938, "learning_rate": 0.0003567066666666667, "loss": 6.1255, "step": 10750 }, { "epoch": 0.864, "grad_norm": 0.13095897436141968, "learning_rate": 0.00035604, "loss": 6.1329, "step": 10800 }, { "epoch": 0.868, "grad_norm": 0.07850901037454605, "learning_rate": 0.00035537333333333335, "loss": 6.1465, "step": 10850 }, { "epoch": 0.872, "grad_norm": 0.14026562869548798, "learning_rate": 0.0003547066666666667, "loss": 6.1058, "step": 10900 }, { "epoch": 0.876, "grad_norm": 0.10630867630243301, "learning_rate": 0.00035404, "loss": 6.1166, "step": 10950 }, { "epoch": 0.88, "grad_norm": 0.09698736667633057, "learning_rate": 0.0003533733333333333, "loss": 6.0934, "step": 11000 }, { "epoch": 0.884, "grad_norm": 0.1240108534693718, "learning_rate": 0.0003527066666666667, "loss": 6.1522, "step": 11050 }, { "epoch": 0.888, "grad_norm": 0.07955353707075119, "learning_rate": 0.00035204, "loss": 6.1284, "step": 11100 }, { "epoch": 0.892, "grad_norm": 0.1520235538482666, "learning_rate": 0.0003513733333333333, "loss": 6.1213, "step": 11150 }, { "epoch": 0.896, "grad_norm": 0.08016408234834671, "learning_rate": 0.0003507066666666667, "loss": 6.134, "step": 11200 }, { "epoch": 0.9, "grad_norm": 0.0748530924320221, "learning_rate": 0.00035004000000000003, "loss": 6.1199, "step": 11250 }, { "epoch": 0.904, "grad_norm": 0.10358905792236328, "learning_rate": 0.0003493733333333333, "loss": 6.1186, "step": 11300 }, { "epoch": 0.908, "grad_norm": 0.09325818717479706, "learning_rate": 0.00034870666666666665, "loss": 6.1274, "step": 11350 }, { "epoch": 0.912, "grad_norm": 0.11673321574926376, "learning_rate": 0.00034804000000000004, "loss": 6.0994, "step": 11400 }, { "epoch": 0.916, "grad_norm": 0.13746528327465057, "learning_rate": 0.0003473733333333333, "loss": 6.1325, "step": 11450 }, { "epoch": 0.92, "grad_norm": 0.08190137892961502, "learning_rate": 0.00034670666666666665, "loss": 6.0904, "step": 11500 }, { "epoch": 0.924, "grad_norm": 0.10086067765951157, "learning_rate": 0.00034604000000000004, "loss": 6.0952, "step": 11550 }, { "epoch": 0.928, "grad_norm": 0.08541543781757355, "learning_rate": 0.0003453733333333333, "loss": 6.1243, "step": 11600 }, { "epoch": 0.932, "grad_norm": 0.10419683903455734, "learning_rate": 0.00034470666666666666, "loss": 6.1248, "step": 11650 }, { "epoch": 0.936, "grad_norm": 0.13085022568702698, "learning_rate": 0.00034404000000000005, "loss": 6.1513, "step": 11700 }, { "epoch": 0.94, "grad_norm": 0.16075704991817474, "learning_rate": 0.00034337333333333333, "loss": 6.1126, "step": 11750 }, { "epoch": 0.944, "grad_norm": 0.07062160223722458, "learning_rate": 0.00034270666666666666, "loss": 6.1384, "step": 11800 }, { "epoch": 0.948, "grad_norm": 0.1087900772690773, "learning_rate": 0.00034204, "loss": 6.1453, "step": 11850 }, { "epoch": 0.952, "grad_norm": 0.12088847905397415, "learning_rate": 0.00034137333333333333, "loss": 6.1176, "step": 11900 }, { "epoch": 0.956, "grad_norm": 0.09018929302692413, "learning_rate": 0.00034070666666666667, "loss": 6.1061, "step": 11950 }, { "epoch": 0.96, "grad_norm": 0.11129365116357803, "learning_rate": 0.00034004, "loss": 6.1346, "step": 12000 }, { "epoch": 0.964, "grad_norm": 0.08379475772380829, "learning_rate": 0.0003393733333333334, "loss": 6.1428, "step": 12050 }, { "epoch": 0.968, "grad_norm": 0.0782356783747673, "learning_rate": 0.0003387066666666667, "loss": 6.1157, "step": 12100 }, { "epoch": 0.972, "grad_norm": 0.0803866982460022, "learning_rate": 0.00033804, "loss": 6.1237, "step": 12150 }, { "epoch": 0.976, "grad_norm": 0.11563291400671005, "learning_rate": 0.00033737333333333334, "loss": 6.1114, "step": 12200 }, { "epoch": 0.98, "grad_norm": 0.07396659255027771, "learning_rate": 0.0003367066666666667, "loss": 6.1143, "step": 12250 }, { "epoch": 0.984, "grad_norm": 0.11586262285709381, "learning_rate": 0.00033604, "loss": 6.1005, "step": 12300 }, { "epoch": 0.988, "grad_norm": 0.08802706748247147, "learning_rate": 0.00033537333333333335, "loss": 6.1088, "step": 12350 }, { "epoch": 0.992, "grad_norm": 0.08128079771995544, "learning_rate": 0.0003347066666666667, "loss": 6.1312, "step": 12400 }, { "epoch": 0.996, "grad_norm": 0.1308351308107376, "learning_rate": 0.00033404, "loss": 6.1144, "step": 12450 }, { "epoch": 1.0, "grad_norm": 0.10217352956533432, "learning_rate": 0.00033337333333333336, "loss": 6.1122, "step": 12500 }, { "epoch": 1.0, "eval_bleu": 0.8279835738309648, "eval_cer": 0.02236765542389765, "eval_f1": 0.9197910990022067, "eval_loss": 6.113585472106934, "eval_meteor": 0.9122098284199918, "eval_runtime": 543.3261, "eval_samples_per_second": 9.203, "eval_steps_per_second": 0.289, "eval_wer": 0.0959350975125687, "step": 12500 }, { "epoch": 1.004, "grad_norm": 0.0861179381608963, "learning_rate": 0.00033270666666666664, "loss": 6.1131, "step": 12550 }, { "epoch": 1.008, "grad_norm": 0.0688726082444191, "learning_rate": 0.00033204, "loss": 6.1351, "step": 12600 }, { "epoch": 1.012, "grad_norm": 0.11097799241542816, "learning_rate": 0.00033137333333333336, "loss": 6.1194, "step": 12650 }, { "epoch": 1.016, "grad_norm": 0.09242498874664307, "learning_rate": 0.00033070666666666664, "loss": 6.1172, "step": 12700 }, { "epoch": 1.02, "grad_norm": 0.12328017503023148, "learning_rate": 0.00033004000000000003, "loss": 6.1182, "step": 12750 }, { "epoch": 1.024, "grad_norm": 0.10099970549345016, "learning_rate": 0.00032937333333333337, "loss": 6.1123, "step": 12800 }, { "epoch": 1.028, "grad_norm": 0.09246711432933807, "learning_rate": 0.00032870666666666665, "loss": 6.1154, "step": 12850 }, { "epoch": 1.032, "grad_norm": 0.12997236847877502, "learning_rate": 0.00032804, "loss": 6.1282, "step": 12900 }, { "epoch": 1.036, "grad_norm": 0.1214977279305458, "learning_rate": 0.00032737333333333337, "loss": 6.1199, "step": 12950 }, { "epoch": 1.04, "grad_norm": 0.06522330641746521, "learning_rate": 0.00032670666666666665, "loss": 6.1181, "step": 13000 }, { "epoch": 1.044, "grad_norm": 0.08439996093511581, "learning_rate": 0.00032604, "loss": 6.1361, "step": 13050 }, { "epoch": 1.048, "grad_norm": 0.08747538924217224, "learning_rate": 0.0003253733333333334, "loss": 6.0998, "step": 13100 }, { "epoch": 1.052, "grad_norm": 0.10568045824766159, "learning_rate": 0.00032470666666666666, "loss": 6.1435, "step": 13150 }, { "epoch": 1.056, "grad_norm": 0.07755938172340393, "learning_rate": 0.00032404, "loss": 6.1502, "step": 13200 }, { "epoch": 1.06, "grad_norm": 0.10120970755815506, "learning_rate": 0.00032337333333333333, "loss": 6.1202, "step": 13250 }, { "epoch": 1.064, "grad_norm": 0.09305115044116974, "learning_rate": 0.00032270666666666666, "loss": 6.1171, "step": 13300 }, { "epoch": 1.068, "grad_norm": 0.07767940312623978, "learning_rate": 0.00032204, "loss": 6.1412, "step": 13350 }, { "epoch": 1.072, "grad_norm": 0.10225419700145721, "learning_rate": 0.00032137333333333334, "loss": 6.1194, "step": 13400 }, { "epoch": 1.076, "grad_norm": 0.1065177395939827, "learning_rate": 0.00032070666666666667, "loss": 6.0955, "step": 13450 }, { "epoch": 1.08, "grad_norm": 0.08519428223371506, "learning_rate": 0.00032004, "loss": 6.1035, "step": 13500 }, { "epoch": 1.084, "grad_norm": 0.2798800468444824, "learning_rate": 0.00031937333333333334, "loss": 6.1076, "step": 13550 }, { "epoch": 1.088, "grad_norm": 0.11202509701251984, "learning_rate": 0.0003187066666666667, "loss": 6.1507, "step": 13600 }, { "epoch": 1.092, "grad_norm": 0.096127450466156, "learning_rate": 0.00031804, "loss": 6.1456, "step": 13650 }, { "epoch": 1.096, "grad_norm": 0.07394638657569885, "learning_rate": 0.00031737333333333335, "loss": 6.105, "step": 13700 }, { "epoch": 1.1, "grad_norm": 0.07544969767332077, "learning_rate": 0.0003167066666666667, "loss": 6.108, "step": 13750 }, { "epoch": 1.104, "grad_norm": 0.08792877942323685, "learning_rate": 0.00031604, "loss": 6.107, "step": 13800 }, { "epoch": 1.108, "grad_norm": 0.08102361857891083, "learning_rate": 0.00031537333333333335, "loss": 6.1179, "step": 13850 }, { "epoch": 1.112, "grad_norm": 0.08879552781581879, "learning_rate": 0.0003147066666666667, "loss": 6.1269, "step": 13900 }, { "epoch": 1.116, "grad_norm": 0.16624824702739716, "learning_rate": 0.00031403999999999997, "loss": 6.0827, "step": 13950 }, { "epoch": 1.12, "grad_norm": 0.08469316363334656, "learning_rate": 0.00031337333333333336, "loss": 6.1301, "step": 14000 }, { "epoch": 1.124, "grad_norm": 0.09172534197568893, "learning_rate": 0.0003127066666666667, "loss": 6.1212, "step": 14050 }, { "epoch": 1.1280000000000001, "grad_norm": 0.0952141284942627, "learning_rate": 0.00031204, "loss": 6.1248, "step": 14100 }, { "epoch": 1.1320000000000001, "grad_norm": 0.08985739946365356, "learning_rate": 0.00031137333333333336, "loss": 6.0861, "step": 14150 }, { "epoch": 1.1360000000000001, "grad_norm": 0.11351034045219421, "learning_rate": 0.0003107066666666667, "loss": 6.0891, "step": 14200 }, { "epoch": 1.1400000000000001, "grad_norm": 0.1227104663848877, "learning_rate": 0.00031004, "loss": 6.1198, "step": 14250 }, { "epoch": 1.144, "grad_norm": 0.16891981661319733, "learning_rate": 0.0003093733333333333, "loss": 6.0885, "step": 14300 }, { "epoch": 1.148, "grad_norm": 0.15705609321594238, "learning_rate": 0.0003087066666666667, "loss": 6.1292, "step": 14350 }, { "epoch": 1.152, "grad_norm": 0.10989323258399963, "learning_rate": 0.00030804, "loss": 6.1377, "step": 14400 }, { "epoch": 1.156, "grad_norm": 0.10995858907699585, "learning_rate": 0.0003073733333333333, "loss": 6.1005, "step": 14450 }, { "epoch": 1.16, "grad_norm": 0.07753315567970276, "learning_rate": 0.0003067066666666667, "loss": 6.1229, "step": 14500 }, { "epoch": 1.164, "grad_norm": 0.07363289594650269, "learning_rate": 0.00030604, "loss": 6.1294, "step": 14550 }, { "epoch": 1.168, "grad_norm": 0.10041449218988419, "learning_rate": 0.0003053733333333333, "loss": 6.117, "step": 14600 }, { "epoch": 1.172, "grad_norm": 0.11836455017328262, "learning_rate": 0.00030470666666666666, "loss": 6.0986, "step": 14650 }, { "epoch": 1.176, "grad_norm": 0.07709010690450668, "learning_rate": 0.00030404, "loss": 6.1069, "step": 14700 }, { "epoch": 1.18, "grad_norm": 0.07669167220592499, "learning_rate": 0.00030337333333333333, "loss": 6.1363, "step": 14750 }, { "epoch": 1.184, "grad_norm": 0.0857149139046669, "learning_rate": 0.00030270666666666667, "loss": 6.0941, "step": 14800 }, { "epoch": 1.188, "grad_norm": 0.15685345232486725, "learning_rate": 0.00030204, "loss": 6.1331, "step": 14850 }, { "epoch": 1.192, "grad_norm": 0.0795324295759201, "learning_rate": 0.00030137333333333334, "loss": 6.151, "step": 14900 }, { "epoch": 1.196, "grad_norm": 0.08726755529642105, "learning_rate": 0.00030070666666666667, "loss": 6.1404, "step": 14950 }, { "epoch": 1.2, "grad_norm": 0.12076140195131302, "learning_rate": 0.00030003999999999995, "loss": 6.1157, "step": 15000 }, { "epoch": 1.204, "grad_norm": 0.09202925860881805, "learning_rate": 0.00029937333333333334, "loss": 6.1151, "step": 15050 }, { "epoch": 1.208, "grad_norm": 0.15724903345108032, "learning_rate": 0.0002987066666666667, "loss": 6.0947, "step": 15100 }, { "epoch": 1.212, "grad_norm": 0.2190481424331665, "learning_rate": 0.00029804, "loss": 6.1155, "step": 15150 }, { "epoch": 1.216, "grad_norm": 0.1102723628282547, "learning_rate": 0.00029737333333333335, "loss": 6.105, "step": 15200 }, { "epoch": 1.22, "grad_norm": 0.14476914703845978, "learning_rate": 0.0002967066666666667, "loss": 6.0985, "step": 15250 }, { "epoch": 1.224, "grad_norm": 0.12951503694057465, "learning_rate": 0.00029604, "loss": 6.0897, "step": 15300 }, { "epoch": 1.228, "grad_norm": 0.0677952691912651, "learning_rate": 0.00029537333333333335, "loss": 6.0982, "step": 15350 }, { "epoch": 1.232, "grad_norm": 0.10330123454332352, "learning_rate": 0.0002947066666666667, "loss": 6.124, "step": 15400 }, { "epoch": 1.236, "grad_norm": 0.09097038954496384, "learning_rate": 0.00029404, "loss": 6.0996, "step": 15450 }, { "epoch": 1.24, "grad_norm": 0.07233336567878723, "learning_rate": 0.0002933733333333333, "loss": 6.1283, "step": 15500 }, { "epoch": 1.244, "grad_norm": 0.06844240427017212, "learning_rate": 0.0002927066666666667, "loss": 6.1063, "step": 15550 }, { "epoch": 1.248, "grad_norm": 0.08370081335306168, "learning_rate": 0.00029204000000000003, "loss": 6.1191, "step": 15600 }, { "epoch": 1.252, "grad_norm": 0.08882440626621246, "learning_rate": 0.0002913733333333333, "loss": 6.132, "step": 15650 }, { "epoch": 1.256, "grad_norm": 0.10374068468809128, "learning_rate": 0.0002907066666666667, "loss": 6.1202, "step": 15700 }, { "epoch": 1.26, "grad_norm": 0.16756409406661987, "learning_rate": 0.00029004000000000004, "loss": 6.112, "step": 15750 }, { "epoch": 1.264, "grad_norm": 0.09219000488519669, "learning_rate": 0.0002893733333333333, "loss": 6.1042, "step": 15800 }, { "epoch": 1.268, "grad_norm": 0.16582448780536652, "learning_rate": 0.00028870666666666665, "loss": 6.0869, "step": 15850 }, { "epoch": 1.272, "grad_norm": 0.1353410929441452, "learning_rate": 0.00028804000000000004, "loss": 6.1371, "step": 15900 }, { "epoch": 1.276, "grad_norm": 0.09143903851509094, "learning_rate": 0.0002873733333333333, "loss": 6.0846, "step": 15950 }, { "epoch": 1.28, "grad_norm": 0.09501923620700836, "learning_rate": 0.00028670666666666666, "loss": 6.1139, "step": 16000 }, { "epoch": 1.284, "grad_norm": 0.11334563791751862, "learning_rate": 0.00028604000000000005, "loss": 6.1105, "step": 16050 }, { "epoch": 1.288, "grad_norm": 0.10347284376621246, "learning_rate": 0.00028537333333333333, "loss": 6.0984, "step": 16100 }, { "epoch": 1.292, "grad_norm": 0.06892314553260803, "learning_rate": 0.00028470666666666666, "loss": 6.1075, "step": 16150 }, { "epoch": 1.296, "grad_norm": 0.10898636281490326, "learning_rate": 0.00028404, "loss": 6.116, "step": 16200 }, { "epoch": 1.3, "grad_norm": 0.14483079314231873, "learning_rate": 0.00028337333333333333, "loss": 6.1354, "step": 16250 }, { "epoch": 1.304, "grad_norm": 0.06266254931688309, "learning_rate": 0.00028270666666666667, "loss": 6.1469, "step": 16300 }, { "epoch": 1.308, "grad_norm": 0.07579261809587479, "learning_rate": 0.00028204, "loss": 6.1553, "step": 16350 }, { "epoch": 1.312, "grad_norm": 0.20213469862937927, "learning_rate": 0.00028137333333333334, "loss": 6.0922, "step": 16400 }, { "epoch": 1.316, "grad_norm": 0.12880288064479828, "learning_rate": 0.0002807066666666667, "loss": 6.0965, "step": 16450 }, { "epoch": 1.32, "grad_norm": 0.07941592484712601, "learning_rate": 0.00028004, "loss": 6.1343, "step": 16500 }, { "epoch": 1.324, "grad_norm": 0.11309255659580231, "learning_rate": 0.0002793733333333333, "loss": 6.1135, "step": 16550 }, { "epoch": 1.328, "grad_norm": 0.10817893594503403, "learning_rate": 0.0002787066666666667, "loss": 6.1201, "step": 16600 }, { "epoch": 1.332, "grad_norm": 0.10941869765520096, "learning_rate": 0.00027804, "loss": 6.1118, "step": 16650 }, { "epoch": 1.336, "grad_norm": 0.08172804862260818, "learning_rate": 0.00027737333333333335, "loss": 6.1337, "step": 16700 }, { "epoch": 1.34, "grad_norm": 0.10233813524246216, "learning_rate": 0.0002767066666666667, "loss": 6.1144, "step": 16750 }, { "epoch": 1.3439999999999999, "grad_norm": 0.09809960424900055, "learning_rate": 0.00027605333333333333, "loss": 6.0957, "step": 16800 }, { "epoch": 1.3479999999999999, "grad_norm": 0.09125234931707382, "learning_rate": 0.00027538666666666666, "loss": 6.1286, "step": 16850 }, { "epoch": 1.3519999999999999, "grad_norm": 0.06054741516709328, "learning_rate": 0.00027472, "loss": 6.1319, "step": 16900 }, { "epoch": 1.3559999999999999, "grad_norm": 0.08779386430978775, "learning_rate": 0.00027405333333333333, "loss": 6.0779, "step": 16950 }, { "epoch": 1.3599999999999999, "grad_norm": 0.1308376044034958, "learning_rate": 0.00027338666666666667, "loss": 6.1267, "step": 17000 }, { "epoch": 1.3639999999999999, "grad_norm": 0.15217699110507965, "learning_rate": 0.00027272, "loss": 6.1647, "step": 17050 }, { "epoch": 1.3679999999999999, "grad_norm": 0.16624772548675537, "learning_rate": 0.00027205333333333334, "loss": 6.1099, "step": 17100 }, { "epoch": 1.3719999999999999, "grad_norm": 0.07217276841402054, "learning_rate": 0.0002714, "loss": 6.1113, "step": 17150 }, { "epoch": 1.376, "grad_norm": 0.12601499259471893, "learning_rate": 0.0002707333333333333, "loss": 6.1229, "step": 17200 }, { "epoch": 1.38, "grad_norm": 0.08183035999536514, "learning_rate": 0.0002700666666666667, "loss": 6.1077, "step": 17250 }, { "epoch": 1.384, "grad_norm": 0.11476831138134003, "learning_rate": 0.0002694, "loss": 6.1341, "step": 17300 }, { "epoch": 1.388, "grad_norm": 0.11496146023273468, "learning_rate": 0.0002687466666666667, "loss": 6.1305, "step": 17350 }, { "epoch": 1.392, "grad_norm": 0.12232542037963867, "learning_rate": 0.00026807999999999997, "loss": 6.1365, "step": 17400 }, { "epoch": 1.396, "grad_norm": 0.07186752557754517, "learning_rate": 0.00026741333333333336, "loss": 6.1237, "step": 17450 }, { "epoch": 1.4, "grad_norm": 0.08478965610265732, "learning_rate": 0.0002667466666666667, "loss": 6.1134, "step": 17500 }, { "epoch": 1.404, "grad_norm": 0.08441179990768433, "learning_rate": 0.00026608, "loss": 6.0988, "step": 17550 }, { "epoch": 1.408, "grad_norm": 0.08826745301485062, "learning_rate": 0.00026541333333333336, "loss": 6.1233, "step": 17600 }, { "epoch": 1.412, "grad_norm": 0.09119552373886108, "learning_rate": 0.0002647466666666667, "loss": 6.0893, "step": 17650 }, { "epoch": 1.416, "grad_norm": 0.11442252993583679, "learning_rate": 0.00026408, "loss": 6.099, "step": 17700 }, { "epoch": 1.42, "grad_norm": 0.07113688439130783, "learning_rate": 0.0002634133333333333, "loss": 6.126, "step": 17750 }, { "epoch": 1.424, "grad_norm": 0.07983452081680298, "learning_rate": 0.0002627466666666667, "loss": 6.1273, "step": 17800 }, { "epoch": 1.428, "grad_norm": 0.15537957847118378, "learning_rate": 0.00026208, "loss": 6.1147, "step": 17850 }, { "epoch": 1.432, "grad_norm": 0.09716528654098511, "learning_rate": 0.0002614133333333333, "loss": 6.1387, "step": 17900 }, { "epoch": 1.436, "grad_norm": 0.0967337116599083, "learning_rate": 0.0002607466666666667, "loss": 6.1196, "step": 17950 }, { "epoch": 1.44, "grad_norm": 0.06788675487041473, "learning_rate": 0.00026008, "loss": 6.1016, "step": 18000 }, { "epoch": 1.444, "grad_norm": 0.12375286966562271, "learning_rate": 0.0002594133333333333, "loss": 6.1171, "step": 18050 }, { "epoch": 1.448, "grad_norm": 0.10327104479074478, "learning_rate": 0.00025874666666666666, "loss": 6.0926, "step": 18100 }, { "epoch": 1.452, "grad_norm": 0.11715775728225708, "learning_rate": 0.00025808, "loss": 6.1078, "step": 18150 }, { "epoch": 1.456, "grad_norm": 0.08773989975452423, "learning_rate": 0.00025741333333333333, "loss": 6.1436, "step": 18200 }, { "epoch": 1.46, "grad_norm": 0.06660512089729309, "learning_rate": 0.00025674666666666667, "loss": 6.1072, "step": 18250 }, { "epoch": 1.464, "grad_norm": 0.09394600987434387, "learning_rate": 0.00025608, "loss": 6.1063, "step": 18300 }, { "epoch": 1.468, "grad_norm": 0.08087374269962311, "learning_rate": 0.00025541333333333334, "loss": 6.1146, "step": 18350 }, { "epoch": 1.472, "grad_norm": 0.07448236644268036, "learning_rate": 0.00025474666666666667, "loss": 6.1231, "step": 18400 }, { "epoch": 1.476, "grad_norm": 0.11649112403392792, "learning_rate": 0.00025407999999999995, "loss": 6.1314, "step": 18450 }, { "epoch": 1.48, "grad_norm": 0.09097320586442947, "learning_rate": 0.00025341333333333334, "loss": 6.0926, "step": 18500 }, { "epoch": 1.484, "grad_norm": 0.10024212300777435, "learning_rate": 0.0002527466666666667, "loss": 6.1371, "step": 18550 }, { "epoch": 1.488, "grad_norm": 0.10840707272291183, "learning_rate": 0.00025208, "loss": 6.1335, "step": 18600 }, { "epoch": 1.492, "grad_norm": 0.06351447850465775, "learning_rate": 0.00025141333333333335, "loss": 6.1043, "step": 18650 }, { "epoch": 1.496, "grad_norm": 0.07490910589694977, "learning_rate": 0.0002507466666666667, "loss": 6.1411, "step": 18700 }, { "epoch": 1.5, "grad_norm": 0.07051810622215271, "learning_rate": 0.00025008, "loss": 6.122, "step": 18750 }, { "epoch": 1.504, "grad_norm": 0.13844069838523865, "learning_rate": 0.0002494133333333333, "loss": 6.1234, "step": 18800 }, { "epoch": 1.508, "grad_norm": 0.0931655541062355, "learning_rate": 0.0002487466666666667, "loss": 6.1326, "step": 18850 }, { "epoch": 1.512, "grad_norm": 0.11132197082042694, "learning_rate": 0.00024808, "loss": 6.1173, "step": 18900 }, { "epoch": 1.516, "grad_norm": 0.1060265600681305, "learning_rate": 0.00024741333333333336, "loss": 6.1007, "step": 18950 }, { "epoch": 1.52, "grad_norm": 0.08661402016878128, "learning_rate": 0.0002467466666666667, "loss": 6.1127, "step": 19000 }, { "epoch": 1.524, "grad_norm": 0.1349734365940094, "learning_rate": 0.00024608, "loss": 6.1084, "step": 19050 }, { "epoch": 1.528, "grad_norm": 0.08636411279439926, "learning_rate": 0.00024541333333333336, "loss": 6.1309, "step": 19100 }, { "epoch": 1.532, "grad_norm": 0.07895854860544205, "learning_rate": 0.0002447466666666667, "loss": 6.1179, "step": 19150 }, { "epoch": 1.536, "grad_norm": 0.0750681683421135, "learning_rate": 0.00024408, "loss": 6.1171, "step": 19200 }, { "epoch": 1.54, "grad_norm": 0.09081646800041199, "learning_rate": 0.00024341333333333334, "loss": 6.1236, "step": 19250 }, { "epoch": 1.544, "grad_norm": 0.18204033374786377, "learning_rate": 0.00024274666666666668, "loss": 6.0864, "step": 19300 }, { "epoch": 1.548, "grad_norm": 0.07506382465362549, "learning_rate": 0.00024207999999999999, "loss": 6.1068, "step": 19350 }, { "epoch": 1.552, "grad_norm": 0.07843635976314545, "learning_rate": 0.00024141333333333335, "loss": 6.1142, "step": 19400 }, { "epoch": 1.556, "grad_norm": 0.06401607394218445, "learning_rate": 0.00024074666666666666, "loss": 6.1283, "step": 19450 }, { "epoch": 1.56, "grad_norm": 0.09213093668222427, "learning_rate": 0.00024008, "loss": 6.1027, "step": 19500 }, { "epoch": 1.564, "grad_norm": 0.08796865493059158, "learning_rate": 0.00023941333333333335, "loss": 6.0979, "step": 19550 }, { "epoch": 1.568, "grad_norm": 0.09114944189786911, "learning_rate": 0.00023874666666666666, "loss": 6.138, "step": 19600 }, { "epoch": 1.572, "grad_norm": 0.08979613333940506, "learning_rate": 0.00023808000000000002, "loss": 6.0814, "step": 19650 }, { "epoch": 1.576, "grad_norm": 0.07273554801940918, "learning_rate": 0.00023741333333333333, "loss": 6.1172, "step": 19700 }, { "epoch": 1.58, "grad_norm": 0.07082478702068329, "learning_rate": 0.00023674666666666667, "loss": 6.1387, "step": 19750 }, { "epoch": 1.584, "grad_norm": 0.08334632217884064, "learning_rate": 0.00023608000000000003, "loss": 6.0961, "step": 19800 }, { "epoch": 1.588, "grad_norm": 0.07482119649648666, "learning_rate": 0.00023541333333333334, "loss": 6.1029, "step": 19850 }, { "epoch": 1.592, "grad_norm": 0.07358872145414352, "learning_rate": 0.00023474666666666667, "loss": 6.1012, "step": 19900 }, { "epoch": 1.596, "grad_norm": 0.07386735826730728, "learning_rate": 0.00023409333333333332, "loss": 6.0901, "step": 19950 }, { "epoch": 1.6, "grad_norm": 0.13007903099060059, "learning_rate": 0.00023342666666666668, "loss": 6.104, "step": 20000 }, { "epoch": 1.604, "grad_norm": 0.08530468493700027, "learning_rate": 0.00023276, "loss": 6.1154, "step": 20050 }, { "epoch": 1.608, "grad_norm": 0.08897891640663147, "learning_rate": 0.00023209333333333335, "loss": 6.1191, "step": 20100 }, { "epoch": 1.612, "grad_norm": 0.1343642622232437, "learning_rate": 0.00023142666666666668, "loss": 6.1001, "step": 20150 }, { "epoch": 1.616, "grad_norm": 0.06264558434486389, "learning_rate": 0.00023076, "loss": 6.099, "step": 20200 }, { "epoch": 1.62, "grad_norm": 0.08154334872961044, "learning_rate": 0.00023009333333333336, "loss": 6.1108, "step": 20250 }, { "epoch": 1.624, "grad_norm": 0.09159765392541885, "learning_rate": 0.00022942666666666666, "loss": 6.1201, "step": 20300 }, { "epoch": 1.6280000000000001, "grad_norm": 0.15310992300510406, "learning_rate": 0.00022876, "loss": 6.1137, "step": 20350 }, { "epoch": 1.6320000000000001, "grad_norm": 0.0851309671998024, "learning_rate": 0.00022809333333333333, "loss": 6.1419, "step": 20400 }, { "epoch": 1.6360000000000001, "grad_norm": 0.106353759765625, "learning_rate": 0.00022742666666666667, "loss": 6.1541, "step": 20450 }, { "epoch": 1.6400000000000001, "grad_norm": 0.11484626680612564, "learning_rate": 0.00022676, "loss": 6.0946, "step": 20500 }, { "epoch": 1.6440000000000001, "grad_norm": 0.08954672515392303, "learning_rate": 0.00022609333333333334, "loss": 6.1259, "step": 20550 }, { "epoch": 1.6480000000000001, "grad_norm": 0.1446329951286316, "learning_rate": 0.00022542666666666667, "loss": 6.1103, "step": 20600 }, { "epoch": 1.6520000000000001, "grad_norm": 0.07288994640111923, "learning_rate": 0.00022475999999999998, "loss": 6.1047, "step": 20650 }, { "epoch": 1.6560000000000001, "grad_norm": 0.10654041916131973, "learning_rate": 0.00022409333333333334, "loss": 6.1179, "step": 20700 }, { "epoch": 1.6600000000000001, "grad_norm": 0.13310889899730682, "learning_rate": 0.00022342666666666668, "loss": 6.1124, "step": 20750 }, { "epoch": 1.6640000000000001, "grad_norm": 0.23402610421180725, "learning_rate": 0.00022276000000000002, "loss": 6.0735, "step": 20800 }, { "epoch": 1.6680000000000001, "grad_norm": 0.10412658751010895, "learning_rate": 0.00022209333333333335, "loss": 6.0957, "step": 20850 }, { "epoch": 1.6720000000000002, "grad_norm": 0.08423358201980591, "learning_rate": 0.00022142666666666666, "loss": 6.1076, "step": 20900 }, { "epoch": 1.6760000000000002, "grad_norm": 0.08156075328588486, "learning_rate": 0.00022076000000000002, "loss": 6.1232, "step": 20950 }, { "epoch": 1.6800000000000002, "grad_norm": 0.11129004508256912, "learning_rate": 0.00022009333333333333, "loss": 6.0934, "step": 21000 }, { "epoch": 1.6840000000000002, "grad_norm": 0.0976298451423645, "learning_rate": 0.00021942666666666666, "loss": 6.1131, "step": 21050 }, { "epoch": 1.688, "grad_norm": 0.11792987585067749, "learning_rate": 0.00021876000000000003, "loss": 6.1201, "step": 21100 }, { "epoch": 1.692, "grad_norm": 0.07454186677932739, "learning_rate": 0.00021809333333333333, "loss": 6.1047, "step": 21150 }, { "epoch": 1.696, "grad_norm": 0.11691248416900635, "learning_rate": 0.00021742666666666667, "loss": 6.106, "step": 21200 }, { "epoch": 1.7, "grad_norm": 0.09039883315563202, "learning_rate": 0.00021676, "loss": 6.1257, "step": 21250 }, { "epoch": 1.704, "grad_norm": 0.07885195314884186, "learning_rate": 0.00021609333333333334, "loss": 6.1147, "step": 21300 }, { "epoch": 1.708, "grad_norm": 0.09826157987117767, "learning_rate": 0.00021542666666666665, "loss": 6.1304, "step": 21350 }, { "epoch": 1.712, "grad_norm": 0.09847967326641083, "learning_rate": 0.00021476, "loss": 6.1143, "step": 21400 }, { "epoch": 1.716, "grad_norm": 0.08521867543458939, "learning_rate": 0.00021409333333333335, "loss": 6.1301, "step": 21450 }, { "epoch": 1.72, "grad_norm": 0.09954076260328293, "learning_rate": 0.00021342666666666665, "loss": 6.1115, "step": 21500 }, { "epoch": 1.724, "grad_norm": 0.08671393245458603, "learning_rate": 0.00021276000000000002, "loss": 6.0971, "step": 21550 }, { "epoch": 1.728, "grad_norm": 0.1014779657125473, "learning_rate": 0.00021209333333333332, "loss": 6.1139, "step": 21600 }, { "epoch": 1.732, "grad_norm": 0.08204270899295807, "learning_rate": 0.0002114266666666667, "loss": 6.1117, "step": 21650 }, { "epoch": 1.736, "grad_norm": 0.22136829793453217, "learning_rate": 0.00021076, "loss": 6.1195, "step": 21700 }, { "epoch": 1.74, "grad_norm": 0.07619840651750565, "learning_rate": 0.00021009333333333333, "loss": 6.1507, "step": 21750 }, { "epoch": 1.744, "grad_norm": 0.11760496348142624, "learning_rate": 0.0002094266666666667, "loss": 6.1058, "step": 21800 }, { "epoch": 1.748, "grad_norm": 0.07619129121303558, "learning_rate": 0.00020876, "loss": 6.0987, "step": 21850 }, { "epoch": 1.752, "grad_norm": 0.0647655725479126, "learning_rate": 0.00020809333333333334, "loss": 6.092, "step": 21900 }, { "epoch": 1.756, "grad_norm": 0.08736995607614517, "learning_rate": 0.00020742666666666667, "loss": 6.1177, "step": 21950 }, { "epoch": 1.76, "grad_norm": 0.08582036942243576, "learning_rate": 0.00020676, "loss": 6.1234, "step": 22000 }, { "epoch": 1.764, "grad_norm": 0.13605540990829468, "learning_rate": 0.00020609333333333331, "loss": 6.0803, "step": 22050 }, { "epoch": 1.768, "grad_norm": 0.06180649623274803, "learning_rate": 0.00020542666666666668, "loss": 6.1104, "step": 22100 }, { "epoch": 1.772, "grad_norm": 0.10418678820133209, "learning_rate": 0.00020476, "loss": 6.1106, "step": 22150 }, { "epoch": 1.776, "grad_norm": 0.07229094952344894, "learning_rate": 0.00020409333333333332, "loss": 6.1261, "step": 22200 }, { "epoch": 1.78, "grad_norm": 0.1139087826013565, "learning_rate": 0.00020342666666666668, "loss": 6.1169, "step": 22250 }, { "epoch": 1.784, "grad_norm": 0.10123308002948761, "learning_rate": 0.00020276, "loss": 6.1222, "step": 22300 }, { "epoch": 1.788, "grad_norm": 0.1004975289106369, "learning_rate": 0.00020209333333333335, "loss": 6.1128, "step": 22350 }, { "epoch": 1.792, "grad_norm": 0.10379572957754135, "learning_rate": 0.0002014266666666667, "loss": 6.1539, "step": 22400 }, { "epoch": 1.796, "grad_norm": 0.0890529528260231, "learning_rate": 0.00020076, "loss": 6.1674, "step": 22450 }, { "epoch": 1.8, "grad_norm": 0.0714147537946701, "learning_rate": 0.00020009333333333336, "loss": 6.1368, "step": 22500 }, { "epoch": 1.804, "grad_norm": 0.10294345021247864, "learning_rate": 0.00019942666666666667, "loss": 6.1165, "step": 22550 }, { "epoch": 1.808, "grad_norm": 0.11307172477245331, "learning_rate": 0.00019876, "loss": 6.1067, "step": 22600 }, { "epoch": 1.812, "grad_norm": 0.13027998805046082, "learning_rate": 0.00019809333333333334, "loss": 6.1056, "step": 22650 }, { "epoch": 1.8159999999999998, "grad_norm": 0.1588941216468811, "learning_rate": 0.00019742666666666667, "loss": 6.1145, "step": 22700 }, { "epoch": 1.8199999999999998, "grad_norm": 0.11516508460044861, "learning_rate": 0.00019676, "loss": 6.1116, "step": 22750 }, { "epoch": 1.8239999999999998, "grad_norm": 0.1342688798904419, "learning_rate": 0.00019609333333333334, "loss": 6.1153, "step": 22800 }, { "epoch": 1.8279999999999998, "grad_norm": 0.11169470846652985, "learning_rate": 0.00019542666666666668, "loss": 6.1239, "step": 22850 }, { "epoch": 1.8319999999999999, "grad_norm": 0.09265588223934174, "learning_rate": 0.00019475999999999999, "loss": 6.1278, "step": 22900 }, { "epoch": 1.8359999999999999, "grad_norm": 0.11520793288946152, "learning_rate": 0.00019409333333333335, "loss": 6.1102, "step": 22950 }, { "epoch": 1.8399999999999999, "grad_norm": 0.1018354743719101, "learning_rate": 0.00019342666666666666, "loss": 6.1147, "step": 23000 }, { "epoch": 1.8439999999999999, "grad_norm": 0.09578350186347961, "learning_rate": 0.00019276, "loss": 6.1157, "step": 23050 }, { "epoch": 1.8479999999999999, "grad_norm": 0.06277944147586823, "learning_rate": 0.00019209333333333335, "loss": 6.1088, "step": 23100 }, { "epoch": 1.8519999999999999, "grad_norm": 0.14111344516277313, "learning_rate": 0.00019142666666666666, "loss": 6.1426, "step": 23150 }, { "epoch": 1.8559999999999999, "grad_norm": 0.07588493078947067, "learning_rate": 0.00019076000000000002, "loss": 6.1374, "step": 23200 }, { "epoch": 1.8599999999999999, "grad_norm": 0.1208319365978241, "learning_rate": 0.00019009333333333333, "loss": 6.1122, "step": 23250 }, { "epoch": 1.8639999999999999, "grad_norm": 0.0716400146484375, "learning_rate": 0.00018942666666666667, "loss": 6.0836, "step": 23300 }, { "epoch": 1.8679999999999999, "grad_norm": 0.15237785875797272, "learning_rate": 0.00018876, "loss": 6.081, "step": 23350 }, { "epoch": 1.8719999999999999, "grad_norm": 0.08331475406885147, "learning_rate": 0.00018809333333333334, "loss": 6.1036, "step": 23400 }, { "epoch": 1.876, "grad_norm": 0.13566309213638306, "learning_rate": 0.00018742666666666667, "loss": 6.0979, "step": 23450 }, { "epoch": 1.88, "grad_norm": 0.08275385946035385, "learning_rate": 0.00018676, "loss": 6.0965, "step": 23500 }, { "epoch": 1.884, "grad_norm": 0.10138291120529175, "learning_rate": 0.00018609333333333334, "loss": 6.1155, "step": 23550 }, { "epoch": 1.888, "grad_norm": 0.09643717855215073, "learning_rate": 0.00018542666666666665, "loss": 6.087, "step": 23600 }, { "epoch": 1.892, "grad_norm": 0.07002636045217514, "learning_rate": 0.00018476, "loss": 6.1147, "step": 23650 }, { "epoch": 1.896, "grad_norm": 0.08171535283327103, "learning_rate": 0.00018409333333333335, "loss": 6.1291, "step": 23700 }, { "epoch": 1.9, "grad_norm": 0.08452154695987701, "learning_rate": 0.00018342666666666666, "loss": 6.099, "step": 23750 }, { "epoch": 1.904, "grad_norm": 0.06860998272895813, "learning_rate": 0.00018276000000000002, "loss": 6.106, "step": 23800 }, { "epoch": 1.908, "grad_norm": 0.13700862228870392, "learning_rate": 0.00018209333333333333, "loss": 6.0841, "step": 23850 }, { "epoch": 1.912, "grad_norm": 0.08697017282247543, "learning_rate": 0.0001814266666666667, "loss": 6.1194, "step": 23900 }, { "epoch": 1.916, "grad_norm": 0.08374960720539093, "learning_rate": 0.00018077333333333333, "loss": 6.1426, "step": 23950 }, { "epoch": 1.92, "grad_norm": 0.14394758641719818, "learning_rate": 0.00018010666666666667, "loss": 6.1041, "step": 24000 }, { "epoch": 1.924, "grad_norm": 0.06964962929487228, "learning_rate": 0.00017944, "loss": 6.0998, "step": 24050 }, { "epoch": 1.928, "grad_norm": 0.11264392733573914, "learning_rate": 0.00017877333333333334, "loss": 6.0932, "step": 24100 }, { "epoch": 1.932, "grad_norm": 0.10861148685216904, "learning_rate": 0.00017810666666666667, "loss": 6.1308, "step": 24150 }, { "epoch": 1.936, "grad_norm": 0.14875246584415436, "learning_rate": 0.00017743999999999998, "loss": 6.1073, "step": 24200 }, { "epoch": 1.94, "grad_norm": 0.08286185562610626, "learning_rate": 0.00017677333333333334, "loss": 6.1551, "step": 24250 }, { "epoch": 1.944, "grad_norm": 0.12915372848510742, "learning_rate": 0.00017610666666666665, "loss": 6.1192, "step": 24300 }, { "epoch": 1.948, "grad_norm": 0.07962062209844589, "learning_rate": 0.00017544000000000001, "loss": 6.1078, "step": 24350 }, { "epoch": 1.952, "grad_norm": 0.08726031333208084, "learning_rate": 0.00017477333333333335, "loss": 6.0849, "step": 24400 }, { "epoch": 1.956, "grad_norm": 0.15104837715625763, "learning_rate": 0.00017410666666666666, "loss": 6.1211, "step": 24450 }, { "epoch": 1.96, "grad_norm": 0.07838847488164902, "learning_rate": 0.00017344000000000002, "loss": 6.1361, "step": 24500 }, { "epoch": 1.964, "grad_norm": 0.05814399942755699, "learning_rate": 0.00017277333333333333, "loss": 6.0881, "step": 24550 }, { "epoch": 1.968, "grad_norm": 0.1351182907819748, "learning_rate": 0.00017210666666666666, "loss": 6.0626, "step": 24600 }, { "epoch": 1.972, "grad_norm": 0.07195572555065155, "learning_rate": 0.00017144000000000003, "loss": 6.1246, "step": 24650 }, { "epoch": 1.976, "grad_norm": 0.0785103291273117, "learning_rate": 0.00017077333333333333, "loss": 6.1282, "step": 24700 }, { "epoch": 1.98, "grad_norm": 0.07543079555034637, "learning_rate": 0.00017010666666666667, "loss": 6.1072, "step": 24750 }, { "epoch": 1.984, "grad_norm": 0.07829292118549347, "learning_rate": 0.00016944, "loss": 6.1412, "step": 24800 }, { "epoch": 1.988, "grad_norm": 0.07147668302059174, "learning_rate": 0.00016877333333333334, "loss": 6.1471, "step": 24850 }, { "epoch": 1.992, "grad_norm": 0.06920904666185379, "learning_rate": 0.00016810666666666665, "loss": 6.1035, "step": 24900 }, { "epoch": 1.996, "grad_norm": 0.09822528064250946, "learning_rate": 0.00016744, "loss": 6.1287, "step": 24950 }, { "epoch": 2.0, "grad_norm": 0.10990389436483383, "learning_rate": 0.00016677333333333334, "loss": 6.1097, "step": 25000 }, { "epoch": 2.0, "eval_bleu": 0.8509388154503864, "eval_cer": 0.017948863188897872, "eval_f1": 0.93043678086794, "eval_loss": 6.107422828674316, "eval_meteor": 0.9223790272331742, "eval_runtime": 540.7264, "eval_samples_per_second": 9.247, "eval_steps_per_second": 0.29, "eval_wer": 0.0817902182955183, "step": 25000 }, { "epoch": 2.004, "grad_norm": 0.06241412088274956, "learning_rate": 0.00016610666666666668, "loss": 6.1159, "step": 25050 }, { "epoch": 2.008, "grad_norm": 0.09459705650806427, "learning_rate": 0.00016544000000000002, "loss": 6.1398, "step": 25100 }, { "epoch": 2.012, "grad_norm": 0.069663867354393, "learning_rate": 0.00016477333333333332, "loss": 6.129, "step": 25150 }, { "epoch": 2.016, "grad_norm": 0.06462211161851883, "learning_rate": 0.00016410666666666669, "loss": 6.1062, "step": 25200 }, { "epoch": 2.02, "grad_norm": 0.059740062803030014, "learning_rate": 0.00016344, "loss": 6.1119, "step": 25250 }, { "epoch": 2.024, "grad_norm": 0.08516935259103775, "learning_rate": 0.00016277333333333333, "loss": 6.1166, "step": 25300 }, { "epoch": 2.028, "grad_norm": 0.0659923404455185, "learning_rate": 0.0001621066666666667, "loss": 6.1097, "step": 25350 }, { "epoch": 2.032, "grad_norm": 0.3307529389858246, "learning_rate": 0.00016144, "loss": 6.0997, "step": 25400 }, { "epoch": 2.036, "grad_norm": 0.07213962823152542, "learning_rate": 0.00016077333333333333, "loss": 6.125, "step": 25450 }, { "epoch": 2.04, "grad_norm": 0.08951520174741745, "learning_rate": 0.00016010666666666667, "loss": 6.1187, "step": 25500 }, { "epoch": 2.044, "grad_norm": 0.08432460576295853, "learning_rate": 0.00015944, "loss": 6.1076, "step": 25550 }, { "epoch": 2.048, "grad_norm": 0.09180618822574615, "learning_rate": 0.0001587733333333333, "loss": 6.1087, "step": 25600 }, { "epoch": 2.052, "grad_norm": 0.0744001492857933, "learning_rate": 0.00015810666666666668, "loss": 6.0819, "step": 25650 }, { "epoch": 2.056, "grad_norm": 0.0708983987569809, "learning_rate": 0.00015744, "loss": 6.1112, "step": 25700 }, { "epoch": 2.06, "grad_norm": 0.08963986486196518, "learning_rate": 0.00015677333333333332, "loss": 6.0796, "step": 25750 }, { "epoch": 2.064, "grad_norm": 0.07921291142702103, "learning_rate": 0.00015610666666666668, "loss": 6.0978, "step": 25800 }, { "epoch": 2.068, "grad_norm": 0.15557201206684113, "learning_rate": 0.00015544, "loss": 6.1067, "step": 25850 }, { "epoch": 2.072, "grad_norm": 0.09218396246433258, "learning_rate": 0.00015477333333333335, "loss": 6.1149, "step": 25900 }, { "epoch": 2.076, "grad_norm": 0.08177242428064346, "learning_rate": 0.00015410666666666666, "loss": 6.0961, "step": 25950 }, { "epoch": 2.08, "grad_norm": 0.10338721424341202, "learning_rate": 0.00015344, "loss": 6.1338, "step": 26000 }, { "epoch": 2.084, "grad_norm": 0.0902288481593132, "learning_rate": 0.00015277333333333336, "loss": 6.1286, "step": 26050 }, { "epoch": 2.088, "grad_norm": 0.10780780762434006, "learning_rate": 0.00015210666666666666, "loss": 6.1151, "step": 26100 }, { "epoch": 2.092, "grad_norm": 0.09068985283374786, "learning_rate": 0.00015144, "loss": 6.0956, "step": 26150 }, { "epoch": 2.096, "grad_norm": 0.10990087687969208, "learning_rate": 0.00015077333333333334, "loss": 6.1058, "step": 26200 }, { "epoch": 2.1, "grad_norm": 0.07775469869375229, "learning_rate": 0.00015010666666666667, "loss": 6.0823, "step": 26250 }, { "epoch": 2.104, "grad_norm": 0.06577832251787186, "learning_rate": 0.00014944, "loss": 6.1162, "step": 26300 }, { "epoch": 2.108, "grad_norm": 0.08135217428207397, "learning_rate": 0.00014877333333333334, "loss": 6.1108, "step": 26350 }, { "epoch": 2.112, "grad_norm": 0.0771484225988388, "learning_rate": 0.00014810666666666668, "loss": 6.1306, "step": 26400 }, { "epoch": 2.116, "grad_norm": 0.09126853942871094, "learning_rate": 0.00014743999999999998, "loss": 6.1122, "step": 26450 }, { "epoch": 2.12, "grad_norm": 0.16346502304077148, "learning_rate": 0.00014677333333333335, "loss": 6.11, "step": 26500 }, { "epoch": 2.124, "grad_norm": 0.059007637202739716, "learning_rate": 0.00014610666666666665, "loss": 6.0865, "step": 26550 }, { "epoch": 2.128, "grad_norm": 0.08361868560314178, "learning_rate": 0.00014544000000000002, "loss": 6.0962, "step": 26600 }, { "epoch": 2.132, "grad_norm": 0.09910906851291656, "learning_rate": 0.00014477333333333335, "loss": 6.0886, "step": 26650 }, { "epoch": 2.136, "grad_norm": 0.08104857057332993, "learning_rate": 0.00014410666666666666, "loss": 6.148, "step": 26700 }, { "epoch": 2.14, "grad_norm": 0.1739630252122879, "learning_rate": 0.00014344000000000002, "loss": 6.09, "step": 26750 }, { "epoch": 2.144, "grad_norm": 0.10630565881729126, "learning_rate": 0.00014277333333333333, "loss": 6.1252, "step": 26800 }, { "epoch": 2.148, "grad_norm": 0.06492559611797333, "learning_rate": 0.00014210666666666667, "loss": 6.1025, "step": 26850 }, { "epoch": 2.152, "grad_norm": 0.09379439800977707, "learning_rate": 0.00014144, "loss": 6.1086, "step": 26900 }, { "epoch": 2.156, "grad_norm": 0.11896802484989166, "learning_rate": 0.00014077333333333334, "loss": 6.1093, "step": 26950 }, { "epoch": 2.16, "grad_norm": 0.06822894513607025, "learning_rate": 0.00014010666666666667, "loss": 6.1173, "step": 27000 }, { "epoch": 2.164, "grad_norm": 0.07600221037864685, "learning_rate": 0.00013944, "loss": 6.1309, "step": 27050 }, { "epoch": 2.168, "grad_norm": 0.086393341422081, "learning_rate": 0.00013877333333333334, "loss": 6.1105, "step": 27100 }, { "epoch": 2.172, "grad_norm": 0.07227867096662521, "learning_rate": 0.00013810666666666665, "loss": 6.1184, "step": 27150 }, { "epoch": 2.176, "grad_norm": 0.06168118491768837, "learning_rate": 0.00013744, "loss": 6.1369, "step": 27200 }, { "epoch": 2.18, "grad_norm": 0.07761823385953903, "learning_rate": 0.00013677333333333332, "loss": 6.1207, "step": 27250 }, { "epoch": 2.184, "grad_norm": 0.09843423217535019, "learning_rate": 0.00013610666666666666, "loss": 6.1224, "step": 27300 }, { "epoch": 2.188, "grad_norm": 0.09387116879224777, "learning_rate": 0.00013544000000000002, "loss": 6.1063, "step": 27350 }, { "epoch": 2.192, "grad_norm": 0.12370068579912186, "learning_rate": 0.00013477333333333333, "loss": 6.1303, "step": 27400 }, { "epoch": 2.196, "grad_norm": 0.05456452816724777, "learning_rate": 0.0001341066666666667, "loss": 6.1304, "step": 27450 }, { "epoch": 2.2, "grad_norm": 0.1500086784362793, "learning_rate": 0.00013344, "loss": 6.129, "step": 27500 }, { "epoch": 2.204, "grad_norm": 0.08891820162534714, "learning_rate": 0.00013277333333333333, "loss": 6.1427, "step": 27550 }, { "epoch": 2.208, "grad_norm": 0.11425920575857162, "learning_rate": 0.0001321066666666667, "loss": 6.1483, "step": 27600 }, { "epoch": 2.212, "grad_norm": 0.10232799500226974, "learning_rate": 0.00013144, "loss": 6.0987, "step": 27650 }, { "epoch": 2.216, "grad_norm": 0.09197191894054413, "learning_rate": 0.00013077333333333334, "loss": 6.0993, "step": 27700 }, { "epoch": 2.22, "grad_norm": 0.0773281455039978, "learning_rate": 0.00013010666666666667, "loss": 6.0992, "step": 27750 }, { "epoch": 2.224, "grad_norm": 0.11628571152687073, "learning_rate": 0.00012944, "loss": 6.1127, "step": 27800 }, { "epoch": 2.228, "grad_norm": 0.0823330357670784, "learning_rate": 0.00012877333333333332, "loss": 6.1142, "step": 27850 }, { "epoch": 2.232, "grad_norm": 0.10128411650657654, "learning_rate": 0.00012810666666666668, "loss": 6.0879, "step": 27900 }, { "epoch": 2.2359999999999998, "grad_norm": 0.11747880280017853, "learning_rate": 0.00012744, "loss": 6.1097, "step": 27950 }, { "epoch": 2.24, "grad_norm": 0.11556991934776306, "learning_rate": 0.00012677333333333332, "loss": 6.1073, "step": 28000 }, { "epoch": 2.2439999999999998, "grad_norm": 0.09097258746623993, "learning_rate": 0.00012610666666666668, "loss": 6.1261, "step": 28050 }, { "epoch": 2.248, "grad_norm": 0.07386935502290726, "learning_rate": 0.00012544, "loss": 6.1137, "step": 28100 }, { "epoch": 2.252, "grad_norm": 0.08384504169225693, "learning_rate": 0.00012477333333333333, "loss": 6.1333, "step": 28150 }, { "epoch": 2.2560000000000002, "grad_norm": 0.13308189809322357, "learning_rate": 0.00012410666666666666, "loss": 6.0858, "step": 28200 }, { "epoch": 2.26, "grad_norm": 0.0804629996418953, "learning_rate": 0.00012344, "loss": 6.1368, "step": 28250 }, { "epoch": 2.2640000000000002, "grad_norm": 0.06366775929927826, "learning_rate": 0.00012277333333333333, "loss": 6.1195, "step": 28300 }, { "epoch": 2.268, "grad_norm": 0.08126317709684372, "learning_rate": 0.00012210666666666667, "loss": 6.1136, "step": 28350 }, { "epoch": 2.2720000000000002, "grad_norm": 0.0739387795329094, "learning_rate": 0.00012144, "loss": 6.0753, "step": 28400 }, { "epoch": 2.276, "grad_norm": 0.08141763508319855, "learning_rate": 0.00012077333333333334, "loss": 6.11, "step": 28450 }, { "epoch": 2.2800000000000002, "grad_norm": 0.16061526536941528, "learning_rate": 0.00012010666666666667, "loss": 6.0626, "step": 28500 }, { "epoch": 2.284, "grad_norm": 0.06370881199836731, "learning_rate": 0.00011944000000000001, "loss": 6.1, "step": 28550 }, { "epoch": 2.288, "grad_norm": 0.08565754443407059, "learning_rate": 0.00011877333333333333, "loss": 6.0766, "step": 28600 }, { "epoch": 2.292, "grad_norm": 0.08244933933019638, "learning_rate": 0.00011810666666666667, "loss": 6.1032, "step": 28650 }, { "epoch": 2.296, "grad_norm": 0.09672416001558304, "learning_rate": 0.00011744, "loss": 6.1187, "step": 28700 }, { "epoch": 2.3, "grad_norm": 0.15543796122074127, "learning_rate": 0.00011677333333333335, "loss": 6.1218, "step": 28750 }, { "epoch": 2.304, "grad_norm": 0.20320799946784973, "learning_rate": 0.00011610666666666667, "loss": 6.1023, "step": 28800 }, { "epoch": 2.308, "grad_norm": 0.08330374956130981, "learning_rate": 0.00011544, "loss": 6.1187, "step": 28850 }, { "epoch": 2.312, "grad_norm": 0.151125967502594, "learning_rate": 0.00011477333333333334, "loss": 6.1187, "step": 28900 }, { "epoch": 2.316, "grad_norm": 0.08216053247451782, "learning_rate": 0.00011410666666666666, "loss": 6.1048, "step": 28950 }, { "epoch": 2.32, "grad_norm": 0.14266152679920197, "learning_rate": 0.00011344, "loss": 6.1401, "step": 29000 }, { "epoch": 2.324, "grad_norm": 0.09180327504873276, "learning_rate": 0.00011277333333333333, "loss": 6.0999, "step": 29050 }, { "epoch": 2.328, "grad_norm": 0.10606887936592102, "learning_rate": 0.00011210666666666667, "loss": 6.0982, "step": 29100 }, { "epoch": 2.332, "grad_norm": 0.0734487995505333, "learning_rate": 0.00011144, "loss": 6.1313, "step": 29150 }, { "epoch": 2.336, "grad_norm": 0.08945748209953308, "learning_rate": 0.00011077333333333334, "loss": 6.1031, "step": 29200 }, { "epoch": 2.34, "grad_norm": 0.07958261668682098, "learning_rate": 0.00011010666666666667, "loss": 6.1107, "step": 29250 }, { "epoch": 2.344, "grad_norm": 0.07484224438667297, "learning_rate": 0.00010944, "loss": 6.1076, "step": 29300 }, { "epoch": 2.348, "grad_norm": 0.1674572229385376, "learning_rate": 0.00010877333333333333, "loss": 6.103, "step": 29350 }, { "epoch": 2.352, "grad_norm": 0.06534720957279205, "learning_rate": 0.00010810666666666667, "loss": 6.0897, "step": 29400 }, { "epoch": 2.356, "grad_norm": 0.09585539996623993, "learning_rate": 0.00010744, "loss": 6.1084, "step": 29450 }, { "epoch": 2.36, "grad_norm": 0.07976046204566956, "learning_rate": 0.00010677333333333334, "loss": 6.0825, "step": 29500 }, { "epoch": 2.364, "grad_norm": 0.07807755470275879, "learning_rate": 0.00010610666666666667, "loss": 6.0998, "step": 29550 }, { "epoch": 2.368, "grad_norm": 0.08168377727270126, "learning_rate": 0.00010544000000000001, "loss": 6.082, "step": 29600 }, { "epoch": 2.372, "grad_norm": 0.08476163446903229, "learning_rate": 0.00010477333333333333, "loss": 6.1152, "step": 29650 }, { "epoch": 2.376, "grad_norm": 0.11050921678543091, "learning_rate": 0.00010410666666666666, "loss": 6.1566, "step": 29700 }, { "epoch": 2.38, "grad_norm": 0.10973154008388519, "learning_rate": 0.00010344000000000001, "loss": 6.0954, "step": 29750 }, { "epoch": 2.384, "grad_norm": 0.11800642311573029, "learning_rate": 0.00010277333333333333, "loss": 6.11, "step": 29800 }, { "epoch": 2.388, "grad_norm": 0.0964646190404892, "learning_rate": 0.00010210666666666667, "loss": 6.1142, "step": 29850 }, { "epoch": 2.392, "grad_norm": 0.07550235837697983, "learning_rate": 0.00010144, "loss": 6.1179, "step": 29900 }, { "epoch": 2.396, "grad_norm": 0.07429670542478561, "learning_rate": 0.00010077333333333334, "loss": 6.1152, "step": 29950 }, { "epoch": 2.4, "grad_norm": 0.10282744467258453, "learning_rate": 0.00010010666666666666, "loss": 6.1089, "step": 30000 }, { "epoch": 2.404, "grad_norm": 0.07674600183963776, "learning_rate": 9.944e-05, "loss": 6.1254, "step": 30050 }, { "epoch": 2.408, "grad_norm": 0.10146459192037582, "learning_rate": 9.878666666666667e-05, "loss": 6.0998, "step": 30100 }, { "epoch": 2.412, "grad_norm": 0.0810420960187912, "learning_rate": 9.812e-05, "loss": 6.1144, "step": 30150 }, { "epoch": 2.416, "grad_norm": 0.09415046125650406, "learning_rate": 9.745333333333334e-05, "loss": 6.0945, "step": 30200 }, { "epoch": 2.42, "grad_norm": 0.07557525485754013, "learning_rate": 9.678666666666666e-05, "loss": 6.1025, "step": 30250 }, { "epoch": 2.424, "grad_norm": 0.08086816966533661, "learning_rate": 9.612e-05, "loss": 6.0887, "step": 30300 }, { "epoch": 2.428, "grad_norm": 0.08543414622545242, "learning_rate": 9.545333333333333e-05, "loss": 6.1436, "step": 30350 }, { "epoch": 2.432, "grad_norm": 0.17740271985530853, "learning_rate": 9.478666666666668e-05, "loss": 6.0963, "step": 30400 }, { "epoch": 2.436, "grad_norm": 0.0797586590051651, "learning_rate": 9.412e-05, "loss": 6.1044, "step": 30450 }, { "epoch": 2.44, "grad_norm": 0.05403298884630203, "learning_rate": 9.345333333333334e-05, "loss": 6.1379, "step": 30500 }, { "epoch": 2.444, "grad_norm": 0.09752552956342697, "learning_rate": 9.278666666666667e-05, "loss": 6.0842, "step": 30550 }, { "epoch": 2.448, "grad_norm": 0.09071024507284164, "learning_rate": 9.211999999999999e-05, "loss": 6.0954, "step": 30600 }, { "epoch": 2.452, "grad_norm": 0.11716838926076889, "learning_rate": 9.145333333333333e-05, "loss": 6.1051, "step": 30650 }, { "epoch": 2.456, "grad_norm": 0.0909012034535408, "learning_rate": 9.078666666666668e-05, "loss": 6.1249, "step": 30700 }, { "epoch": 2.46, "grad_norm": 0.14910614490509033, "learning_rate": 9.012000000000001e-05, "loss": 6.1065, "step": 30750 }, { "epoch": 2.464, "grad_norm": 0.07372134178876877, "learning_rate": 8.945333333333333e-05, "loss": 6.1308, "step": 30800 }, { "epoch": 2.468, "grad_norm": 0.07839683443307877, "learning_rate": 8.878666666666667e-05, "loss": 6.1396, "step": 30850 }, { "epoch": 2.472, "grad_norm": 0.08859548717737198, "learning_rate": 8.812e-05, "loss": 6.0815, "step": 30900 }, { "epoch": 2.476, "grad_norm": 0.08864545822143555, "learning_rate": 8.745333333333332e-05, "loss": 6.1185, "step": 30950 }, { "epoch": 2.48, "grad_norm": 0.10425064712762833, "learning_rate": 8.678666666666666e-05, "loss": 6.0994, "step": 31000 }, { "epoch": 2.484, "grad_norm": 0.06852062046527863, "learning_rate": 8.612000000000001e-05, "loss": 6.1114, "step": 31050 }, { "epoch": 2.488, "grad_norm": 0.12233876436948776, "learning_rate": 8.545333333333334e-05, "loss": 6.11, "step": 31100 }, { "epoch": 2.492, "grad_norm": 0.0806891992688179, "learning_rate": 8.478666666666667e-05, "loss": 6.112, "step": 31150 }, { "epoch": 2.496, "grad_norm": 0.08674288541078568, "learning_rate": 8.412e-05, "loss": 6.1304, "step": 31200 }, { "epoch": 2.5, "grad_norm": 0.09121359884738922, "learning_rate": 8.345333333333334e-05, "loss": 6.1332, "step": 31250 }, { "epoch": 2.504, "grad_norm": 0.083242267370224, "learning_rate": 8.278666666666666e-05, "loss": 6.1249, "step": 31300 }, { "epoch": 2.508, "grad_norm": 0.18824157118797302, "learning_rate": 8.212e-05, "loss": 6.1151, "step": 31350 }, { "epoch": 2.512, "grad_norm": 0.08466707915067673, "learning_rate": 8.145333333333334e-05, "loss": 6.0965, "step": 31400 }, { "epoch": 2.516, "grad_norm": 0.08986948430538177, "learning_rate": 8.078666666666668e-05, "loss": 6.1397, "step": 31450 }, { "epoch": 2.52, "grad_norm": 0.08780477195978165, "learning_rate": 8.012e-05, "loss": 6.1163, "step": 31500 }, { "epoch": 2.524, "grad_norm": 0.06769109517335892, "learning_rate": 7.945333333333333e-05, "loss": 6.0782, "step": 31550 }, { "epoch": 2.528, "grad_norm": 0.07765094190835953, "learning_rate": 7.878666666666667e-05, "loss": 6.1072, "step": 31600 }, { "epoch": 2.532, "grad_norm": 0.08137909322977066, "learning_rate": 7.811999999999999e-05, "loss": 6.1192, "step": 31650 }, { "epoch": 2.536, "grad_norm": 0.08229710906744003, "learning_rate": 7.745333333333334e-05, "loss": 6.1185, "step": 31700 }, { "epoch": 2.54, "grad_norm": 0.06525582075119019, "learning_rate": 7.678666666666667e-05, "loss": 6.0934, "step": 31750 }, { "epoch": 2.544, "grad_norm": 0.12746158242225647, "learning_rate": 7.612e-05, "loss": 6.1118, "step": 31800 }, { "epoch": 2.548, "grad_norm": 0.09764963388442993, "learning_rate": 7.545333333333333e-05, "loss": 6.118, "step": 31850 }, { "epoch": 2.552, "grad_norm": 0.11228886246681213, "learning_rate": 7.478666666666667e-05, "loss": 6.0975, "step": 31900 }, { "epoch": 2.556, "grad_norm": 0.07479457557201385, "learning_rate": 7.412e-05, "loss": 6.1169, "step": 31950 }, { "epoch": 2.56, "grad_norm": 0.08264287561178207, "learning_rate": 7.345333333333334e-05, "loss": 6.0964, "step": 32000 }, { "epoch": 2.564, "grad_norm": 0.11619406938552856, "learning_rate": 7.278666666666667e-05, "loss": 6.1208, "step": 32050 }, { "epoch": 2.568, "grad_norm": 0.07110919803380966, "learning_rate": 7.212000000000001e-05, "loss": 6.1303, "step": 32100 }, { "epoch": 2.572, "grad_norm": 0.09006128460168839, "learning_rate": 7.145333333333333e-05, "loss": 6.0888, "step": 32150 }, { "epoch": 2.576, "grad_norm": 0.08671920001506805, "learning_rate": 7.078666666666666e-05, "loss": 6.1215, "step": 32200 }, { "epoch": 2.58, "grad_norm": 0.07779053598642349, "learning_rate": 7.012e-05, "loss": 6.1308, "step": 32250 }, { "epoch": 2.584, "grad_norm": 0.0918804481625557, "learning_rate": 6.945333333333333e-05, "loss": 6.1247, "step": 32300 }, { "epoch": 2.588, "grad_norm": 0.08833949267864227, "learning_rate": 6.878666666666667e-05, "loss": 6.1255, "step": 32350 }, { "epoch": 2.592, "grad_norm": 0.0813971608877182, "learning_rate": 6.812e-05, "loss": 6.1203, "step": 32400 }, { "epoch": 2.596, "grad_norm": 0.11117328703403473, "learning_rate": 6.746666666666666e-05, "loss": 6.0935, "step": 32450 }, { "epoch": 2.6, "grad_norm": 0.07470870018005371, "learning_rate": 6.68e-05, "loss": 6.1147, "step": 32500 }, { "epoch": 2.604, "grad_norm": 0.08403927087783813, "learning_rate": 6.613333333333333e-05, "loss": 6.0853, "step": 32550 }, { "epoch": 2.608, "grad_norm": 0.09930143505334854, "learning_rate": 6.546666666666667e-05, "loss": 6.1076, "step": 32600 }, { "epoch": 2.612, "grad_norm": 0.06665149331092834, "learning_rate": 6.48e-05, "loss": 6.0954, "step": 32650 }, { "epoch": 2.616, "grad_norm": 0.06632450222969055, "learning_rate": 6.413333333333334e-05, "loss": 6.1121, "step": 32700 }, { "epoch": 2.62, "grad_norm": 0.11766459047794342, "learning_rate": 6.346666666666667e-05, "loss": 6.0906, "step": 32750 }, { "epoch": 2.624, "grad_norm": 0.14395442605018616, "learning_rate": 6.28e-05, "loss": 6.116, "step": 32800 }, { "epoch": 2.628, "grad_norm": 0.08648652583360672, "learning_rate": 6.213333333333333e-05, "loss": 6.1156, "step": 32850 }, { "epoch": 2.632, "grad_norm": 0.10426576435565948, "learning_rate": 6.146666666666667e-05, "loss": 6.0909, "step": 32900 }, { "epoch": 2.636, "grad_norm": 0.08094645291566849, "learning_rate": 6.08e-05, "loss": 6.126, "step": 32950 }, { "epoch": 2.64, "grad_norm": 0.08826056867837906, "learning_rate": 6.013333333333333e-05, "loss": 6.1171, "step": 33000 }, { "epoch": 2.644, "grad_norm": 0.07126999646425247, "learning_rate": 5.946666666666667e-05, "loss": 6.1198, "step": 33050 }, { "epoch": 2.648, "grad_norm": 0.09627427905797958, "learning_rate": 5.88e-05, "loss": 6.1132, "step": 33100 }, { "epoch": 2.652, "grad_norm": 0.07886403799057007, "learning_rate": 5.8133333333333335e-05, "loss": 6.0852, "step": 33150 }, { "epoch": 2.656, "grad_norm": 0.0696234479546547, "learning_rate": 5.746666666666667e-05, "loss": 6.1071, "step": 33200 }, { "epoch": 2.66, "grad_norm": 0.0665351077914238, "learning_rate": 5.6800000000000005e-05, "loss": 6.0959, "step": 33250 }, { "epoch": 2.664, "grad_norm": 0.11237353086471558, "learning_rate": 5.6133333333333333e-05, "loss": 6.0923, "step": 33300 }, { "epoch": 2.668, "grad_norm": 0.10735862702131271, "learning_rate": 5.546666666666666e-05, "loss": 6.09, "step": 33350 }, { "epoch": 2.672, "grad_norm": 0.09538553655147552, "learning_rate": 5.4800000000000004e-05, "loss": 6.1029, "step": 33400 }, { "epoch": 2.676, "grad_norm": 0.06470570713281631, "learning_rate": 5.413333333333333e-05, "loss": 6.0971, "step": 33450 }, { "epoch": 2.68, "grad_norm": 0.09996616095304489, "learning_rate": 5.346666666666667e-05, "loss": 6.1219, "step": 33500 }, { "epoch": 2.684, "grad_norm": 0.11110475659370422, "learning_rate": 5.28e-05, "loss": 6.1232, "step": 33550 }, { "epoch": 2.6879999999999997, "grad_norm": 0.06958124041557312, "learning_rate": 5.213333333333333e-05, "loss": 6.1061, "step": 33600 }, { "epoch": 2.692, "grad_norm": 0.09472180157899857, "learning_rate": 5.148e-05, "loss": 6.0987, "step": 33650 }, { "epoch": 2.6959999999999997, "grad_norm": 0.2217915952205658, "learning_rate": 5.081333333333334e-05, "loss": 6.1085, "step": 33700 }, { "epoch": 2.7, "grad_norm": 0.10178756713867188, "learning_rate": 5.0146666666666665e-05, "loss": 6.1095, "step": 33750 }, { "epoch": 2.7039999999999997, "grad_norm": 0.08223158121109009, "learning_rate": 4.948000000000001e-05, "loss": 6.0995, "step": 33800 }, { "epoch": 2.708, "grad_norm": 0.07961177825927734, "learning_rate": 4.8813333333333336e-05, "loss": 6.1195, "step": 33850 }, { "epoch": 2.7119999999999997, "grad_norm": 0.1597965508699417, "learning_rate": 4.8146666666666664e-05, "loss": 6.1009, "step": 33900 }, { "epoch": 2.716, "grad_norm": 0.09183373302221298, "learning_rate": 4.748e-05, "loss": 6.1061, "step": 33950 }, { "epoch": 2.7199999999999998, "grad_norm": 0.08628141134977341, "learning_rate": 4.6813333333333335e-05, "loss": 6.1085, "step": 34000 }, { "epoch": 2.724, "grad_norm": 0.0695403665304184, "learning_rate": 4.614666666666667e-05, "loss": 6.135, "step": 34050 }, { "epoch": 2.7279999999999998, "grad_norm": 0.14120854437351227, "learning_rate": 4.548e-05, "loss": 6.0907, "step": 34100 }, { "epoch": 2.732, "grad_norm": 0.08242190629243851, "learning_rate": 4.4813333333333333e-05, "loss": 6.1398, "step": 34150 }, { "epoch": 2.7359999999999998, "grad_norm": 0.0979577824473381, "learning_rate": 4.414666666666667e-05, "loss": 6.1122, "step": 34200 }, { "epoch": 2.74, "grad_norm": 0.06977363675832748, "learning_rate": 4.348e-05, "loss": 6.0902, "step": 34250 }, { "epoch": 2.7439999999999998, "grad_norm": 0.09895601868629456, "learning_rate": 4.281333333333334e-05, "loss": 6.1017, "step": 34300 }, { "epoch": 2.748, "grad_norm": 0.09403648972511292, "learning_rate": 4.214666666666667e-05, "loss": 6.1252, "step": 34350 }, { "epoch": 2.752, "grad_norm": 0.06880457699298859, "learning_rate": 4.148e-05, "loss": 6.103, "step": 34400 }, { "epoch": 2.7560000000000002, "grad_norm": 0.06404279917478561, "learning_rate": 4.081333333333333e-05, "loss": 6.1071, "step": 34450 }, { "epoch": 2.76, "grad_norm": 0.1886167824268341, "learning_rate": 4.0146666666666666e-05, "loss": 6.067, "step": 34500 }, { "epoch": 2.7640000000000002, "grad_norm": 0.07165507972240448, "learning_rate": 3.948e-05, "loss": 6.0719, "step": 34550 }, { "epoch": 2.768, "grad_norm": 0.17293329536914825, "learning_rate": 3.881333333333333e-05, "loss": 6.0809, "step": 34600 }, { "epoch": 2.7720000000000002, "grad_norm": 0.08776883780956268, "learning_rate": 3.814666666666667e-05, "loss": 6.0828, "step": 34650 }, { "epoch": 2.776, "grad_norm": 0.06219394877552986, "learning_rate": 3.748e-05, "loss": 6.1143, "step": 34700 }, { "epoch": 2.7800000000000002, "grad_norm": 0.08292591571807861, "learning_rate": 3.6813333333333335e-05, "loss": 6.1062, "step": 34750 }, { "epoch": 2.784, "grad_norm": 0.12897174060344696, "learning_rate": 3.614666666666667e-05, "loss": 6.0834, "step": 34800 }, { "epoch": 2.7880000000000003, "grad_norm": 0.09318045526742935, "learning_rate": 3.548e-05, "loss": 6.0766, "step": 34850 }, { "epoch": 2.792, "grad_norm": 0.07209254801273346, "learning_rate": 3.4813333333333334e-05, "loss": 6.0988, "step": 34900 }, { "epoch": 2.7960000000000003, "grad_norm": 0.12821726500988007, "learning_rate": 3.414666666666667e-05, "loss": 6.094, "step": 34950 }, { "epoch": 2.8, "grad_norm": 0.08938471227884293, "learning_rate": 3.3480000000000005e-05, "loss": 6.1024, "step": 35000 }, { "epoch": 2.8040000000000003, "grad_norm": 0.0786670669913292, "learning_rate": 3.281333333333333e-05, "loss": 6.0899, "step": 35050 }, { "epoch": 2.808, "grad_norm": 0.12582920491695404, "learning_rate": 3.214666666666666e-05, "loss": 6.1163, "step": 35100 }, { "epoch": 2.8120000000000003, "grad_norm": 0.06805536895990372, "learning_rate": 3.1480000000000004e-05, "loss": 6.1177, "step": 35150 }, { "epoch": 2.816, "grad_norm": 0.07569673657417297, "learning_rate": 3.081333333333334e-05, "loss": 6.1493, "step": 35200 }, { "epoch": 2.82, "grad_norm": 0.07342411577701569, "learning_rate": 3.0146666666666667e-05, "loss": 6.1092, "step": 35250 }, { "epoch": 2.824, "grad_norm": 0.06788337230682373, "learning_rate": 2.948e-05, "loss": 6.1203, "step": 35300 }, { "epoch": 2.828, "grad_norm": 0.0648500993847847, "learning_rate": 2.8813333333333334e-05, "loss": 6.0812, "step": 35350 }, { "epoch": 2.832, "grad_norm": 0.08181692659854889, "learning_rate": 2.8146666666666666e-05, "loss": 6.0981, "step": 35400 }, { "epoch": 2.836, "grad_norm": 0.09622698277235031, "learning_rate": 2.748e-05, "loss": 6.1404, "step": 35450 }, { "epoch": 2.84, "grad_norm": 0.06704587489366531, "learning_rate": 2.6813333333333336e-05, "loss": 6.0896, "step": 35500 }, { "epoch": 2.844, "grad_norm": 0.07015310227870941, "learning_rate": 2.6146666666666665e-05, "loss": 6.0787, "step": 35550 }, { "epoch": 2.848, "grad_norm": 0.06250675767660141, "learning_rate": 2.548e-05, "loss": 6.1012, "step": 35600 }, { "epoch": 2.852, "grad_norm": 0.061473552137613297, "learning_rate": 2.4813333333333335e-05, "loss": 6.1574, "step": 35650 }, { "epoch": 2.856, "grad_norm": 0.07046835124492645, "learning_rate": 2.4146666666666667e-05, "loss": 6.1039, "step": 35700 }, { "epoch": 2.86, "grad_norm": 0.07397124916315079, "learning_rate": 2.3480000000000002e-05, "loss": 6.0951, "step": 35750 }, { "epoch": 2.864, "grad_norm": 0.06990958750247955, "learning_rate": 2.2813333333333334e-05, "loss": 6.1001, "step": 35800 }, { "epoch": 2.868, "grad_norm": 0.14781086146831512, "learning_rate": 2.2146666666666666e-05, "loss": 6.0852, "step": 35850 }, { "epoch": 2.872, "grad_norm": 0.09086581319570541, "learning_rate": 2.148e-05, "loss": 6.1311, "step": 35900 }, { "epoch": 2.876, "grad_norm": 0.08399491757154465, "learning_rate": 2.0813333333333333e-05, "loss": 6.1073, "step": 35950 }, { "epoch": 2.88, "grad_norm": 0.08457895368337631, "learning_rate": 2.0146666666666668e-05, "loss": 6.0934, "step": 36000 }, { "epoch": 2.884, "grad_norm": 0.06923606246709824, "learning_rate": 1.948e-05, "loss": 6.0715, "step": 36050 }, { "epoch": 2.888, "grad_norm": 0.0770353376865387, "learning_rate": 1.8813333333333335e-05, "loss": 6.0933, "step": 36100 }, { "epoch": 2.892, "grad_norm": 0.08924037218093872, "learning_rate": 1.8146666666666667e-05, "loss": 6.0864, "step": 36150 }, { "epoch": 2.896, "grad_norm": 0.08295569568872452, "learning_rate": 1.748e-05, "loss": 6.0638, "step": 36200 }, { "epoch": 2.9, "grad_norm": 0.08716677129268646, "learning_rate": 1.6813333333333334e-05, "loss": 6.1284, "step": 36250 }, { "epoch": 2.904, "grad_norm": 0.12717968225479126, "learning_rate": 1.6146666666666666e-05, "loss": 6.0634, "step": 36300 }, { "epoch": 2.908, "grad_norm": 0.14150169491767883, "learning_rate": 1.548e-05, "loss": 6.1062, "step": 36350 }, { "epoch": 2.912, "grad_norm": 0.095510333776474, "learning_rate": 1.4813333333333333e-05, "loss": 6.0999, "step": 36400 }, { "epoch": 2.916, "grad_norm": 0.08372308313846588, "learning_rate": 1.4146666666666668e-05, "loss": 6.1099, "step": 36450 }, { "epoch": 2.92, "grad_norm": 0.06636666506528854, "learning_rate": 1.3480000000000001e-05, "loss": 6.1131, "step": 36500 }, { "epoch": 2.924, "grad_norm": 0.09127132594585419, "learning_rate": 1.2813333333333333e-05, "loss": 6.0882, "step": 36550 }, { "epoch": 2.928, "grad_norm": 0.11464403569698334, "learning_rate": 1.2146666666666667e-05, "loss": 6.0769, "step": 36600 }, { "epoch": 2.932, "grad_norm": 0.06963608413934708, "learning_rate": 1.148e-05, "loss": 6.0958, "step": 36650 }, { "epoch": 2.936, "grad_norm": 0.08850817382335663, "learning_rate": 1.0813333333333334e-05, "loss": 6.0707, "step": 36700 }, { "epoch": 2.94, "grad_norm": 0.07375598698854446, "learning_rate": 1.0146666666666667e-05, "loss": 6.134, "step": 36750 }, { "epoch": 2.944, "grad_norm": 0.08516935259103775, "learning_rate": 9.48e-06, "loss": 6.1216, "step": 36800 }, { "epoch": 2.948, "grad_norm": 0.084303118288517, "learning_rate": 8.813333333333333e-06, "loss": 6.1148, "step": 36850 }, { "epoch": 2.952, "grad_norm": 0.12434280663728714, "learning_rate": 8.146666666666666e-06, "loss": 6.0726, "step": 36900 }, { "epoch": 2.956, "grad_norm": 0.08239120244979858, "learning_rate": 7.4799999999999995e-06, "loss": 6.1008, "step": 36950 }, { "epoch": 2.96, "grad_norm": 0.12123430520296097, "learning_rate": 6.813333333333334e-06, "loss": 6.108, "step": 37000 }, { "epoch": 2.964, "grad_norm": 0.15117216110229492, "learning_rate": 6.1466666666666665e-06, "loss": 6.1069, "step": 37050 }, { "epoch": 2.968, "grad_norm": 0.05890851095318794, "learning_rate": 5.48e-06, "loss": 6.129, "step": 37100 }, { "epoch": 2.972, "grad_norm": 0.0838841125369072, "learning_rate": 4.8133333333333336e-06, "loss": 6.1286, "step": 37150 }, { "epoch": 2.976, "grad_norm": 0.11125333607196808, "learning_rate": 4.146666666666667e-06, "loss": 6.108, "step": 37200 }, { "epoch": 2.98, "grad_norm": 0.0779728814959526, "learning_rate": 3.48e-06, "loss": 6.1046, "step": 37250 }, { "epoch": 2.984, "grad_norm": 0.07073057442903519, "learning_rate": 2.8133333333333336e-06, "loss": 6.1383, "step": 37300 }, { "epoch": 2.988, "grad_norm": 0.08153237402439117, "learning_rate": 2.1466666666666667e-06, "loss": 6.1381, "step": 37350 }, { "epoch": 2.992, "grad_norm": 0.09573067724704742, "learning_rate": 1.48e-06, "loss": 6.111, "step": 37400 }, { "epoch": 2.996, "grad_norm": 0.0864591971039772, "learning_rate": 8.133333333333333e-07, "loss": 6.1478, "step": 37450 }, { "epoch": 3.0, "grad_norm": 0.06814241409301758, "learning_rate": 1.4666666666666666e-07, "loss": 6.1176, "step": 37500 }, { "epoch": 3.0, "eval_bleu": 0.8610222954578596, "eval_cer": 0.01629510479286783, "eval_f1": 0.9352486545111312, "eval_loss": 6.10477352142334, "eval_meteor": 0.9277142589604939, "eval_runtime": 536.8624, "eval_samples_per_second": 9.313, "eval_steps_per_second": 0.292, "eval_wer": 0.07572098963732456, "step": 37500 }, { "epoch": 3.0, "step": 37500, "total_flos": 6.544751264205373e+17, "train_loss": 6.123435387369792, "train_runtime": 6232.44, "train_samples_per_second": 192.54, "train_steps_per_second": 6.017 } ], "logging_steps": 50, "max_steps": 37500, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 6.544751264205373e+17, "train_batch_size": 32, "trial_name": null, "trial_params": null }