diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,24139 @@ +{ + "best_metric": 0.05436472678809418, + "best_model_checkpoint": "./24_09_17_EssoinsMiddleLatin_TrOCR_Train_Finetune_tridis_20ep/checkpoint-6800", + "epoch": 14.166666666666666, + "eval_steps": 200, + "global_step": 6800, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.004166666666666667, + "grad_norm": 5.112361907958984, + "learning_rate": 4.9989583333333337e-05, + "loss": 3.1071, + "step": 2 + }, + { + "epoch": 0.008333333333333333, + "grad_norm": 4.407574653625488, + "learning_rate": 4.997916666666667e-05, + "loss": 2.8131, + "step": 4 + }, + { + "epoch": 0.0125, + "grad_norm": 4.818628787994385, + "learning_rate": 4.9968750000000005e-05, + "loss": 2.3596, + "step": 6 + }, + { + "epoch": 0.016666666666666666, + "grad_norm": 4.321988582611084, + "learning_rate": 4.995833333333333e-05, + "loss": 2.4813, + "step": 8 + }, + { + "epoch": 0.020833333333333332, + "grad_norm": NaN, + "learning_rate": 4.9953125e-05, + "loss": 2.0627, + "step": 10 + }, + { + "epoch": 0.025, + "grad_norm": 3.938622236251831, + "learning_rate": 4.994270833333334e-05, + "loss": 2.0377, + "step": 12 + }, + { + "epoch": 0.029166666666666667, + "grad_norm": 4.561797142028809, + "learning_rate": 4.993229166666667e-05, + "loss": 1.9861, + "step": 14 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 4.408071041107178, + "learning_rate": 4.9921875e-05, + "loss": 1.7539, + "step": 16 + }, + { + "epoch": 0.0375, + "grad_norm": 3.5562212467193604, + "learning_rate": 4.991145833333333e-05, + "loss": 1.7244, + "step": 18 + }, + { + "epoch": 0.041666666666666664, + "grad_norm": 3.789137363433838, + "learning_rate": 4.990104166666667e-05, + "loss": 1.7632, + "step": 20 + }, + { + "epoch": 0.04583333333333333, + "grad_norm": 3.2391557693481445, + "learning_rate": 4.9890625e-05, + "loss": 1.4738, + "step": 22 + }, + { + "epoch": 0.05, + "grad_norm": 3.938535451889038, + "learning_rate": 4.9880208333333336e-05, + "loss": 1.4248, + "step": 24 + }, + { + "epoch": 0.05416666666666667, + "grad_norm": 4.805032730102539, + "learning_rate": 4.986979166666667e-05, + "loss": 1.4837, + "step": 26 + }, + { + "epoch": 0.058333333333333334, + "grad_norm": 4.043247222900391, + "learning_rate": 4.9859375000000004e-05, + "loss": 1.4663, + "step": 28 + }, + { + "epoch": 0.0625, + "grad_norm": 11.264861106872559, + "learning_rate": 4.984895833333333e-05, + "loss": 1.3355, + "step": 30 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 5.918957710266113, + "learning_rate": 4.983854166666667e-05, + "loss": 1.2613, + "step": 32 + }, + { + "epoch": 0.07083333333333333, + "grad_norm": 4.673120021820068, + "learning_rate": 4.9828125e-05, + "loss": 1.5644, + "step": 34 + }, + { + "epoch": 0.075, + "grad_norm": 3.533724784851074, + "learning_rate": 4.9817708333333334e-05, + "loss": 1.4822, + "step": 36 + }, + { + "epoch": 0.07916666666666666, + "grad_norm": 4.447568893432617, + "learning_rate": 4.980729166666667e-05, + "loss": 1.2299, + "step": 38 + }, + { + "epoch": 0.08333333333333333, + "grad_norm": 3.6791043281555176, + "learning_rate": 4.9796875e-05, + "loss": 1.2663, + "step": 40 + }, + { + "epoch": 0.0875, + "grad_norm": 3.7868714332580566, + "learning_rate": 4.978645833333334e-05, + "loss": 1.4544, + "step": 42 + }, + { + "epoch": 0.09166666666666666, + "grad_norm": 3.649379014968872, + "learning_rate": 4.9776041666666664e-05, + "loss": 1.2708, + "step": 44 + }, + { + "epoch": 0.09583333333333334, + "grad_norm": 2.885256767272949, + "learning_rate": 4.9765625000000005e-05, + "loss": 1.2198, + "step": 46 + }, + { + "epoch": 0.1, + "grad_norm": 3.3596487045288086, + "learning_rate": 4.975520833333334e-05, + "loss": 1.2368, + "step": 48 + }, + { + "epoch": 0.10416666666666667, + "grad_norm": 5.011239528656006, + "learning_rate": 4.974479166666667e-05, + "loss": 1.2945, + "step": 50 + }, + { + "epoch": 0.10833333333333334, + "grad_norm": 3.252258777618408, + "learning_rate": 4.9734375e-05, + "loss": 1.2538, + "step": 52 + }, + { + "epoch": 0.1125, + "grad_norm": 2.80674147605896, + "learning_rate": 4.9723958333333335e-05, + "loss": 1.045, + "step": 54 + }, + { + "epoch": 0.11666666666666667, + "grad_norm": 3.1947240829467773, + "learning_rate": 4.971354166666667e-05, + "loss": 1.3513, + "step": 56 + }, + { + "epoch": 0.12083333333333333, + "grad_norm": 3.147346019744873, + "learning_rate": 4.9703125000000004e-05, + "loss": 1.0044, + "step": 58 + }, + { + "epoch": 0.125, + "grad_norm": 3.3250699043273926, + "learning_rate": 4.969270833333334e-05, + "loss": 1.1739, + "step": 60 + }, + { + "epoch": 0.12916666666666668, + "grad_norm": 3.7369728088378906, + "learning_rate": 4.968229166666667e-05, + "loss": 1.2579, + "step": 62 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 7.632898807525635, + "learning_rate": 4.9671875e-05, + "loss": 1.2123, + "step": 64 + }, + { + "epoch": 0.1375, + "grad_norm": 3.5719902515411377, + "learning_rate": 4.966145833333334e-05, + "loss": 1.2028, + "step": 66 + }, + { + "epoch": 0.14166666666666666, + "grad_norm": 3.2859408855438232, + "learning_rate": 4.965104166666667e-05, + "loss": 1.2534, + "step": 68 + }, + { + "epoch": 0.14583333333333334, + "grad_norm": 3.4118475914001465, + "learning_rate": 4.9640625e-05, + "loss": 1.2649, + "step": 70 + }, + { + "epoch": 0.15, + "grad_norm": 3.30642032623291, + "learning_rate": 4.9630208333333336e-05, + "loss": 1.1452, + "step": 72 + }, + { + "epoch": 0.15416666666666667, + "grad_norm": 4.308955192565918, + "learning_rate": 4.961979166666667e-05, + "loss": 1.1277, + "step": 74 + }, + { + "epoch": 0.15833333333333333, + "grad_norm": 3.0900819301605225, + "learning_rate": 4.9609375000000005e-05, + "loss": 0.9993, + "step": 76 + }, + { + "epoch": 0.1625, + "grad_norm": 3.44604229927063, + "learning_rate": 4.959895833333333e-05, + "loss": 1.0386, + "step": 78 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 3.483630895614624, + "learning_rate": 4.958854166666667e-05, + "loss": 0.9016, + "step": 80 + }, + { + "epoch": 0.17083333333333334, + "grad_norm": 3.600273847579956, + "learning_rate": 4.9578125e-05, + "loss": 1.1374, + "step": 82 + }, + { + "epoch": 0.175, + "grad_norm": 3.3964877128601074, + "learning_rate": 4.9567708333333335e-05, + "loss": 1.0936, + "step": 84 + }, + { + "epoch": 0.17916666666666667, + "grad_norm": 3.1552116870880127, + "learning_rate": 4.955729166666667e-05, + "loss": 0.971, + "step": 86 + }, + { + "epoch": 0.18333333333333332, + "grad_norm": 3.035581588745117, + "learning_rate": 4.9546875e-05, + "loss": 1.0123, + "step": 88 + }, + { + "epoch": 0.1875, + "grad_norm": 3.044188976287842, + "learning_rate": 4.953645833333334e-05, + "loss": 1.0817, + "step": 90 + }, + { + "epoch": 0.19166666666666668, + "grad_norm": 3.6317687034606934, + "learning_rate": 4.9526041666666665e-05, + "loss": 0.9335, + "step": 92 + }, + { + "epoch": 0.19583333333333333, + "grad_norm": 3.492680072784424, + "learning_rate": 4.9515625000000006e-05, + "loss": 0.9836, + "step": 94 + }, + { + "epoch": 0.2, + "grad_norm": 3.0570051670074463, + "learning_rate": 4.950520833333333e-05, + "loss": 1.0114, + "step": 96 + }, + { + "epoch": 0.20416666666666666, + "grad_norm": 3.0146679878234863, + "learning_rate": 4.949479166666667e-05, + "loss": 0.9607, + "step": 98 + }, + { + "epoch": 0.20833333333333334, + "grad_norm": 3.170430898666382, + "learning_rate": 4.9484375e-05, + "loss": 1.0559, + "step": 100 + }, + { + "epoch": 0.2125, + "grad_norm": 3.1467041969299316, + "learning_rate": 4.9473958333333336e-05, + "loss": 0.8964, + "step": 102 + }, + { + "epoch": 0.21666666666666667, + "grad_norm": 2.5623059272766113, + "learning_rate": 4.946354166666667e-05, + "loss": 0.9, + "step": 104 + }, + { + "epoch": 0.22083333333333333, + "grad_norm": 2.9126880168914795, + "learning_rate": 4.9453125e-05, + "loss": 0.9411, + "step": 106 + }, + { + "epoch": 0.225, + "grad_norm": 7.136896133422852, + "learning_rate": 4.944270833333334e-05, + "loss": 0.9259, + "step": 108 + }, + { + "epoch": 0.22916666666666666, + "grad_norm": 3.6453118324279785, + "learning_rate": 4.9432291666666666e-05, + "loss": 1.0458, + "step": 110 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 6.460753917694092, + "learning_rate": 4.9421875e-05, + "loss": 0.915, + "step": 112 + }, + { + "epoch": 0.2375, + "grad_norm": 3.1668453216552734, + "learning_rate": 4.941145833333334e-05, + "loss": 0.779, + "step": 114 + }, + { + "epoch": 0.24166666666666667, + "grad_norm": 4.2421555519104, + "learning_rate": 4.940104166666667e-05, + "loss": 0.9467, + "step": 116 + }, + { + "epoch": 0.24583333333333332, + "grad_norm": 3.679363250732422, + "learning_rate": 4.9390625e-05, + "loss": 0.9196, + "step": 118 + }, + { + "epoch": 0.25, + "grad_norm": 2.527803659439087, + "learning_rate": 4.9385416666666667e-05, + "loss": 0.7454, + "step": 120 + }, + { + "epoch": 0.25416666666666665, + "grad_norm": 3.2346925735473633, + "learning_rate": 4.937500000000001e-05, + "loss": 1.0042, + "step": 122 + }, + { + "epoch": 0.25833333333333336, + "grad_norm": 8.207110404968262, + "learning_rate": 4.9364583333333335e-05, + "loss": 0.8863, + "step": 124 + }, + { + "epoch": 0.2625, + "grad_norm": 3.4820799827575684, + "learning_rate": 4.935416666666667e-05, + "loss": 0.8367, + "step": 126 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 3.702939510345459, + "learning_rate": 4.9343749999999997e-05, + "loss": 0.8963, + "step": 128 + }, + { + "epoch": 0.2708333333333333, + "grad_norm": 2.524177074432373, + "learning_rate": 4.933333333333334e-05, + "loss": 0.8787, + "step": 130 + }, + { + "epoch": 0.275, + "grad_norm": 2.7944350242614746, + "learning_rate": 4.932291666666667e-05, + "loss": 0.8967, + "step": 132 + }, + { + "epoch": 0.2791666666666667, + "grad_norm": 2.6907758712768555, + "learning_rate": 4.93125e-05, + "loss": 0.8143, + "step": 134 + }, + { + "epoch": 0.2833333333333333, + "grad_norm": 3.945380210876465, + "learning_rate": 4.930208333333334e-05, + "loss": 0.8831, + "step": 136 + }, + { + "epoch": 0.2875, + "grad_norm": 3.2358367443084717, + "learning_rate": 4.929166666666667e-05, + "loss": 0.9435, + "step": 138 + }, + { + "epoch": 0.2916666666666667, + "grad_norm": 2.374941825866699, + "learning_rate": 4.928125e-05, + "loss": 0.7478, + "step": 140 + }, + { + "epoch": 0.29583333333333334, + "grad_norm": 2.7203528881073, + "learning_rate": 4.9270833333333336e-05, + "loss": 0.8879, + "step": 142 + }, + { + "epoch": 0.3, + "grad_norm": 3.3004331588745117, + "learning_rate": 4.926041666666667e-05, + "loss": 0.9876, + "step": 144 + }, + { + "epoch": 0.30416666666666664, + "grad_norm": 3.2646729946136475, + "learning_rate": 4.9250000000000004e-05, + "loss": 1.043, + "step": 146 + }, + { + "epoch": 0.30833333333333335, + "grad_norm": 3.160405397415161, + "learning_rate": 4.923958333333333e-05, + "loss": 1.0144, + "step": 148 + }, + { + "epoch": 0.3125, + "grad_norm": 2.896063804626465, + "learning_rate": 4.922916666666667e-05, + "loss": 0.8286, + "step": 150 + }, + { + "epoch": 0.31666666666666665, + "grad_norm": 2.768953800201416, + "learning_rate": 4.921875e-05, + "loss": 0.8223, + "step": 152 + }, + { + "epoch": 0.32083333333333336, + "grad_norm": 3.6491446495056152, + "learning_rate": 4.9208333333333335e-05, + "loss": 0.8548, + "step": 154 + }, + { + "epoch": 0.325, + "grad_norm": 3.9649956226348877, + "learning_rate": 4.919791666666667e-05, + "loss": 0.7698, + "step": 156 + }, + { + "epoch": 0.32916666666666666, + "grad_norm": 3.8073322772979736, + "learning_rate": 4.91875e-05, + "loss": 0.8996, + "step": 158 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 3.047462224960327, + "learning_rate": 4.917708333333334e-05, + "loss": 0.9273, + "step": 160 + }, + { + "epoch": 0.3375, + "grad_norm": 3.739633560180664, + "learning_rate": 4.9166666666666665e-05, + "loss": 0.7764, + "step": 162 + }, + { + "epoch": 0.3416666666666667, + "grad_norm": 3.313039779663086, + "learning_rate": 4.9156250000000006e-05, + "loss": 0.9243, + "step": 164 + }, + { + "epoch": 0.3458333333333333, + "grad_norm": 3.1215579509735107, + "learning_rate": 4.914583333333333e-05, + "loss": 0.9713, + "step": 166 + }, + { + "epoch": 0.35, + "grad_norm": 3.802015781402588, + "learning_rate": 4.913541666666667e-05, + "loss": 0.9388, + "step": 168 + }, + { + "epoch": 0.3541666666666667, + "grad_norm": 3.1684367656707764, + "learning_rate": 4.9125e-05, + "loss": 0.8389, + "step": 170 + }, + { + "epoch": 0.35833333333333334, + "grad_norm": 2.5037014484405518, + "learning_rate": 4.9114583333333336e-05, + "loss": 0.8185, + "step": 172 + }, + { + "epoch": 0.3625, + "grad_norm": 2.822728157043457, + "learning_rate": 4.910416666666667e-05, + "loss": 0.742, + "step": 174 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 2.92507004737854, + "learning_rate": 4.9093750000000004e-05, + "loss": 0.7207, + "step": 176 + }, + { + "epoch": 0.37083333333333335, + "grad_norm": 3.336268424987793, + "learning_rate": 4.908333333333334e-05, + "loss": 0.8428, + "step": 178 + }, + { + "epoch": 0.375, + "grad_norm": 2.877465009689331, + "learning_rate": 4.9072916666666666e-05, + "loss": 0.7879, + "step": 180 + }, + { + "epoch": 0.37916666666666665, + "grad_norm": 2.5704216957092285, + "learning_rate": 4.90625e-05, + "loss": 0.7791, + "step": 182 + }, + { + "epoch": 0.38333333333333336, + "grad_norm": 2.906529426574707, + "learning_rate": 4.9052083333333334e-05, + "loss": 0.842, + "step": 184 + }, + { + "epoch": 0.3875, + "grad_norm": 3.226080894470215, + "learning_rate": 4.904166666666667e-05, + "loss": 0.8281, + "step": 186 + }, + { + "epoch": 0.39166666666666666, + "grad_norm": 5.942956447601318, + "learning_rate": 4.903125e-05, + "loss": 0.8732, + "step": 188 + }, + { + "epoch": 0.3958333333333333, + "grad_norm": 3.108654737472534, + "learning_rate": 4.902083333333334e-05, + "loss": 0.754, + "step": 190 + }, + { + "epoch": 0.4, + "grad_norm": 2.738445520401001, + "learning_rate": 4.901041666666667e-05, + "loss": 0.7242, + "step": 192 + }, + { + "epoch": 0.4041666666666667, + "grad_norm": 2.307344913482666, + "learning_rate": 4.9e-05, + "loss": 0.7075, + "step": 194 + }, + { + "epoch": 0.4083333333333333, + "grad_norm": 3.3373115062713623, + "learning_rate": 4.898958333333333e-05, + "loss": 0.679, + "step": 196 + }, + { + "epoch": 0.4125, + "grad_norm": 2.6032283306121826, + "learning_rate": 4.8979166666666674e-05, + "loss": 0.7141, + "step": 198 + }, + { + "epoch": 0.4166666666666667, + "grad_norm": 3.114651918411255, + "learning_rate": 4.897395833333334e-05, + "loss": 0.736, + "step": 200 + }, + { + "epoch": 0.4166666666666667, + "eval_cer": 0.11464349178143048, + "eval_loss": 0.6773141622543335, + "eval_runtime": 76.484, + "eval_samples_per_second": 5.151, + "eval_steps_per_second": 0.654, + "step": 200 + }, + { + "epoch": 0.42083333333333334, + "grad_norm": 2.6965818405151367, + "learning_rate": 4.8963541666666665e-05, + "loss": 0.7735, + "step": 202 + }, + { + "epoch": 0.425, + "grad_norm": 5.383996963500977, + "learning_rate": 4.8953125e-05, + "loss": 0.8513, + "step": 204 + }, + { + "epoch": 0.42916666666666664, + "grad_norm": 2.2922441959381104, + "learning_rate": 4.894270833333334e-05, + "loss": 0.7071, + "step": 206 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 2.4022023677825928, + "learning_rate": 4.893229166666667e-05, + "loss": 0.704, + "step": 208 + }, + { + "epoch": 0.4375, + "grad_norm": 4.224945068359375, + "learning_rate": 4.8921875e-05, + "loss": 0.8169, + "step": 210 + }, + { + "epoch": 0.44166666666666665, + "grad_norm": 2.8267786502838135, + "learning_rate": 4.8911458333333336e-05, + "loss": 0.7349, + "step": 212 + }, + { + "epoch": 0.44583333333333336, + "grad_norm": 3.093989372253418, + "learning_rate": 4.890104166666667e-05, + "loss": 0.7291, + "step": 214 + }, + { + "epoch": 0.45, + "grad_norm": 3.0179879665374756, + "learning_rate": 4.8890625000000004e-05, + "loss": 0.7535, + "step": 216 + }, + { + "epoch": 0.45416666666666666, + "grad_norm": 2.626603364944458, + "learning_rate": 4.888020833333334e-05, + "loss": 0.7958, + "step": 218 + }, + { + "epoch": 0.4583333333333333, + "grad_norm": 4.175904750823975, + "learning_rate": 4.886979166666667e-05, + "loss": 0.7136, + "step": 220 + }, + { + "epoch": 0.4625, + "grad_norm": 4.473461627960205, + "learning_rate": 4.8859375e-05, + "loss": 0.7997, + "step": 222 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 4.888570308685303, + "learning_rate": 4.8848958333333334e-05, + "loss": 0.7408, + "step": 224 + }, + { + "epoch": 0.4708333333333333, + "grad_norm": 4.093039035797119, + "learning_rate": 4.883854166666667e-05, + "loss": 0.7771, + "step": 226 + }, + { + "epoch": 0.475, + "grad_norm": 4.385845184326172, + "learning_rate": 4.8828125e-05, + "loss": 0.6492, + "step": 228 + }, + { + "epoch": 0.4791666666666667, + "grad_norm": 4.987430095672607, + "learning_rate": 4.881770833333334e-05, + "loss": 0.6919, + "step": 230 + }, + { + "epoch": 0.48333333333333334, + "grad_norm": 4.257561683654785, + "learning_rate": 4.880729166666667e-05, + "loss": 0.8171, + "step": 232 + }, + { + "epoch": 0.4875, + "grad_norm": 3.5636675357818604, + "learning_rate": 4.8796875000000005e-05, + "loss": 0.744, + "step": 234 + }, + { + "epoch": 0.49166666666666664, + "grad_norm": 3.1031410694122314, + "learning_rate": 4.878645833333333e-05, + "loss": 0.6529, + "step": 236 + }, + { + "epoch": 0.49583333333333335, + "grad_norm": 3.8696632385253906, + "learning_rate": 4.877604166666667e-05, + "loss": 0.8489, + "step": 238 + }, + { + "epoch": 0.5, + "grad_norm": 3.0343689918518066, + "learning_rate": 4.8765625e-05, + "loss": 0.6892, + "step": 240 + }, + { + "epoch": 0.5041666666666667, + "grad_norm": 3.79654598236084, + "learning_rate": 4.8755208333333335e-05, + "loss": 0.6512, + "step": 242 + }, + { + "epoch": 0.5083333333333333, + "grad_norm": 21.42628288269043, + "learning_rate": 4.874479166666667e-05, + "loss": 0.6444, + "step": 244 + }, + { + "epoch": 0.5125, + "grad_norm": 5.5014238357543945, + "learning_rate": 4.8734375000000004e-05, + "loss": 0.7238, + "step": 246 + }, + { + "epoch": 0.5166666666666667, + "grad_norm": 2.971254348754883, + "learning_rate": 4.872395833333334e-05, + "loss": 0.7318, + "step": 248 + }, + { + "epoch": 0.5208333333333334, + "grad_norm": 6.096756458282471, + "learning_rate": 4.8713541666666665e-05, + "loss": 0.6852, + "step": 250 + }, + { + "epoch": 0.525, + "grad_norm": 4.7269744873046875, + "learning_rate": 4.8703125000000006e-05, + "loss": 0.6783, + "step": 252 + }, + { + "epoch": 0.5291666666666667, + "grad_norm": 2.5058603286743164, + "learning_rate": 4.8692708333333334e-05, + "loss": 0.7257, + "step": 254 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 4.296134948730469, + "learning_rate": 4.868229166666667e-05, + "loss": 0.7538, + "step": 256 + }, + { + "epoch": 0.5375, + "grad_norm": 2.5677266120910645, + "learning_rate": 4.8671875e-05, + "loss": 0.6458, + "step": 258 + }, + { + "epoch": 0.5416666666666666, + "grad_norm": 2.5237128734588623, + "learning_rate": 4.8661458333333337e-05, + "loss": 0.6232, + "step": 260 + }, + { + "epoch": 0.5458333333333333, + "grad_norm": 3.195829153060913, + "learning_rate": 4.865104166666667e-05, + "loss": 0.8124, + "step": 262 + }, + { + "epoch": 0.55, + "grad_norm": 7.50528621673584, + "learning_rate": 4.8640625e-05, + "loss": 0.5874, + "step": 264 + }, + { + "epoch": 0.5541666666666667, + "grad_norm": 5.110229015350342, + "learning_rate": 4.863020833333334e-05, + "loss": 0.5614, + "step": 266 + }, + { + "epoch": 0.5583333333333333, + "grad_norm": 3.3996708393096924, + "learning_rate": 4.8619791666666667e-05, + "loss": 0.6543, + "step": 268 + }, + { + "epoch": 0.5625, + "grad_norm": 3.2448389530181885, + "learning_rate": 4.8609375e-05, + "loss": 0.7292, + "step": 270 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 2.2041819095611572, + "learning_rate": 4.8598958333333335e-05, + "loss": 0.6697, + "step": 272 + }, + { + "epoch": 0.5708333333333333, + "grad_norm": 3.5907139778137207, + "learning_rate": 4.858854166666667e-05, + "loss": 0.6809, + "step": 274 + }, + { + "epoch": 0.575, + "grad_norm": 4.802801609039307, + "learning_rate": 4.8578125000000003e-05, + "loss": 0.7459, + "step": 276 + }, + { + "epoch": 0.5791666666666667, + "grad_norm": 2.749701738357544, + "learning_rate": 4.856770833333333e-05, + "loss": 0.6805, + "step": 278 + }, + { + "epoch": 0.5833333333333334, + "grad_norm": 4.940402030944824, + "learning_rate": 4.855729166666667e-05, + "loss": 0.7406, + "step": 280 + }, + { + "epoch": 0.5875, + "grad_norm": 5.679503917694092, + "learning_rate": 4.8546875000000006e-05, + "loss": 0.6684, + "step": 282 + }, + { + "epoch": 0.5916666666666667, + "grad_norm": 2.823293924331665, + "learning_rate": 4.8536458333333333e-05, + "loss": 0.629, + "step": 284 + }, + { + "epoch": 0.5958333333333333, + "grad_norm": 2.693312168121338, + "learning_rate": 4.8526041666666674e-05, + "loss": 0.7329, + "step": 286 + }, + { + "epoch": 0.6, + "grad_norm": 5.283657073974609, + "learning_rate": 4.8515625e-05, + "loss": 0.6853, + "step": 288 + }, + { + "epoch": 0.6041666666666666, + "grad_norm": 2.5866312980651855, + "learning_rate": 4.8505208333333336e-05, + "loss": 0.7752, + "step": 290 + }, + { + "epoch": 0.6083333333333333, + "grad_norm": 2.1295642852783203, + "learning_rate": 4.8494791666666664e-05, + "loss": 0.6413, + "step": 292 + }, + { + "epoch": 0.6125, + "grad_norm": 2.439286708831787, + "learning_rate": 4.8484375000000005e-05, + "loss": 0.6285, + "step": 294 + }, + { + "epoch": 0.6166666666666667, + "grad_norm": 3.045799970626831, + "learning_rate": 4.847395833333334e-05, + "loss": 0.705, + "step": 296 + }, + { + "epoch": 0.6208333333333333, + "grad_norm": 2.4165821075439453, + "learning_rate": 4.8463541666666666e-05, + "loss": 0.6848, + "step": 298 + }, + { + "epoch": 0.625, + "grad_norm": 3.3265442848205566, + "learning_rate": 4.845312500000001e-05, + "loss": 0.6707, + "step": 300 + }, + { + "epoch": 0.6291666666666667, + "grad_norm": 8.924571990966797, + "learning_rate": 4.8442708333333335e-05, + "loss": 0.6566, + "step": 302 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 2.821265459060669, + "learning_rate": 4.843229166666667e-05, + "loss": 0.5713, + "step": 304 + }, + { + "epoch": 0.6375, + "grad_norm": 2.288290500640869, + "learning_rate": 4.8421875e-05, + "loss": 0.6933, + "step": 306 + }, + { + "epoch": 0.6416666666666667, + "grad_norm": 3.1010234355926514, + "learning_rate": 4.841145833333334e-05, + "loss": 0.7488, + "step": 308 + }, + { + "epoch": 0.6458333333333334, + "grad_norm": 4.694073677062988, + "learning_rate": 4.840104166666667e-05, + "loss": 0.7272, + "step": 310 + }, + { + "epoch": 0.65, + "grad_norm": 2.572277545928955, + "learning_rate": 4.8390625e-05, + "loss": 0.5334, + "step": 312 + }, + { + "epoch": 0.6541666666666667, + "grad_norm": 4.964011192321777, + "learning_rate": 4.838020833333334e-05, + "loss": 0.7159, + "step": 314 + }, + { + "epoch": 0.6583333333333333, + "grad_norm": 3.211191415786743, + "learning_rate": 4.836979166666667e-05, + "loss": 0.8156, + "step": 316 + }, + { + "epoch": 0.6625, + "grad_norm": 2.606780767440796, + "learning_rate": 4.8359375e-05, + "loss": 0.7053, + "step": 318 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 3.849229335784912, + "learning_rate": 4.8348958333333336e-05, + "loss": 0.7042, + "step": 320 + }, + { + "epoch": 0.6708333333333333, + "grad_norm": 3.1699249744415283, + "learning_rate": 4.833854166666667e-05, + "loss": 0.6504, + "step": 322 + }, + { + "epoch": 0.675, + "grad_norm": 2.8658313751220703, + "learning_rate": 4.8328125000000004e-05, + "loss": 0.6752, + "step": 324 + }, + { + "epoch": 0.6791666666666667, + "grad_norm": 2.223454713821411, + "learning_rate": 4.831770833333333e-05, + "loss": 0.5755, + "step": 326 + }, + { + "epoch": 0.6833333333333333, + "grad_norm": 3.236706256866455, + "learning_rate": 4.830729166666667e-05, + "loss": 0.6714, + "step": 328 + }, + { + "epoch": 0.6875, + "grad_norm": 3.0918474197387695, + "learning_rate": 4.8296875e-05, + "loss": 0.7784, + "step": 330 + }, + { + "epoch": 0.6916666666666667, + "grad_norm": 2.4676313400268555, + "learning_rate": 4.8286458333333334e-05, + "loss": 0.5921, + "step": 332 + }, + { + "epoch": 0.6958333333333333, + "grad_norm": 3.0821173191070557, + "learning_rate": 4.827604166666667e-05, + "loss": 0.7174, + "step": 334 + }, + { + "epoch": 0.7, + "grad_norm": 2.807302951812744, + "learning_rate": 4.8265625e-05, + "loss": 0.6115, + "step": 336 + }, + { + "epoch": 0.7041666666666667, + "grad_norm": 3.294158697128296, + "learning_rate": 4.825520833333334e-05, + "loss": 0.6164, + "step": 338 + }, + { + "epoch": 0.7083333333333334, + "grad_norm": 3.214353561401367, + "learning_rate": 4.8244791666666664e-05, + "loss": 0.6719, + "step": 340 + }, + { + "epoch": 0.7125, + "grad_norm": 4.182924270629883, + "learning_rate": 4.8234375000000005e-05, + "loss": 0.7695, + "step": 342 + }, + { + "epoch": 0.7166666666666667, + "grad_norm": 3.515329122543335, + "learning_rate": 4.822395833333333e-05, + "loss": 0.61, + "step": 344 + }, + { + "epoch": 0.7208333333333333, + "grad_norm": 5.328710079193115, + "learning_rate": 4.821354166666667e-05, + "loss": 0.5758, + "step": 346 + }, + { + "epoch": 0.725, + "grad_norm": 5.189579963684082, + "learning_rate": 4.820312500000001e-05, + "loss": 0.6859, + "step": 348 + }, + { + "epoch": 0.7291666666666666, + "grad_norm": 3.540848731994629, + "learning_rate": 4.8192708333333335e-05, + "loss": 0.625, + "step": 350 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 2.3288440704345703, + "learning_rate": 4.818229166666667e-05, + "loss": 0.6857, + "step": 352 + }, + { + "epoch": 0.7375, + "grad_norm": 4.974381446838379, + "learning_rate": 4.8171875e-05, + "loss": 0.4848, + "step": 354 + }, + { + "epoch": 0.7416666666666667, + "grad_norm": 2.493722677230835, + "learning_rate": 4.816145833333334e-05, + "loss": 0.6065, + "step": 356 + }, + { + "epoch": 0.7458333333333333, + "grad_norm": 3.1318628787994385, + "learning_rate": 4.8151041666666665e-05, + "loss": 0.6927, + "step": 358 + }, + { + "epoch": 0.75, + "grad_norm": 2.678463935852051, + "learning_rate": 4.8140625e-05, + "loss": 0.5349, + "step": 360 + }, + { + "epoch": 0.7541666666666667, + "grad_norm": 4.967501163482666, + "learning_rate": 4.813020833333334e-05, + "loss": 0.6022, + "step": 362 + }, + { + "epoch": 0.7583333333333333, + "grad_norm": 3.840024709701538, + "learning_rate": 4.811979166666667e-05, + "loss": 0.6728, + "step": 364 + }, + { + "epoch": 0.7625, + "grad_norm": 3.2149782180786133, + "learning_rate": 4.8109375e-05, + "loss": 0.629, + "step": 366 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 3.114593505859375, + "learning_rate": 4.8098958333333336e-05, + "loss": 0.6509, + "step": 368 + }, + { + "epoch": 0.7708333333333334, + "grad_norm": 3.394982099533081, + "learning_rate": 4.808854166666667e-05, + "loss": 0.6898, + "step": 370 + }, + { + "epoch": 0.775, + "grad_norm": 5.001162528991699, + "learning_rate": 4.8078125000000005e-05, + "loss": 0.6916, + "step": 372 + }, + { + "epoch": 0.7791666666666667, + "grad_norm": 2.801837682723999, + "learning_rate": 4.806770833333333e-05, + "loss": 0.6983, + "step": 374 + }, + { + "epoch": 0.7833333333333333, + "grad_norm": 3.337214231491089, + "learning_rate": 4.805729166666667e-05, + "loss": 0.6284, + "step": 376 + }, + { + "epoch": 0.7875, + "grad_norm": 2.6527676582336426, + "learning_rate": 4.8046875e-05, + "loss": 0.6022, + "step": 378 + }, + { + "epoch": 0.7916666666666666, + "grad_norm": 2.219878911972046, + "learning_rate": 4.8036458333333335e-05, + "loss": 0.6336, + "step": 380 + }, + { + "epoch": 0.7958333333333333, + "grad_norm": 2.2160532474517822, + "learning_rate": 4.802604166666667e-05, + "loss": 0.5672, + "step": 382 + }, + { + "epoch": 0.8, + "grad_norm": 3.1678032875061035, + "learning_rate": 4.8015625e-05, + "loss": 0.5196, + "step": 384 + }, + { + "epoch": 0.8041666666666667, + "grad_norm": 2.608726978302002, + "learning_rate": 4.800520833333334e-05, + "loss": 0.6075, + "step": 386 + }, + { + "epoch": 0.8083333333333333, + "grad_norm": 2.946007490158081, + "learning_rate": 4.7994791666666665e-05, + "loss": 0.6549, + "step": 388 + }, + { + "epoch": 0.8125, + "grad_norm": 2.1688454151153564, + "learning_rate": 4.7984375000000006e-05, + "loss": 0.603, + "step": 390 + }, + { + "epoch": 0.8166666666666667, + "grad_norm": 6.059370040893555, + "learning_rate": 4.797395833333333e-05, + "loss": 0.6464, + "step": 392 + }, + { + "epoch": 0.8208333333333333, + "grad_norm": 3.732147216796875, + "learning_rate": 4.796354166666667e-05, + "loss": 0.6233, + "step": 394 + }, + { + "epoch": 0.825, + "grad_norm": 2.2253966331481934, + "learning_rate": 4.7953125e-05, + "loss": 0.5973, + "step": 396 + }, + { + "epoch": 0.8291666666666667, + "grad_norm": 2.8659045696258545, + "learning_rate": 4.7942708333333336e-05, + "loss": 0.6618, + "step": 398 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 2.26781964302063, + "learning_rate": 4.793229166666667e-05, + "loss": 0.6749, + "step": 400 + }, + { + "epoch": 0.8333333333333334, + "eval_cer": 0.09437472234562416, + "eval_loss": 0.5288404226303101, + "eval_runtime": 75.3388, + "eval_samples_per_second": 5.23, + "eval_steps_per_second": 0.664, + "step": 400 + }, + { + "epoch": 0.8375, + "grad_norm": 3.8407750129699707, + "learning_rate": 4.7921875000000004e-05, + "loss": 0.5595, + "step": 402 + }, + { + "epoch": 0.8416666666666667, + "grad_norm": 7.40029239654541, + "learning_rate": 4.791145833333334e-05, + "loss": 0.6697, + "step": 404 + }, + { + "epoch": 0.8458333333333333, + "grad_norm": 3.3032219409942627, + "learning_rate": 4.7901041666666666e-05, + "loss": 0.6703, + "step": 406 + }, + { + "epoch": 0.85, + "grad_norm": 3.450255870819092, + "learning_rate": 4.7890625e-05, + "loss": 0.6012, + "step": 408 + }, + { + "epoch": 0.8541666666666666, + "grad_norm": 9.749808311462402, + "learning_rate": 4.7880208333333334e-05, + "loss": 0.5759, + "step": 410 + }, + { + "epoch": 0.8583333333333333, + "grad_norm": 2.3248515129089355, + "learning_rate": 4.786979166666667e-05, + "loss": 0.5884, + "step": 412 + }, + { + "epoch": 0.8625, + "grad_norm": 2.4550211429595947, + "learning_rate": 4.7859375e-05, + "loss": 0.5445, + "step": 414 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 3.118741989135742, + "learning_rate": 4.784895833333334e-05, + "loss": 0.6415, + "step": 416 + }, + { + "epoch": 0.8708333333333333, + "grad_norm": 3.229210376739502, + "learning_rate": 4.783854166666667e-05, + "loss": 0.6163, + "step": 418 + }, + { + "epoch": 0.875, + "grad_norm": 1.9319297075271606, + "learning_rate": 4.7828125e-05, + "loss": 0.5302, + "step": 420 + }, + { + "epoch": 0.8791666666666667, + "grad_norm": 2.8331642150878906, + "learning_rate": 4.781770833333333e-05, + "loss": 0.5403, + "step": 422 + }, + { + "epoch": 0.8833333333333333, + "grad_norm": 2.130479335784912, + "learning_rate": 4.780729166666667e-05, + "loss": 0.5509, + "step": 424 + }, + { + "epoch": 0.8875, + "grad_norm": 3.784559488296509, + "learning_rate": 4.7796875e-05, + "loss": 0.6122, + "step": 426 + }, + { + "epoch": 0.8916666666666667, + "grad_norm": 3.164377212524414, + "learning_rate": 4.7786458333333336e-05, + "loss": 0.6065, + "step": 428 + }, + { + "epoch": 0.8958333333333334, + "grad_norm": 2.6093013286590576, + "learning_rate": 4.777604166666667e-05, + "loss": 0.5431, + "step": 430 + }, + { + "epoch": 0.9, + "grad_norm": 3.7088863849639893, + "learning_rate": 4.7765625000000004e-05, + "loss": 0.5485, + "step": 432 + }, + { + "epoch": 0.9041666666666667, + "grad_norm": 2.829235076904297, + "learning_rate": 4.775520833333333e-05, + "loss": 0.5532, + "step": 434 + }, + { + "epoch": 0.9083333333333333, + "grad_norm": 3.985959529876709, + "learning_rate": 4.774479166666667e-05, + "loss": 0.5565, + "step": 436 + }, + { + "epoch": 0.9125, + "grad_norm": 4.357743263244629, + "learning_rate": 4.773437500000001e-05, + "loss": 0.5819, + "step": 438 + }, + { + "epoch": 0.9166666666666666, + "grad_norm": 2.7579171657562256, + "learning_rate": 4.7723958333333334e-05, + "loss": 0.543, + "step": 440 + }, + { + "epoch": 0.9208333333333333, + "grad_norm": 2.8343441486358643, + "learning_rate": 4.771354166666667e-05, + "loss": 0.5803, + "step": 442 + }, + { + "epoch": 0.925, + "grad_norm": 2.341815710067749, + "learning_rate": 4.7703125e-05, + "loss": 0.5653, + "step": 444 + }, + { + "epoch": 0.9291666666666667, + "grad_norm": 3.035484790802002, + "learning_rate": 4.769270833333334e-05, + "loss": 0.5392, + "step": 446 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 2.2655560970306396, + "learning_rate": 4.7682291666666664e-05, + "loss": 0.5428, + "step": 448 + }, + { + "epoch": 0.9375, + "grad_norm": 2.481808662414551, + "learning_rate": 4.7671875000000005e-05, + "loss": 0.6434, + "step": 450 + }, + { + "epoch": 0.9416666666666667, + "grad_norm": 4.014449596405029, + "learning_rate": 4.766145833333334e-05, + "loss": 0.6325, + "step": 452 + }, + { + "epoch": 0.9458333333333333, + "grad_norm": 3.728942632675171, + "learning_rate": 4.765104166666667e-05, + "loss": 0.6712, + "step": 454 + }, + { + "epoch": 0.95, + "grad_norm": 2.895840883255005, + "learning_rate": 4.7640625e-05, + "loss": 0.5845, + "step": 456 + }, + { + "epoch": 0.9541666666666667, + "grad_norm": 2.680987596511841, + "learning_rate": 4.7630208333333335e-05, + "loss": 0.5407, + "step": 458 + }, + { + "epoch": 0.9583333333333334, + "grad_norm": 4.975336074829102, + "learning_rate": 4.761979166666667e-05, + "loss": 0.5976, + "step": 460 + }, + { + "epoch": 0.9625, + "grad_norm": 8.485946655273438, + "learning_rate": 4.7609375000000004e-05, + "loss": 0.5157, + "step": 462 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 3.504152297973633, + "learning_rate": 4.759895833333334e-05, + "loss": 0.5616, + "step": 464 + }, + { + "epoch": 0.9708333333333333, + "grad_norm": 2.589276075363159, + "learning_rate": 4.758854166666667e-05, + "loss": 0.7109, + "step": 466 + }, + { + "epoch": 0.975, + "grad_norm": 3.5683672428131104, + "learning_rate": 4.7578125e-05, + "loss": 0.6224, + "step": 468 + }, + { + "epoch": 0.9791666666666666, + "grad_norm": 3.319976806640625, + "learning_rate": 4.7567708333333334e-05, + "loss": 0.454, + "step": 470 + }, + { + "epoch": 0.9833333333333333, + "grad_norm": 10.062982559204102, + "learning_rate": 4.755729166666667e-05, + "loss": 0.5807, + "step": 472 + }, + { + "epoch": 0.9875, + "grad_norm": 4.252432823181152, + "learning_rate": 4.7546875e-05, + "loss": 0.5311, + "step": 474 + }, + { + "epoch": 0.9916666666666667, + "grad_norm": 2.8918192386627197, + "learning_rate": 4.7536458333333336e-05, + "loss": 0.6167, + "step": 476 + }, + { + "epoch": 0.9958333333333333, + "grad_norm": 7.638920783996582, + "learning_rate": 4.752604166666667e-05, + "loss": 0.5527, + "step": 478 + }, + { + "epoch": 1.0, + "grad_norm": 3.5749053955078125, + "learning_rate": 4.7515625000000005e-05, + "loss": 0.6057, + "step": 480 + }, + { + "epoch": 1.0041666666666667, + "grad_norm": 2.290039300918579, + "learning_rate": 4.750520833333333e-05, + "loss": 0.4165, + "step": 482 + }, + { + "epoch": 1.0083333333333333, + "grad_norm": 3.2367255687713623, + "learning_rate": 4.749479166666667e-05, + "loss": 0.4069, + "step": 484 + }, + { + "epoch": 1.0125, + "grad_norm": 3.5936930179595947, + "learning_rate": 4.7484375e-05, + "loss": 0.457, + "step": 486 + }, + { + "epoch": 1.0166666666666666, + "grad_norm": 2.1726415157318115, + "learning_rate": 4.7473958333333335e-05, + "loss": 0.4312, + "step": 488 + }, + { + "epoch": 1.0208333333333333, + "grad_norm": 1.5543261766433716, + "learning_rate": 4.746354166666667e-05, + "loss": 0.3948, + "step": 490 + }, + { + "epoch": 1.025, + "grad_norm": 1.9411005973815918, + "learning_rate": 4.7453125e-05, + "loss": 0.3985, + "step": 492 + }, + { + "epoch": 1.0291666666666666, + "grad_norm": 1.9239277839660645, + "learning_rate": 4.744270833333334e-05, + "loss": 0.4034, + "step": 494 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 2.5936107635498047, + "learning_rate": 4.7432291666666665e-05, + "loss": 0.3741, + "step": 496 + }, + { + "epoch": 1.0375, + "grad_norm": 3.663874387741089, + "learning_rate": 4.7421875000000006e-05, + "loss": 0.4191, + "step": 498 + }, + { + "epoch": 1.0416666666666667, + "grad_norm": 2.4142072200775146, + "learning_rate": 4.741145833333333e-05, + "loss": 0.4035, + "step": 500 + }, + { + "epoch": 1.0458333333333334, + "grad_norm": 3.075683832168579, + "learning_rate": 4.740104166666667e-05, + "loss": 0.3694, + "step": 502 + }, + { + "epoch": 1.05, + "grad_norm": 2.207871198654175, + "learning_rate": 4.7390625e-05, + "loss": 0.4636, + "step": 504 + }, + { + "epoch": 1.0541666666666667, + "grad_norm": 2.84586763381958, + "learning_rate": 4.7380208333333336e-05, + "loss": 0.4067, + "step": 506 + }, + { + "epoch": 1.0583333333333333, + "grad_norm": 3.0893442630767822, + "learning_rate": 4.736979166666667e-05, + "loss": 0.3298, + "step": 508 + }, + { + "epoch": 1.0625, + "grad_norm": 2.166533946990967, + "learning_rate": 4.7359375e-05, + "loss": 0.4116, + "step": 510 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 1.9301198720932007, + "learning_rate": 4.734895833333334e-05, + "loss": 0.3765, + "step": 512 + }, + { + "epoch": 1.0708333333333333, + "grad_norm": 1.9673384428024292, + "learning_rate": 4.7338541666666666e-05, + "loss": 0.4224, + "step": 514 + }, + { + "epoch": 1.075, + "grad_norm": 2.267043352127075, + "learning_rate": 4.7328125e-05, + "loss": 0.3157, + "step": 516 + }, + { + "epoch": 1.0791666666666666, + "grad_norm": 2.2695579528808594, + "learning_rate": 4.731770833333334e-05, + "loss": 0.3943, + "step": 518 + }, + { + "epoch": 1.0833333333333333, + "grad_norm": 2.0709850788116455, + "learning_rate": 4.730729166666667e-05, + "loss": 0.3908, + "step": 520 + }, + { + "epoch": 1.0875, + "grad_norm": 2.7416481971740723, + "learning_rate": 4.7296875e-05, + "loss": 0.4257, + "step": 522 + }, + { + "epoch": 1.0916666666666666, + "grad_norm": 2.2451162338256836, + "learning_rate": 4.728645833333333e-05, + "loss": 0.3855, + "step": 524 + }, + { + "epoch": 1.0958333333333334, + "grad_norm": 2.0784411430358887, + "learning_rate": 4.727604166666667e-05, + "loss": 0.3843, + "step": 526 + }, + { + "epoch": 1.1, + "grad_norm": 2.261808395385742, + "learning_rate": 4.7265625000000005e-05, + "loss": 0.3897, + "step": 528 + }, + { + "epoch": 1.1041666666666667, + "grad_norm": 1.7851799726486206, + "learning_rate": 4.725520833333333e-05, + "loss": 0.3025, + "step": 530 + }, + { + "epoch": 1.1083333333333334, + "grad_norm": 2.0723624229431152, + "learning_rate": 4.7244791666666674e-05, + "loss": 0.3863, + "step": 532 + }, + { + "epoch": 1.1125, + "grad_norm": 2.2496345043182373, + "learning_rate": 4.7234375e-05, + "loss": 0.3916, + "step": 534 + }, + { + "epoch": 1.1166666666666667, + "grad_norm": 2.2499849796295166, + "learning_rate": 4.7223958333333335e-05, + "loss": 0.3805, + "step": 536 + }, + { + "epoch": 1.1208333333333333, + "grad_norm": 2.0148541927337646, + "learning_rate": 4.721354166666667e-05, + "loss": 0.3523, + "step": 538 + }, + { + "epoch": 1.125, + "grad_norm": NaN, + "learning_rate": 4.720833333333334e-05, + "loss": 0.4272, + "step": 540 + }, + { + "epoch": 1.1291666666666667, + "grad_norm": 1.818580985069275, + "learning_rate": 4.719791666666667e-05, + "loss": 0.4315, + "step": 542 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 1.9033260345458984, + "learning_rate": 4.71875e-05, + "loss": 0.4389, + "step": 544 + }, + { + "epoch": 1.1375, + "grad_norm": 2.112426996231079, + "learning_rate": 4.7177083333333336e-05, + "loss": 0.3609, + "step": 546 + }, + { + "epoch": 1.1416666666666666, + "grad_norm": 2.473832607269287, + "learning_rate": 4.716666666666667e-05, + "loss": 0.3498, + "step": 548 + }, + { + "epoch": 1.1458333333333333, + "grad_norm": 2.4780259132385254, + "learning_rate": 4.7156250000000004e-05, + "loss": 0.363, + "step": 550 + }, + { + "epoch": 1.15, + "grad_norm": 2.4832866191864014, + "learning_rate": 4.714583333333333e-05, + "loss": 0.4187, + "step": 552 + }, + { + "epoch": 1.1541666666666668, + "grad_norm": 2.0865137577056885, + "learning_rate": 4.713541666666667e-05, + "loss": 0.4066, + "step": 554 + }, + { + "epoch": 1.1583333333333332, + "grad_norm": 2.2443153858184814, + "learning_rate": 4.7125e-05, + "loss": 0.4618, + "step": 556 + }, + { + "epoch": 1.1625, + "grad_norm": 1.7275798320770264, + "learning_rate": 4.7114583333333334e-05, + "loss": 0.4442, + "step": 558 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 3.480638265609741, + "learning_rate": 4.710416666666667e-05, + "loss": 0.4171, + "step": 560 + }, + { + "epoch": 1.1708333333333334, + "grad_norm": 2.402559995651245, + "learning_rate": 4.709375e-05, + "loss": 0.3541, + "step": 562 + }, + { + "epoch": 1.175, + "grad_norm": 2.266561508178711, + "learning_rate": 4.708333333333334e-05, + "loss": 0.4112, + "step": 564 + }, + { + "epoch": 1.1791666666666667, + "grad_norm": 1.9658203125, + "learning_rate": 4.7072916666666665e-05, + "loss": 0.391, + "step": 566 + }, + { + "epoch": 1.1833333333333333, + "grad_norm": 1.799079179763794, + "learning_rate": 4.7062500000000006e-05, + "loss": 0.3574, + "step": 568 + }, + { + "epoch": 1.1875, + "grad_norm": 2.373586416244507, + "learning_rate": 4.705208333333333e-05, + "loss": 0.4078, + "step": 570 + }, + { + "epoch": 1.1916666666666667, + "grad_norm": 2.2254137992858887, + "learning_rate": 4.704166666666667e-05, + "loss": 0.2781, + "step": 572 + }, + { + "epoch": 1.1958333333333333, + "grad_norm": 1.6554490327835083, + "learning_rate": 4.703125e-05, + "loss": 0.3884, + "step": 574 + }, + { + "epoch": 1.2, + "grad_norm": 1.8344429731369019, + "learning_rate": 4.7020833333333336e-05, + "loss": 0.4209, + "step": 576 + }, + { + "epoch": 1.2041666666666666, + "grad_norm": 1.988049864768982, + "learning_rate": 4.701041666666667e-05, + "loss": 0.4059, + "step": 578 + }, + { + "epoch": 1.2083333333333333, + "grad_norm": 1.4477262496948242, + "learning_rate": 4.7e-05, + "loss": 0.3176, + "step": 580 + }, + { + "epoch": 1.2125, + "grad_norm": 1.9679880142211914, + "learning_rate": 4.698958333333334e-05, + "loss": 0.4039, + "step": 582 + }, + { + "epoch": 1.2166666666666668, + "grad_norm": 1.7134015560150146, + "learning_rate": 4.6979166666666666e-05, + "loss": 0.4628, + "step": 584 + }, + { + "epoch": 1.2208333333333332, + "grad_norm": 7.197211265563965, + "learning_rate": 4.696875e-05, + "loss": 0.3856, + "step": 586 + }, + { + "epoch": 1.225, + "grad_norm": 2.2321548461914062, + "learning_rate": 4.695833333333334e-05, + "loss": 0.4228, + "step": 588 + }, + { + "epoch": 1.2291666666666667, + "grad_norm": 4.248619079589844, + "learning_rate": 4.694791666666667e-05, + "loss": 0.3539, + "step": 590 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 4.029890537261963, + "learning_rate": 4.69375e-05, + "loss": 0.435, + "step": 592 + }, + { + "epoch": 1.2375, + "grad_norm": 3.6013121604919434, + "learning_rate": 4.692708333333334e-05, + "loss": 0.3835, + "step": 594 + }, + { + "epoch": 1.2416666666666667, + "grad_norm": 2.3047897815704346, + "learning_rate": 4.691666666666667e-05, + "loss": 0.408, + "step": 596 + }, + { + "epoch": 1.2458333333333333, + "grad_norm": 6.740744590759277, + "learning_rate": 4.690625e-05, + "loss": 0.3568, + "step": 598 + }, + { + "epoch": 1.25, + "grad_norm": 1.65971040725708, + "learning_rate": 4.689583333333333e-05, + "loss": 0.3252, + "step": 600 + }, + { + "epoch": 1.25, + "eval_cer": 0.08882163482896491, + "eval_loss": 0.4825364649295807, + "eval_runtime": 75.3757, + "eval_samples_per_second": 5.227, + "eval_steps_per_second": 0.663, + "step": 600 + }, + { + "epoch": 1.2541666666666667, + "grad_norm": 1.4903420209884644, + "learning_rate": 4.6885416666666674e-05, + "loss": 0.3491, + "step": 602 + }, + { + "epoch": 1.2583333333333333, + "grad_norm": 2.0410640239715576, + "learning_rate": 4.6875e-05, + "loss": 0.4579, + "step": 604 + }, + { + "epoch": 1.2625, + "grad_norm": 2.2305901050567627, + "learning_rate": 4.6864583333333335e-05, + "loss": 0.3636, + "step": 606 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 1.9142282009124756, + "learning_rate": 4.685416666666667e-05, + "loss": 0.3406, + "step": 608 + }, + { + "epoch": 1.2708333333333333, + "grad_norm": 1.7000856399536133, + "learning_rate": 4.6843750000000004e-05, + "loss": 0.339, + "step": 610 + }, + { + "epoch": 1.275, + "grad_norm": 2.362736463546753, + "learning_rate": 4.683333333333334e-05, + "loss": 0.3651, + "step": 612 + }, + { + "epoch": 1.2791666666666668, + "grad_norm": 1.9029231071472168, + "learning_rate": 4.6822916666666665e-05, + "loss": 0.3922, + "step": 614 + }, + { + "epoch": 1.2833333333333332, + "grad_norm": 2.19234037399292, + "learning_rate": 4.6812500000000006e-05, + "loss": 0.3799, + "step": 616 + }, + { + "epoch": 1.2875, + "grad_norm": 2.8311691284179688, + "learning_rate": 4.6802083333333334e-05, + "loss": 0.4615, + "step": 618 + }, + { + "epoch": 1.2916666666666667, + "grad_norm": 2.2515299320220947, + "learning_rate": 4.679166666666667e-05, + "loss": 0.3988, + "step": 620 + }, + { + "epoch": 1.2958333333333334, + "grad_norm": 1.7555921077728271, + "learning_rate": 4.678125e-05, + "loss": 0.4424, + "step": 622 + }, + { + "epoch": 1.3, + "grad_norm": 2.2430357933044434, + "learning_rate": 4.6770833333333336e-05, + "loss": 0.4541, + "step": 624 + }, + { + "epoch": 1.3041666666666667, + "grad_norm": 2.0745716094970703, + "learning_rate": 4.676041666666667e-05, + "loss": 0.4175, + "step": 626 + }, + { + "epoch": 1.3083333333333333, + "grad_norm": 1.9447697401046753, + "learning_rate": 4.6750000000000005e-05, + "loss": 0.3876, + "step": 628 + }, + { + "epoch": 1.3125, + "grad_norm": 6.12916898727417, + "learning_rate": 4.673958333333334e-05, + "loss": 0.3489, + "step": 630 + }, + { + "epoch": 1.3166666666666667, + "grad_norm": 1.8577853441238403, + "learning_rate": 4.6729166666666666e-05, + "loss": 0.4049, + "step": 632 + }, + { + "epoch": 1.3208333333333333, + "grad_norm": 1.735574722290039, + "learning_rate": 4.671875e-05, + "loss": 0.401, + "step": 634 + }, + { + "epoch": 1.325, + "grad_norm": 2.200798749923706, + "learning_rate": 4.6708333333333335e-05, + "loss": 0.4668, + "step": 636 + }, + { + "epoch": 1.3291666666666666, + "grad_norm": 1.9722037315368652, + "learning_rate": 4.669791666666667e-05, + "loss": 0.4148, + "step": 638 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 2.1958506107330322, + "learning_rate": 4.66875e-05, + "loss": 0.3909, + "step": 640 + }, + { + "epoch": 1.3375, + "grad_norm": 1.7348836660385132, + "learning_rate": 4.667708333333334e-05, + "loss": 0.3851, + "step": 642 + }, + { + "epoch": 1.3416666666666668, + "grad_norm": 2.355278968811035, + "learning_rate": 4.666666666666667e-05, + "loss": 0.3438, + "step": 644 + }, + { + "epoch": 1.3458333333333332, + "grad_norm": 1.7661689519882202, + "learning_rate": 4.665625e-05, + "loss": 0.3446, + "step": 646 + }, + { + "epoch": 1.35, + "grad_norm": 2.178809881210327, + "learning_rate": 4.664583333333333e-05, + "loss": 0.3848, + "step": 648 + }, + { + "epoch": 1.3541666666666667, + "grad_norm": 2.6587748527526855, + "learning_rate": 4.663541666666667e-05, + "loss": 0.3862, + "step": 650 + }, + { + "epoch": 1.3583333333333334, + "grad_norm": 1.8318101167678833, + "learning_rate": 4.6625e-05, + "loss": 0.36, + "step": 652 + }, + { + "epoch": 1.3625, + "grad_norm": 1.8120778799057007, + "learning_rate": 4.6614583333333336e-05, + "loss": 0.3746, + "step": 654 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 2.4158990383148193, + "learning_rate": 4.660416666666667e-05, + "loss": 0.4314, + "step": 656 + }, + { + "epoch": 1.3708333333333333, + "grad_norm": 2.2189536094665527, + "learning_rate": 4.6593750000000004e-05, + "loss": 0.359, + "step": 658 + }, + { + "epoch": 1.375, + "grad_norm": 1.7004679441452026, + "learning_rate": 4.658333333333333e-05, + "loss": 0.3935, + "step": 660 + }, + { + "epoch": 1.3791666666666667, + "grad_norm": 2.911466360092163, + "learning_rate": 4.657291666666667e-05, + "loss": 0.413, + "step": 662 + }, + { + "epoch": 1.3833333333333333, + "grad_norm": 2.279244899749756, + "learning_rate": 4.65625e-05, + "loss": 0.4654, + "step": 664 + }, + { + "epoch": 1.3875, + "grad_norm": 1.3229647874832153, + "learning_rate": 4.6552083333333334e-05, + "loss": 0.4057, + "step": 666 + }, + { + "epoch": 1.3916666666666666, + "grad_norm": 2.899092197418213, + "learning_rate": 4.654166666666667e-05, + "loss": 0.3465, + "step": 668 + }, + { + "epoch": 1.3958333333333333, + "grad_norm": 2.0069782733917236, + "learning_rate": 4.653125e-05, + "loss": 0.4382, + "step": 670 + }, + { + "epoch": 1.4, + "grad_norm": 5.486810684204102, + "learning_rate": 4.652083333333334e-05, + "loss": 0.4789, + "step": 672 + }, + { + "epoch": 1.4041666666666668, + "grad_norm": 2.1208415031433105, + "learning_rate": 4.6510416666666664e-05, + "loss": 0.3558, + "step": 674 + }, + { + "epoch": 1.4083333333333332, + "grad_norm": 2.164301872253418, + "learning_rate": 4.6500000000000005e-05, + "loss": 0.4271, + "step": 676 + }, + { + "epoch": 1.4125, + "grad_norm": 5.592773914337158, + "learning_rate": 4.648958333333334e-05, + "loss": 0.4781, + "step": 678 + }, + { + "epoch": 1.4166666666666667, + "grad_norm": 2.398861885070801, + "learning_rate": 4.647916666666667e-05, + "loss": 0.4724, + "step": 680 + }, + { + "epoch": 1.4208333333333334, + "grad_norm": 1.5108911991119385, + "learning_rate": 4.646875e-05, + "loss": 0.3287, + "step": 682 + }, + { + "epoch": 1.425, + "grad_norm": 1.4579650163650513, + "learning_rate": 4.6458333333333335e-05, + "loss": 0.3397, + "step": 684 + }, + { + "epoch": 1.4291666666666667, + "grad_norm": 2.2521185874938965, + "learning_rate": 4.644791666666667e-05, + "loss": 0.3633, + "step": 686 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 2.21071720123291, + "learning_rate": 4.64375e-05, + "loss": 0.3994, + "step": 688 + }, + { + "epoch": 1.4375, + "grad_norm": 2.129945993423462, + "learning_rate": 4.642708333333334e-05, + "loss": 0.4054, + "step": 690 + }, + { + "epoch": 1.4416666666666667, + "grad_norm": 2.3053324222564697, + "learning_rate": 4.641666666666667e-05, + "loss": 0.3642, + "step": 692 + }, + { + "epoch": 1.4458333333333333, + "grad_norm": 5.03537130355835, + "learning_rate": 4.640625e-05, + "loss": 0.327, + "step": 694 + }, + { + "epoch": 1.45, + "grad_norm": 2.0899338722229004, + "learning_rate": 4.6395833333333334e-05, + "loss": 0.385, + "step": 696 + }, + { + "epoch": 1.4541666666666666, + "grad_norm": 1.8142104148864746, + "learning_rate": 4.638541666666667e-05, + "loss": 0.3214, + "step": 698 + }, + { + "epoch": 1.4583333333333333, + "grad_norm": 1.753135323524475, + "learning_rate": 4.6375e-05, + "loss": 0.3515, + "step": 700 + }, + { + "epoch": 1.4625, + "grad_norm": 1.822525978088379, + "learning_rate": 4.6364583333333337e-05, + "loss": 0.3358, + "step": 702 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 2.467871904373169, + "learning_rate": 4.635416666666667e-05, + "loss": 0.4131, + "step": 704 + }, + { + "epoch": 1.4708333333333332, + "grad_norm": 1.8084889650344849, + "learning_rate": 4.6343750000000005e-05, + "loss": 0.3138, + "step": 706 + }, + { + "epoch": 1.475, + "grad_norm": 1.9521251916885376, + "learning_rate": 4.633333333333333e-05, + "loss": 0.3647, + "step": 708 + }, + { + "epoch": 1.4791666666666667, + "grad_norm": 3.7741165161132812, + "learning_rate": 4.6322916666666673e-05, + "loss": 0.3256, + "step": 710 + }, + { + "epoch": 1.4833333333333334, + "grad_norm": 1.6917216777801514, + "learning_rate": 4.63125e-05, + "loss": 0.3559, + "step": 712 + }, + { + "epoch": 1.4875, + "grad_norm": 2.276641368865967, + "learning_rate": 4.6302083333333335e-05, + "loss": 0.4045, + "step": 714 + }, + { + "epoch": 1.4916666666666667, + "grad_norm": 2.1159298419952393, + "learning_rate": 4.629166666666667e-05, + "loss": 0.4038, + "step": 716 + }, + { + "epoch": 1.4958333333333333, + "grad_norm": 2.2482399940490723, + "learning_rate": 4.6281250000000003e-05, + "loss": 0.2938, + "step": 718 + }, + { + "epoch": 1.5, + "grad_norm": 1.721245527267456, + "learning_rate": 4.627083333333334e-05, + "loss": 0.3871, + "step": 720 + }, + { + "epoch": 1.5041666666666667, + "grad_norm": 2.042407512664795, + "learning_rate": 4.6260416666666665e-05, + "loss": 0.412, + "step": 722 + }, + { + "epoch": 1.5083333333333333, + "grad_norm": 1.7616004943847656, + "learning_rate": 4.6250000000000006e-05, + "loss": 0.3453, + "step": 724 + }, + { + "epoch": 1.5125, + "grad_norm": 1.7401106357574463, + "learning_rate": 4.6239583333333334e-05, + "loss": 0.3221, + "step": 726 + }, + { + "epoch": 1.5166666666666666, + "grad_norm": 3.5153968334198, + "learning_rate": 4.622916666666667e-05, + "loss": 0.3904, + "step": 728 + }, + { + "epoch": 1.5208333333333335, + "grad_norm": 1.8634997606277466, + "learning_rate": 4.621875e-05, + "loss": 0.416, + "step": 730 + }, + { + "epoch": 1.525, + "grad_norm": 2.9734556674957275, + "learning_rate": 4.6208333333333336e-05, + "loss": 0.3103, + "step": 732 + }, + { + "epoch": 1.5291666666666668, + "grad_norm": 2.3127708435058594, + "learning_rate": 4.619791666666667e-05, + "loss": 0.4923, + "step": 734 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 1.84650456905365, + "learning_rate": 4.61875e-05, + "loss": 0.3377, + "step": 736 + }, + { + "epoch": 1.5375, + "grad_norm": 1.957462191581726, + "learning_rate": 4.617708333333334e-05, + "loss": 0.429, + "step": 738 + }, + { + "epoch": 1.5416666666666665, + "grad_norm": 2.1158249378204346, + "learning_rate": 4.6166666666666666e-05, + "loss": 0.428, + "step": 740 + }, + { + "epoch": 1.5458333333333334, + "grad_norm": 1.6036176681518555, + "learning_rate": 4.615625e-05, + "loss": 0.393, + "step": 742 + }, + { + "epoch": 1.55, + "grad_norm": 1.8704732656478882, + "learning_rate": 4.614583333333334e-05, + "loss": 0.3329, + "step": 744 + }, + { + "epoch": 1.5541666666666667, + "grad_norm": 2.478874683380127, + "learning_rate": 4.613541666666667e-05, + "loss": 0.3694, + "step": 746 + }, + { + "epoch": 1.5583333333333333, + "grad_norm": 2.423173427581787, + "learning_rate": 4.6125e-05, + "loss": 0.4267, + "step": 748 + }, + { + "epoch": 1.5625, + "grad_norm": 2.3176136016845703, + "learning_rate": 4.611458333333333e-05, + "loss": 0.355, + "step": 750 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 2.192453145980835, + "learning_rate": 4.610416666666667e-05, + "loss": 0.4507, + "step": 752 + }, + { + "epoch": 1.5708333333333333, + "grad_norm": 1.9239985942840576, + "learning_rate": 4.609375e-05, + "loss": 0.4149, + "step": 754 + }, + { + "epoch": 1.575, + "grad_norm": 2.1934406757354736, + "learning_rate": 4.608333333333333e-05, + "loss": 0.3896, + "step": 756 + }, + { + "epoch": 1.5791666666666666, + "grad_norm": 2.231092691421509, + "learning_rate": 4.6072916666666674e-05, + "loss": 0.3413, + "step": 758 + }, + { + "epoch": 1.5833333333333335, + "grad_norm": 1.9258970022201538, + "learning_rate": 4.60625e-05, + "loss": 0.3679, + "step": 760 + }, + { + "epoch": 1.5875, + "grad_norm": 2.0683157444000244, + "learning_rate": 4.6052083333333336e-05, + "loss": 0.3828, + "step": 762 + }, + { + "epoch": 1.5916666666666668, + "grad_norm": 2.2727551460266113, + "learning_rate": 4.604166666666666e-05, + "loss": 0.4003, + "step": 764 + }, + { + "epoch": 1.5958333333333332, + "grad_norm": 1.728041648864746, + "learning_rate": 4.6031250000000004e-05, + "loss": 0.3845, + "step": 766 + }, + { + "epoch": 1.6, + "grad_norm": 1.6846458911895752, + "learning_rate": 4.602083333333334e-05, + "loss": 0.3289, + "step": 768 + }, + { + "epoch": 1.6041666666666665, + "grad_norm": 1.9795798063278198, + "learning_rate": 4.6010416666666666e-05, + "loss": 0.3844, + "step": 770 + }, + { + "epoch": 1.6083333333333334, + "grad_norm": 3.210663318634033, + "learning_rate": 4.600000000000001e-05, + "loss": 0.4261, + "step": 772 + }, + { + "epoch": 1.6125, + "grad_norm": 1.7903053760528564, + "learning_rate": 4.5989583333333334e-05, + "loss": 0.3755, + "step": 774 + }, + { + "epoch": 1.6166666666666667, + "grad_norm": 2.041489839553833, + "learning_rate": 4.597916666666667e-05, + "loss": 0.3075, + "step": 776 + }, + { + "epoch": 1.6208333333333333, + "grad_norm": 1.7643860578536987, + "learning_rate": 4.596875e-05, + "loss": 0.3508, + "step": 778 + }, + { + "epoch": 1.625, + "grad_norm": 1.784397006034851, + "learning_rate": 4.595833333333334e-05, + "loss": 0.3612, + "step": 780 + }, + { + "epoch": 1.6291666666666667, + "grad_norm": 2.280071973800659, + "learning_rate": 4.594791666666667e-05, + "loss": 0.3599, + "step": 782 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 1.841770887374878, + "learning_rate": 4.59375e-05, + "loss": 0.3575, + "step": 784 + }, + { + "epoch": 1.6375, + "grad_norm": 1.853091835975647, + "learning_rate": 4.592708333333334e-05, + "loss": 0.3198, + "step": 786 + }, + { + "epoch": 1.6416666666666666, + "grad_norm": 2.078869581222534, + "learning_rate": 4.591666666666667e-05, + "loss": 0.3618, + "step": 788 + }, + { + "epoch": 1.6458333333333335, + "grad_norm": 1.9955053329467773, + "learning_rate": 4.590625e-05, + "loss": 0.3523, + "step": 790 + }, + { + "epoch": 1.65, + "grad_norm": 2.8303120136260986, + "learning_rate": 4.5895833333333335e-05, + "loss": 0.3062, + "step": 792 + }, + { + "epoch": 1.6541666666666668, + "grad_norm": 1.8177721500396729, + "learning_rate": 4.588541666666667e-05, + "loss": 0.3369, + "step": 794 + }, + { + "epoch": 1.6583333333333332, + "grad_norm": 1.786309003829956, + "learning_rate": 4.5875000000000004e-05, + "loss": 0.39, + "step": 796 + }, + { + "epoch": 1.6625, + "grad_norm": 1.9230891466140747, + "learning_rate": 4.586458333333333e-05, + "loss": 0.3569, + "step": 798 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 1.6116489171981812, + "learning_rate": 4.585416666666667e-05, + "loss": 0.3727, + "step": 800 + }, + { + "epoch": 1.6666666666666665, + "eval_cer": 0.07893713904931142, + "eval_loss": 0.43024373054504395, + "eval_runtime": 75.8386, + "eval_samples_per_second": 5.195, + "eval_steps_per_second": 0.659, + "step": 800 + }, + { + "epoch": 1.6708333333333334, + "grad_norm": 1.9448270797729492, + "learning_rate": 4.584375e-05, + "loss": 0.3461, + "step": 802 + }, + { + "epoch": 1.675, + "grad_norm": 1.6249109506607056, + "learning_rate": 4.5833333333333334e-05, + "loss": 0.3292, + "step": 804 + }, + { + "epoch": 1.6791666666666667, + "grad_norm": 2.1389646530151367, + "learning_rate": 4.582291666666667e-05, + "loss": 0.3968, + "step": 806 + }, + { + "epoch": 1.6833333333333333, + "grad_norm": 4.8461198806762695, + "learning_rate": 4.58125e-05, + "loss": 0.396, + "step": 808 + }, + { + "epoch": 1.6875, + "grad_norm": 2.2985286712646484, + "learning_rate": 4.5802083333333336e-05, + "loss": 0.4008, + "step": 810 + }, + { + "epoch": 1.6916666666666667, + "grad_norm": 1.4862853288650513, + "learning_rate": 4.579166666666667e-05, + "loss": 0.3084, + "step": 812 + }, + { + "epoch": 1.6958333333333333, + "grad_norm": 2.44669508934021, + "learning_rate": 4.5781250000000005e-05, + "loss": 0.4115, + "step": 814 + }, + { + "epoch": 1.7, + "grad_norm": 1.9502893686294556, + "learning_rate": 4.577083333333333e-05, + "loss": 0.3273, + "step": 816 + }, + { + "epoch": 1.7041666666666666, + "grad_norm": 3.879110336303711, + "learning_rate": 4.5760416666666667e-05, + "loss": 0.3812, + "step": 818 + }, + { + "epoch": 1.7083333333333335, + "grad_norm": 1.8997844457626343, + "learning_rate": 4.575e-05, + "loss": 0.364, + "step": 820 + }, + { + "epoch": 1.7125, + "grad_norm": 2.092203140258789, + "learning_rate": 4.5739583333333335e-05, + "loss": 0.3526, + "step": 822 + }, + { + "epoch": 1.7166666666666668, + "grad_norm": 1.5881396532058716, + "learning_rate": 4.572916666666667e-05, + "loss": 0.3047, + "step": 824 + }, + { + "epoch": 1.7208333333333332, + "grad_norm": 1.6307923793792725, + "learning_rate": 4.571875e-05, + "loss": 0.3838, + "step": 826 + }, + { + "epoch": 1.725, + "grad_norm": 2.609233856201172, + "learning_rate": 4.570833333333334e-05, + "loss": 0.3617, + "step": 828 + }, + { + "epoch": 1.7291666666666665, + "grad_norm": 2.407240390777588, + "learning_rate": 4.5697916666666665e-05, + "loss": 0.3125, + "step": 830 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 2.2141809463500977, + "learning_rate": 4.56875e-05, + "loss": 0.3069, + "step": 832 + }, + { + "epoch": 1.7375, + "grad_norm": 1.6763370037078857, + "learning_rate": 4.567708333333334e-05, + "loss": 0.3111, + "step": 834 + }, + { + "epoch": 1.7416666666666667, + "grad_norm": 1.8490235805511475, + "learning_rate": 4.566666666666667e-05, + "loss": 0.4269, + "step": 836 + }, + { + "epoch": 1.7458333333333333, + "grad_norm": 2.0838608741760254, + "learning_rate": 4.565625e-05, + "loss": 0.431, + "step": 838 + }, + { + "epoch": 1.75, + "grad_norm": 1.5423170328140259, + "learning_rate": 4.5645833333333336e-05, + "loss": 0.3349, + "step": 840 + }, + { + "epoch": 1.7541666666666667, + "grad_norm": 1.8230059146881104, + "learning_rate": 4.563541666666667e-05, + "loss": 0.3335, + "step": 842 + }, + { + "epoch": 1.7583333333333333, + "grad_norm": 1.7889446020126343, + "learning_rate": 4.5625e-05, + "loss": 0.354, + "step": 844 + }, + { + "epoch": 1.7625, + "grad_norm": 1.8651210069656372, + "learning_rate": 4.561458333333333e-05, + "loss": 0.3803, + "step": 846 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 1.83902907371521, + "learning_rate": 4.560416666666667e-05, + "loss": 0.3454, + "step": 848 + }, + { + "epoch": 1.7708333333333335, + "grad_norm": 1.8341405391693115, + "learning_rate": 4.559375e-05, + "loss": 0.3329, + "step": 850 + }, + { + "epoch": 1.775, + "grad_norm": 3.5276427268981934, + "learning_rate": 4.5583333333333335e-05, + "loss": 0.3422, + "step": 852 + }, + { + "epoch": 1.7791666666666668, + "grad_norm": 1.4246060848236084, + "learning_rate": 4.557291666666667e-05, + "loss": 0.3261, + "step": 854 + }, + { + "epoch": 1.7833333333333332, + "grad_norm": 1.6903702020645142, + "learning_rate": 4.55625e-05, + "loss": 0.3614, + "step": 856 + }, + { + "epoch": 1.7875, + "grad_norm": 2.2812328338623047, + "learning_rate": 4.555208333333334e-05, + "loss": 0.4045, + "step": 858 + }, + { + "epoch": 1.7916666666666665, + "grad_norm": 4.596236228942871, + "learning_rate": 4.554166666666667e-05, + "loss": 0.3649, + "step": 860 + }, + { + "epoch": 1.7958333333333334, + "grad_norm": 1.6088448762893677, + "learning_rate": 4.5531250000000006e-05, + "loss": 0.3607, + "step": 862 + }, + { + "epoch": 1.8, + "grad_norm": 1.98819899559021, + "learning_rate": 4.552083333333333e-05, + "loss": 0.3265, + "step": 864 + }, + { + "epoch": 1.8041666666666667, + "grad_norm": 1.758620262145996, + "learning_rate": 4.551041666666667e-05, + "loss": 0.3263, + "step": 866 + }, + { + "epoch": 1.8083333333333333, + "grad_norm": 1.732568383216858, + "learning_rate": 4.55e-05, + "loss": 0.4118, + "step": 868 + }, + { + "epoch": 1.8125, + "grad_norm": 1.772420883178711, + "learning_rate": 4.5489583333333336e-05, + "loss": 0.3121, + "step": 870 + }, + { + "epoch": 1.8166666666666667, + "grad_norm": 2.083021879196167, + "learning_rate": 4.547916666666667e-05, + "loss": 0.4024, + "step": 872 + }, + { + "epoch": 1.8208333333333333, + "grad_norm": 2.0465996265411377, + "learning_rate": 4.5468750000000004e-05, + "loss": 0.3712, + "step": 874 + }, + { + "epoch": 1.825, + "grad_norm": 1.8383214473724365, + "learning_rate": 4.545833333333334e-05, + "loss": 0.2823, + "step": 876 + }, + { + "epoch": 1.8291666666666666, + "grad_norm": 7.297061920166016, + "learning_rate": 4.5447916666666666e-05, + "loss": 0.3494, + "step": 878 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 1.972896695137024, + "learning_rate": 4.54375e-05, + "loss": 0.3851, + "step": 880 + }, + { + "epoch": 1.8375, + "grad_norm": 1.8125194311141968, + "learning_rate": 4.5427083333333334e-05, + "loss": 0.3639, + "step": 882 + }, + { + "epoch": 1.8416666666666668, + "grad_norm": 1.854549765586853, + "learning_rate": 4.541666666666667e-05, + "loss": 0.3811, + "step": 884 + }, + { + "epoch": 1.8458333333333332, + "grad_norm": 1.553104043006897, + "learning_rate": 4.540625e-05, + "loss": 0.3265, + "step": 886 + }, + { + "epoch": 1.85, + "grad_norm": 1.6706278324127197, + "learning_rate": 4.539583333333334e-05, + "loss": 0.3485, + "step": 888 + }, + { + "epoch": 1.8541666666666665, + "grad_norm": 1.4994755983352661, + "learning_rate": 4.538541666666667e-05, + "loss": 0.2514, + "step": 890 + }, + { + "epoch": 1.8583333333333334, + "grad_norm": 2.6186606884002686, + "learning_rate": 4.5375e-05, + "loss": 0.3754, + "step": 892 + }, + { + "epoch": 1.8625, + "grad_norm": 1.6118546724319458, + "learning_rate": 4.536458333333334e-05, + "loss": 0.3705, + "step": 894 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 1.9339962005615234, + "learning_rate": 4.535416666666667e-05, + "loss": 0.3958, + "step": 896 + }, + { + "epoch": 1.8708333333333333, + "grad_norm": 2.864405870437622, + "learning_rate": 4.534375e-05, + "loss": 0.3081, + "step": 898 + }, + { + "epoch": 1.875, + "grad_norm": 1.5049372911453247, + "learning_rate": 4.5333333333333335e-05, + "loss": 0.3369, + "step": 900 + }, + { + "epoch": 1.8791666666666667, + "grad_norm": 3.149038314819336, + "learning_rate": 4.532291666666667e-05, + "loss": 0.3078, + "step": 902 + }, + { + "epoch": 1.8833333333333333, + "grad_norm": 1.6239999532699585, + "learning_rate": 4.5312500000000004e-05, + "loss": 0.3103, + "step": 904 + }, + { + "epoch": 1.8875, + "grad_norm": 1.7185122966766357, + "learning_rate": 4.530208333333333e-05, + "loss": 0.3592, + "step": 906 + }, + { + "epoch": 1.8916666666666666, + "grad_norm": 2.079543113708496, + "learning_rate": 4.529166666666667e-05, + "loss": 0.3015, + "step": 908 + }, + { + "epoch": 1.8958333333333335, + "grad_norm": 1.9189707040786743, + "learning_rate": 4.528125e-05, + "loss": 0.3155, + "step": 910 + }, + { + "epoch": 1.9, + "grad_norm": 1.9934887886047363, + "learning_rate": 4.5270833333333334e-05, + "loss": 0.3452, + "step": 912 + }, + { + "epoch": 1.9041666666666668, + "grad_norm": 4.342540740966797, + "learning_rate": 4.526041666666667e-05, + "loss": 0.3865, + "step": 914 + }, + { + "epoch": 1.9083333333333332, + "grad_norm": 1.581148386001587, + "learning_rate": 4.525e-05, + "loss": 0.3093, + "step": 916 + }, + { + "epoch": 1.9125, + "grad_norm": 3.0370168685913086, + "learning_rate": 4.5239583333333336e-05, + "loss": 0.4171, + "step": 918 + }, + { + "epoch": 1.9166666666666665, + "grad_norm": 2.375061511993408, + "learning_rate": 4.5229166666666664e-05, + "loss": 0.3854, + "step": 920 + }, + { + "epoch": 1.9208333333333334, + "grad_norm": 2.5547473430633545, + "learning_rate": 4.5218750000000005e-05, + "loss": 0.3496, + "step": 922 + }, + { + "epoch": 1.925, + "grad_norm": 2.105210542678833, + "learning_rate": 4.520833333333334e-05, + "loss": 0.4485, + "step": 924 + }, + { + "epoch": 1.9291666666666667, + "grad_norm": 2.123960018157959, + "learning_rate": 4.5197916666666666e-05, + "loss": 0.3119, + "step": 926 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 2.7789721488952637, + "learning_rate": 4.518750000000001e-05, + "loss": 0.3186, + "step": 928 + }, + { + "epoch": 1.9375, + "grad_norm": 1.7009673118591309, + "learning_rate": 4.5177083333333335e-05, + "loss": 0.3259, + "step": 930 + }, + { + "epoch": 1.9416666666666667, + "grad_norm": 1.669516921043396, + "learning_rate": 4.516666666666667e-05, + "loss": 0.398, + "step": 932 + }, + { + "epoch": 1.9458333333333333, + "grad_norm": 3.120511770248413, + "learning_rate": 4.515625e-05, + "loss": 0.3487, + "step": 934 + }, + { + "epoch": 1.95, + "grad_norm": 1.6313802003860474, + "learning_rate": 4.514583333333334e-05, + "loss": 0.3327, + "step": 936 + }, + { + "epoch": 1.9541666666666666, + "grad_norm": 1.6756224632263184, + "learning_rate": 4.513541666666667e-05, + "loss": 0.3099, + "step": 938 + }, + { + "epoch": 1.9583333333333335, + "grad_norm": 1.8250938653945923, + "learning_rate": 4.5125e-05, + "loss": 0.3029, + "step": 940 + }, + { + "epoch": 1.9625, + "grad_norm": 2.040630578994751, + "learning_rate": 4.511458333333334e-05, + "loss": 0.3688, + "step": 942 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 2.011784553527832, + "learning_rate": 4.510416666666667e-05, + "loss": 0.2936, + "step": 944 + }, + { + "epoch": 1.9708333333333332, + "grad_norm": 1.8017204999923706, + "learning_rate": 4.509375e-05, + "loss": 0.3293, + "step": 946 + }, + { + "epoch": 1.975, + "grad_norm": 1.5585441589355469, + "learning_rate": 4.5083333333333336e-05, + "loss": 0.2695, + "step": 948 + }, + { + "epoch": 1.9791666666666665, + "grad_norm": 1.4110723733901978, + "learning_rate": 4.507291666666667e-05, + "loss": 0.3156, + "step": 950 + }, + { + "epoch": 1.9833333333333334, + "grad_norm": 2.2032582759857178, + "learning_rate": 4.5062500000000004e-05, + "loss": 0.3925, + "step": 952 + }, + { + "epoch": 1.9875, + "grad_norm": 1.8421915769577026, + "learning_rate": 4.505208333333333e-05, + "loss": 0.3671, + "step": 954 + }, + { + "epoch": 1.9916666666666667, + "grad_norm": 2.0284647941589355, + "learning_rate": 4.504166666666667e-05, + "loss": 0.343, + "step": 956 + }, + { + "epoch": 1.9958333333333333, + "grad_norm": 2.3705220222473145, + "learning_rate": 4.503125e-05, + "loss": 0.2818, + "step": 958 + }, + { + "epoch": 2.0, + "grad_norm": 2.5011842250823975, + "learning_rate": 4.5020833333333334e-05, + "loss": 0.3621, + "step": 960 + }, + { + "epoch": 2.004166666666667, + "grad_norm": 1.4258018732070923, + "learning_rate": 4.501041666666667e-05, + "loss": 0.2274, + "step": 962 + }, + { + "epoch": 2.0083333333333333, + "grad_norm": 1.7529966831207275, + "learning_rate": 4.5e-05, + "loss": 0.2079, + "step": 964 + }, + { + "epoch": 2.0125, + "grad_norm": 1.445325493812561, + "learning_rate": 4.498958333333334e-05, + "loss": 0.1939, + "step": 966 + }, + { + "epoch": 2.0166666666666666, + "grad_norm": 2.4436230659484863, + "learning_rate": 4.4979166666666664e-05, + "loss": 0.2456, + "step": 968 + }, + { + "epoch": 2.0208333333333335, + "grad_norm": 1.8944891691207886, + "learning_rate": 4.4968750000000005e-05, + "loss": 0.1923, + "step": 970 + }, + { + "epoch": 2.025, + "grad_norm": 1.7764302492141724, + "learning_rate": 4.495833333333333e-05, + "loss": 0.2714, + "step": 972 + }, + { + "epoch": 2.029166666666667, + "grad_norm": 1.5412577390670776, + "learning_rate": 4.494791666666667e-05, + "loss": 0.2437, + "step": 974 + }, + { + "epoch": 2.033333333333333, + "grad_norm": 1.7342849969863892, + "learning_rate": 4.49375e-05, + "loss": 0.2159, + "step": 976 + }, + { + "epoch": 2.0375, + "grad_norm": 2.347188949584961, + "learning_rate": 4.4927083333333336e-05, + "loss": 0.1714, + "step": 978 + }, + { + "epoch": 2.0416666666666665, + "grad_norm": 1.8869119882583618, + "learning_rate": 4.491666666666667e-05, + "loss": 0.2613, + "step": 980 + }, + { + "epoch": 2.0458333333333334, + "grad_norm": 2.2892587184906006, + "learning_rate": 4.490625e-05, + "loss": 0.2464, + "step": 982 + }, + { + "epoch": 2.05, + "grad_norm": 1.583411693572998, + "learning_rate": 4.489583333333334e-05, + "loss": 0.1923, + "step": 984 + }, + { + "epoch": 2.0541666666666667, + "grad_norm": 1.2638604640960693, + "learning_rate": 4.4885416666666666e-05, + "loss": 0.2277, + "step": 986 + }, + { + "epoch": 2.058333333333333, + "grad_norm": 1.4003708362579346, + "learning_rate": 4.4875e-05, + "loss": 0.2236, + "step": 988 + }, + { + "epoch": 2.0625, + "grad_norm": 1.815432071685791, + "learning_rate": 4.486458333333334e-05, + "loss": 0.2113, + "step": 990 + }, + { + "epoch": 2.066666666666667, + "grad_norm": 1.6789857149124146, + "learning_rate": 4.485416666666667e-05, + "loss": 0.2106, + "step": 992 + }, + { + "epoch": 2.0708333333333333, + "grad_norm": 1.257757544517517, + "learning_rate": 4.484375e-05, + "loss": 0.1622, + "step": 994 + }, + { + "epoch": 2.075, + "grad_norm": 1.7531771659851074, + "learning_rate": 4.483333333333333e-05, + "loss": 0.2363, + "step": 996 + }, + { + "epoch": 2.0791666666666666, + "grad_norm": 1.4191877841949463, + "learning_rate": 4.482291666666667e-05, + "loss": 0.2342, + "step": 998 + }, + { + "epoch": 2.0833333333333335, + "grad_norm": 1.2240248918533325, + "learning_rate": 4.4812500000000005e-05, + "loss": 0.1946, + "step": 1000 + }, + { + "epoch": 2.0833333333333335, + "eval_cer": 0.07668813860506442, + "eval_loss": 0.41726163029670715, + "eval_runtime": 76.5154, + "eval_samples_per_second": 5.149, + "eval_steps_per_second": 0.653, + "step": 1000 + }, + { + "epoch": 2.0875, + "grad_norm": 1.6411991119384766, + "learning_rate": 4.480208333333333e-05, + "loss": 0.2603, + "step": 1002 + }, + { + "epoch": 2.091666666666667, + "grad_norm": 1.6796841621398926, + "learning_rate": 4.4791666666666673e-05, + "loss": 0.2501, + "step": 1004 + }, + { + "epoch": 2.095833333333333, + "grad_norm": 1.629292607307434, + "learning_rate": 4.478125e-05, + "loss": 0.2792, + "step": 1006 + }, + { + "epoch": 2.1, + "grad_norm": 1.4749597311019897, + "learning_rate": 4.4770833333333335e-05, + "loss": 0.2133, + "step": 1008 + }, + { + "epoch": 2.1041666666666665, + "grad_norm": 1.3495488166809082, + "learning_rate": 4.476041666666667e-05, + "loss": 0.1716, + "step": 1010 + }, + { + "epoch": 2.1083333333333334, + "grad_norm": 1.3881659507751465, + "learning_rate": 4.4750000000000004e-05, + "loss": 0.2029, + "step": 1012 + }, + { + "epoch": 2.1125, + "grad_norm": 2.2414746284484863, + "learning_rate": 4.473958333333334e-05, + "loss": 0.2245, + "step": 1014 + }, + { + "epoch": 2.1166666666666667, + "grad_norm": 3.4886486530303955, + "learning_rate": 4.4729166666666665e-05, + "loss": 0.163, + "step": 1016 + }, + { + "epoch": 2.120833333333333, + "grad_norm": 117.04214477539062, + "learning_rate": 4.4718750000000006e-05, + "loss": 0.21, + "step": 1018 + }, + { + "epoch": 2.125, + "grad_norm": 1.560338020324707, + "learning_rate": 4.4708333333333334e-05, + "loss": 0.218, + "step": 1020 + }, + { + "epoch": 2.129166666666667, + "grad_norm": 1.5929349660873413, + "learning_rate": 4.469791666666667e-05, + "loss": 0.2248, + "step": 1022 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 2.717198610305786, + "learning_rate": 4.46875e-05, + "loss": 0.3064, + "step": 1024 + }, + { + "epoch": 2.1375, + "grad_norm": 1.7076499462127686, + "learning_rate": 4.4677083333333336e-05, + "loss": 0.207, + "step": 1026 + }, + { + "epoch": 2.1416666666666666, + "grad_norm": 1.512692928314209, + "learning_rate": 4.466666666666667e-05, + "loss": 0.2442, + "step": 1028 + }, + { + "epoch": 2.1458333333333335, + "grad_norm": 1.5551611185073853, + "learning_rate": 4.465625e-05, + "loss": 0.2907, + "step": 1030 + }, + { + "epoch": 2.15, + "grad_norm": 1.4122192859649658, + "learning_rate": 4.464583333333334e-05, + "loss": 0.2546, + "step": 1032 + }, + { + "epoch": 2.154166666666667, + "grad_norm": 1.5477193593978882, + "learning_rate": 4.4635416666666666e-05, + "loss": 0.2068, + "step": 1034 + }, + { + "epoch": 2.158333333333333, + "grad_norm": 1.5528905391693115, + "learning_rate": 4.4625e-05, + "loss": 0.2153, + "step": 1036 + }, + { + "epoch": 2.1625, + "grad_norm": 1.429687738418579, + "learning_rate": 4.4614583333333335e-05, + "loss": 0.1669, + "step": 1038 + }, + { + "epoch": 2.1666666666666665, + "grad_norm": 1.4656075239181519, + "learning_rate": 4.460416666666667e-05, + "loss": 0.2126, + "step": 1040 + }, + { + "epoch": 2.1708333333333334, + "grad_norm": 1.4880051612854004, + "learning_rate": 4.459375e-05, + "loss": 0.2225, + "step": 1042 + }, + { + "epoch": 2.175, + "grad_norm": 1.784731149673462, + "learning_rate": 4.458333333333334e-05, + "loss": 0.288, + "step": 1044 + }, + { + "epoch": 2.1791666666666667, + "grad_norm": 1.3107794523239136, + "learning_rate": 4.457291666666667e-05, + "loss": 0.223, + "step": 1046 + }, + { + "epoch": 2.183333333333333, + "grad_norm": 1.4180349111557007, + "learning_rate": 4.45625e-05, + "loss": 0.2464, + "step": 1048 + }, + { + "epoch": 2.1875, + "grad_norm": 3.89192795753479, + "learning_rate": 4.455208333333333e-05, + "loss": 0.2182, + "step": 1050 + }, + { + "epoch": 2.191666666666667, + "grad_norm": 2.2488677501678467, + "learning_rate": 4.454166666666667e-05, + "loss": 0.2427, + "step": 1052 + }, + { + "epoch": 2.1958333333333333, + "grad_norm": 2.5775749683380127, + "learning_rate": 4.453125e-05, + "loss": 0.3145, + "step": 1054 + }, + { + "epoch": 2.2, + "grad_norm": 1.6068010330200195, + "learning_rate": 4.4520833333333336e-05, + "loss": 0.2236, + "step": 1056 + }, + { + "epoch": 2.2041666666666666, + "grad_norm": 1.3819581270217896, + "learning_rate": 4.451041666666667e-05, + "loss": 0.1942, + "step": 1058 + }, + { + "epoch": 2.2083333333333335, + "grad_norm": 1.630497932434082, + "learning_rate": 4.4500000000000004e-05, + "loss": 0.1967, + "step": 1060 + }, + { + "epoch": 2.2125, + "grad_norm": 1.4361547231674194, + "learning_rate": 4.448958333333333e-05, + "loss": 0.2381, + "step": 1062 + }, + { + "epoch": 2.216666666666667, + "grad_norm": 1.5555428266525269, + "learning_rate": 4.4479166666666666e-05, + "loss": 0.1983, + "step": 1064 + }, + { + "epoch": 2.220833333333333, + "grad_norm": 2.6175687313079834, + "learning_rate": 4.446875e-05, + "loss": 0.2515, + "step": 1066 + }, + { + "epoch": 2.225, + "grad_norm": 1.4150820970535278, + "learning_rate": 4.4458333333333334e-05, + "loss": 0.1932, + "step": 1068 + }, + { + "epoch": 2.2291666666666665, + "grad_norm": 1.5729448795318604, + "learning_rate": 4.444791666666667e-05, + "loss": 0.1885, + "step": 1070 + }, + { + "epoch": 2.2333333333333334, + "grad_norm": 2.19437575340271, + "learning_rate": 4.44375e-05, + "loss": 0.2767, + "step": 1072 + }, + { + "epoch": 2.2375, + "grad_norm": 1.619309663772583, + "learning_rate": 4.442708333333334e-05, + "loss": 0.191, + "step": 1074 + }, + { + "epoch": 2.2416666666666667, + "grad_norm": 1.4207983016967773, + "learning_rate": 4.4416666666666664e-05, + "loss": 0.243, + "step": 1076 + }, + { + "epoch": 2.245833333333333, + "grad_norm": 1.4436935186386108, + "learning_rate": 4.4406250000000005e-05, + "loss": 0.2106, + "step": 1078 + }, + { + "epoch": 2.25, + "grad_norm": 1.6113402843475342, + "learning_rate": 4.439583333333334e-05, + "loss": 0.2132, + "step": 1080 + }, + { + "epoch": 2.2541666666666664, + "grad_norm": 1.2071722745895386, + "learning_rate": 4.438541666666667e-05, + "loss": 0.1757, + "step": 1082 + }, + { + "epoch": 2.2583333333333333, + "grad_norm": 1.8498178720474243, + "learning_rate": 4.4375e-05, + "loss": 0.241, + "step": 1084 + }, + { + "epoch": 2.2625, + "grad_norm": 2.6313865184783936, + "learning_rate": 4.4364583333333335e-05, + "loss": 0.2533, + "step": 1086 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 1.3647879362106323, + "learning_rate": 4.435416666666667e-05, + "loss": 0.2208, + "step": 1088 + }, + { + "epoch": 2.2708333333333335, + "grad_norm": 1.5787577629089355, + "learning_rate": 4.4343750000000004e-05, + "loss": 0.2178, + "step": 1090 + }, + { + "epoch": 2.275, + "grad_norm": 1.1976170539855957, + "learning_rate": 4.433333333333334e-05, + "loss": 0.19, + "step": 1092 + }, + { + "epoch": 2.279166666666667, + "grad_norm": 1.249566912651062, + "learning_rate": 4.432291666666667e-05, + "loss": 0.1835, + "step": 1094 + }, + { + "epoch": 2.283333333333333, + "grad_norm": 1.9672811031341553, + "learning_rate": 4.43125e-05, + "loss": 0.2593, + "step": 1096 + }, + { + "epoch": 2.2875, + "grad_norm": 1.3868604898452759, + "learning_rate": 4.4302083333333334e-05, + "loss": 0.2042, + "step": 1098 + }, + { + "epoch": 2.2916666666666665, + "grad_norm": 1.5349676609039307, + "learning_rate": 4.429166666666667e-05, + "loss": 0.2065, + "step": 1100 + }, + { + "epoch": 2.2958333333333334, + "grad_norm": 1.4631175994873047, + "learning_rate": 4.428125e-05, + "loss": 0.2021, + "step": 1102 + }, + { + "epoch": 2.3, + "grad_norm": 1.743544340133667, + "learning_rate": 4.4270833333333337e-05, + "loss": 0.24, + "step": 1104 + }, + { + "epoch": 2.3041666666666667, + "grad_norm": 1.6280205249786377, + "learning_rate": 4.426041666666667e-05, + "loss": 0.2134, + "step": 1106 + }, + { + "epoch": 2.3083333333333336, + "grad_norm": 1.5398736000061035, + "learning_rate": 4.4250000000000005e-05, + "loss": 0.2119, + "step": 1108 + }, + { + "epoch": 2.3125, + "grad_norm": 2.32210373878479, + "learning_rate": 4.423958333333333e-05, + "loss": 0.2119, + "step": 1110 + }, + { + "epoch": 2.3166666666666664, + "grad_norm": 1.2367448806762695, + "learning_rate": 4.422916666666667e-05, + "loss": 0.1787, + "step": 1112 + }, + { + "epoch": 2.3208333333333333, + "grad_norm": 1.536994457244873, + "learning_rate": 4.421875e-05, + "loss": 0.2044, + "step": 1114 + }, + { + "epoch": 2.325, + "grad_norm": 1.4863816499710083, + "learning_rate": 4.4208333333333335e-05, + "loss": 0.2273, + "step": 1116 + }, + { + "epoch": 2.3291666666666666, + "grad_norm": 1.2842937707901, + "learning_rate": 4.419791666666667e-05, + "loss": 0.2228, + "step": 1118 + }, + { + "epoch": 2.3333333333333335, + "grad_norm": 1.3169602155685425, + "learning_rate": 4.4187500000000003e-05, + "loss": 0.261, + "step": 1120 + }, + { + "epoch": 2.3375, + "grad_norm": 2.066208600997925, + "learning_rate": 4.417708333333334e-05, + "loss": 0.2885, + "step": 1122 + }, + { + "epoch": 2.341666666666667, + "grad_norm": 2.1755900382995605, + "learning_rate": 4.4166666666666665e-05, + "loss": 0.2063, + "step": 1124 + }, + { + "epoch": 2.345833333333333, + "grad_norm": 1.7808187007904053, + "learning_rate": 4.4156250000000006e-05, + "loss": 0.2031, + "step": 1126 + }, + { + "epoch": 2.35, + "grad_norm": 1.3624298572540283, + "learning_rate": 4.4145833333333333e-05, + "loss": 0.1869, + "step": 1128 + }, + { + "epoch": 2.3541666666666665, + "grad_norm": 1.996181607246399, + "learning_rate": 4.413541666666667e-05, + "loss": 0.1612, + "step": 1130 + }, + { + "epoch": 2.3583333333333334, + "grad_norm": 1.6140658855438232, + "learning_rate": 4.4125e-05, + "loss": 0.2062, + "step": 1132 + }, + { + "epoch": 2.3625, + "grad_norm": 1.6817190647125244, + "learning_rate": 4.4114583333333336e-05, + "loss": 0.2172, + "step": 1134 + }, + { + "epoch": 2.3666666666666667, + "grad_norm": 1.873024821281433, + "learning_rate": 4.410416666666667e-05, + "loss": 0.1793, + "step": 1136 + }, + { + "epoch": 2.3708333333333336, + "grad_norm": 1.6981642246246338, + "learning_rate": 4.409375e-05, + "loss": 0.2276, + "step": 1138 + }, + { + "epoch": 2.375, + "grad_norm": 1.8225051164627075, + "learning_rate": 4.408333333333334e-05, + "loss": 0.2282, + "step": 1140 + }, + { + "epoch": 2.3791666666666664, + "grad_norm": 2.0691158771514893, + "learning_rate": 4.4072916666666666e-05, + "loss": 0.2328, + "step": 1142 + }, + { + "epoch": 2.3833333333333333, + "grad_norm": 1.1261072158813477, + "learning_rate": 4.40625e-05, + "loss": 0.1742, + "step": 1144 + }, + { + "epoch": 2.3875, + "grad_norm": 1.629065990447998, + "learning_rate": 4.4052083333333335e-05, + "loss": 0.205, + "step": 1146 + }, + { + "epoch": 2.3916666666666666, + "grad_norm": 1.5920209884643555, + "learning_rate": 4.404166666666667e-05, + "loss": 0.2251, + "step": 1148 + }, + { + "epoch": 2.3958333333333335, + "grad_norm": 1.3698257207870483, + "learning_rate": 4.403125e-05, + "loss": 0.2174, + "step": 1150 + }, + { + "epoch": 2.4, + "grad_norm": 1.610114336013794, + "learning_rate": 4.402083333333333e-05, + "loss": 0.2178, + "step": 1152 + }, + { + "epoch": 2.404166666666667, + "grad_norm": 2.5303592681884766, + "learning_rate": 4.401041666666667e-05, + "loss": 0.2366, + "step": 1154 + }, + { + "epoch": 2.408333333333333, + "grad_norm": 1.3749243021011353, + "learning_rate": 4.4000000000000006e-05, + "loss": 0.2154, + "step": 1156 + }, + { + "epoch": 2.4125, + "grad_norm": 1.7410308122634888, + "learning_rate": 4.398958333333333e-05, + "loss": 0.2087, + "step": 1158 + }, + { + "epoch": 2.4166666666666665, + "grad_norm": 1.5914058685302734, + "learning_rate": 4.3979166666666674e-05, + "loss": 0.2137, + "step": 1160 + }, + { + "epoch": 2.4208333333333334, + "grad_norm": 1.70547354221344, + "learning_rate": 4.396875e-05, + "loss": 0.2357, + "step": 1162 + }, + { + "epoch": 2.425, + "grad_norm": 1.4179880619049072, + "learning_rate": 4.3958333333333336e-05, + "loss": 0.2051, + "step": 1164 + }, + { + "epoch": 2.4291666666666667, + "grad_norm": 1.844075322151184, + "learning_rate": 4.394791666666666e-05, + "loss": 0.2321, + "step": 1166 + }, + { + "epoch": 2.4333333333333336, + "grad_norm": 1.2861030101776123, + "learning_rate": 4.3937500000000004e-05, + "loss": 0.2123, + "step": 1168 + }, + { + "epoch": 2.4375, + "grad_norm": 1.4433348178863525, + "learning_rate": 4.392708333333334e-05, + "loss": 0.1838, + "step": 1170 + }, + { + "epoch": 2.4416666666666664, + "grad_norm": 2.17301607131958, + "learning_rate": 4.3916666666666666e-05, + "loss": 0.2966, + "step": 1172 + }, + { + "epoch": 2.4458333333333333, + "grad_norm": 1.440492868423462, + "learning_rate": 4.390625000000001e-05, + "loss": 0.2282, + "step": 1174 + }, + { + "epoch": 2.45, + "grad_norm": 1.7817730903625488, + "learning_rate": 4.3895833333333334e-05, + "loss": 0.2252, + "step": 1176 + }, + { + "epoch": 2.4541666666666666, + "grad_norm": 1.8132784366607666, + "learning_rate": 4.388541666666667e-05, + "loss": 0.268, + "step": 1178 + }, + { + "epoch": 2.4583333333333335, + "grad_norm": 2.3781466484069824, + "learning_rate": 4.3875e-05, + "loss": 0.2391, + "step": 1180 + }, + { + "epoch": 2.4625, + "grad_norm": 1.5800995826721191, + "learning_rate": 4.386458333333334e-05, + "loss": 0.1991, + "step": 1182 + }, + { + "epoch": 2.466666666666667, + "grad_norm": 1.4914699792861938, + "learning_rate": 4.385416666666667e-05, + "loss": 0.1995, + "step": 1184 + }, + { + "epoch": 2.470833333333333, + "grad_norm": 1.999101996421814, + "learning_rate": 4.384375e-05, + "loss": 0.1968, + "step": 1186 + }, + { + "epoch": 2.475, + "grad_norm": 1.4252607822418213, + "learning_rate": 4.383333333333334e-05, + "loss": 0.2352, + "step": 1188 + }, + { + "epoch": 2.4791666666666665, + "grad_norm": 1.3994899988174438, + "learning_rate": 4.382291666666667e-05, + "loss": 0.2076, + "step": 1190 + }, + { + "epoch": 2.4833333333333334, + "grad_norm": 1.3077203035354614, + "learning_rate": 4.38125e-05, + "loss": 0.1849, + "step": 1192 + }, + { + "epoch": 2.4875, + "grad_norm": 1.6573472023010254, + "learning_rate": 4.3802083333333335e-05, + "loss": 0.2409, + "step": 1194 + }, + { + "epoch": 2.4916666666666667, + "grad_norm": 1.4254812002182007, + "learning_rate": 4.379166666666667e-05, + "loss": 0.1827, + "step": 1196 + }, + { + "epoch": 2.4958333333333336, + "grad_norm": 1.1585209369659424, + "learning_rate": 4.3781250000000004e-05, + "loss": 0.1722, + "step": 1198 + }, + { + "epoch": 2.5, + "grad_norm": 1.3435677289962769, + "learning_rate": 4.377083333333333e-05, + "loss": 0.2039, + "step": 1200 + }, + { + "epoch": 2.5, + "eval_cer": 0.070746334962239, + "eval_loss": 0.3939196467399597, + "eval_runtime": 75.6001, + "eval_samples_per_second": 5.212, + "eval_steps_per_second": 0.661, + "step": 1200 + }, + { + "epoch": 2.5041666666666664, + "grad_norm": 7.489694595336914, + "learning_rate": 4.376041666666667e-05, + "loss": 0.1805, + "step": 1202 + }, + { + "epoch": 2.5083333333333333, + "grad_norm": 1.5512391328811646, + "learning_rate": 4.375e-05, + "loss": 0.2459, + "step": 1204 + }, + { + "epoch": 2.5125, + "grad_norm": 1.6151902675628662, + "learning_rate": 4.3739583333333334e-05, + "loss": 0.2727, + "step": 1206 + }, + { + "epoch": 2.5166666666666666, + "grad_norm": 1.5879002809524536, + "learning_rate": 4.372916666666667e-05, + "loss": 0.2213, + "step": 1208 + }, + { + "epoch": 2.5208333333333335, + "grad_norm": 1.3812625408172607, + "learning_rate": 4.371875e-05, + "loss": 0.2021, + "step": 1210 + }, + { + "epoch": 2.525, + "grad_norm": 1.653738260269165, + "learning_rate": 4.3708333333333336e-05, + "loss": 0.1843, + "step": 1212 + }, + { + "epoch": 2.529166666666667, + "grad_norm": 1.7354179620742798, + "learning_rate": 4.3697916666666664e-05, + "loss": 0.2887, + "step": 1214 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 1.7219070196151733, + "learning_rate": 4.3687500000000005e-05, + "loss": 0.1845, + "step": 1216 + }, + { + "epoch": 2.5375, + "grad_norm": 1.379468560218811, + "learning_rate": 4.367708333333333e-05, + "loss": 0.2191, + "step": 1218 + }, + { + "epoch": 2.5416666666666665, + "grad_norm": 1.3539037704467773, + "learning_rate": 4.3666666666666666e-05, + "loss": 0.1902, + "step": 1220 + }, + { + "epoch": 2.5458333333333334, + "grad_norm": 1.265698790550232, + "learning_rate": 4.365625000000001e-05, + "loss": 0.2032, + "step": 1222 + }, + { + "epoch": 2.55, + "grad_norm": 1.227260708808899, + "learning_rate": 4.3645833333333335e-05, + "loss": 0.2169, + "step": 1224 + }, + { + "epoch": 2.5541666666666667, + "grad_norm": 1.7307389974594116, + "learning_rate": 4.363541666666667e-05, + "loss": 0.1992, + "step": 1226 + }, + { + "epoch": 2.5583333333333336, + "grad_norm": 1.3850663900375366, + "learning_rate": 4.3625e-05, + "loss": 0.2437, + "step": 1228 + }, + { + "epoch": 2.5625, + "grad_norm": 1.1028953790664673, + "learning_rate": 4.361458333333334e-05, + "loss": 0.1808, + "step": 1230 + }, + { + "epoch": 2.5666666666666664, + "grad_norm": 1.5589038133621216, + "learning_rate": 4.3604166666666665e-05, + "loss": 0.1852, + "step": 1232 + }, + { + "epoch": 2.5708333333333333, + "grad_norm": 1.4984408617019653, + "learning_rate": 4.359375e-05, + "loss": 0.2037, + "step": 1234 + }, + { + "epoch": 2.575, + "grad_norm": 2.5568342208862305, + "learning_rate": 4.358333333333334e-05, + "loss": 0.2564, + "step": 1236 + }, + { + "epoch": 2.5791666666666666, + "grad_norm": 3.2925679683685303, + "learning_rate": 4.357291666666667e-05, + "loss": 0.2231, + "step": 1238 + }, + { + "epoch": 2.5833333333333335, + "grad_norm": 2.9577090740203857, + "learning_rate": 4.35625e-05, + "loss": 0.2261, + "step": 1240 + }, + { + "epoch": 2.5875, + "grad_norm": 1.5136194229125977, + "learning_rate": 4.3552083333333336e-05, + "loss": 0.2611, + "step": 1242 + }, + { + "epoch": 2.591666666666667, + "grad_norm": 1.5570526123046875, + "learning_rate": 4.354166666666667e-05, + "loss": 0.1974, + "step": 1244 + }, + { + "epoch": 2.595833333333333, + "grad_norm": 1.37061607837677, + "learning_rate": 4.3531250000000004e-05, + "loss": 0.1837, + "step": 1246 + }, + { + "epoch": 2.6, + "grad_norm": 1.357106328010559, + "learning_rate": 4.352083333333333e-05, + "loss": 0.2445, + "step": 1248 + }, + { + "epoch": 2.6041666666666665, + "grad_norm": 1.1884310245513916, + "learning_rate": 4.351041666666667e-05, + "loss": 0.1753, + "step": 1250 + }, + { + "epoch": 2.6083333333333334, + "grad_norm": 2.5349087715148926, + "learning_rate": 4.35e-05, + "loss": 0.2231, + "step": 1252 + }, + { + "epoch": 2.6125, + "grad_norm": 2.6109471321105957, + "learning_rate": 4.3489583333333334e-05, + "loss": 0.2256, + "step": 1254 + }, + { + "epoch": 2.6166666666666667, + "grad_norm": 1.200254201889038, + "learning_rate": 4.347916666666667e-05, + "loss": 0.1598, + "step": 1256 + }, + { + "epoch": 2.6208333333333336, + "grad_norm": 1.2124104499816895, + "learning_rate": 4.346875e-05, + "loss": 0.2074, + "step": 1258 + }, + { + "epoch": 2.625, + "grad_norm": 1.4751291275024414, + "learning_rate": 4.345833333333334e-05, + "loss": 0.2214, + "step": 1260 + }, + { + "epoch": 2.6291666666666664, + "grad_norm": 2.792368173599243, + "learning_rate": 4.344791666666667e-05, + "loss": 0.2034, + "step": 1262 + }, + { + "epoch": 2.6333333333333333, + "grad_norm": 1.664236307144165, + "learning_rate": 4.3437500000000006e-05, + "loss": 0.2675, + "step": 1264 + }, + { + "epoch": 2.6375, + "grad_norm": 1.7122992277145386, + "learning_rate": 4.342708333333333e-05, + "loss": 0.261, + "step": 1266 + }, + { + "epoch": 2.6416666666666666, + "grad_norm": 1.1819210052490234, + "learning_rate": 4.341666666666667e-05, + "loss": 0.1824, + "step": 1268 + }, + { + "epoch": 2.6458333333333335, + "grad_norm": 1.6627497673034668, + "learning_rate": 4.340625e-05, + "loss": 0.3118, + "step": 1270 + }, + { + "epoch": 2.65, + "grad_norm": 1.452576756477356, + "learning_rate": 4.3395833333333336e-05, + "loss": 0.2474, + "step": 1272 + }, + { + "epoch": 2.654166666666667, + "grad_norm": 1.515818476676941, + "learning_rate": 4.338541666666667e-05, + "loss": 0.2421, + "step": 1274 + }, + { + "epoch": 2.658333333333333, + "grad_norm": 1.9031646251678467, + "learning_rate": 4.3375000000000004e-05, + "loss": 0.2089, + "step": 1276 + }, + { + "epoch": 2.6625, + "grad_norm": 1.881917119026184, + "learning_rate": 4.336458333333334e-05, + "loss": 0.2591, + "step": 1278 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 2.4403209686279297, + "learning_rate": 4.3354166666666666e-05, + "loss": 0.2581, + "step": 1280 + }, + { + "epoch": 2.6708333333333334, + "grad_norm": 1.4121644496917725, + "learning_rate": 4.334375e-05, + "loss": 0.2152, + "step": 1282 + }, + { + "epoch": 2.675, + "grad_norm": 1.6262600421905518, + "learning_rate": 4.3333333333333334e-05, + "loss": 0.2188, + "step": 1284 + }, + { + "epoch": 2.6791666666666667, + "grad_norm": 1.5022155046463013, + "learning_rate": 4.332291666666667e-05, + "loss": 0.2097, + "step": 1286 + }, + { + "epoch": 2.6833333333333336, + "grad_norm": 1.8110175132751465, + "learning_rate": 4.33125e-05, + "loss": 0.2866, + "step": 1288 + }, + { + "epoch": 2.6875, + "grad_norm": 1.3604505062103271, + "learning_rate": 4.330208333333334e-05, + "loss": 0.2124, + "step": 1290 + }, + { + "epoch": 2.6916666666666664, + "grad_norm": 1.4620341062545776, + "learning_rate": 4.329166666666667e-05, + "loss": 0.1727, + "step": 1292 + }, + { + "epoch": 2.6958333333333333, + "grad_norm": 1.5851439237594604, + "learning_rate": 4.328125e-05, + "loss": 0.2072, + "step": 1294 + }, + { + "epoch": 2.7, + "grad_norm": 1.6393001079559326, + "learning_rate": 4.327083333333333e-05, + "loss": 0.1973, + "step": 1296 + }, + { + "epoch": 2.7041666666666666, + "grad_norm": 1.8356029987335205, + "learning_rate": 4.326041666666667e-05, + "loss": 0.2317, + "step": 1298 + }, + { + "epoch": 2.7083333333333335, + "grad_norm": 1.1322109699249268, + "learning_rate": 4.325e-05, + "loss": 0.1377, + "step": 1300 + }, + { + "epoch": 2.7125, + "grad_norm": 2.190966844558716, + "learning_rate": 4.3239583333333335e-05, + "loss": 0.2268, + "step": 1302 + }, + { + "epoch": 2.716666666666667, + "grad_norm": 1.643975019454956, + "learning_rate": 4.322916666666667e-05, + "loss": 0.2133, + "step": 1304 + }, + { + "epoch": 2.720833333333333, + "grad_norm": 1.4952512979507446, + "learning_rate": 4.3218750000000004e-05, + "loss": 0.1778, + "step": 1306 + }, + { + "epoch": 2.725, + "grad_norm": 1.2918403148651123, + "learning_rate": 4.320833333333333e-05, + "loss": 0.1574, + "step": 1308 + }, + { + "epoch": 2.7291666666666665, + "grad_norm": 1.5186455249786377, + "learning_rate": 4.319791666666667e-05, + "loss": 0.2711, + "step": 1310 + }, + { + "epoch": 2.7333333333333334, + "grad_norm": 1.895302653312683, + "learning_rate": 4.3187500000000006e-05, + "loss": 0.2216, + "step": 1312 + }, + { + "epoch": 2.7375, + "grad_norm": 1.357857584953308, + "learning_rate": 4.3177083333333334e-05, + "loss": 0.2537, + "step": 1314 + }, + { + "epoch": 2.7416666666666667, + "grad_norm": 2.65755033493042, + "learning_rate": 4.316666666666667e-05, + "loss": 0.1867, + "step": 1316 + }, + { + "epoch": 2.7458333333333336, + "grad_norm": 1.9775125980377197, + "learning_rate": 4.315625e-05, + "loss": 0.244, + "step": 1318 + }, + { + "epoch": 2.75, + "grad_norm": 1.416808009147644, + "learning_rate": 4.3145833333333336e-05, + "loss": 0.1938, + "step": 1320 + }, + { + "epoch": 2.7541666666666664, + "grad_norm": 1.86478590965271, + "learning_rate": 4.3135416666666664e-05, + "loss": 0.2239, + "step": 1322 + }, + { + "epoch": 2.7583333333333333, + "grad_norm": 1.306985855102539, + "learning_rate": 4.3125000000000005e-05, + "loss": 0.25, + "step": 1324 + }, + { + "epoch": 2.7625, + "grad_norm": 1.3003884553909302, + "learning_rate": 4.311458333333334e-05, + "loss": 0.2357, + "step": 1326 + }, + { + "epoch": 2.7666666666666666, + "grad_norm": 1.6702914237976074, + "learning_rate": 4.3104166666666666e-05, + "loss": 0.2242, + "step": 1328 + }, + { + "epoch": 2.7708333333333335, + "grad_norm": 1.4400745630264282, + "learning_rate": 4.309375e-05, + "loss": 0.2205, + "step": 1330 + }, + { + "epoch": 2.775, + "grad_norm": 2.1861398220062256, + "learning_rate": 4.3083333333333335e-05, + "loss": 0.2528, + "step": 1332 + }, + { + "epoch": 2.779166666666667, + "grad_norm": 1.647605538368225, + "learning_rate": 4.307291666666667e-05, + "loss": 0.2109, + "step": 1334 + }, + { + "epoch": 2.783333333333333, + "grad_norm": 1.4835306406021118, + "learning_rate": 4.30625e-05, + "loss": 0.1859, + "step": 1336 + }, + { + "epoch": 2.7875, + "grad_norm": 1.217759609222412, + "learning_rate": 4.305208333333334e-05, + "loss": 0.1899, + "step": 1338 + }, + { + "epoch": 2.7916666666666665, + "grad_norm": 1.4864473342895508, + "learning_rate": 4.304166666666667e-05, + "loss": 0.2379, + "step": 1340 + }, + { + "epoch": 2.7958333333333334, + "grad_norm": 2.197226047515869, + "learning_rate": 4.303125e-05, + "loss": 0.2429, + "step": 1342 + }, + { + "epoch": 2.8, + "grad_norm": 6.797986030578613, + "learning_rate": 4.302083333333334e-05, + "loss": 0.2785, + "step": 1344 + }, + { + "epoch": 2.8041666666666667, + "grad_norm": 1.3896214962005615, + "learning_rate": 4.301041666666667e-05, + "loss": 0.2173, + "step": 1346 + }, + { + "epoch": 2.8083333333333336, + "grad_norm": 1.5414702892303467, + "learning_rate": 4.3e-05, + "loss": 0.2022, + "step": 1348 + }, + { + "epoch": 2.8125, + "grad_norm": 3.0971367359161377, + "learning_rate": 4.2989583333333336e-05, + "loss": 0.1911, + "step": 1350 + }, + { + "epoch": 2.8166666666666664, + "grad_norm": 1.7237024307250977, + "learning_rate": 4.297916666666667e-05, + "loss": 0.185, + "step": 1352 + }, + { + "epoch": 2.8208333333333333, + "grad_norm": 1.887829303741455, + "learning_rate": 4.2968750000000004e-05, + "loss": 0.2584, + "step": 1354 + }, + { + "epoch": 2.825, + "grad_norm": 1.3321946859359741, + "learning_rate": 4.295833333333333e-05, + "loss": 0.2065, + "step": 1356 + }, + { + "epoch": 2.8291666666666666, + "grad_norm": 2.0359106063842773, + "learning_rate": 4.294791666666667e-05, + "loss": 0.2317, + "step": 1358 + }, + { + "epoch": 2.8333333333333335, + "grad_norm": 3.5705251693725586, + "learning_rate": 4.29375e-05, + "loss": 0.2023, + "step": 1360 + }, + { + "epoch": 2.8375, + "grad_norm": 2.0574769973754883, + "learning_rate": 4.2927083333333334e-05, + "loss": 0.3059, + "step": 1362 + }, + { + "epoch": 2.841666666666667, + "grad_norm": 1.4982130527496338, + "learning_rate": 4.291666666666667e-05, + "loss": 0.2071, + "step": 1364 + }, + { + "epoch": 2.845833333333333, + "grad_norm": 2.7562787532806396, + "learning_rate": 4.290625e-05, + "loss": 0.2305, + "step": 1366 + }, + { + "epoch": 2.85, + "grad_norm": 2.043410301208496, + "learning_rate": 4.289583333333334e-05, + "loss": 0.2489, + "step": 1368 + }, + { + "epoch": 2.8541666666666665, + "grad_norm": 1.290349006652832, + "learning_rate": 4.2885416666666664e-05, + "loss": 0.2165, + "step": 1370 + }, + { + "epoch": 2.8583333333333334, + "grad_norm": 1.6330872774124146, + "learning_rate": 4.2875000000000005e-05, + "loss": 0.2438, + "step": 1372 + }, + { + "epoch": 2.8625, + "grad_norm": 1.2713474035263062, + "learning_rate": 4.286458333333333e-05, + "loss": 0.2111, + "step": 1374 + }, + { + "epoch": 2.8666666666666667, + "grad_norm": 1.5104541778564453, + "learning_rate": 4.285416666666667e-05, + "loss": 0.2292, + "step": 1376 + }, + { + "epoch": 2.8708333333333336, + "grad_norm": 1.7579480409622192, + "learning_rate": 4.284375000000001e-05, + "loss": 0.226, + "step": 1378 + }, + { + "epoch": 2.875, + "grad_norm": 1.832525610923767, + "learning_rate": 4.2833333333333335e-05, + "loss": 0.2012, + "step": 1380 + }, + { + "epoch": 2.8791666666666664, + "grad_norm": 1.4593583345413208, + "learning_rate": 4.282291666666667e-05, + "loss": 0.206, + "step": 1382 + }, + { + "epoch": 2.8833333333333333, + "grad_norm": 2.2228939533233643, + "learning_rate": 4.28125e-05, + "loss": 0.2485, + "step": 1384 + }, + { + "epoch": 2.8875, + "grad_norm": 1.515779972076416, + "learning_rate": 4.280208333333334e-05, + "loss": 0.2297, + "step": 1386 + }, + { + "epoch": 2.8916666666666666, + "grad_norm": 2.7737841606140137, + "learning_rate": 4.2791666666666666e-05, + "loss": 0.2419, + "step": 1388 + }, + { + "epoch": 2.8958333333333335, + "grad_norm": 1.3283833265304565, + "learning_rate": 4.278125e-05, + "loss": 0.2009, + "step": 1390 + }, + { + "epoch": 2.9, + "grad_norm": 1.7612797021865845, + "learning_rate": 4.277083333333334e-05, + "loss": 0.2349, + "step": 1392 + }, + { + "epoch": 2.904166666666667, + "grad_norm": 1.6947081089019775, + "learning_rate": 4.276041666666667e-05, + "loss": 0.2496, + "step": 1394 + }, + { + "epoch": 2.908333333333333, + "grad_norm": 1.94141685962677, + "learning_rate": 4.275e-05, + "loss": 0.1962, + "step": 1396 + }, + { + "epoch": 2.9125, + "grad_norm": 2.429130792617798, + "learning_rate": 4.273958333333333e-05, + "loss": 0.188, + "step": 1398 + }, + { + "epoch": 2.9166666666666665, + "grad_norm": 1.576021671295166, + "learning_rate": 4.272916666666667e-05, + "loss": 0.269, + "step": 1400 + }, + { + "epoch": 2.9166666666666665, + "eval_cer": 0.07127387827632163, + "eval_loss": 0.38219964504241943, + "eval_runtime": 75.3909, + "eval_samples_per_second": 5.226, + "eval_steps_per_second": 0.663, + "step": 1400 + }, + { + "epoch": 2.9208333333333334, + "grad_norm": 1.5535674095153809, + "learning_rate": 4.2718750000000005e-05, + "loss": 0.2122, + "step": 1402 + }, + { + "epoch": 2.925, + "grad_norm": 1.5989277362823486, + "learning_rate": 4.270833333333333e-05, + "loss": 0.2112, + "step": 1404 + }, + { + "epoch": 2.9291666666666667, + "grad_norm": 2.9372928142547607, + "learning_rate": 4.2697916666666673e-05, + "loss": 0.1948, + "step": 1406 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 3.926989793777466, + "learning_rate": 4.26875e-05, + "loss": 0.2046, + "step": 1408 + }, + { + "epoch": 2.9375, + "grad_norm": 3.5219833850860596, + "learning_rate": 4.2677083333333335e-05, + "loss": 0.2155, + "step": 1410 + }, + { + "epoch": 2.9416666666666664, + "grad_norm": 1.4303228855133057, + "learning_rate": 4.266666666666667e-05, + "loss": 0.2206, + "step": 1412 + }, + { + "epoch": 2.9458333333333333, + "grad_norm": 1.6323908567428589, + "learning_rate": 4.2656250000000003e-05, + "loss": 0.2115, + "step": 1414 + }, + { + "epoch": 2.95, + "grad_norm": 2.1126458644866943, + "learning_rate": 4.264583333333334e-05, + "loss": 0.2623, + "step": 1416 + }, + { + "epoch": 2.9541666666666666, + "grad_norm": 1.75184166431427, + "learning_rate": 4.2635416666666665e-05, + "loss": 0.238, + "step": 1418 + }, + { + "epoch": 2.9583333333333335, + "grad_norm": 1.4419358968734741, + "learning_rate": 4.2625000000000006e-05, + "loss": 0.2116, + "step": 1420 + }, + { + "epoch": 2.9625, + "grad_norm": 1.431279182434082, + "learning_rate": 4.2614583333333334e-05, + "loss": 0.2143, + "step": 1422 + }, + { + "epoch": 2.966666666666667, + "grad_norm": 2.0129618644714355, + "learning_rate": 4.260416666666667e-05, + "loss": 0.1977, + "step": 1424 + }, + { + "epoch": 2.970833333333333, + "grad_norm": 1.8251585960388184, + "learning_rate": 4.259375e-05, + "loss": 0.2154, + "step": 1426 + }, + { + "epoch": 2.975, + "grad_norm": 1.744811773300171, + "learning_rate": 4.2583333333333336e-05, + "loss": 0.2091, + "step": 1428 + }, + { + "epoch": 2.9791666666666665, + "grad_norm": 1.777603268623352, + "learning_rate": 4.257291666666667e-05, + "loss": 0.21, + "step": 1430 + }, + { + "epoch": 2.9833333333333334, + "grad_norm": 1.6050989627838135, + "learning_rate": 4.25625e-05, + "loss": 0.1813, + "step": 1432 + }, + { + "epoch": 2.9875, + "grad_norm": 2.037828207015991, + "learning_rate": 4.255208333333334e-05, + "loss": 0.2484, + "step": 1434 + }, + { + "epoch": 2.9916666666666667, + "grad_norm": 1.5201936960220337, + "learning_rate": 4.2541666666666666e-05, + "loss": 0.254, + "step": 1436 + }, + { + "epoch": 2.9958333333333336, + "grad_norm": 1.208296537399292, + "learning_rate": 4.253125e-05, + "loss": 0.1939, + "step": 1438 + }, + { + "epoch": 3.0, + "grad_norm": 7.683149337768555, + "learning_rate": 4.2520833333333335e-05, + "loss": 0.2676, + "step": 1440 + }, + { + "epoch": 3.004166666666667, + "grad_norm": 1.0585312843322754, + "learning_rate": 4.251041666666667e-05, + "loss": 0.1132, + "step": 1442 + }, + { + "epoch": 3.0083333333333333, + "grad_norm": 1.9001704454421997, + "learning_rate": 4.25e-05, + "loss": 0.1603, + "step": 1444 + }, + { + "epoch": 3.0125, + "grad_norm": 1.3398246765136719, + "learning_rate": 4.248958333333333e-05, + "loss": 0.1242, + "step": 1446 + }, + { + "epoch": 3.0166666666666666, + "grad_norm": 1.183228850364685, + "learning_rate": 4.247916666666667e-05, + "loss": 0.1109, + "step": 1448 + }, + { + "epoch": 3.0208333333333335, + "grad_norm": 0.9420936703681946, + "learning_rate": 4.246875e-05, + "loss": 0.1324, + "step": 1450 + }, + { + "epoch": 3.025, + "grad_norm": 1.2667937278747559, + "learning_rate": 4.245833333333333e-05, + "loss": 0.1299, + "step": 1452 + }, + { + "epoch": 3.029166666666667, + "grad_norm": 2.158015012741089, + "learning_rate": 4.244791666666667e-05, + "loss": 0.1397, + "step": 1454 + }, + { + "epoch": 3.033333333333333, + "grad_norm": 1.5036756992340088, + "learning_rate": 4.24375e-05, + "loss": 0.1277, + "step": 1456 + }, + { + "epoch": 3.0375, + "grad_norm": 4.635229110717773, + "learning_rate": 4.2427083333333336e-05, + "loss": 0.1628, + "step": 1458 + }, + { + "epoch": 3.0416666666666665, + "grad_norm": 1.5134133100509644, + "learning_rate": 4.241666666666667e-05, + "loss": 0.1121, + "step": 1460 + }, + { + "epoch": 3.0458333333333334, + "grad_norm": 1.1656543016433716, + "learning_rate": 4.2406250000000004e-05, + "loss": 0.1408, + "step": 1462 + }, + { + "epoch": 3.05, + "grad_norm": 1.0877996683120728, + "learning_rate": 4.239583333333333e-05, + "loss": 0.1386, + "step": 1464 + }, + { + "epoch": 3.0541666666666667, + "grad_norm": 2.6555473804473877, + "learning_rate": 4.2385416666666666e-05, + "loss": 0.152, + "step": 1466 + }, + { + "epoch": 3.058333333333333, + "grad_norm": 1.830384612083435, + "learning_rate": 4.237500000000001e-05, + "loss": 0.121, + "step": 1468 + }, + { + "epoch": 3.0625, + "grad_norm": 1.5983179807662964, + "learning_rate": 4.2364583333333334e-05, + "loss": 0.0995, + "step": 1470 + }, + { + "epoch": 3.066666666666667, + "grad_norm": 0.946374773979187, + "learning_rate": 4.235416666666667e-05, + "loss": 0.083, + "step": 1472 + }, + { + "epoch": 3.0708333333333333, + "grad_norm": 1.1335362195968628, + "learning_rate": 4.234375e-05, + "loss": 0.1055, + "step": 1474 + }, + { + "epoch": 3.075, + "grad_norm": 1.1014026403427124, + "learning_rate": 4.233333333333334e-05, + "loss": 0.139, + "step": 1476 + }, + { + "epoch": 3.0791666666666666, + "grad_norm": 1.1663084030151367, + "learning_rate": 4.2322916666666664e-05, + "loss": 0.1217, + "step": 1478 + }, + { + "epoch": 3.0833333333333335, + "grad_norm": 1.5154469013214111, + "learning_rate": 4.23125e-05, + "loss": 0.1031, + "step": 1480 + }, + { + "epoch": 3.0875, + "grad_norm": 1.2349669933319092, + "learning_rate": 4.230208333333334e-05, + "loss": 0.1178, + "step": 1482 + }, + { + "epoch": 3.091666666666667, + "grad_norm": 1.6843750476837158, + "learning_rate": 4.229166666666667e-05, + "loss": 0.1236, + "step": 1484 + }, + { + "epoch": 3.095833333333333, + "grad_norm": 1.6554228067398071, + "learning_rate": 4.228125e-05, + "loss": 0.1531, + "step": 1486 + }, + { + "epoch": 3.1, + "grad_norm": 1.2070661783218384, + "learning_rate": 4.2270833333333335e-05, + "loss": 0.1148, + "step": 1488 + }, + { + "epoch": 3.1041666666666665, + "grad_norm": 1.622701644897461, + "learning_rate": 4.226041666666667e-05, + "loss": 0.1227, + "step": 1490 + }, + { + "epoch": 3.1083333333333334, + "grad_norm": 1.1217010021209717, + "learning_rate": 4.2250000000000004e-05, + "loss": 0.0999, + "step": 1492 + }, + { + "epoch": 3.1125, + "grad_norm": 1.2221012115478516, + "learning_rate": 4.223958333333334e-05, + "loss": 0.1405, + "step": 1494 + }, + { + "epoch": 3.1166666666666667, + "grad_norm": 0.9627748727798462, + "learning_rate": 4.222916666666667e-05, + "loss": 0.112, + "step": 1496 + }, + { + "epoch": 3.120833333333333, + "grad_norm": 1.4720484018325806, + "learning_rate": 4.221875e-05, + "loss": 0.147, + "step": 1498 + }, + { + "epoch": 3.125, + "grad_norm": 1.0047627687454224, + "learning_rate": 4.2208333333333334e-05, + "loss": 0.1108, + "step": 1500 + }, + { + "epoch": 3.129166666666667, + "grad_norm": 1.0739425420761108, + "learning_rate": 4.219791666666667e-05, + "loss": 0.1102, + "step": 1502 + }, + { + "epoch": 3.1333333333333333, + "grad_norm": 1.1110256910324097, + "learning_rate": 4.21875e-05, + "loss": 0.1436, + "step": 1504 + }, + { + "epoch": 3.1375, + "grad_norm": 1.7615087032318115, + "learning_rate": 4.2177083333333336e-05, + "loss": 0.1327, + "step": 1506 + }, + { + "epoch": 3.1416666666666666, + "grad_norm": 1.0992487668991089, + "learning_rate": 4.216666666666667e-05, + "loss": 0.1133, + "step": 1508 + }, + { + "epoch": 3.1458333333333335, + "grad_norm": 1.4103868007659912, + "learning_rate": 4.2156250000000005e-05, + "loss": 0.1265, + "step": 1510 + }, + { + "epoch": 3.15, + "grad_norm": 2.6387603282928467, + "learning_rate": 4.214583333333333e-05, + "loss": 0.1417, + "step": 1512 + }, + { + "epoch": 3.154166666666667, + "grad_norm": 1.7786818742752075, + "learning_rate": 4.2135416666666667e-05, + "loss": 0.1224, + "step": 1514 + }, + { + "epoch": 3.158333333333333, + "grad_norm": 1.0935674905776978, + "learning_rate": 4.2125e-05, + "loss": 0.1772, + "step": 1516 + }, + { + "epoch": 3.1625, + "grad_norm": 1.3374816179275513, + "learning_rate": 4.2114583333333335e-05, + "loss": 0.1714, + "step": 1518 + }, + { + "epoch": 3.1666666666666665, + "grad_norm": 1.6728715896606445, + "learning_rate": 4.210416666666667e-05, + "loss": 0.1292, + "step": 1520 + }, + { + "epoch": 3.1708333333333334, + "grad_norm": 1.42146635055542, + "learning_rate": 4.209375e-05, + "loss": 0.1399, + "step": 1522 + }, + { + "epoch": 3.175, + "grad_norm": 1.9606537818908691, + "learning_rate": 4.208333333333334e-05, + "loss": 0.1816, + "step": 1524 + }, + { + "epoch": 3.1791666666666667, + "grad_norm": 1.4105467796325684, + "learning_rate": 4.2072916666666665e-05, + "loss": 0.1084, + "step": 1526 + }, + { + "epoch": 3.183333333333333, + "grad_norm": 1.243796706199646, + "learning_rate": 4.2062500000000006e-05, + "loss": 0.129, + "step": 1528 + }, + { + "epoch": 3.1875, + "grad_norm": 0.9492446184158325, + "learning_rate": 4.2052083333333333e-05, + "loss": 0.1078, + "step": 1530 + }, + { + "epoch": 3.191666666666667, + "grad_norm": 1.2490218877792358, + "learning_rate": 4.204166666666667e-05, + "loss": 0.1239, + "step": 1532 + }, + { + "epoch": 3.1958333333333333, + "grad_norm": 1.5585674047470093, + "learning_rate": 4.203125e-05, + "loss": 0.1048, + "step": 1534 + }, + { + "epoch": 3.2, + "grad_norm": 0.9250554442405701, + "learning_rate": 4.2020833333333336e-05, + "loss": 0.139, + "step": 1536 + }, + { + "epoch": 3.2041666666666666, + "grad_norm": 1.3945847749710083, + "learning_rate": 4.201041666666667e-05, + "loss": 0.123, + "step": 1538 + }, + { + "epoch": 3.2083333333333335, + "grad_norm": 1.6749660968780518, + "learning_rate": 4.2e-05, + "loss": 0.1344, + "step": 1540 + }, + { + "epoch": 3.2125, + "grad_norm": 1.0330158472061157, + "learning_rate": 4.198958333333334e-05, + "loss": 0.1383, + "step": 1542 + }, + { + "epoch": 3.216666666666667, + "grad_norm": 1.1079312562942505, + "learning_rate": 4.1979166666666666e-05, + "loss": 0.1154, + "step": 1544 + }, + { + "epoch": 3.220833333333333, + "grad_norm": 1.6674998998641968, + "learning_rate": 4.196875e-05, + "loss": 0.1204, + "step": 1546 + }, + { + "epoch": 3.225, + "grad_norm": 5.66860294342041, + "learning_rate": 4.1958333333333335e-05, + "loss": 0.1206, + "step": 1548 + }, + { + "epoch": 3.2291666666666665, + "grad_norm": 2.300869941711426, + "learning_rate": 4.194791666666667e-05, + "loss": 0.1592, + "step": 1550 + }, + { + "epoch": 3.2333333333333334, + "grad_norm": 2.8536901473999023, + "learning_rate": 4.19375e-05, + "loss": 0.1313, + "step": 1552 + }, + { + "epoch": 3.2375, + "grad_norm": 1.1660664081573486, + "learning_rate": 4.192708333333333e-05, + "loss": 0.123, + "step": 1554 + }, + { + "epoch": 3.2416666666666667, + "grad_norm": 0.8291750550270081, + "learning_rate": 4.191666666666667e-05, + "loss": 0.1099, + "step": 1556 + }, + { + "epoch": 3.245833333333333, + "grad_norm": 1.5767617225646973, + "learning_rate": 4.1906250000000006e-05, + "loss": 0.1502, + "step": 1558 + }, + { + "epoch": 3.25, + "grad_norm": 2.3557372093200684, + "learning_rate": 4.189583333333333e-05, + "loss": 0.1508, + "step": 1560 + }, + { + "epoch": 3.2541666666666664, + "grad_norm": 3.4443061351776123, + "learning_rate": 4.1885416666666674e-05, + "loss": 0.1598, + "step": 1562 + }, + { + "epoch": 3.2583333333333333, + "grad_norm": 1.5881638526916504, + "learning_rate": 4.1875e-05, + "loss": 0.1463, + "step": 1564 + }, + { + "epoch": 3.2625, + "grad_norm": 1.1889843940734863, + "learning_rate": 4.1864583333333336e-05, + "loss": 0.1263, + "step": 1566 + }, + { + "epoch": 3.2666666666666666, + "grad_norm": 0.9803023338317871, + "learning_rate": 4.185416666666667e-05, + "loss": 0.1067, + "step": 1568 + }, + { + "epoch": 3.2708333333333335, + "grad_norm": 1.1488244533538818, + "learning_rate": 4.1843750000000004e-05, + "loss": 0.1342, + "step": 1570 + }, + { + "epoch": 3.275, + "grad_norm": 1.20540452003479, + "learning_rate": 4.183333333333334e-05, + "loss": 0.1154, + "step": 1572 + }, + { + "epoch": 3.279166666666667, + "grad_norm": 3.5498504638671875, + "learning_rate": 4.1822916666666666e-05, + "loss": 0.1501, + "step": 1574 + }, + { + "epoch": 3.283333333333333, + "grad_norm": 1.1130403280258179, + "learning_rate": 4.181250000000001e-05, + "loss": 0.1471, + "step": 1576 + }, + { + "epoch": 3.2875, + "grad_norm": 1.1990911960601807, + "learning_rate": 4.1802083333333334e-05, + "loss": 0.1156, + "step": 1578 + }, + { + "epoch": 3.2916666666666665, + "grad_norm": 1.5744044780731201, + "learning_rate": 4.179166666666667e-05, + "loss": 0.1664, + "step": 1580 + }, + { + "epoch": 3.2958333333333334, + "grad_norm": 1.6349917650222778, + "learning_rate": 4.178125e-05, + "loss": 0.1401, + "step": 1582 + }, + { + "epoch": 3.3, + "grad_norm": 1.4289801120758057, + "learning_rate": 4.177083333333334e-05, + "loss": 0.1339, + "step": 1584 + }, + { + "epoch": 3.3041666666666667, + "grad_norm": 4.1881327629089355, + "learning_rate": 4.176041666666667e-05, + "loss": 0.119, + "step": 1586 + }, + { + "epoch": 3.3083333333333336, + "grad_norm": 1.5428208112716675, + "learning_rate": 4.175e-05, + "loss": 0.1453, + "step": 1588 + }, + { + "epoch": 3.3125, + "grad_norm": 1.1360819339752197, + "learning_rate": 4.173958333333334e-05, + "loss": 0.1165, + "step": 1590 + }, + { + "epoch": 3.3166666666666664, + "grad_norm": 1.577723503112793, + "learning_rate": 4.172916666666667e-05, + "loss": 0.093, + "step": 1592 + }, + { + "epoch": 3.3208333333333333, + "grad_norm": 2.032590866088867, + "learning_rate": 4.171875e-05, + "loss": 0.1561, + "step": 1594 + }, + { + "epoch": 3.325, + "grad_norm": 1.0551749467849731, + "learning_rate": 4.1708333333333335e-05, + "loss": 0.1516, + "step": 1596 + }, + { + "epoch": 3.3291666666666666, + "grad_norm": 2.18514347076416, + "learning_rate": 4.169791666666667e-05, + "loss": 0.131, + "step": 1598 + }, + { + "epoch": 3.3333333333333335, + "grad_norm": 2.168219804763794, + "learning_rate": 4.1687500000000004e-05, + "loss": 0.08, + "step": 1600 + }, + { + "epoch": 3.3333333333333335, + "eval_cer": 0.06919147045757441, + "eval_loss": 0.38674163818359375, + "eval_runtime": 75.933, + "eval_samples_per_second": 5.189, + "eval_steps_per_second": 0.658, + "step": 1600 + }, + { + "epoch": 3.3375, + "grad_norm": 0.9789871573448181, + "learning_rate": 4.167708333333333e-05, + "loss": 0.1244, + "step": 1602 + }, + { + "epoch": 3.341666666666667, + "grad_norm": 1.2124202251434326, + "learning_rate": 4.166666666666667e-05, + "loss": 0.138, + "step": 1604 + }, + { + "epoch": 3.345833333333333, + "grad_norm": 1.1078590154647827, + "learning_rate": 4.165625e-05, + "loss": 0.1336, + "step": 1606 + }, + { + "epoch": 3.35, + "grad_norm": 1.4254099130630493, + "learning_rate": 4.1645833333333334e-05, + "loss": 0.1217, + "step": 1608 + }, + { + "epoch": 3.3541666666666665, + "grad_norm": 1.1431655883789062, + "learning_rate": 4.163541666666667e-05, + "loss": 0.1129, + "step": 1610 + }, + { + "epoch": 3.3583333333333334, + "grad_norm": 6.114867210388184, + "learning_rate": 4.1625e-05, + "loss": 0.1744, + "step": 1612 + }, + { + "epoch": 3.3625, + "grad_norm": 1.122510552406311, + "learning_rate": 4.1614583333333336e-05, + "loss": 0.1332, + "step": 1614 + }, + { + "epoch": 3.3666666666666667, + "grad_norm": 1.384939193725586, + "learning_rate": 4.1604166666666664e-05, + "loss": 0.1601, + "step": 1616 + }, + { + "epoch": 3.3708333333333336, + "grad_norm": 1.4601702690124512, + "learning_rate": 4.1593750000000005e-05, + "loss": 0.1664, + "step": 1618 + }, + { + "epoch": 3.375, + "grad_norm": 1.294093370437622, + "learning_rate": 4.158333333333333e-05, + "loss": 0.1324, + "step": 1620 + }, + { + "epoch": 3.3791666666666664, + "grad_norm": 1.260665774345398, + "learning_rate": 4.1572916666666666e-05, + "loss": 0.112, + "step": 1622 + }, + { + "epoch": 3.3833333333333333, + "grad_norm": 1.8950210809707642, + "learning_rate": 4.156250000000001e-05, + "loss": 0.1338, + "step": 1624 + }, + { + "epoch": 3.3875, + "grad_norm": 1.338769555091858, + "learning_rate": 4.1552083333333335e-05, + "loss": 0.1122, + "step": 1626 + }, + { + "epoch": 3.3916666666666666, + "grad_norm": 1.688138723373413, + "learning_rate": 4.154166666666667e-05, + "loss": 0.1527, + "step": 1628 + }, + { + "epoch": 3.3958333333333335, + "grad_norm": 0.9535319209098816, + "learning_rate": 4.1531249999999996e-05, + "loss": 0.1062, + "step": 1630 + }, + { + "epoch": 3.4, + "grad_norm": 0.9876632690429688, + "learning_rate": 4.152083333333334e-05, + "loss": 0.1062, + "step": 1632 + }, + { + "epoch": 3.404166666666667, + "grad_norm": 1.5900918245315552, + "learning_rate": 4.151041666666667e-05, + "loss": 0.1393, + "step": 1634 + }, + { + "epoch": 3.408333333333333, + "grad_norm": 1.1279194355010986, + "learning_rate": 4.15e-05, + "loss": 0.1309, + "step": 1636 + }, + { + "epoch": 3.4125, + "grad_norm": 1.1501954793930054, + "learning_rate": 4.148958333333334e-05, + "loss": 0.1175, + "step": 1638 + }, + { + "epoch": 3.4166666666666665, + "grad_norm": 1.200241208076477, + "learning_rate": 4.147916666666667e-05, + "loss": 0.1169, + "step": 1640 + }, + { + "epoch": 3.4208333333333334, + "grad_norm": 1.5723122358322144, + "learning_rate": 4.146875e-05, + "loss": 0.1425, + "step": 1642 + }, + { + "epoch": 3.425, + "grad_norm": 2.600003957748413, + "learning_rate": 4.1458333333333336e-05, + "loss": 0.1409, + "step": 1644 + }, + { + "epoch": 3.4291666666666667, + "grad_norm": 1.0685324668884277, + "learning_rate": 4.144791666666667e-05, + "loss": 0.1233, + "step": 1646 + }, + { + "epoch": 3.4333333333333336, + "grad_norm": 1.4161605834960938, + "learning_rate": 4.1437500000000004e-05, + "loss": 0.122, + "step": 1648 + }, + { + "epoch": 3.4375, + "grad_norm": 1.3723641633987427, + "learning_rate": 4.142708333333333e-05, + "loss": 0.1265, + "step": 1650 + }, + { + "epoch": 3.4416666666666664, + "grad_norm": 1.191463828086853, + "learning_rate": 4.141666666666667e-05, + "loss": 0.1521, + "step": 1652 + }, + { + "epoch": 3.4458333333333333, + "grad_norm": 1.0381888151168823, + "learning_rate": 4.140625e-05, + "loss": 0.1807, + "step": 1654 + }, + { + "epoch": 3.45, + "grad_norm": 1.4666184186935425, + "learning_rate": 4.1395833333333334e-05, + "loss": 0.1427, + "step": 1656 + }, + { + "epoch": 3.4541666666666666, + "grad_norm": 1.1494156122207642, + "learning_rate": 4.138541666666667e-05, + "loss": 0.1313, + "step": 1658 + }, + { + "epoch": 3.4583333333333335, + "grad_norm": 1.5117828845977783, + "learning_rate": 4.1375e-05, + "loss": 0.1779, + "step": 1660 + }, + { + "epoch": 3.4625, + "grad_norm": 1.1415683031082153, + "learning_rate": 4.136458333333334e-05, + "loss": 0.118, + "step": 1662 + }, + { + "epoch": 3.466666666666667, + "grad_norm": 0.9682338237762451, + "learning_rate": 4.1354166666666664e-05, + "loss": 0.1134, + "step": 1664 + }, + { + "epoch": 3.470833333333333, + "grad_norm": 1.5752220153808594, + "learning_rate": 4.1343750000000005e-05, + "loss": 0.1274, + "step": 1666 + }, + { + "epoch": 3.475, + "grad_norm": 1.3070414066314697, + "learning_rate": 4.133333333333333e-05, + "loss": 0.0885, + "step": 1668 + }, + { + "epoch": 3.4791666666666665, + "grad_norm": 3.335270881652832, + "learning_rate": 4.132291666666667e-05, + "loss": 0.1216, + "step": 1670 + }, + { + "epoch": 3.4833333333333334, + "grad_norm": 1.2464452981948853, + "learning_rate": 4.13125e-05, + "loss": 0.1621, + "step": 1672 + }, + { + "epoch": 3.4875, + "grad_norm": 1.1977710723876953, + "learning_rate": 4.1302083333333336e-05, + "loss": 0.1182, + "step": 1674 + }, + { + "epoch": 3.4916666666666667, + "grad_norm": 1.1550865173339844, + "learning_rate": 4.129166666666667e-05, + "loss": 0.1344, + "step": 1676 + }, + { + "epoch": 3.4958333333333336, + "grad_norm": 1.385967493057251, + "learning_rate": 4.1281250000000004e-05, + "loss": 0.1128, + "step": 1678 + }, + { + "epoch": 3.5, + "grad_norm": 1.210734486579895, + "learning_rate": 4.127083333333334e-05, + "loss": 0.1092, + "step": 1680 + }, + { + "epoch": 3.5041666666666664, + "grad_norm": 1.8904080390930176, + "learning_rate": 4.1260416666666666e-05, + "loss": 0.1584, + "step": 1682 + }, + { + "epoch": 3.5083333333333333, + "grad_norm": 1.1278917789459229, + "learning_rate": 4.125e-05, + "loss": 0.124, + "step": 1684 + }, + { + "epoch": 3.5125, + "grad_norm": 1.808807611465454, + "learning_rate": 4.1239583333333334e-05, + "loss": 0.1322, + "step": 1686 + }, + { + "epoch": 3.5166666666666666, + "grad_norm": 1.52069091796875, + "learning_rate": 4.122916666666667e-05, + "loss": 0.1459, + "step": 1688 + }, + { + "epoch": 3.5208333333333335, + "grad_norm": 1.5166401863098145, + "learning_rate": 4.121875e-05, + "loss": 0.1602, + "step": 1690 + }, + { + "epoch": 3.525, + "grad_norm": 1.150036334991455, + "learning_rate": 4.120833333333334e-05, + "loss": 0.1153, + "step": 1692 + }, + { + "epoch": 3.529166666666667, + "grad_norm": 1.9748836755752563, + "learning_rate": 4.119791666666667e-05, + "loss": 0.1402, + "step": 1694 + }, + { + "epoch": 3.533333333333333, + "grad_norm": 1.2127116918563843, + "learning_rate": 4.11875e-05, + "loss": 0.1732, + "step": 1696 + }, + { + "epoch": 3.5375, + "grad_norm": 1.0590150356292725, + "learning_rate": 4.117708333333333e-05, + "loss": 0.1147, + "step": 1698 + }, + { + "epoch": 3.5416666666666665, + "grad_norm": 1.3049321174621582, + "learning_rate": 4.116666666666667e-05, + "loss": 0.1382, + "step": 1700 + }, + { + "epoch": 3.5458333333333334, + "grad_norm": 1.5483051538467407, + "learning_rate": 4.115625e-05, + "loss": 0.1279, + "step": 1702 + }, + { + "epoch": 3.55, + "grad_norm": 1.4059401750564575, + "learning_rate": 4.1145833333333335e-05, + "loss": 0.1825, + "step": 1704 + }, + { + "epoch": 3.5541666666666667, + "grad_norm": 1.1847103834152222, + "learning_rate": 4.113541666666667e-05, + "loss": 0.1531, + "step": 1706 + }, + { + "epoch": 3.5583333333333336, + "grad_norm": 1.1752618551254272, + "learning_rate": 4.1125000000000004e-05, + "loss": 0.1243, + "step": 1708 + }, + { + "epoch": 3.5625, + "grad_norm": 1.8893529176712036, + "learning_rate": 4.111458333333333e-05, + "loss": 0.1375, + "step": 1710 + }, + { + "epoch": 3.5666666666666664, + "grad_norm": 1.4344626665115356, + "learning_rate": 4.110416666666667e-05, + "loss": 0.1313, + "step": 1712 + }, + { + "epoch": 3.5708333333333333, + "grad_norm": 1.1641391515731812, + "learning_rate": 4.1093750000000006e-05, + "loss": 0.1246, + "step": 1714 + }, + { + "epoch": 3.575, + "grad_norm": 1.12962007522583, + "learning_rate": 4.1083333333333334e-05, + "loss": 0.127, + "step": 1716 + }, + { + "epoch": 3.5791666666666666, + "grad_norm": 2.968893527984619, + "learning_rate": 4.107291666666667e-05, + "loss": 0.1578, + "step": 1718 + }, + { + "epoch": 3.5833333333333335, + "grad_norm": 1.2375411987304688, + "learning_rate": 4.10625e-05, + "loss": 0.1459, + "step": 1720 + }, + { + "epoch": 3.5875, + "grad_norm": 1.246436595916748, + "learning_rate": 4.1052083333333336e-05, + "loss": 0.1429, + "step": 1722 + }, + { + "epoch": 3.591666666666667, + "grad_norm": 5.518904209136963, + "learning_rate": 4.104166666666667e-05, + "loss": 0.1393, + "step": 1724 + }, + { + "epoch": 3.595833333333333, + "grad_norm": 1.5995979309082031, + "learning_rate": 4.1031250000000005e-05, + "loss": 0.1101, + "step": 1726 + }, + { + "epoch": 3.6, + "grad_norm": 1.438202142715454, + "learning_rate": 4.102083333333334e-05, + "loss": 0.157, + "step": 1728 + }, + { + "epoch": 3.6041666666666665, + "grad_norm": 1.1027727127075195, + "learning_rate": 4.1010416666666666e-05, + "loss": 0.1349, + "step": 1730 + }, + { + "epoch": 3.6083333333333334, + "grad_norm": 1.259873867034912, + "learning_rate": 4.1e-05, + "loss": 0.1203, + "step": 1732 + }, + { + "epoch": 3.6125, + "grad_norm": 1.684228777885437, + "learning_rate": 4.0989583333333335e-05, + "loss": 0.1714, + "step": 1734 + }, + { + "epoch": 3.6166666666666667, + "grad_norm": 2.9070115089416504, + "learning_rate": 4.097916666666667e-05, + "loss": 0.1384, + "step": 1736 + }, + { + "epoch": 3.6208333333333336, + "grad_norm": 1.363110065460205, + "learning_rate": 4.096875e-05, + "loss": 0.1512, + "step": 1738 + }, + { + "epoch": 3.625, + "grad_norm": 1.5575871467590332, + "learning_rate": 4.095833333333334e-05, + "loss": 0.1407, + "step": 1740 + }, + { + "epoch": 3.6291666666666664, + "grad_norm": 1.4002841711044312, + "learning_rate": 4.094791666666667e-05, + "loss": 0.1449, + "step": 1742 + }, + { + "epoch": 3.6333333333333333, + "grad_norm": 1.2986576557159424, + "learning_rate": 4.09375e-05, + "loss": 0.1873, + "step": 1744 + }, + { + "epoch": 3.6375, + "grad_norm": 1.5185562372207642, + "learning_rate": 4.092708333333333e-05, + "loss": 0.1336, + "step": 1746 + }, + { + "epoch": 3.6416666666666666, + "grad_norm": 1.4269071817398071, + "learning_rate": 4.091666666666667e-05, + "loss": 0.1196, + "step": 1748 + }, + { + "epoch": 3.6458333333333335, + "grad_norm": 1.3879940509796143, + "learning_rate": 4.090625e-05, + "loss": 0.1687, + "step": 1750 + }, + { + "epoch": 3.65, + "grad_norm": 1.0033409595489502, + "learning_rate": 4.0895833333333336e-05, + "loss": 0.1106, + "step": 1752 + }, + { + "epoch": 3.654166666666667, + "grad_norm": 4.765145301818848, + "learning_rate": 4.088541666666667e-05, + "loss": 0.0924, + "step": 1754 + }, + { + "epoch": 3.658333333333333, + "grad_norm": 1.0530190467834473, + "learning_rate": 4.0875000000000004e-05, + "loss": 0.155, + "step": 1756 + }, + { + "epoch": 3.6625, + "grad_norm": 1.283671498298645, + "learning_rate": 4.086458333333333e-05, + "loss": 0.1514, + "step": 1758 + }, + { + "epoch": 3.6666666666666665, + "grad_norm": 1.1967607736587524, + "learning_rate": 4.085416666666667e-05, + "loss": 0.1393, + "step": 1760 + }, + { + "epoch": 3.6708333333333334, + "grad_norm": 1.580196738243103, + "learning_rate": 4.084375e-05, + "loss": 0.1876, + "step": 1762 + }, + { + "epoch": 3.675, + "grad_norm": 1.5157240629196167, + "learning_rate": 4.0833333333333334e-05, + "loss": 0.1744, + "step": 1764 + }, + { + "epoch": 3.6791666666666667, + "grad_norm": 1.332767128944397, + "learning_rate": 4.082291666666667e-05, + "loss": 0.1396, + "step": 1766 + }, + { + "epoch": 3.6833333333333336, + "grad_norm": 1.1680107116699219, + "learning_rate": 4.08125e-05, + "loss": 0.1434, + "step": 1768 + }, + { + "epoch": 3.6875, + "grad_norm": 1.31798255443573, + "learning_rate": 4.080208333333334e-05, + "loss": 0.1505, + "step": 1770 + }, + { + "epoch": 3.6916666666666664, + "grad_norm": 1.3701727390289307, + "learning_rate": 4.0791666666666664e-05, + "loss": 0.1401, + "step": 1772 + }, + { + "epoch": 3.6958333333333333, + "grad_norm": 2.095747947692871, + "learning_rate": 4.0781250000000005e-05, + "loss": 0.1328, + "step": 1774 + }, + { + "epoch": 3.7, + "grad_norm": 1.1528501510620117, + "learning_rate": 4.077083333333333e-05, + "loss": 0.1168, + "step": 1776 + }, + { + "epoch": 3.7041666666666666, + "grad_norm": 1.1583607196807861, + "learning_rate": 4.076041666666667e-05, + "loss": 0.1199, + "step": 1778 + }, + { + "epoch": 3.7083333333333335, + "grad_norm": 1.0259267091751099, + "learning_rate": 4.075e-05, + "loss": 0.101, + "step": 1780 + }, + { + "epoch": 3.7125, + "grad_norm": 1.9465296268463135, + "learning_rate": 4.0739583333333335e-05, + "loss": 0.1819, + "step": 1782 + }, + { + "epoch": 3.716666666666667, + "grad_norm": 1.2833755016326904, + "learning_rate": 4.072916666666667e-05, + "loss": 0.1341, + "step": 1784 + }, + { + "epoch": 3.720833333333333, + "grad_norm": 3.5942740440368652, + "learning_rate": 4.071875e-05, + "loss": 0.1346, + "step": 1786 + }, + { + "epoch": 3.725, + "grad_norm": 1.1232284307479858, + "learning_rate": 4.070833333333334e-05, + "loss": 0.1157, + "step": 1788 + }, + { + "epoch": 3.7291666666666665, + "grad_norm": 1.1604728698730469, + "learning_rate": 4.069791666666667e-05, + "loss": 0.1379, + "step": 1790 + }, + { + "epoch": 3.7333333333333334, + "grad_norm": 1.093166708946228, + "learning_rate": 4.06875e-05, + "loss": 0.1497, + "step": 1792 + }, + { + "epoch": 3.7375, + "grad_norm": 1.0520869493484497, + "learning_rate": 4.067708333333334e-05, + "loss": 0.1153, + "step": 1794 + }, + { + "epoch": 3.7416666666666667, + "grad_norm": 1.5261812210083008, + "learning_rate": 4.066666666666667e-05, + "loss": 0.1437, + "step": 1796 + }, + { + "epoch": 3.7458333333333336, + "grad_norm": 1.892781138420105, + "learning_rate": 4.065625e-05, + "loss": 0.124, + "step": 1798 + }, + { + "epoch": 3.75, + "grad_norm": 2.225970506668091, + "learning_rate": 4.064583333333333e-05, + "loss": 0.1543, + "step": 1800 + }, + { + "epoch": 3.75, + "eval_cer": 0.07021879164815638, + "eval_loss": 0.384634405374527, + "eval_runtime": 76.1174, + "eval_samples_per_second": 5.176, + "eval_steps_per_second": 0.657, + "step": 1800 + }, + { + "epoch": 3.7541666666666664, + "grad_norm": 1.9637219905853271, + "learning_rate": 4.063541666666667e-05, + "loss": 0.148, + "step": 1802 + }, + { + "epoch": 3.7583333333333333, + "grad_norm": 1.4442535638809204, + "learning_rate": 4.0625000000000005e-05, + "loss": 0.1338, + "step": 1804 + }, + { + "epoch": 3.7625, + "grad_norm": 2.3460333347320557, + "learning_rate": 4.061458333333333e-05, + "loss": 0.1534, + "step": 1806 + }, + { + "epoch": 3.7666666666666666, + "grad_norm": 2.7628657817840576, + "learning_rate": 4.060416666666667e-05, + "loss": 0.1547, + "step": 1808 + }, + { + "epoch": 3.7708333333333335, + "grad_norm": 1.800148844718933, + "learning_rate": 4.059375e-05, + "loss": 0.1103, + "step": 1810 + }, + { + "epoch": 3.775, + "grad_norm": 1.2902947664260864, + "learning_rate": 4.0583333333333335e-05, + "loss": 0.1479, + "step": 1812 + }, + { + "epoch": 3.779166666666667, + "grad_norm": 3.0630853176116943, + "learning_rate": 4.057291666666667e-05, + "loss": 0.1546, + "step": 1814 + }, + { + "epoch": 3.783333333333333, + "grad_norm": 1.1641541719436646, + "learning_rate": 4.0562500000000003e-05, + "loss": 0.1366, + "step": 1816 + }, + { + "epoch": 3.7875, + "grad_norm": 2.293379068374634, + "learning_rate": 4.055208333333334e-05, + "loss": 0.1471, + "step": 1818 + }, + { + "epoch": 3.7916666666666665, + "grad_norm": 1.014696478843689, + "learning_rate": 4.0541666666666665e-05, + "loss": 0.1015, + "step": 1820 + }, + { + "epoch": 3.7958333333333334, + "grad_norm": 1.265565037727356, + "learning_rate": 4.0531250000000006e-05, + "loss": 0.1293, + "step": 1822 + }, + { + "epoch": 3.8, + "grad_norm": 1.1991163492202759, + "learning_rate": 4.0520833333333333e-05, + "loss": 0.1667, + "step": 1824 + }, + { + "epoch": 3.8041666666666667, + "grad_norm": 1.2333718538284302, + "learning_rate": 4.051041666666667e-05, + "loss": 0.1144, + "step": 1826 + }, + { + "epoch": 3.8083333333333336, + "grad_norm": 1.3116658926010132, + "learning_rate": 4.05e-05, + "loss": 0.149, + "step": 1828 + }, + { + "epoch": 3.8125, + "grad_norm": 1.5107983350753784, + "learning_rate": 4.0489583333333336e-05, + "loss": 0.1849, + "step": 1830 + }, + { + "epoch": 3.8166666666666664, + "grad_norm": 1.2618845701217651, + "learning_rate": 4.047916666666667e-05, + "loss": 0.1306, + "step": 1832 + }, + { + "epoch": 3.8208333333333333, + "grad_norm": 1.052011251449585, + "learning_rate": 4.046875e-05, + "loss": 0.1137, + "step": 1834 + }, + { + "epoch": 3.825, + "grad_norm": 1.6001657247543335, + "learning_rate": 4.045833333333334e-05, + "loss": 0.1163, + "step": 1836 + }, + { + "epoch": 3.8291666666666666, + "grad_norm": 1.0150254964828491, + "learning_rate": 4.0447916666666666e-05, + "loss": 0.1084, + "step": 1838 + }, + { + "epoch": 3.8333333333333335, + "grad_norm": 2.3694796562194824, + "learning_rate": 4.04375e-05, + "loss": 0.1357, + "step": 1840 + }, + { + "epoch": 3.8375, + "grad_norm": 1.5784646272659302, + "learning_rate": 4.0427083333333335e-05, + "loss": 0.1204, + "step": 1842 + }, + { + "epoch": 3.841666666666667, + "grad_norm": 1.2698683738708496, + "learning_rate": 4.041666666666667e-05, + "loss": 0.143, + "step": 1844 + }, + { + "epoch": 3.845833333333333, + "grad_norm": 1.8060942888259888, + "learning_rate": 4.040625e-05, + "loss": 0.1668, + "step": 1846 + }, + { + "epoch": 3.85, + "grad_norm": 1.1228978633880615, + "learning_rate": 4.039583333333333e-05, + "loss": 0.1811, + "step": 1848 + }, + { + "epoch": 3.8541666666666665, + "grad_norm": 2.2050445079803467, + "learning_rate": 4.038541666666667e-05, + "loss": 0.1046, + "step": 1850 + }, + { + "epoch": 3.8583333333333334, + "grad_norm": 1.2433528900146484, + "learning_rate": 4.0375e-05, + "loss": 0.1496, + "step": 1852 + }, + { + "epoch": 3.8625, + "grad_norm": 1.0039947032928467, + "learning_rate": 4.036458333333333e-05, + "loss": 0.1497, + "step": 1854 + }, + { + "epoch": 3.8666666666666667, + "grad_norm": 1.8083391189575195, + "learning_rate": 4.0354166666666674e-05, + "loss": 0.1519, + "step": 1856 + }, + { + "epoch": 3.8708333333333336, + "grad_norm": 1.5105745792388916, + "learning_rate": 4.034375e-05, + "loss": 0.1253, + "step": 1858 + }, + { + "epoch": 3.875, + "grad_norm": 1.11159086227417, + "learning_rate": 4.0333333333333336e-05, + "loss": 0.1109, + "step": 1860 + }, + { + "epoch": 3.8791666666666664, + "grad_norm": 1.5225943326950073, + "learning_rate": 4.032291666666667e-05, + "loss": 0.117, + "step": 1862 + }, + { + "epoch": 3.8833333333333333, + "grad_norm": 1.773657202720642, + "learning_rate": 4.0312500000000004e-05, + "loss": 0.1487, + "step": 1864 + }, + { + "epoch": 3.8875, + "grad_norm": 3.959315299987793, + "learning_rate": 4.030208333333333e-05, + "loss": 0.1531, + "step": 1866 + }, + { + "epoch": 3.8916666666666666, + "grad_norm": 1.7123486995697021, + "learning_rate": 4.0291666666666666e-05, + "loss": 0.1815, + "step": 1868 + }, + { + "epoch": 3.8958333333333335, + "grad_norm": 1.0707253217697144, + "learning_rate": 4.028125000000001e-05, + "loss": 0.1349, + "step": 1870 + }, + { + "epoch": 3.9, + "grad_norm": 1.0288825035095215, + "learning_rate": 4.0270833333333334e-05, + "loss": 0.1507, + "step": 1872 + }, + { + "epoch": 3.904166666666667, + "grad_norm": 1.0308953523635864, + "learning_rate": 4.026041666666667e-05, + "loss": 0.1017, + "step": 1874 + }, + { + "epoch": 3.908333333333333, + "grad_norm": 1.2107789516448975, + "learning_rate": 4.025e-05, + "loss": 0.1249, + "step": 1876 + }, + { + "epoch": 3.9125, + "grad_norm": 1.0995678901672363, + "learning_rate": 4.023958333333334e-05, + "loss": 0.1211, + "step": 1878 + }, + { + "epoch": 3.9166666666666665, + "grad_norm": 1.7540019750595093, + "learning_rate": 4.022916666666667e-05, + "loss": 0.1409, + "step": 1880 + }, + { + "epoch": 3.9208333333333334, + "grad_norm": 1.4660998582839966, + "learning_rate": 4.021875e-05, + "loss": 0.1475, + "step": 1882 + }, + { + "epoch": 3.925, + "grad_norm": 1.1226695775985718, + "learning_rate": 4.020833333333334e-05, + "loss": 0.1307, + "step": 1884 + }, + { + "epoch": 3.9291666666666667, + "grad_norm": 0.9815404415130615, + "learning_rate": 4.019791666666667e-05, + "loss": 0.1056, + "step": 1886 + }, + { + "epoch": 3.9333333333333336, + "grad_norm": 1.2384169101715088, + "learning_rate": 4.01875e-05, + "loss": 0.1238, + "step": 1888 + }, + { + "epoch": 3.9375, + "grad_norm": 1.4087421894073486, + "learning_rate": 4.0177083333333335e-05, + "loss": 0.1455, + "step": 1890 + }, + { + "epoch": 3.9416666666666664, + "grad_norm": 1.200124979019165, + "learning_rate": 4.016666666666667e-05, + "loss": 0.1346, + "step": 1892 + }, + { + "epoch": 3.9458333333333333, + "grad_norm": 1.1654003858566284, + "learning_rate": 4.0156250000000004e-05, + "loss": 0.1207, + "step": 1894 + }, + { + "epoch": 3.95, + "grad_norm": 1.5687291622161865, + "learning_rate": 4.014583333333333e-05, + "loss": 0.1335, + "step": 1896 + }, + { + "epoch": 3.9541666666666666, + "grad_norm": 1.268929123878479, + "learning_rate": 4.013541666666667e-05, + "loss": 0.1011, + "step": 1898 + }, + { + "epoch": 3.9583333333333335, + "grad_norm": 1.1316790580749512, + "learning_rate": 4.0125e-05, + "loss": 0.1321, + "step": 1900 + }, + { + "epoch": 3.9625, + "grad_norm": 1.3542239665985107, + "learning_rate": 4.0114583333333334e-05, + "loss": 0.1332, + "step": 1902 + }, + { + "epoch": 3.966666666666667, + "grad_norm": 1.0992043018341064, + "learning_rate": 4.010416666666667e-05, + "loss": 0.1202, + "step": 1904 + }, + { + "epoch": 3.970833333333333, + "grad_norm": 19.659015655517578, + "learning_rate": 4.009375e-05, + "loss": 0.1459, + "step": 1906 + }, + { + "epoch": 3.975, + "grad_norm": 1.2871601581573486, + "learning_rate": 4.0083333333333336e-05, + "loss": 0.1297, + "step": 1908 + }, + { + "epoch": 3.9791666666666665, + "grad_norm": 1.2872648239135742, + "learning_rate": 4.007291666666667e-05, + "loss": 0.1138, + "step": 1910 + }, + { + "epoch": 3.9833333333333334, + "grad_norm": 1.3838647603988647, + "learning_rate": 4.0062500000000005e-05, + "loss": 0.1245, + "step": 1912 + }, + { + "epoch": 3.9875, + "grad_norm": 1.504300594329834, + "learning_rate": 4.005208333333333e-05, + "loss": 0.1664, + "step": 1914 + }, + { + "epoch": 3.9916666666666667, + "grad_norm": 1.3784209489822388, + "learning_rate": 4.0041666666666666e-05, + "loss": 0.1366, + "step": 1916 + }, + { + "epoch": 3.9958333333333336, + "grad_norm": 1.1469552516937256, + "learning_rate": 4.003125e-05, + "loss": 0.1622, + "step": 1918 + }, + { + "epoch": 4.0, + "grad_norm": 2.386150598526001, + "learning_rate": 4.0020833333333335e-05, + "loss": 0.1417, + "step": 1920 + }, + { + "epoch": 4.004166666666666, + "grad_norm": 0.7731186151504517, + "learning_rate": 4.001041666666667e-05, + "loss": 0.0781, + "step": 1922 + }, + { + "epoch": 4.008333333333334, + "grad_norm": 0.9499878287315369, + "learning_rate": 4e-05, + "loss": 0.077, + "step": 1924 + }, + { + "epoch": 4.0125, + "grad_norm": 0.9190614223480225, + "learning_rate": 3.998958333333334e-05, + "loss": 0.0708, + "step": 1926 + }, + { + "epoch": 4.016666666666667, + "grad_norm": 0.9048583507537842, + "learning_rate": 3.9979166666666665e-05, + "loss": 0.0767, + "step": 1928 + }, + { + "epoch": 4.020833333333333, + "grad_norm": 0.8957040309906006, + "learning_rate": 3.996875e-05, + "loss": 0.0697, + "step": 1930 + }, + { + "epoch": 4.025, + "grad_norm": 0.9710066318511963, + "learning_rate": 3.995833333333333e-05, + "loss": 0.0761, + "step": 1932 + }, + { + "epoch": 4.029166666666667, + "grad_norm": 1.0602785348892212, + "learning_rate": 3.994791666666667e-05, + "loss": 0.0635, + "step": 1934 + }, + { + "epoch": 4.033333333333333, + "grad_norm": 0.9364144206047058, + "learning_rate": 3.99375e-05, + "loss": 0.0929, + "step": 1936 + }, + { + "epoch": 4.0375, + "grad_norm": 0.7421970963478088, + "learning_rate": 3.9927083333333336e-05, + "loss": 0.0608, + "step": 1938 + }, + { + "epoch": 4.041666666666667, + "grad_norm": 1.1286324262619019, + "learning_rate": 3.991666666666667e-05, + "loss": 0.0852, + "step": 1940 + }, + { + "epoch": 4.045833333333333, + "grad_norm": 1.3301427364349365, + "learning_rate": 3.990625e-05, + "loss": 0.0691, + "step": 1942 + }, + { + "epoch": 4.05, + "grad_norm": 1.4469293355941772, + "learning_rate": 3.989583333333334e-05, + "loss": 0.0999, + "step": 1944 + }, + { + "epoch": 4.054166666666666, + "grad_norm": 0.854388952255249, + "learning_rate": 3.988541666666667e-05, + "loss": 0.0929, + "step": 1946 + }, + { + "epoch": 4.058333333333334, + "grad_norm": 1.4373434782028198, + "learning_rate": 3.9875e-05, + "loss": 0.0898, + "step": 1948 + }, + { + "epoch": 4.0625, + "grad_norm": 0.908781111240387, + "learning_rate": 3.9864583333333334e-05, + "loss": 0.0818, + "step": 1950 + }, + { + "epoch": 4.066666666666666, + "grad_norm": 1.0299098491668701, + "learning_rate": 3.985416666666667e-05, + "loss": 0.0861, + "step": 1952 + }, + { + "epoch": 4.070833333333334, + "grad_norm": 13.22767448425293, + "learning_rate": 3.984375e-05, + "loss": 0.0742, + "step": 1954 + }, + { + "epoch": 4.075, + "grad_norm": 1.3367167711257935, + "learning_rate": 3.983333333333333e-05, + "loss": 0.081, + "step": 1956 + }, + { + "epoch": 4.079166666666667, + "grad_norm": 1.8937867879867554, + "learning_rate": 3.982291666666667e-05, + "loss": 0.0655, + "step": 1958 + }, + { + "epoch": 4.083333333333333, + "grad_norm": 0.94222491979599, + "learning_rate": 3.9812500000000005e-05, + "loss": 0.0752, + "step": 1960 + }, + { + "epoch": 4.0875, + "grad_norm": 0.878278911113739, + "learning_rate": 3.980208333333333e-05, + "loss": 0.0856, + "step": 1962 + }, + { + "epoch": 4.091666666666667, + "grad_norm": 0.7615220546722412, + "learning_rate": 3.979166666666667e-05, + "loss": 0.0695, + "step": 1964 + }, + { + "epoch": 4.095833333333333, + "grad_norm": 1.0152522325515747, + "learning_rate": 3.978125e-05, + "loss": 0.087, + "step": 1966 + }, + { + "epoch": 4.1, + "grad_norm": 1.233525037765503, + "learning_rate": 3.9770833333333336e-05, + "loss": 0.0908, + "step": 1968 + }, + { + "epoch": 4.104166666666667, + "grad_norm": 2.0484278202056885, + "learning_rate": 3.976041666666667e-05, + "loss": 0.071, + "step": 1970 + }, + { + "epoch": 4.108333333333333, + "grad_norm": 1.1818151473999023, + "learning_rate": 3.9750000000000004e-05, + "loss": 0.095, + "step": 1972 + }, + { + "epoch": 4.1125, + "grad_norm": 1.0526548624038696, + "learning_rate": 3.973958333333334e-05, + "loss": 0.0832, + "step": 1974 + }, + { + "epoch": 4.116666666666666, + "grad_norm": 0.7555032968521118, + "learning_rate": 3.9729166666666666e-05, + "loss": 0.0774, + "step": 1976 + }, + { + "epoch": 4.120833333333334, + "grad_norm": 0.8847272992134094, + "learning_rate": 3.9718750000000007e-05, + "loss": 0.064, + "step": 1978 + }, + { + "epoch": 4.125, + "grad_norm": 0.957616925239563, + "learning_rate": 3.9708333333333334e-05, + "loss": 0.077, + "step": 1980 + }, + { + "epoch": 4.129166666666666, + "grad_norm": 0.9935302734375, + "learning_rate": 3.969791666666667e-05, + "loss": 0.0538, + "step": 1982 + }, + { + "epoch": 4.133333333333334, + "grad_norm": 0.7396360039710999, + "learning_rate": 3.96875e-05, + "loss": 0.0778, + "step": 1984 + }, + { + "epoch": 4.1375, + "grad_norm": 1.2308465242385864, + "learning_rate": 3.967708333333334e-05, + "loss": 0.0902, + "step": 1986 + }, + { + "epoch": 4.141666666666667, + "grad_norm": 1.8244073390960693, + "learning_rate": 3.966666666666667e-05, + "loss": 0.0772, + "step": 1988 + }, + { + "epoch": 4.145833333333333, + "grad_norm": 2.7897918224334717, + "learning_rate": 3.965625e-05, + "loss": 0.0779, + "step": 1990 + }, + { + "epoch": 4.15, + "grad_norm": 1.2332361936569214, + "learning_rate": 3.964583333333334e-05, + "loss": 0.0893, + "step": 1992 + }, + { + "epoch": 4.154166666666667, + "grad_norm": 1.3327239751815796, + "learning_rate": 3.963541666666667e-05, + "loss": 0.0883, + "step": 1994 + }, + { + "epoch": 4.158333333333333, + "grad_norm": 0.8723564147949219, + "learning_rate": 3.9625e-05, + "loss": 0.064, + "step": 1996 + }, + { + "epoch": 4.1625, + "grad_norm": 0.8252778053283691, + "learning_rate": 3.9614583333333335e-05, + "loss": 0.0755, + "step": 1998 + }, + { + "epoch": 4.166666666666667, + "grad_norm": 1.1302416324615479, + "learning_rate": 3.960416666666667e-05, + "loss": 0.0817, + "step": 2000 + }, + { + "epoch": 4.166666666666667, + "eval_cer": 0.06305530875166593, + "eval_loss": 0.38172322511672974, + "eval_runtime": 75.3618, + "eval_samples_per_second": 5.228, + "eval_steps_per_second": 0.663, + "step": 2000 + }, + { + "epoch": 4.170833333333333, + "grad_norm": 0.8874170184135437, + "learning_rate": 3.9593750000000004e-05, + "loss": 0.0723, + "step": 2002 + }, + { + "epoch": 4.175, + "grad_norm": 2.8731439113616943, + "learning_rate": 3.958333333333333e-05, + "loss": 0.0924, + "step": 2004 + }, + { + "epoch": 4.179166666666666, + "grad_norm": 1.0340896844863892, + "learning_rate": 3.957291666666667e-05, + "loss": 0.0675, + "step": 2006 + }, + { + "epoch": 4.183333333333334, + "grad_norm": 0.9016083478927612, + "learning_rate": 3.95625e-05, + "loss": 0.0812, + "step": 2008 + }, + { + "epoch": 4.1875, + "grad_norm": 1.2806493043899536, + "learning_rate": 3.9552083333333334e-05, + "loss": 0.0728, + "step": 2010 + }, + { + "epoch": 4.191666666666666, + "grad_norm": 1.1335567235946655, + "learning_rate": 3.9541666666666675e-05, + "loss": 0.0816, + "step": 2012 + }, + { + "epoch": 4.195833333333334, + "grad_norm": 0.8477205634117126, + "learning_rate": 3.953125e-05, + "loss": 0.0726, + "step": 2014 + }, + { + "epoch": 4.2, + "grad_norm": 3.1504201889038086, + "learning_rate": 3.9520833333333336e-05, + "loss": 0.0787, + "step": 2016 + }, + { + "epoch": 4.204166666666667, + "grad_norm": 0.8272049427032471, + "learning_rate": 3.9510416666666664e-05, + "loss": 0.0748, + "step": 2018 + }, + { + "epoch": 4.208333333333333, + "grad_norm": 0.8478326797485352, + "learning_rate": 3.9500000000000005e-05, + "loss": 0.0837, + "step": 2020 + }, + { + "epoch": 4.2125, + "grad_norm": 1.377537488937378, + "learning_rate": 3.948958333333333e-05, + "loss": 0.1057, + "step": 2022 + }, + { + "epoch": 4.216666666666667, + "grad_norm": 0.856211245059967, + "learning_rate": 3.9479166666666666e-05, + "loss": 0.0847, + "step": 2024 + }, + { + "epoch": 4.220833333333333, + "grad_norm": 1.2970973253250122, + "learning_rate": 3.946875000000001e-05, + "loss": 0.0762, + "step": 2026 + }, + { + "epoch": 4.225, + "grad_norm": 1.0719327926635742, + "learning_rate": 3.9458333333333335e-05, + "loss": 0.0781, + "step": 2028 + }, + { + "epoch": 4.229166666666667, + "grad_norm": 1.338165283203125, + "learning_rate": 3.944791666666667e-05, + "loss": 0.0748, + "step": 2030 + }, + { + "epoch": 4.233333333333333, + "grad_norm": 0.92940354347229, + "learning_rate": 3.9437499999999996e-05, + "loss": 0.0955, + "step": 2032 + }, + { + "epoch": 4.2375, + "grad_norm": 0.7973021864891052, + "learning_rate": 3.942708333333334e-05, + "loss": 0.0691, + "step": 2034 + }, + { + "epoch": 4.241666666666666, + "grad_norm": 0.8417878746986389, + "learning_rate": 3.941666666666667e-05, + "loss": 0.0772, + "step": 2036 + }, + { + "epoch": 4.245833333333334, + "grad_norm": 4.841963291168213, + "learning_rate": 3.940625e-05, + "loss": 0.1139, + "step": 2038 + }, + { + "epoch": 4.25, + "grad_norm": 1.5512462854385376, + "learning_rate": 3.939583333333334e-05, + "loss": 0.0566, + "step": 2040 + }, + { + "epoch": 4.254166666666666, + "grad_norm": 1.3727595806121826, + "learning_rate": 3.938541666666667e-05, + "loss": 0.0758, + "step": 2042 + }, + { + "epoch": 4.258333333333334, + "grad_norm": 1.0911918878555298, + "learning_rate": 3.9375e-05, + "loss": 0.0985, + "step": 2044 + }, + { + "epoch": 4.2625, + "grad_norm": 1.3523303270339966, + "learning_rate": 3.9364583333333336e-05, + "loss": 0.0765, + "step": 2046 + }, + { + "epoch": 4.266666666666667, + "grad_norm": 1.1552706956863403, + "learning_rate": 3.935416666666667e-05, + "loss": 0.0765, + "step": 2048 + }, + { + "epoch": 4.270833333333333, + "grad_norm": 1.035401701927185, + "learning_rate": 3.9343750000000004e-05, + "loss": 0.1008, + "step": 2050 + }, + { + "epoch": 4.275, + "grad_norm": 1.2007702589035034, + "learning_rate": 3.933333333333333e-05, + "loss": 0.0966, + "step": 2052 + }, + { + "epoch": 4.279166666666667, + "grad_norm": 1.3211265802383423, + "learning_rate": 3.932291666666667e-05, + "loss": 0.0834, + "step": 2054 + }, + { + "epoch": 4.283333333333333, + "grad_norm": 0.8277605175971985, + "learning_rate": 3.93125e-05, + "loss": 0.063, + "step": 2056 + }, + { + "epoch": 4.2875, + "grad_norm": 1.0523920059204102, + "learning_rate": 3.9302083333333334e-05, + "loss": 0.0785, + "step": 2058 + }, + { + "epoch": 4.291666666666667, + "grad_norm": 1.0161151885986328, + "learning_rate": 3.929166666666667e-05, + "loss": 0.0854, + "step": 2060 + }, + { + "epoch": 4.295833333333333, + "grad_norm": 1.1441653966903687, + "learning_rate": 3.928125e-05, + "loss": 0.1154, + "step": 2062 + }, + { + "epoch": 4.3, + "grad_norm": 0.8558223247528076, + "learning_rate": 3.927083333333334e-05, + "loss": 0.0702, + "step": 2064 + }, + { + "epoch": 4.304166666666666, + "grad_norm": 0.7756438851356506, + "learning_rate": 3.9260416666666664e-05, + "loss": 0.0567, + "step": 2066 + }, + { + "epoch": 4.308333333333334, + "grad_norm": 1.1096618175506592, + "learning_rate": 3.9250000000000005e-05, + "loss": 0.0734, + "step": 2068 + }, + { + "epoch": 4.3125, + "grad_norm": 1.2193652391433716, + "learning_rate": 3.923958333333333e-05, + "loss": 0.0957, + "step": 2070 + }, + { + "epoch": 4.316666666666666, + "grad_norm": 1.19412362575531, + "learning_rate": 3.922916666666667e-05, + "loss": 0.0747, + "step": 2072 + }, + { + "epoch": 4.320833333333334, + "grad_norm": 1.9660487174987793, + "learning_rate": 3.921875e-05, + "loss": 0.1012, + "step": 2074 + }, + { + "epoch": 4.325, + "grad_norm": 0.8672239184379578, + "learning_rate": 3.9208333333333335e-05, + "loss": 0.0655, + "step": 2076 + }, + { + "epoch": 4.329166666666667, + "grad_norm": 1.1189242601394653, + "learning_rate": 3.919791666666667e-05, + "loss": 0.1124, + "step": 2078 + }, + { + "epoch": 4.333333333333333, + "grad_norm": 3.0956525802612305, + "learning_rate": 3.91875e-05, + "loss": 0.0837, + "step": 2080 + }, + { + "epoch": 4.3375, + "grad_norm": 0.9444073438644409, + "learning_rate": 3.917708333333334e-05, + "loss": 0.0861, + "step": 2082 + }, + { + "epoch": 4.341666666666667, + "grad_norm": 1.1264666318893433, + "learning_rate": 3.9166666666666665e-05, + "loss": 0.0898, + "step": 2084 + }, + { + "epoch": 4.345833333333333, + "grad_norm": 1.0793639421463013, + "learning_rate": 3.915625e-05, + "loss": 0.0879, + "step": 2086 + }, + { + "epoch": 4.35, + "grad_norm": 1.1374964714050293, + "learning_rate": 3.9145833333333334e-05, + "loss": 0.1222, + "step": 2088 + }, + { + "epoch": 4.354166666666667, + "grad_norm": 2.1719019412994385, + "learning_rate": 3.913541666666667e-05, + "loss": 0.097, + "step": 2090 + }, + { + "epoch": 4.358333333333333, + "grad_norm": 1.2288453578948975, + "learning_rate": 3.9125e-05, + "loss": 0.0943, + "step": 2092 + }, + { + "epoch": 4.3625, + "grad_norm": 1.1955199241638184, + "learning_rate": 3.9114583333333337e-05, + "loss": 0.0778, + "step": 2094 + }, + { + "epoch": 4.366666666666666, + "grad_norm": 0.9268791079521179, + "learning_rate": 3.910416666666667e-05, + "loss": 0.0845, + "step": 2096 + }, + { + "epoch": 4.370833333333334, + "grad_norm": 0.9357446432113647, + "learning_rate": 3.909375e-05, + "loss": 0.074, + "step": 2098 + }, + { + "epoch": 4.375, + "grad_norm": 0.9440491199493408, + "learning_rate": 3.908333333333333e-05, + "loss": 0.0673, + "step": 2100 + }, + { + "epoch": 4.379166666666666, + "grad_norm": 0.8666753768920898, + "learning_rate": 3.907291666666667e-05, + "loss": 0.0695, + "step": 2102 + }, + { + "epoch": 4.383333333333334, + "grad_norm": 1.0785791873931885, + "learning_rate": 3.90625e-05, + "loss": 0.0925, + "step": 2104 + }, + { + "epoch": 4.3875, + "grad_norm": 1.0569093227386475, + "learning_rate": 3.9052083333333335e-05, + "loss": 0.0938, + "step": 2106 + }, + { + "epoch": 4.391666666666667, + "grad_norm": 0.8859038949012756, + "learning_rate": 3.904166666666667e-05, + "loss": 0.079, + "step": 2108 + }, + { + "epoch": 4.395833333333333, + "grad_norm": 0.8467822670936584, + "learning_rate": 3.9031250000000003e-05, + "loss": 0.0741, + "step": 2110 + }, + { + "epoch": 4.4, + "grad_norm": 1.2233210802078247, + "learning_rate": 3.902083333333333e-05, + "loss": 0.0751, + "step": 2112 + }, + { + "epoch": 4.404166666666667, + "grad_norm": 1.1684272289276123, + "learning_rate": 3.9010416666666665e-05, + "loss": 0.0844, + "step": 2114 + }, + { + "epoch": 4.408333333333333, + "grad_norm": 1.8633463382720947, + "learning_rate": 3.9000000000000006e-05, + "loss": 0.1069, + "step": 2116 + }, + { + "epoch": 4.4125, + "grad_norm": 1.0140049457550049, + "learning_rate": 3.8989583333333334e-05, + "loss": 0.1034, + "step": 2118 + }, + { + "epoch": 4.416666666666667, + "grad_norm": 0.8137444257736206, + "learning_rate": 3.897916666666667e-05, + "loss": 0.0706, + "step": 2120 + }, + { + "epoch": 4.420833333333333, + "grad_norm": 1.3231297731399536, + "learning_rate": 3.896875e-05, + "loss": 0.0914, + "step": 2122 + }, + { + "epoch": 4.425, + "grad_norm": 1.3303730487823486, + "learning_rate": 3.8958333333333336e-05, + "loss": 0.0995, + "step": 2124 + }, + { + "epoch": 4.429166666666666, + "grad_norm": 1.1961333751678467, + "learning_rate": 3.894791666666667e-05, + "loss": 0.0827, + "step": 2126 + }, + { + "epoch": 4.433333333333334, + "grad_norm": 0.9565536975860596, + "learning_rate": 3.8937500000000005e-05, + "loss": 0.0875, + "step": 2128 + }, + { + "epoch": 4.4375, + "grad_norm": 1.2660243511199951, + "learning_rate": 3.892708333333334e-05, + "loss": 0.1178, + "step": 2130 + }, + { + "epoch": 4.441666666666666, + "grad_norm": 1.255230188369751, + "learning_rate": 3.8916666666666666e-05, + "loss": 0.1019, + "step": 2132 + }, + { + "epoch": 4.445833333333334, + "grad_norm": 0.8511635065078735, + "learning_rate": 3.890625e-05, + "loss": 0.0703, + "step": 2134 + }, + { + "epoch": 4.45, + "grad_norm": 0.9714882373809814, + "learning_rate": 3.8895833333333335e-05, + "loss": 0.0824, + "step": 2136 + }, + { + "epoch": 4.454166666666667, + "grad_norm": 1.4550576210021973, + "learning_rate": 3.888541666666667e-05, + "loss": 0.069, + "step": 2138 + }, + { + "epoch": 4.458333333333333, + "grad_norm": 1.221817135810852, + "learning_rate": 3.8875e-05, + "loss": 0.0813, + "step": 2140 + }, + { + "epoch": 4.4625, + "grad_norm": 1.336941123008728, + "learning_rate": 3.886458333333334e-05, + "loss": 0.0659, + "step": 2142 + }, + { + "epoch": 4.466666666666667, + "grad_norm": 1.3952819108963013, + "learning_rate": 3.885416666666667e-05, + "loss": 0.0945, + "step": 2144 + }, + { + "epoch": 4.470833333333333, + "grad_norm": 1.4957295656204224, + "learning_rate": 3.884375e-05, + "loss": 0.0872, + "step": 2146 + }, + { + "epoch": 4.475, + "grad_norm": 1.0998305082321167, + "learning_rate": 3.883333333333333e-05, + "loss": 0.0727, + "step": 2148 + }, + { + "epoch": 4.479166666666667, + "grad_norm": 0.9731649160385132, + "learning_rate": 3.882291666666667e-05, + "loss": 0.0886, + "step": 2150 + }, + { + "epoch": 4.483333333333333, + "grad_norm": 0.9222704172134399, + "learning_rate": 3.88125e-05, + "loss": 0.0816, + "step": 2152 + }, + { + "epoch": 4.4875, + "grad_norm": 0.959698498249054, + "learning_rate": 3.8802083333333336e-05, + "loss": 0.0777, + "step": 2154 + }, + { + "epoch": 4.491666666666666, + "grad_norm": 1.4323769807815552, + "learning_rate": 3.879166666666667e-05, + "loss": 0.0979, + "step": 2156 + }, + { + "epoch": 4.495833333333334, + "grad_norm": 1.2036925554275513, + "learning_rate": 3.8781250000000004e-05, + "loss": 0.0813, + "step": 2158 + }, + { + "epoch": 4.5, + "grad_norm": 1.1772453784942627, + "learning_rate": 3.877083333333333e-05, + "loss": 0.1031, + "step": 2160 + }, + { + "epoch": 4.504166666666666, + "grad_norm": 2.4995555877685547, + "learning_rate": 3.876041666666667e-05, + "loss": 0.052, + "step": 2162 + }, + { + "epoch": 4.508333333333333, + "grad_norm": 2.091679334640503, + "learning_rate": 3.875e-05, + "loss": 0.0789, + "step": 2164 + }, + { + "epoch": 4.5125, + "grad_norm": 1.6899508237838745, + "learning_rate": 3.8739583333333334e-05, + "loss": 0.09, + "step": 2166 + }, + { + "epoch": 4.516666666666667, + "grad_norm": 0.9263827204704285, + "learning_rate": 3.872916666666667e-05, + "loss": 0.0908, + "step": 2168 + }, + { + "epoch": 4.520833333333333, + "grad_norm": 1.9031181335449219, + "learning_rate": 3.871875e-05, + "loss": 0.088, + "step": 2170 + }, + { + "epoch": 4.525, + "grad_norm": 1.0645902156829834, + "learning_rate": 3.870833333333334e-05, + "loss": 0.085, + "step": 2172 + }, + { + "epoch": 4.529166666666667, + "grad_norm": 0.9145504832267761, + "learning_rate": 3.8697916666666664e-05, + "loss": 0.0724, + "step": 2174 + }, + { + "epoch": 4.533333333333333, + "grad_norm": 1.911892294883728, + "learning_rate": 3.8687500000000005e-05, + "loss": 0.1112, + "step": 2176 + }, + { + "epoch": 4.5375, + "grad_norm": 0.9205930829048157, + "learning_rate": 3.867708333333333e-05, + "loss": 0.061, + "step": 2178 + }, + { + "epoch": 4.541666666666667, + "grad_norm": 3.2194669246673584, + "learning_rate": 3.866666666666667e-05, + "loss": 0.1077, + "step": 2180 + }, + { + "epoch": 4.545833333333333, + "grad_norm": 0.775286853313446, + "learning_rate": 3.865625e-05, + "loss": 0.0738, + "step": 2182 + }, + { + "epoch": 4.55, + "grad_norm": 0.98478102684021, + "learning_rate": 3.8645833333333335e-05, + "loss": 0.0795, + "step": 2184 + }, + { + "epoch": 4.554166666666667, + "grad_norm": 0.9600168466567993, + "learning_rate": 3.863541666666667e-05, + "loss": 0.0926, + "step": 2186 + }, + { + "epoch": 4.558333333333334, + "grad_norm": 0.8675752282142639, + "learning_rate": 3.8625e-05, + "loss": 0.0681, + "step": 2188 + }, + { + "epoch": 4.5625, + "grad_norm": 0.9766802191734314, + "learning_rate": 3.861458333333334e-05, + "loss": 0.0998, + "step": 2190 + }, + { + "epoch": 4.566666666666666, + "grad_norm": 1.3504384756088257, + "learning_rate": 3.860416666666667e-05, + "loss": 0.0777, + "step": 2192 + }, + { + "epoch": 4.570833333333333, + "grad_norm": 1.462335467338562, + "learning_rate": 3.859375e-05, + "loss": 0.0815, + "step": 2194 + }, + { + "epoch": 4.575, + "grad_norm": 0.8245469331741333, + "learning_rate": 3.8583333333333334e-05, + "loss": 0.0974, + "step": 2196 + }, + { + "epoch": 4.579166666666667, + "grad_norm": 1.166513442993164, + "learning_rate": 3.857291666666667e-05, + "loss": 0.0961, + "step": 2198 + }, + { + "epoch": 4.583333333333333, + "grad_norm": 1.3380464315414429, + "learning_rate": 3.85625e-05, + "loss": 0.0797, + "step": 2200 + }, + { + "epoch": 4.583333333333333, + "eval_cer": 0.06799755664149267, + "eval_loss": 0.3816696107387543, + "eval_runtime": 75.8364, + "eval_samples_per_second": 5.195, + "eval_steps_per_second": 0.659, + "step": 2200 + }, + { + "epoch": 4.5875, + "grad_norm": 0.6920982003211975, + "learning_rate": 3.8552083333333336e-05, + "loss": 0.0799, + "step": 2202 + }, + { + "epoch": 4.591666666666667, + "grad_norm": 1.1736680269241333, + "learning_rate": 3.854166666666667e-05, + "loss": 0.0855, + "step": 2204 + }, + { + "epoch": 4.595833333333333, + "grad_norm": 1.0098215341567993, + "learning_rate": 3.8531250000000005e-05, + "loss": 0.07, + "step": 2206 + }, + { + "epoch": 4.6, + "grad_norm": 1.3299909830093384, + "learning_rate": 3.852083333333333e-05, + "loss": 0.0853, + "step": 2208 + }, + { + "epoch": 4.604166666666667, + "grad_norm": 0.9078407287597656, + "learning_rate": 3.851041666666667e-05, + "loss": 0.0825, + "step": 2210 + }, + { + "epoch": 4.608333333333333, + "grad_norm": 1.820887804031372, + "learning_rate": 3.85e-05, + "loss": 0.0797, + "step": 2212 + }, + { + "epoch": 4.6125, + "grad_norm": 0.9650698900222778, + "learning_rate": 3.8489583333333335e-05, + "loss": 0.0815, + "step": 2214 + }, + { + "epoch": 4.616666666666667, + "grad_norm": 1.0486668348312378, + "learning_rate": 3.847916666666667e-05, + "loss": 0.1019, + "step": 2216 + }, + { + "epoch": 4.620833333333334, + "grad_norm": 1.1475257873535156, + "learning_rate": 3.846875e-05, + "loss": 0.0921, + "step": 2218 + }, + { + "epoch": 4.625, + "grad_norm": 1.273078203201294, + "learning_rate": 3.845833333333334e-05, + "loss": 0.0832, + "step": 2220 + }, + { + "epoch": 4.629166666666666, + "grad_norm": 1.0565463304519653, + "learning_rate": 3.8447916666666665e-05, + "loss": 0.0666, + "step": 2222 + }, + { + "epoch": 4.633333333333333, + "grad_norm": 1.8795273303985596, + "learning_rate": 3.8437500000000006e-05, + "loss": 0.0836, + "step": 2224 + }, + { + "epoch": 4.6375, + "grad_norm": 1.141516923904419, + "learning_rate": 3.842708333333333e-05, + "loss": 0.0838, + "step": 2226 + }, + { + "epoch": 4.641666666666667, + "grad_norm": 0.9567936062812805, + "learning_rate": 3.841666666666667e-05, + "loss": 0.0808, + "step": 2228 + }, + { + "epoch": 4.645833333333333, + "grad_norm": 1.7979847192764282, + "learning_rate": 3.840625e-05, + "loss": 0.0911, + "step": 2230 + }, + { + "epoch": 4.65, + "grad_norm": 4.779476642608643, + "learning_rate": 3.8395833333333336e-05, + "loss": 0.1462, + "step": 2232 + }, + { + "epoch": 4.654166666666667, + "grad_norm": 1.0974100828170776, + "learning_rate": 3.838541666666667e-05, + "loss": 0.0839, + "step": 2234 + }, + { + "epoch": 4.658333333333333, + "grad_norm": 0.9958802461624146, + "learning_rate": 3.8375e-05, + "loss": 0.0817, + "step": 2236 + }, + { + "epoch": 4.6625, + "grad_norm": 1.5925546884536743, + "learning_rate": 3.836458333333334e-05, + "loss": 0.0886, + "step": 2238 + }, + { + "epoch": 4.666666666666667, + "grad_norm": 1.0111373662948608, + "learning_rate": 3.8354166666666666e-05, + "loss": 0.1076, + "step": 2240 + }, + { + "epoch": 4.670833333333333, + "grad_norm": 1.7365713119506836, + "learning_rate": 3.834375e-05, + "loss": 0.0983, + "step": 2242 + }, + { + "epoch": 4.675, + "grad_norm": 0.7553696632385254, + "learning_rate": 3.8333333333333334e-05, + "loss": 0.0765, + "step": 2244 + }, + { + "epoch": 4.679166666666667, + "grad_norm": 1.016152024269104, + "learning_rate": 3.832291666666667e-05, + "loss": 0.082, + "step": 2246 + }, + { + "epoch": 4.683333333333334, + "grad_norm": 0.6705100536346436, + "learning_rate": 3.83125e-05, + "loss": 0.0504, + "step": 2248 + }, + { + "epoch": 4.6875, + "grad_norm": 1.0376876592636108, + "learning_rate": 3.830208333333333e-05, + "loss": 0.0721, + "step": 2250 + }, + { + "epoch": 4.691666666666666, + "grad_norm": 1.0154895782470703, + "learning_rate": 3.829166666666667e-05, + "loss": 0.0785, + "step": 2252 + }, + { + "epoch": 4.695833333333333, + "grad_norm": 1.7325713634490967, + "learning_rate": 3.828125e-05, + "loss": 0.1273, + "step": 2254 + }, + { + "epoch": 4.7, + "grad_norm": 0.8066458106040955, + "learning_rate": 3.827083333333333e-05, + "loss": 0.0747, + "step": 2256 + }, + { + "epoch": 4.704166666666667, + "grad_norm": 1.0406361818313599, + "learning_rate": 3.8260416666666674e-05, + "loss": 0.0779, + "step": 2258 + }, + { + "epoch": 4.708333333333333, + "grad_norm": 0.6613720655441284, + "learning_rate": 3.825e-05, + "loss": 0.0569, + "step": 2260 + }, + { + "epoch": 4.7125, + "grad_norm": 1.2741122245788574, + "learning_rate": 3.8239583333333336e-05, + "loss": 0.1244, + "step": 2262 + }, + { + "epoch": 4.716666666666667, + "grad_norm": 1.5210806131362915, + "learning_rate": 3.822916666666666e-05, + "loss": 0.0843, + "step": 2264 + }, + { + "epoch": 4.720833333333333, + "grad_norm": 1.0528076887130737, + "learning_rate": 3.8218750000000004e-05, + "loss": 0.0846, + "step": 2266 + }, + { + "epoch": 4.725, + "grad_norm": 1.1751590967178345, + "learning_rate": 3.820833333333334e-05, + "loss": 0.0801, + "step": 2268 + }, + { + "epoch": 4.729166666666667, + "grad_norm": 1.0881016254425049, + "learning_rate": 3.8197916666666666e-05, + "loss": 0.0762, + "step": 2270 + }, + { + "epoch": 4.733333333333333, + "grad_norm": 0.8760167956352234, + "learning_rate": 3.818750000000001e-05, + "loss": 0.0777, + "step": 2272 + }, + { + "epoch": 4.7375, + "grad_norm": 0.8740704655647278, + "learning_rate": 3.8177083333333334e-05, + "loss": 0.0593, + "step": 2274 + }, + { + "epoch": 4.741666666666667, + "grad_norm": 1.185070514678955, + "learning_rate": 3.816666666666667e-05, + "loss": 0.1018, + "step": 2276 + }, + { + "epoch": 4.745833333333334, + "grad_norm": 1.2468626499176025, + "learning_rate": 3.815625e-05, + "loss": 0.075, + "step": 2278 + }, + { + "epoch": 4.75, + "grad_norm": 1.3077911138534546, + "learning_rate": 3.814583333333334e-05, + "loss": 0.0845, + "step": 2280 + }, + { + "epoch": 4.754166666666666, + "grad_norm": 1.002562403678894, + "learning_rate": 3.813541666666667e-05, + "loss": 0.0821, + "step": 2282 + }, + { + "epoch": 4.758333333333333, + "grad_norm": 0.8201732039451599, + "learning_rate": 3.8125e-05, + "loss": 0.0762, + "step": 2284 + }, + { + "epoch": 4.7625, + "grad_norm": 1.1464170217514038, + "learning_rate": 3.811458333333334e-05, + "loss": 0.0864, + "step": 2286 + }, + { + "epoch": 4.766666666666667, + "grad_norm": 1.3176045417785645, + "learning_rate": 3.810416666666667e-05, + "loss": 0.1124, + "step": 2288 + }, + { + "epoch": 4.770833333333333, + "grad_norm": 0.8828669786453247, + "learning_rate": 3.809375e-05, + "loss": 0.0915, + "step": 2290 + }, + { + "epoch": 4.775, + "grad_norm": 1.0585644245147705, + "learning_rate": 3.8083333333333335e-05, + "loss": 0.0784, + "step": 2292 + }, + { + "epoch": 4.779166666666667, + "grad_norm": 2.331343173980713, + "learning_rate": 3.807291666666667e-05, + "loss": 0.081, + "step": 2294 + }, + { + "epoch": 4.783333333333333, + "grad_norm": 1.0704395771026611, + "learning_rate": 3.8062500000000004e-05, + "loss": 0.0884, + "step": 2296 + }, + { + "epoch": 4.7875, + "grad_norm": 1.4003760814666748, + "learning_rate": 3.805208333333333e-05, + "loss": 0.1007, + "step": 2298 + }, + { + "epoch": 4.791666666666667, + "grad_norm": 0.9532901048660278, + "learning_rate": 3.804166666666667e-05, + "loss": 0.0737, + "step": 2300 + }, + { + "epoch": 4.795833333333333, + "grad_norm": 0.9354472160339355, + "learning_rate": 3.803125e-05, + "loss": 0.0916, + "step": 2302 + }, + { + "epoch": 4.8, + "grad_norm": 1.877306580543518, + "learning_rate": 3.8020833333333334e-05, + "loss": 0.1125, + "step": 2304 + }, + { + "epoch": 4.804166666666667, + "grad_norm": 1.2922745943069458, + "learning_rate": 3.801041666666667e-05, + "loss": 0.0872, + "step": 2306 + }, + { + "epoch": 4.808333333333334, + "grad_norm": 1.5043976306915283, + "learning_rate": 3.8e-05, + "loss": 0.066, + "step": 2308 + }, + { + "epoch": 4.8125, + "grad_norm": 1.1234674453735352, + "learning_rate": 3.7989583333333336e-05, + "loss": 0.089, + "step": 2310 + }, + { + "epoch": 4.816666666666666, + "grad_norm": 1.4035699367523193, + "learning_rate": 3.797916666666667e-05, + "loss": 0.1105, + "step": 2312 + }, + { + "epoch": 4.820833333333333, + "grad_norm": 1.0244585275650024, + "learning_rate": 3.7968750000000005e-05, + "loss": 0.0764, + "step": 2314 + }, + { + "epoch": 4.825, + "grad_norm": 1.5508698225021362, + "learning_rate": 3.795833333333333e-05, + "loss": 0.0791, + "step": 2316 + }, + { + "epoch": 4.829166666666667, + "grad_norm": 1.1792707443237305, + "learning_rate": 3.7947916666666666e-05, + "loss": 0.0814, + "step": 2318 + }, + { + "epoch": 4.833333333333333, + "grad_norm": 0.8196383714675903, + "learning_rate": 3.79375e-05, + "loss": 0.0716, + "step": 2320 + }, + { + "epoch": 4.8375, + "grad_norm": 1.7613425254821777, + "learning_rate": 3.7927083333333335e-05, + "loss": 0.0888, + "step": 2322 + }, + { + "epoch": 4.841666666666667, + "grad_norm": 1.1477744579315186, + "learning_rate": 3.791666666666667e-05, + "loss": 0.0986, + "step": 2324 + }, + { + "epoch": 4.845833333333333, + "grad_norm": 0.7669283151626587, + "learning_rate": 3.790625e-05, + "loss": 0.0798, + "step": 2326 + }, + { + "epoch": 4.85, + "grad_norm": 0.9891388416290283, + "learning_rate": 3.789583333333334e-05, + "loss": 0.092, + "step": 2328 + }, + { + "epoch": 4.854166666666667, + "grad_norm": 0.9785768985748291, + "learning_rate": 3.7885416666666665e-05, + "loss": 0.0642, + "step": 2330 + }, + { + "epoch": 4.858333333333333, + "grad_norm": 3.060744047164917, + "learning_rate": 3.7875e-05, + "loss": 0.1094, + "step": 2332 + }, + { + "epoch": 4.8625, + "grad_norm": 1.1269328594207764, + "learning_rate": 3.786458333333333e-05, + "loss": 0.0969, + "step": 2334 + }, + { + "epoch": 4.866666666666667, + "grad_norm": 0.8667688965797424, + "learning_rate": 3.785416666666667e-05, + "loss": 0.1004, + "step": 2336 + }, + { + "epoch": 4.870833333333334, + "grad_norm": 0.7991180419921875, + "learning_rate": 3.784375e-05, + "loss": 0.0622, + "step": 2338 + }, + { + "epoch": 4.875, + "grad_norm": 1.089832067489624, + "learning_rate": 3.7833333333333336e-05, + "loss": 0.1036, + "step": 2340 + }, + { + "epoch": 4.879166666666666, + "grad_norm": 1.0433458089828491, + "learning_rate": 3.782291666666667e-05, + "loss": 0.0876, + "step": 2342 + }, + { + "epoch": 4.883333333333333, + "grad_norm": 1.0509146451950073, + "learning_rate": 3.78125e-05, + "loss": 0.0745, + "step": 2344 + }, + { + "epoch": 4.8875, + "grad_norm": 0.902082622051239, + "learning_rate": 3.780208333333333e-05, + "loss": 0.0779, + "step": 2346 + }, + { + "epoch": 4.891666666666667, + "grad_norm": 1.2545340061187744, + "learning_rate": 3.779166666666667e-05, + "loss": 0.0916, + "step": 2348 + }, + { + "epoch": 4.895833333333333, + "grad_norm": 1.3136417865753174, + "learning_rate": 3.778125e-05, + "loss": 0.0754, + "step": 2350 + }, + { + "epoch": 4.9, + "grad_norm": 1.093558669090271, + "learning_rate": 3.7770833333333334e-05, + "loss": 0.0813, + "step": 2352 + }, + { + "epoch": 4.904166666666667, + "grad_norm": 1.2004882097244263, + "learning_rate": 3.776041666666667e-05, + "loss": 0.0666, + "step": 2354 + }, + { + "epoch": 4.908333333333333, + "grad_norm": 1.3209693431854248, + "learning_rate": 3.775e-05, + "loss": 0.1221, + "step": 2356 + }, + { + "epoch": 4.9125, + "grad_norm": 1.3533098697662354, + "learning_rate": 3.773958333333334e-05, + "loss": 0.077, + "step": 2358 + }, + { + "epoch": 4.916666666666667, + "grad_norm": 1.976776361465454, + "learning_rate": 3.772916666666667e-05, + "loss": 0.0885, + "step": 2360 + }, + { + "epoch": 4.920833333333333, + "grad_norm": 1.5046648979187012, + "learning_rate": 3.7718750000000005e-05, + "loss": 0.0814, + "step": 2362 + }, + { + "epoch": 4.925, + "grad_norm": 1.2079516649246216, + "learning_rate": 3.770833333333333e-05, + "loss": 0.0918, + "step": 2364 + }, + { + "epoch": 4.929166666666667, + "grad_norm": 0.9019784331321716, + "learning_rate": 3.769791666666667e-05, + "loss": 0.0771, + "step": 2366 + }, + { + "epoch": 4.933333333333334, + "grad_norm": 1.0322924852371216, + "learning_rate": 3.76875e-05, + "loss": 0.0706, + "step": 2368 + }, + { + "epoch": 4.9375, + "grad_norm": 1.3481738567352295, + "learning_rate": 3.7677083333333335e-05, + "loss": 0.1036, + "step": 2370 + }, + { + "epoch": 4.941666666666666, + "grad_norm": 1.8663184642791748, + "learning_rate": 3.766666666666667e-05, + "loss": 0.0834, + "step": 2372 + }, + { + "epoch": 4.945833333333333, + "grad_norm": 0.9973840117454529, + "learning_rate": 3.7656250000000004e-05, + "loss": 0.0809, + "step": 2374 + }, + { + "epoch": 4.95, + "grad_norm": 1.7793174982070923, + "learning_rate": 3.764583333333334e-05, + "loss": 0.1054, + "step": 2376 + }, + { + "epoch": 4.954166666666667, + "grad_norm": 1.119338035583496, + "learning_rate": 3.7635416666666666e-05, + "loss": 0.0903, + "step": 2378 + }, + { + "epoch": 4.958333333333333, + "grad_norm": 2.032561779022217, + "learning_rate": 3.7625e-05, + "loss": 0.0996, + "step": 2380 + }, + { + "epoch": 4.9625, + "grad_norm": 1.0437366962432861, + "learning_rate": 3.7614583333333334e-05, + "loss": 0.0703, + "step": 2382 + }, + { + "epoch": 4.966666666666667, + "grad_norm": 2.9778685569763184, + "learning_rate": 3.760416666666667e-05, + "loss": 0.0669, + "step": 2384 + }, + { + "epoch": 4.970833333333333, + "grad_norm": 1.4184067249298096, + "learning_rate": 3.759375e-05, + "loss": 0.088, + "step": 2386 + }, + { + "epoch": 4.975, + "grad_norm": 0.9101529717445374, + "learning_rate": 3.7583333333333337e-05, + "loss": 0.0576, + "step": 2388 + }, + { + "epoch": 4.979166666666667, + "grad_norm": 0.803147554397583, + "learning_rate": 3.757291666666667e-05, + "loss": 0.0978, + "step": 2390 + }, + { + "epoch": 4.983333333333333, + "grad_norm": 1.2611807584762573, + "learning_rate": 3.75625e-05, + "loss": 0.0773, + "step": 2392 + }, + { + "epoch": 4.9875, + "grad_norm": 1.0854650735855103, + "learning_rate": 3.755208333333334e-05, + "loss": 0.0733, + "step": 2394 + }, + { + "epoch": 4.991666666666667, + "grad_norm": 0.9001777172088623, + "learning_rate": 3.754166666666667e-05, + "loss": 0.0769, + "step": 2396 + }, + { + "epoch": 4.995833333333334, + "grad_norm": 1.1789345741271973, + "learning_rate": 3.753125e-05, + "loss": 0.0718, + "step": 2398 + }, + { + "epoch": 5.0, + "grad_norm": 1.1462388038635254, + "learning_rate": 3.7520833333333335e-05, + "loss": 0.0763, + "step": 2400 + }, + { + "epoch": 5.0, + "eval_cer": 0.06610950688582852, + "eval_loss": 0.3830394744873047, + "eval_runtime": 75.7997, + "eval_samples_per_second": 5.198, + "eval_steps_per_second": 0.66, + "step": 2400 + }, + { + "epoch": 5.004166666666666, + "grad_norm": 1.132398247718811, + "learning_rate": 3.751041666666667e-05, + "loss": 0.0608, + "step": 2402 + }, + { + "epoch": 5.008333333333334, + "grad_norm": 0.9063559770584106, + "learning_rate": 3.7500000000000003e-05, + "loss": 0.0687, + "step": 2404 + }, + { + "epoch": 5.0125, + "grad_norm": 0.7586837410926819, + "learning_rate": 3.748958333333333e-05, + "loss": 0.0497, + "step": 2406 + }, + { + "epoch": 5.016666666666667, + "grad_norm": 0.7744643688201904, + "learning_rate": 3.747916666666667e-05, + "loss": 0.0385, + "step": 2408 + }, + { + "epoch": 5.020833333333333, + "grad_norm": 0.6757922768592834, + "learning_rate": 3.746875e-05, + "loss": 0.0485, + "step": 2410 + }, + { + "epoch": 5.025, + "grad_norm": 0.8567860722541809, + "learning_rate": 3.7458333333333334e-05, + "loss": 0.0501, + "step": 2412 + }, + { + "epoch": 5.029166666666667, + "grad_norm": 1.0616141557693481, + "learning_rate": 3.744791666666667e-05, + "loss": 0.0809, + "step": 2414 + }, + { + "epoch": 5.033333333333333, + "grad_norm": 2.053734540939331, + "learning_rate": 3.74375e-05, + "loss": 0.0524, + "step": 2416 + }, + { + "epoch": 5.0375, + "grad_norm": 0.835599422454834, + "learning_rate": 3.7427083333333336e-05, + "loss": 0.0523, + "step": 2418 + }, + { + "epoch": 5.041666666666667, + "grad_norm": 0.8837836384773254, + "learning_rate": 3.7416666666666664e-05, + "loss": 0.0493, + "step": 2420 + }, + { + "epoch": 5.045833333333333, + "grad_norm": 0.5855209231376648, + "learning_rate": 3.7406250000000005e-05, + "loss": 0.0441, + "step": 2422 + }, + { + "epoch": 5.05, + "grad_norm": 0.9204576015472412, + "learning_rate": 3.739583333333334e-05, + "loss": 0.0566, + "step": 2424 + }, + { + "epoch": 5.054166666666666, + "grad_norm": 1.0872373580932617, + "learning_rate": 3.7385416666666666e-05, + "loss": 0.0392, + "step": 2426 + }, + { + "epoch": 5.058333333333334, + "grad_norm": 0.8311589360237122, + "learning_rate": 3.737500000000001e-05, + "loss": 0.0805, + "step": 2428 + }, + { + "epoch": 5.0625, + "grad_norm": 1.9081709384918213, + "learning_rate": 3.7364583333333335e-05, + "loss": 0.0497, + "step": 2430 + }, + { + "epoch": 5.066666666666666, + "grad_norm": 1.1015366315841675, + "learning_rate": 3.735416666666667e-05, + "loss": 0.0602, + "step": 2432 + }, + { + "epoch": 5.070833333333334, + "grad_norm": 0.9234455227851868, + "learning_rate": 3.7343749999999996e-05, + "loss": 0.0399, + "step": 2434 + }, + { + "epoch": 5.075, + "grad_norm": 0.5000536441802979, + "learning_rate": 3.733333333333334e-05, + "loss": 0.0387, + "step": 2436 + }, + { + "epoch": 5.079166666666667, + "grad_norm": 1.5928066968917847, + "learning_rate": 3.732291666666667e-05, + "loss": 0.0656, + "step": 2438 + }, + { + "epoch": 5.083333333333333, + "grad_norm": 0.6684358716011047, + "learning_rate": 3.73125e-05, + "loss": 0.0385, + "step": 2440 + }, + { + "epoch": 5.0875, + "grad_norm": 1.8007737398147583, + "learning_rate": 3.730208333333334e-05, + "loss": 0.059, + "step": 2442 + }, + { + "epoch": 5.091666666666667, + "grad_norm": 0.994261622428894, + "learning_rate": 3.729166666666667e-05, + "loss": 0.0481, + "step": 2444 + }, + { + "epoch": 5.095833333333333, + "grad_norm": 0.69858717918396, + "learning_rate": 3.728125e-05, + "loss": 0.0379, + "step": 2446 + }, + { + "epoch": 5.1, + "grad_norm": 0.8273757100105286, + "learning_rate": 3.7270833333333336e-05, + "loss": 0.0446, + "step": 2448 + }, + { + "epoch": 5.104166666666667, + "grad_norm": 0.8043885231018066, + "learning_rate": 3.726041666666667e-05, + "loss": 0.0439, + "step": 2450 + }, + { + "epoch": 5.108333333333333, + "grad_norm": 1.1051154136657715, + "learning_rate": 3.7250000000000004e-05, + "loss": 0.0721, + "step": 2452 + }, + { + "epoch": 5.1125, + "grad_norm": 1.1423553228378296, + "learning_rate": 3.723958333333333e-05, + "loss": 0.0618, + "step": 2454 + }, + { + "epoch": 5.116666666666666, + "grad_norm": 0.7707287669181824, + "learning_rate": 3.722916666666667e-05, + "loss": 0.0544, + "step": 2456 + }, + { + "epoch": 5.120833333333334, + "grad_norm": 0.9261204600334167, + "learning_rate": 3.721875e-05, + "loss": 0.0717, + "step": 2458 + }, + { + "epoch": 5.125, + "grad_norm": 0.922983705997467, + "learning_rate": 3.7208333333333334e-05, + "loss": 0.0657, + "step": 2460 + }, + { + "epoch": 5.129166666666666, + "grad_norm": 1.178296685218811, + "learning_rate": 3.719791666666667e-05, + "loss": 0.054, + "step": 2462 + }, + { + "epoch": 5.133333333333334, + "grad_norm": 0.6314437389373779, + "learning_rate": 3.71875e-05, + "loss": 0.0479, + "step": 2464 + }, + { + "epoch": 5.1375, + "grad_norm": 0.8759678602218628, + "learning_rate": 3.717708333333334e-05, + "loss": 0.0654, + "step": 2466 + }, + { + "epoch": 5.141666666666667, + "grad_norm": 1.0581141710281372, + "learning_rate": 3.7166666666666664e-05, + "loss": 0.0489, + "step": 2468 + }, + { + "epoch": 5.145833333333333, + "grad_norm": 0.7064672708511353, + "learning_rate": 3.7156250000000005e-05, + "loss": 0.0372, + "step": 2470 + }, + { + "epoch": 5.15, + "grad_norm": 0.8282302021980286, + "learning_rate": 3.714583333333333e-05, + "loss": 0.0434, + "step": 2472 + }, + { + "epoch": 5.154166666666667, + "grad_norm": 0.905379056930542, + "learning_rate": 3.713541666666667e-05, + "loss": 0.0487, + "step": 2474 + }, + { + "epoch": 5.158333333333333, + "grad_norm": 2.773913621902466, + "learning_rate": 3.7125e-05, + "loss": 0.0642, + "step": 2476 + }, + { + "epoch": 5.1625, + "grad_norm": 1.2170192003250122, + "learning_rate": 3.7114583333333335e-05, + "loss": 0.052, + "step": 2478 + }, + { + "epoch": 5.166666666666667, + "grad_norm": 0.7914606928825378, + "learning_rate": 3.710416666666667e-05, + "loss": 0.0438, + "step": 2480 + }, + { + "epoch": 5.170833333333333, + "grad_norm": 1.155677318572998, + "learning_rate": 3.709375e-05, + "loss": 0.0477, + "step": 2482 + }, + { + "epoch": 5.175, + "grad_norm": 0.8174052238464355, + "learning_rate": 3.708333333333334e-05, + "loss": 0.0561, + "step": 2484 + }, + { + "epoch": 5.179166666666666, + "grad_norm": 0.8234705924987793, + "learning_rate": 3.7072916666666665e-05, + "loss": 0.0458, + "step": 2486 + }, + { + "epoch": 5.183333333333334, + "grad_norm": 1.870845079421997, + "learning_rate": 3.70625e-05, + "loss": 0.0613, + "step": 2488 + }, + { + "epoch": 5.1875, + "grad_norm": 0.8638026714324951, + "learning_rate": 3.705208333333334e-05, + "loss": 0.0461, + "step": 2490 + }, + { + "epoch": 5.191666666666666, + "grad_norm": 0.9506574273109436, + "learning_rate": 3.704166666666667e-05, + "loss": 0.0496, + "step": 2492 + }, + { + "epoch": 5.195833333333334, + "grad_norm": 0.7496784925460815, + "learning_rate": 3.703125e-05, + "loss": 0.0713, + "step": 2494 + }, + { + "epoch": 5.2, + "grad_norm": 0.6133871674537659, + "learning_rate": 3.702083333333333e-05, + "loss": 0.0405, + "step": 2496 + }, + { + "epoch": 5.204166666666667, + "grad_norm": 0.6000816226005554, + "learning_rate": 3.701041666666667e-05, + "loss": 0.049, + "step": 2498 + }, + { + "epoch": 5.208333333333333, + "grad_norm": 0.768527090549469, + "learning_rate": 3.7e-05, + "loss": 0.0414, + "step": 2500 + }, + { + "epoch": 5.2125, + "grad_norm": 0.5150195956230164, + "learning_rate": 3.698958333333333e-05, + "loss": 0.0382, + "step": 2502 + }, + { + "epoch": 5.216666666666667, + "grad_norm": 0.8453391790390015, + "learning_rate": 3.697916666666667e-05, + "loss": 0.0573, + "step": 2504 + }, + { + "epoch": 5.220833333333333, + "grad_norm": 0.764140784740448, + "learning_rate": 3.696875e-05, + "loss": 0.0424, + "step": 2506 + }, + { + "epoch": 5.225, + "grad_norm": 1.0673561096191406, + "learning_rate": 3.6958333333333335e-05, + "loss": 0.0456, + "step": 2508 + }, + { + "epoch": 5.229166666666667, + "grad_norm": 0.7286517024040222, + "learning_rate": 3.694791666666667e-05, + "loss": 0.0499, + "step": 2510 + }, + { + "epoch": 5.233333333333333, + "grad_norm": 2.018610715866089, + "learning_rate": 3.69375e-05, + "loss": 0.0601, + "step": 2512 + }, + { + "epoch": 5.2375, + "grad_norm": 0.6812163591384888, + "learning_rate": 3.692708333333334e-05, + "loss": 0.0382, + "step": 2514 + }, + { + "epoch": 5.241666666666666, + "grad_norm": 1.1947760581970215, + "learning_rate": 3.6916666666666665e-05, + "loss": 0.0534, + "step": 2516 + }, + { + "epoch": 5.245833333333334, + "grad_norm": 1.140089988708496, + "learning_rate": 3.6906250000000006e-05, + "loss": 0.044, + "step": 2518 + }, + { + "epoch": 5.25, + "grad_norm": 0.6578356027603149, + "learning_rate": 3.6895833333333333e-05, + "loss": 0.0509, + "step": 2520 + }, + { + "epoch": 5.254166666666666, + "grad_norm": 0.8344497084617615, + "learning_rate": 3.688541666666667e-05, + "loss": 0.0663, + "step": 2522 + }, + { + "epoch": 5.258333333333334, + "grad_norm": 0.7982586026191711, + "learning_rate": 3.6875e-05, + "loss": 0.0504, + "step": 2524 + }, + { + "epoch": 5.2625, + "grad_norm": 0.7293350696563721, + "learning_rate": 3.6864583333333336e-05, + "loss": 0.0436, + "step": 2526 + }, + { + "epoch": 5.266666666666667, + "grad_norm": 0.5722155570983887, + "learning_rate": 3.685416666666667e-05, + "loss": 0.0455, + "step": 2528 + }, + { + "epoch": 5.270833333333333, + "grad_norm": 0.7721129059791565, + "learning_rate": 3.684375e-05, + "loss": 0.0443, + "step": 2530 + }, + { + "epoch": 5.275, + "grad_norm": 0.5428027510643005, + "learning_rate": 3.683333333333334e-05, + "loss": 0.0322, + "step": 2532 + }, + { + "epoch": 5.279166666666667, + "grad_norm": 0.9426686763763428, + "learning_rate": 3.6822916666666666e-05, + "loss": 0.0522, + "step": 2534 + }, + { + "epoch": 5.283333333333333, + "grad_norm": 1.6883223056793213, + "learning_rate": 3.68125e-05, + "loss": 0.0565, + "step": 2536 + }, + { + "epoch": 5.2875, + "grad_norm": 0.5891979336738586, + "learning_rate": 3.6802083333333335e-05, + "loss": 0.041, + "step": 2538 + }, + { + "epoch": 5.291666666666667, + "grad_norm": 0.6974090337753296, + "learning_rate": 3.679166666666667e-05, + "loss": 0.0443, + "step": 2540 + }, + { + "epoch": 5.295833333333333, + "grad_norm": 0.7828706502914429, + "learning_rate": 3.678125e-05, + "loss": 0.0437, + "step": 2542 + }, + { + "epoch": 5.3, + "grad_norm": 0.6532854437828064, + "learning_rate": 3.677083333333334e-05, + "loss": 0.05, + "step": 2544 + }, + { + "epoch": 5.304166666666666, + "grad_norm": 0.7239634990692139, + "learning_rate": 3.676041666666667e-05, + "loss": 0.0433, + "step": 2546 + }, + { + "epoch": 5.308333333333334, + "grad_norm": 0.6610756516456604, + "learning_rate": 3.675e-05, + "loss": 0.0462, + "step": 2548 + }, + { + "epoch": 5.3125, + "grad_norm": 1.6127554178237915, + "learning_rate": 3.673958333333333e-05, + "loss": 0.0571, + "step": 2550 + }, + { + "epoch": 5.316666666666666, + "grad_norm": 0.8935465812683105, + "learning_rate": 3.672916666666667e-05, + "loss": 0.0411, + "step": 2552 + }, + { + "epoch": 5.320833333333334, + "grad_norm": 0.7832165956497192, + "learning_rate": 3.671875e-05, + "loss": 0.0441, + "step": 2554 + }, + { + "epoch": 5.325, + "grad_norm": 0.9644132852554321, + "learning_rate": 3.6708333333333336e-05, + "loss": 0.0471, + "step": 2556 + }, + { + "epoch": 5.329166666666667, + "grad_norm": 2.0431313514709473, + "learning_rate": 3.669791666666667e-05, + "loss": 0.0429, + "step": 2558 + }, + { + "epoch": 5.333333333333333, + "grad_norm": 1.507076621055603, + "learning_rate": 3.6687500000000004e-05, + "loss": 0.0489, + "step": 2560 + }, + { + "epoch": 5.3375, + "grad_norm": 0.8241515159606934, + "learning_rate": 3.667708333333333e-05, + "loss": 0.0515, + "step": 2562 + }, + { + "epoch": 5.341666666666667, + "grad_norm": 0.7502815127372742, + "learning_rate": 3.6666666666666666e-05, + "loss": 0.0585, + "step": 2564 + }, + { + "epoch": 5.345833333333333, + "grad_norm": 0.7602462768554688, + "learning_rate": 3.665625e-05, + "loss": 0.0579, + "step": 2566 + }, + { + "epoch": 5.35, + "grad_norm": 0.919722318649292, + "learning_rate": 3.6645833333333334e-05, + "loss": 0.0513, + "step": 2568 + }, + { + "epoch": 5.354166666666667, + "grad_norm": 0.5642776489257812, + "learning_rate": 3.663541666666667e-05, + "loss": 0.0554, + "step": 2570 + }, + { + "epoch": 5.358333333333333, + "grad_norm": 0.8725467324256897, + "learning_rate": 3.6625e-05, + "loss": 0.057, + "step": 2572 + }, + { + "epoch": 5.3625, + "grad_norm": 1.9989781379699707, + "learning_rate": 3.661458333333334e-05, + "loss": 0.0597, + "step": 2574 + }, + { + "epoch": 5.366666666666666, + "grad_norm": 1.4933115243911743, + "learning_rate": 3.6604166666666664e-05, + "loss": 0.0454, + "step": 2576 + }, + { + "epoch": 5.370833333333334, + "grad_norm": 1.1558510065078735, + "learning_rate": 3.6593750000000005e-05, + "loss": 0.0559, + "step": 2578 + }, + { + "epoch": 5.375, + "grad_norm": 0.5884489417076111, + "learning_rate": 3.658333333333334e-05, + "loss": 0.0384, + "step": 2580 + }, + { + "epoch": 5.379166666666666, + "grad_norm": 0.6591824889183044, + "learning_rate": 3.657291666666667e-05, + "loss": 0.058, + "step": 2582 + }, + { + "epoch": 5.383333333333334, + "grad_norm": 0.6797054409980774, + "learning_rate": 3.65625e-05, + "loss": 0.0439, + "step": 2584 + }, + { + "epoch": 5.3875, + "grad_norm": 0.6785730123519897, + "learning_rate": 3.6552083333333335e-05, + "loss": 0.0524, + "step": 2586 + }, + { + "epoch": 5.391666666666667, + "grad_norm": 0.9170335531234741, + "learning_rate": 3.654166666666667e-05, + "loss": 0.0588, + "step": 2588 + }, + { + "epoch": 5.395833333333333, + "grad_norm": 0.9308131337165833, + "learning_rate": 3.653125e-05, + "loss": 0.055, + "step": 2590 + }, + { + "epoch": 5.4, + "grad_norm": 0.9203269481658936, + "learning_rate": 3.652083333333334e-05, + "loss": 0.0651, + "step": 2592 + }, + { + "epoch": 5.404166666666667, + "grad_norm": 0.8218544125556946, + "learning_rate": 3.651041666666667e-05, + "loss": 0.0527, + "step": 2594 + }, + { + "epoch": 5.408333333333333, + "grad_norm": 0.7530044317245483, + "learning_rate": 3.65e-05, + "loss": 0.0414, + "step": 2596 + }, + { + "epoch": 5.4125, + "grad_norm": 0.8052092790603638, + "learning_rate": 3.6489583333333334e-05, + "loss": 0.0412, + "step": 2598 + }, + { + "epoch": 5.416666666666667, + "grad_norm": 2.6148431301116943, + "learning_rate": 3.647916666666667e-05, + "loss": 0.0632, + "step": 2600 + }, + { + "epoch": 5.416666666666667, + "eval_cer": 0.06488782763216348, + "eval_loss": 0.3851553201675415, + "eval_runtime": 75.3963, + "eval_samples_per_second": 5.226, + "eval_steps_per_second": 0.663, + "step": 2600 + }, + { + "epoch": 5.420833333333333, + "grad_norm": 0.5943480134010315, + "learning_rate": 3.646875e-05, + "loss": 0.048, + "step": 2602 + }, + { + "epoch": 5.425, + "grad_norm": 0.9031876921653748, + "learning_rate": 3.6458333333333336e-05, + "loss": 0.0506, + "step": 2604 + }, + { + "epoch": 5.429166666666666, + "grad_norm": 1.2426021099090576, + "learning_rate": 3.644791666666667e-05, + "loss": 0.0647, + "step": 2606 + }, + { + "epoch": 5.433333333333334, + "grad_norm": 0.8665406107902527, + "learning_rate": 3.6437500000000005e-05, + "loss": 0.0457, + "step": 2608 + }, + { + "epoch": 5.4375, + "grad_norm": 0.5680015683174133, + "learning_rate": 3.642708333333333e-05, + "loss": 0.0474, + "step": 2610 + }, + { + "epoch": 5.441666666666666, + "grad_norm": 0.6127637028694153, + "learning_rate": 3.641666666666667e-05, + "loss": 0.0451, + "step": 2612 + }, + { + "epoch": 5.445833333333334, + "grad_norm": 0.8502368330955505, + "learning_rate": 3.640625e-05, + "loss": 0.0592, + "step": 2614 + }, + { + "epoch": 5.45, + "grad_norm": 1.0151304006576538, + "learning_rate": 3.6395833333333335e-05, + "loss": 0.0498, + "step": 2616 + }, + { + "epoch": 5.454166666666667, + "grad_norm": 1.0276535749435425, + "learning_rate": 3.638541666666667e-05, + "loss": 0.0627, + "step": 2618 + }, + { + "epoch": 5.458333333333333, + "grad_norm": 12.334195137023926, + "learning_rate": 3.6375e-05, + "loss": 0.0524, + "step": 2620 + }, + { + "epoch": 5.4625, + "grad_norm": 0.9506769776344299, + "learning_rate": 3.636458333333334e-05, + "loss": 0.0456, + "step": 2622 + }, + { + "epoch": 5.466666666666667, + "grad_norm": 0.8470591306686401, + "learning_rate": 3.6354166666666665e-05, + "loss": 0.0578, + "step": 2624 + }, + { + "epoch": 5.470833333333333, + "grad_norm": 0.7448152899742126, + "learning_rate": 3.6343750000000006e-05, + "loss": 0.0451, + "step": 2626 + }, + { + "epoch": 5.475, + "grad_norm": 1.0958327054977417, + "learning_rate": 3.633333333333333e-05, + "loss": 0.0429, + "step": 2628 + }, + { + "epoch": 5.479166666666667, + "grad_norm": 0.7991223335266113, + "learning_rate": 3.632291666666667e-05, + "loss": 0.0447, + "step": 2630 + }, + { + "epoch": 5.483333333333333, + "grad_norm": 0.9046729207038879, + "learning_rate": 3.63125e-05, + "loss": 0.061, + "step": 2632 + }, + { + "epoch": 5.4875, + "grad_norm": 0.7310634255409241, + "learning_rate": 3.6302083333333336e-05, + "loss": 0.0361, + "step": 2634 + }, + { + "epoch": 5.491666666666666, + "grad_norm": 1.1607428789138794, + "learning_rate": 3.629166666666667e-05, + "loss": 0.052, + "step": 2636 + }, + { + "epoch": 5.495833333333334, + "grad_norm": 0.8772426247596741, + "learning_rate": 3.628125e-05, + "loss": 0.0471, + "step": 2638 + }, + { + "epoch": 5.5, + "grad_norm": 1.5210353136062622, + "learning_rate": 3.627083333333334e-05, + "loss": 0.0661, + "step": 2640 + }, + { + "epoch": 5.504166666666666, + "grad_norm": 0.799414336681366, + "learning_rate": 3.6260416666666666e-05, + "loss": 0.0556, + "step": 2642 + }, + { + "epoch": 5.508333333333333, + "grad_norm": 0.673536479473114, + "learning_rate": 3.625e-05, + "loss": 0.0326, + "step": 2644 + }, + { + "epoch": 5.5125, + "grad_norm": 0.8308578133583069, + "learning_rate": 3.6239583333333334e-05, + "loss": 0.047, + "step": 2646 + }, + { + "epoch": 5.516666666666667, + "grad_norm": 0.7136927843093872, + "learning_rate": 3.622916666666667e-05, + "loss": 0.0421, + "step": 2648 + }, + { + "epoch": 5.520833333333333, + "grad_norm": 0.9264256954193115, + "learning_rate": 3.621875e-05, + "loss": 0.0408, + "step": 2650 + }, + { + "epoch": 5.525, + "grad_norm": 0.6983962059020996, + "learning_rate": 3.620833333333333e-05, + "loss": 0.0533, + "step": 2652 + }, + { + "epoch": 5.529166666666667, + "grad_norm": 1.5968928337097168, + "learning_rate": 3.619791666666667e-05, + "loss": 0.0684, + "step": 2654 + }, + { + "epoch": 5.533333333333333, + "grad_norm": 0.7796410918235779, + "learning_rate": 3.61875e-05, + "loss": 0.05, + "step": 2656 + }, + { + "epoch": 5.5375, + "grad_norm": 0.7401041388511658, + "learning_rate": 3.617708333333333e-05, + "loss": 0.0627, + "step": 2658 + }, + { + "epoch": 5.541666666666667, + "grad_norm": 0.7048825025558472, + "learning_rate": 3.6166666666666674e-05, + "loss": 0.0571, + "step": 2660 + }, + { + "epoch": 5.545833333333333, + "grad_norm": 0.7255353927612305, + "learning_rate": 3.615625e-05, + "loss": 0.0551, + "step": 2662 + }, + { + "epoch": 5.55, + "grad_norm": 0.768399178981781, + "learning_rate": 3.6145833333333336e-05, + "loss": 0.0546, + "step": 2664 + }, + { + "epoch": 5.554166666666667, + "grad_norm": 2.703899383544922, + "learning_rate": 3.613541666666666e-05, + "loss": 0.0612, + "step": 2666 + }, + { + "epoch": 5.558333333333334, + "grad_norm": 0.585629940032959, + "learning_rate": 3.6125000000000004e-05, + "loss": 0.0321, + "step": 2668 + }, + { + "epoch": 5.5625, + "grad_norm": 0.7603168487548828, + "learning_rate": 3.611458333333334e-05, + "loss": 0.0457, + "step": 2670 + }, + { + "epoch": 5.566666666666666, + "grad_norm": 1.1885192394256592, + "learning_rate": 3.6104166666666666e-05, + "loss": 0.0636, + "step": 2672 + }, + { + "epoch": 5.570833333333333, + "grad_norm": 1.060399055480957, + "learning_rate": 3.6093750000000007e-05, + "loss": 0.0332, + "step": 2674 + }, + { + "epoch": 5.575, + "grad_norm": 2.802557945251465, + "learning_rate": 3.6083333333333334e-05, + "loss": 0.0511, + "step": 2676 + }, + { + "epoch": 5.579166666666667, + "grad_norm": 1.0535961389541626, + "learning_rate": 3.607291666666667e-05, + "loss": 0.0646, + "step": 2678 + }, + { + "epoch": 5.583333333333333, + "grad_norm": 0.868808388710022, + "learning_rate": 3.60625e-05, + "loss": 0.0535, + "step": 2680 + }, + { + "epoch": 5.5875, + "grad_norm": 1.0458916425704956, + "learning_rate": 3.605208333333334e-05, + "loss": 0.0422, + "step": 2682 + }, + { + "epoch": 5.591666666666667, + "grad_norm": 1.4351284503936768, + "learning_rate": 3.604166666666667e-05, + "loss": 0.0556, + "step": 2684 + }, + { + "epoch": 5.595833333333333, + "grad_norm": 0.838235080242157, + "learning_rate": 3.603125e-05, + "loss": 0.058, + "step": 2686 + }, + { + "epoch": 5.6, + "grad_norm": 0.719954788684845, + "learning_rate": 3.602083333333334e-05, + "loss": 0.0477, + "step": 2688 + }, + { + "epoch": 5.604166666666667, + "grad_norm": 1.1777448654174805, + "learning_rate": 3.601041666666667e-05, + "loss": 0.037, + "step": 2690 + }, + { + "epoch": 5.608333333333333, + "grad_norm": 1.1050045490264893, + "learning_rate": 3.6e-05, + "loss": 0.0473, + "step": 2692 + }, + { + "epoch": 5.6125, + "grad_norm": 1.0152617692947388, + "learning_rate": 3.5989583333333335e-05, + "loss": 0.0606, + "step": 2694 + }, + { + "epoch": 5.616666666666667, + "grad_norm": 0.836534857749939, + "learning_rate": 3.597916666666667e-05, + "loss": 0.0454, + "step": 2696 + }, + { + "epoch": 5.620833333333334, + "grad_norm": 0.8727936148643494, + "learning_rate": 3.5968750000000004e-05, + "loss": 0.057, + "step": 2698 + }, + { + "epoch": 5.625, + "grad_norm": 1.0693390369415283, + "learning_rate": 3.595833333333333e-05, + "loss": 0.045, + "step": 2700 + }, + { + "epoch": 5.629166666666666, + "grad_norm": 1.005640983581543, + "learning_rate": 3.594791666666667e-05, + "loss": 0.0707, + "step": 2702 + }, + { + "epoch": 5.633333333333333, + "grad_norm": 0.7619301676750183, + "learning_rate": 3.59375e-05, + "loss": 0.0508, + "step": 2704 + }, + { + "epoch": 5.6375, + "grad_norm": 0.700691282749176, + "learning_rate": 3.5927083333333334e-05, + "loss": 0.0414, + "step": 2706 + }, + { + "epoch": 5.641666666666667, + "grad_norm": 0.7920345664024353, + "learning_rate": 3.591666666666667e-05, + "loss": 0.0464, + "step": 2708 + }, + { + "epoch": 5.645833333333333, + "grad_norm": 1.9108598232269287, + "learning_rate": 3.590625e-05, + "loss": 0.0457, + "step": 2710 + }, + { + "epoch": 5.65, + "grad_norm": 0.8695981502532959, + "learning_rate": 3.5895833333333336e-05, + "loss": 0.0527, + "step": 2712 + }, + { + "epoch": 5.654166666666667, + "grad_norm": 0.6881731748580933, + "learning_rate": 3.5885416666666664e-05, + "loss": 0.0528, + "step": 2714 + }, + { + "epoch": 5.658333333333333, + "grad_norm": 1.3906652927398682, + "learning_rate": 3.5875000000000005e-05, + "loss": 0.0434, + "step": 2716 + }, + { + "epoch": 5.6625, + "grad_norm": 0.6082821488380432, + "learning_rate": 3.586458333333333e-05, + "loss": 0.0349, + "step": 2718 + }, + { + "epoch": 5.666666666666667, + "grad_norm": 0.7210107445716858, + "learning_rate": 3.5854166666666666e-05, + "loss": 0.0408, + "step": 2720 + }, + { + "epoch": 5.670833333333333, + "grad_norm": 1.1649150848388672, + "learning_rate": 3.584375e-05, + "loss": 0.0617, + "step": 2722 + }, + { + "epoch": 5.675, + "grad_norm": 1.1003937721252441, + "learning_rate": 3.5833333333333335e-05, + "loss": 0.0628, + "step": 2724 + }, + { + "epoch": 5.679166666666667, + "grad_norm": 1.0551587343215942, + "learning_rate": 3.582291666666667e-05, + "loss": 0.0566, + "step": 2726 + }, + { + "epoch": 5.683333333333334, + "grad_norm": 0.6256464719772339, + "learning_rate": 3.58125e-05, + "loss": 0.0441, + "step": 2728 + }, + { + "epoch": 5.6875, + "grad_norm": 0.5516342520713806, + "learning_rate": 3.580208333333334e-05, + "loss": 0.0615, + "step": 2730 + }, + { + "epoch": 5.691666666666666, + "grad_norm": 0.7774267196655273, + "learning_rate": 3.5791666666666665e-05, + "loss": 0.0446, + "step": 2732 + }, + { + "epoch": 5.695833333333333, + "grad_norm": 0.9003419876098633, + "learning_rate": 3.578125e-05, + "loss": 0.0486, + "step": 2734 + }, + { + "epoch": 5.7, + "grad_norm": 0.7800949811935425, + "learning_rate": 3.577083333333334e-05, + "loss": 0.0559, + "step": 2736 + }, + { + "epoch": 5.704166666666667, + "grad_norm": 1.0478402376174927, + "learning_rate": 3.576041666666667e-05, + "loss": 0.0715, + "step": 2738 + }, + { + "epoch": 5.708333333333333, + "grad_norm": 0.6734422445297241, + "learning_rate": 3.575e-05, + "loss": 0.048, + "step": 2740 + }, + { + "epoch": 5.7125, + "grad_norm": 0.6664404273033142, + "learning_rate": 3.5739583333333336e-05, + "loss": 0.0504, + "step": 2742 + }, + { + "epoch": 5.716666666666667, + "grad_norm": 0.9647298455238342, + "learning_rate": 3.572916666666667e-05, + "loss": 0.0477, + "step": 2744 + }, + { + "epoch": 5.720833333333333, + "grad_norm": 0.7399818897247314, + "learning_rate": 3.571875e-05, + "loss": 0.052, + "step": 2746 + }, + { + "epoch": 5.725, + "grad_norm": 1.0071414709091187, + "learning_rate": 3.570833333333333e-05, + "loss": 0.0415, + "step": 2748 + }, + { + "epoch": 5.729166666666667, + "grad_norm": 1.6890517473220825, + "learning_rate": 3.569791666666667e-05, + "loss": 0.0587, + "step": 2750 + }, + { + "epoch": 5.733333333333333, + "grad_norm": 1.3964580297470093, + "learning_rate": 3.56875e-05, + "loss": 0.0483, + "step": 2752 + }, + { + "epoch": 5.7375, + "grad_norm": 0.8350498676300049, + "learning_rate": 3.5677083333333334e-05, + "loss": 0.0528, + "step": 2754 + }, + { + "epoch": 5.741666666666667, + "grad_norm": 0.808256208896637, + "learning_rate": 3.566666666666667e-05, + "loss": 0.0443, + "step": 2756 + }, + { + "epoch": 5.745833333333334, + "grad_norm": 1.09520423412323, + "learning_rate": 3.565625e-05, + "loss": 0.0464, + "step": 2758 + }, + { + "epoch": 5.75, + "grad_norm": 1.0167288780212402, + "learning_rate": 3.564583333333334e-05, + "loss": 0.0604, + "step": 2760 + }, + { + "epoch": 5.754166666666666, + "grad_norm": 0.9754977226257324, + "learning_rate": 3.563541666666667e-05, + "loss": 0.0605, + "step": 2762 + }, + { + "epoch": 5.758333333333333, + "grad_norm": 1.5287244319915771, + "learning_rate": 3.5625000000000005e-05, + "loss": 0.0549, + "step": 2764 + }, + { + "epoch": 5.7625, + "grad_norm": 0.7669677734375, + "learning_rate": 3.561458333333333e-05, + "loss": 0.0408, + "step": 2766 + }, + { + "epoch": 5.766666666666667, + "grad_norm": 2.0436058044433594, + "learning_rate": 3.560416666666667e-05, + "loss": 0.0809, + "step": 2768 + }, + { + "epoch": 5.770833333333333, + "grad_norm": 0.7597618699073792, + "learning_rate": 3.559375e-05, + "loss": 0.0457, + "step": 2770 + }, + { + "epoch": 5.775, + "grad_norm": 0.8737605810165405, + "learning_rate": 3.5583333333333335e-05, + "loss": 0.0462, + "step": 2772 + }, + { + "epoch": 5.779166666666667, + "grad_norm": 0.7941930294036865, + "learning_rate": 3.557291666666667e-05, + "loss": 0.0601, + "step": 2774 + }, + { + "epoch": 5.783333333333333, + "grad_norm": 0.7812413573265076, + "learning_rate": 3.5562500000000004e-05, + "loss": 0.037, + "step": 2776 + }, + { + "epoch": 5.7875, + "grad_norm": 1.0341219902038574, + "learning_rate": 3.555208333333334e-05, + "loss": 0.0556, + "step": 2778 + }, + { + "epoch": 5.791666666666667, + "grad_norm": 3.813833713531494, + "learning_rate": 3.5541666666666665e-05, + "loss": 0.0707, + "step": 2780 + }, + { + "epoch": 5.795833333333333, + "grad_norm": 0.7832286953926086, + "learning_rate": 3.553125e-05, + "loss": 0.05, + "step": 2782 + }, + { + "epoch": 5.8, + "grad_norm": 1.8136810064315796, + "learning_rate": 3.5520833333333334e-05, + "loss": 0.061, + "step": 2784 + }, + { + "epoch": 5.804166666666667, + "grad_norm": 0.7565733790397644, + "learning_rate": 3.551041666666667e-05, + "loss": 0.0529, + "step": 2786 + }, + { + "epoch": 5.808333333333334, + "grad_norm": 0.5913260579109192, + "learning_rate": 3.55e-05, + "loss": 0.0517, + "step": 2788 + }, + { + "epoch": 5.8125, + "grad_norm": 0.9104582071304321, + "learning_rate": 3.5489583333333337e-05, + "loss": 0.0477, + "step": 2790 + }, + { + "epoch": 5.816666666666666, + "grad_norm": 0.7715944647789001, + "learning_rate": 3.547916666666667e-05, + "loss": 0.0724, + "step": 2792 + }, + { + "epoch": 5.820833333333333, + "grad_norm": 0.9155409932136536, + "learning_rate": 3.546875e-05, + "loss": 0.0543, + "step": 2794 + }, + { + "epoch": 5.825, + "grad_norm": 1.382066011428833, + "learning_rate": 3.545833333333333e-05, + "loss": 0.062, + "step": 2796 + }, + { + "epoch": 5.829166666666667, + "grad_norm": 1.0368305444717407, + "learning_rate": 3.5447916666666667e-05, + "loss": 0.0815, + "step": 2798 + }, + { + "epoch": 5.833333333333333, + "grad_norm": 1.6131657361984253, + "learning_rate": 3.54375e-05, + "loss": 0.0449, + "step": 2800 + }, + { + "epoch": 5.833333333333333, + "eval_cer": 0.06316637050199911, + "eval_loss": 0.3901619017124176, + "eval_runtime": 75.9502, + "eval_samples_per_second": 5.188, + "eval_steps_per_second": 0.658, + "step": 2800 + }, + { + "epoch": 5.8375, + "grad_norm": 2.6503212451934814, + "learning_rate": 3.5427083333333335e-05, + "loss": 0.0679, + "step": 2802 + }, + { + "epoch": 5.841666666666667, + "grad_norm": 0.8777520656585693, + "learning_rate": 3.541666666666667e-05, + "loss": 0.0704, + "step": 2804 + }, + { + "epoch": 5.845833333333333, + "grad_norm": 2.032722234725952, + "learning_rate": 3.5406250000000003e-05, + "loss": 0.0659, + "step": 2806 + }, + { + "epoch": 5.85, + "grad_norm": 0.8586663007736206, + "learning_rate": 3.539583333333333e-05, + "loss": 0.0489, + "step": 2808 + }, + { + "epoch": 5.854166666666667, + "grad_norm": 0.7829291224479675, + "learning_rate": 3.538541666666667e-05, + "loss": 0.0372, + "step": 2810 + }, + { + "epoch": 5.858333333333333, + "grad_norm": 2.8571383953094482, + "learning_rate": 3.5375e-05, + "loss": 0.0793, + "step": 2812 + }, + { + "epoch": 5.8625, + "grad_norm": 0.7953184247016907, + "learning_rate": 3.5364583333333333e-05, + "loss": 0.0515, + "step": 2814 + }, + { + "epoch": 5.866666666666667, + "grad_norm": 0.8535019159317017, + "learning_rate": 3.535416666666667e-05, + "loss": 0.0567, + "step": 2816 + }, + { + "epoch": 5.870833333333334, + "grad_norm": 1.0713527202606201, + "learning_rate": 3.534375e-05, + "loss": 0.0622, + "step": 2818 + }, + { + "epoch": 5.875, + "grad_norm": 0.9551832675933838, + "learning_rate": 3.5333333333333336e-05, + "loss": 0.0685, + "step": 2820 + }, + { + "epoch": 5.879166666666666, + "grad_norm": 0.6873246431350708, + "learning_rate": 3.5322916666666664e-05, + "loss": 0.0535, + "step": 2822 + }, + { + "epoch": 5.883333333333333, + "grad_norm": 0.9993751645088196, + "learning_rate": 3.5312500000000005e-05, + "loss": 0.0628, + "step": 2824 + }, + { + "epoch": 5.8875, + "grad_norm": 0.7553026676177979, + "learning_rate": 3.530208333333334e-05, + "loss": 0.0559, + "step": 2826 + }, + { + "epoch": 5.891666666666667, + "grad_norm": 1.1723288297653198, + "learning_rate": 3.5291666666666666e-05, + "loss": 0.0559, + "step": 2828 + }, + { + "epoch": 5.895833333333333, + "grad_norm": 1.0020556449890137, + "learning_rate": 3.528125e-05, + "loss": 0.0402, + "step": 2830 + }, + { + "epoch": 5.9, + "grad_norm": 0.8610193133354187, + "learning_rate": 3.5270833333333335e-05, + "loss": 0.0672, + "step": 2832 + }, + { + "epoch": 5.904166666666667, + "grad_norm": 0.9014437198638916, + "learning_rate": 3.526041666666667e-05, + "loss": 0.0561, + "step": 2834 + }, + { + "epoch": 5.908333333333333, + "grad_norm": 1.2835534811019897, + "learning_rate": 3.525e-05, + "loss": 0.0563, + "step": 2836 + }, + { + "epoch": 5.9125, + "grad_norm": 0.8136109113693237, + "learning_rate": 3.523958333333334e-05, + "loss": 0.046, + "step": 2838 + }, + { + "epoch": 5.916666666666667, + "grad_norm": 0.9141510725021362, + "learning_rate": 3.522916666666667e-05, + "loss": 0.0438, + "step": 2840 + }, + { + "epoch": 5.920833333333333, + "grad_norm": 0.8437463045120239, + "learning_rate": 3.521875e-05, + "loss": 0.0454, + "step": 2842 + }, + { + "epoch": 5.925, + "grad_norm": 0.8013039827346802, + "learning_rate": 3.520833333333334e-05, + "loss": 0.0598, + "step": 2844 + }, + { + "epoch": 5.929166666666667, + "grad_norm": 3.360915184020996, + "learning_rate": 3.519791666666667e-05, + "loss": 0.052, + "step": 2846 + }, + { + "epoch": 5.933333333333334, + "grad_norm": 0.9238967895507812, + "learning_rate": 3.51875e-05, + "loss": 0.0474, + "step": 2848 + }, + { + "epoch": 5.9375, + "grad_norm": 0.7635247111320496, + "learning_rate": 3.5177083333333336e-05, + "loss": 0.0574, + "step": 2850 + }, + { + "epoch": 5.941666666666666, + "grad_norm": 0.6067724823951721, + "learning_rate": 3.516666666666667e-05, + "loss": 0.0447, + "step": 2852 + }, + { + "epoch": 5.945833333333333, + "grad_norm": 1.4084893465042114, + "learning_rate": 3.5156250000000004e-05, + "loss": 0.0717, + "step": 2854 + }, + { + "epoch": 5.95, + "grad_norm": 0.6527026891708374, + "learning_rate": 3.514583333333333e-05, + "loss": 0.0475, + "step": 2856 + }, + { + "epoch": 5.954166666666667, + "grad_norm": 0.8050301671028137, + "learning_rate": 3.513541666666667e-05, + "loss": 0.0476, + "step": 2858 + }, + { + "epoch": 5.958333333333333, + "grad_norm": 1.026193380355835, + "learning_rate": 3.5125e-05, + "loss": 0.059, + "step": 2860 + }, + { + "epoch": 5.9625, + "grad_norm": 2.237765073776245, + "learning_rate": 3.5114583333333334e-05, + "loss": 0.0646, + "step": 2862 + }, + { + "epoch": 5.966666666666667, + "grad_norm": 0.7925946116447449, + "learning_rate": 3.510416666666667e-05, + "loss": 0.0534, + "step": 2864 + }, + { + "epoch": 5.970833333333333, + "grad_norm": 0.8243115544319153, + "learning_rate": 3.509375e-05, + "loss": 0.0421, + "step": 2866 + }, + { + "epoch": 5.975, + "grad_norm": 1.1646242141723633, + "learning_rate": 3.508333333333334e-05, + "loss": 0.0431, + "step": 2868 + }, + { + "epoch": 5.979166666666667, + "grad_norm": 0.7582091689109802, + "learning_rate": 3.5072916666666664e-05, + "loss": 0.0504, + "step": 2870 + }, + { + "epoch": 5.983333333333333, + "grad_norm": 1.6565274000167847, + "learning_rate": 3.5062500000000005e-05, + "loss": 0.0639, + "step": 2872 + }, + { + "epoch": 5.9875, + "grad_norm": 0.9797215461730957, + "learning_rate": 3.505208333333333e-05, + "loss": 0.0476, + "step": 2874 + }, + { + "epoch": 5.991666666666667, + "grad_norm": 1.0296556949615479, + "learning_rate": 3.504166666666667e-05, + "loss": 0.0679, + "step": 2876 + }, + { + "epoch": 5.995833333333334, + "grad_norm": 6.919270992279053, + "learning_rate": 3.503125e-05, + "loss": 0.058, + "step": 2878 + }, + { + "epoch": 6.0, + "grad_norm": 0.6147159934043884, + "learning_rate": 3.5020833333333335e-05, + "loss": 0.0354, + "step": 2880 + }, + { + "epoch": 6.004166666666666, + "grad_norm": 0.7298905849456787, + "learning_rate": 3.501041666666667e-05, + "loss": 0.0403, + "step": 2882 + }, + { + "epoch": 6.008333333333334, + "grad_norm": 0.6034187078475952, + "learning_rate": 3.5e-05, + "loss": 0.0361, + "step": 2884 + }, + { + "epoch": 6.0125, + "grad_norm": 0.544328510761261, + "learning_rate": 3.498958333333334e-05, + "loss": 0.0204, + "step": 2886 + }, + { + "epoch": 6.016666666666667, + "grad_norm": 1.228520393371582, + "learning_rate": 3.4979166666666665e-05, + "loss": 0.0263, + "step": 2888 + }, + { + "epoch": 6.020833333333333, + "grad_norm": 9.27348804473877, + "learning_rate": 3.496875e-05, + "loss": 0.0269, + "step": 2890 + }, + { + "epoch": 6.025, + "grad_norm": 0.3944419026374817, + "learning_rate": 3.495833333333334e-05, + "loss": 0.0217, + "step": 2892 + }, + { + "epoch": 6.029166666666667, + "grad_norm": 0.5108866691589355, + "learning_rate": 3.494791666666667e-05, + "loss": 0.035, + "step": 2894 + }, + { + "epoch": 6.033333333333333, + "grad_norm": 0.8187614679336548, + "learning_rate": 3.49375e-05, + "loss": 0.0341, + "step": 2896 + }, + { + "epoch": 6.0375, + "grad_norm": 1.661848545074463, + "learning_rate": 3.492708333333333e-05, + "loss": 0.0581, + "step": 2898 + }, + { + "epoch": 6.041666666666667, + "grad_norm": 0.5319425463676453, + "learning_rate": 3.491666666666667e-05, + "loss": 0.0391, + "step": 2900 + }, + { + "epoch": 6.045833333333333, + "grad_norm": 0.6203740835189819, + "learning_rate": 3.4906250000000005e-05, + "loss": 0.0314, + "step": 2902 + }, + { + "epoch": 6.05, + "grad_norm": 0.7410362362861633, + "learning_rate": 3.489583333333333e-05, + "loss": 0.0392, + "step": 2904 + }, + { + "epoch": 6.054166666666666, + "grad_norm": 0.5723545551300049, + "learning_rate": 3.488541666666667e-05, + "loss": 0.0226, + "step": 2906 + }, + { + "epoch": 6.058333333333334, + "grad_norm": 0.6515635848045349, + "learning_rate": 3.4875e-05, + "loss": 0.0356, + "step": 2908 + }, + { + "epoch": 6.0625, + "grad_norm": 0.5679872035980225, + "learning_rate": 3.4864583333333335e-05, + "loss": 0.0355, + "step": 2910 + }, + { + "epoch": 6.066666666666666, + "grad_norm": 0.321390837430954, + "learning_rate": 3.485416666666667e-05, + "loss": 0.0302, + "step": 2912 + }, + { + "epoch": 6.070833333333334, + "grad_norm": 0.4850442707538605, + "learning_rate": 3.484375e-05, + "loss": 0.0265, + "step": 2914 + }, + { + "epoch": 6.075, + "grad_norm": 1.3495615720748901, + "learning_rate": 3.483333333333334e-05, + "loss": 0.0409, + "step": 2916 + }, + { + "epoch": 6.079166666666667, + "grad_norm": 0.3608439862728119, + "learning_rate": 3.4822916666666665e-05, + "loss": 0.0196, + "step": 2918 + }, + { + "epoch": 6.083333333333333, + "grad_norm": 0.5455142259597778, + "learning_rate": 3.4812500000000006e-05, + "loss": 0.0284, + "step": 2920 + }, + { + "epoch": 6.0875, + "grad_norm": 0.68426114320755, + "learning_rate": 3.480208333333333e-05, + "loss": 0.0408, + "step": 2922 + }, + { + "epoch": 6.091666666666667, + "grad_norm": 0.7200291156768799, + "learning_rate": 3.479166666666667e-05, + "loss": 0.0343, + "step": 2924 + }, + { + "epoch": 6.095833333333333, + "grad_norm": 2.543065071105957, + "learning_rate": 3.478125e-05, + "loss": 0.0328, + "step": 2926 + }, + { + "epoch": 6.1, + "grad_norm": 0.9447631239891052, + "learning_rate": 3.4770833333333336e-05, + "loss": 0.0373, + "step": 2928 + }, + { + "epoch": 6.104166666666667, + "grad_norm": 1.3515363931655884, + "learning_rate": 3.476041666666667e-05, + "loss": 0.0431, + "step": 2930 + }, + { + "epoch": 6.108333333333333, + "grad_norm": 0.5173853635787964, + "learning_rate": 3.475e-05, + "loss": 0.0225, + "step": 2932 + }, + { + "epoch": 6.1125, + "grad_norm": 0.5761849284172058, + "learning_rate": 3.473958333333334e-05, + "loss": 0.0292, + "step": 2934 + }, + { + "epoch": 6.116666666666666, + "grad_norm": 0.479602575302124, + "learning_rate": 3.4729166666666666e-05, + "loss": 0.0413, + "step": 2936 + }, + { + "epoch": 6.120833333333334, + "grad_norm": 0.580207109451294, + "learning_rate": 3.471875e-05, + "loss": 0.0329, + "step": 2938 + }, + { + "epoch": 6.125, + "grad_norm": 0.505294144153595, + "learning_rate": 3.4708333333333334e-05, + "loss": 0.0292, + "step": 2940 + }, + { + "epoch": 6.129166666666666, + "grad_norm": 0.8375163674354553, + "learning_rate": 3.469791666666667e-05, + "loss": 0.0385, + "step": 2942 + }, + { + "epoch": 6.133333333333334, + "grad_norm": 1.639440894126892, + "learning_rate": 3.46875e-05, + "loss": 0.0331, + "step": 2944 + }, + { + "epoch": 6.1375, + "grad_norm": 0.48460081219673157, + "learning_rate": 3.467708333333333e-05, + "loss": 0.0237, + "step": 2946 + }, + { + "epoch": 6.141666666666667, + "grad_norm": 1.6285066604614258, + "learning_rate": 3.466666666666667e-05, + "loss": 0.0368, + "step": 2948 + }, + { + "epoch": 6.145833333333333, + "grad_norm": 0.6059957146644592, + "learning_rate": 3.465625e-05, + "loss": 0.0247, + "step": 2950 + }, + { + "epoch": 6.15, + "grad_norm": 0.653791069984436, + "learning_rate": 3.464583333333333e-05, + "loss": 0.0244, + "step": 2952 + }, + { + "epoch": 6.154166666666667, + "grad_norm": 1.7742559909820557, + "learning_rate": 3.463541666666667e-05, + "loss": 0.0382, + "step": 2954 + }, + { + "epoch": 6.158333333333333, + "grad_norm": 0.47144046425819397, + "learning_rate": 3.4625e-05, + "loss": 0.0315, + "step": 2956 + }, + { + "epoch": 6.1625, + "grad_norm": 0.5175449848175049, + "learning_rate": 3.4614583333333336e-05, + "loss": 0.0275, + "step": 2958 + }, + { + "epoch": 6.166666666666667, + "grad_norm": 0.6871429085731506, + "learning_rate": 3.460416666666667e-05, + "loss": 0.0438, + "step": 2960 + }, + { + "epoch": 6.170833333333333, + "grad_norm": 0.5127938389778137, + "learning_rate": 3.4593750000000004e-05, + "loss": 0.0273, + "step": 2962 + }, + { + "epoch": 6.175, + "grad_norm": 0.8594480156898499, + "learning_rate": 3.458333333333333e-05, + "loss": 0.0237, + "step": 2964 + }, + { + "epoch": 6.179166666666666, + "grad_norm": 1.2954217195510864, + "learning_rate": 3.4572916666666666e-05, + "loss": 0.027, + "step": 2966 + }, + { + "epoch": 6.183333333333334, + "grad_norm": 0.9650796055793762, + "learning_rate": 3.45625e-05, + "loss": 0.0419, + "step": 2968 + }, + { + "epoch": 6.1875, + "grad_norm": 1.510520577430725, + "learning_rate": 3.4552083333333334e-05, + "loss": 0.0376, + "step": 2970 + }, + { + "epoch": 6.191666666666666, + "grad_norm": 0.8258828520774841, + "learning_rate": 3.454166666666667e-05, + "loss": 0.0477, + "step": 2972 + }, + { + "epoch": 6.195833333333334, + "grad_norm": 0.6377150416374207, + "learning_rate": 3.453125e-05, + "loss": 0.0337, + "step": 2974 + }, + { + "epoch": 6.2, + "grad_norm": 0.6492462158203125, + "learning_rate": 3.452083333333334e-05, + "loss": 0.0379, + "step": 2976 + }, + { + "epoch": 6.204166666666667, + "grad_norm": 0.5571150183677673, + "learning_rate": 3.4510416666666664e-05, + "loss": 0.028, + "step": 2978 + }, + { + "epoch": 6.208333333333333, + "grad_norm": 0.6077101826667786, + "learning_rate": 3.45e-05, + "loss": 0.0367, + "step": 2980 + }, + { + "epoch": 6.2125, + "grad_norm": 0.6769101619720459, + "learning_rate": 3.448958333333334e-05, + "loss": 0.0347, + "step": 2982 + }, + { + "epoch": 6.216666666666667, + "grad_norm": 0.485025554895401, + "learning_rate": 3.447916666666667e-05, + "loss": 0.0281, + "step": 2984 + }, + { + "epoch": 6.220833333333333, + "grad_norm": 0.4775853455066681, + "learning_rate": 3.446875e-05, + "loss": 0.0318, + "step": 2986 + }, + { + "epoch": 6.225, + "grad_norm": 0.5016751289367676, + "learning_rate": 3.4458333333333335e-05, + "loss": 0.0297, + "step": 2988 + }, + { + "epoch": 6.229166666666667, + "grad_norm": 0.3551563024520874, + "learning_rate": 3.444791666666667e-05, + "loss": 0.025, + "step": 2990 + }, + { + "epoch": 6.233333333333333, + "grad_norm": 0.5952440500259399, + "learning_rate": 3.4437500000000004e-05, + "loss": 0.0316, + "step": 2992 + }, + { + "epoch": 6.2375, + "grad_norm": 0.9779202342033386, + "learning_rate": 3.442708333333334e-05, + "loss": 0.0324, + "step": 2994 + }, + { + "epoch": 6.241666666666666, + "grad_norm": 0.8517048358917236, + "learning_rate": 3.441666666666667e-05, + "loss": 0.0396, + "step": 2996 + }, + { + "epoch": 6.245833333333334, + "grad_norm": 1.3025754690170288, + "learning_rate": 3.440625e-05, + "loss": 0.0188, + "step": 2998 + }, + { + "epoch": 6.25, + "grad_norm": 0.6911479830741882, + "learning_rate": 3.4395833333333334e-05, + "loss": 0.0369, + "step": 3000 + }, + { + "epoch": 6.25, + "eval_cer": 0.06297201243891604, + "eval_loss": 0.3909538686275482, + "eval_runtime": 75.2566, + "eval_samples_per_second": 5.235, + "eval_steps_per_second": 0.664, + "step": 3000 + }, + { + "epoch": 6.254166666666666, + "grad_norm": 0.7582861185073853, + "learning_rate": 3.438541666666667e-05, + "loss": 0.0396, + "step": 3002 + }, + { + "epoch": 6.258333333333334, + "grad_norm": 0.6507039070129395, + "learning_rate": 3.4375e-05, + "loss": 0.0307, + "step": 3004 + }, + { + "epoch": 6.2625, + "grad_norm": 0.5392362475395203, + "learning_rate": 3.4364583333333336e-05, + "loss": 0.0273, + "step": 3006 + }, + { + "epoch": 6.266666666666667, + "grad_norm": 1.3425451517105103, + "learning_rate": 3.435416666666667e-05, + "loss": 0.039, + "step": 3008 + }, + { + "epoch": 6.270833333333333, + "grad_norm": 0.8967355489730835, + "learning_rate": 3.4343750000000005e-05, + "loss": 0.0276, + "step": 3010 + }, + { + "epoch": 6.275, + "grad_norm": 0.5520058870315552, + "learning_rate": 3.433333333333333e-05, + "loss": 0.0345, + "step": 3012 + }, + { + "epoch": 6.279166666666667, + "grad_norm": 0.878490686416626, + "learning_rate": 3.4322916666666666e-05, + "loss": 0.026, + "step": 3014 + }, + { + "epoch": 6.283333333333333, + "grad_norm": 0.5508630871772766, + "learning_rate": 3.43125e-05, + "loss": 0.0207, + "step": 3016 + }, + { + "epoch": 6.2875, + "grad_norm": 1.836173415184021, + "learning_rate": 3.4302083333333335e-05, + "loss": 0.0287, + "step": 3018 + }, + { + "epoch": 6.291666666666667, + "grad_norm": 0.5117208361625671, + "learning_rate": 3.429166666666667e-05, + "loss": 0.0303, + "step": 3020 + }, + { + "epoch": 6.295833333333333, + "grad_norm": 0.752200186252594, + "learning_rate": 3.428125e-05, + "loss": 0.0331, + "step": 3022 + }, + { + "epoch": 6.3, + "grad_norm": 0.4742030203342438, + "learning_rate": 3.427083333333334e-05, + "loss": 0.0312, + "step": 3024 + }, + { + "epoch": 6.304166666666666, + "grad_norm": 0.41652071475982666, + "learning_rate": 3.4260416666666665e-05, + "loss": 0.0211, + "step": 3026 + }, + { + "epoch": 6.308333333333334, + "grad_norm": 0.41146236658096313, + "learning_rate": 3.4250000000000006e-05, + "loss": 0.0244, + "step": 3028 + }, + { + "epoch": 6.3125, + "grad_norm": 0.6488532423973083, + "learning_rate": 3.423958333333333e-05, + "loss": 0.0369, + "step": 3030 + }, + { + "epoch": 6.316666666666666, + "grad_norm": 0.6464362740516663, + "learning_rate": 3.422916666666667e-05, + "loss": 0.0297, + "step": 3032 + }, + { + "epoch": 6.320833333333334, + "grad_norm": 0.44016900658607483, + "learning_rate": 3.421875e-05, + "loss": 0.0233, + "step": 3034 + }, + { + "epoch": 6.325, + "grad_norm": 0.49641963839530945, + "learning_rate": 3.4208333333333336e-05, + "loss": 0.0261, + "step": 3036 + }, + { + "epoch": 6.329166666666667, + "grad_norm": 0.8724527955055237, + "learning_rate": 3.419791666666667e-05, + "loss": 0.0351, + "step": 3038 + }, + { + "epoch": 6.333333333333333, + "grad_norm": 0.6044591069221497, + "learning_rate": 3.41875e-05, + "loss": 0.0319, + "step": 3040 + }, + { + "epoch": 6.3375, + "grad_norm": 0.478023499250412, + "learning_rate": 3.417708333333334e-05, + "loss": 0.0293, + "step": 3042 + }, + { + "epoch": 6.341666666666667, + "grad_norm": 0.7124316096305847, + "learning_rate": 3.4166666666666666e-05, + "loss": 0.0226, + "step": 3044 + }, + { + "epoch": 6.345833333333333, + "grad_norm": 0.7376870512962341, + "learning_rate": 3.415625e-05, + "loss": 0.0249, + "step": 3046 + }, + { + "epoch": 6.35, + "grad_norm": 0.709838330745697, + "learning_rate": 3.4145833333333334e-05, + "loss": 0.0443, + "step": 3048 + }, + { + "epoch": 6.354166666666667, + "grad_norm": 0.7127888798713684, + "learning_rate": 3.413541666666667e-05, + "loss": 0.0314, + "step": 3050 + }, + { + "epoch": 6.358333333333333, + "grad_norm": 0.49731460213661194, + "learning_rate": 3.4125e-05, + "loss": 0.0315, + "step": 3052 + }, + { + "epoch": 6.3625, + "grad_norm": 0.6336708664894104, + "learning_rate": 3.411458333333333e-05, + "loss": 0.0228, + "step": 3054 + }, + { + "epoch": 6.366666666666666, + "grad_norm": 0.6873764991760254, + "learning_rate": 3.410416666666667e-05, + "loss": 0.0281, + "step": 3056 + }, + { + "epoch": 6.370833333333334, + "grad_norm": 0.387981116771698, + "learning_rate": 3.4093750000000005e-05, + "loss": 0.0291, + "step": 3058 + }, + { + "epoch": 6.375, + "grad_norm": 0.5530269742012024, + "learning_rate": 3.408333333333333e-05, + "loss": 0.027, + "step": 3060 + }, + { + "epoch": 6.379166666666666, + "grad_norm": 0.7220897078514099, + "learning_rate": 3.4072916666666674e-05, + "loss": 0.0239, + "step": 3062 + }, + { + "epoch": 6.383333333333334, + "grad_norm": 0.7195436954498291, + "learning_rate": 3.40625e-05, + "loss": 0.0364, + "step": 3064 + }, + { + "epoch": 6.3875, + "grad_norm": 0.7238262891769409, + "learning_rate": 3.4052083333333335e-05, + "loss": 0.0329, + "step": 3066 + }, + { + "epoch": 6.391666666666667, + "grad_norm": 1.2956379652023315, + "learning_rate": 3.404166666666666e-05, + "loss": 0.0406, + "step": 3068 + }, + { + "epoch": 6.395833333333333, + "grad_norm": 0.6531081795692444, + "learning_rate": 3.4031250000000004e-05, + "loss": 0.0285, + "step": 3070 + }, + { + "epoch": 6.4, + "grad_norm": 1.4365787506103516, + "learning_rate": 3.402083333333334e-05, + "loss": 0.0307, + "step": 3072 + }, + { + "epoch": 6.404166666666667, + "grad_norm": 0.7244048118591309, + "learning_rate": 3.4010416666666666e-05, + "loss": 0.0345, + "step": 3074 + }, + { + "epoch": 6.408333333333333, + "grad_norm": 0.7018679976463318, + "learning_rate": 3.4000000000000007e-05, + "loss": 0.0325, + "step": 3076 + }, + { + "epoch": 6.4125, + "grad_norm": 0.7363236546516418, + "learning_rate": 3.3989583333333334e-05, + "loss": 0.0315, + "step": 3078 + }, + { + "epoch": 6.416666666666667, + "grad_norm": 0.43744418025016785, + "learning_rate": 3.397916666666667e-05, + "loss": 0.0254, + "step": 3080 + }, + { + "epoch": 6.420833333333333, + "grad_norm": 0.4785197973251343, + "learning_rate": 3.396875e-05, + "loss": 0.0306, + "step": 3082 + }, + { + "epoch": 6.425, + "grad_norm": 0.6204140186309814, + "learning_rate": 3.3958333333333337e-05, + "loss": 0.0488, + "step": 3084 + }, + { + "epoch": 6.429166666666666, + "grad_norm": 3.4118149280548096, + "learning_rate": 3.394791666666667e-05, + "loss": 0.0253, + "step": 3086 + }, + { + "epoch": 6.433333333333334, + "grad_norm": 0.9113151431083679, + "learning_rate": 3.39375e-05, + "loss": 0.0351, + "step": 3088 + }, + { + "epoch": 6.4375, + "grad_norm": 0.830354630947113, + "learning_rate": 3.392708333333334e-05, + "loss": 0.0413, + "step": 3090 + }, + { + "epoch": 6.441666666666666, + "grad_norm": 2.275388240814209, + "learning_rate": 3.391666666666667e-05, + "loss": 0.0456, + "step": 3092 + }, + { + "epoch": 6.445833333333334, + "grad_norm": 0.4662785232067108, + "learning_rate": 3.390625e-05, + "loss": 0.0261, + "step": 3094 + }, + { + "epoch": 6.45, + "grad_norm": 0.49573153257369995, + "learning_rate": 3.3895833333333335e-05, + "loss": 0.029, + "step": 3096 + }, + { + "epoch": 6.454166666666667, + "grad_norm": 5.6618218421936035, + "learning_rate": 3.388541666666667e-05, + "loss": 0.0275, + "step": 3098 + }, + { + "epoch": 6.458333333333333, + "grad_norm": 0.7346952557563782, + "learning_rate": 3.3875000000000003e-05, + "loss": 0.032, + "step": 3100 + }, + { + "epoch": 6.4625, + "grad_norm": 0.47897863388061523, + "learning_rate": 3.386458333333333e-05, + "loss": 0.026, + "step": 3102 + }, + { + "epoch": 6.466666666666667, + "grad_norm": 0.779254674911499, + "learning_rate": 3.385416666666667e-05, + "loss": 0.0326, + "step": 3104 + }, + { + "epoch": 6.470833333333333, + "grad_norm": 0.43197232484817505, + "learning_rate": 3.384375e-05, + "loss": 0.022, + "step": 3106 + }, + { + "epoch": 6.475, + "grad_norm": 0.5092484354972839, + "learning_rate": 3.3833333333333334e-05, + "loss": 0.0285, + "step": 3108 + }, + { + "epoch": 6.479166666666667, + "grad_norm": 0.6108835339546204, + "learning_rate": 3.382291666666667e-05, + "loss": 0.0251, + "step": 3110 + }, + { + "epoch": 6.483333333333333, + "grad_norm": 0.5402851700782776, + "learning_rate": 3.38125e-05, + "loss": 0.0279, + "step": 3112 + }, + { + "epoch": 6.4875, + "grad_norm": 0.599489152431488, + "learning_rate": 3.3802083333333336e-05, + "loss": 0.0281, + "step": 3114 + }, + { + "epoch": 6.491666666666666, + "grad_norm": 0.44268912076950073, + "learning_rate": 3.3791666666666664e-05, + "loss": 0.0196, + "step": 3116 + }, + { + "epoch": 6.495833333333334, + "grad_norm": 0.5792502164840698, + "learning_rate": 3.3781250000000005e-05, + "loss": 0.0328, + "step": 3118 + }, + { + "epoch": 6.5, + "grad_norm": 0.6374675631523132, + "learning_rate": 3.377083333333333e-05, + "loss": 0.0358, + "step": 3120 + }, + { + "epoch": 6.504166666666666, + "grad_norm": 1.2317230701446533, + "learning_rate": 3.3760416666666666e-05, + "loss": 0.0308, + "step": 3122 + }, + { + "epoch": 6.508333333333333, + "grad_norm": 0.8341777920722961, + "learning_rate": 3.375000000000001e-05, + "loss": 0.0381, + "step": 3124 + }, + { + "epoch": 6.5125, + "grad_norm": 0.7562510967254639, + "learning_rate": 3.3739583333333335e-05, + "loss": 0.0397, + "step": 3126 + }, + { + "epoch": 6.516666666666667, + "grad_norm": 1.6265844106674194, + "learning_rate": 3.372916666666667e-05, + "loss": 0.0506, + "step": 3128 + }, + { + "epoch": 6.520833333333333, + "grad_norm": 0.5191314816474915, + "learning_rate": 3.3718749999999996e-05, + "loss": 0.0329, + "step": 3130 + }, + { + "epoch": 6.525, + "grad_norm": 1.4456863403320312, + "learning_rate": 3.370833333333334e-05, + "loss": 0.0337, + "step": 3132 + }, + { + "epoch": 6.529166666666667, + "grad_norm": 1.2725311517715454, + "learning_rate": 3.3697916666666665e-05, + "loss": 0.0423, + "step": 3134 + }, + { + "epoch": 6.533333333333333, + "grad_norm": 0.5088794827461243, + "learning_rate": 3.36875e-05, + "loss": 0.0301, + "step": 3136 + }, + { + "epoch": 6.5375, + "grad_norm": 0.6501970887184143, + "learning_rate": 3.367708333333334e-05, + "loss": 0.0296, + "step": 3138 + }, + { + "epoch": 6.541666666666667, + "grad_norm": 1.0332266092300415, + "learning_rate": 3.366666666666667e-05, + "loss": 0.035, + "step": 3140 + }, + { + "epoch": 6.545833333333333, + "grad_norm": 0.6048175692558289, + "learning_rate": 3.365625e-05, + "loss": 0.0262, + "step": 3142 + }, + { + "epoch": 6.55, + "grad_norm": 0.5654419660568237, + "learning_rate": 3.3645833333333336e-05, + "loss": 0.0373, + "step": 3144 + }, + { + "epoch": 6.554166666666667, + "grad_norm": 0.7714486122131348, + "learning_rate": 3.363541666666667e-05, + "loss": 0.0339, + "step": 3146 + }, + { + "epoch": 6.558333333333334, + "grad_norm": 0.9702731370925903, + "learning_rate": 3.3625000000000004e-05, + "loss": 0.0438, + "step": 3148 + }, + { + "epoch": 6.5625, + "grad_norm": 0.358047217130661, + "learning_rate": 3.361458333333333e-05, + "loss": 0.024, + "step": 3150 + }, + { + "epoch": 6.566666666666666, + "grad_norm": 1.1804133653640747, + "learning_rate": 3.360416666666667e-05, + "loss": 0.0262, + "step": 3152 + }, + { + "epoch": 6.570833333333333, + "grad_norm": 0.6147211194038391, + "learning_rate": 3.359375e-05, + "loss": 0.0329, + "step": 3154 + }, + { + "epoch": 6.575, + "grad_norm": 0.3473086357116699, + "learning_rate": 3.3583333333333334e-05, + "loss": 0.0279, + "step": 3156 + }, + { + "epoch": 6.579166666666667, + "grad_norm": 0.826691210269928, + "learning_rate": 3.357291666666667e-05, + "loss": 0.0277, + "step": 3158 + }, + { + "epoch": 6.583333333333333, + "grad_norm": 0.6469663381576538, + "learning_rate": 3.35625e-05, + "loss": 0.0368, + "step": 3160 + }, + { + "epoch": 6.5875, + "grad_norm": 0.703325629234314, + "learning_rate": 3.355208333333334e-05, + "loss": 0.0322, + "step": 3162 + }, + { + "epoch": 6.591666666666667, + "grad_norm": 1.0485385656356812, + "learning_rate": 3.3541666666666664e-05, + "loss": 0.0361, + "step": 3164 + }, + { + "epoch": 6.595833333333333, + "grad_norm": 0.7397326231002808, + "learning_rate": 3.3531250000000005e-05, + "loss": 0.0427, + "step": 3166 + }, + { + "epoch": 6.6, + "grad_norm": 2.4053525924682617, + "learning_rate": 3.352083333333333e-05, + "loss": 0.0432, + "step": 3168 + }, + { + "epoch": 6.604166666666667, + "grad_norm": 0.6645846962928772, + "learning_rate": 3.351041666666667e-05, + "loss": 0.0346, + "step": 3170 + }, + { + "epoch": 6.608333333333333, + "grad_norm": 0.8721262812614441, + "learning_rate": 3.35e-05, + "loss": 0.0453, + "step": 3172 + }, + { + "epoch": 6.6125, + "grad_norm": 0.6937993764877319, + "learning_rate": 3.3489583333333335e-05, + "loss": 0.0362, + "step": 3174 + }, + { + "epoch": 6.616666666666667, + "grad_norm": 0.6358807682991028, + "learning_rate": 3.347916666666667e-05, + "loss": 0.0352, + "step": 3176 + }, + { + "epoch": 6.620833333333334, + "grad_norm": 0.6880691647529602, + "learning_rate": 3.3468750000000004e-05, + "loss": 0.028, + "step": 3178 + }, + { + "epoch": 6.625, + "grad_norm": 0.6786434650421143, + "learning_rate": 3.345833333333334e-05, + "loss": 0.0322, + "step": 3180 + }, + { + "epoch": 6.629166666666666, + "grad_norm": 0.6410287022590637, + "learning_rate": 3.3447916666666665e-05, + "loss": 0.0308, + "step": 3182 + }, + { + "epoch": 6.633333333333333, + "grad_norm": 0.7150858640670776, + "learning_rate": 3.34375e-05, + "loss": 0.0259, + "step": 3184 + }, + { + "epoch": 6.6375, + "grad_norm": 0.6019711494445801, + "learning_rate": 3.3427083333333334e-05, + "loss": 0.0371, + "step": 3186 + }, + { + "epoch": 6.641666666666667, + "grad_norm": 1.3895682096481323, + "learning_rate": 3.341666666666667e-05, + "loss": 0.0452, + "step": 3188 + }, + { + "epoch": 6.645833333333333, + "grad_norm": 0.6968752145767212, + "learning_rate": 3.340625e-05, + "loss": 0.044, + "step": 3190 + }, + { + "epoch": 6.65, + "grad_norm": 0.5081146955490112, + "learning_rate": 3.3395833333333336e-05, + "loss": 0.0288, + "step": 3192 + }, + { + "epoch": 6.654166666666667, + "grad_norm": 0.606156051158905, + "learning_rate": 3.338541666666667e-05, + "loss": 0.0333, + "step": 3194 + }, + { + "epoch": 6.658333333333333, + "grad_norm": 0.37863782048225403, + "learning_rate": 3.3375e-05, + "loss": 0.0282, + "step": 3196 + }, + { + "epoch": 6.6625, + "grad_norm": 0.5240867733955383, + "learning_rate": 3.336458333333333e-05, + "loss": 0.0306, + "step": 3198 + }, + { + "epoch": 6.666666666666667, + "grad_norm": 0.7131398320198059, + "learning_rate": 3.3354166666666667e-05, + "loss": 0.0273, + "step": 3200 + }, + { + "epoch": 6.666666666666667, + "eval_cer": 0.06280541981341627, + "eval_loss": 0.3941609263420105, + "eval_runtime": 76.2997, + "eval_samples_per_second": 5.164, + "eval_steps_per_second": 0.655, + "step": 3200 + }, + { + "epoch": 6.670833333333333, + "grad_norm": 0.6716505885124207, + "learning_rate": 3.334375e-05, + "loss": 0.026, + "step": 3202 + }, + { + "epoch": 6.675, + "grad_norm": 0.8399994373321533, + "learning_rate": 3.3333333333333335e-05, + "loss": 0.036, + "step": 3204 + }, + { + "epoch": 6.679166666666667, + "grad_norm": 0.6481472849845886, + "learning_rate": 3.332291666666667e-05, + "loss": 0.0474, + "step": 3206 + }, + { + "epoch": 6.683333333333334, + "grad_norm": 0.9400812387466431, + "learning_rate": 3.33125e-05, + "loss": 0.0299, + "step": 3208 + }, + { + "epoch": 6.6875, + "grad_norm": 0.9311043620109558, + "learning_rate": 3.330208333333333e-05, + "loss": 0.0347, + "step": 3210 + }, + { + "epoch": 6.691666666666666, + "grad_norm": 0.7127534747123718, + "learning_rate": 3.329166666666667e-05, + "loss": 0.0303, + "step": 3212 + }, + { + "epoch": 6.695833333333333, + "grad_norm": 0.7896678447723389, + "learning_rate": 3.3281250000000006e-05, + "loss": 0.0252, + "step": 3214 + }, + { + "epoch": 6.7, + "grad_norm": 0.7032292485237122, + "learning_rate": 3.3270833333333333e-05, + "loss": 0.0311, + "step": 3216 + }, + { + "epoch": 6.704166666666667, + "grad_norm": 0.7043334245681763, + "learning_rate": 3.326041666666667e-05, + "loss": 0.0386, + "step": 3218 + }, + { + "epoch": 6.708333333333333, + "grad_norm": 1.5758060216903687, + "learning_rate": 3.325e-05, + "loss": 0.0295, + "step": 3220 + }, + { + "epoch": 6.7125, + "grad_norm": 0.6213443875312805, + "learning_rate": 3.3239583333333336e-05, + "loss": 0.0359, + "step": 3222 + }, + { + "epoch": 6.716666666666667, + "grad_norm": 0.5409916043281555, + "learning_rate": 3.3229166666666663e-05, + "loss": 0.0311, + "step": 3224 + }, + { + "epoch": 6.720833333333333, + "grad_norm": 0.6825934052467346, + "learning_rate": 3.3218750000000004e-05, + "loss": 0.0349, + "step": 3226 + }, + { + "epoch": 6.725, + "grad_norm": 0.6779513955116272, + "learning_rate": 3.320833333333334e-05, + "loss": 0.0291, + "step": 3228 + }, + { + "epoch": 6.729166666666667, + "grad_norm": 0.9906224608421326, + "learning_rate": 3.3197916666666666e-05, + "loss": 0.0375, + "step": 3230 + }, + { + "epoch": 6.733333333333333, + "grad_norm": 0.6356861591339111, + "learning_rate": 3.31875e-05, + "loss": 0.0388, + "step": 3232 + }, + { + "epoch": 6.7375, + "grad_norm": 2.1181859970092773, + "learning_rate": 3.3177083333333335e-05, + "loss": 0.0371, + "step": 3234 + }, + { + "epoch": 6.741666666666667, + "grad_norm": 0.8405472636222839, + "learning_rate": 3.316666666666667e-05, + "loss": 0.0456, + "step": 3236 + }, + { + "epoch": 6.745833333333334, + "grad_norm": 0.8695589900016785, + "learning_rate": 3.315625e-05, + "loss": 0.0305, + "step": 3238 + }, + { + "epoch": 6.75, + "grad_norm": 0.6459285616874695, + "learning_rate": 3.314583333333334e-05, + "loss": 0.034, + "step": 3240 + }, + { + "epoch": 6.754166666666666, + "grad_norm": 0.6879531741142273, + "learning_rate": 3.313541666666667e-05, + "loss": 0.0347, + "step": 3242 + }, + { + "epoch": 6.758333333333333, + "grad_norm": 3.22031307220459, + "learning_rate": 3.3125e-05, + "loss": 0.0417, + "step": 3244 + }, + { + "epoch": 6.7625, + "grad_norm": 2.5440614223480225, + "learning_rate": 3.311458333333333e-05, + "loss": 0.0376, + "step": 3246 + }, + { + "epoch": 6.766666666666667, + "grad_norm": 0.8551148772239685, + "learning_rate": 3.310416666666667e-05, + "loss": 0.0376, + "step": 3248 + }, + { + "epoch": 6.770833333333333, + "grad_norm": 0.8288602828979492, + "learning_rate": 3.309375e-05, + "loss": 0.036, + "step": 3250 + }, + { + "epoch": 6.775, + "grad_norm": 0.7341170907020569, + "learning_rate": 3.3083333333333336e-05, + "loss": 0.0418, + "step": 3252 + }, + { + "epoch": 6.779166666666667, + "grad_norm": 0.73750901222229, + "learning_rate": 3.307291666666667e-05, + "loss": 0.0382, + "step": 3254 + }, + { + "epoch": 6.783333333333333, + "grad_norm": 1.046412706375122, + "learning_rate": 3.3062500000000004e-05, + "loss": 0.0487, + "step": 3256 + }, + { + "epoch": 6.7875, + "grad_norm": 0.5309283137321472, + "learning_rate": 3.305208333333333e-05, + "loss": 0.032, + "step": 3258 + }, + { + "epoch": 6.791666666666667, + "grad_norm": 0.898169219493866, + "learning_rate": 3.304166666666667e-05, + "loss": 0.0454, + "step": 3260 + }, + { + "epoch": 6.795833333333333, + "grad_norm": 1.1341915130615234, + "learning_rate": 3.303125e-05, + "loss": 0.0361, + "step": 3262 + }, + { + "epoch": 6.8, + "grad_norm": 0.8781701326370239, + "learning_rate": 3.3020833333333334e-05, + "loss": 0.0315, + "step": 3264 + }, + { + "epoch": 6.804166666666667, + "grad_norm": 0.5930675864219666, + "learning_rate": 3.301041666666667e-05, + "loss": 0.0376, + "step": 3266 + }, + { + "epoch": 6.808333333333334, + "grad_norm": 0.4526837170124054, + "learning_rate": 3.3e-05, + "loss": 0.0258, + "step": 3268 + }, + { + "epoch": 6.8125, + "grad_norm": 0.46016010642051697, + "learning_rate": 3.298958333333334e-05, + "loss": 0.0263, + "step": 3270 + }, + { + "epoch": 6.816666666666666, + "grad_norm": 0.5913488864898682, + "learning_rate": 3.2979166666666664e-05, + "loss": 0.0311, + "step": 3272 + }, + { + "epoch": 6.820833333333333, + "grad_norm": 0.7881727814674377, + "learning_rate": 3.2968750000000005e-05, + "loss": 0.0317, + "step": 3274 + }, + { + "epoch": 6.825, + "grad_norm": 1.2662835121154785, + "learning_rate": 3.295833333333333e-05, + "loss": 0.0342, + "step": 3276 + }, + { + "epoch": 6.829166666666667, + "grad_norm": 1.2260240316390991, + "learning_rate": 3.294791666666667e-05, + "loss": 0.0582, + "step": 3278 + }, + { + "epoch": 6.833333333333333, + "grad_norm": 0.8349485993385315, + "learning_rate": 3.29375e-05, + "loss": 0.0381, + "step": 3280 + }, + { + "epoch": 6.8375, + "grad_norm": 0.9878295063972473, + "learning_rate": 3.2927083333333335e-05, + "loss": 0.0353, + "step": 3282 + }, + { + "epoch": 6.841666666666667, + "grad_norm": 0.5731156468391418, + "learning_rate": 3.291666666666667e-05, + "loss": 0.0277, + "step": 3284 + }, + { + "epoch": 6.845833333333333, + "grad_norm": 2.107004404067993, + "learning_rate": 3.290625e-05, + "loss": 0.0285, + "step": 3286 + }, + { + "epoch": 6.85, + "grad_norm": 0.5905184745788574, + "learning_rate": 3.289583333333334e-05, + "loss": 0.0354, + "step": 3288 + }, + { + "epoch": 6.854166666666667, + "grad_norm": 0.6867441534996033, + "learning_rate": 3.2885416666666665e-05, + "loss": 0.0423, + "step": 3290 + }, + { + "epoch": 6.858333333333333, + "grad_norm": 0.7170169353485107, + "learning_rate": 3.2875e-05, + "loss": 0.0418, + "step": 3292 + }, + { + "epoch": 6.8625, + "grad_norm": 0.5790224075317383, + "learning_rate": 3.286458333333334e-05, + "loss": 0.03, + "step": 3294 + }, + { + "epoch": 6.866666666666667, + "grad_norm": 0.7604163289070129, + "learning_rate": 3.285416666666667e-05, + "loss": 0.0258, + "step": 3296 + }, + { + "epoch": 6.870833333333334, + "grad_norm": 0.5278188586235046, + "learning_rate": 3.284375e-05, + "loss": 0.0245, + "step": 3298 + }, + { + "epoch": 6.875, + "grad_norm": 0.6556494832038879, + "learning_rate": 3.283333333333333e-05, + "loss": 0.0344, + "step": 3300 + }, + { + "epoch": 6.879166666666666, + "grad_norm": 0.7215029001235962, + "learning_rate": 3.282291666666667e-05, + "loss": 0.0351, + "step": 3302 + }, + { + "epoch": 6.883333333333333, + "grad_norm": 1.1157901287078857, + "learning_rate": 3.2812500000000005e-05, + "loss": 0.0288, + "step": 3304 + }, + { + "epoch": 6.8875, + "grad_norm": 0.8599701523780823, + "learning_rate": 3.280208333333333e-05, + "loss": 0.0403, + "step": 3306 + }, + { + "epoch": 6.891666666666667, + "grad_norm": 0.47130146622657776, + "learning_rate": 3.279166666666667e-05, + "loss": 0.0311, + "step": 3308 + }, + { + "epoch": 6.895833333333333, + "grad_norm": 0.6128982305526733, + "learning_rate": 3.278125e-05, + "loss": 0.032, + "step": 3310 + }, + { + "epoch": 6.9, + "grad_norm": 2.7891690731048584, + "learning_rate": 3.2770833333333335e-05, + "loss": 0.0397, + "step": 3312 + }, + { + "epoch": 6.904166666666667, + "grad_norm": 0.5660941004753113, + "learning_rate": 3.276041666666667e-05, + "loss": 0.0281, + "step": 3314 + }, + { + "epoch": 6.908333333333333, + "grad_norm": 0.7363885641098022, + "learning_rate": 3.275e-05, + "loss": 0.0301, + "step": 3316 + }, + { + "epoch": 6.9125, + "grad_norm": 0.6529609560966492, + "learning_rate": 3.273958333333334e-05, + "loss": 0.0267, + "step": 3318 + }, + { + "epoch": 6.916666666666667, + "grad_norm": 0.7405498027801514, + "learning_rate": 3.2729166666666665e-05, + "loss": 0.0305, + "step": 3320 + }, + { + "epoch": 6.920833333333333, + "grad_norm": 0.6641069054603577, + "learning_rate": 3.2718750000000006e-05, + "loss": 0.0321, + "step": 3322 + }, + { + "epoch": 6.925, + "grad_norm": 0.5746211409568787, + "learning_rate": 3.270833333333333e-05, + "loss": 0.0236, + "step": 3324 + }, + { + "epoch": 6.929166666666667, + "grad_norm": 0.7287853360176086, + "learning_rate": 3.269791666666667e-05, + "loss": 0.04, + "step": 3326 + }, + { + "epoch": 6.933333333333334, + "grad_norm": 0.6779524683952332, + "learning_rate": 3.26875e-05, + "loss": 0.0423, + "step": 3328 + }, + { + "epoch": 6.9375, + "grad_norm": 0.79429030418396, + "learning_rate": 3.2677083333333336e-05, + "loss": 0.0372, + "step": 3330 + }, + { + "epoch": 6.941666666666666, + "grad_norm": 0.8061491847038269, + "learning_rate": 3.266666666666667e-05, + "loss": 0.0379, + "step": 3332 + }, + { + "epoch": 6.945833333333333, + "grad_norm": 0.7037977576255798, + "learning_rate": 3.265625e-05, + "loss": 0.0321, + "step": 3334 + }, + { + "epoch": 6.95, + "grad_norm": 0.6139309406280518, + "learning_rate": 3.264583333333334e-05, + "loss": 0.0334, + "step": 3336 + }, + { + "epoch": 6.954166666666667, + "grad_norm": 0.6526440382003784, + "learning_rate": 3.2635416666666666e-05, + "loss": 0.0306, + "step": 3338 + }, + { + "epoch": 6.958333333333333, + "grad_norm": 0.6832694411277771, + "learning_rate": 3.2625e-05, + "loss": 0.0384, + "step": 3340 + }, + { + "epoch": 6.9625, + "grad_norm": 0.7101979851722717, + "learning_rate": 3.2614583333333334e-05, + "loss": 0.036, + "step": 3342 + }, + { + "epoch": 6.966666666666667, + "grad_norm": 0.7090132832527161, + "learning_rate": 3.260416666666667e-05, + "loss": 0.0326, + "step": 3344 + }, + { + "epoch": 6.970833333333333, + "grad_norm": 0.7095754742622375, + "learning_rate": 3.259375e-05, + "loss": 0.0336, + "step": 3346 + }, + { + "epoch": 6.975, + "grad_norm": 0.7197883129119873, + "learning_rate": 3.258333333333333e-05, + "loss": 0.0344, + "step": 3348 + }, + { + "epoch": 6.979166666666667, + "grad_norm": 1.0238137245178223, + "learning_rate": 3.257291666666667e-05, + "loss": 0.0213, + "step": 3350 + }, + { + "epoch": 6.983333333333333, + "grad_norm": 0.7870166897773743, + "learning_rate": 3.25625e-05, + "loss": 0.0307, + "step": 3352 + }, + { + "epoch": 6.9875, + "grad_norm": 0.5469135642051697, + "learning_rate": 3.255208333333333e-05, + "loss": 0.028, + "step": 3354 + }, + { + "epoch": 6.991666666666667, + "grad_norm": 1.369585633277893, + "learning_rate": 3.254166666666667e-05, + "loss": 0.0446, + "step": 3356 + }, + { + "epoch": 6.995833333333334, + "grad_norm": 1.0831689834594727, + "learning_rate": 3.253125e-05, + "loss": 0.0433, + "step": 3358 + }, + { + "epoch": 7.0, + "grad_norm": 2.3699982166290283, + "learning_rate": 3.2520833333333336e-05, + "loss": 0.0435, + "step": 3360 + }, + { + "epoch": 7.004166666666666, + "grad_norm": 0.4274090528488159, + "learning_rate": 3.251041666666667e-05, + "loss": 0.021, + "step": 3362 + }, + { + "epoch": 7.008333333333334, + "grad_norm": 0.5499812364578247, + "learning_rate": 3.2500000000000004e-05, + "loss": 0.0241, + "step": 3364 + }, + { + "epoch": 7.0125, + "grad_norm": 0.35755395889282227, + "learning_rate": 3.248958333333333e-05, + "loss": 0.0229, + "step": 3366 + }, + { + "epoch": 7.016666666666667, + "grad_norm": 0.45020154118537903, + "learning_rate": 3.2479166666666666e-05, + "loss": 0.0183, + "step": 3368 + }, + { + "epoch": 7.020833333333333, + "grad_norm": 0.26370343565940857, + "learning_rate": 3.2468750000000007e-05, + "loss": 0.0158, + "step": 3370 + }, + { + "epoch": 7.025, + "grad_norm": 0.41873520612716675, + "learning_rate": 3.2458333333333334e-05, + "loss": 0.0191, + "step": 3372 + }, + { + "epoch": 7.029166666666667, + "grad_norm": 0.45511680841445923, + "learning_rate": 3.244791666666667e-05, + "loss": 0.0271, + "step": 3374 + }, + { + "epoch": 7.033333333333333, + "grad_norm": 0.549749493598938, + "learning_rate": 3.24375e-05, + "loss": 0.0184, + "step": 3376 + }, + { + "epoch": 7.0375, + "grad_norm": 0.3045884966850281, + "learning_rate": 3.242708333333334e-05, + "loss": 0.0142, + "step": 3378 + }, + { + "epoch": 7.041666666666667, + "grad_norm": 0.5562430620193481, + "learning_rate": 3.2416666666666664e-05, + "loss": 0.0226, + "step": 3380 + }, + { + "epoch": 7.045833333333333, + "grad_norm": 0.8002377152442932, + "learning_rate": 3.240625e-05, + "loss": 0.0321, + "step": 3382 + }, + { + "epoch": 7.05, + "grad_norm": 0.8161070942878723, + "learning_rate": 3.239583333333334e-05, + "loss": 0.0217, + "step": 3384 + }, + { + "epoch": 7.054166666666666, + "grad_norm": 0.2486860156059265, + "learning_rate": 3.238541666666667e-05, + "loss": 0.0202, + "step": 3386 + }, + { + "epoch": 7.058333333333334, + "grad_norm": 0.69896399974823, + "learning_rate": 3.2375e-05, + "loss": 0.0192, + "step": 3388 + }, + { + "epoch": 7.0625, + "grad_norm": 0.6816157698631287, + "learning_rate": 3.2364583333333335e-05, + "loss": 0.0181, + "step": 3390 + }, + { + "epoch": 7.066666666666666, + "grad_norm": 0.6551303267478943, + "learning_rate": 3.235416666666667e-05, + "loss": 0.0231, + "step": 3392 + }, + { + "epoch": 7.070833333333334, + "grad_norm": 2.846156120300293, + "learning_rate": 3.2343750000000004e-05, + "loss": 0.0319, + "step": 3394 + }, + { + "epoch": 7.075, + "grad_norm": 0.8246458768844604, + "learning_rate": 3.233333333333333e-05, + "loss": 0.018, + "step": 3396 + }, + { + "epoch": 7.079166666666667, + "grad_norm": 0.4701642096042633, + "learning_rate": 3.232291666666667e-05, + "loss": 0.0184, + "step": 3398 + }, + { + "epoch": 7.083333333333333, + "grad_norm": 0.6276523470878601, + "learning_rate": 3.23125e-05, + "loss": 0.0194, + "step": 3400 + }, + { + "epoch": 7.083333333333333, + "eval_cer": 0.06258329631274989, + "eval_loss": 0.3855547606945038, + "eval_runtime": 75.2918, + "eval_samples_per_second": 5.233, + "eval_steps_per_second": 0.664, + "step": 3400 + }, + { + "epoch": 7.0875, + "grad_norm": 0.307001531124115, + "learning_rate": 3.2302083333333334e-05, + "loss": 0.027, + "step": 3402 + }, + { + "epoch": 7.091666666666667, + "grad_norm": 0.822418212890625, + "learning_rate": 3.229166666666667e-05, + "loss": 0.0246, + "step": 3404 + }, + { + "epoch": 7.095833333333333, + "grad_norm": 0.47105422616004944, + "learning_rate": 3.228125e-05, + "loss": 0.0245, + "step": 3406 + }, + { + "epoch": 7.1, + "grad_norm": 1.8960964679718018, + "learning_rate": 3.2270833333333336e-05, + "loss": 0.0248, + "step": 3408 + }, + { + "epoch": 7.104166666666667, + "grad_norm": 0.5978708267211914, + "learning_rate": 3.226041666666667e-05, + "loss": 0.0182, + "step": 3410 + }, + { + "epoch": 7.108333333333333, + "grad_norm": 1.029282808303833, + "learning_rate": 3.2250000000000005e-05, + "loss": 0.0235, + "step": 3412 + }, + { + "epoch": 7.1125, + "grad_norm": 0.722744882106781, + "learning_rate": 3.223958333333333e-05, + "loss": 0.0287, + "step": 3414 + }, + { + "epoch": 7.116666666666666, + "grad_norm": 0.7128288149833679, + "learning_rate": 3.2229166666666666e-05, + "loss": 0.0227, + "step": 3416 + }, + { + "epoch": 7.120833333333334, + "grad_norm": 0.5464977025985718, + "learning_rate": 3.221875e-05, + "loss": 0.0191, + "step": 3418 + }, + { + "epoch": 7.125, + "grad_norm": 0.3880902826786041, + "learning_rate": 3.2208333333333335e-05, + "loss": 0.0177, + "step": 3420 + }, + { + "epoch": 7.129166666666666, + "grad_norm": 0.3178390860557556, + "learning_rate": 3.219791666666667e-05, + "loss": 0.0148, + "step": 3422 + }, + { + "epoch": 7.133333333333334, + "grad_norm": 0.7174381017684937, + "learning_rate": 3.21875e-05, + "loss": 0.0206, + "step": 3424 + }, + { + "epoch": 7.1375, + "grad_norm": 0.5260277986526489, + "learning_rate": 3.217708333333334e-05, + "loss": 0.0237, + "step": 3426 + }, + { + "epoch": 7.141666666666667, + "grad_norm": 0.9860668182373047, + "learning_rate": 3.2166666666666665e-05, + "loss": 0.0251, + "step": 3428 + }, + { + "epoch": 7.145833333333333, + "grad_norm": 1.7034530639648438, + "learning_rate": 3.215625e-05, + "loss": 0.0262, + "step": 3430 + }, + { + "epoch": 7.15, + "grad_norm": 4.263737201690674, + "learning_rate": 3.214583333333333e-05, + "loss": 0.023, + "step": 3432 + }, + { + "epoch": 7.154166666666667, + "grad_norm": 0.36424899101257324, + "learning_rate": 3.213541666666667e-05, + "loss": 0.0173, + "step": 3434 + }, + { + "epoch": 7.158333333333333, + "grad_norm": 0.5365851521492004, + "learning_rate": 3.2125e-05, + "loss": 0.0175, + "step": 3436 + }, + { + "epoch": 7.1625, + "grad_norm": 0.37304747104644775, + "learning_rate": 3.2114583333333336e-05, + "loss": 0.0157, + "step": 3438 + }, + { + "epoch": 7.166666666666667, + "grad_norm": 0.5846309065818787, + "learning_rate": 3.210416666666667e-05, + "loss": 0.0228, + "step": 3440 + }, + { + "epoch": 7.170833333333333, + "grad_norm": 0.5238157510757446, + "learning_rate": 3.209375e-05, + "loss": 0.0236, + "step": 3442 + }, + { + "epoch": 7.175, + "grad_norm": 0.3813927173614502, + "learning_rate": 3.208333333333334e-05, + "loss": 0.0142, + "step": 3444 + }, + { + "epoch": 7.179166666666666, + "grad_norm": 0.47229066491127014, + "learning_rate": 3.2072916666666666e-05, + "loss": 0.0216, + "step": 3446 + }, + { + "epoch": 7.183333333333334, + "grad_norm": 0.4083625376224518, + "learning_rate": 3.20625e-05, + "loss": 0.0197, + "step": 3448 + }, + { + "epoch": 7.1875, + "grad_norm": 0.4907923936843872, + "learning_rate": 3.2052083333333334e-05, + "loss": 0.0197, + "step": 3450 + }, + { + "epoch": 7.191666666666666, + "grad_norm": 0.38825687766075134, + "learning_rate": 3.204166666666667e-05, + "loss": 0.0155, + "step": 3452 + }, + { + "epoch": 7.195833333333334, + "grad_norm": 0.4237629473209381, + "learning_rate": 3.203125e-05, + "loss": 0.0186, + "step": 3454 + }, + { + "epoch": 7.2, + "grad_norm": 0.436151385307312, + "learning_rate": 3.202083333333333e-05, + "loss": 0.0202, + "step": 3456 + }, + { + "epoch": 7.204166666666667, + "grad_norm": 0.3821088969707489, + "learning_rate": 3.201041666666667e-05, + "loss": 0.0144, + "step": 3458 + }, + { + "epoch": 7.208333333333333, + "grad_norm": 0.32921668887138367, + "learning_rate": 3.2000000000000005e-05, + "loss": 0.0179, + "step": 3460 + }, + { + "epoch": 7.2125, + "grad_norm": 0.43904179334640503, + "learning_rate": 3.198958333333333e-05, + "loss": 0.0212, + "step": 3462 + }, + { + "epoch": 7.216666666666667, + "grad_norm": 0.628400444984436, + "learning_rate": 3.197916666666667e-05, + "loss": 0.0242, + "step": 3464 + }, + { + "epoch": 7.220833333333333, + "grad_norm": 0.24508942663669586, + "learning_rate": 3.196875e-05, + "loss": 0.0169, + "step": 3466 + }, + { + "epoch": 7.225, + "grad_norm": 0.4806443154811859, + "learning_rate": 3.1958333333333335e-05, + "loss": 0.0164, + "step": 3468 + }, + { + "epoch": 7.229166666666667, + "grad_norm": 0.49218830466270447, + "learning_rate": 3.194791666666667e-05, + "loss": 0.0193, + "step": 3470 + }, + { + "epoch": 7.233333333333333, + "grad_norm": 0.64179527759552, + "learning_rate": 3.1937500000000004e-05, + "loss": 0.0222, + "step": 3472 + }, + { + "epoch": 7.2375, + "grad_norm": 0.6576039791107178, + "learning_rate": 3.192708333333334e-05, + "loss": 0.0167, + "step": 3474 + }, + { + "epoch": 7.241666666666666, + "grad_norm": 0.3393803536891937, + "learning_rate": 3.1916666666666665e-05, + "loss": 0.0167, + "step": 3476 + }, + { + "epoch": 7.245833333333334, + "grad_norm": 0.38207387924194336, + "learning_rate": 3.1906250000000006e-05, + "loss": 0.0209, + "step": 3478 + }, + { + "epoch": 7.25, + "grad_norm": 0.47185811400413513, + "learning_rate": 3.1895833333333334e-05, + "loss": 0.0214, + "step": 3480 + }, + { + "epoch": 7.254166666666666, + "grad_norm": 0.6285066604614258, + "learning_rate": 3.188541666666667e-05, + "loss": 0.0306, + "step": 3482 + }, + { + "epoch": 7.258333333333334, + "grad_norm": 0.3064229190349579, + "learning_rate": 3.1875e-05, + "loss": 0.0178, + "step": 3484 + }, + { + "epoch": 7.2625, + "grad_norm": 0.3870290517807007, + "learning_rate": 3.1864583333333336e-05, + "loss": 0.0132, + "step": 3486 + }, + { + "epoch": 7.266666666666667, + "grad_norm": 0.5718018412590027, + "learning_rate": 3.185416666666667e-05, + "loss": 0.019, + "step": 3488 + }, + { + "epoch": 7.270833333333333, + "grad_norm": 0.35345038771629333, + "learning_rate": 3.184375e-05, + "loss": 0.0199, + "step": 3490 + }, + { + "epoch": 7.275, + "grad_norm": 0.47227638959884644, + "learning_rate": 3.183333333333334e-05, + "loss": 0.0145, + "step": 3492 + }, + { + "epoch": 7.279166666666667, + "grad_norm": 0.4984376132488251, + "learning_rate": 3.1822916666666667e-05, + "loss": 0.0169, + "step": 3494 + }, + { + "epoch": 7.283333333333333, + "grad_norm": 0.7349913716316223, + "learning_rate": 3.18125e-05, + "loss": 0.0194, + "step": 3496 + }, + { + "epoch": 7.2875, + "grad_norm": 0.6034618020057678, + "learning_rate": 3.1802083333333335e-05, + "loss": 0.0181, + "step": 3498 + }, + { + "epoch": 7.291666666666667, + "grad_norm": 0.21368248760700226, + "learning_rate": 3.179166666666667e-05, + "loss": 0.0127, + "step": 3500 + }, + { + "epoch": 7.295833333333333, + "grad_norm": 0.4573417901992798, + "learning_rate": 3.1781250000000003e-05, + "loss": 0.015, + "step": 3502 + }, + { + "epoch": 7.3, + "grad_norm": 0.25753000378608704, + "learning_rate": 3.177083333333333e-05, + "loss": 0.0225, + "step": 3504 + }, + { + "epoch": 7.304166666666666, + "grad_norm": 0.5254179835319519, + "learning_rate": 3.176041666666667e-05, + "loss": 0.0263, + "step": 3506 + }, + { + "epoch": 7.308333333333334, + "grad_norm": 2.3535850048065186, + "learning_rate": 3.175e-05, + "loss": 0.0251, + "step": 3508 + }, + { + "epoch": 7.3125, + "grad_norm": 0.8495380282402039, + "learning_rate": 3.1739583333333333e-05, + "loss": 0.0182, + "step": 3510 + }, + { + "epoch": 7.316666666666666, + "grad_norm": 0.6336838006973267, + "learning_rate": 3.172916666666667e-05, + "loss": 0.0258, + "step": 3512 + }, + { + "epoch": 7.320833333333334, + "grad_norm": 0.44513750076293945, + "learning_rate": 3.171875e-05, + "loss": 0.0216, + "step": 3514 + }, + { + "epoch": 7.325, + "grad_norm": 0.4201766848564148, + "learning_rate": 3.1708333333333336e-05, + "loss": 0.0187, + "step": 3516 + }, + { + "epoch": 7.329166666666667, + "grad_norm": 0.6108961701393127, + "learning_rate": 3.1697916666666664e-05, + "loss": 0.0242, + "step": 3518 + }, + { + "epoch": 7.333333333333333, + "grad_norm": 1.2705001831054688, + "learning_rate": 3.1687500000000005e-05, + "loss": 0.0273, + "step": 3520 + }, + { + "epoch": 7.3375, + "grad_norm": 0.8130192160606384, + "learning_rate": 3.167708333333333e-05, + "loss": 0.0239, + "step": 3522 + }, + { + "epoch": 7.341666666666667, + "grad_norm": 2.085631847381592, + "learning_rate": 3.1666666666666666e-05, + "loss": 0.0163, + "step": 3524 + }, + { + "epoch": 7.345833333333333, + "grad_norm": 0.48936957120895386, + "learning_rate": 3.165625000000001e-05, + "loss": 0.0225, + "step": 3526 + }, + { + "epoch": 7.35, + "grad_norm": 0.5029128193855286, + "learning_rate": 3.1645833333333335e-05, + "loss": 0.0194, + "step": 3528 + }, + { + "epoch": 7.354166666666667, + "grad_norm": 0.5380133390426636, + "learning_rate": 3.163541666666667e-05, + "loss": 0.0215, + "step": 3530 + }, + { + "epoch": 7.358333333333333, + "grad_norm": 0.45025092363357544, + "learning_rate": 3.1624999999999996e-05, + "loss": 0.0214, + "step": 3532 + }, + { + "epoch": 7.3625, + "grad_norm": 0.5399795770645142, + "learning_rate": 3.161458333333334e-05, + "loss": 0.0197, + "step": 3534 + }, + { + "epoch": 7.366666666666666, + "grad_norm": 0.8290844559669495, + "learning_rate": 3.160416666666667e-05, + "loss": 0.0261, + "step": 3536 + }, + { + "epoch": 7.370833333333334, + "grad_norm": 0.496940016746521, + "learning_rate": 3.159375e-05, + "loss": 0.0196, + "step": 3538 + }, + { + "epoch": 7.375, + "grad_norm": 0.3779090344905853, + "learning_rate": 3.158333333333334e-05, + "loss": 0.0142, + "step": 3540 + }, + { + "epoch": 7.379166666666666, + "grad_norm": 4.264917373657227, + "learning_rate": 3.157291666666667e-05, + "loss": 0.0236, + "step": 3542 + }, + { + "epoch": 7.383333333333334, + "grad_norm": 0.8548162579536438, + "learning_rate": 3.15625e-05, + "loss": 0.0177, + "step": 3544 + }, + { + "epoch": 7.3875, + "grad_norm": 0.9838163256645203, + "learning_rate": 3.155208333333333e-05, + "loss": 0.0238, + "step": 3546 + }, + { + "epoch": 7.391666666666667, + "grad_norm": 0.37985342741012573, + "learning_rate": 3.154166666666667e-05, + "loss": 0.0155, + "step": 3548 + }, + { + "epoch": 7.395833333333333, + "grad_norm": 0.47424763441085815, + "learning_rate": 3.1531250000000004e-05, + "loss": 0.0205, + "step": 3550 + }, + { + "epoch": 7.4, + "grad_norm": 0.7156406044960022, + "learning_rate": 3.152083333333333e-05, + "loss": 0.0247, + "step": 3552 + }, + { + "epoch": 7.404166666666667, + "grad_norm": 1.6407506465911865, + "learning_rate": 3.151041666666667e-05, + "loss": 0.0205, + "step": 3554 + }, + { + "epoch": 7.408333333333333, + "grad_norm": 0.3928532600402832, + "learning_rate": 3.15e-05, + "loss": 0.0172, + "step": 3556 + }, + { + "epoch": 7.4125, + "grad_norm": 0.3435899019241333, + "learning_rate": 3.1489583333333334e-05, + "loss": 0.0205, + "step": 3558 + }, + { + "epoch": 7.416666666666667, + "grad_norm": 0.6592299342155457, + "learning_rate": 3.147916666666667e-05, + "loss": 0.0186, + "step": 3560 + }, + { + "epoch": 7.420833333333333, + "grad_norm": 0.3462288975715637, + "learning_rate": 3.146875e-05, + "loss": 0.0165, + "step": 3562 + }, + { + "epoch": 7.425, + "grad_norm": 0.4557316303253174, + "learning_rate": 3.145833333333334e-05, + "loss": 0.0148, + "step": 3564 + }, + { + "epoch": 7.429166666666666, + "grad_norm": 0.31668418645858765, + "learning_rate": 3.1447916666666664e-05, + "loss": 0.0248, + "step": 3566 + }, + { + "epoch": 7.433333333333334, + "grad_norm": 0.33234837651252747, + "learning_rate": 3.1437500000000005e-05, + "loss": 0.0128, + "step": 3568 + }, + { + "epoch": 7.4375, + "grad_norm": 0.5921427607536316, + "learning_rate": 3.142708333333333e-05, + "loss": 0.0265, + "step": 3570 + }, + { + "epoch": 7.441666666666666, + "grad_norm": 1.2885957956314087, + "learning_rate": 3.141666666666667e-05, + "loss": 0.0229, + "step": 3572 + }, + { + "epoch": 7.445833333333334, + "grad_norm": 0.6952353119850159, + "learning_rate": 3.140625e-05, + "loss": 0.0262, + "step": 3574 + }, + { + "epoch": 7.45, + "grad_norm": 0.6355441212654114, + "learning_rate": 3.1395833333333335e-05, + "loss": 0.0223, + "step": 3576 + }, + { + "epoch": 7.454166666666667, + "grad_norm": 0.5008481740951538, + "learning_rate": 3.138541666666667e-05, + "loss": 0.0218, + "step": 3578 + }, + { + "epoch": 7.458333333333333, + "grad_norm": 0.2917126715183258, + "learning_rate": 3.1375e-05, + "loss": 0.0141, + "step": 3580 + }, + { + "epoch": 7.4625, + "grad_norm": 0.6598893404006958, + "learning_rate": 3.136458333333334e-05, + "loss": 0.023, + "step": 3582 + }, + { + "epoch": 7.466666666666667, + "grad_norm": 0.47271376848220825, + "learning_rate": 3.1354166666666665e-05, + "loss": 0.0167, + "step": 3584 + }, + { + "epoch": 7.470833333333333, + "grad_norm": 0.46772390604019165, + "learning_rate": 3.134375e-05, + "loss": 0.0176, + "step": 3586 + }, + { + "epoch": 7.475, + "grad_norm": 0.5987578630447388, + "learning_rate": 3.1333333333333334e-05, + "loss": 0.0204, + "step": 3588 + }, + { + "epoch": 7.479166666666667, + "grad_norm": 0.7543653249740601, + "learning_rate": 3.132291666666667e-05, + "loss": 0.0163, + "step": 3590 + }, + { + "epoch": 7.483333333333333, + "grad_norm": 0.4745219349861145, + "learning_rate": 3.13125e-05, + "loss": 0.0156, + "step": 3592 + }, + { + "epoch": 7.4875, + "grad_norm": 0.8255953788757324, + "learning_rate": 3.1302083333333336e-05, + "loss": 0.0191, + "step": 3594 + }, + { + "epoch": 7.491666666666666, + "grad_norm": 0.537767767906189, + "learning_rate": 3.129166666666667e-05, + "loss": 0.0166, + "step": 3596 + }, + { + "epoch": 7.495833333333334, + "grad_norm": 0.5822561979293823, + "learning_rate": 3.128125e-05, + "loss": 0.0262, + "step": 3598 + }, + { + "epoch": 7.5, + "grad_norm": 1.1822253465652466, + "learning_rate": 3.127083333333333e-05, + "loss": 0.0214, + "step": 3600 + }, + { + "epoch": 7.5, + "eval_cer": 0.06319413593958241, + "eval_loss": 0.3966054618358612, + "eval_runtime": 75.2644, + "eval_samples_per_second": 5.235, + "eval_steps_per_second": 0.664, + "step": 3600 + }, + { + "epoch": 7.504166666666666, + "grad_norm": 0.5766857862472534, + "learning_rate": 3.1260416666666666e-05, + "loss": 0.0248, + "step": 3602 + }, + { + "epoch": 7.508333333333333, + "grad_norm": 0.30924364924430847, + "learning_rate": 3.125e-05, + "loss": 0.022, + "step": 3604 + }, + { + "epoch": 7.5125, + "grad_norm": 0.4592503607273102, + "learning_rate": 3.1239583333333335e-05, + "loss": 0.0177, + "step": 3606 + }, + { + "epoch": 7.516666666666667, + "grad_norm": 0.6602668762207031, + "learning_rate": 3.122916666666667e-05, + "loss": 0.0235, + "step": 3608 + }, + { + "epoch": 7.520833333333333, + "grad_norm": 0.47268640995025635, + "learning_rate": 3.121875e-05, + "loss": 0.0191, + "step": 3610 + }, + { + "epoch": 7.525, + "grad_norm": 0.3682672679424286, + "learning_rate": 3.120833333333333e-05, + "loss": 0.0175, + "step": 3612 + }, + { + "epoch": 7.529166666666667, + "grad_norm": 2.23442006111145, + "learning_rate": 3.1197916666666665e-05, + "loss": 0.0274, + "step": 3614 + }, + { + "epoch": 7.533333333333333, + "grad_norm": 0.9078742861747742, + "learning_rate": 3.1187500000000006e-05, + "loss": 0.0173, + "step": 3616 + }, + { + "epoch": 7.5375, + "grad_norm": 0.827095627784729, + "learning_rate": 3.117708333333333e-05, + "loss": 0.0209, + "step": 3618 + }, + { + "epoch": 7.541666666666667, + "grad_norm": 0.8383491039276123, + "learning_rate": 3.116666666666667e-05, + "loss": 0.0318, + "step": 3620 + }, + { + "epoch": 7.545833333333333, + "grad_norm": 0.5556458234786987, + "learning_rate": 3.115625e-05, + "loss": 0.0249, + "step": 3622 + }, + { + "epoch": 7.55, + "grad_norm": 0.669191837310791, + "learning_rate": 3.1145833333333336e-05, + "loss": 0.0165, + "step": 3624 + }, + { + "epoch": 7.554166666666667, + "grad_norm": 0.6048550605773926, + "learning_rate": 3.113541666666667e-05, + "loss": 0.0175, + "step": 3626 + }, + { + "epoch": 7.558333333333334, + "grad_norm": 0.3455893397331238, + "learning_rate": 3.1125000000000004e-05, + "loss": 0.0211, + "step": 3628 + }, + { + "epoch": 7.5625, + "grad_norm": 0.4015806317329407, + "learning_rate": 3.111458333333334e-05, + "loss": 0.0162, + "step": 3630 + }, + { + "epoch": 7.566666666666666, + "grad_norm": 0.6035079956054688, + "learning_rate": 3.1104166666666666e-05, + "loss": 0.0208, + "step": 3632 + }, + { + "epoch": 7.570833333333333, + "grad_norm": 1.3296873569488525, + "learning_rate": 3.109375e-05, + "loss": 0.0436, + "step": 3634 + }, + { + "epoch": 7.575, + "grad_norm": 0.6667279005050659, + "learning_rate": 3.1083333333333334e-05, + "loss": 0.0288, + "step": 3636 + }, + { + "epoch": 7.579166666666667, + "grad_norm": 1.0167970657348633, + "learning_rate": 3.107291666666667e-05, + "loss": 0.0262, + "step": 3638 + }, + { + "epoch": 7.583333333333333, + "grad_norm": 0.3428986370563507, + "learning_rate": 3.10625e-05, + "loss": 0.0158, + "step": 3640 + }, + { + "epoch": 7.5875, + "grad_norm": 0.606680154800415, + "learning_rate": 3.105208333333334e-05, + "loss": 0.0192, + "step": 3642 + }, + { + "epoch": 7.591666666666667, + "grad_norm": 0.6908947825431824, + "learning_rate": 3.104166666666667e-05, + "loss": 0.0251, + "step": 3644 + }, + { + "epoch": 7.595833333333333, + "grad_norm": 0.4594678580760956, + "learning_rate": 3.103125e-05, + "loss": 0.0183, + "step": 3646 + }, + { + "epoch": 7.6, + "grad_norm": 0.46653518080711365, + "learning_rate": 3.102083333333333e-05, + "loss": 0.0181, + "step": 3648 + }, + { + "epoch": 7.604166666666667, + "grad_norm": 1.4803800582885742, + "learning_rate": 3.101041666666667e-05, + "loss": 0.0294, + "step": 3650 + }, + { + "epoch": 7.608333333333333, + "grad_norm": 2.9200823307037354, + "learning_rate": 3.1e-05, + "loss": 0.036, + "step": 3652 + }, + { + "epoch": 7.6125, + "grad_norm": 0.49771648645401, + "learning_rate": 3.0989583333333336e-05, + "loss": 0.0183, + "step": 3654 + }, + { + "epoch": 7.616666666666667, + "grad_norm": 0.48510560393333435, + "learning_rate": 3.097916666666667e-05, + "loss": 0.0193, + "step": 3656 + }, + { + "epoch": 7.620833333333334, + "grad_norm": 0.5835555195808411, + "learning_rate": 3.0968750000000004e-05, + "loss": 0.028, + "step": 3658 + }, + { + "epoch": 7.625, + "grad_norm": 1.418738842010498, + "learning_rate": 3.095833333333333e-05, + "loss": 0.0248, + "step": 3660 + }, + { + "epoch": 7.629166666666666, + "grad_norm": 0.7478122711181641, + "learning_rate": 3.094791666666667e-05, + "loss": 0.024, + "step": 3662 + }, + { + "epoch": 7.633333333333333, + "grad_norm": 0.48507148027420044, + "learning_rate": 3.09375e-05, + "loss": 0.0205, + "step": 3664 + }, + { + "epoch": 7.6375, + "grad_norm": 0.3896194398403168, + "learning_rate": 3.0927083333333334e-05, + "loss": 0.0178, + "step": 3666 + }, + { + "epoch": 7.641666666666667, + "grad_norm": 0.6303302049636841, + "learning_rate": 3.091666666666667e-05, + "loss": 0.0294, + "step": 3668 + }, + { + "epoch": 7.645833333333333, + "grad_norm": 0.5422300696372986, + "learning_rate": 3.090625e-05, + "loss": 0.0216, + "step": 3670 + }, + { + "epoch": 7.65, + "grad_norm": 0.6529776453971863, + "learning_rate": 3.089583333333334e-05, + "loss": 0.0195, + "step": 3672 + }, + { + "epoch": 7.654166666666667, + "grad_norm": 0.4288695752620697, + "learning_rate": 3.0885416666666664e-05, + "loss": 0.016, + "step": 3674 + }, + { + "epoch": 7.658333333333333, + "grad_norm": 0.6106112003326416, + "learning_rate": 3.0875000000000005e-05, + "loss": 0.0261, + "step": 3676 + }, + { + "epoch": 7.6625, + "grad_norm": 0.38628074526786804, + "learning_rate": 3.086458333333333e-05, + "loss": 0.0234, + "step": 3678 + }, + { + "epoch": 7.666666666666667, + "grad_norm": 2.5267720222473145, + "learning_rate": 3.085416666666667e-05, + "loss": 0.0359, + "step": 3680 + }, + { + "epoch": 7.670833333333333, + "grad_norm": 1.1921278238296509, + "learning_rate": 3.084375e-05, + "loss": 0.035, + "step": 3682 + }, + { + "epoch": 7.675, + "grad_norm": 0.4726331830024719, + "learning_rate": 3.0833333333333335e-05, + "loss": 0.0201, + "step": 3684 + }, + { + "epoch": 7.679166666666667, + "grad_norm": 0.47684478759765625, + "learning_rate": 3.082291666666667e-05, + "loss": 0.02, + "step": 3686 + }, + { + "epoch": 7.683333333333334, + "grad_norm": 0.5189896821975708, + "learning_rate": 3.08125e-05, + "loss": 0.0207, + "step": 3688 + }, + { + "epoch": 7.6875, + "grad_norm": 0.42278385162353516, + "learning_rate": 3.080208333333334e-05, + "loss": 0.0147, + "step": 3690 + }, + { + "epoch": 7.691666666666666, + "grad_norm": 0.6598737835884094, + "learning_rate": 3.079166666666667e-05, + "loss": 0.0221, + "step": 3692 + }, + { + "epoch": 7.695833333333333, + "grad_norm": 0.5158832669258118, + "learning_rate": 3.078125e-05, + "loss": 0.018, + "step": 3694 + }, + { + "epoch": 7.7, + "grad_norm": 0.438465416431427, + "learning_rate": 3.0770833333333334e-05, + "loss": 0.0145, + "step": 3696 + }, + { + "epoch": 7.704166666666667, + "grad_norm": 0.3222663402557373, + "learning_rate": 3.076041666666667e-05, + "loss": 0.0162, + "step": 3698 + }, + { + "epoch": 7.708333333333333, + "grad_norm": 0.37563133239746094, + "learning_rate": 3.075e-05, + "loss": 0.0162, + "step": 3700 + }, + { + "epoch": 7.7125, + "grad_norm": 0.8476555943489075, + "learning_rate": 3.073958333333333e-05, + "loss": 0.0283, + "step": 3702 + }, + { + "epoch": 7.716666666666667, + "grad_norm": 0.6180766820907593, + "learning_rate": 3.072916666666667e-05, + "loss": 0.029, + "step": 3704 + }, + { + "epoch": 7.720833333333333, + "grad_norm": 0.9961662888526917, + "learning_rate": 3.0718750000000005e-05, + "loss": 0.0204, + "step": 3706 + }, + { + "epoch": 7.725, + "grad_norm": 0.47607356309890747, + "learning_rate": 3.070833333333333e-05, + "loss": 0.0187, + "step": 3708 + }, + { + "epoch": 7.729166666666667, + "grad_norm": 1.5697436332702637, + "learning_rate": 3.069791666666667e-05, + "loss": 0.0224, + "step": 3710 + }, + { + "epoch": 7.733333333333333, + "grad_norm": 0.752020001411438, + "learning_rate": 3.06875e-05, + "loss": 0.0305, + "step": 3712 + }, + { + "epoch": 7.7375, + "grad_norm": 0.42446890473365784, + "learning_rate": 3.0677083333333335e-05, + "loss": 0.0223, + "step": 3714 + }, + { + "epoch": 7.741666666666667, + "grad_norm": 0.3545722961425781, + "learning_rate": 3.066666666666667e-05, + "loss": 0.0253, + "step": 3716 + }, + { + "epoch": 7.745833333333334, + "grad_norm": 1.277623176574707, + "learning_rate": 3.065625e-05, + "loss": 0.0279, + "step": 3718 + }, + { + "epoch": 7.75, + "grad_norm": 0.34411463141441345, + "learning_rate": 3.064583333333334e-05, + "loss": 0.0226, + "step": 3720 + }, + { + "epoch": 7.754166666666666, + "grad_norm": 0.9054245352745056, + "learning_rate": 3.0635416666666665e-05, + "loss": 0.0315, + "step": 3722 + }, + { + "epoch": 7.758333333333333, + "grad_norm": 4.758686065673828, + "learning_rate": 3.0625000000000006e-05, + "loss": 0.0283, + "step": 3724 + }, + { + "epoch": 7.7625, + "grad_norm": 0.47740980982780457, + "learning_rate": 3.061458333333333e-05, + "loss": 0.0216, + "step": 3726 + }, + { + "epoch": 7.766666666666667, + "grad_norm": 0.4881611466407776, + "learning_rate": 3.060416666666667e-05, + "loss": 0.0229, + "step": 3728 + }, + { + "epoch": 7.770833333333333, + "grad_norm": 1.1405632495880127, + "learning_rate": 3.059375e-05, + "loss": 0.0238, + "step": 3730 + }, + { + "epoch": 7.775, + "grad_norm": 0.647423505783081, + "learning_rate": 3.0583333333333336e-05, + "loss": 0.0225, + "step": 3732 + }, + { + "epoch": 7.779166666666667, + "grad_norm": 0.5537109375, + "learning_rate": 3.057291666666667e-05, + "loss": 0.0264, + "step": 3734 + }, + { + "epoch": 7.783333333333333, + "grad_norm": 0.5988361239433289, + "learning_rate": 3.05625e-05, + "loss": 0.0269, + "step": 3736 + }, + { + "epoch": 7.7875, + "grad_norm": 0.5628698468208313, + "learning_rate": 3.055208333333334e-05, + "loss": 0.0238, + "step": 3738 + }, + { + "epoch": 7.791666666666667, + "grad_norm": 0.6685660481452942, + "learning_rate": 3.0541666666666666e-05, + "loss": 0.0237, + "step": 3740 + }, + { + "epoch": 7.795833333333333, + "grad_norm": 0.6037874817848206, + "learning_rate": 3.053125e-05, + "loss": 0.0215, + "step": 3742 + }, + { + "epoch": 7.8, + "grad_norm": 0.26125800609588623, + "learning_rate": 3.0520833333333334e-05, + "loss": 0.0138, + "step": 3744 + }, + { + "epoch": 7.804166666666667, + "grad_norm": 0.5440795421600342, + "learning_rate": 3.051041666666667e-05, + "loss": 0.0218, + "step": 3746 + }, + { + "epoch": 7.808333333333334, + "grad_norm": 0.6096063256263733, + "learning_rate": 3.05e-05, + "loss": 0.0176, + "step": 3748 + }, + { + "epoch": 7.8125, + "grad_norm": 0.6345534324645996, + "learning_rate": 3.0489583333333334e-05, + "loss": 0.0234, + "step": 3750 + }, + { + "epoch": 7.816666666666666, + "grad_norm": 0.4291459321975708, + "learning_rate": 3.047916666666667e-05, + "loss": 0.015, + "step": 3752 + }, + { + "epoch": 7.820833333333333, + "grad_norm": 0.553010880947113, + "learning_rate": 3.0468750000000002e-05, + "loss": 0.0207, + "step": 3754 + }, + { + "epoch": 7.825, + "grad_norm": 0.40812453627586365, + "learning_rate": 3.0458333333333333e-05, + "loss": 0.0241, + "step": 3756 + }, + { + "epoch": 7.829166666666667, + "grad_norm": 0.8592191934585571, + "learning_rate": 3.044791666666667e-05, + "loss": 0.0238, + "step": 3758 + }, + { + "epoch": 7.833333333333333, + "grad_norm": 0.36087122559547424, + "learning_rate": 3.04375e-05, + "loss": 0.0219, + "step": 3760 + }, + { + "epoch": 7.8375, + "grad_norm": 0.4685411751270294, + "learning_rate": 3.0427083333333335e-05, + "loss": 0.0225, + "step": 3762 + }, + { + "epoch": 7.841666666666667, + "grad_norm": 0.38486024737358093, + "learning_rate": 3.0416666666666666e-05, + "loss": 0.0247, + "step": 3764 + }, + { + "epoch": 7.845833333333333, + "grad_norm": 0.8634423017501831, + "learning_rate": 3.0406250000000004e-05, + "loss": 0.043, + "step": 3766 + }, + { + "epoch": 7.85, + "grad_norm": 0.8346765637397766, + "learning_rate": 3.0395833333333335e-05, + "loss": 0.0191, + "step": 3768 + }, + { + "epoch": 7.854166666666667, + "grad_norm": 1.000938057899475, + "learning_rate": 3.0385416666666666e-05, + "loss": 0.0141, + "step": 3770 + }, + { + "epoch": 7.858333333333333, + "grad_norm": 0.6905760765075684, + "learning_rate": 3.0375000000000003e-05, + "loss": 0.0259, + "step": 3772 + }, + { + "epoch": 7.8625, + "grad_norm": 0.43647634983062744, + "learning_rate": 3.0364583333333334e-05, + "loss": 0.02, + "step": 3774 + }, + { + "epoch": 7.866666666666667, + "grad_norm": 1.112122654914856, + "learning_rate": 3.0354166666666668e-05, + "loss": 0.0338, + "step": 3776 + }, + { + "epoch": 7.870833333333334, + "grad_norm": 0.5119484663009644, + "learning_rate": 3.0343750000000006e-05, + "loss": 0.0187, + "step": 3778 + }, + { + "epoch": 7.875, + "grad_norm": 0.9580150842666626, + "learning_rate": 3.0333333333333337e-05, + "loss": 0.0181, + "step": 3780 + }, + { + "epoch": 7.879166666666666, + "grad_norm": 0.46004506945610046, + "learning_rate": 3.0322916666666667e-05, + "loss": 0.0236, + "step": 3782 + }, + { + "epoch": 7.883333333333333, + "grad_norm": 0.352469801902771, + "learning_rate": 3.0312499999999998e-05, + "loss": 0.0173, + "step": 3784 + }, + { + "epoch": 7.8875, + "grad_norm": 0.5450811982154846, + "learning_rate": 3.0302083333333336e-05, + "loss": 0.0361, + "step": 3786 + }, + { + "epoch": 7.891666666666667, + "grad_norm": 1.0346827507019043, + "learning_rate": 3.0291666666666667e-05, + "loss": 0.0198, + "step": 3788 + }, + { + "epoch": 7.895833333333333, + "grad_norm": 0.47901320457458496, + "learning_rate": 3.028125e-05, + "loss": 0.0237, + "step": 3790 + }, + { + "epoch": 7.9, + "grad_norm": 0.6845324039459229, + "learning_rate": 3.027083333333334e-05, + "loss": 0.0225, + "step": 3792 + }, + { + "epoch": 7.904166666666667, + "grad_norm": 0.35907748341560364, + "learning_rate": 3.026041666666667e-05, + "loss": 0.0164, + "step": 3794 + }, + { + "epoch": 7.908333333333333, + "grad_norm": 0.34360015392303467, + "learning_rate": 3.025e-05, + "loss": 0.0208, + "step": 3796 + }, + { + "epoch": 7.9125, + "grad_norm": 0.5348155498504639, + "learning_rate": 3.023958333333333e-05, + "loss": 0.0271, + "step": 3798 + }, + { + "epoch": 7.916666666666667, + "grad_norm": 0.5055382251739502, + "learning_rate": 3.022916666666667e-05, + "loss": 0.0249, + "step": 3800 + }, + { + "epoch": 7.916666666666667, + "eval_cer": 0.06002887605508663, + "eval_loss": 0.39582812786102295, + "eval_runtime": 75.3306, + "eval_samples_per_second": 5.23, + "eval_steps_per_second": 0.664, + "step": 3800 + }, + { + "epoch": 7.920833333333333, + "grad_norm": 1.3131810426712036, + "learning_rate": 3.0218750000000003e-05, + "loss": 0.0321, + "step": 3802 + }, + { + "epoch": 7.925, + "grad_norm": 0.638957142829895, + "learning_rate": 3.0208333333333334e-05, + "loss": 0.0261, + "step": 3804 + }, + { + "epoch": 7.929166666666667, + "grad_norm": 0.5020803213119507, + "learning_rate": 3.019791666666667e-05, + "loss": 0.0231, + "step": 3806 + }, + { + "epoch": 7.933333333333334, + "grad_norm": 7.461872100830078, + "learning_rate": 3.0187500000000002e-05, + "loss": 0.0293, + "step": 3808 + }, + { + "epoch": 7.9375, + "grad_norm": 0.6291200518608093, + "learning_rate": 3.0177083333333333e-05, + "loss": 0.0275, + "step": 3810 + }, + { + "epoch": 7.941666666666666, + "grad_norm": 0.8682950735092163, + "learning_rate": 3.016666666666667e-05, + "loss": 0.0246, + "step": 3812 + }, + { + "epoch": 7.945833333333333, + "grad_norm": 0.692464292049408, + "learning_rate": 3.015625e-05, + "loss": 0.0283, + "step": 3814 + }, + { + "epoch": 7.95, + "grad_norm": 0.5289508700370789, + "learning_rate": 3.0145833333333335e-05, + "loss": 0.0218, + "step": 3816 + }, + { + "epoch": 7.954166666666667, + "grad_norm": 0.7127851247787476, + "learning_rate": 3.0135416666666666e-05, + "loss": 0.0248, + "step": 3818 + }, + { + "epoch": 7.958333333333333, + "grad_norm": 0.4087834358215332, + "learning_rate": 3.0125000000000004e-05, + "loss": 0.0172, + "step": 3820 + }, + { + "epoch": 7.9625, + "grad_norm": 0.4307630956172943, + "learning_rate": 3.0114583333333335e-05, + "loss": 0.0181, + "step": 3822 + }, + { + "epoch": 7.966666666666667, + "grad_norm": 0.5808410048484802, + "learning_rate": 3.0104166666666665e-05, + "loss": 0.0329, + "step": 3824 + }, + { + "epoch": 7.970833333333333, + "grad_norm": 0.6523730754852295, + "learning_rate": 3.0093750000000003e-05, + "loss": 0.019, + "step": 3826 + }, + { + "epoch": 7.975, + "grad_norm": 0.3563057482242584, + "learning_rate": 3.0083333333333337e-05, + "loss": 0.0163, + "step": 3828 + }, + { + "epoch": 7.979166666666667, + "grad_norm": 0.4372091591358185, + "learning_rate": 3.0072916666666668e-05, + "loss": 0.0197, + "step": 3830 + }, + { + "epoch": 7.983333333333333, + "grad_norm": 0.5268446803092957, + "learning_rate": 3.00625e-05, + "loss": 0.0191, + "step": 3832 + }, + { + "epoch": 7.9875, + "grad_norm": 1.0802661180496216, + "learning_rate": 3.0052083333333336e-05, + "loss": 0.0252, + "step": 3834 + }, + { + "epoch": 7.991666666666667, + "grad_norm": 0.4825522303581238, + "learning_rate": 3.0041666666666667e-05, + "loss": 0.0192, + "step": 3836 + }, + { + "epoch": 7.995833333333334, + "grad_norm": 0.6703685522079468, + "learning_rate": 3.0031249999999998e-05, + "loss": 0.0208, + "step": 3838 + }, + { + "epoch": 8.0, + "grad_norm": 0.8694697618484497, + "learning_rate": 3.0020833333333336e-05, + "loss": 0.0253, + "step": 3840 + }, + { + "epoch": 8.004166666666666, + "grad_norm": 0.44813060760498047, + "learning_rate": 3.001041666666667e-05, + "loss": 0.0142, + "step": 3842 + }, + { + "epoch": 8.008333333333333, + "grad_norm": 0.37218400835990906, + "learning_rate": 3e-05, + "loss": 0.016, + "step": 3844 + }, + { + "epoch": 8.0125, + "grad_norm": 0.243580162525177, + "learning_rate": 2.998958333333333e-05, + "loss": 0.0112, + "step": 3846 + }, + { + "epoch": 8.016666666666667, + "grad_norm": 0.1926388144493103, + "learning_rate": 2.997916666666667e-05, + "loss": 0.0103, + "step": 3848 + }, + { + "epoch": 8.020833333333334, + "grad_norm": 0.35067999362945557, + "learning_rate": 2.996875e-05, + "loss": 0.0085, + "step": 3850 + }, + { + "epoch": 8.025, + "grad_norm": 0.4106822609901428, + "learning_rate": 2.9958333333333334e-05, + "loss": 0.0159, + "step": 3852 + }, + { + "epoch": 8.029166666666667, + "grad_norm": 0.38085001707077026, + "learning_rate": 2.994791666666667e-05, + "loss": 0.0188, + "step": 3854 + }, + { + "epoch": 8.033333333333333, + "grad_norm": 0.33315128087997437, + "learning_rate": 2.9937500000000003e-05, + "loss": 0.0128, + "step": 3856 + }, + { + "epoch": 8.0375, + "grad_norm": 0.3993881940841675, + "learning_rate": 2.9927083333333333e-05, + "loss": 0.0219, + "step": 3858 + }, + { + "epoch": 8.041666666666666, + "grad_norm": 0.49116936326026917, + "learning_rate": 2.991666666666667e-05, + "loss": 0.0194, + "step": 3860 + }, + { + "epoch": 8.045833333333333, + "grad_norm": 0.43114838004112244, + "learning_rate": 2.9906250000000002e-05, + "loss": 0.0201, + "step": 3862 + }, + { + "epoch": 8.05, + "grad_norm": 0.36210429668426514, + "learning_rate": 2.9895833333333333e-05, + "loss": 0.012, + "step": 3864 + }, + { + "epoch": 8.054166666666667, + "grad_norm": 0.23641756176948547, + "learning_rate": 2.9885416666666667e-05, + "loss": 0.0157, + "step": 3866 + }, + { + "epoch": 8.058333333333334, + "grad_norm": 0.3785956799983978, + "learning_rate": 2.9875000000000004e-05, + "loss": 0.0127, + "step": 3868 + }, + { + "epoch": 8.0625, + "grad_norm": 0.13942758738994598, + "learning_rate": 2.9864583333333335e-05, + "loss": 0.0087, + "step": 3870 + }, + { + "epoch": 8.066666666666666, + "grad_norm": 0.44062569737434387, + "learning_rate": 2.9854166666666666e-05, + "loss": 0.0106, + "step": 3872 + }, + { + "epoch": 8.070833333333333, + "grad_norm": 1.080630898475647, + "learning_rate": 2.9843750000000004e-05, + "loss": 0.0192, + "step": 3874 + }, + { + "epoch": 8.075, + "grad_norm": 0.30977270007133484, + "learning_rate": 2.9833333333333335e-05, + "loss": 0.0143, + "step": 3876 + }, + { + "epoch": 8.079166666666667, + "grad_norm": 0.3131089210510254, + "learning_rate": 2.9822916666666665e-05, + "loss": 0.0105, + "step": 3878 + }, + { + "epoch": 8.083333333333334, + "grad_norm": 0.42610597610473633, + "learning_rate": 2.98125e-05, + "loss": 0.0137, + "step": 3880 + }, + { + "epoch": 8.0875, + "grad_norm": 0.5242621302604675, + "learning_rate": 2.9802083333333337e-05, + "loss": 0.0114, + "step": 3882 + }, + { + "epoch": 8.091666666666667, + "grad_norm": 1.3198421001434326, + "learning_rate": 2.9791666666666668e-05, + "loss": 0.013, + "step": 3884 + }, + { + "epoch": 8.095833333333333, + "grad_norm": 0.1904415786266327, + "learning_rate": 2.978125e-05, + "loss": 0.0121, + "step": 3886 + }, + { + "epoch": 8.1, + "grad_norm": 0.532697319984436, + "learning_rate": 2.9770833333333336e-05, + "loss": 0.0189, + "step": 3888 + }, + { + "epoch": 8.104166666666666, + "grad_norm": 0.2464178055524826, + "learning_rate": 2.9760416666666667e-05, + "loss": 0.0099, + "step": 3890 + }, + { + "epoch": 8.108333333333333, + "grad_norm": 0.400334894657135, + "learning_rate": 2.975e-05, + "loss": 0.0193, + "step": 3892 + }, + { + "epoch": 8.1125, + "grad_norm": 0.39677226543426514, + "learning_rate": 2.9739583333333336e-05, + "loss": 0.0151, + "step": 3894 + }, + { + "epoch": 8.116666666666667, + "grad_norm": 0.23379898071289062, + "learning_rate": 2.972916666666667e-05, + "loss": 0.0089, + "step": 3896 + }, + { + "epoch": 8.120833333333334, + "grad_norm": 0.4588472545146942, + "learning_rate": 2.971875e-05, + "loss": 0.0143, + "step": 3898 + }, + { + "epoch": 8.125, + "grad_norm": 0.4935609698295593, + "learning_rate": 2.970833333333333e-05, + "loss": 0.0112, + "step": 3900 + }, + { + "epoch": 8.129166666666666, + "grad_norm": 0.529336154460907, + "learning_rate": 2.969791666666667e-05, + "loss": 0.0115, + "step": 3902 + }, + { + "epoch": 8.133333333333333, + "grad_norm": 0.29298514127731323, + "learning_rate": 2.96875e-05, + "loss": 0.013, + "step": 3904 + }, + { + "epoch": 8.1375, + "grad_norm": 0.6578707098960876, + "learning_rate": 2.9677083333333334e-05, + "loss": 0.0233, + "step": 3906 + }, + { + "epoch": 8.141666666666667, + "grad_norm": 0.5854950547218323, + "learning_rate": 2.9666666666666672e-05, + "loss": 0.0174, + "step": 3908 + }, + { + "epoch": 8.145833333333334, + "grad_norm": 0.15591806173324585, + "learning_rate": 2.9656250000000003e-05, + "loss": 0.0092, + "step": 3910 + }, + { + "epoch": 8.15, + "grad_norm": 0.17346365749835968, + "learning_rate": 2.9645833333333333e-05, + "loss": 0.0141, + "step": 3912 + }, + { + "epoch": 8.154166666666667, + "grad_norm": 0.13857750594615936, + "learning_rate": 2.9635416666666664e-05, + "loss": 0.0108, + "step": 3914 + }, + { + "epoch": 8.158333333333333, + "grad_norm": 0.46861591935157776, + "learning_rate": 2.9625000000000002e-05, + "loss": 0.0116, + "step": 3916 + }, + { + "epoch": 8.1625, + "grad_norm": 0.5823172330856323, + "learning_rate": 2.9614583333333336e-05, + "loss": 0.0214, + "step": 3918 + }, + { + "epoch": 8.166666666666666, + "grad_norm": 0.8085514307022095, + "learning_rate": 2.9604166666666667e-05, + "loss": 0.0088, + "step": 3920 + }, + { + "epoch": 8.170833333333333, + "grad_norm": 0.28737568855285645, + "learning_rate": 2.9593750000000004e-05, + "loss": 0.0277, + "step": 3922 + }, + { + "epoch": 8.175, + "grad_norm": 0.3341892659664154, + "learning_rate": 2.9583333333333335e-05, + "loss": 0.0092, + "step": 3924 + }, + { + "epoch": 8.179166666666667, + "grad_norm": 1.965190052986145, + "learning_rate": 2.9572916666666666e-05, + "loss": 0.0125, + "step": 3926 + }, + { + "epoch": 8.183333333333334, + "grad_norm": 0.4832121431827545, + "learning_rate": 2.9562500000000004e-05, + "loss": 0.0193, + "step": 3928 + }, + { + "epoch": 8.1875, + "grad_norm": 0.3147629201412201, + "learning_rate": 2.9552083333333334e-05, + "loss": 0.0114, + "step": 3930 + }, + { + "epoch": 8.191666666666666, + "grad_norm": 0.4612670838832855, + "learning_rate": 2.954166666666667e-05, + "loss": 0.0144, + "step": 3932 + }, + { + "epoch": 8.195833333333333, + "grad_norm": 0.2960876524448395, + "learning_rate": 2.953125e-05, + "loss": 0.0223, + "step": 3934 + }, + { + "epoch": 8.2, + "grad_norm": 0.23616066575050354, + "learning_rate": 2.9520833333333337e-05, + "loss": 0.0103, + "step": 3936 + }, + { + "epoch": 8.204166666666667, + "grad_norm": 0.3536072373390198, + "learning_rate": 2.9510416666666668e-05, + "loss": 0.0185, + "step": 3938 + }, + { + "epoch": 8.208333333333334, + "grad_norm": 0.1527038961648941, + "learning_rate": 2.95e-05, + "loss": 0.0126, + "step": 3940 + }, + { + "epoch": 8.2125, + "grad_norm": 0.3032659590244293, + "learning_rate": 2.9489583333333336e-05, + "loss": 0.0091, + "step": 3942 + }, + { + "epoch": 8.216666666666667, + "grad_norm": 0.48280489444732666, + "learning_rate": 2.9479166666666667e-05, + "loss": 0.0203, + "step": 3944 + }, + { + "epoch": 8.220833333333333, + "grad_norm": 0.43892645835876465, + "learning_rate": 2.946875e-05, + "loss": 0.0151, + "step": 3946 + }, + { + "epoch": 8.225, + "grad_norm": 0.27316904067993164, + "learning_rate": 2.9458333333333332e-05, + "loss": 0.0108, + "step": 3948 + }, + { + "epoch": 8.229166666666666, + "grad_norm": 0.8450804948806763, + "learning_rate": 2.944791666666667e-05, + "loss": 0.0141, + "step": 3950 + }, + { + "epoch": 8.233333333333333, + "grad_norm": 0.9874789118766785, + "learning_rate": 2.94375e-05, + "loss": 0.019, + "step": 3952 + }, + { + "epoch": 8.2375, + "grad_norm": 0.3485477566719055, + "learning_rate": 2.942708333333333e-05, + "loss": 0.0117, + "step": 3954 + }, + { + "epoch": 8.241666666666667, + "grad_norm": 0.23910658061504364, + "learning_rate": 2.941666666666667e-05, + "loss": 0.0153, + "step": 3956 + }, + { + "epoch": 8.245833333333334, + "grad_norm": 0.4021684527397156, + "learning_rate": 2.9406250000000003e-05, + "loss": 0.0113, + "step": 3958 + }, + { + "epoch": 8.25, + "grad_norm": 0.40634194016456604, + "learning_rate": 2.9395833333333334e-05, + "loss": 0.0096, + "step": 3960 + }, + { + "epoch": 8.254166666666666, + "grad_norm": 0.20356914401054382, + "learning_rate": 2.938541666666667e-05, + "loss": 0.0113, + "step": 3962 + }, + { + "epoch": 8.258333333333333, + "grad_norm": 0.29174235463142395, + "learning_rate": 2.9375000000000003e-05, + "loss": 0.018, + "step": 3964 + }, + { + "epoch": 8.2625, + "grad_norm": 0.38249456882476807, + "learning_rate": 2.9364583333333333e-05, + "loss": 0.0163, + "step": 3966 + }, + { + "epoch": 8.266666666666667, + "grad_norm": 0.3564383387565613, + "learning_rate": 2.9354166666666668e-05, + "loss": 0.0139, + "step": 3968 + }, + { + "epoch": 8.270833333333334, + "grad_norm": 0.2886280119419098, + "learning_rate": 2.9343750000000002e-05, + "loss": 0.011, + "step": 3970 + }, + { + "epoch": 8.275, + "grad_norm": 0.3003953993320465, + "learning_rate": 2.9333333333333336e-05, + "loss": 0.011, + "step": 3972 + }, + { + "epoch": 8.279166666666667, + "grad_norm": 0.399417906999588, + "learning_rate": 2.9322916666666667e-05, + "loss": 0.0143, + "step": 3974 + }, + { + "epoch": 8.283333333333333, + "grad_norm": 0.16974666714668274, + "learning_rate": 2.9312500000000004e-05, + "loss": 0.0102, + "step": 3976 + }, + { + "epoch": 8.2875, + "grad_norm": 0.43420496582984924, + "learning_rate": 2.9302083333333335e-05, + "loss": 0.0116, + "step": 3978 + }, + { + "epoch": 8.291666666666666, + "grad_norm": 0.19227996468544006, + "learning_rate": 2.9291666666666666e-05, + "loss": 0.0067, + "step": 3980 + }, + { + "epoch": 8.295833333333333, + "grad_norm": 0.6903923749923706, + "learning_rate": 2.928125e-05, + "loss": 0.0154, + "step": 3982 + }, + { + "epoch": 8.3, + "grad_norm": 0.40828901529312134, + "learning_rate": 2.9270833333333338e-05, + "loss": 0.0142, + "step": 3984 + }, + { + "epoch": 8.304166666666667, + "grad_norm": 0.5101356506347656, + "learning_rate": 2.926041666666667e-05, + "loss": 0.0148, + "step": 3986 + }, + { + "epoch": 8.308333333333334, + "grad_norm": 0.6743680834770203, + "learning_rate": 2.925e-05, + "loss": 0.0171, + "step": 3988 + }, + { + "epoch": 8.3125, + "grad_norm": 0.15305039286613464, + "learning_rate": 2.9239583333333337e-05, + "loss": 0.012, + "step": 3990 + }, + { + "epoch": 8.316666666666666, + "grad_norm": 0.5484204292297363, + "learning_rate": 2.9229166666666668e-05, + "loss": 0.0178, + "step": 3992 + }, + { + "epoch": 8.320833333333333, + "grad_norm": 0.18691198527812958, + "learning_rate": 2.921875e-05, + "loss": 0.0106, + "step": 3994 + }, + { + "epoch": 8.325, + "grad_norm": 0.6497703790664673, + "learning_rate": 2.9208333333333333e-05, + "loss": 0.0115, + "step": 3996 + }, + { + "epoch": 8.329166666666667, + "grad_norm": 0.24722211062908173, + "learning_rate": 2.919791666666667e-05, + "loss": 0.0126, + "step": 3998 + }, + { + "epoch": 8.333333333333334, + "grad_norm": 0.4097425937652588, + "learning_rate": 2.91875e-05, + "loss": 0.0158, + "step": 4000 + }, + { + "epoch": 8.333333333333334, + "eval_cer": 0.060250999555753, + "eval_loss": 0.4070720672607422, + "eval_runtime": 74.7731, + "eval_samples_per_second": 5.269, + "eval_steps_per_second": 0.669, + "step": 4000 + }, + { + "epoch": 8.3375, + "grad_norm": 0.283951073884964, + "learning_rate": 2.9177083333333332e-05, + "loss": 0.0185, + "step": 4002 + }, + { + "epoch": 8.341666666666667, + "grad_norm": 1.737522006034851, + "learning_rate": 2.916666666666667e-05, + "loss": 0.0158, + "step": 4004 + }, + { + "epoch": 8.345833333333333, + "grad_norm": 0.6242247223854065, + "learning_rate": 2.915625e-05, + "loss": 0.019, + "step": 4006 + }, + { + "epoch": 8.35, + "grad_norm": 0.37171995639801025, + "learning_rate": 2.9145833333333335e-05, + "loss": 0.0155, + "step": 4008 + }, + { + "epoch": 8.354166666666666, + "grad_norm": 0.6445013880729675, + "learning_rate": 2.913541666666667e-05, + "loss": 0.0187, + "step": 4010 + }, + { + "epoch": 8.358333333333333, + "grad_norm": 0.48194971680641174, + "learning_rate": 2.9125000000000003e-05, + "loss": 0.0127, + "step": 4012 + }, + { + "epoch": 8.3625, + "grad_norm": 0.2867905795574188, + "learning_rate": 2.9114583333333334e-05, + "loss": 0.0109, + "step": 4014 + }, + { + "epoch": 8.366666666666667, + "grad_norm": 0.31192710995674133, + "learning_rate": 2.9104166666666665e-05, + "loss": 0.0153, + "step": 4016 + }, + { + "epoch": 8.370833333333334, + "grad_norm": 0.3778490424156189, + "learning_rate": 2.9093750000000002e-05, + "loss": 0.0096, + "step": 4018 + }, + { + "epoch": 8.375, + "grad_norm": 0.4541451036930084, + "learning_rate": 2.9083333333333333e-05, + "loss": 0.0161, + "step": 4020 + }, + { + "epoch": 8.379166666666666, + "grad_norm": 0.2601257264614105, + "learning_rate": 2.9072916666666667e-05, + "loss": 0.0094, + "step": 4022 + }, + { + "epoch": 8.383333333333333, + "grad_norm": 0.34385979175567627, + "learning_rate": 2.9062500000000005e-05, + "loss": 0.0151, + "step": 4024 + }, + { + "epoch": 8.3875, + "grad_norm": 0.3521216809749603, + "learning_rate": 2.9052083333333336e-05, + "loss": 0.0124, + "step": 4026 + }, + { + "epoch": 8.391666666666667, + "grad_norm": 0.6247578859329224, + "learning_rate": 2.9041666666666667e-05, + "loss": 0.0178, + "step": 4028 + }, + { + "epoch": 8.395833333333334, + "grad_norm": 0.4270657002925873, + "learning_rate": 2.9031249999999998e-05, + "loss": 0.0145, + "step": 4030 + }, + { + "epoch": 8.4, + "grad_norm": 0.45995810627937317, + "learning_rate": 2.9020833333333335e-05, + "loss": 0.0112, + "step": 4032 + }, + { + "epoch": 8.404166666666667, + "grad_norm": 0.23934850096702576, + "learning_rate": 2.901041666666667e-05, + "loss": 0.0103, + "step": 4034 + }, + { + "epoch": 8.408333333333333, + "grad_norm": 0.2831811308860779, + "learning_rate": 2.9e-05, + "loss": 0.0104, + "step": 4036 + }, + { + "epoch": 8.4125, + "grad_norm": 0.38318371772766113, + "learning_rate": 2.8989583333333338e-05, + "loss": 0.0137, + "step": 4038 + }, + { + "epoch": 8.416666666666666, + "grad_norm": 0.3136492073535919, + "learning_rate": 2.897916666666667e-05, + "loss": 0.0119, + "step": 4040 + }, + { + "epoch": 8.420833333333333, + "grad_norm": 0.37356919050216675, + "learning_rate": 2.896875e-05, + "loss": 0.0157, + "step": 4042 + }, + { + "epoch": 8.425, + "grad_norm": 0.3334972858428955, + "learning_rate": 2.8958333333333337e-05, + "loss": 0.0085, + "step": 4044 + }, + { + "epoch": 8.429166666666667, + "grad_norm": 0.49866345524787903, + "learning_rate": 2.8947916666666668e-05, + "loss": 0.0186, + "step": 4046 + }, + { + "epoch": 8.433333333333334, + "grad_norm": 0.5019541382789612, + "learning_rate": 2.8937500000000002e-05, + "loss": 0.013, + "step": 4048 + }, + { + "epoch": 8.4375, + "grad_norm": 1.7880126237869263, + "learning_rate": 2.8927083333333333e-05, + "loss": 0.0219, + "step": 4050 + }, + { + "epoch": 8.441666666666666, + "grad_norm": 2.058314323425293, + "learning_rate": 2.891666666666667e-05, + "loss": 0.0131, + "step": 4052 + }, + { + "epoch": 8.445833333333333, + "grad_norm": 0.5908212065696716, + "learning_rate": 2.890625e-05, + "loss": 0.0154, + "step": 4054 + }, + { + "epoch": 8.45, + "grad_norm": 0.32968682050704956, + "learning_rate": 2.8895833333333332e-05, + "loss": 0.0165, + "step": 4056 + }, + { + "epoch": 8.454166666666667, + "grad_norm": 0.7924643158912659, + "learning_rate": 2.888541666666667e-05, + "loss": 0.0114, + "step": 4058 + }, + { + "epoch": 8.458333333333334, + "grad_norm": 1.0340673923492432, + "learning_rate": 2.8875e-05, + "loss": 0.01, + "step": 4060 + }, + { + "epoch": 8.4625, + "grad_norm": 0.21858660876750946, + "learning_rate": 2.8864583333333335e-05, + "loss": 0.0131, + "step": 4062 + }, + { + "epoch": 8.466666666666667, + "grad_norm": 0.3857004940509796, + "learning_rate": 2.8854166666666666e-05, + "loss": 0.0218, + "step": 4064 + }, + { + "epoch": 8.470833333333333, + "grad_norm": 0.4144354462623596, + "learning_rate": 2.8843750000000003e-05, + "loss": 0.0106, + "step": 4066 + }, + { + "epoch": 8.475, + "grad_norm": 0.2641182839870453, + "learning_rate": 2.8833333333333334e-05, + "loss": 0.0139, + "step": 4068 + }, + { + "epoch": 8.479166666666666, + "grad_norm": 0.6938623189926147, + "learning_rate": 2.8822916666666665e-05, + "loss": 0.0247, + "step": 4070 + }, + { + "epoch": 8.483333333333333, + "grad_norm": 0.34389951825141907, + "learning_rate": 2.8812500000000002e-05, + "loss": 0.0147, + "step": 4072 + }, + { + "epoch": 8.4875, + "grad_norm": 0.4678143262863159, + "learning_rate": 2.8802083333333337e-05, + "loss": 0.0148, + "step": 4074 + }, + { + "epoch": 8.491666666666667, + "grad_norm": 0.5362394452095032, + "learning_rate": 2.8791666666666667e-05, + "loss": 0.0134, + "step": 4076 + }, + { + "epoch": 8.495833333333334, + "grad_norm": 0.15431758761405945, + "learning_rate": 2.8781250000000005e-05, + "loss": 0.0059, + "step": 4078 + }, + { + "epoch": 8.5, + "grad_norm": 0.42708083987236023, + "learning_rate": 2.8770833333333336e-05, + "loss": 0.0166, + "step": 4080 + }, + { + "epoch": 8.504166666666666, + "grad_norm": 0.5327838659286499, + "learning_rate": 2.8760416666666667e-05, + "loss": 0.0145, + "step": 4082 + }, + { + "epoch": 8.508333333333333, + "grad_norm": 0.1918160319328308, + "learning_rate": 2.8749999999999997e-05, + "loss": 0.0119, + "step": 4084 + }, + { + "epoch": 8.5125, + "grad_norm": 0.3702945411205292, + "learning_rate": 2.8739583333333335e-05, + "loss": 0.0164, + "step": 4086 + }, + { + "epoch": 8.516666666666667, + "grad_norm": 1.0106154680252075, + "learning_rate": 2.872916666666667e-05, + "loss": 0.0182, + "step": 4088 + }, + { + "epoch": 8.520833333333334, + "grad_norm": 0.5844389200210571, + "learning_rate": 2.871875e-05, + "loss": 0.0338, + "step": 4090 + }, + { + "epoch": 8.525, + "grad_norm": 0.27481698989868164, + "learning_rate": 2.8708333333333338e-05, + "loss": 0.0139, + "step": 4092 + }, + { + "epoch": 8.529166666666667, + "grad_norm": 0.4112664461135864, + "learning_rate": 2.869791666666667e-05, + "loss": 0.0097, + "step": 4094 + }, + { + "epoch": 8.533333333333333, + "grad_norm": 0.4740341603755951, + "learning_rate": 2.86875e-05, + "loss": 0.0137, + "step": 4096 + }, + { + "epoch": 8.5375, + "grad_norm": 0.721161961555481, + "learning_rate": 2.8677083333333334e-05, + "loss": 0.0203, + "step": 4098 + }, + { + "epoch": 8.541666666666666, + "grad_norm": 0.20499658584594727, + "learning_rate": 2.8666666666666668e-05, + "loss": 0.012, + "step": 4100 + }, + { + "epoch": 8.545833333333333, + "grad_norm": 1.1593676805496216, + "learning_rate": 2.8656250000000002e-05, + "loss": 0.0132, + "step": 4102 + }, + { + "epoch": 8.55, + "grad_norm": 0.6944693922996521, + "learning_rate": 2.8645833333333333e-05, + "loss": 0.0143, + "step": 4104 + }, + { + "epoch": 8.554166666666667, + "grad_norm": 0.4886281192302704, + "learning_rate": 2.863541666666667e-05, + "loss": 0.0136, + "step": 4106 + }, + { + "epoch": 8.558333333333334, + "grad_norm": 0.4182271361351013, + "learning_rate": 2.8625e-05, + "loss": 0.0151, + "step": 4108 + }, + { + "epoch": 8.5625, + "grad_norm": 0.7091904282569885, + "learning_rate": 2.8614583333333332e-05, + "loss": 0.0228, + "step": 4110 + }, + { + "epoch": 8.566666666666666, + "grad_norm": 0.728394091129303, + "learning_rate": 2.860416666666667e-05, + "loss": 0.0199, + "step": 4112 + }, + { + "epoch": 8.570833333333333, + "grad_norm": 0.31615138053894043, + "learning_rate": 2.8593750000000004e-05, + "loss": 0.0205, + "step": 4114 + }, + { + "epoch": 8.575, + "grad_norm": 0.3228836953639984, + "learning_rate": 2.8583333333333335e-05, + "loss": 0.0094, + "step": 4116 + }, + { + "epoch": 8.579166666666667, + "grad_norm": 1.3245941400527954, + "learning_rate": 2.8572916666666665e-05, + "loss": 0.0165, + "step": 4118 + }, + { + "epoch": 8.583333333333334, + "grad_norm": 0.38338810205459595, + "learning_rate": 2.8562500000000003e-05, + "loss": 0.0164, + "step": 4120 + }, + { + "epoch": 8.5875, + "grad_norm": 1.0763522386550903, + "learning_rate": 2.8552083333333334e-05, + "loss": 0.0188, + "step": 4122 + }, + { + "epoch": 8.591666666666667, + "grad_norm": 0.3074553608894348, + "learning_rate": 2.8541666666666668e-05, + "loss": 0.0128, + "step": 4124 + }, + { + "epoch": 8.595833333333333, + "grad_norm": 0.36190280318260193, + "learning_rate": 2.8531250000000002e-05, + "loss": 0.0128, + "step": 4126 + }, + { + "epoch": 8.6, + "grad_norm": 0.5008407831192017, + "learning_rate": 2.8520833333333337e-05, + "loss": 0.017, + "step": 4128 + }, + { + "epoch": 8.604166666666666, + "grad_norm": 0.43333637714385986, + "learning_rate": 2.8510416666666667e-05, + "loss": 0.0128, + "step": 4130 + }, + { + "epoch": 8.608333333333333, + "grad_norm": 1.4763576984405518, + "learning_rate": 2.8499999999999998e-05, + "loss": 0.0146, + "step": 4132 + }, + { + "epoch": 8.6125, + "grad_norm": 0.37987974286079407, + "learning_rate": 2.8489583333333336e-05, + "loss": 0.0131, + "step": 4134 + }, + { + "epoch": 8.616666666666667, + "grad_norm": 0.24548207223415375, + "learning_rate": 2.8479166666666667e-05, + "loss": 0.0118, + "step": 4136 + }, + { + "epoch": 8.620833333333334, + "grad_norm": 0.7143663167953491, + "learning_rate": 2.846875e-05, + "loss": 0.0235, + "step": 4138 + }, + { + "epoch": 8.625, + "grad_norm": 0.4169697165489197, + "learning_rate": 2.845833333333334e-05, + "loss": 0.0194, + "step": 4140 + }, + { + "epoch": 8.629166666666666, + "grad_norm": 0.5203858613967896, + "learning_rate": 2.844791666666667e-05, + "loss": 0.0207, + "step": 4142 + }, + { + "epoch": 8.633333333333333, + "grad_norm": 0.7256736755371094, + "learning_rate": 2.84375e-05, + "loss": 0.0145, + "step": 4144 + }, + { + "epoch": 8.6375, + "grad_norm": 0.4595649540424347, + "learning_rate": 2.842708333333333e-05, + "loss": 0.0179, + "step": 4146 + }, + { + "epoch": 8.641666666666667, + "grad_norm": 0.3554857671260834, + "learning_rate": 2.841666666666667e-05, + "loss": 0.0114, + "step": 4148 + }, + { + "epoch": 8.645833333333334, + "grad_norm": 0.3589598834514618, + "learning_rate": 2.840625e-05, + "loss": 0.0096, + "step": 4150 + }, + { + "epoch": 8.65, + "grad_norm": 0.5692906379699707, + "learning_rate": 2.8395833333333333e-05, + "loss": 0.0141, + "step": 4152 + }, + { + "epoch": 8.654166666666667, + "grad_norm": 2.515963554382324, + "learning_rate": 2.838541666666667e-05, + "loss": 0.0247, + "step": 4154 + }, + { + "epoch": 8.658333333333333, + "grad_norm": 0.6139355301856995, + "learning_rate": 2.8375000000000002e-05, + "loss": 0.0142, + "step": 4156 + }, + { + "epoch": 8.6625, + "grad_norm": 0.6436298489570618, + "learning_rate": 2.8364583333333333e-05, + "loss": 0.0168, + "step": 4158 + }, + { + "epoch": 8.666666666666666, + "grad_norm": 0.3218393325805664, + "learning_rate": 2.835416666666667e-05, + "loss": 0.0153, + "step": 4160 + }, + { + "epoch": 8.670833333333333, + "grad_norm": 1.1218321323394775, + "learning_rate": 2.834375e-05, + "loss": 0.0191, + "step": 4162 + }, + { + "epoch": 8.675, + "grad_norm": 0.5296989679336548, + "learning_rate": 2.8333333333333335e-05, + "loss": 0.0103, + "step": 4164 + }, + { + "epoch": 8.679166666666667, + "grad_norm": 0.20384880900382996, + "learning_rate": 2.8322916666666666e-05, + "loss": 0.0135, + "step": 4166 + }, + { + "epoch": 8.683333333333334, + "grad_norm": 0.44636470079421997, + "learning_rate": 2.8312500000000004e-05, + "loss": 0.0163, + "step": 4168 + }, + { + "epoch": 8.6875, + "grad_norm": 0.6380673050880432, + "learning_rate": 2.8302083333333335e-05, + "loss": 0.0246, + "step": 4170 + }, + { + "epoch": 8.691666666666666, + "grad_norm": 0.23354685306549072, + "learning_rate": 2.8291666666666665e-05, + "loss": 0.0141, + "step": 4172 + }, + { + "epoch": 8.695833333333333, + "grad_norm": 0.2720557451248169, + "learning_rate": 2.8281250000000003e-05, + "loss": 0.0165, + "step": 4174 + }, + { + "epoch": 8.7, + "grad_norm": 0.4258286654949188, + "learning_rate": 2.8270833333333334e-05, + "loss": 0.019, + "step": 4176 + }, + { + "epoch": 8.704166666666667, + "grad_norm": 1.350154161453247, + "learning_rate": 2.8260416666666668e-05, + "loss": 0.0274, + "step": 4178 + }, + { + "epoch": 8.708333333333334, + "grad_norm": 0.23831455409526825, + "learning_rate": 2.825e-05, + "loss": 0.0088, + "step": 4180 + }, + { + "epoch": 8.7125, + "grad_norm": 0.848138689994812, + "learning_rate": 2.8239583333333336e-05, + "loss": 0.0211, + "step": 4182 + }, + { + "epoch": 8.716666666666667, + "grad_norm": 0.648650050163269, + "learning_rate": 2.8229166666666667e-05, + "loss": 0.0225, + "step": 4184 + }, + { + "epoch": 8.720833333333333, + "grad_norm": 0.4464459717273712, + "learning_rate": 2.8218749999999998e-05, + "loss": 0.0155, + "step": 4186 + }, + { + "epoch": 8.725, + "grad_norm": 0.7200297713279724, + "learning_rate": 2.8208333333333336e-05, + "loss": 0.0266, + "step": 4188 + }, + { + "epoch": 8.729166666666666, + "grad_norm": 0.4101089537143707, + "learning_rate": 2.819791666666667e-05, + "loss": 0.0165, + "step": 4190 + }, + { + "epoch": 8.733333333333333, + "grad_norm": 0.6235838532447815, + "learning_rate": 2.81875e-05, + "loss": 0.0298, + "step": 4192 + }, + { + "epoch": 8.7375, + "grad_norm": 0.4568389058113098, + "learning_rate": 2.817708333333334e-05, + "loss": 0.0148, + "step": 4194 + }, + { + "epoch": 8.741666666666667, + "grad_norm": 0.6720632314682007, + "learning_rate": 2.816666666666667e-05, + "loss": 0.0173, + "step": 4196 + }, + { + "epoch": 8.745833333333334, + "grad_norm": 0.37289756536483765, + "learning_rate": 2.815625e-05, + "loss": 0.0128, + "step": 4198 + }, + { + "epoch": 8.75, + "grad_norm": 0.39457324147224426, + "learning_rate": 2.814583333333333e-05, + "loss": 0.0117, + "step": 4200 + }, + { + "epoch": 8.75, + "eval_cer": 0.06238893824966681, + "eval_loss": 0.407917320728302, + "eval_runtime": 75.1538, + "eval_samples_per_second": 5.243, + "eval_steps_per_second": 0.665, + "step": 4200 + }, + { + "epoch": 8.754166666666666, + "grad_norm": 0.26273542642593384, + "learning_rate": 2.813541666666667e-05, + "loss": 0.011, + "step": 4202 + }, + { + "epoch": 8.758333333333333, + "grad_norm": 0.5936306118965149, + "learning_rate": 2.8125000000000003e-05, + "loss": 0.0179, + "step": 4204 + }, + { + "epoch": 8.7625, + "grad_norm": 1.4177201986312866, + "learning_rate": 2.8114583333333333e-05, + "loss": 0.0227, + "step": 4206 + }, + { + "epoch": 8.766666666666667, + "grad_norm": 0.5598524212837219, + "learning_rate": 2.810416666666667e-05, + "loss": 0.0153, + "step": 4208 + }, + { + "epoch": 8.770833333333334, + "grad_norm": 0.4930800795555115, + "learning_rate": 2.8093750000000002e-05, + "loss": 0.0141, + "step": 4210 + }, + { + "epoch": 8.775, + "grad_norm": 0.25465649366378784, + "learning_rate": 2.8083333333333333e-05, + "loss": 0.0164, + "step": 4212 + }, + { + "epoch": 8.779166666666667, + "grad_norm": 0.8102503418922424, + "learning_rate": 2.8072916666666667e-05, + "loss": 0.0168, + "step": 4214 + }, + { + "epoch": 8.783333333333333, + "grad_norm": 0.7251538634300232, + "learning_rate": 2.80625e-05, + "loss": 0.0224, + "step": 4216 + }, + { + "epoch": 8.7875, + "grad_norm": 0.3069850206375122, + "learning_rate": 2.8052083333333335e-05, + "loss": 0.0102, + "step": 4218 + }, + { + "epoch": 8.791666666666666, + "grad_norm": 0.7507594227790833, + "learning_rate": 2.8041666666666666e-05, + "loss": 0.0183, + "step": 4220 + }, + { + "epoch": 8.795833333333333, + "grad_norm": 0.4666993021965027, + "learning_rate": 2.8031250000000004e-05, + "loss": 0.0146, + "step": 4222 + }, + { + "epoch": 8.8, + "grad_norm": 0.21256017684936523, + "learning_rate": 2.8020833333333335e-05, + "loss": 0.0089, + "step": 4224 + }, + { + "epoch": 8.804166666666667, + "grad_norm": 0.6252911686897278, + "learning_rate": 2.8010416666666665e-05, + "loss": 0.0147, + "step": 4226 + }, + { + "epoch": 8.808333333333334, + "grad_norm": 0.9426029920578003, + "learning_rate": 2.8000000000000003e-05, + "loss": 0.0229, + "step": 4228 + }, + { + "epoch": 8.8125, + "grad_norm": 1.0840859413146973, + "learning_rate": 2.7989583333333337e-05, + "loss": 0.0207, + "step": 4230 + }, + { + "epoch": 8.816666666666666, + "grad_norm": 0.3472805321216583, + "learning_rate": 2.7979166666666668e-05, + "loss": 0.0208, + "step": 4232 + }, + { + "epoch": 8.820833333333333, + "grad_norm": 0.8794019222259521, + "learning_rate": 2.796875e-05, + "loss": 0.0183, + "step": 4234 + }, + { + "epoch": 8.825, + "grad_norm": 0.6341427564620972, + "learning_rate": 2.7958333333333336e-05, + "loss": 0.0244, + "step": 4236 + }, + { + "epoch": 8.829166666666667, + "grad_norm": 0.6425473093986511, + "learning_rate": 2.7947916666666667e-05, + "loss": 0.0168, + "step": 4238 + }, + { + "epoch": 8.833333333333334, + "grad_norm": 0.4414823055267334, + "learning_rate": 2.79375e-05, + "loss": 0.0148, + "step": 4240 + }, + { + "epoch": 8.8375, + "grad_norm": 2.982576370239258, + "learning_rate": 2.7927083333333336e-05, + "loss": 0.0209, + "step": 4242 + }, + { + "epoch": 8.841666666666667, + "grad_norm": 0.35279497504234314, + "learning_rate": 2.791666666666667e-05, + "loss": 0.0098, + "step": 4244 + }, + { + "epoch": 8.845833333333333, + "grad_norm": 0.26234152913093567, + "learning_rate": 2.790625e-05, + "loss": 0.0106, + "step": 4246 + }, + { + "epoch": 8.85, + "grad_norm": 0.5224462747573853, + "learning_rate": 2.789583333333333e-05, + "loss": 0.021, + "step": 4248 + }, + { + "epoch": 8.854166666666666, + "grad_norm": 0.4828319847583771, + "learning_rate": 2.788541666666667e-05, + "loss": 0.02, + "step": 4250 + }, + { + "epoch": 8.858333333333333, + "grad_norm": 0.38257676362991333, + "learning_rate": 2.7875e-05, + "loss": 0.0151, + "step": 4252 + }, + { + "epoch": 8.8625, + "grad_norm": 0.6863691210746765, + "learning_rate": 2.7864583333333334e-05, + "loss": 0.0162, + "step": 4254 + }, + { + "epoch": 8.866666666666667, + "grad_norm": 0.38774845004081726, + "learning_rate": 2.7854166666666672e-05, + "loss": 0.013, + "step": 4256 + }, + { + "epoch": 8.870833333333334, + "grad_norm": 0.44967684149742126, + "learning_rate": 2.7843750000000003e-05, + "loss": 0.0148, + "step": 4258 + }, + { + "epoch": 8.875, + "grad_norm": 58.307029724121094, + "learning_rate": 2.7833333333333333e-05, + "loss": 0.0156, + "step": 4260 + }, + { + "epoch": 8.879166666666666, + "grad_norm": 0.37494519352912903, + "learning_rate": 2.782291666666667e-05, + "loss": 0.0162, + "step": 4262 + }, + { + "epoch": 8.883333333333333, + "grad_norm": 0.47961556911468506, + "learning_rate": 2.7812500000000002e-05, + "loss": 0.014, + "step": 4264 + }, + { + "epoch": 8.8875, + "grad_norm": 0.5847838521003723, + "learning_rate": 2.7802083333333333e-05, + "loss": 0.0203, + "step": 4266 + }, + { + "epoch": 8.891666666666667, + "grad_norm": 0.4575504958629608, + "learning_rate": 2.7791666666666667e-05, + "loss": 0.0143, + "step": 4268 + }, + { + "epoch": 8.895833333333334, + "grad_norm": 0.3176538050174713, + "learning_rate": 2.7781250000000004e-05, + "loss": 0.012, + "step": 4270 + }, + { + "epoch": 8.9, + "grad_norm": 0.4705054759979248, + "learning_rate": 2.7770833333333335e-05, + "loss": 0.0123, + "step": 4272 + }, + { + "epoch": 8.904166666666667, + "grad_norm": 0.951871395111084, + "learning_rate": 2.7760416666666666e-05, + "loss": 0.0193, + "step": 4274 + }, + { + "epoch": 8.908333333333333, + "grad_norm": 0.377753883600235, + "learning_rate": 2.7750000000000004e-05, + "loss": 0.0118, + "step": 4276 + }, + { + "epoch": 8.9125, + "grad_norm": 0.3159986436367035, + "learning_rate": 2.7739583333333334e-05, + "loss": 0.0196, + "step": 4278 + }, + { + "epoch": 8.916666666666666, + "grad_norm": 0.639850914478302, + "learning_rate": 2.772916666666667e-05, + "loss": 0.0164, + "step": 4280 + }, + { + "epoch": 8.920833333333333, + "grad_norm": 0.4299062490463257, + "learning_rate": 2.771875e-05, + "loss": 0.0112, + "step": 4282 + }, + { + "epoch": 8.925, + "grad_norm": 0.9533118009567261, + "learning_rate": 2.7708333333333337e-05, + "loss": 0.0177, + "step": 4284 + }, + { + "epoch": 8.929166666666667, + "grad_norm": 0.2058912068605423, + "learning_rate": 2.7697916666666668e-05, + "loss": 0.0272, + "step": 4286 + }, + { + "epoch": 8.933333333333334, + "grad_norm": 0.6482354998588562, + "learning_rate": 2.76875e-05, + "loss": 0.0126, + "step": 4288 + }, + { + "epoch": 8.9375, + "grad_norm": 0.42187803983688354, + "learning_rate": 2.7677083333333336e-05, + "loss": 0.0125, + "step": 4290 + }, + { + "epoch": 8.941666666666666, + "grad_norm": 0.5448387861251831, + "learning_rate": 2.7666666666666667e-05, + "loss": 0.0118, + "step": 4292 + }, + { + "epoch": 8.945833333333333, + "grad_norm": 0.5624627470970154, + "learning_rate": 2.765625e-05, + "loss": 0.0172, + "step": 4294 + }, + { + "epoch": 8.95, + "grad_norm": 0.342435747385025, + "learning_rate": 2.7645833333333332e-05, + "loss": 0.0129, + "step": 4296 + }, + { + "epoch": 8.954166666666667, + "grad_norm": 0.34872812032699585, + "learning_rate": 2.763541666666667e-05, + "loss": 0.0142, + "step": 4298 + }, + { + "epoch": 8.958333333333334, + "grad_norm": 0.2870488464832306, + "learning_rate": 2.7625e-05, + "loss": 0.0084, + "step": 4300 + }, + { + "epoch": 8.9625, + "grad_norm": 0.4289344847202301, + "learning_rate": 2.761458333333333e-05, + "loss": 0.0148, + "step": 4302 + }, + { + "epoch": 8.966666666666667, + "grad_norm": 1.598763108253479, + "learning_rate": 2.760416666666667e-05, + "loss": 0.0162, + "step": 4304 + }, + { + "epoch": 8.970833333333333, + "grad_norm": 0.503821074962616, + "learning_rate": 2.759375e-05, + "loss": 0.0136, + "step": 4306 + }, + { + "epoch": 8.975, + "grad_norm": 0.5778366327285767, + "learning_rate": 2.7583333333333334e-05, + "loss": 0.0124, + "step": 4308 + }, + { + "epoch": 8.979166666666666, + "grad_norm": 0.4293874204158783, + "learning_rate": 2.757291666666667e-05, + "loss": 0.0176, + "step": 4310 + }, + { + "epoch": 8.983333333333333, + "grad_norm": 0.39094504714012146, + "learning_rate": 2.7562500000000002e-05, + "loss": 0.0125, + "step": 4312 + }, + { + "epoch": 8.9875, + "grad_norm": 0.6024280786514282, + "learning_rate": 2.7552083333333333e-05, + "loss": 0.014, + "step": 4314 + }, + { + "epoch": 8.991666666666667, + "grad_norm": 0.28209710121154785, + "learning_rate": 2.7541666666666664e-05, + "loss": 0.0101, + "step": 4316 + }, + { + "epoch": 8.995833333333334, + "grad_norm": 0.3500489890575409, + "learning_rate": 2.7531250000000002e-05, + "loss": 0.0113, + "step": 4318 + }, + { + "epoch": 9.0, + "grad_norm": 0.32692745327949524, + "learning_rate": 2.7520833333333336e-05, + "loss": 0.018, + "step": 4320 + }, + { + "epoch": 9.004166666666666, + "grad_norm": 0.40759170055389404, + "learning_rate": 2.7510416666666667e-05, + "loss": 0.016, + "step": 4322 + }, + { + "epoch": 9.008333333333333, + "grad_norm": 0.2701570391654968, + "learning_rate": 2.7500000000000004e-05, + "loss": 0.0092, + "step": 4324 + }, + { + "epoch": 9.0125, + "grad_norm": 0.2882181704044342, + "learning_rate": 2.7489583333333335e-05, + "loss": 0.0163, + "step": 4326 + }, + { + "epoch": 9.016666666666667, + "grad_norm": 0.18967121839523315, + "learning_rate": 2.7479166666666666e-05, + "loss": 0.0099, + "step": 4328 + }, + { + "epoch": 9.020833333333334, + "grad_norm": 0.3310891091823578, + "learning_rate": 2.746875e-05, + "loss": 0.011, + "step": 4330 + }, + { + "epoch": 9.025, + "grad_norm": 0.6123878359794617, + "learning_rate": 2.7458333333333334e-05, + "loss": 0.0105, + "step": 4332 + }, + { + "epoch": 9.029166666666667, + "grad_norm": 0.3145969808101654, + "learning_rate": 2.744791666666667e-05, + "loss": 0.0174, + "step": 4334 + }, + { + "epoch": 9.033333333333333, + "grad_norm": 0.1749265342950821, + "learning_rate": 2.74375e-05, + "loss": 0.0113, + "step": 4336 + }, + { + "epoch": 9.0375, + "grad_norm": 0.25173601508140564, + "learning_rate": 2.7427083333333337e-05, + "loss": 0.0106, + "step": 4338 + }, + { + "epoch": 9.041666666666666, + "grad_norm": 0.4790075719356537, + "learning_rate": 2.7416666666666668e-05, + "loss": 0.0093, + "step": 4340 + }, + { + "epoch": 9.045833333333333, + "grad_norm": 0.1874348372220993, + "learning_rate": 2.740625e-05, + "loss": 0.0084, + "step": 4342 + }, + { + "epoch": 9.05, + "grad_norm": 0.291998028755188, + "learning_rate": 2.7395833333333336e-05, + "loss": 0.0113, + "step": 4344 + }, + { + "epoch": 9.054166666666667, + "grad_norm": 0.3195537328720093, + "learning_rate": 2.738541666666667e-05, + "loss": 0.0113, + "step": 4346 + }, + { + "epoch": 9.058333333333334, + "grad_norm": 0.18078748881816864, + "learning_rate": 2.7375e-05, + "loss": 0.0084, + "step": 4348 + }, + { + "epoch": 9.0625, + "grad_norm": 0.5013593435287476, + "learning_rate": 2.7364583333333332e-05, + "loss": 0.0158, + "step": 4350 + }, + { + "epoch": 9.066666666666666, + "grad_norm": 0.21272271871566772, + "learning_rate": 2.735416666666667e-05, + "loss": 0.0129, + "step": 4352 + }, + { + "epoch": 9.070833333333333, + "grad_norm": 0.8948862552642822, + "learning_rate": 2.734375e-05, + "loss": 0.0107, + "step": 4354 + }, + { + "epoch": 9.075, + "grad_norm": 0.6495965123176575, + "learning_rate": 2.733333333333333e-05, + "loss": 0.0144, + "step": 4356 + }, + { + "epoch": 9.079166666666667, + "grad_norm": 0.38067251443862915, + "learning_rate": 2.732291666666667e-05, + "loss": 0.0069, + "step": 4358 + }, + { + "epoch": 9.083333333333334, + "grad_norm": 0.22481678426265717, + "learning_rate": 2.7312500000000003e-05, + "loss": 0.0102, + "step": 4360 + }, + { + "epoch": 9.0875, + "grad_norm": 0.17471058666706085, + "learning_rate": 2.7302083333333334e-05, + "loss": 0.0077, + "step": 4362 + }, + { + "epoch": 9.091666666666667, + "grad_norm": 0.17471936345100403, + "learning_rate": 2.7291666666666665e-05, + "loss": 0.0081, + "step": 4364 + }, + { + "epoch": 9.095833333333333, + "grad_norm": 1.3758766651153564, + "learning_rate": 2.7281250000000002e-05, + "loss": 0.006, + "step": 4366 + }, + { + "epoch": 9.1, + "grad_norm": 0.23094457387924194, + "learning_rate": 2.7270833333333333e-05, + "loss": 0.0071, + "step": 4368 + }, + { + "epoch": 9.104166666666666, + "grad_norm": 0.1397314816713333, + "learning_rate": 2.7260416666666667e-05, + "loss": 0.0055, + "step": 4370 + }, + { + "epoch": 9.108333333333333, + "grad_norm": 0.27163127064704895, + "learning_rate": 2.725e-05, + "loss": 0.0083, + "step": 4372 + }, + { + "epoch": 9.1125, + "grad_norm": 0.3834036588668823, + "learning_rate": 2.7239583333333336e-05, + "loss": 0.0095, + "step": 4374 + }, + { + "epoch": 9.116666666666667, + "grad_norm": 0.3974300026893616, + "learning_rate": 2.7229166666666667e-05, + "loss": 0.0143, + "step": 4376 + }, + { + "epoch": 9.120833333333334, + "grad_norm": 0.1296340823173523, + "learning_rate": 2.7218750000000004e-05, + "loss": 0.009, + "step": 4378 + }, + { + "epoch": 9.125, + "grad_norm": 0.2940031588077545, + "learning_rate": 2.7208333333333335e-05, + "loss": 0.0096, + "step": 4380 + }, + { + "epoch": 9.129166666666666, + "grad_norm": 1.136421799659729, + "learning_rate": 2.7197916666666666e-05, + "loss": 0.0212, + "step": 4382 + }, + { + "epoch": 9.133333333333333, + "grad_norm": 0.21640455722808838, + "learning_rate": 2.71875e-05, + "loss": 0.0061, + "step": 4384 + }, + { + "epoch": 9.1375, + "grad_norm": 0.35760968923568726, + "learning_rate": 2.7177083333333338e-05, + "loss": 0.009, + "step": 4386 + }, + { + "epoch": 9.141666666666667, + "grad_norm": 0.46215054392814636, + "learning_rate": 2.716666666666667e-05, + "loss": 0.0322, + "step": 4388 + }, + { + "epoch": 9.145833333333334, + "grad_norm": 0.22770412266254425, + "learning_rate": 2.715625e-05, + "loss": 0.0071, + "step": 4390 + }, + { + "epoch": 9.15, + "grad_norm": 0.3352470397949219, + "learning_rate": 2.7145833333333337e-05, + "loss": 0.007, + "step": 4392 + }, + { + "epoch": 9.154166666666667, + "grad_norm": 0.37598565220832825, + "learning_rate": 2.7135416666666668e-05, + "loss": 0.007, + "step": 4394 + }, + { + "epoch": 9.158333333333333, + "grad_norm": 0.40223076939582825, + "learning_rate": 2.7125000000000002e-05, + "loss": 0.0096, + "step": 4396 + }, + { + "epoch": 9.1625, + "grad_norm": 0.6792668104171753, + "learning_rate": 2.7114583333333333e-05, + "loss": 0.0109, + "step": 4398 + }, + { + "epoch": 9.166666666666666, + "grad_norm": 0.2983770966529846, + "learning_rate": 2.710416666666667e-05, + "loss": 0.0102, + "step": 4400 + }, + { + "epoch": 9.166666666666666, + "eval_cer": 0.06305530875166593, + "eval_loss": 0.4057413339614868, + "eval_runtime": 74.9172, + "eval_samples_per_second": 5.259, + "eval_steps_per_second": 0.667, + "step": 4400 + }, + { + "epoch": 9.170833333333333, + "grad_norm": 0.3555755019187927, + "learning_rate": 2.709375e-05, + "loss": 0.0164, + "step": 4402 + }, + { + "epoch": 9.175, + "grad_norm": 0.27869948744773865, + "learning_rate": 2.7083333333333332e-05, + "loss": 0.0106, + "step": 4404 + }, + { + "epoch": 9.179166666666667, + "grad_norm": 0.22208087146282196, + "learning_rate": 2.707291666666667e-05, + "loss": 0.0097, + "step": 4406 + }, + { + "epoch": 9.183333333333334, + "grad_norm": 0.26937270164489746, + "learning_rate": 2.70625e-05, + "loss": 0.0102, + "step": 4408 + }, + { + "epoch": 9.1875, + "grad_norm": 0.2829457223415375, + "learning_rate": 2.7052083333333335e-05, + "loss": 0.0137, + "step": 4410 + }, + { + "epoch": 9.191666666666666, + "grad_norm": 0.7225059270858765, + "learning_rate": 2.7041666666666672e-05, + "loss": 0.0126, + "step": 4412 + }, + { + "epoch": 9.195833333333333, + "grad_norm": 0.5399202704429626, + "learning_rate": 2.7031250000000003e-05, + "loss": 0.0139, + "step": 4414 + }, + { + "epoch": 9.2, + "grad_norm": 0.30423328280448914, + "learning_rate": 2.7020833333333334e-05, + "loss": 0.0094, + "step": 4416 + }, + { + "epoch": 9.204166666666667, + "grad_norm": 0.26801782846450806, + "learning_rate": 2.7010416666666665e-05, + "loss": 0.0098, + "step": 4418 + }, + { + "epoch": 9.208333333333334, + "grad_norm": 0.4822676479816437, + "learning_rate": 2.7000000000000002e-05, + "loss": 0.0106, + "step": 4420 + }, + { + "epoch": 9.2125, + "grad_norm": 0.2353227734565735, + "learning_rate": 2.6989583333333333e-05, + "loss": 0.0094, + "step": 4422 + }, + { + "epoch": 9.216666666666667, + "grad_norm": 0.7153640985488892, + "learning_rate": 2.6979166666666667e-05, + "loss": 0.012, + "step": 4424 + }, + { + "epoch": 9.220833333333333, + "grad_norm": 0.25740593671798706, + "learning_rate": 2.6968750000000005e-05, + "loss": 0.0088, + "step": 4426 + }, + { + "epoch": 9.225, + "grad_norm": 0.1916179209947586, + "learning_rate": 2.6958333333333336e-05, + "loss": 0.0087, + "step": 4428 + }, + { + "epoch": 9.229166666666666, + "grad_norm": 0.37508469820022583, + "learning_rate": 2.6947916666666667e-05, + "loss": 0.0099, + "step": 4430 + }, + { + "epoch": 9.233333333333333, + "grad_norm": 0.5456496477127075, + "learning_rate": 2.6937499999999997e-05, + "loss": 0.0097, + "step": 4432 + }, + { + "epoch": 9.2375, + "grad_norm": 0.22547341883182526, + "learning_rate": 2.6927083333333335e-05, + "loss": 0.0076, + "step": 4434 + }, + { + "epoch": 9.241666666666667, + "grad_norm": 0.3707039952278137, + "learning_rate": 2.691666666666667e-05, + "loss": 0.0093, + "step": 4436 + }, + { + "epoch": 9.245833333333334, + "grad_norm": 0.30521926283836365, + "learning_rate": 2.690625e-05, + "loss": 0.0072, + "step": 4438 + }, + { + "epoch": 9.25, + "grad_norm": 0.3909650444984436, + "learning_rate": 2.6895833333333338e-05, + "loss": 0.0072, + "step": 4440 + }, + { + "epoch": 9.254166666666666, + "grad_norm": 0.38955241441726685, + "learning_rate": 2.688541666666667e-05, + "loss": 0.0107, + "step": 4442 + }, + { + "epoch": 9.258333333333333, + "grad_norm": 0.5742318630218506, + "learning_rate": 2.6875e-05, + "loss": 0.0144, + "step": 4444 + }, + { + "epoch": 9.2625, + "grad_norm": 4.196695804595947, + "learning_rate": 2.6864583333333334e-05, + "loss": 0.0056, + "step": 4446 + }, + { + "epoch": 9.266666666666667, + "grad_norm": 0.626541793346405, + "learning_rate": 2.6854166666666668e-05, + "loss": 0.0069, + "step": 4448 + }, + { + "epoch": 9.270833333333334, + "grad_norm": 0.21688173711299896, + "learning_rate": 2.6843750000000002e-05, + "loss": 0.0074, + "step": 4450 + }, + { + "epoch": 9.275, + "grad_norm": 0.851498544216156, + "learning_rate": 2.6833333333333333e-05, + "loss": 0.0168, + "step": 4452 + }, + { + "epoch": 9.279166666666667, + "grad_norm": 0.5670156478881836, + "learning_rate": 2.682291666666667e-05, + "loss": 0.0157, + "step": 4454 + }, + { + "epoch": 9.283333333333333, + "grad_norm": 0.14587971568107605, + "learning_rate": 2.68125e-05, + "loss": 0.0098, + "step": 4456 + }, + { + "epoch": 9.2875, + "grad_norm": 0.17005108296871185, + "learning_rate": 2.6802083333333332e-05, + "loss": 0.0081, + "step": 4458 + }, + { + "epoch": 9.291666666666666, + "grad_norm": 0.14582057297229767, + "learning_rate": 2.679166666666667e-05, + "loss": 0.0076, + "step": 4460 + }, + { + "epoch": 9.295833333333333, + "grad_norm": 0.21168170869350433, + "learning_rate": 2.6781250000000004e-05, + "loss": 0.014, + "step": 4462 + }, + { + "epoch": 9.3, + "grad_norm": 0.351053386926651, + "learning_rate": 2.6770833333333335e-05, + "loss": 0.009, + "step": 4464 + }, + { + "epoch": 9.304166666666667, + "grad_norm": 0.12049897015094757, + "learning_rate": 2.6760416666666665e-05, + "loss": 0.007, + "step": 4466 + }, + { + "epoch": 9.308333333333334, + "grad_norm": 0.3802511990070343, + "learning_rate": 2.6750000000000003e-05, + "loss": 0.0099, + "step": 4468 + }, + { + "epoch": 9.3125, + "grad_norm": 0.3634055256843567, + "learning_rate": 2.6739583333333334e-05, + "loss": 0.0103, + "step": 4470 + }, + { + "epoch": 9.316666666666666, + "grad_norm": 0.4041815400123596, + "learning_rate": 2.6729166666666665e-05, + "loss": 0.0133, + "step": 4472 + }, + { + "epoch": 9.320833333333333, + "grad_norm": 0.24155522882938385, + "learning_rate": 2.6718750000000002e-05, + "loss": 0.0106, + "step": 4474 + }, + { + "epoch": 9.325, + "grad_norm": 0.19242151081562042, + "learning_rate": 2.6708333333333337e-05, + "loss": 0.0082, + "step": 4476 + }, + { + "epoch": 9.329166666666667, + "grad_norm": 0.5087029337882996, + "learning_rate": 2.6697916666666667e-05, + "loss": 0.0103, + "step": 4478 + }, + { + "epoch": 9.333333333333334, + "grad_norm": 0.17702554166316986, + "learning_rate": 2.6687499999999998e-05, + "loss": 0.0109, + "step": 4480 + }, + { + "epoch": 9.3375, + "grad_norm": 0.3687039613723755, + "learning_rate": 2.6677083333333336e-05, + "loss": 0.0139, + "step": 4482 + }, + { + "epoch": 9.341666666666667, + "grad_norm": 0.881631076335907, + "learning_rate": 2.6666666666666667e-05, + "loss": 0.0129, + "step": 4484 + }, + { + "epoch": 9.345833333333333, + "grad_norm": 0.4367585778236389, + "learning_rate": 2.665625e-05, + "loss": 0.0119, + "step": 4486 + }, + { + "epoch": 9.35, + "grad_norm": 0.11596323549747467, + "learning_rate": 2.6645833333333335e-05, + "loss": 0.0106, + "step": 4488 + }, + { + "epoch": 9.354166666666666, + "grad_norm": 0.5053444504737854, + "learning_rate": 2.663541666666667e-05, + "loss": 0.0217, + "step": 4490 + }, + { + "epoch": 9.358333333333333, + "grad_norm": 0.3087325394153595, + "learning_rate": 2.6625e-05, + "loss": 0.0106, + "step": 4492 + }, + { + "epoch": 9.3625, + "grad_norm": 0.48698803782463074, + "learning_rate": 2.6614583333333338e-05, + "loss": 0.0147, + "step": 4494 + }, + { + "epoch": 9.366666666666667, + "grad_norm": 0.3165411651134491, + "learning_rate": 2.660416666666667e-05, + "loss": 0.0181, + "step": 4496 + }, + { + "epoch": 9.370833333333334, + "grad_norm": 0.35673248767852783, + "learning_rate": 2.659375e-05, + "loss": 0.0112, + "step": 4498 + }, + { + "epoch": 9.375, + "grad_norm": 0.7503157258033752, + "learning_rate": 2.6583333333333333e-05, + "loss": 0.0104, + "step": 4500 + }, + { + "epoch": 9.379166666666666, + "grad_norm": 0.18833030760288239, + "learning_rate": 2.657291666666667e-05, + "loss": 0.009, + "step": 4502 + }, + { + "epoch": 9.383333333333333, + "grad_norm": 0.2613614797592163, + "learning_rate": 2.6562500000000002e-05, + "loss": 0.0091, + "step": 4504 + }, + { + "epoch": 9.3875, + "grad_norm": 0.32866108417510986, + "learning_rate": 2.6552083333333333e-05, + "loss": 0.0138, + "step": 4506 + }, + { + "epoch": 9.391666666666667, + "grad_norm": 0.24386462569236755, + "learning_rate": 2.654166666666667e-05, + "loss": 0.0065, + "step": 4508 + }, + { + "epoch": 9.395833333333334, + "grad_norm": 0.27272891998291016, + "learning_rate": 2.653125e-05, + "loss": 0.0125, + "step": 4510 + }, + { + "epoch": 9.4, + "grad_norm": 0.4629071354866028, + "learning_rate": 2.6520833333333332e-05, + "loss": 0.0129, + "step": 4512 + }, + { + "epoch": 9.404166666666667, + "grad_norm": 0.45568427443504333, + "learning_rate": 2.6510416666666666e-05, + "loss": 0.0114, + "step": 4514 + }, + { + "epoch": 9.408333333333333, + "grad_norm": 0.31041499972343445, + "learning_rate": 2.6500000000000004e-05, + "loss": 0.0081, + "step": 4516 + }, + { + "epoch": 9.4125, + "grad_norm": 0.3490058481693268, + "learning_rate": 2.6489583333333335e-05, + "loss": 0.0169, + "step": 4518 + }, + { + "epoch": 9.416666666666666, + "grad_norm": 0.5449517965316772, + "learning_rate": 2.6479166666666665e-05, + "loss": 0.0127, + "step": 4520 + }, + { + "epoch": 9.420833333333333, + "grad_norm": 0.6693189740180969, + "learning_rate": 2.6468750000000003e-05, + "loss": 0.0125, + "step": 4522 + }, + { + "epoch": 9.425, + "grad_norm": 0.14953383803367615, + "learning_rate": 2.6458333333333334e-05, + "loss": 0.0058, + "step": 4524 + }, + { + "epoch": 9.429166666666667, + "grad_norm": 0.4333786964416504, + "learning_rate": 2.6447916666666668e-05, + "loss": 0.0154, + "step": 4526 + }, + { + "epoch": 9.433333333333334, + "grad_norm": 0.5522569417953491, + "learning_rate": 2.6437500000000002e-05, + "loss": 0.0084, + "step": 4528 + }, + { + "epoch": 9.4375, + "grad_norm": 0.5336965918540955, + "learning_rate": 2.6427083333333336e-05, + "loss": 0.0124, + "step": 4530 + }, + { + "epoch": 9.441666666666666, + "grad_norm": 0.5881274938583374, + "learning_rate": 2.6416666666666667e-05, + "loss": 0.011, + "step": 4532 + }, + { + "epoch": 9.445833333333333, + "grad_norm": 0.30310213565826416, + "learning_rate": 2.6406249999999998e-05, + "loss": 0.0079, + "step": 4534 + }, + { + "epoch": 9.45, + "grad_norm": 0.4265073239803314, + "learning_rate": 2.6395833333333336e-05, + "loss": 0.014, + "step": 4536 + }, + { + "epoch": 9.454166666666667, + "grad_norm": 0.3428356945514679, + "learning_rate": 2.6385416666666667e-05, + "loss": 0.0115, + "step": 4538 + }, + { + "epoch": 9.458333333333334, + "grad_norm": 0.21454471349716187, + "learning_rate": 2.6375e-05, + "loss": 0.0068, + "step": 4540 + }, + { + "epoch": 9.4625, + "grad_norm": 0.4171712100505829, + "learning_rate": 2.636458333333334e-05, + "loss": 0.0168, + "step": 4542 + }, + { + "epoch": 9.466666666666667, + "grad_norm": 0.29660817980766296, + "learning_rate": 2.635416666666667e-05, + "loss": 0.0074, + "step": 4544 + }, + { + "epoch": 9.470833333333333, + "grad_norm": 0.2432163953781128, + "learning_rate": 2.634375e-05, + "loss": 0.0091, + "step": 4546 + }, + { + "epoch": 9.475, + "grad_norm": 0.1890026479959488, + "learning_rate": 2.633333333333333e-05, + "loss": 0.0093, + "step": 4548 + }, + { + "epoch": 9.479166666666666, + "grad_norm": 0.3172338604927063, + "learning_rate": 2.632291666666667e-05, + "loss": 0.0113, + "step": 4550 + }, + { + "epoch": 9.483333333333333, + "grad_norm": 0.45725902915000916, + "learning_rate": 2.6312500000000003e-05, + "loss": 0.0134, + "step": 4552 + }, + { + "epoch": 9.4875, + "grad_norm": 0.3064359724521637, + "learning_rate": 2.6302083333333333e-05, + "loss": 0.0081, + "step": 4554 + }, + { + "epoch": 9.491666666666667, + "grad_norm": 0.3462902903556824, + "learning_rate": 2.629166666666667e-05, + "loss": 0.011, + "step": 4556 + }, + { + "epoch": 9.495833333333334, + "grad_norm": 0.3663736879825592, + "learning_rate": 2.6281250000000002e-05, + "loss": 0.013, + "step": 4558 + }, + { + "epoch": 9.5, + "grad_norm": 0.2321634590625763, + "learning_rate": 2.6270833333333333e-05, + "loss": 0.008, + "step": 4560 + }, + { + "epoch": 9.504166666666666, + "grad_norm": 0.44426748156547546, + "learning_rate": 2.626041666666667e-05, + "loss": 0.0099, + "step": 4562 + }, + { + "epoch": 9.508333333333333, + "grad_norm": 0.3822654187679291, + "learning_rate": 2.625e-05, + "loss": 0.0099, + "step": 4564 + }, + { + "epoch": 9.5125, + "grad_norm": 0.4590202569961548, + "learning_rate": 2.6239583333333335e-05, + "loss": 0.0064, + "step": 4566 + }, + { + "epoch": 9.516666666666667, + "grad_norm": 0.675052285194397, + "learning_rate": 2.6229166666666666e-05, + "loss": 0.011, + "step": 4568 + }, + { + "epoch": 9.520833333333334, + "grad_norm": 0.7222317457199097, + "learning_rate": 2.6218750000000004e-05, + "loss": 0.0135, + "step": 4570 + }, + { + "epoch": 9.525, + "grad_norm": 0.3942587673664093, + "learning_rate": 2.6208333333333335e-05, + "loss": 0.0089, + "step": 4572 + }, + { + "epoch": 9.529166666666667, + "grad_norm": 0.4779583215713501, + "learning_rate": 2.6197916666666665e-05, + "loss": 0.0096, + "step": 4574 + }, + { + "epoch": 9.533333333333333, + "grad_norm": 0.32968831062316895, + "learning_rate": 2.6187500000000003e-05, + "loss": 0.0172, + "step": 4576 + }, + { + "epoch": 9.5375, + "grad_norm": 0.4434607923030853, + "learning_rate": 2.6177083333333334e-05, + "loss": 0.0175, + "step": 4578 + }, + { + "epoch": 9.541666666666666, + "grad_norm": 0.5086966156959534, + "learning_rate": 2.6166666666666668e-05, + "loss": 0.0085, + "step": 4580 + }, + { + "epoch": 9.545833333333333, + "grad_norm": 0.29410484433174133, + "learning_rate": 2.615625e-05, + "loss": 0.014, + "step": 4582 + }, + { + "epoch": 9.55, + "grad_norm": 1.0012773275375366, + "learning_rate": 2.6145833333333336e-05, + "loss": 0.0091, + "step": 4584 + }, + { + "epoch": 9.554166666666667, + "grad_norm": 0.42076748609542847, + "learning_rate": 2.6135416666666667e-05, + "loss": 0.0119, + "step": 4586 + }, + { + "epoch": 9.558333333333334, + "grad_norm": 0.3724452257156372, + "learning_rate": 2.6124999999999998e-05, + "loss": 0.0094, + "step": 4588 + }, + { + "epoch": 9.5625, + "grad_norm": 0.7021219730377197, + "learning_rate": 2.6114583333333336e-05, + "loss": 0.0116, + "step": 4590 + }, + { + "epoch": 9.566666666666666, + "grad_norm": 0.3422073423862457, + "learning_rate": 2.610416666666667e-05, + "loss": 0.0083, + "step": 4592 + }, + { + "epoch": 9.570833333333333, + "grad_norm": 1.527311086654663, + "learning_rate": 2.609375e-05, + "loss": 0.0107, + "step": 4594 + }, + { + "epoch": 9.575, + "grad_norm": 0.15996946394443512, + "learning_rate": 2.608333333333333e-05, + "loss": 0.0075, + "step": 4596 + }, + { + "epoch": 9.579166666666667, + "grad_norm": 0.3844979703426361, + "learning_rate": 2.607291666666667e-05, + "loss": 0.0169, + "step": 4598 + }, + { + "epoch": 9.583333333333334, + "grad_norm": 0.4143499732017517, + "learning_rate": 2.60625e-05, + "loss": 0.0142, + "step": 4600 + }, + { + "epoch": 9.583333333333334, + "eval_cer": 0.06227787649933363, + "eval_loss": 0.40832847356796265, + "eval_runtime": 75.1635, + "eval_samples_per_second": 5.242, + "eval_steps_per_second": 0.665, + "step": 4600 + }, + { + "epoch": 9.5875, + "grad_norm": 0.2763945758342743, + "learning_rate": 2.6052083333333334e-05, + "loss": 0.0146, + "step": 4602 + }, + { + "epoch": 9.591666666666667, + "grad_norm": 0.36239033937454224, + "learning_rate": 2.604166666666667e-05, + "loss": 0.0087, + "step": 4604 + }, + { + "epoch": 9.595833333333333, + "grad_norm": 1.422104001045227, + "learning_rate": 2.6031250000000003e-05, + "loss": 0.0125, + "step": 4606 + }, + { + "epoch": 9.6, + "grad_norm": 3.7175467014312744, + "learning_rate": 2.6020833333333333e-05, + "loss": 0.0115, + "step": 4608 + }, + { + "epoch": 9.604166666666666, + "grad_norm": 1.1317163705825806, + "learning_rate": 2.601041666666667e-05, + "loss": 0.0083, + "step": 4610 + }, + { + "epoch": 9.608333333333333, + "grad_norm": 0.37575122714042664, + "learning_rate": 2.6000000000000002e-05, + "loss": 0.0102, + "step": 4612 + }, + { + "epoch": 9.6125, + "grad_norm": 0.40528225898742676, + "learning_rate": 2.5989583333333333e-05, + "loss": 0.0101, + "step": 4614 + }, + { + "epoch": 9.616666666666667, + "grad_norm": 0.387807160615921, + "learning_rate": 2.5979166666666667e-05, + "loss": 0.0093, + "step": 4616 + }, + { + "epoch": 9.620833333333334, + "grad_norm": 0.3230188190937042, + "learning_rate": 2.5968750000000004e-05, + "loss": 0.0152, + "step": 4618 + }, + { + "epoch": 9.625, + "grad_norm": 0.6694038510322571, + "learning_rate": 2.5958333333333335e-05, + "loss": 0.0169, + "step": 4620 + }, + { + "epoch": 9.629166666666666, + "grad_norm": 4.312170028686523, + "learning_rate": 2.5947916666666666e-05, + "loss": 0.0125, + "step": 4622 + }, + { + "epoch": 9.633333333333333, + "grad_norm": 0.22892257571220398, + "learning_rate": 2.5937500000000004e-05, + "loss": 0.0088, + "step": 4624 + }, + { + "epoch": 9.6375, + "grad_norm": 0.3249031901359558, + "learning_rate": 2.5927083333333334e-05, + "loss": 0.0115, + "step": 4626 + }, + { + "epoch": 9.641666666666667, + "grad_norm": 0.5639196634292603, + "learning_rate": 2.5916666666666665e-05, + "loss": 0.0152, + "step": 4628 + }, + { + "epoch": 9.645833333333334, + "grad_norm": 0.33614975214004517, + "learning_rate": 2.590625e-05, + "loss": 0.0209, + "step": 4630 + }, + { + "epoch": 9.65, + "grad_norm": 0.46225208044052124, + "learning_rate": 2.5895833333333337e-05, + "loss": 0.0124, + "step": 4632 + }, + { + "epoch": 9.654166666666667, + "grad_norm": 0.533065676689148, + "learning_rate": 2.5885416666666668e-05, + "loss": 0.019, + "step": 4634 + }, + { + "epoch": 9.658333333333333, + "grad_norm": 0.32400238513946533, + "learning_rate": 2.5875e-05, + "loss": 0.0074, + "step": 4636 + }, + { + "epoch": 9.6625, + "grad_norm": 0.26623278856277466, + "learning_rate": 2.5864583333333336e-05, + "loss": 0.0069, + "step": 4638 + }, + { + "epoch": 9.666666666666666, + "grad_norm": 0.2737290561199188, + "learning_rate": 2.5854166666666667e-05, + "loss": 0.0107, + "step": 4640 + }, + { + "epoch": 9.670833333333333, + "grad_norm": 0.49844446778297424, + "learning_rate": 2.584375e-05, + "loss": 0.0169, + "step": 4642 + }, + { + "epoch": 9.675, + "grad_norm": 2.491852045059204, + "learning_rate": 2.5833333333333336e-05, + "loss": 0.0087, + "step": 4644 + }, + { + "epoch": 9.679166666666667, + "grad_norm": 0.48171597719192505, + "learning_rate": 2.582291666666667e-05, + "loss": 0.013, + "step": 4646 + }, + { + "epoch": 9.683333333333334, + "grad_norm": 0.17571528255939484, + "learning_rate": 2.58125e-05, + "loss": 0.0102, + "step": 4648 + }, + { + "epoch": 9.6875, + "grad_norm": 0.22349873185157776, + "learning_rate": 2.580208333333333e-05, + "loss": 0.0083, + "step": 4650 + }, + { + "epoch": 9.691666666666666, + "grad_norm": 1.8985280990600586, + "learning_rate": 2.579166666666667e-05, + "loss": 0.0093, + "step": 4652 + }, + { + "epoch": 9.695833333333333, + "grad_norm": 0.2500165104866028, + "learning_rate": 2.578125e-05, + "loss": 0.006, + "step": 4654 + }, + { + "epoch": 9.7, + "grad_norm": 0.19520343840122223, + "learning_rate": 2.5770833333333334e-05, + "loss": 0.0069, + "step": 4656 + }, + { + "epoch": 9.704166666666667, + "grad_norm": 0.3938866853713989, + "learning_rate": 2.576041666666667e-05, + "loss": 0.0088, + "step": 4658 + }, + { + "epoch": 9.708333333333334, + "grad_norm": 0.3333202004432678, + "learning_rate": 2.5750000000000002e-05, + "loss": 0.0139, + "step": 4660 + }, + { + "epoch": 9.7125, + "grad_norm": 0.5411664247512817, + "learning_rate": 2.5739583333333333e-05, + "loss": 0.0154, + "step": 4662 + }, + { + "epoch": 9.716666666666667, + "grad_norm": 0.5589495897293091, + "learning_rate": 2.5729166666666664e-05, + "loss": 0.0215, + "step": 4664 + }, + { + "epoch": 9.720833333333333, + "grad_norm": 0.23344814777374268, + "learning_rate": 2.5718750000000002e-05, + "loss": 0.0254, + "step": 4666 + }, + { + "epoch": 9.725, + "grad_norm": 0.24237465858459473, + "learning_rate": 2.5708333333333336e-05, + "loss": 0.0076, + "step": 4668 + }, + { + "epoch": 9.729166666666666, + "grad_norm": 0.19256238639354706, + "learning_rate": 2.5697916666666667e-05, + "loss": 0.0102, + "step": 4670 + }, + { + "epoch": 9.733333333333333, + "grad_norm": 0.35368767380714417, + "learning_rate": 2.5687500000000004e-05, + "loss": 0.0088, + "step": 4672 + }, + { + "epoch": 9.7375, + "grad_norm": 0.7057898044586182, + "learning_rate": 2.5677083333333335e-05, + "loss": 0.0142, + "step": 4674 + }, + { + "epoch": 9.741666666666667, + "grad_norm": 0.2973633408546448, + "learning_rate": 2.5666666666666666e-05, + "loss": 0.0066, + "step": 4676 + }, + { + "epoch": 9.745833333333334, + "grad_norm": 0.23923951387405396, + "learning_rate": 2.5656250000000004e-05, + "loss": 0.0094, + "step": 4678 + }, + { + "epoch": 9.75, + "grad_norm": 0.2951619029045105, + "learning_rate": 2.5645833333333334e-05, + "loss": 0.013, + "step": 4680 + }, + { + "epoch": 9.754166666666666, + "grad_norm": 0.22934545576572418, + "learning_rate": 2.563541666666667e-05, + "loss": 0.0162, + "step": 4682 + }, + { + "epoch": 9.758333333333333, + "grad_norm": 0.8472704887390137, + "learning_rate": 2.5625e-05, + "loss": 0.0231, + "step": 4684 + }, + { + "epoch": 9.7625, + "grad_norm": 0.38351795077323914, + "learning_rate": 2.5614583333333337e-05, + "loss": 0.0083, + "step": 4686 + }, + { + "epoch": 9.766666666666667, + "grad_norm": 0.36485838890075684, + "learning_rate": 2.5604166666666668e-05, + "loss": 0.013, + "step": 4688 + }, + { + "epoch": 9.770833333333334, + "grad_norm": 0.3856580853462219, + "learning_rate": 2.559375e-05, + "loss": 0.0185, + "step": 4690 + }, + { + "epoch": 9.775, + "grad_norm": 0.49694499373435974, + "learning_rate": 2.5583333333333336e-05, + "loss": 0.016, + "step": 4692 + }, + { + "epoch": 9.779166666666667, + "grad_norm": 0.5915955901145935, + "learning_rate": 2.5572916666666667e-05, + "loss": 0.0081, + "step": 4694 + }, + { + "epoch": 9.783333333333333, + "grad_norm": 0.33123597502708435, + "learning_rate": 2.55625e-05, + "loss": 0.0097, + "step": 4696 + }, + { + "epoch": 9.7875, + "grad_norm": 0.5623692870140076, + "learning_rate": 2.5552083333333332e-05, + "loss": 0.0131, + "step": 4698 + }, + { + "epoch": 9.791666666666666, + "grad_norm": 0.4370589852333069, + "learning_rate": 2.554166666666667e-05, + "loss": 0.0238, + "step": 4700 + }, + { + "epoch": 9.795833333333333, + "grad_norm": 0.41093727946281433, + "learning_rate": 2.553125e-05, + "loss": 0.0093, + "step": 4702 + }, + { + "epoch": 9.8, + "grad_norm": 0.18954001367092133, + "learning_rate": 2.552083333333333e-05, + "loss": 0.0093, + "step": 4704 + }, + { + "epoch": 9.804166666666667, + "grad_norm": 0.16596989333629608, + "learning_rate": 2.551041666666667e-05, + "loss": 0.0068, + "step": 4706 + }, + { + "epoch": 9.808333333333334, + "grad_norm": 0.5705111622810364, + "learning_rate": 2.5500000000000003e-05, + "loss": 0.0228, + "step": 4708 + }, + { + "epoch": 9.8125, + "grad_norm": 0.29127103090286255, + "learning_rate": 2.5489583333333334e-05, + "loss": 0.0121, + "step": 4710 + }, + { + "epoch": 9.816666666666666, + "grad_norm": 0.35396087169647217, + "learning_rate": 2.547916666666667e-05, + "loss": 0.0134, + "step": 4712 + }, + { + "epoch": 9.820833333333333, + "grad_norm": 0.21778187155723572, + "learning_rate": 2.5468750000000002e-05, + "loss": 0.0078, + "step": 4714 + }, + { + "epoch": 9.825, + "grad_norm": 0.4489501118659973, + "learning_rate": 2.5458333333333333e-05, + "loss": 0.011, + "step": 4716 + }, + { + "epoch": 9.829166666666667, + "grad_norm": 0.33582979440689087, + "learning_rate": 2.5447916666666664e-05, + "loss": 0.0093, + "step": 4718 + }, + { + "epoch": 9.833333333333334, + "grad_norm": 0.8122135400772095, + "learning_rate": 2.54375e-05, + "loss": 0.0102, + "step": 4720 + }, + { + "epoch": 9.8375, + "grad_norm": 0.27797621488571167, + "learning_rate": 2.5427083333333336e-05, + "loss": 0.0082, + "step": 4722 + }, + { + "epoch": 9.841666666666667, + "grad_norm": 0.45591825246810913, + "learning_rate": 2.5416666666666667e-05, + "loss": 0.0107, + "step": 4724 + }, + { + "epoch": 9.845833333333333, + "grad_norm": 1.0272306203842163, + "learning_rate": 2.5406250000000004e-05, + "loss": 0.0132, + "step": 4726 + }, + { + "epoch": 9.85, + "grad_norm": 0.2875833511352539, + "learning_rate": 2.5395833333333335e-05, + "loss": 0.0102, + "step": 4728 + }, + { + "epoch": 9.854166666666666, + "grad_norm": 2.306283950805664, + "learning_rate": 2.5385416666666666e-05, + "loss": 0.0204, + "step": 4730 + }, + { + "epoch": 9.858333333333333, + "grad_norm": 0.20234403014183044, + "learning_rate": 2.5375e-05, + "loss": 0.0059, + "step": 4732 + }, + { + "epoch": 9.8625, + "grad_norm": 0.28155606985092163, + "learning_rate": 2.5364583333333334e-05, + "loss": 0.0124, + "step": 4734 + }, + { + "epoch": 9.866666666666667, + "grad_norm": 0.38022491335868835, + "learning_rate": 2.535416666666667e-05, + "loss": 0.0112, + "step": 4736 + }, + { + "epoch": 9.870833333333334, + "grad_norm": 0.35205739736557007, + "learning_rate": 2.534375e-05, + "loss": 0.0132, + "step": 4738 + }, + { + "epoch": 9.875, + "grad_norm": 0.3886565864086151, + "learning_rate": 2.5333333333333337e-05, + "loss": 0.012, + "step": 4740 + }, + { + "epoch": 9.879166666666666, + "grad_norm": 0.36749890446662903, + "learning_rate": 2.5322916666666668e-05, + "loss": 0.0067, + "step": 4742 + }, + { + "epoch": 9.883333333333333, + "grad_norm": 0.6180249452590942, + "learning_rate": 2.53125e-05, + "loss": 0.0105, + "step": 4744 + }, + { + "epoch": 9.8875, + "grad_norm": 0.21663150191307068, + "learning_rate": 2.5302083333333333e-05, + "loss": 0.0078, + "step": 4746 + }, + { + "epoch": 9.891666666666667, + "grad_norm": 0.5743682384490967, + "learning_rate": 2.529166666666667e-05, + "loss": 0.0111, + "step": 4748 + }, + { + "epoch": 9.895833333333334, + "grad_norm": 0.6673963069915771, + "learning_rate": 2.528125e-05, + "loss": 0.0119, + "step": 4750 + }, + { + "epoch": 9.9, + "grad_norm": 1.116539716720581, + "learning_rate": 2.5270833333333332e-05, + "loss": 0.0145, + "step": 4752 + }, + { + "epoch": 9.904166666666667, + "grad_norm": 0.3567418158054352, + "learning_rate": 2.526041666666667e-05, + "loss": 0.0106, + "step": 4754 + }, + { + "epoch": 9.908333333333333, + "grad_norm": 0.9198314547538757, + "learning_rate": 2.525e-05, + "loss": 0.0131, + "step": 4756 + }, + { + "epoch": 9.9125, + "grad_norm": 0.24302992224693298, + "learning_rate": 2.5239583333333335e-05, + "loss": 0.0088, + "step": 4758 + }, + { + "epoch": 9.916666666666666, + "grad_norm": 3.362426519393921, + "learning_rate": 2.522916666666667e-05, + "loss": 0.0153, + "step": 4760 + }, + { + "epoch": 9.920833333333333, + "grad_norm": 0.3978029787540436, + "learning_rate": 2.5218750000000003e-05, + "loss": 0.0121, + "step": 4762 + }, + { + "epoch": 9.925, + "grad_norm": 0.2407197803258896, + "learning_rate": 2.5208333333333334e-05, + "loss": 0.0096, + "step": 4764 + }, + { + "epoch": 9.929166666666667, + "grad_norm": 0.49418988823890686, + "learning_rate": 2.5197916666666665e-05, + "loss": 0.0112, + "step": 4766 + }, + { + "epoch": 9.933333333333334, + "grad_norm": 0.337891161441803, + "learning_rate": 2.5187500000000002e-05, + "loss": 0.0095, + "step": 4768 + }, + { + "epoch": 9.9375, + "grad_norm": 0.2470482587814331, + "learning_rate": 2.5177083333333333e-05, + "loss": 0.0168, + "step": 4770 + }, + { + "epoch": 9.941666666666666, + "grad_norm": 0.2157241851091385, + "learning_rate": 2.5166666666666667e-05, + "loss": 0.0077, + "step": 4772 + }, + { + "epoch": 9.945833333333333, + "grad_norm": 0.28564542531967163, + "learning_rate": 2.5156250000000005e-05, + "loss": 0.0083, + "step": 4774 + }, + { + "epoch": 9.95, + "grad_norm": 2.8286337852478027, + "learning_rate": 2.5145833333333336e-05, + "loss": 0.0165, + "step": 4776 + }, + { + "epoch": 9.954166666666667, + "grad_norm": 0.46618539094924927, + "learning_rate": 2.5135416666666667e-05, + "loss": 0.0105, + "step": 4778 + }, + { + "epoch": 9.958333333333334, + "grad_norm": 0.4813143014907837, + "learning_rate": 2.5124999999999997e-05, + "loss": 0.0121, + "step": 4780 + }, + { + "epoch": 9.9625, + "grad_norm": 1.0928210020065308, + "learning_rate": 2.5114583333333335e-05, + "loss": 0.022, + "step": 4782 + }, + { + "epoch": 9.966666666666667, + "grad_norm": 0.3772215247154236, + "learning_rate": 2.5104166666666666e-05, + "loss": 0.0078, + "step": 4784 + }, + { + "epoch": 9.970833333333333, + "grad_norm": 0.21954086422920227, + "learning_rate": 2.509375e-05, + "loss": 0.0084, + "step": 4786 + }, + { + "epoch": 9.975, + "grad_norm": 0.31235209107398987, + "learning_rate": 2.5083333333333338e-05, + "loss": 0.0112, + "step": 4788 + }, + { + "epoch": 9.979166666666666, + "grad_norm": 0.8331153988838196, + "learning_rate": 2.507291666666667e-05, + "loss": 0.0162, + "step": 4790 + }, + { + "epoch": 9.983333333333333, + "grad_norm": 0.22088022530078888, + "learning_rate": 2.50625e-05, + "loss": 0.0073, + "step": 4792 + }, + { + "epoch": 9.9875, + "grad_norm": 0.4953429102897644, + "learning_rate": 2.5052083333333337e-05, + "loss": 0.0094, + "step": 4794 + }, + { + "epoch": 9.991666666666667, + "grad_norm": 0.3720788359642029, + "learning_rate": 2.5041666666666668e-05, + "loss": 0.0088, + "step": 4796 + }, + { + "epoch": 9.995833333333334, + "grad_norm": 0.37420204281806946, + "learning_rate": 2.5031250000000002e-05, + "loss": 0.0167, + "step": 4798 + }, + { + "epoch": 10.0, + "grad_norm": 0.388630747795105, + "learning_rate": 2.5020833333333333e-05, + "loss": 0.0129, + "step": 4800 + }, + { + "epoch": 10.0, + "eval_cer": 0.061417147934251445, + "eval_loss": 0.4024108946323395, + "eval_runtime": 75.4357, + "eval_samples_per_second": 5.223, + "eval_steps_per_second": 0.663, + "step": 4800 + }, + { + "epoch": 10.004166666666666, + "grad_norm": 0.3766707181930542, + "learning_rate": 2.501041666666667e-05, + "loss": 0.0104, + "step": 4802 + }, + { + "epoch": 10.008333333333333, + "grad_norm": 0.1573638617992401, + "learning_rate": 2.5e-05, + "loss": 0.0063, + "step": 4804 + }, + { + "epoch": 10.0125, + "grad_norm": 0.2515840530395508, + "learning_rate": 2.4989583333333335e-05, + "loss": 0.0059, + "step": 4806 + }, + { + "epoch": 10.016666666666667, + "grad_norm": 0.40935268998146057, + "learning_rate": 2.4979166666666666e-05, + "loss": 0.0068, + "step": 4808 + }, + { + "epoch": 10.020833333333334, + "grad_norm": 0.16688530147075653, + "learning_rate": 2.496875e-05, + "loss": 0.0083, + "step": 4810 + }, + { + "epoch": 10.025, + "grad_norm": 0.10320395976305008, + "learning_rate": 2.4958333333333335e-05, + "loss": 0.0094, + "step": 4812 + }, + { + "epoch": 10.029166666666667, + "grad_norm": 0.4487435817718506, + "learning_rate": 2.494791666666667e-05, + "loss": 0.005, + "step": 4814 + }, + { + "epoch": 10.033333333333333, + "grad_norm": 0.3328726589679718, + "learning_rate": 2.4937500000000003e-05, + "loss": 0.0054, + "step": 4816 + }, + { + "epoch": 10.0375, + "grad_norm": 0.2755657434463501, + "learning_rate": 2.4927083333333334e-05, + "loss": 0.0065, + "step": 4818 + }, + { + "epoch": 10.041666666666666, + "grad_norm": 0.2134236991405487, + "learning_rate": 2.4916666666666668e-05, + "loss": 0.008, + "step": 4820 + }, + { + "epoch": 10.045833333333333, + "grad_norm": 0.3709843158721924, + "learning_rate": 2.490625e-05, + "loss": 0.0118, + "step": 4822 + }, + { + "epoch": 10.05, + "grad_norm": 0.25568869709968567, + "learning_rate": 2.4895833333333337e-05, + "loss": 0.009, + "step": 4824 + }, + { + "epoch": 10.054166666666667, + "grad_norm": 0.17471468448638916, + "learning_rate": 2.4885416666666667e-05, + "loss": 0.0086, + "step": 4826 + }, + { + "epoch": 10.058333333333334, + "grad_norm": 0.4185727834701538, + "learning_rate": 2.4875e-05, + "loss": 0.0084, + "step": 4828 + }, + { + "epoch": 10.0625, + "grad_norm": 0.19762420654296875, + "learning_rate": 2.4864583333333336e-05, + "loss": 0.0079, + "step": 4830 + }, + { + "epoch": 10.066666666666666, + "grad_norm": 0.24396845698356628, + "learning_rate": 2.4854166666666667e-05, + "loss": 0.0135, + "step": 4832 + }, + { + "epoch": 10.070833333333333, + "grad_norm": 0.3414885699748993, + "learning_rate": 2.484375e-05, + "loss": 0.0065, + "step": 4834 + }, + { + "epoch": 10.075, + "grad_norm": 0.21019794046878815, + "learning_rate": 2.4833333333333335e-05, + "loss": 0.0062, + "step": 4836 + }, + { + "epoch": 10.079166666666667, + "grad_norm": 0.6175082325935364, + "learning_rate": 2.482291666666667e-05, + "loss": 0.01, + "step": 4838 + }, + { + "epoch": 10.083333333333334, + "grad_norm": 0.46052655577659607, + "learning_rate": 2.4812500000000003e-05, + "loss": 0.0126, + "step": 4840 + }, + { + "epoch": 10.0875, + "grad_norm": 0.1600392907857895, + "learning_rate": 2.4802083333333334e-05, + "loss": 0.0044, + "step": 4842 + }, + { + "epoch": 10.091666666666667, + "grad_norm": 0.18468700349330902, + "learning_rate": 2.479166666666667e-05, + "loss": 0.0051, + "step": 4844 + }, + { + "epoch": 10.095833333333333, + "grad_norm": 0.21803952753543854, + "learning_rate": 2.478125e-05, + "loss": 0.0073, + "step": 4846 + }, + { + "epoch": 10.1, + "grad_norm": 0.2430177927017212, + "learning_rate": 2.4770833333333333e-05, + "loss": 0.0066, + "step": 4848 + }, + { + "epoch": 10.104166666666666, + "grad_norm": 0.19580228626728058, + "learning_rate": 2.4760416666666668e-05, + "loss": 0.006, + "step": 4850 + }, + { + "epoch": 10.108333333333333, + "grad_norm": 0.1328677386045456, + "learning_rate": 2.4750000000000002e-05, + "loss": 0.0052, + "step": 4852 + }, + { + "epoch": 10.1125, + "grad_norm": 0.18059350550174713, + "learning_rate": 2.4739583333333336e-05, + "loss": 0.0048, + "step": 4854 + }, + { + "epoch": 10.116666666666667, + "grad_norm": 1.0661076307296753, + "learning_rate": 2.4729166666666667e-05, + "loss": 0.0094, + "step": 4856 + }, + { + "epoch": 10.120833333333334, + "grad_norm": 0.15790432691574097, + "learning_rate": 2.471875e-05, + "loss": 0.0056, + "step": 4858 + }, + { + "epoch": 10.125, + "grad_norm": 0.1848578304052353, + "learning_rate": 2.4708333333333332e-05, + "loss": 0.0044, + "step": 4860 + }, + { + "epoch": 10.129166666666666, + "grad_norm": 0.48750039935112, + "learning_rate": 2.4697916666666666e-05, + "loss": 0.0094, + "step": 4862 + }, + { + "epoch": 10.133333333333333, + "grad_norm": 0.2678253948688507, + "learning_rate": 2.4687500000000004e-05, + "loss": 0.0107, + "step": 4864 + }, + { + "epoch": 10.1375, + "grad_norm": 0.46954405307769775, + "learning_rate": 2.4677083333333335e-05, + "loss": 0.011, + "step": 4866 + }, + { + "epoch": 10.141666666666667, + "grad_norm": 0.4175746738910675, + "learning_rate": 2.466666666666667e-05, + "loss": 0.0069, + "step": 4868 + }, + { + "epoch": 10.145833333333334, + "grad_norm": 0.1375957429409027, + "learning_rate": 2.465625e-05, + "loss": 0.0051, + "step": 4870 + }, + { + "epoch": 10.15, + "grad_norm": 1.0896683931350708, + "learning_rate": 2.4645833333333334e-05, + "loss": 0.0095, + "step": 4872 + }, + { + "epoch": 10.154166666666667, + "grad_norm": 0.28541499376296997, + "learning_rate": 2.4635416666666668e-05, + "loss": 0.0083, + "step": 4874 + }, + { + "epoch": 10.158333333333333, + "grad_norm": 0.14369134604930878, + "learning_rate": 2.4625000000000002e-05, + "loss": 0.0059, + "step": 4876 + }, + { + "epoch": 10.1625, + "grad_norm": 0.21342194080352783, + "learning_rate": 2.4614583333333336e-05, + "loss": 0.0083, + "step": 4878 + }, + { + "epoch": 10.166666666666666, + "grad_norm": 0.5748014450073242, + "learning_rate": 2.4604166666666667e-05, + "loss": 0.0078, + "step": 4880 + }, + { + "epoch": 10.170833333333333, + "grad_norm": 0.2828075587749481, + "learning_rate": 2.459375e-05, + "loss": 0.0125, + "step": 4882 + }, + { + "epoch": 10.175, + "grad_norm": 0.18985426425933838, + "learning_rate": 2.4583333333333332e-05, + "loss": 0.0048, + "step": 4884 + }, + { + "epoch": 10.179166666666667, + "grad_norm": 0.5081931948661804, + "learning_rate": 2.4572916666666667e-05, + "loss": 0.0131, + "step": 4886 + }, + { + "epoch": 10.183333333333334, + "grad_norm": 0.3244165778160095, + "learning_rate": 2.45625e-05, + "loss": 0.0095, + "step": 4888 + }, + { + "epoch": 10.1875, + "grad_norm": 0.3035576343536377, + "learning_rate": 2.4552083333333335e-05, + "loss": 0.0075, + "step": 4890 + }, + { + "epoch": 10.191666666666666, + "grad_norm": 0.29547905921936035, + "learning_rate": 2.454166666666667e-05, + "loss": 0.0081, + "step": 4892 + }, + { + "epoch": 10.195833333333333, + "grad_norm": 0.3639109432697296, + "learning_rate": 2.453125e-05, + "loss": 0.0071, + "step": 4894 + }, + { + "epoch": 10.2, + "grad_norm": 0.22064310312271118, + "learning_rate": 2.4520833333333334e-05, + "loss": 0.0065, + "step": 4896 + }, + { + "epoch": 10.204166666666667, + "grad_norm": 0.4295773506164551, + "learning_rate": 2.451041666666667e-05, + "loss": 0.0093, + "step": 4898 + }, + { + "epoch": 10.208333333333334, + "grad_norm": 0.9441025853157043, + "learning_rate": 2.45e-05, + "loss": 0.0082, + "step": 4900 + }, + { + "epoch": 10.2125, + "grad_norm": 0.31972065567970276, + "learning_rate": 2.4489583333333337e-05, + "loss": 0.0052, + "step": 4902 + }, + { + "epoch": 10.216666666666667, + "grad_norm": 0.37413743138313293, + "learning_rate": 2.4479166666666668e-05, + "loss": 0.0071, + "step": 4904 + }, + { + "epoch": 10.220833333333333, + "grad_norm": 0.4010043144226074, + "learning_rate": 2.4468750000000002e-05, + "loss": 0.0119, + "step": 4906 + }, + { + "epoch": 10.225, + "grad_norm": 0.2976888120174408, + "learning_rate": 2.4458333333333336e-05, + "loss": 0.0063, + "step": 4908 + }, + { + "epoch": 10.229166666666666, + "grad_norm": 0.41089507937431335, + "learning_rate": 2.4447916666666667e-05, + "loss": 0.0069, + "step": 4910 + }, + { + "epoch": 10.233333333333333, + "grad_norm": 0.2024819403886795, + "learning_rate": 2.44375e-05, + "loss": 0.006, + "step": 4912 + }, + { + "epoch": 10.2375, + "grad_norm": 0.16061629354953766, + "learning_rate": 2.4427083333333335e-05, + "loss": 0.0045, + "step": 4914 + }, + { + "epoch": 10.241666666666667, + "grad_norm": 0.18373705446720123, + "learning_rate": 2.441666666666667e-05, + "loss": 0.0046, + "step": 4916 + }, + { + "epoch": 10.245833333333334, + "grad_norm": 0.36127451062202454, + "learning_rate": 2.440625e-05, + "loss": 0.0077, + "step": 4918 + }, + { + "epoch": 10.25, + "grad_norm": 0.183625265955925, + "learning_rate": 2.4395833333333335e-05, + "loss": 0.006, + "step": 4920 + }, + { + "epoch": 10.254166666666666, + "grad_norm": 0.41556406021118164, + "learning_rate": 2.438541666666667e-05, + "loss": 0.0091, + "step": 4922 + }, + { + "epoch": 10.258333333333333, + "grad_norm": 0.3450147807598114, + "learning_rate": 2.4375e-05, + "loss": 0.0137, + "step": 4924 + }, + { + "epoch": 10.2625, + "grad_norm": 0.258444219827652, + "learning_rate": 2.4364583333333334e-05, + "loss": 0.0059, + "step": 4926 + }, + { + "epoch": 10.266666666666667, + "grad_norm": 0.31867995858192444, + "learning_rate": 2.4354166666666668e-05, + "loss": 0.0088, + "step": 4928 + }, + { + "epoch": 10.270833333333334, + "grad_norm": 0.342174232006073, + "learning_rate": 2.4343750000000002e-05, + "loss": 0.0104, + "step": 4930 + }, + { + "epoch": 10.275, + "grad_norm": 0.3741225600242615, + "learning_rate": 2.4333333333333336e-05, + "loss": 0.008, + "step": 4932 + }, + { + "epoch": 10.279166666666667, + "grad_norm": 0.31524619460105896, + "learning_rate": 2.4322916666666667e-05, + "loss": 0.0078, + "step": 4934 + }, + { + "epoch": 10.283333333333333, + "grad_norm": 0.3044951558113098, + "learning_rate": 2.43125e-05, + "loss": 0.0094, + "step": 4936 + }, + { + "epoch": 10.2875, + "grad_norm": 0.48350802063941956, + "learning_rate": 2.4302083333333332e-05, + "loss": 0.0166, + "step": 4938 + }, + { + "epoch": 10.291666666666666, + "grad_norm": 0.17901179194450378, + "learning_rate": 2.4291666666666666e-05, + "loss": 0.006, + "step": 4940 + }, + { + "epoch": 10.295833333333333, + "grad_norm": 0.17560721933841705, + "learning_rate": 2.428125e-05, + "loss": 0.0061, + "step": 4942 + }, + { + "epoch": 10.3, + "grad_norm": 0.365082323551178, + "learning_rate": 2.4270833333333335e-05, + "loss": 0.0073, + "step": 4944 + }, + { + "epoch": 10.304166666666667, + "grad_norm": 0.3452517092227936, + "learning_rate": 2.426041666666667e-05, + "loss": 0.0076, + "step": 4946 + }, + { + "epoch": 10.308333333333334, + "grad_norm": 0.6176397204399109, + "learning_rate": 2.425e-05, + "loss": 0.0107, + "step": 4948 + }, + { + "epoch": 10.3125, + "grad_norm": 0.32603222131729126, + "learning_rate": 2.4239583333333334e-05, + "loss": 0.0066, + "step": 4950 + }, + { + "epoch": 10.316666666666666, + "grad_norm": 0.3338721692562103, + "learning_rate": 2.422916666666667e-05, + "loss": 0.0092, + "step": 4952 + }, + { + "epoch": 10.320833333333333, + "grad_norm": 0.3408189117908478, + "learning_rate": 2.4218750000000003e-05, + "loss": 0.0051, + "step": 4954 + }, + { + "epoch": 10.325, + "grad_norm": 0.11733327060937881, + "learning_rate": 2.4208333333333337e-05, + "loss": 0.0095, + "step": 4956 + }, + { + "epoch": 10.329166666666667, + "grad_norm": 0.24899722635746002, + "learning_rate": 2.4197916666666668e-05, + "loss": 0.0061, + "step": 4958 + }, + { + "epoch": 10.333333333333334, + "grad_norm": 0.35082826018333435, + "learning_rate": 2.4187500000000002e-05, + "loss": 0.0088, + "step": 4960 + }, + { + "epoch": 10.3375, + "grad_norm": 0.4360288083553314, + "learning_rate": 2.4177083333333333e-05, + "loss": 0.0127, + "step": 4962 + }, + { + "epoch": 10.341666666666667, + "grad_norm": 0.3956393301486969, + "learning_rate": 2.4166666666666667e-05, + "loss": 0.0104, + "step": 4964 + }, + { + "epoch": 10.345833333333333, + "grad_norm": 0.1912660151720047, + "learning_rate": 2.415625e-05, + "loss": 0.0054, + "step": 4966 + }, + { + "epoch": 10.35, + "grad_norm": 0.240082785487175, + "learning_rate": 2.4145833333333335e-05, + "loss": 0.0054, + "step": 4968 + }, + { + "epoch": 10.354166666666666, + "grad_norm": 0.23120726644992828, + "learning_rate": 2.413541666666667e-05, + "loss": 0.0063, + "step": 4970 + }, + { + "epoch": 10.358333333333333, + "grad_norm": 0.25576314330101013, + "learning_rate": 2.4125e-05, + "loss": 0.0065, + "step": 4972 + }, + { + "epoch": 10.3625, + "grad_norm": 3.496408700942993, + "learning_rate": 2.4114583333333334e-05, + "loss": 0.0128, + "step": 4974 + }, + { + "epoch": 10.366666666666667, + "grad_norm": 0.271956205368042, + "learning_rate": 2.4104166666666665e-05, + "loss": 0.0049, + "step": 4976 + }, + { + "epoch": 10.370833333333334, + "grad_norm": 0.31870704889297485, + "learning_rate": 2.409375e-05, + "loss": 0.0062, + "step": 4978 + }, + { + "epoch": 10.375, + "grad_norm": 0.21925115585327148, + "learning_rate": 2.4083333333333337e-05, + "loss": 0.0106, + "step": 4980 + }, + { + "epoch": 10.379166666666666, + "grad_norm": 0.5224013328552246, + "learning_rate": 2.4072916666666668e-05, + "loss": 0.0096, + "step": 4982 + }, + { + "epoch": 10.383333333333333, + "grad_norm": 0.24112950265407562, + "learning_rate": 2.4062500000000002e-05, + "loss": 0.0059, + "step": 4984 + }, + { + "epoch": 10.3875, + "grad_norm": 0.2902519404888153, + "learning_rate": 2.4052083333333333e-05, + "loss": 0.0095, + "step": 4986 + }, + { + "epoch": 10.391666666666667, + "grad_norm": 0.3083389103412628, + "learning_rate": 2.4041666666666667e-05, + "loss": 0.0091, + "step": 4988 + }, + { + "epoch": 10.395833333333334, + "grad_norm": 0.46726909279823303, + "learning_rate": 2.403125e-05, + "loss": 0.0082, + "step": 4990 + }, + { + "epoch": 10.4, + "grad_norm": 0.2161404937505722, + "learning_rate": 2.4020833333333336e-05, + "loss": 0.0064, + "step": 4992 + }, + { + "epoch": 10.404166666666667, + "grad_norm": 0.09355935454368591, + "learning_rate": 2.401041666666667e-05, + "loss": 0.0035, + "step": 4994 + }, + { + "epoch": 10.408333333333333, + "grad_norm": 0.20823875069618225, + "learning_rate": 2.4e-05, + "loss": 0.0057, + "step": 4996 + }, + { + "epoch": 10.4125, + "grad_norm": 0.24869588017463684, + "learning_rate": 2.3989583333333335e-05, + "loss": 0.0063, + "step": 4998 + }, + { + "epoch": 10.416666666666666, + "grad_norm": 0.27580156922340393, + "learning_rate": 2.3979166666666666e-05, + "loss": 0.008, + "step": 5000 + }, + { + "epoch": 10.416666666666666, + "eval_cer": 0.06150044424700133, + "eval_loss": 0.40924227237701416, + "eval_runtime": 75.2472, + "eval_samples_per_second": 5.236, + "eval_steps_per_second": 0.664, + "step": 5000 + }, + { + "epoch": 10.420833333333333, + "grad_norm": 0.3058290183544159, + "learning_rate": 2.396875e-05, + "loss": 0.0052, + "step": 5002 + }, + { + "epoch": 10.425, + "grad_norm": 0.4224923551082611, + "learning_rate": 2.3958333333333334e-05, + "loss": 0.0102, + "step": 5004 + }, + { + "epoch": 10.429166666666667, + "grad_norm": 0.2465255856513977, + "learning_rate": 2.3947916666666668e-05, + "loss": 0.007, + "step": 5006 + }, + { + "epoch": 10.433333333333334, + "grad_norm": 0.16034017503261566, + "learning_rate": 2.3937500000000002e-05, + "loss": 0.0057, + "step": 5008 + }, + { + "epoch": 10.4375, + "grad_norm": 0.18863773345947266, + "learning_rate": 2.3927083333333333e-05, + "loss": 0.0047, + "step": 5010 + }, + { + "epoch": 10.441666666666666, + "grad_norm": 0.7675413489341736, + "learning_rate": 2.3916666666666668e-05, + "loss": 0.0086, + "step": 5012 + }, + { + "epoch": 10.445833333333333, + "grad_norm": 0.13238072395324707, + "learning_rate": 2.3906250000000002e-05, + "loss": 0.0049, + "step": 5014 + }, + { + "epoch": 10.45, + "grad_norm": 0.11200526356697083, + "learning_rate": 2.3895833333333333e-05, + "loss": 0.0047, + "step": 5016 + }, + { + "epoch": 10.454166666666667, + "grad_norm": 0.29623883962631226, + "learning_rate": 2.3885416666666667e-05, + "loss": 0.0087, + "step": 5018 + }, + { + "epoch": 10.458333333333334, + "grad_norm": 0.45446276664733887, + "learning_rate": 2.3875e-05, + "loss": 0.0064, + "step": 5020 + }, + { + "epoch": 10.4625, + "grad_norm": 1.7410765886306763, + "learning_rate": 2.3864583333333335e-05, + "loss": 0.008, + "step": 5022 + }, + { + "epoch": 10.466666666666667, + "grad_norm": 0.15084189176559448, + "learning_rate": 2.385416666666667e-05, + "loss": 0.0085, + "step": 5024 + }, + { + "epoch": 10.470833333333333, + "grad_norm": 1.169228196144104, + "learning_rate": 2.384375e-05, + "loss": 0.0069, + "step": 5026 + }, + { + "epoch": 10.475, + "grad_norm": 0.23842781782150269, + "learning_rate": 2.3833333333333334e-05, + "loss": 0.0058, + "step": 5028 + }, + { + "epoch": 10.479166666666666, + "grad_norm": 0.21951478719711304, + "learning_rate": 2.382291666666667e-05, + "loss": 0.0048, + "step": 5030 + }, + { + "epoch": 10.483333333333333, + "grad_norm": 0.1839037388563156, + "learning_rate": 2.3812500000000003e-05, + "loss": 0.0077, + "step": 5032 + }, + { + "epoch": 10.4875, + "grad_norm": 0.3721061050891876, + "learning_rate": 2.3802083333333334e-05, + "loss": 0.0113, + "step": 5034 + }, + { + "epoch": 10.491666666666667, + "grad_norm": 0.24412110447883606, + "learning_rate": 2.3791666666666668e-05, + "loss": 0.007, + "step": 5036 + }, + { + "epoch": 10.495833333333334, + "grad_norm": 0.2538153827190399, + "learning_rate": 2.3781250000000002e-05, + "loss": 0.0069, + "step": 5038 + }, + { + "epoch": 10.5, + "grad_norm": 0.9346022605895996, + "learning_rate": 2.3770833333333333e-05, + "loss": 0.0091, + "step": 5040 + }, + { + "epoch": 10.504166666666666, + "grad_norm": 0.2775988280773163, + "learning_rate": 2.3760416666666667e-05, + "loss": 0.0099, + "step": 5042 + }, + { + "epoch": 10.508333333333333, + "grad_norm": 0.31789106130599976, + "learning_rate": 2.375e-05, + "loss": 0.0097, + "step": 5044 + }, + { + "epoch": 10.5125, + "grad_norm": 0.5223352909088135, + "learning_rate": 2.3739583333333336e-05, + "loss": 0.0053, + "step": 5046 + }, + { + "epoch": 10.516666666666667, + "grad_norm": 1.819031000137329, + "learning_rate": 2.372916666666667e-05, + "loss": 0.0075, + "step": 5048 + }, + { + "epoch": 10.520833333333334, + "grad_norm": 0.19597166776657104, + "learning_rate": 2.371875e-05, + "loss": 0.0056, + "step": 5050 + }, + { + "epoch": 10.525, + "grad_norm": 0.4958029091358185, + "learning_rate": 2.3708333333333335e-05, + "loss": 0.0172, + "step": 5052 + }, + { + "epoch": 10.529166666666667, + "grad_norm": 0.26636940240859985, + "learning_rate": 2.3697916666666666e-05, + "loss": 0.0082, + "step": 5054 + }, + { + "epoch": 10.533333333333333, + "grad_norm": 0.23778364062309265, + "learning_rate": 2.36875e-05, + "loss": 0.0069, + "step": 5056 + }, + { + "epoch": 10.5375, + "grad_norm": 0.2786272466182709, + "learning_rate": 2.3677083333333337e-05, + "loss": 0.0067, + "step": 5058 + }, + { + "epoch": 10.541666666666666, + "grad_norm": 0.22531677782535553, + "learning_rate": 2.3666666666666668e-05, + "loss": 0.0066, + "step": 5060 + }, + { + "epoch": 10.545833333333333, + "grad_norm": 0.1792927235364914, + "learning_rate": 2.3656250000000002e-05, + "loss": 0.0069, + "step": 5062 + }, + { + "epoch": 10.55, + "grad_norm": 0.8043721914291382, + "learning_rate": 2.3645833333333333e-05, + "loss": 0.006, + "step": 5064 + }, + { + "epoch": 10.554166666666667, + "grad_norm": 1.2018071413040161, + "learning_rate": 2.3635416666666667e-05, + "loss": 0.0071, + "step": 5066 + }, + { + "epoch": 10.558333333333334, + "grad_norm": 0.1440453678369522, + "learning_rate": 2.3624999999999998e-05, + "loss": 0.0103, + "step": 5068 + }, + { + "epoch": 10.5625, + "grad_norm": 0.2137005776166916, + "learning_rate": 2.3614583333333336e-05, + "loss": 0.0058, + "step": 5070 + }, + { + "epoch": 10.566666666666666, + "grad_norm": 0.19433656334877014, + "learning_rate": 2.360416666666667e-05, + "loss": 0.005, + "step": 5072 + }, + { + "epoch": 10.570833333333333, + "grad_norm": 3.8131372928619385, + "learning_rate": 2.359375e-05, + "loss": 0.0123, + "step": 5074 + }, + { + "epoch": 10.575, + "grad_norm": 1.283621072769165, + "learning_rate": 2.3583333333333335e-05, + "loss": 0.0076, + "step": 5076 + }, + { + "epoch": 10.579166666666667, + "grad_norm": 0.18506170809268951, + "learning_rate": 2.3572916666666666e-05, + "loss": 0.0065, + "step": 5078 + }, + { + "epoch": 10.583333333333334, + "grad_norm": 0.12511277198791504, + "learning_rate": 2.35625e-05, + "loss": 0.0048, + "step": 5080 + }, + { + "epoch": 10.5875, + "grad_norm": 0.2679864466190338, + "learning_rate": 2.3552083333333334e-05, + "loss": 0.0065, + "step": 5082 + }, + { + "epoch": 10.591666666666667, + "grad_norm": 0.6259869337081909, + "learning_rate": 2.354166666666667e-05, + "loss": 0.0129, + "step": 5084 + }, + { + "epoch": 10.595833333333333, + "grad_norm": 0.5477492213249207, + "learning_rate": 2.3531250000000003e-05, + "loss": 0.0145, + "step": 5086 + }, + { + "epoch": 10.6, + "grad_norm": 0.17434878647327423, + "learning_rate": 2.3520833333333334e-05, + "loss": 0.0093, + "step": 5088 + }, + { + "epoch": 10.604166666666666, + "grad_norm": 0.4925454556941986, + "learning_rate": 2.3510416666666668e-05, + "loss": 0.0124, + "step": 5090 + }, + { + "epoch": 10.608333333333333, + "grad_norm": 3.743438959121704, + "learning_rate": 2.35e-05, + "loss": 0.0117, + "step": 5092 + }, + { + "epoch": 10.6125, + "grad_norm": 0.3060529828071594, + "learning_rate": 2.3489583333333333e-05, + "loss": 0.0064, + "step": 5094 + }, + { + "epoch": 10.616666666666667, + "grad_norm": 1.1992567777633667, + "learning_rate": 2.347916666666667e-05, + "loss": 0.0095, + "step": 5096 + }, + { + "epoch": 10.620833333333334, + "grad_norm": 0.5647673010826111, + "learning_rate": 2.346875e-05, + "loss": 0.0066, + "step": 5098 + }, + { + "epoch": 10.625, + "grad_norm": 0.3534196615219116, + "learning_rate": 2.3458333333333335e-05, + "loss": 0.0079, + "step": 5100 + }, + { + "epoch": 10.629166666666666, + "grad_norm": 0.2697537839412689, + "learning_rate": 2.3447916666666666e-05, + "loss": 0.0091, + "step": 5102 + }, + { + "epoch": 10.633333333333333, + "grad_norm": 0.2669658064842224, + "learning_rate": 2.34375e-05, + "loss": 0.0058, + "step": 5104 + }, + { + "epoch": 10.6375, + "grad_norm": 0.24099069833755493, + "learning_rate": 2.3427083333333335e-05, + "loss": 0.0118, + "step": 5106 + }, + { + "epoch": 10.641666666666667, + "grad_norm": 0.3770759701728821, + "learning_rate": 2.341666666666667e-05, + "loss": 0.0066, + "step": 5108 + }, + { + "epoch": 10.645833333333334, + "grad_norm": 0.6416199207305908, + "learning_rate": 2.3406250000000003e-05, + "loss": 0.0101, + "step": 5110 + }, + { + "epoch": 10.65, + "grad_norm": 0.26219356060028076, + "learning_rate": 2.3395833333333334e-05, + "loss": 0.0097, + "step": 5112 + }, + { + "epoch": 10.654166666666667, + "grad_norm": 0.35349714756011963, + "learning_rate": 2.3385416666666668e-05, + "loss": 0.0065, + "step": 5114 + }, + { + "epoch": 10.658333333333333, + "grad_norm": 0.564777135848999, + "learning_rate": 2.3375000000000002e-05, + "loss": 0.0214, + "step": 5116 + }, + { + "epoch": 10.6625, + "grad_norm": 0.29877200722694397, + "learning_rate": 2.3364583333333333e-05, + "loss": 0.0059, + "step": 5118 + }, + { + "epoch": 10.666666666666666, + "grad_norm": 0.257382869720459, + "learning_rate": 2.3354166666666667e-05, + "loss": 0.0067, + "step": 5120 + }, + { + "epoch": 10.670833333333333, + "grad_norm": 0.2259807139635086, + "learning_rate": 2.334375e-05, + "loss": 0.0083, + "step": 5122 + }, + { + "epoch": 10.675, + "grad_norm": 0.27069970965385437, + "learning_rate": 2.3333333333333336e-05, + "loss": 0.0078, + "step": 5124 + }, + { + "epoch": 10.679166666666667, + "grad_norm": 0.10482528060674667, + "learning_rate": 2.3322916666666667e-05, + "loss": 0.0087, + "step": 5126 + }, + { + "epoch": 10.683333333333334, + "grad_norm": 0.24448734521865845, + "learning_rate": 2.33125e-05, + "loss": 0.0084, + "step": 5128 + }, + { + "epoch": 10.6875, + "grad_norm": 0.31758561730384827, + "learning_rate": 2.3302083333333335e-05, + "loss": 0.0142, + "step": 5130 + }, + { + "epoch": 10.691666666666666, + "grad_norm": 0.17466950416564941, + "learning_rate": 2.3291666666666666e-05, + "loss": 0.006, + "step": 5132 + }, + { + "epoch": 10.695833333333333, + "grad_norm": 0.6720095872879028, + "learning_rate": 2.328125e-05, + "loss": 0.0145, + "step": 5134 + }, + { + "epoch": 10.7, + "grad_norm": 0.14598052203655243, + "learning_rate": 2.3270833333333334e-05, + "loss": 0.0054, + "step": 5136 + }, + { + "epoch": 10.704166666666667, + "grad_norm": 0.1895994246006012, + "learning_rate": 2.326041666666667e-05, + "loss": 0.0097, + "step": 5138 + }, + { + "epoch": 10.708333333333334, + "grad_norm": 0.14508402347564697, + "learning_rate": 2.3250000000000003e-05, + "loss": 0.0053, + "step": 5140 + }, + { + "epoch": 10.7125, + "grad_norm": 0.207832470536232, + "learning_rate": 2.3239583333333334e-05, + "loss": 0.0047, + "step": 5142 + }, + { + "epoch": 10.716666666666667, + "grad_norm": 0.5554311871528625, + "learning_rate": 2.3229166666666668e-05, + "loss": 0.0118, + "step": 5144 + }, + { + "epoch": 10.720833333333333, + "grad_norm": 1.2101484537124634, + "learning_rate": 2.321875e-05, + "loss": 0.0093, + "step": 5146 + }, + { + "epoch": 10.725, + "grad_norm": 2.746816635131836, + "learning_rate": 2.3208333333333336e-05, + "loss": 0.0081, + "step": 5148 + }, + { + "epoch": 10.729166666666666, + "grad_norm": 1.452339768409729, + "learning_rate": 2.3197916666666667e-05, + "loss": 0.0105, + "step": 5150 + }, + { + "epoch": 10.733333333333333, + "grad_norm": 0.254096120595932, + "learning_rate": 2.31875e-05, + "loss": 0.0051, + "step": 5152 + }, + { + "epoch": 10.7375, + "grad_norm": 0.4455457329750061, + "learning_rate": 2.3177083333333335e-05, + "loss": 0.0236, + "step": 5154 + }, + { + "epoch": 10.741666666666667, + "grad_norm": 0.17171673476696014, + "learning_rate": 2.3166666666666666e-05, + "loss": 0.006, + "step": 5156 + }, + { + "epoch": 10.745833333333334, + "grad_norm": 0.1805448979139328, + "learning_rate": 2.315625e-05, + "loss": 0.0057, + "step": 5158 + }, + { + "epoch": 10.75, + "grad_norm": 0.7959513068199158, + "learning_rate": 2.3145833333333335e-05, + "loss": 0.0067, + "step": 5160 + }, + { + "epoch": 10.754166666666666, + "grad_norm": 0.5963665246963501, + "learning_rate": 2.313541666666667e-05, + "loss": 0.0082, + "step": 5162 + }, + { + "epoch": 10.758333333333333, + "grad_norm": 0.3629264831542969, + "learning_rate": 2.3125000000000003e-05, + "loss": 0.0073, + "step": 5164 + }, + { + "epoch": 10.7625, + "grad_norm": 0.5267052054405212, + "learning_rate": 2.3114583333333334e-05, + "loss": 0.0126, + "step": 5166 + }, + { + "epoch": 10.766666666666667, + "grad_norm": 0.20610296726226807, + "learning_rate": 2.3104166666666668e-05, + "loss": 0.006, + "step": 5168 + }, + { + "epoch": 10.770833333333334, + "grad_norm": 0.1582213193178177, + "learning_rate": 2.309375e-05, + "loss": 0.0063, + "step": 5170 + }, + { + "epoch": 10.775, + "grad_norm": 0.4347027540206909, + "learning_rate": 2.3083333333333333e-05, + "loss": 0.0061, + "step": 5172 + }, + { + "epoch": 10.779166666666667, + "grad_norm": 2.927694797515869, + "learning_rate": 2.307291666666667e-05, + "loss": 0.0118, + "step": 5174 + }, + { + "epoch": 10.783333333333333, + "grad_norm": 0.35415297746658325, + "learning_rate": 2.30625e-05, + "loss": 0.0062, + "step": 5176 + }, + { + "epoch": 10.7875, + "grad_norm": 0.21310625970363617, + "learning_rate": 2.3052083333333336e-05, + "loss": 0.0067, + "step": 5178 + }, + { + "epoch": 10.791666666666666, + "grad_norm": 0.3084089756011963, + "learning_rate": 2.3041666666666667e-05, + "loss": 0.0083, + "step": 5180 + }, + { + "epoch": 10.795833333333333, + "grad_norm": 11.074761390686035, + "learning_rate": 2.303125e-05, + "loss": 0.0095, + "step": 5182 + }, + { + "epoch": 10.8, + "grad_norm": 0.1919543743133545, + "learning_rate": 2.302083333333333e-05, + "loss": 0.0088, + "step": 5184 + }, + { + "epoch": 10.804166666666667, + "grad_norm": 0.28558802604675293, + "learning_rate": 2.301041666666667e-05, + "loss": 0.0054, + "step": 5186 + }, + { + "epoch": 10.808333333333334, + "grad_norm": 0.25418877601623535, + "learning_rate": 2.3000000000000003e-05, + "loss": 0.0063, + "step": 5188 + }, + { + "epoch": 10.8125, + "grad_norm": 0.16356705129146576, + "learning_rate": 2.2989583333333334e-05, + "loss": 0.0087, + "step": 5190 + }, + { + "epoch": 10.816666666666666, + "grad_norm": 0.2587560713291168, + "learning_rate": 2.297916666666667e-05, + "loss": 0.0076, + "step": 5192 + }, + { + "epoch": 10.820833333333333, + "grad_norm": 0.21946565806865692, + "learning_rate": 2.296875e-05, + "loss": 0.0083, + "step": 5194 + }, + { + "epoch": 10.825, + "grad_norm": 0.3756525218486786, + "learning_rate": 2.2958333333333333e-05, + "loss": 0.0093, + "step": 5196 + }, + { + "epoch": 10.829166666666667, + "grad_norm": 0.552385687828064, + "learning_rate": 2.2947916666666668e-05, + "loss": 0.0069, + "step": 5198 + }, + { + "epoch": 10.833333333333334, + "grad_norm": 0.132595956325531, + "learning_rate": 2.2937500000000002e-05, + "loss": 0.0112, + "step": 5200 + }, + { + "epoch": 10.833333333333334, + "eval_cer": 0.05925144380275433, + "eval_loss": 0.41167354583740234, + "eval_runtime": 75.698, + "eval_samples_per_second": 5.205, + "eval_steps_per_second": 0.661, + "step": 5200 + }, + { + "epoch": 10.8375, + "grad_norm": 0.7294612526893616, + "learning_rate": 2.2927083333333336e-05, + "loss": 0.0132, + "step": 5202 + }, + { + "epoch": 10.841666666666667, + "grad_norm": 0.2032361775636673, + "learning_rate": 2.2916666666666667e-05, + "loss": 0.0106, + "step": 5204 + }, + { + "epoch": 10.845833333333333, + "grad_norm": 0.24338187277317047, + "learning_rate": 2.290625e-05, + "loss": 0.0167, + "step": 5206 + }, + { + "epoch": 10.85, + "grad_norm": 0.12392029166221619, + "learning_rate": 2.2895833333333335e-05, + "loss": 0.007, + "step": 5208 + }, + { + "epoch": 10.854166666666666, + "grad_norm": 0.22576381266117096, + "learning_rate": 2.2885416666666666e-05, + "loss": 0.0058, + "step": 5210 + }, + { + "epoch": 10.858333333333333, + "grad_norm": 0.5494840145111084, + "learning_rate": 2.2875e-05, + "loss": 0.0109, + "step": 5212 + }, + { + "epoch": 10.8625, + "grad_norm": 0.1461561918258667, + "learning_rate": 2.2864583333333335e-05, + "loss": 0.0053, + "step": 5214 + }, + { + "epoch": 10.866666666666667, + "grad_norm": 0.2092430144548416, + "learning_rate": 2.285416666666667e-05, + "loss": 0.0084, + "step": 5216 + }, + { + "epoch": 10.870833333333334, + "grad_norm": 0.9517080783843994, + "learning_rate": 2.284375e-05, + "loss": 0.0155, + "step": 5218 + }, + { + "epoch": 10.875, + "grad_norm": 0.23514051735401154, + "learning_rate": 2.2833333333333334e-05, + "loss": 0.0074, + "step": 5220 + }, + { + "epoch": 10.879166666666666, + "grad_norm": 0.17661051452159882, + "learning_rate": 2.2822916666666668e-05, + "loss": 0.0056, + "step": 5222 + }, + { + "epoch": 10.883333333333333, + "grad_norm": 0.23464688658714294, + "learning_rate": 2.28125e-05, + "loss": 0.0059, + "step": 5224 + }, + { + "epoch": 10.8875, + "grad_norm": 0.2654400169849396, + "learning_rate": 2.2802083333333336e-05, + "loss": 0.0062, + "step": 5226 + }, + { + "epoch": 10.891666666666667, + "grad_norm": 0.25027287006378174, + "learning_rate": 2.2791666666666667e-05, + "loss": 0.006, + "step": 5228 + }, + { + "epoch": 10.895833333333334, + "grad_norm": 0.30139341950416565, + "learning_rate": 2.278125e-05, + "loss": 0.0071, + "step": 5230 + }, + { + "epoch": 10.9, + "grad_norm": 0.2400798201560974, + "learning_rate": 2.2770833333333336e-05, + "loss": 0.0124, + "step": 5232 + }, + { + "epoch": 10.904166666666667, + "grad_norm": 0.2535480558872223, + "learning_rate": 2.2760416666666667e-05, + "loss": 0.0074, + "step": 5234 + }, + { + "epoch": 10.908333333333333, + "grad_norm": 0.1708315759897232, + "learning_rate": 2.275e-05, + "loss": 0.0081, + "step": 5236 + }, + { + "epoch": 10.9125, + "grad_norm": 0.5559549331665039, + "learning_rate": 2.2739583333333335e-05, + "loss": 0.012, + "step": 5238 + }, + { + "epoch": 10.916666666666666, + "grad_norm": 0.469411164522171, + "learning_rate": 2.272916666666667e-05, + "loss": 0.0078, + "step": 5240 + }, + { + "epoch": 10.920833333333333, + "grad_norm": 0.22290188074111938, + "learning_rate": 2.271875e-05, + "loss": 0.0057, + "step": 5242 + }, + { + "epoch": 10.925, + "grad_norm": 0.26531362533569336, + "learning_rate": 2.2708333333333334e-05, + "loss": 0.0077, + "step": 5244 + }, + { + "epoch": 10.929166666666667, + "grad_norm": 1.224442720413208, + "learning_rate": 2.269791666666667e-05, + "loss": 0.0136, + "step": 5246 + }, + { + "epoch": 10.933333333333334, + "grad_norm": 0.6175704598426819, + "learning_rate": 2.26875e-05, + "loss": 0.0086, + "step": 5248 + }, + { + "epoch": 10.9375, + "grad_norm": 0.1805402785539627, + "learning_rate": 2.2677083333333333e-05, + "loss": 0.0096, + "step": 5250 + }, + { + "epoch": 10.941666666666666, + "grad_norm": 0.566288948059082, + "learning_rate": 2.2666666666666668e-05, + "loss": 0.0095, + "step": 5252 + }, + { + "epoch": 10.945833333333333, + "grad_norm": 0.7135134339332581, + "learning_rate": 2.2656250000000002e-05, + "loss": 0.0087, + "step": 5254 + }, + { + "epoch": 10.95, + "grad_norm": 0.1782267689704895, + "learning_rate": 2.2645833333333336e-05, + "loss": 0.0079, + "step": 5256 + }, + { + "epoch": 10.954166666666667, + "grad_norm": 0.2123182713985443, + "learning_rate": 2.2635416666666667e-05, + "loss": 0.007, + "step": 5258 + }, + { + "epoch": 10.958333333333334, + "grad_norm": 0.24366918206214905, + "learning_rate": 2.2625e-05, + "loss": 0.0133, + "step": 5260 + }, + { + "epoch": 10.9625, + "grad_norm": 0.24972322583198547, + "learning_rate": 2.2614583333333332e-05, + "loss": 0.0092, + "step": 5262 + }, + { + "epoch": 10.966666666666667, + "grad_norm": 0.19417041540145874, + "learning_rate": 2.260416666666667e-05, + "loss": 0.0072, + "step": 5264 + }, + { + "epoch": 10.970833333333333, + "grad_norm": 0.6737306714057922, + "learning_rate": 2.2593750000000004e-05, + "loss": 0.0142, + "step": 5266 + }, + { + "epoch": 10.975, + "grad_norm": 1.1107364892959595, + "learning_rate": 2.2583333333333335e-05, + "loss": 0.0076, + "step": 5268 + }, + { + "epoch": 10.979166666666666, + "grad_norm": 0.18257953226566315, + "learning_rate": 2.257291666666667e-05, + "loss": 0.0062, + "step": 5270 + }, + { + "epoch": 10.983333333333333, + "grad_norm": 0.5069628953933716, + "learning_rate": 2.25625e-05, + "loss": 0.0108, + "step": 5272 + }, + { + "epoch": 10.9875, + "grad_norm": 0.4585926830768585, + "learning_rate": 2.2552083333333334e-05, + "loss": 0.013, + "step": 5274 + }, + { + "epoch": 10.991666666666667, + "grad_norm": 0.2590990364551544, + "learning_rate": 2.2541666666666668e-05, + "loss": 0.0088, + "step": 5276 + }, + { + "epoch": 10.995833333333334, + "grad_norm": 0.4228052794933319, + "learning_rate": 2.2531250000000002e-05, + "loss": 0.0066, + "step": 5278 + }, + { + "epoch": 11.0, + "grad_norm": 0.16303305327892303, + "learning_rate": 2.2520833333333336e-05, + "loss": 0.0062, + "step": 5280 + }, + { + "epoch": 11.004166666666666, + "grad_norm": 0.14639344811439514, + "learning_rate": 2.2510416666666667e-05, + "loss": 0.0089, + "step": 5282 + }, + { + "epoch": 11.008333333333333, + "grad_norm": 0.1468411684036255, + "learning_rate": 2.25e-05, + "loss": 0.0041, + "step": 5284 + }, + { + "epoch": 11.0125, + "grad_norm": 0.18633559346199036, + "learning_rate": 2.2489583333333332e-05, + "loss": 0.0056, + "step": 5286 + }, + { + "epoch": 11.016666666666667, + "grad_norm": 0.1373518407344818, + "learning_rate": 2.2479166666666666e-05, + "loss": 0.0134, + "step": 5288 + }, + { + "epoch": 11.020833333333334, + "grad_norm": 0.8263069987297058, + "learning_rate": 2.246875e-05, + "loss": 0.0074, + "step": 5290 + }, + { + "epoch": 11.025, + "grad_norm": 0.723675012588501, + "learning_rate": 2.2458333333333335e-05, + "loss": 0.0071, + "step": 5292 + }, + { + "epoch": 11.029166666666667, + "grad_norm": 0.14255213737487793, + "learning_rate": 2.244791666666667e-05, + "loss": 0.0048, + "step": 5294 + }, + { + "epoch": 11.033333333333333, + "grad_norm": 0.21678827702999115, + "learning_rate": 2.24375e-05, + "loss": 0.005, + "step": 5296 + }, + { + "epoch": 11.0375, + "grad_norm": 0.27275824546813965, + "learning_rate": 2.2427083333333334e-05, + "loss": 0.0151, + "step": 5298 + }, + { + "epoch": 11.041666666666666, + "grad_norm": 0.5885717868804932, + "learning_rate": 2.2416666666666665e-05, + "loss": 0.0089, + "step": 5300 + }, + { + "epoch": 11.045833333333333, + "grad_norm": 0.2888849079608917, + "learning_rate": 2.2406250000000003e-05, + "loss": 0.0045, + "step": 5302 + }, + { + "epoch": 11.05, + "grad_norm": 0.17668572068214417, + "learning_rate": 2.2395833333333337e-05, + "loss": 0.0045, + "step": 5304 + }, + { + "epoch": 11.054166666666667, + "grad_norm": 0.23341821134090424, + "learning_rate": 2.2385416666666668e-05, + "loss": 0.0068, + "step": 5306 + }, + { + "epoch": 11.058333333333334, + "grad_norm": 0.20352338254451752, + "learning_rate": 2.2375000000000002e-05, + "loss": 0.006, + "step": 5308 + }, + { + "epoch": 11.0625, + "grad_norm": 1.0092573165893555, + "learning_rate": 2.2364583333333333e-05, + "loss": 0.0102, + "step": 5310 + }, + { + "epoch": 11.066666666666666, + "grad_norm": 0.13659065961837769, + "learning_rate": 2.2354166666666667e-05, + "loss": 0.0043, + "step": 5312 + }, + { + "epoch": 11.070833333333333, + "grad_norm": 0.13054785132408142, + "learning_rate": 2.234375e-05, + "loss": 0.0114, + "step": 5314 + }, + { + "epoch": 11.075, + "grad_norm": 0.26039615273475647, + "learning_rate": 2.2333333333333335e-05, + "loss": 0.0043, + "step": 5316 + }, + { + "epoch": 11.079166666666667, + "grad_norm": 0.2547140121459961, + "learning_rate": 2.232291666666667e-05, + "loss": 0.0052, + "step": 5318 + }, + { + "epoch": 11.083333333333334, + "grad_norm": 0.2892366051673889, + "learning_rate": 2.23125e-05, + "loss": 0.0059, + "step": 5320 + }, + { + "epoch": 11.0875, + "grad_norm": 0.10312634706497192, + "learning_rate": 2.2302083333333334e-05, + "loss": 0.0036, + "step": 5322 + }, + { + "epoch": 11.091666666666667, + "grad_norm": 0.1400109827518463, + "learning_rate": 2.229166666666667e-05, + "loss": 0.0079, + "step": 5324 + }, + { + "epoch": 11.095833333333333, + "grad_norm": 0.4039161503314972, + "learning_rate": 2.228125e-05, + "loss": 0.0048, + "step": 5326 + }, + { + "epoch": 11.1, + "grad_norm": 0.11112111806869507, + "learning_rate": 2.2270833333333334e-05, + "loss": 0.0041, + "step": 5328 + }, + { + "epoch": 11.104166666666666, + "grad_norm": 0.3151986002922058, + "learning_rate": 2.2260416666666668e-05, + "loss": 0.0143, + "step": 5330 + }, + { + "epoch": 11.108333333333333, + "grad_norm": 0.11282768845558167, + "learning_rate": 2.2250000000000002e-05, + "loss": 0.0044, + "step": 5332 + }, + { + "epoch": 11.1125, + "grad_norm": 0.3155863285064697, + "learning_rate": 2.2239583333333333e-05, + "loss": 0.0069, + "step": 5334 + }, + { + "epoch": 11.116666666666667, + "grad_norm": 0.24473817646503448, + "learning_rate": 2.2229166666666667e-05, + "loss": 0.0082, + "step": 5336 + }, + { + "epoch": 11.120833333333334, + "grad_norm": 0.26377609372138977, + "learning_rate": 2.221875e-05, + "loss": 0.0077, + "step": 5338 + }, + { + "epoch": 11.125, + "grad_norm": 0.09334707260131836, + "learning_rate": 2.2208333333333332e-05, + "loss": 0.0036, + "step": 5340 + }, + { + "epoch": 11.129166666666666, + "grad_norm": 0.8148914575576782, + "learning_rate": 2.219791666666667e-05, + "loss": 0.0073, + "step": 5342 + }, + { + "epoch": 11.133333333333333, + "grad_norm": 0.09025494009256363, + "learning_rate": 2.21875e-05, + "loss": 0.0037, + "step": 5344 + }, + { + "epoch": 11.1375, + "grad_norm": 0.10234276205301285, + "learning_rate": 2.2177083333333335e-05, + "loss": 0.0042, + "step": 5346 + }, + { + "epoch": 11.141666666666667, + "grad_norm": 0.13562321662902832, + "learning_rate": 2.216666666666667e-05, + "loss": 0.0038, + "step": 5348 + }, + { + "epoch": 11.145833333333334, + "grad_norm": 0.26421159505844116, + "learning_rate": 2.215625e-05, + "loss": 0.0058, + "step": 5350 + }, + { + "epoch": 11.15, + "grad_norm": 0.23344041407108307, + "learning_rate": 2.2145833333333334e-05, + "loss": 0.0066, + "step": 5352 + }, + { + "epoch": 11.154166666666667, + "grad_norm": 0.21719442307949066, + "learning_rate": 2.2135416666666668e-05, + "loss": 0.0045, + "step": 5354 + }, + { + "epoch": 11.158333333333333, + "grad_norm": 0.11589968949556351, + "learning_rate": 2.2125000000000002e-05, + "loss": 0.0047, + "step": 5356 + }, + { + "epoch": 11.1625, + "grad_norm": 0.31840217113494873, + "learning_rate": 2.2114583333333337e-05, + "loss": 0.0061, + "step": 5358 + }, + { + "epoch": 11.166666666666666, + "grad_norm": 0.21088922023773193, + "learning_rate": 2.2104166666666667e-05, + "loss": 0.004, + "step": 5360 + }, + { + "epoch": 11.170833333333333, + "grad_norm": 0.40874528884887695, + "learning_rate": 2.2093750000000002e-05, + "loss": 0.0055, + "step": 5362 + }, + { + "epoch": 11.175, + "grad_norm": 0.2009340226650238, + "learning_rate": 2.2083333333333333e-05, + "loss": 0.0089, + "step": 5364 + }, + { + "epoch": 11.179166666666667, + "grad_norm": 0.4809090793132782, + "learning_rate": 2.2072916666666667e-05, + "loss": 0.0087, + "step": 5366 + }, + { + "epoch": 11.183333333333334, + "grad_norm": 0.2524220049381256, + "learning_rate": 2.20625e-05, + "loss": 0.0103, + "step": 5368 + }, + { + "epoch": 11.1875, + "grad_norm": 0.08572123944759369, + "learning_rate": 2.2052083333333335e-05, + "loss": 0.0124, + "step": 5370 + }, + { + "epoch": 11.191666666666666, + "grad_norm": 0.18648484349250793, + "learning_rate": 2.204166666666667e-05, + "loss": 0.0113, + "step": 5372 + }, + { + "epoch": 11.195833333333333, + "grad_norm": 0.13764068484306335, + "learning_rate": 2.203125e-05, + "loss": 0.0046, + "step": 5374 + }, + { + "epoch": 11.2, + "grad_norm": 0.17007997632026672, + "learning_rate": 2.2020833333333334e-05, + "loss": 0.0035, + "step": 5376 + }, + { + "epoch": 11.204166666666667, + "grad_norm": 0.3239564597606659, + "learning_rate": 2.2010416666666665e-05, + "loss": 0.0043, + "step": 5378 + }, + { + "epoch": 11.208333333333334, + "grad_norm": 0.27689430117607117, + "learning_rate": 2.2000000000000003e-05, + "loss": 0.01, + "step": 5380 + }, + { + "epoch": 11.2125, + "grad_norm": 0.1706518977880478, + "learning_rate": 2.1989583333333337e-05, + "loss": 0.0042, + "step": 5382 + }, + { + "epoch": 11.216666666666667, + "grad_norm": 0.18975432217121124, + "learning_rate": 2.1979166666666668e-05, + "loss": 0.005, + "step": 5384 + }, + { + "epoch": 11.220833333333333, + "grad_norm": 0.22202059626579285, + "learning_rate": 2.1968750000000002e-05, + "loss": 0.0047, + "step": 5386 + }, + { + "epoch": 11.225, + "grad_norm": 0.10202885419130325, + "learning_rate": 2.1958333333333333e-05, + "loss": 0.0061, + "step": 5388 + }, + { + "epoch": 11.229166666666666, + "grad_norm": 0.2862538993358612, + "learning_rate": 2.1947916666666667e-05, + "loss": 0.004, + "step": 5390 + }, + { + "epoch": 11.233333333333333, + "grad_norm": 0.22317923605442047, + "learning_rate": 2.19375e-05, + "loss": 0.0092, + "step": 5392 + }, + { + "epoch": 11.2375, + "grad_norm": 0.2685011029243469, + "learning_rate": 2.1927083333333336e-05, + "loss": 0.0041, + "step": 5394 + }, + { + "epoch": 11.241666666666667, + "grad_norm": 0.15018096566200256, + "learning_rate": 2.191666666666667e-05, + "loss": 0.0038, + "step": 5396 + }, + { + "epoch": 11.245833333333334, + "grad_norm": 0.4605119228363037, + "learning_rate": 2.190625e-05, + "loss": 0.0064, + "step": 5398 + }, + { + "epoch": 11.25, + "grad_norm": 0.18015289306640625, + "learning_rate": 2.1895833333333335e-05, + "loss": 0.0038, + "step": 5400 + }, + { + "epoch": 11.25, + "eval_cer": 0.05900155486450467, + "eval_loss": 0.40621718764305115, + "eval_runtime": 75.4939, + "eval_samples_per_second": 5.219, + "eval_steps_per_second": 0.662, + "step": 5400 + }, + { + "epoch": 11.254166666666666, + "grad_norm": 0.12471625208854675, + "learning_rate": 2.1885416666666666e-05, + "loss": 0.0049, + "step": 5402 + }, + { + "epoch": 11.258333333333333, + "grad_norm": 0.3831551671028137, + "learning_rate": 2.1875e-05, + "loss": 0.0085, + "step": 5404 + }, + { + "epoch": 11.2625, + "grad_norm": 0.118219293653965, + "learning_rate": 2.1864583333333334e-05, + "loss": 0.0054, + "step": 5406 + }, + { + "epoch": 11.266666666666667, + "grad_norm": 0.28454381227493286, + "learning_rate": 2.1854166666666668e-05, + "loss": 0.0088, + "step": 5408 + }, + { + "epoch": 11.270833333333334, + "grad_norm": 0.1995982527732849, + "learning_rate": 2.1843750000000002e-05, + "loss": 0.0047, + "step": 5410 + }, + { + "epoch": 11.275, + "grad_norm": 0.48554494976997375, + "learning_rate": 2.1833333333333333e-05, + "loss": 0.0056, + "step": 5412 + }, + { + "epoch": 11.279166666666667, + "grad_norm": 0.5193212628364563, + "learning_rate": 2.1822916666666667e-05, + "loss": 0.0118, + "step": 5414 + }, + { + "epoch": 11.283333333333333, + "grad_norm": 0.3800783157348633, + "learning_rate": 2.18125e-05, + "loss": 0.0079, + "step": 5416 + }, + { + "epoch": 11.2875, + "grad_norm": 0.17618264257907867, + "learning_rate": 2.1802083333333332e-05, + "loss": 0.0089, + "step": 5418 + }, + { + "epoch": 11.291666666666666, + "grad_norm": 0.5535473227500916, + "learning_rate": 2.179166666666667e-05, + "loss": 0.01, + "step": 5420 + }, + { + "epoch": 11.295833333333333, + "grad_norm": 0.323717325925827, + "learning_rate": 2.178125e-05, + "loss": 0.0064, + "step": 5422 + }, + { + "epoch": 11.3, + "grad_norm": 0.4848445653915405, + "learning_rate": 2.1770833333333335e-05, + "loss": 0.0122, + "step": 5424 + }, + { + "epoch": 11.304166666666667, + "grad_norm": 0.17460107803344727, + "learning_rate": 2.1760416666666666e-05, + "loss": 0.004, + "step": 5426 + }, + { + "epoch": 11.308333333333334, + "grad_norm": 0.2708526849746704, + "learning_rate": 2.175e-05, + "loss": 0.005, + "step": 5428 + }, + { + "epoch": 11.3125, + "grad_norm": 0.07279666513204575, + "learning_rate": 2.1739583333333334e-05, + "loss": 0.0052, + "step": 5430 + }, + { + "epoch": 11.316666666666666, + "grad_norm": 0.18105334043502808, + "learning_rate": 2.172916666666667e-05, + "loss": 0.0041, + "step": 5432 + }, + { + "epoch": 11.320833333333333, + "grad_norm": 0.5327079892158508, + "learning_rate": 2.1718750000000003e-05, + "loss": 0.0057, + "step": 5434 + }, + { + "epoch": 11.325, + "grad_norm": 0.148968905210495, + "learning_rate": 2.1708333333333334e-05, + "loss": 0.0072, + "step": 5436 + }, + { + "epoch": 11.329166666666667, + "grad_norm": 0.1283329427242279, + "learning_rate": 2.1697916666666668e-05, + "loss": 0.0063, + "step": 5438 + }, + { + "epoch": 11.333333333333334, + "grad_norm": 0.2779463231563568, + "learning_rate": 2.1687500000000002e-05, + "loss": 0.0074, + "step": 5440 + }, + { + "epoch": 11.3375, + "grad_norm": 0.2823297083377838, + "learning_rate": 2.1677083333333333e-05, + "loss": 0.0079, + "step": 5442 + }, + { + "epoch": 11.341666666666667, + "grad_norm": 0.11799655854701996, + "learning_rate": 2.1666666666666667e-05, + "loss": 0.0106, + "step": 5444 + }, + { + "epoch": 11.345833333333333, + "grad_norm": 0.08582490682601929, + "learning_rate": 2.165625e-05, + "loss": 0.0035, + "step": 5446 + }, + { + "epoch": 11.35, + "grad_norm": 0.3342435657978058, + "learning_rate": 2.1645833333333335e-05, + "loss": 0.0059, + "step": 5448 + }, + { + "epoch": 11.354166666666666, + "grad_norm": 0.2006761133670807, + "learning_rate": 2.1635416666666666e-05, + "loss": 0.0062, + "step": 5450 + }, + { + "epoch": 11.358333333333333, + "grad_norm": 0.07708311080932617, + "learning_rate": 2.1625e-05, + "loss": 0.0076, + "step": 5452 + }, + { + "epoch": 11.3625, + "grad_norm": 0.3516533374786377, + "learning_rate": 2.1614583333333335e-05, + "loss": 0.0056, + "step": 5454 + }, + { + "epoch": 11.366666666666667, + "grad_norm": 0.28511345386505127, + "learning_rate": 2.1604166666666666e-05, + "loss": 0.0086, + "step": 5456 + }, + { + "epoch": 11.370833333333334, + "grad_norm": 0.6914629340171814, + "learning_rate": 2.1593750000000003e-05, + "loss": 0.0081, + "step": 5458 + }, + { + "epoch": 11.375, + "grad_norm": 0.3832404613494873, + "learning_rate": 2.1583333333333334e-05, + "loss": 0.0088, + "step": 5460 + }, + { + "epoch": 11.379166666666666, + "grad_norm": 0.392055481672287, + "learning_rate": 2.1572916666666668e-05, + "loss": 0.0059, + "step": 5462 + }, + { + "epoch": 11.383333333333333, + "grad_norm": 0.1108187735080719, + "learning_rate": 2.1562500000000002e-05, + "loss": 0.0042, + "step": 5464 + }, + { + "epoch": 11.3875, + "grad_norm": 0.19530847668647766, + "learning_rate": 2.1552083333333333e-05, + "loss": 0.0045, + "step": 5466 + }, + { + "epoch": 11.391666666666667, + "grad_norm": 0.1339133381843567, + "learning_rate": 2.1541666666666667e-05, + "loss": 0.0034, + "step": 5468 + }, + { + "epoch": 11.395833333333334, + "grad_norm": 0.14195281267166138, + "learning_rate": 2.153125e-05, + "loss": 0.0044, + "step": 5470 + }, + { + "epoch": 11.4, + "grad_norm": 0.21636252105236053, + "learning_rate": 2.1520833333333336e-05, + "loss": 0.0046, + "step": 5472 + }, + { + "epoch": 11.404166666666667, + "grad_norm": 0.3773920238018036, + "learning_rate": 2.151041666666667e-05, + "loss": 0.0063, + "step": 5474 + }, + { + "epoch": 11.408333333333333, + "grad_norm": 0.43185216188430786, + "learning_rate": 2.15e-05, + "loss": 0.0131, + "step": 5476 + }, + { + "epoch": 11.4125, + "grad_norm": 0.09003946185112, + "learning_rate": 2.1489583333333335e-05, + "loss": 0.003, + "step": 5478 + }, + { + "epoch": 11.416666666666666, + "grad_norm": 0.3297802209854126, + "learning_rate": 2.1479166666666666e-05, + "loss": 0.0081, + "step": 5480 + }, + { + "epoch": 11.420833333333333, + "grad_norm": 0.5099610090255737, + "learning_rate": 2.146875e-05, + "loss": 0.0106, + "step": 5482 + }, + { + "epoch": 11.425, + "grad_norm": 0.13046789169311523, + "learning_rate": 2.1458333333333334e-05, + "loss": 0.0058, + "step": 5484 + }, + { + "epoch": 11.429166666666667, + "grad_norm": 0.7448767423629761, + "learning_rate": 2.144791666666667e-05, + "loss": 0.0043, + "step": 5486 + }, + { + "epoch": 11.433333333333334, + "grad_norm": 0.12755000591278076, + "learning_rate": 2.1437500000000003e-05, + "loss": 0.005, + "step": 5488 + }, + { + "epoch": 11.4375, + "grad_norm": 0.79160076379776, + "learning_rate": 2.1427083333333334e-05, + "loss": 0.0085, + "step": 5490 + }, + { + "epoch": 11.441666666666666, + "grad_norm": 0.14273864030838013, + "learning_rate": 2.1416666666666668e-05, + "loss": 0.004, + "step": 5492 + }, + { + "epoch": 11.445833333333333, + "grad_norm": 0.27386078238487244, + "learning_rate": 2.140625e-05, + "loss": 0.006, + "step": 5494 + }, + { + "epoch": 11.45, + "grad_norm": 1.4285553693771362, + "learning_rate": 2.1395833333333333e-05, + "loss": 0.0145, + "step": 5496 + }, + { + "epoch": 11.454166666666667, + "grad_norm": 0.6688889265060425, + "learning_rate": 2.138541666666667e-05, + "loss": 0.0096, + "step": 5498 + }, + { + "epoch": 11.458333333333334, + "grad_norm": 0.37388163805007935, + "learning_rate": 2.1375e-05, + "loss": 0.0121, + "step": 5500 + }, + { + "epoch": 11.4625, + "grad_norm": 0.5253106951713562, + "learning_rate": 2.1364583333333335e-05, + "loss": 0.0062, + "step": 5502 + }, + { + "epoch": 11.466666666666667, + "grad_norm": 0.18301111459732056, + "learning_rate": 2.1354166666666666e-05, + "loss": 0.0039, + "step": 5504 + }, + { + "epoch": 11.470833333333333, + "grad_norm": 0.1626482754945755, + "learning_rate": 2.134375e-05, + "loss": 0.006, + "step": 5506 + }, + { + "epoch": 11.475, + "grad_norm": 0.1303604692220688, + "learning_rate": 2.1333333333333335e-05, + "loss": 0.0066, + "step": 5508 + }, + { + "epoch": 11.479166666666666, + "grad_norm": 1.2022501230239868, + "learning_rate": 2.132291666666667e-05, + "loss": 0.0112, + "step": 5510 + }, + { + "epoch": 11.483333333333333, + "grad_norm": 0.2564866542816162, + "learning_rate": 2.1312500000000003e-05, + "loss": 0.0066, + "step": 5512 + }, + { + "epoch": 11.4875, + "grad_norm": 0.11252661794424057, + "learning_rate": 2.1302083333333334e-05, + "loss": 0.006, + "step": 5514 + }, + { + "epoch": 11.491666666666667, + "grad_norm": 1.9845887422561646, + "learning_rate": 2.1291666666666668e-05, + "loss": 0.0137, + "step": 5516 + }, + { + "epoch": 11.495833333333334, + "grad_norm": 0.37477540969848633, + "learning_rate": 2.128125e-05, + "loss": 0.005, + "step": 5518 + }, + { + "epoch": 11.5, + "grad_norm": 0.9179544448852539, + "learning_rate": 2.1270833333333333e-05, + "loss": 0.0137, + "step": 5520 + }, + { + "epoch": 11.504166666666666, + "grad_norm": 0.14215679466724396, + "learning_rate": 2.1260416666666667e-05, + "loss": 0.01, + "step": 5522 + }, + { + "epoch": 11.508333333333333, + "grad_norm": 0.7102984189987183, + "learning_rate": 2.125e-05, + "loss": 0.0088, + "step": 5524 + }, + { + "epoch": 11.5125, + "grad_norm": 1.1501877307891846, + "learning_rate": 2.1239583333333336e-05, + "loss": 0.0053, + "step": 5526 + }, + { + "epoch": 11.516666666666667, + "grad_norm": 0.42684823274612427, + "learning_rate": 2.1229166666666667e-05, + "loss": 0.0063, + "step": 5528 + }, + { + "epoch": 11.520833333333334, + "grad_norm": 0.22833840548992157, + "learning_rate": 2.121875e-05, + "loss": 0.0069, + "step": 5530 + }, + { + "epoch": 11.525, + "grad_norm": 0.5448914170265198, + "learning_rate": 2.1208333333333335e-05, + "loss": 0.0057, + "step": 5532 + }, + { + "epoch": 11.529166666666667, + "grad_norm": 0.2875007390975952, + "learning_rate": 2.1197916666666666e-05, + "loss": 0.0044, + "step": 5534 + }, + { + "epoch": 11.533333333333333, + "grad_norm": 0.6705799698829651, + "learning_rate": 2.1187500000000003e-05, + "loss": 0.0082, + "step": 5536 + }, + { + "epoch": 11.5375, + "grad_norm": 0.2536393702030182, + "learning_rate": 2.1177083333333334e-05, + "loss": 0.0071, + "step": 5538 + }, + { + "epoch": 11.541666666666666, + "grad_norm": 0.4556005597114563, + "learning_rate": 2.116666666666667e-05, + "loss": 0.0069, + "step": 5540 + }, + { + "epoch": 11.545833333333333, + "grad_norm": 0.2073305994272232, + "learning_rate": 2.115625e-05, + "loss": 0.0042, + "step": 5542 + }, + { + "epoch": 11.55, + "grad_norm": 0.2683389484882355, + "learning_rate": 2.1145833333333333e-05, + "loss": 0.0056, + "step": 5544 + }, + { + "epoch": 11.554166666666667, + "grad_norm": 0.08961108326911926, + "learning_rate": 2.1135416666666668e-05, + "loss": 0.004, + "step": 5546 + }, + { + "epoch": 11.558333333333334, + "grad_norm": 0.15840335190296173, + "learning_rate": 2.1125000000000002e-05, + "loss": 0.0035, + "step": 5548 + }, + { + "epoch": 11.5625, + "grad_norm": 0.3700858950614929, + "learning_rate": 2.1114583333333336e-05, + "loss": 0.0049, + "step": 5550 + }, + { + "epoch": 11.566666666666666, + "grad_norm": 0.15944194793701172, + "learning_rate": 2.1104166666666667e-05, + "loss": 0.006, + "step": 5552 + }, + { + "epoch": 11.570833333333333, + "grad_norm": 0.20845191180706024, + "learning_rate": 2.109375e-05, + "loss": 0.0049, + "step": 5554 + }, + { + "epoch": 11.575, + "grad_norm": 0.27924928069114685, + "learning_rate": 2.1083333333333335e-05, + "loss": 0.0059, + "step": 5556 + }, + { + "epoch": 11.579166666666667, + "grad_norm": 0.36979374289512634, + "learning_rate": 2.1072916666666666e-05, + "loss": 0.0076, + "step": 5558 + }, + { + "epoch": 11.583333333333334, + "grad_norm": 0.17433571815490723, + "learning_rate": 2.10625e-05, + "loss": 0.0042, + "step": 5560 + }, + { + "epoch": 11.5875, + "grad_norm": 1.0232577323913574, + "learning_rate": 2.1052083333333335e-05, + "loss": 0.0093, + "step": 5562 + }, + { + "epoch": 11.591666666666667, + "grad_norm": 0.18578392267227173, + "learning_rate": 2.104166666666667e-05, + "loss": 0.0033, + "step": 5564 + }, + { + "epoch": 11.595833333333333, + "grad_norm": 0.5110247135162354, + "learning_rate": 2.1031250000000003e-05, + "loss": 0.0125, + "step": 5566 + }, + { + "epoch": 11.6, + "grad_norm": 0.23456624150276184, + "learning_rate": 2.1020833333333334e-05, + "loss": 0.005, + "step": 5568 + }, + { + "epoch": 11.604166666666666, + "grad_norm": 0.2404676377773285, + "learning_rate": 2.1010416666666668e-05, + "loss": 0.004, + "step": 5570 + }, + { + "epoch": 11.608333333333333, + "grad_norm": 0.07095851749181747, + "learning_rate": 2.1e-05, + "loss": 0.004, + "step": 5572 + }, + { + "epoch": 11.6125, + "grad_norm": 0.1716654896736145, + "learning_rate": 2.0989583333333333e-05, + "loss": 0.0059, + "step": 5574 + }, + { + "epoch": 11.616666666666667, + "grad_norm": 0.12430752068758011, + "learning_rate": 2.0979166666666667e-05, + "loss": 0.0032, + "step": 5576 + }, + { + "epoch": 11.620833333333334, + "grad_norm": 0.37310630083084106, + "learning_rate": 2.096875e-05, + "loss": 0.0044, + "step": 5578 + }, + { + "epoch": 11.625, + "grad_norm": 0.30032771825790405, + "learning_rate": 2.0958333333333336e-05, + "loss": 0.0049, + "step": 5580 + }, + { + "epoch": 11.629166666666666, + "grad_norm": 0.160261869430542, + "learning_rate": 2.0947916666666666e-05, + "loss": 0.0041, + "step": 5582 + }, + { + "epoch": 11.633333333333333, + "grad_norm": 0.6883515119552612, + "learning_rate": 2.09375e-05, + "loss": 0.0072, + "step": 5584 + }, + { + "epoch": 11.6375, + "grad_norm": 0.16608570516109467, + "learning_rate": 2.0927083333333335e-05, + "loss": 0.0033, + "step": 5586 + }, + { + "epoch": 11.641666666666667, + "grad_norm": 0.3280135691165924, + "learning_rate": 2.091666666666667e-05, + "loss": 0.014, + "step": 5588 + }, + { + "epoch": 11.645833333333334, + "grad_norm": 0.16164982318878174, + "learning_rate": 2.0906250000000003e-05, + "loss": 0.0055, + "step": 5590 + }, + { + "epoch": 11.65, + "grad_norm": 0.15164969861507416, + "learning_rate": 2.0895833333333334e-05, + "loss": 0.0034, + "step": 5592 + }, + { + "epoch": 11.654166666666667, + "grad_norm": 0.1090688407421112, + "learning_rate": 2.088541666666667e-05, + "loss": 0.0041, + "step": 5594 + }, + { + "epoch": 11.658333333333333, + "grad_norm": 0.16300906240940094, + "learning_rate": 2.0875e-05, + "loss": 0.0045, + "step": 5596 + }, + { + "epoch": 11.6625, + "grad_norm": 0.1310596913099289, + "learning_rate": 2.0864583333333333e-05, + "loss": 0.0053, + "step": 5598 + }, + { + "epoch": 11.666666666666666, + "grad_norm": 0.12218859791755676, + "learning_rate": 2.0854166666666668e-05, + "loss": 0.0041, + "step": 5600 + }, + { + "epoch": 11.666666666666666, + "eval_cer": 0.056752554420257666, + "eval_loss": 0.4118540287017822, + "eval_runtime": 75.8374, + "eval_samples_per_second": 5.195, + "eval_steps_per_second": 0.659, + "step": 5600 + }, + { + "epoch": 11.670833333333333, + "grad_norm": 0.607795774936676, + "learning_rate": 2.0843750000000002e-05, + "loss": 0.0083, + "step": 5602 + }, + { + "epoch": 11.675, + "grad_norm": 0.32309913635253906, + "learning_rate": 2.0833333333333336e-05, + "loss": 0.0085, + "step": 5604 + }, + { + "epoch": 11.679166666666667, + "grad_norm": 0.221426323056221, + "learning_rate": 2.0822916666666667e-05, + "loss": 0.0053, + "step": 5606 + }, + { + "epoch": 11.683333333333334, + "grad_norm": 0.31034237146377563, + "learning_rate": 2.08125e-05, + "loss": 0.0116, + "step": 5608 + }, + { + "epoch": 11.6875, + "grad_norm": 0.22828349471092224, + "learning_rate": 2.0802083333333332e-05, + "loss": 0.0072, + "step": 5610 + }, + { + "epoch": 11.691666666666666, + "grad_norm": 0.52789705991745, + "learning_rate": 2.0791666666666666e-05, + "loss": 0.0071, + "step": 5612 + }, + { + "epoch": 11.695833333333333, + "grad_norm": 0.18092204630374908, + "learning_rate": 2.0781250000000004e-05, + "loss": 0.004, + "step": 5614 + }, + { + "epoch": 11.7, + "grad_norm": 0.25349149107933044, + "learning_rate": 2.0770833333333335e-05, + "loss": 0.0047, + "step": 5616 + }, + { + "epoch": 11.704166666666667, + "grad_norm": 0.16513817012310028, + "learning_rate": 2.076041666666667e-05, + "loss": 0.0046, + "step": 5618 + }, + { + "epoch": 11.708333333333334, + "grad_norm": 0.11228234320878983, + "learning_rate": 2.075e-05, + "loss": 0.0045, + "step": 5620 + }, + { + "epoch": 11.7125, + "grad_norm": 0.21161220967769623, + "learning_rate": 2.0739583333333334e-05, + "loss": 0.0059, + "step": 5622 + }, + { + "epoch": 11.716666666666667, + "grad_norm": 0.17172405123710632, + "learning_rate": 2.0729166666666668e-05, + "loss": 0.0062, + "step": 5624 + }, + { + "epoch": 11.720833333333333, + "grad_norm": 0.16643846035003662, + "learning_rate": 2.0718750000000002e-05, + "loss": 0.0033, + "step": 5626 + }, + { + "epoch": 11.725, + "grad_norm": 0.3321714699268341, + "learning_rate": 2.0708333333333336e-05, + "loss": 0.0063, + "step": 5628 + }, + { + "epoch": 11.729166666666666, + "grad_norm": 0.5518544316291809, + "learning_rate": 2.0697916666666667e-05, + "loss": 0.0059, + "step": 5630 + }, + { + "epoch": 11.733333333333333, + "grad_norm": 0.13135270774364471, + "learning_rate": 2.06875e-05, + "loss": 0.004, + "step": 5632 + }, + { + "epoch": 11.7375, + "grad_norm": 0.21046854555606842, + "learning_rate": 2.0677083333333332e-05, + "loss": 0.0056, + "step": 5634 + }, + { + "epoch": 11.741666666666667, + "grad_norm": 0.16194966435432434, + "learning_rate": 2.0666666666666666e-05, + "loss": 0.0039, + "step": 5636 + }, + { + "epoch": 11.745833333333334, + "grad_norm": 0.12537366151809692, + "learning_rate": 2.065625e-05, + "loss": 0.0049, + "step": 5638 + }, + { + "epoch": 11.75, + "grad_norm": 0.7271407842636108, + "learning_rate": 2.0645833333333335e-05, + "loss": 0.0076, + "step": 5640 + }, + { + "epoch": 11.754166666666666, + "grad_norm": 0.20175445079803467, + "learning_rate": 2.063541666666667e-05, + "loss": 0.0053, + "step": 5642 + }, + { + "epoch": 11.758333333333333, + "grad_norm": 0.29951298236846924, + "learning_rate": 2.0625e-05, + "loss": 0.0064, + "step": 5644 + }, + { + "epoch": 11.7625, + "grad_norm": 0.2548162043094635, + "learning_rate": 2.0614583333333334e-05, + "loss": 0.0121, + "step": 5646 + }, + { + "epoch": 11.766666666666667, + "grad_norm": 0.2949858605861664, + "learning_rate": 2.060416666666667e-05, + "loss": 0.008, + "step": 5648 + }, + { + "epoch": 11.770833333333334, + "grad_norm": 1.3777806758880615, + "learning_rate": 2.059375e-05, + "loss": 0.0134, + "step": 5650 + }, + { + "epoch": 11.775, + "grad_norm": 0.12392773479223251, + "learning_rate": 2.0583333333333333e-05, + "loss": 0.0045, + "step": 5652 + }, + { + "epoch": 11.779166666666667, + "grad_norm": 0.14528034627437592, + "learning_rate": 2.0572916666666668e-05, + "loss": 0.0046, + "step": 5654 + }, + { + "epoch": 11.783333333333333, + "grad_norm": 0.2976987659931183, + "learning_rate": 2.0562500000000002e-05, + "loss": 0.0049, + "step": 5656 + }, + { + "epoch": 11.7875, + "grad_norm": 0.17385776340961456, + "learning_rate": 2.0552083333333336e-05, + "loss": 0.0043, + "step": 5658 + }, + { + "epoch": 11.791666666666666, + "grad_norm": 0.47948500514030457, + "learning_rate": 2.0541666666666667e-05, + "loss": 0.011, + "step": 5660 + }, + { + "epoch": 11.795833333333333, + "grad_norm": 0.2697466015815735, + "learning_rate": 2.053125e-05, + "loss": 0.0047, + "step": 5662 + }, + { + "epoch": 11.8, + "grad_norm": 0.23156797885894775, + "learning_rate": 2.0520833333333335e-05, + "loss": 0.0045, + "step": 5664 + }, + { + "epoch": 11.804166666666667, + "grad_norm": 0.07147888839244843, + "learning_rate": 2.051041666666667e-05, + "loss": 0.0033, + "step": 5666 + }, + { + "epoch": 11.808333333333334, + "grad_norm": 0.1589713990688324, + "learning_rate": 2.05e-05, + "loss": 0.0043, + "step": 5668 + }, + { + "epoch": 11.8125, + "grad_norm": 0.1257808804512024, + "learning_rate": 2.0489583333333334e-05, + "loss": 0.0047, + "step": 5670 + }, + { + "epoch": 11.816666666666666, + "grad_norm": 0.2323353886604309, + "learning_rate": 2.047916666666667e-05, + "loss": 0.0056, + "step": 5672 + }, + { + "epoch": 11.820833333333333, + "grad_norm": 0.4467550814151764, + "learning_rate": 2.046875e-05, + "loss": 0.0044, + "step": 5674 + }, + { + "epoch": 11.825, + "grad_norm": 0.31382474303245544, + "learning_rate": 2.0458333333333334e-05, + "loss": 0.0077, + "step": 5676 + }, + { + "epoch": 11.829166666666667, + "grad_norm": 1.1931864023208618, + "learning_rate": 2.0447916666666668e-05, + "loss": 0.0079, + "step": 5678 + }, + { + "epoch": 11.833333333333334, + "grad_norm": 0.13346697390079498, + "learning_rate": 2.0437500000000002e-05, + "loss": 0.0039, + "step": 5680 + }, + { + "epoch": 11.8375, + "grad_norm": 0.4536321461200714, + "learning_rate": 2.0427083333333336e-05, + "loss": 0.0079, + "step": 5682 + }, + { + "epoch": 11.841666666666667, + "grad_norm": 0.12358766049146652, + "learning_rate": 2.0416666666666667e-05, + "loss": 0.0044, + "step": 5684 + }, + { + "epoch": 11.845833333333333, + "grad_norm": 0.2036765217781067, + "learning_rate": 2.040625e-05, + "loss": 0.0058, + "step": 5686 + }, + { + "epoch": 11.85, + "grad_norm": 0.3512805104255676, + "learning_rate": 2.0395833333333332e-05, + "loss": 0.0063, + "step": 5688 + }, + { + "epoch": 11.854166666666666, + "grad_norm": 0.19244936108589172, + "learning_rate": 2.0385416666666666e-05, + "loss": 0.0054, + "step": 5690 + }, + { + "epoch": 11.858333333333333, + "grad_norm": 0.10313227772712708, + "learning_rate": 2.0375e-05, + "loss": 0.0047, + "step": 5692 + }, + { + "epoch": 11.8625, + "grad_norm": 0.19236302375793457, + "learning_rate": 2.0364583333333335e-05, + "loss": 0.0074, + "step": 5694 + }, + { + "epoch": 11.866666666666667, + "grad_norm": 0.3313475549221039, + "learning_rate": 2.035416666666667e-05, + "loss": 0.0144, + "step": 5696 + }, + { + "epoch": 11.870833333333334, + "grad_norm": 0.2600057125091553, + "learning_rate": 2.034375e-05, + "loss": 0.0054, + "step": 5698 + }, + { + "epoch": 11.875, + "grad_norm": 0.0890326201915741, + "learning_rate": 2.0333333333333334e-05, + "loss": 0.0163, + "step": 5700 + }, + { + "epoch": 11.879166666666666, + "grad_norm": 0.12212791293859482, + "learning_rate": 2.0322916666666665e-05, + "loss": 0.0039, + "step": 5702 + }, + { + "epoch": 11.883333333333333, + "grad_norm": 0.16270384192466736, + "learning_rate": 2.0312500000000002e-05, + "loss": 0.0058, + "step": 5704 + }, + { + "epoch": 11.8875, + "grad_norm": 0.12538057565689087, + "learning_rate": 2.0302083333333337e-05, + "loss": 0.0032, + "step": 5706 + }, + { + "epoch": 11.891666666666667, + "grad_norm": 0.38861387968063354, + "learning_rate": 2.0291666666666667e-05, + "loss": 0.0082, + "step": 5708 + }, + { + "epoch": 11.895833333333334, + "grad_norm": 0.2764340043067932, + "learning_rate": 2.0281250000000002e-05, + "loss": 0.0077, + "step": 5710 + }, + { + "epoch": 11.9, + "grad_norm": 0.3225233554840088, + "learning_rate": 2.0270833333333333e-05, + "loss": 0.0052, + "step": 5712 + }, + { + "epoch": 11.904166666666667, + "grad_norm": 0.12362344563007355, + "learning_rate": 2.0260416666666667e-05, + "loss": 0.006, + "step": 5714 + }, + { + "epoch": 11.908333333333333, + "grad_norm": 0.22279609739780426, + "learning_rate": 2.025e-05, + "loss": 0.0062, + "step": 5716 + }, + { + "epoch": 11.9125, + "grad_norm": 1.402426838874817, + "learning_rate": 2.0239583333333335e-05, + "loss": 0.005, + "step": 5718 + }, + { + "epoch": 11.916666666666666, + "grad_norm": 0.12483213096857071, + "learning_rate": 2.022916666666667e-05, + "loss": 0.0036, + "step": 5720 + }, + { + "epoch": 11.920833333333333, + "grad_norm": 0.32906976342201233, + "learning_rate": 2.021875e-05, + "loss": 0.0042, + "step": 5722 + }, + { + "epoch": 11.925, + "grad_norm": 0.10241012275218964, + "learning_rate": 2.0208333333333334e-05, + "loss": 0.0042, + "step": 5724 + }, + { + "epoch": 11.929166666666667, + "grad_norm": 0.23845745623111725, + "learning_rate": 2.0197916666666665e-05, + "loss": 0.0044, + "step": 5726 + }, + { + "epoch": 11.933333333333334, + "grad_norm": 0.39004990458488464, + "learning_rate": 2.01875e-05, + "loss": 0.0064, + "step": 5728 + }, + { + "epoch": 11.9375, + "grad_norm": 0.12265156209468842, + "learning_rate": 2.0177083333333337e-05, + "loss": 0.0043, + "step": 5730 + }, + { + "epoch": 11.941666666666666, + "grad_norm": 0.4878791570663452, + "learning_rate": 2.0166666666666668e-05, + "loss": 0.006, + "step": 5732 + }, + { + "epoch": 11.945833333333333, + "grad_norm": 0.12098278105258942, + "learning_rate": 2.0156250000000002e-05, + "loss": 0.0043, + "step": 5734 + }, + { + "epoch": 11.95, + "grad_norm": 0.17786738276481628, + "learning_rate": 2.0145833333333333e-05, + "loss": 0.0046, + "step": 5736 + }, + { + "epoch": 11.954166666666667, + "grad_norm": 4.72953987121582, + "learning_rate": 2.0135416666666667e-05, + "loss": 0.0084, + "step": 5738 + }, + { + "epoch": 11.958333333333334, + "grad_norm": 0.20814675092697144, + "learning_rate": 2.0125e-05, + "loss": 0.004, + "step": 5740 + }, + { + "epoch": 11.9625, + "grad_norm": 0.25677183270454407, + "learning_rate": 2.0114583333333335e-05, + "loss": 0.0037, + "step": 5742 + }, + { + "epoch": 11.966666666666667, + "grad_norm": 0.09203586727380753, + "learning_rate": 2.010416666666667e-05, + "loss": 0.0043, + "step": 5744 + }, + { + "epoch": 11.970833333333333, + "grad_norm": 0.4370933771133423, + "learning_rate": 2.009375e-05, + "loss": 0.0056, + "step": 5746 + }, + { + "epoch": 11.975, + "grad_norm": 0.911830484867096, + "learning_rate": 2.0083333333333335e-05, + "loss": 0.0094, + "step": 5748 + }, + { + "epoch": 11.979166666666666, + "grad_norm": 0.4757936894893646, + "learning_rate": 2.0072916666666666e-05, + "loss": 0.0098, + "step": 5750 + }, + { + "epoch": 11.983333333333333, + "grad_norm": 0.1641979068517685, + "learning_rate": 2.00625e-05, + "loss": 0.0056, + "step": 5752 + }, + { + "epoch": 11.9875, + "grad_norm": 0.16192474961280823, + "learning_rate": 2.0052083333333334e-05, + "loss": 0.0103, + "step": 5754 + }, + { + "epoch": 11.991666666666667, + "grad_norm": 5.07891845703125, + "learning_rate": 2.0041666666666668e-05, + "loss": 0.0129, + "step": 5756 + }, + { + "epoch": 11.995833333333334, + "grad_norm": 0.28704604506492615, + "learning_rate": 2.0031250000000002e-05, + "loss": 0.0107, + "step": 5758 + }, + { + "epoch": 12.0, + "grad_norm": 0.18753446638584137, + "learning_rate": 2.0020833333333333e-05, + "loss": 0.0068, + "step": 5760 + }, + { + "epoch": 12.004166666666666, + "grad_norm": 0.3631332814693451, + "learning_rate": 2.0010416666666667e-05, + "loss": 0.004, + "step": 5762 + }, + { + "epoch": 12.008333333333333, + "grad_norm": 0.08007864654064178, + "learning_rate": 2e-05, + "loss": 0.0036, + "step": 5764 + }, + { + "epoch": 12.0125, + "grad_norm": 0.19775842130184174, + "learning_rate": 1.9989583333333332e-05, + "loss": 0.0036, + "step": 5766 + }, + { + "epoch": 12.016666666666667, + "grad_norm": 0.31369736790657043, + "learning_rate": 1.9979166666666667e-05, + "loss": 0.0048, + "step": 5768 + }, + { + "epoch": 12.020833333333334, + "grad_norm": 0.05997704342007637, + "learning_rate": 1.996875e-05, + "loss": 0.0057, + "step": 5770 + }, + { + "epoch": 12.025, + "grad_norm": 0.1980482041835785, + "learning_rate": 1.9958333333333335e-05, + "loss": 0.0039, + "step": 5772 + }, + { + "epoch": 12.029166666666667, + "grad_norm": 0.07225392758846283, + "learning_rate": 1.994791666666667e-05, + "loss": 0.0026, + "step": 5774 + }, + { + "epoch": 12.033333333333333, + "grad_norm": 0.2691930830478668, + "learning_rate": 1.99375e-05, + "loss": 0.0042, + "step": 5776 + }, + { + "epoch": 12.0375, + "grad_norm": 0.3260795772075653, + "learning_rate": 1.9927083333333334e-05, + "loss": 0.0034, + "step": 5778 + }, + { + "epoch": 12.041666666666666, + "grad_norm": 0.3553968369960785, + "learning_rate": 1.9916666666666665e-05, + "loss": 0.0087, + "step": 5780 + }, + { + "epoch": 12.045833333333333, + "grad_norm": 0.9367809295654297, + "learning_rate": 1.9906250000000003e-05, + "loss": 0.0038, + "step": 5782 + }, + { + "epoch": 12.05, + "grad_norm": 0.1674671173095703, + "learning_rate": 1.9895833333333334e-05, + "loss": 0.0037, + "step": 5784 + }, + { + "epoch": 12.054166666666667, + "grad_norm": 0.137387216091156, + "learning_rate": 1.9885416666666668e-05, + "loss": 0.0038, + "step": 5786 + }, + { + "epoch": 12.058333333333334, + "grad_norm": 0.08711022138595581, + "learning_rate": 1.9875000000000002e-05, + "loss": 0.0032, + "step": 5788 + }, + { + "epoch": 12.0625, + "grad_norm": 0.21210314333438873, + "learning_rate": 1.9864583333333333e-05, + "loss": 0.0058, + "step": 5790 + }, + { + "epoch": 12.066666666666666, + "grad_norm": 0.2784203588962555, + "learning_rate": 1.9854166666666667e-05, + "loss": 0.0049, + "step": 5792 + }, + { + "epoch": 12.070833333333333, + "grad_norm": 0.13900257647037506, + "learning_rate": 1.984375e-05, + "loss": 0.0033, + "step": 5794 + }, + { + "epoch": 12.075, + "grad_norm": 0.12200033664703369, + "learning_rate": 1.9833333333333335e-05, + "loss": 0.0059, + "step": 5796 + }, + { + "epoch": 12.079166666666667, + "grad_norm": 0.39744389057159424, + "learning_rate": 1.982291666666667e-05, + "loss": 0.0047, + "step": 5798 + }, + { + "epoch": 12.083333333333334, + "grad_norm": 0.07587271928787231, + "learning_rate": 1.98125e-05, + "loss": 0.0038, + "step": 5800 + }, + { + "epoch": 12.083333333333334, + "eval_cer": 0.05733562860950689, + "eval_loss": 0.4057757258415222, + "eval_runtime": 75.3932, + "eval_samples_per_second": 5.226, + "eval_steps_per_second": 0.663, + "step": 5800 + }, + { + "epoch": 12.0875, + "grad_norm": 0.10987043380737305, + "learning_rate": 1.9802083333333335e-05, + "loss": 0.0028, + "step": 5802 + }, + { + "epoch": 12.091666666666667, + "grad_norm": 0.1609744280576706, + "learning_rate": 1.9791666666666665e-05, + "loss": 0.0041, + "step": 5804 + }, + { + "epoch": 12.095833333333333, + "grad_norm": 0.36001959443092346, + "learning_rate": 1.978125e-05, + "loss": 0.0095, + "step": 5806 + }, + { + "epoch": 12.1, + "grad_norm": 0.06932394951581955, + "learning_rate": 1.9770833333333337e-05, + "loss": 0.0049, + "step": 5808 + }, + { + "epoch": 12.104166666666666, + "grad_norm": 0.12078548967838287, + "learning_rate": 1.9760416666666668e-05, + "loss": 0.0032, + "step": 5810 + }, + { + "epoch": 12.108333333333333, + "grad_norm": 0.49233555793762207, + "learning_rate": 1.9750000000000002e-05, + "loss": 0.0073, + "step": 5812 + }, + { + "epoch": 12.1125, + "grad_norm": 0.2644478678703308, + "learning_rate": 1.9739583333333333e-05, + "loss": 0.0031, + "step": 5814 + }, + { + "epoch": 12.116666666666667, + "grad_norm": 0.10790616273880005, + "learning_rate": 1.9729166666666667e-05, + "loss": 0.0023, + "step": 5816 + }, + { + "epoch": 12.120833333333334, + "grad_norm": 0.07374177873134613, + "learning_rate": 1.9718749999999998e-05, + "loss": 0.0032, + "step": 5818 + }, + { + "epoch": 12.125, + "grad_norm": 0.23656070232391357, + "learning_rate": 1.9708333333333336e-05, + "loss": 0.0117, + "step": 5820 + }, + { + "epoch": 12.129166666666666, + "grad_norm": 0.26406821608543396, + "learning_rate": 1.969791666666667e-05, + "loss": 0.0047, + "step": 5822 + }, + { + "epoch": 12.133333333333333, + "grad_norm": 0.12279634177684784, + "learning_rate": 1.96875e-05, + "loss": 0.0039, + "step": 5824 + }, + { + "epoch": 12.1375, + "grad_norm": 0.10766838490962982, + "learning_rate": 1.9677083333333335e-05, + "loss": 0.0042, + "step": 5826 + }, + { + "epoch": 12.141666666666667, + "grad_norm": 0.2941032946109772, + "learning_rate": 1.9666666666666666e-05, + "loss": 0.0083, + "step": 5828 + }, + { + "epoch": 12.145833333333334, + "grad_norm": 0.15998943150043488, + "learning_rate": 1.965625e-05, + "loss": 0.004, + "step": 5830 + }, + { + "epoch": 12.15, + "grad_norm": 0.335482656955719, + "learning_rate": 1.9645833333333334e-05, + "loss": 0.004, + "step": 5832 + }, + { + "epoch": 12.154166666666667, + "grad_norm": 0.20236913859844208, + "learning_rate": 1.963541666666667e-05, + "loss": 0.0041, + "step": 5834 + }, + { + "epoch": 12.158333333333333, + "grad_norm": 0.08034755289554596, + "learning_rate": 1.9625000000000003e-05, + "loss": 0.0031, + "step": 5836 + }, + { + "epoch": 12.1625, + "grad_norm": 0.07140016555786133, + "learning_rate": 1.9614583333333334e-05, + "loss": 0.0029, + "step": 5838 + }, + { + "epoch": 12.166666666666666, + "grad_norm": 0.0977131798863411, + "learning_rate": 1.9604166666666668e-05, + "loss": 0.0035, + "step": 5840 + }, + { + "epoch": 12.170833333333333, + "grad_norm": 0.36165037751197815, + "learning_rate": 1.959375e-05, + "loss": 0.0085, + "step": 5842 + }, + { + "epoch": 12.175, + "grad_norm": 0.09550903737545013, + "learning_rate": 1.9583333333333333e-05, + "loss": 0.0031, + "step": 5844 + }, + { + "epoch": 12.179166666666667, + "grad_norm": 0.1289057731628418, + "learning_rate": 1.9572916666666667e-05, + "loss": 0.0037, + "step": 5846 + }, + { + "epoch": 12.183333333333334, + "grad_norm": 0.16453348100185394, + "learning_rate": 1.95625e-05, + "loss": 0.0033, + "step": 5848 + }, + { + "epoch": 12.1875, + "grad_norm": 0.055952366441488266, + "learning_rate": 1.9552083333333335e-05, + "loss": 0.0021, + "step": 5850 + }, + { + "epoch": 12.191666666666666, + "grad_norm": 0.827174961566925, + "learning_rate": 1.9541666666666666e-05, + "loss": 0.0125, + "step": 5852 + }, + { + "epoch": 12.195833333333333, + "grad_norm": 0.17026667296886444, + "learning_rate": 1.953125e-05, + "loss": 0.0051, + "step": 5854 + }, + { + "epoch": 12.2, + "grad_norm": 0.08462584018707275, + "learning_rate": 1.9520833333333335e-05, + "loss": 0.0029, + "step": 5856 + }, + { + "epoch": 12.204166666666667, + "grad_norm": 0.12124695628881454, + "learning_rate": 1.9510416666666665e-05, + "loss": 0.011, + "step": 5858 + }, + { + "epoch": 12.208333333333334, + "grad_norm": 0.21386756002902985, + "learning_rate": 1.9500000000000003e-05, + "loss": 0.005, + "step": 5860 + }, + { + "epoch": 12.2125, + "grad_norm": 0.16871990263462067, + "learning_rate": 1.9489583333333334e-05, + "loss": 0.0034, + "step": 5862 + }, + { + "epoch": 12.216666666666667, + "grad_norm": 0.23798798024654388, + "learning_rate": 1.9479166666666668e-05, + "loss": 0.008, + "step": 5864 + }, + { + "epoch": 12.220833333333333, + "grad_norm": 0.1164267510175705, + "learning_rate": 1.9468750000000002e-05, + "loss": 0.0026, + "step": 5866 + }, + { + "epoch": 12.225, + "grad_norm": 0.24826012551784515, + "learning_rate": 1.9458333333333333e-05, + "loss": 0.0101, + "step": 5868 + }, + { + "epoch": 12.229166666666666, + "grad_norm": 0.11179172992706299, + "learning_rate": 1.9447916666666667e-05, + "loss": 0.0049, + "step": 5870 + }, + { + "epoch": 12.233333333333333, + "grad_norm": 0.09538863599300385, + "learning_rate": 1.94375e-05, + "loss": 0.0036, + "step": 5872 + }, + { + "epoch": 12.2375, + "grad_norm": 0.04791112616658211, + "learning_rate": 1.9427083333333336e-05, + "loss": 0.0051, + "step": 5874 + }, + { + "epoch": 12.241666666666667, + "grad_norm": 0.1233455091714859, + "learning_rate": 1.9416666666666667e-05, + "loss": 0.0045, + "step": 5876 + }, + { + "epoch": 12.245833333333334, + "grad_norm": 0.18089796602725983, + "learning_rate": 1.940625e-05, + "loss": 0.0034, + "step": 5878 + }, + { + "epoch": 12.25, + "grad_norm": 0.3300330936908722, + "learning_rate": 1.9395833333333335e-05, + "loss": 0.0042, + "step": 5880 + }, + { + "epoch": 12.254166666666666, + "grad_norm": 0.10576513409614563, + "learning_rate": 1.9385416666666666e-05, + "loss": 0.0037, + "step": 5882 + }, + { + "epoch": 12.258333333333333, + "grad_norm": 0.05452275276184082, + "learning_rate": 1.9375e-05, + "loss": 0.0034, + "step": 5884 + }, + { + "epoch": 12.2625, + "grad_norm": 0.06333964318037033, + "learning_rate": 1.9364583333333334e-05, + "loss": 0.0025, + "step": 5886 + }, + { + "epoch": 12.266666666666667, + "grad_norm": 0.18415623903274536, + "learning_rate": 1.935416666666667e-05, + "loss": 0.0034, + "step": 5888 + }, + { + "epoch": 12.270833333333334, + "grad_norm": 0.35886064171791077, + "learning_rate": 1.9343750000000003e-05, + "loss": 0.004, + "step": 5890 + }, + { + "epoch": 12.275, + "grad_norm": 0.19603468477725983, + "learning_rate": 1.9333333333333333e-05, + "loss": 0.0047, + "step": 5892 + }, + { + "epoch": 12.279166666666667, + "grad_norm": 0.18984337151050568, + "learning_rate": 1.9322916666666668e-05, + "loss": 0.0036, + "step": 5894 + }, + { + "epoch": 12.283333333333333, + "grad_norm": 0.11502573639154434, + "learning_rate": 1.93125e-05, + "loss": 0.0034, + "step": 5896 + }, + { + "epoch": 12.2875, + "grad_norm": 0.4500753581523895, + "learning_rate": 1.9302083333333336e-05, + "loss": 0.0106, + "step": 5898 + }, + { + "epoch": 12.291666666666666, + "grad_norm": 0.06777490675449371, + "learning_rate": 1.9291666666666667e-05, + "loss": 0.0037, + "step": 5900 + }, + { + "epoch": 12.295833333333333, + "grad_norm": 0.29191941022872925, + "learning_rate": 1.928125e-05, + "loss": 0.0042, + "step": 5902 + }, + { + "epoch": 12.3, + "grad_norm": 0.2616219222545624, + "learning_rate": 1.9270833333333335e-05, + "loss": 0.005, + "step": 5904 + }, + { + "epoch": 12.304166666666667, + "grad_norm": 0.5213989019393921, + "learning_rate": 1.9260416666666666e-05, + "loss": 0.0101, + "step": 5906 + }, + { + "epoch": 12.308333333333334, + "grad_norm": 0.1300835758447647, + "learning_rate": 1.925e-05, + "loss": 0.0039, + "step": 5908 + }, + { + "epoch": 12.3125, + "grad_norm": 0.14738909900188446, + "learning_rate": 1.9239583333333335e-05, + "loss": 0.0126, + "step": 5910 + }, + { + "epoch": 12.316666666666666, + "grad_norm": 0.12184696644544601, + "learning_rate": 1.922916666666667e-05, + "loss": 0.0041, + "step": 5912 + }, + { + "epoch": 12.320833333333333, + "grad_norm": 0.10186827927827835, + "learning_rate": 1.9218750000000003e-05, + "loss": 0.0034, + "step": 5914 + }, + { + "epoch": 12.325, + "grad_norm": 5.814558029174805, + "learning_rate": 1.9208333333333334e-05, + "loss": 0.0053, + "step": 5916 + }, + { + "epoch": 12.329166666666667, + "grad_norm": 0.23609784245491028, + "learning_rate": 1.9197916666666668e-05, + "loss": 0.0065, + "step": 5918 + }, + { + "epoch": 12.333333333333334, + "grad_norm": 0.08538217842578888, + "learning_rate": 1.91875e-05, + "loss": 0.0028, + "step": 5920 + }, + { + "epoch": 12.3375, + "grad_norm": 3.276970386505127, + "learning_rate": 1.9177083333333333e-05, + "loss": 0.0199, + "step": 5922 + }, + { + "epoch": 12.341666666666667, + "grad_norm": 0.05540042370557785, + "learning_rate": 1.9166666666666667e-05, + "loss": 0.0026, + "step": 5924 + }, + { + "epoch": 12.345833333333333, + "grad_norm": 0.12964017689228058, + "learning_rate": 1.915625e-05, + "loss": 0.0035, + "step": 5926 + }, + { + "epoch": 12.35, + "grad_norm": 0.4797637164592743, + "learning_rate": 1.9145833333333336e-05, + "loss": 0.0053, + "step": 5928 + }, + { + "epoch": 12.354166666666666, + "grad_norm": 0.17763759195804596, + "learning_rate": 1.9135416666666666e-05, + "loss": 0.0046, + "step": 5930 + }, + { + "epoch": 12.358333333333333, + "grad_norm": 0.08171391487121582, + "learning_rate": 1.9125e-05, + "loss": 0.0034, + "step": 5932 + }, + { + "epoch": 12.3625, + "grad_norm": 2.0709128379821777, + "learning_rate": 1.911458333333333e-05, + "loss": 0.0045, + "step": 5934 + }, + { + "epoch": 12.366666666666667, + "grad_norm": 0.07818794995546341, + "learning_rate": 1.910416666666667e-05, + "loss": 0.0057, + "step": 5936 + }, + { + "epoch": 12.370833333333334, + "grad_norm": 0.3050890266895294, + "learning_rate": 1.9093750000000003e-05, + "loss": 0.0086, + "step": 5938 + }, + { + "epoch": 12.375, + "grad_norm": 0.10606548935174942, + "learning_rate": 1.9083333333333334e-05, + "loss": 0.0028, + "step": 5940 + }, + { + "epoch": 12.379166666666666, + "grad_norm": 0.11282871663570404, + "learning_rate": 1.907291666666667e-05, + "loss": 0.0026, + "step": 5942 + }, + { + "epoch": 12.383333333333333, + "grad_norm": 0.14211325347423553, + "learning_rate": 1.90625e-05, + "loss": 0.0056, + "step": 5944 + }, + { + "epoch": 12.3875, + "grad_norm": 0.46308717131614685, + "learning_rate": 1.9052083333333333e-05, + "loss": 0.0077, + "step": 5946 + }, + { + "epoch": 12.391666666666667, + "grad_norm": 0.15970638394355774, + "learning_rate": 1.9041666666666668e-05, + "loss": 0.0035, + "step": 5948 + }, + { + "epoch": 12.395833333333334, + "grad_norm": 0.35273510217666626, + "learning_rate": 1.9031250000000002e-05, + "loss": 0.0084, + "step": 5950 + }, + { + "epoch": 12.4, + "grad_norm": 0.11216560751199722, + "learning_rate": 1.9020833333333336e-05, + "loss": 0.003, + "step": 5952 + }, + { + "epoch": 12.404166666666667, + "grad_norm": 0.31250548362731934, + "learning_rate": 1.9010416666666667e-05, + "loss": 0.0052, + "step": 5954 + }, + { + "epoch": 12.408333333333333, + "grad_norm": 0.40137746930122375, + "learning_rate": 1.9e-05, + "loss": 0.0036, + "step": 5956 + }, + { + "epoch": 12.4125, + "grad_norm": 0.10363531112670898, + "learning_rate": 1.8989583333333335e-05, + "loss": 0.01, + "step": 5958 + }, + { + "epoch": 12.416666666666666, + "grad_norm": 0.20889998972415924, + "learning_rate": 1.8979166666666666e-05, + "loss": 0.0042, + "step": 5960 + }, + { + "epoch": 12.420833333333333, + "grad_norm": 0.22958438098430634, + "learning_rate": 1.896875e-05, + "loss": 0.0037, + "step": 5962 + }, + { + "epoch": 12.425, + "grad_norm": 0.07721810787916183, + "learning_rate": 1.8958333333333334e-05, + "loss": 0.0031, + "step": 5964 + }, + { + "epoch": 12.429166666666667, + "grad_norm": 0.12051200121641159, + "learning_rate": 1.894791666666667e-05, + "loss": 0.0044, + "step": 5966 + }, + { + "epoch": 12.433333333333334, + "grad_norm": 0.16390161216259003, + "learning_rate": 1.89375e-05, + "loss": 0.0031, + "step": 5968 + }, + { + "epoch": 12.4375, + "grad_norm": 0.1828039437532425, + "learning_rate": 1.8927083333333334e-05, + "loss": 0.0041, + "step": 5970 + }, + { + "epoch": 12.441666666666666, + "grad_norm": 0.1538514345884323, + "learning_rate": 1.8916666666666668e-05, + "loss": 0.0033, + "step": 5972 + }, + { + "epoch": 12.445833333333333, + "grad_norm": 0.22079193592071533, + "learning_rate": 1.890625e-05, + "loss": 0.0075, + "step": 5974 + }, + { + "epoch": 12.45, + "grad_norm": 0.22937051951885223, + "learning_rate": 1.8895833333333336e-05, + "loss": 0.0136, + "step": 5976 + }, + { + "epoch": 12.454166666666667, + "grad_norm": 0.6354445815086365, + "learning_rate": 1.8885416666666667e-05, + "loss": 0.009, + "step": 5978 + }, + { + "epoch": 12.458333333333334, + "grad_norm": 0.29764431715011597, + "learning_rate": 1.8875e-05, + "loss": 0.0053, + "step": 5980 + }, + { + "epoch": 12.4625, + "grad_norm": 0.09231902658939362, + "learning_rate": 1.8864583333333336e-05, + "loss": 0.0036, + "step": 5982 + }, + { + "epoch": 12.466666666666667, + "grad_norm": 0.1630064994096756, + "learning_rate": 1.8854166666666666e-05, + "loss": 0.0036, + "step": 5984 + }, + { + "epoch": 12.470833333333333, + "grad_norm": 0.20857729017734528, + "learning_rate": 1.884375e-05, + "loss": 0.004, + "step": 5986 + }, + { + "epoch": 12.475, + "grad_norm": 0.17467021942138672, + "learning_rate": 1.8833333333333335e-05, + "loss": 0.0039, + "step": 5988 + }, + { + "epoch": 12.479166666666666, + "grad_norm": 0.1704222857952118, + "learning_rate": 1.882291666666667e-05, + "loss": 0.0033, + "step": 5990 + }, + { + "epoch": 12.483333333333333, + "grad_norm": 0.1761569231748581, + "learning_rate": 1.88125e-05, + "loss": 0.0036, + "step": 5992 + }, + { + "epoch": 12.4875, + "grad_norm": 0.14899763464927673, + "learning_rate": 1.8802083333333334e-05, + "loss": 0.0039, + "step": 5994 + }, + { + "epoch": 12.491666666666667, + "grad_norm": 0.37910330295562744, + "learning_rate": 1.8791666666666668e-05, + "loss": 0.004, + "step": 5996 + }, + { + "epoch": 12.495833333333334, + "grad_norm": 0.16126574575901031, + "learning_rate": 1.878125e-05, + "loss": 0.0037, + "step": 5998 + }, + { + "epoch": 12.5, + "grad_norm": 0.10544391721487045, + "learning_rate": 1.8770833333333333e-05, + "loss": 0.0029, + "step": 6000 + }, + { + "epoch": 12.5, + "eval_cer": 0.058001999111506, + "eval_loss": 0.40661105513572693, + "eval_runtime": 75.5549, + "eval_samples_per_second": 5.215, + "eval_steps_per_second": 0.662, + "step": 6000 + }, + { + "epoch": 12.504166666666666, + "grad_norm": 0.07003624737262726, + "learning_rate": 1.8760416666666668e-05, + "loss": 0.0029, + "step": 6002 + }, + { + "epoch": 12.508333333333333, + "grad_norm": 0.15407325327396393, + "learning_rate": 1.8750000000000002e-05, + "loss": 0.0029, + "step": 6004 + }, + { + "epoch": 12.5125, + "grad_norm": 0.2814139425754547, + "learning_rate": 1.8739583333333336e-05, + "loss": 0.0072, + "step": 6006 + }, + { + "epoch": 12.516666666666667, + "grad_norm": 0.0795307531952858, + "learning_rate": 1.8729166666666667e-05, + "loss": 0.0045, + "step": 6008 + }, + { + "epoch": 12.520833333333334, + "grad_norm": 0.12044120579957962, + "learning_rate": 1.871875e-05, + "loss": 0.0046, + "step": 6010 + }, + { + "epoch": 12.525, + "grad_norm": 0.5728384852409363, + "learning_rate": 1.8708333333333332e-05, + "loss": 0.0037, + "step": 6012 + }, + { + "epoch": 12.529166666666667, + "grad_norm": 0.30938926339149475, + "learning_rate": 1.869791666666667e-05, + "loss": 0.0032, + "step": 6014 + }, + { + "epoch": 12.533333333333333, + "grad_norm": 0.0993151143193245, + "learning_rate": 1.8687500000000004e-05, + "loss": 0.0032, + "step": 6016 + }, + { + "epoch": 12.5375, + "grad_norm": 0.0789695680141449, + "learning_rate": 1.8677083333333334e-05, + "loss": 0.0036, + "step": 6018 + }, + { + "epoch": 12.541666666666666, + "grad_norm": 0.21329320967197418, + "learning_rate": 1.866666666666667e-05, + "loss": 0.0033, + "step": 6020 + }, + { + "epoch": 12.545833333333333, + "grad_norm": 0.24306634068489075, + "learning_rate": 1.865625e-05, + "loss": 0.0026, + "step": 6022 + }, + { + "epoch": 12.55, + "grad_norm": 0.06536176055669785, + "learning_rate": 1.8645833333333334e-05, + "loss": 0.005, + "step": 6024 + }, + { + "epoch": 12.554166666666667, + "grad_norm": 0.059884123504161835, + "learning_rate": 1.8635416666666668e-05, + "loss": 0.0039, + "step": 6026 + }, + { + "epoch": 12.558333333333334, + "grad_norm": 0.23491282761096954, + "learning_rate": 1.8625000000000002e-05, + "loss": 0.0058, + "step": 6028 + }, + { + "epoch": 12.5625, + "grad_norm": 1.4255889654159546, + "learning_rate": 1.8614583333333336e-05, + "loss": 0.0091, + "step": 6030 + }, + { + "epoch": 12.566666666666666, + "grad_norm": 0.08203964680433273, + "learning_rate": 1.8604166666666667e-05, + "loss": 0.0052, + "step": 6032 + }, + { + "epoch": 12.570833333333333, + "grad_norm": 0.9114255905151367, + "learning_rate": 1.859375e-05, + "loss": 0.0039, + "step": 6034 + }, + { + "epoch": 12.575, + "grad_norm": 0.058477383106946945, + "learning_rate": 1.8583333333333332e-05, + "loss": 0.0023, + "step": 6036 + }, + { + "epoch": 12.579166666666667, + "grad_norm": 0.06800162047147751, + "learning_rate": 1.8572916666666666e-05, + "loss": 0.003, + "step": 6038 + }, + { + "epoch": 12.583333333333334, + "grad_norm": 0.1604880690574646, + "learning_rate": 1.85625e-05, + "loss": 0.0036, + "step": 6040 + }, + { + "epoch": 12.5875, + "grad_norm": 0.1963135302066803, + "learning_rate": 1.8552083333333335e-05, + "loss": 0.0033, + "step": 6042 + }, + { + "epoch": 12.591666666666667, + "grad_norm": 0.07418554276227951, + "learning_rate": 1.854166666666667e-05, + "loss": 0.0044, + "step": 6044 + }, + { + "epoch": 12.595833333333333, + "grad_norm": 0.07555979490280151, + "learning_rate": 1.853125e-05, + "loss": 0.0027, + "step": 6046 + }, + { + "epoch": 12.6, + "grad_norm": 0.21808554232120514, + "learning_rate": 1.8520833333333334e-05, + "loss": 0.0057, + "step": 6048 + }, + { + "epoch": 12.604166666666666, + "grad_norm": 0.3645094037055969, + "learning_rate": 1.8510416666666665e-05, + "loss": 0.0128, + "step": 6050 + }, + { + "epoch": 12.608333333333333, + "grad_norm": 0.08620110154151917, + "learning_rate": 1.85e-05, + "loss": 0.0032, + "step": 6052 + }, + { + "epoch": 12.6125, + "grad_norm": 0.09603077173233032, + "learning_rate": 1.8489583333333337e-05, + "loss": 0.0032, + "step": 6054 + }, + { + "epoch": 12.616666666666667, + "grad_norm": 0.10030627250671387, + "learning_rate": 1.8479166666666667e-05, + "loss": 0.0033, + "step": 6056 + }, + { + "epoch": 12.620833333333334, + "grad_norm": 0.08681260794401169, + "learning_rate": 1.846875e-05, + "loss": 0.0041, + "step": 6058 + }, + { + "epoch": 12.625, + "grad_norm": 0.155517116189003, + "learning_rate": 1.8458333333333333e-05, + "loss": 0.0032, + "step": 6060 + }, + { + "epoch": 12.629166666666666, + "grad_norm": 0.13462990522384644, + "learning_rate": 1.8447916666666667e-05, + "loss": 0.0026, + "step": 6062 + }, + { + "epoch": 12.633333333333333, + "grad_norm": 1.1838878393173218, + "learning_rate": 1.84375e-05, + "loss": 0.0068, + "step": 6064 + }, + { + "epoch": 12.6375, + "grad_norm": 0.12247470766305923, + "learning_rate": 1.8427083333333335e-05, + "loss": 0.0032, + "step": 6066 + }, + { + "epoch": 12.641666666666667, + "grad_norm": 0.6452133059501648, + "learning_rate": 1.841666666666667e-05, + "loss": 0.0045, + "step": 6068 + }, + { + "epoch": 12.645833333333334, + "grad_norm": 0.09798423945903778, + "learning_rate": 1.840625e-05, + "loss": 0.0031, + "step": 6070 + }, + { + "epoch": 12.65, + "grad_norm": 0.16587494313716888, + "learning_rate": 1.8395833333333334e-05, + "loss": 0.0041, + "step": 6072 + }, + { + "epoch": 12.654166666666667, + "grad_norm": 0.10559212416410446, + "learning_rate": 1.838541666666667e-05, + "loss": 0.0033, + "step": 6074 + }, + { + "epoch": 12.658333333333333, + "grad_norm": 0.1779060661792755, + "learning_rate": 1.8375e-05, + "loss": 0.0048, + "step": 6076 + }, + { + "epoch": 12.6625, + "grad_norm": 0.2874112129211426, + "learning_rate": 1.8364583333333334e-05, + "loss": 0.0055, + "step": 6078 + }, + { + "epoch": 12.666666666666666, + "grad_norm": 0.07986798137426376, + "learning_rate": 1.8354166666666668e-05, + "loss": 0.0034, + "step": 6080 + }, + { + "epoch": 12.670833333333333, + "grad_norm": 0.06800410896539688, + "learning_rate": 1.8343750000000002e-05, + "loss": 0.0025, + "step": 6082 + }, + { + "epoch": 12.675, + "grad_norm": 0.29083091020584106, + "learning_rate": 1.8333333333333333e-05, + "loss": 0.0129, + "step": 6084 + }, + { + "epoch": 12.679166666666667, + "grad_norm": 0.06131567433476448, + "learning_rate": 1.8322916666666667e-05, + "loss": 0.0057, + "step": 6086 + }, + { + "epoch": 12.683333333333334, + "grad_norm": 0.32292258739471436, + "learning_rate": 1.83125e-05, + "loss": 0.0043, + "step": 6088 + }, + { + "epoch": 12.6875, + "grad_norm": 0.15253661572933197, + "learning_rate": 1.8302083333333332e-05, + "loss": 0.0031, + "step": 6090 + }, + { + "epoch": 12.691666666666666, + "grad_norm": 0.08715595304965973, + "learning_rate": 1.829166666666667e-05, + "loss": 0.0034, + "step": 6092 + }, + { + "epoch": 12.695833333333333, + "grad_norm": 0.05960638076066971, + "learning_rate": 1.828125e-05, + "loss": 0.0028, + "step": 6094 + }, + { + "epoch": 12.7, + "grad_norm": 0.28367775678634644, + "learning_rate": 1.8270833333333335e-05, + "loss": 0.0054, + "step": 6096 + }, + { + "epoch": 12.704166666666667, + "grad_norm": 0.2829267680644989, + "learning_rate": 1.826041666666667e-05, + "loss": 0.005, + "step": 6098 + }, + { + "epoch": 12.708333333333334, + "grad_norm": 0.26960697770118713, + "learning_rate": 1.825e-05, + "loss": 0.0038, + "step": 6100 + }, + { + "epoch": 12.7125, + "grad_norm": 0.21949166059494019, + "learning_rate": 1.8239583333333334e-05, + "loss": 0.0038, + "step": 6102 + }, + { + "epoch": 12.716666666666667, + "grad_norm": 0.06624201685190201, + "learning_rate": 1.8229166666666668e-05, + "loss": 0.0025, + "step": 6104 + }, + { + "epoch": 12.720833333333333, + "grad_norm": 0.29696038365364075, + "learning_rate": 1.8218750000000002e-05, + "loss": 0.0066, + "step": 6106 + }, + { + "epoch": 12.725, + "grad_norm": 0.48049166798591614, + "learning_rate": 1.8208333333333337e-05, + "loss": 0.0041, + "step": 6108 + }, + { + "epoch": 12.729166666666666, + "grad_norm": 0.11901575326919556, + "learning_rate": 1.8197916666666667e-05, + "loss": 0.0074, + "step": 6110 + }, + { + "epoch": 12.733333333333333, + "grad_norm": 0.1100866049528122, + "learning_rate": 1.81875e-05, + "loss": 0.0062, + "step": 6112 + }, + { + "epoch": 12.7375, + "grad_norm": 0.1102396622300148, + "learning_rate": 1.8177083333333332e-05, + "loss": 0.0026, + "step": 6114 + }, + { + "epoch": 12.741666666666667, + "grad_norm": 0.099370576441288, + "learning_rate": 1.8166666666666667e-05, + "loss": 0.005, + "step": 6116 + }, + { + "epoch": 12.745833333333334, + "grad_norm": 0.13980542123317719, + "learning_rate": 1.815625e-05, + "loss": 0.0033, + "step": 6118 + }, + { + "epoch": 12.75, + "grad_norm": 0.12332060933113098, + "learning_rate": 1.8145833333333335e-05, + "loss": 0.004, + "step": 6120 + }, + { + "epoch": 12.754166666666666, + "grad_norm": 0.10048113763332367, + "learning_rate": 1.813541666666667e-05, + "loss": 0.0044, + "step": 6122 + }, + { + "epoch": 12.758333333333333, + "grad_norm": 0.08478370308876038, + "learning_rate": 1.8125e-05, + "loss": 0.0034, + "step": 6124 + }, + { + "epoch": 12.7625, + "grad_norm": 0.18086303770542145, + "learning_rate": 1.8114583333333334e-05, + "loss": 0.0031, + "step": 6126 + }, + { + "epoch": 12.766666666666667, + "grad_norm": 0.9220675826072693, + "learning_rate": 1.8104166666666665e-05, + "loss": 0.0052, + "step": 6128 + }, + { + "epoch": 12.770833333333334, + "grad_norm": 0.21774046123027802, + "learning_rate": 1.809375e-05, + "loss": 0.0079, + "step": 6130 + }, + { + "epoch": 12.775, + "grad_norm": 2.6301233768463135, + "learning_rate": 1.8083333333333337e-05, + "loss": 0.0066, + "step": 6132 + }, + { + "epoch": 12.779166666666667, + "grad_norm": 0.12324796617031097, + "learning_rate": 1.8072916666666668e-05, + "loss": 0.003, + "step": 6134 + }, + { + "epoch": 12.783333333333333, + "grad_norm": 0.9999656081199646, + "learning_rate": 1.8062500000000002e-05, + "loss": 0.0082, + "step": 6136 + }, + { + "epoch": 12.7875, + "grad_norm": 0.1051531583070755, + "learning_rate": 1.8052083333333333e-05, + "loss": 0.0074, + "step": 6138 + }, + { + "epoch": 12.791666666666666, + "grad_norm": 0.10521753132343292, + "learning_rate": 1.8041666666666667e-05, + "loss": 0.004, + "step": 6140 + }, + { + "epoch": 12.795833333333333, + "grad_norm": 0.3319118320941925, + "learning_rate": 1.803125e-05, + "loss": 0.0038, + "step": 6142 + }, + { + "epoch": 12.8, + "grad_norm": 0.25205421447753906, + "learning_rate": 1.8020833333333335e-05, + "loss": 0.0038, + "step": 6144 + }, + { + "epoch": 12.804166666666667, + "grad_norm": 0.14057837426662445, + "learning_rate": 1.801041666666667e-05, + "loss": 0.0034, + "step": 6146 + }, + { + "epoch": 12.808333333333334, + "grad_norm": 0.0853852704167366, + "learning_rate": 1.8e-05, + "loss": 0.004, + "step": 6148 + }, + { + "epoch": 12.8125, + "grad_norm": 0.3237210214138031, + "learning_rate": 1.7989583333333335e-05, + "loss": 0.005, + "step": 6150 + }, + { + "epoch": 12.816666666666666, + "grad_norm": 0.09452507644891739, + "learning_rate": 1.7979166666666665e-05, + "loss": 0.0033, + "step": 6152 + }, + { + "epoch": 12.820833333333333, + "grad_norm": 0.12381177395582199, + "learning_rate": 1.796875e-05, + "loss": 0.0081, + "step": 6154 + }, + { + "epoch": 12.825, + "grad_norm": 0.18697744607925415, + "learning_rate": 1.7958333333333334e-05, + "loss": 0.005, + "step": 6156 + }, + { + "epoch": 12.829166666666667, + "grad_norm": 0.4399700164794922, + "learning_rate": 1.7947916666666668e-05, + "loss": 0.0044, + "step": 6158 + }, + { + "epoch": 12.833333333333334, + "grad_norm": 0.4808827042579651, + "learning_rate": 1.7937500000000002e-05, + "loss": 0.009, + "step": 6160 + }, + { + "epoch": 12.8375, + "grad_norm": 0.2705475389957428, + "learning_rate": 1.7927083333333333e-05, + "loss": 0.0033, + "step": 6162 + }, + { + "epoch": 12.841666666666667, + "grad_norm": 0.10166657716035843, + "learning_rate": 1.7916666666666667e-05, + "loss": 0.0027, + "step": 6164 + }, + { + "epoch": 12.845833333333333, + "grad_norm": 0.4135504961013794, + "learning_rate": 1.790625e-05, + "loss": 0.0033, + "step": 6166 + }, + { + "epoch": 12.85, + "grad_norm": 0.11073296517133713, + "learning_rate": 1.7895833333333332e-05, + "loss": 0.0033, + "step": 6168 + }, + { + "epoch": 12.854166666666666, + "grad_norm": 0.2898044288158417, + "learning_rate": 1.788541666666667e-05, + "loss": 0.0042, + "step": 6170 + }, + { + "epoch": 12.858333333333333, + "grad_norm": 0.14552287757396698, + "learning_rate": 1.7875e-05, + "loss": 0.0048, + "step": 6172 + }, + { + "epoch": 12.8625, + "grad_norm": 0.09769938886165619, + "learning_rate": 1.7864583333333335e-05, + "loss": 0.004, + "step": 6174 + }, + { + "epoch": 12.866666666666667, + "grad_norm": 0.14103436470031738, + "learning_rate": 1.7854166666666666e-05, + "loss": 0.0029, + "step": 6176 + }, + { + "epoch": 12.870833333333334, + "grad_norm": 0.09592393785715103, + "learning_rate": 1.784375e-05, + "loss": 0.0055, + "step": 6178 + }, + { + "epoch": 12.875, + "grad_norm": 0.07322445511817932, + "learning_rate": 1.7833333333333334e-05, + "loss": 0.0021, + "step": 6180 + }, + { + "epoch": 12.879166666666666, + "grad_norm": 0.12351037561893463, + "learning_rate": 1.782291666666667e-05, + "loss": 0.003, + "step": 6182 + }, + { + "epoch": 12.883333333333333, + "grad_norm": 0.1900854855775833, + "learning_rate": 1.7812500000000003e-05, + "loss": 0.0047, + "step": 6184 + }, + { + "epoch": 12.8875, + "grad_norm": 0.20786139369010925, + "learning_rate": 1.7802083333333333e-05, + "loss": 0.0032, + "step": 6186 + }, + { + "epoch": 12.891666666666667, + "grad_norm": 0.1043863594532013, + "learning_rate": 1.7791666666666668e-05, + "loss": 0.0032, + "step": 6188 + }, + { + "epoch": 12.895833333333334, + "grad_norm": 0.09750320762395859, + "learning_rate": 1.7781250000000002e-05, + "loss": 0.0028, + "step": 6190 + }, + { + "epoch": 12.9, + "grad_norm": 0.08501474559307098, + "learning_rate": 1.7770833333333333e-05, + "loss": 0.0045, + "step": 6192 + }, + { + "epoch": 12.904166666666667, + "grad_norm": 0.1338997781276703, + "learning_rate": 1.7760416666666667e-05, + "loss": 0.0042, + "step": 6194 + }, + { + "epoch": 12.908333333333333, + "grad_norm": 0.1295781284570694, + "learning_rate": 1.775e-05, + "loss": 0.0032, + "step": 6196 + }, + { + "epoch": 12.9125, + "grad_norm": 0.08819591253995895, + "learning_rate": 1.7739583333333335e-05, + "loss": 0.0033, + "step": 6198 + }, + { + "epoch": 12.916666666666666, + "grad_norm": 0.11570335924625397, + "learning_rate": 1.7729166666666666e-05, + "loss": 0.004, + "step": 6200 + }, + { + "epoch": 12.916666666666666, + "eval_cer": 0.056308307418924924, + "eval_loss": 0.4072835445404053, + "eval_runtime": 75.2764, + "eval_samples_per_second": 5.234, + "eval_steps_per_second": 0.664, + "step": 6200 + }, + { + "epoch": 12.920833333333333, + "grad_norm": 0.17140500247478485, + "learning_rate": 1.771875e-05, + "loss": 0.0069, + "step": 6202 + }, + { + "epoch": 12.925, + "grad_norm": 0.12275512516498566, + "learning_rate": 1.7708333333333335e-05, + "loss": 0.0026, + "step": 6204 + }, + { + "epoch": 12.929166666666667, + "grad_norm": 0.078315868973732, + "learning_rate": 1.7697916666666665e-05, + "loss": 0.0028, + "step": 6206 + }, + { + "epoch": 12.933333333333334, + "grad_norm": 0.1251840889453888, + "learning_rate": 1.76875e-05, + "loss": 0.0031, + "step": 6208 + }, + { + "epoch": 12.9375, + "grad_norm": 0.2220505326986313, + "learning_rate": 1.7677083333333334e-05, + "loss": 0.004, + "step": 6210 + }, + { + "epoch": 12.941666666666666, + "grad_norm": 0.21876434981822968, + "learning_rate": 1.7666666666666668e-05, + "loss": 0.0042, + "step": 6212 + }, + { + "epoch": 12.945833333333333, + "grad_norm": 0.09349135309457779, + "learning_rate": 1.7656250000000002e-05, + "loss": 0.0026, + "step": 6214 + }, + { + "epoch": 12.95, + "grad_norm": 2.1639578342437744, + "learning_rate": 1.7645833333333333e-05, + "loss": 0.007, + "step": 6216 + }, + { + "epoch": 12.954166666666667, + "grad_norm": 0.0842084139585495, + "learning_rate": 1.7635416666666667e-05, + "loss": 0.0031, + "step": 6218 + }, + { + "epoch": 12.958333333333334, + "grad_norm": 0.051358845084905624, + "learning_rate": 1.7625e-05, + "loss": 0.0032, + "step": 6220 + }, + { + "epoch": 12.9625, + "grad_norm": 0.26266711950302124, + "learning_rate": 1.7614583333333336e-05, + "loss": 0.0067, + "step": 6222 + }, + { + "epoch": 12.966666666666667, + "grad_norm": 0.08133542537689209, + "learning_rate": 1.760416666666667e-05, + "loss": 0.0033, + "step": 6224 + }, + { + "epoch": 12.970833333333333, + "grad_norm": 0.07019929587841034, + "learning_rate": 1.759375e-05, + "loss": 0.0034, + "step": 6226 + }, + { + "epoch": 12.975, + "grad_norm": 0.11262372136116028, + "learning_rate": 1.7583333333333335e-05, + "loss": 0.0033, + "step": 6228 + }, + { + "epoch": 12.979166666666666, + "grad_norm": 0.06473618000745773, + "learning_rate": 1.7572916666666666e-05, + "loss": 0.0028, + "step": 6230 + }, + { + "epoch": 12.983333333333333, + "grad_norm": 0.37559714913368225, + "learning_rate": 1.75625e-05, + "loss": 0.0115, + "step": 6232 + }, + { + "epoch": 12.9875, + "grad_norm": 0.573939323425293, + "learning_rate": 1.7552083333333334e-05, + "loss": 0.0051, + "step": 6234 + }, + { + "epoch": 12.991666666666667, + "grad_norm": 0.47473272681236267, + "learning_rate": 1.754166666666667e-05, + "loss": 0.008, + "step": 6236 + }, + { + "epoch": 12.995833333333334, + "grad_norm": 0.13512428104877472, + "learning_rate": 1.7531250000000003e-05, + "loss": 0.0029, + "step": 6238 + }, + { + "epoch": 13.0, + "grad_norm": 0.2308589518070221, + "learning_rate": 1.7520833333333333e-05, + "loss": 0.0035, + "step": 6240 + }, + { + "epoch": 13.004166666666666, + "grad_norm": 0.0848015770316124, + "learning_rate": 1.7510416666666668e-05, + "loss": 0.0042, + "step": 6242 + }, + { + "epoch": 13.008333333333333, + "grad_norm": 0.03562428429722786, + "learning_rate": 1.75e-05, + "loss": 0.0022, + "step": 6244 + }, + { + "epoch": 13.0125, + "grad_norm": 0.07065915316343307, + "learning_rate": 1.7489583333333333e-05, + "loss": 0.0027, + "step": 6246 + }, + { + "epoch": 13.016666666666667, + "grad_norm": 0.2376709282398224, + "learning_rate": 1.747916666666667e-05, + "loss": 0.0057, + "step": 6248 + }, + { + "epoch": 13.020833333333334, + "grad_norm": 0.07870650291442871, + "learning_rate": 1.746875e-05, + "loss": 0.002, + "step": 6250 + }, + { + "epoch": 13.025, + "grad_norm": 0.2759530246257782, + "learning_rate": 1.7458333333333335e-05, + "loss": 0.003, + "step": 6252 + }, + { + "epoch": 13.029166666666667, + "grad_norm": 0.06724708527326584, + "learning_rate": 1.7447916666666666e-05, + "loss": 0.0024, + "step": 6254 + }, + { + "epoch": 13.033333333333333, + "grad_norm": 0.0648641586303711, + "learning_rate": 1.74375e-05, + "loss": 0.0031, + "step": 6256 + }, + { + "epoch": 13.0375, + "grad_norm": 0.48740580677986145, + "learning_rate": 1.7427083333333335e-05, + "loss": 0.0106, + "step": 6258 + }, + { + "epoch": 13.041666666666666, + "grad_norm": 0.037631623446941376, + "learning_rate": 1.741666666666667e-05, + "loss": 0.002, + "step": 6260 + }, + { + "epoch": 13.045833333333333, + "grad_norm": 0.07298068702220917, + "learning_rate": 1.7406250000000003e-05, + "loss": 0.0024, + "step": 6262 + }, + { + "epoch": 13.05, + "grad_norm": 0.049659375101327896, + "learning_rate": 1.7395833333333334e-05, + "loss": 0.002, + "step": 6264 + }, + { + "epoch": 13.054166666666667, + "grad_norm": 0.05022004246711731, + "learning_rate": 1.7385416666666668e-05, + "loss": 0.0023, + "step": 6266 + }, + { + "epoch": 13.058333333333334, + "grad_norm": 0.20897036790847778, + "learning_rate": 1.7375e-05, + "loss": 0.0067, + "step": 6268 + }, + { + "epoch": 13.0625, + "grad_norm": 0.09152977913618088, + "learning_rate": 1.7364583333333333e-05, + "loss": 0.0027, + "step": 6270 + }, + { + "epoch": 13.066666666666666, + "grad_norm": 0.09065941721200943, + "learning_rate": 1.7354166666666667e-05, + "loss": 0.0025, + "step": 6272 + }, + { + "epoch": 13.070833333333333, + "grad_norm": 0.16994191706180573, + "learning_rate": 1.734375e-05, + "loss": 0.007, + "step": 6274 + }, + { + "epoch": 13.075, + "grad_norm": 0.04707705229520798, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.0035, + "step": 6276 + }, + { + "epoch": 13.079166666666667, + "grad_norm": 0.028542138636112213, + "learning_rate": 1.7322916666666666e-05, + "loss": 0.0019, + "step": 6278 + }, + { + "epoch": 13.083333333333334, + "grad_norm": 0.21694958209991455, + "learning_rate": 1.73125e-05, + "loss": 0.0024, + "step": 6280 + }, + { + "epoch": 13.0875, + "grad_norm": 0.058447759598493576, + "learning_rate": 1.7302083333333335e-05, + "loss": 0.0022, + "step": 6282 + }, + { + "epoch": 13.091666666666667, + "grad_norm": 0.29717880487442017, + "learning_rate": 1.7291666666666666e-05, + "loss": 0.0078, + "step": 6284 + }, + { + "epoch": 13.095833333333333, + "grad_norm": 0.051117151975631714, + "learning_rate": 1.728125e-05, + "loss": 0.0021, + "step": 6286 + }, + { + "epoch": 13.1, + "grad_norm": 0.2982823848724365, + "learning_rate": 1.7270833333333334e-05, + "loss": 0.0032, + "step": 6288 + }, + { + "epoch": 13.104166666666666, + "grad_norm": 0.1450362354516983, + "learning_rate": 1.726041666666667e-05, + "loss": 0.0025, + "step": 6290 + }, + { + "epoch": 13.108333333333333, + "grad_norm": 0.07590223848819733, + "learning_rate": 1.725e-05, + "loss": 0.0024, + "step": 6292 + }, + { + "epoch": 13.1125, + "grad_norm": 0.04498353227972984, + "learning_rate": 1.7239583333333333e-05, + "loss": 0.0106, + "step": 6294 + }, + { + "epoch": 13.116666666666667, + "grad_norm": 0.05637950450181961, + "learning_rate": 1.7229166666666668e-05, + "loss": 0.0022, + "step": 6296 + }, + { + "epoch": 13.120833333333334, + "grad_norm": 0.05588340759277344, + "learning_rate": 1.7218750000000002e-05, + "loss": 0.0052, + "step": 6298 + }, + { + "epoch": 13.125, + "grad_norm": 0.5091503858566284, + "learning_rate": 1.7208333333333336e-05, + "loss": 0.0048, + "step": 6300 + }, + { + "epoch": 13.129166666666666, + "grad_norm": 0.08958738297224045, + "learning_rate": 1.7197916666666667e-05, + "loss": 0.0031, + "step": 6302 + }, + { + "epoch": 13.133333333333333, + "grad_norm": 0.10429638624191284, + "learning_rate": 1.71875e-05, + "loss": 0.0043, + "step": 6304 + }, + { + "epoch": 13.1375, + "grad_norm": 0.12313724309206009, + "learning_rate": 1.7177083333333335e-05, + "loss": 0.0023, + "step": 6306 + }, + { + "epoch": 13.141666666666667, + "grad_norm": 1.0151687860488892, + "learning_rate": 1.7166666666666666e-05, + "loss": 0.0056, + "step": 6308 + }, + { + "epoch": 13.145833333333334, + "grad_norm": 0.20746029913425446, + "learning_rate": 1.715625e-05, + "loss": 0.0031, + "step": 6310 + }, + { + "epoch": 13.15, + "grad_norm": 0.21498407423496246, + "learning_rate": 1.7145833333333334e-05, + "loss": 0.0034, + "step": 6312 + }, + { + "epoch": 13.154166666666667, + "grad_norm": 0.061666008085012436, + "learning_rate": 1.713541666666667e-05, + "loss": 0.002, + "step": 6314 + }, + { + "epoch": 13.158333333333333, + "grad_norm": 0.11666218936443329, + "learning_rate": 1.7125000000000003e-05, + "loss": 0.0025, + "step": 6316 + }, + { + "epoch": 13.1625, + "grad_norm": 0.13459648191928864, + "learning_rate": 1.7114583333333334e-05, + "loss": 0.0027, + "step": 6318 + }, + { + "epoch": 13.166666666666666, + "grad_norm": 0.2527133524417877, + "learning_rate": 1.7104166666666668e-05, + "loss": 0.0071, + "step": 6320 + }, + { + "epoch": 13.170833333333333, + "grad_norm": 3.281541585922241, + "learning_rate": 1.709375e-05, + "loss": 0.0079, + "step": 6322 + }, + { + "epoch": 13.175, + "grad_norm": 0.04454723000526428, + "learning_rate": 1.7083333333333333e-05, + "loss": 0.0029, + "step": 6324 + }, + { + "epoch": 13.179166666666667, + "grad_norm": 0.0527915395796299, + "learning_rate": 1.7072916666666667e-05, + "loss": 0.0028, + "step": 6326 + }, + { + "epoch": 13.183333333333334, + "grad_norm": 0.09302666038274765, + "learning_rate": 1.70625e-05, + "loss": 0.0025, + "step": 6328 + }, + { + "epoch": 13.1875, + "grad_norm": 0.07682950049638748, + "learning_rate": 1.7052083333333336e-05, + "loss": 0.0025, + "step": 6330 + }, + { + "epoch": 13.191666666666666, + "grad_norm": 0.6871304512023926, + "learning_rate": 1.7041666666666666e-05, + "loss": 0.005, + "step": 6332 + }, + { + "epoch": 13.195833333333333, + "grad_norm": 0.05567473918199539, + "learning_rate": 1.703125e-05, + "loss": 0.0028, + "step": 6334 + }, + { + "epoch": 13.2, + "grad_norm": 0.060123421251773834, + "learning_rate": 1.702083333333333e-05, + "loss": 0.002, + "step": 6336 + }, + { + "epoch": 13.204166666666667, + "grad_norm": 0.23109251260757446, + "learning_rate": 1.701041666666667e-05, + "loss": 0.0033, + "step": 6338 + }, + { + "epoch": 13.208333333333334, + "grad_norm": 0.05322485789656639, + "learning_rate": 1.7000000000000003e-05, + "loss": 0.0034, + "step": 6340 + }, + { + "epoch": 13.2125, + "grad_norm": 0.2606249451637268, + "learning_rate": 1.6989583333333334e-05, + "loss": 0.0032, + "step": 6342 + }, + { + "epoch": 13.216666666666667, + "grad_norm": 0.06912656873464584, + "learning_rate": 1.6979166666666668e-05, + "loss": 0.0021, + "step": 6344 + }, + { + "epoch": 13.220833333333333, + "grad_norm": 0.07629649341106415, + "learning_rate": 1.696875e-05, + "loss": 0.0026, + "step": 6346 + }, + { + "epoch": 13.225, + "grad_norm": 0.4477621912956238, + "learning_rate": 1.6958333333333333e-05, + "loss": 0.0105, + "step": 6348 + }, + { + "epoch": 13.229166666666666, + "grad_norm": 0.5969536304473877, + "learning_rate": 1.6947916666666668e-05, + "loss": 0.0028, + "step": 6350 + }, + { + "epoch": 13.233333333333333, + "grad_norm": 0.6417747139930725, + "learning_rate": 1.6937500000000002e-05, + "loss": 0.0037, + "step": 6352 + }, + { + "epoch": 13.2375, + "grad_norm": 0.2265944927930832, + "learning_rate": 1.6927083333333336e-05, + "loss": 0.0035, + "step": 6354 + }, + { + "epoch": 13.241666666666667, + "grad_norm": 0.29463696479797363, + "learning_rate": 1.6916666666666667e-05, + "loss": 0.0158, + "step": 6356 + }, + { + "epoch": 13.245833333333334, + "grad_norm": 0.11301270872354507, + "learning_rate": 1.690625e-05, + "loss": 0.0029, + "step": 6358 + }, + { + "epoch": 13.25, + "grad_norm": 0.22106249630451202, + "learning_rate": 1.6895833333333332e-05, + "loss": 0.004, + "step": 6360 + }, + { + "epoch": 13.254166666666666, + "grad_norm": 0.09679174423217773, + "learning_rate": 1.6885416666666666e-05, + "loss": 0.0026, + "step": 6362 + }, + { + "epoch": 13.258333333333333, + "grad_norm": 0.057098694145679474, + "learning_rate": 1.6875000000000004e-05, + "loss": 0.0021, + "step": 6364 + }, + { + "epoch": 13.2625, + "grad_norm": 0.1208602711558342, + "learning_rate": 1.6864583333333334e-05, + "loss": 0.0034, + "step": 6366 + }, + { + "epoch": 13.266666666666667, + "grad_norm": 0.3989064693450928, + "learning_rate": 1.685416666666667e-05, + "loss": 0.0023, + "step": 6368 + }, + { + "epoch": 13.270833333333334, + "grad_norm": 0.06369601935148239, + "learning_rate": 1.684375e-05, + "loss": 0.0024, + "step": 6370 + }, + { + "epoch": 13.275, + "grad_norm": 0.14014536142349243, + "learning_rate": 1.6833333333333334e-05, + "loss": 0.0052, + "step": 6372 + }, + { + "epoch": 13.279166666666667, + "grad_norm": 0.06940660625696182, + "learning_rate": 1.6822916666666668e-05, + "loss": 0.0025, + "step": 6374 + }, + { + "epoch": 13.283333333333333, + "grad_norm": 0.16320501267910004, + "learning_rate": 1.6812500000000002e-05, + "loss": 0.0028, + "step": 6376 + }, + { + "epoch": 13.2875, + "grad_norm": 0.08798769116401672, + "learning_rate": 1.6802083333333336e-05, + "loss": 0.0024, + "step": 6378 + }, + { + "epoch": 13.291666666666666, + "grad_norm": 0.14229200780391693, + "learning_rate": 1.6791666666666667e-05, + "loss": 0.0022, + "step": 6380 + }, + { + "epoch": 13.295833333333333, + "grad_norm": 0.08250267803668976, + "learning_rate": 1.678125e-05, + "loss": 0.0054, + "step": 6382 + }, + { + "epoch": 13.3, + "grad_norm": 0.19295653700828552, + "learning_rate": 1.6770833333333332e-05, + "loss": 0.0037, + "step": 6384 + }, + { + "epoch": 13.304166666666667, + "grad_norm": 0.13874104619026184, + "learning_rate": 1.6760416666666666e-05, + "loss": 0.0024, + "step": 6386 + }, + { + "epoch": 13.308333333333334, + "grad_norm": 0.05990783870220184, + "learning_rate": 1.675e-05, + "loss": 0.0029, + "step": 6388 + }, + { + "epoch": 13.3125, + "grad_norm": 0.08141876012086868, + "learning_rate": 1.6739583333333335e-05, + "loss": 0.0024, + "step": 6390 + }, + { + "epoch": 13.316666666666666, + "grad_norm": 0.06498119980096817, + "learning_rate": 1.672916666666667e-05, + "loss": 0.0032, + "step": 6392 + }, + { + "epoch": 13.320833333333333, + "grad_norm": 0.08833100646734238, + "learning_rate": 1.671875e-05, + "loss": 0.0023, + "step": 6394 + }, + { + "epoch": 13.325, + "grad_norm": 0.5611116290092468, + "learning_rate": 1.6708333333333334e-05, + "loss": 0.0073, + "step": 6396 + }, + { + "epoch": 13.329166666666667, + "grad_norm": 0.16462194919586182, + "learning_rate": 1.6697916666666668e-05, + "loss": 0.0033, + "step": 6398 + }, + { + "epoch": 13.333333333333334, + "grad_norm": 0.10272190719842911, + "learning_rate": 1.66875e-05, + "loss": 0.0022, + "step": 6400 + }, + { + "epoch": 13.333333333333334, + "eval_cer": 0.05830741892492226, + "eval_loss": 0.41451942920684814, + "eval_runtime": 74.7129, + "eval_samples_per_second": 5.274, + "eval_steps_per_second": 0.669, + "step": 6400 + }, + { + "epoch": 13.3375, + "grad_norm": 0.04988222196698189, + "learning_rate": 1.6677083333333333e-05, + "loss": 0.0023, + "step": 6402 + }, + { + "epoch": 13.341666666666667, + "grad_norm": 0.11419521272182465, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.0029, + "step": 6404 + }, + { + "epoch": 13.345833333333333, + "grad_norm": 0.17661044001579285, + "learning_rate": 1.665625e-05, + "loss": 0.0026, + "step": 6406 + }, + { + "epoch": 13.35, + "grad_norm": 0.08813263475894928, + "learning_rate": 1.6645833333333336e-05, + "loss": 0.0025, + "step": 6408 + }, + { + "epoch": 13.354166666666666, + "grad_norm": 0.04428698867559433, + "learning_rate": 1.6635416666666667e-05, + "loss": 0.0025, + "step": 6410 + }, + { + "epoch": 13.358333333333333, + "grad_norm": 0.3351616859436035, + "learning_rate": 1.6625e-05, + "loss": 0.0052, + "step": 6412 + }, + { + "epoch": 13.3625, + "grad_norm": 0.6001994013786316, + "learning_rate": 1.6614583333333332e-05, + "loss": 0.0064, + "step": 6414 + }, + { + "epoch": 13.366666666666667, + "grad_norm": 0.09188856184482574, + "learning_rate": 1.660416666666667e-05, + "loss": 0.0098, + "step": 6416 + }, + { + "epoch": 13.370833333333334, + "grad_norm": 0.147614985704422, + "learning_rate": 1.659375e-05, + "loss": 0.0029, + "step": 6418 + }, + { + "epoch": 13.375, + "grad_norm": 0.08335772901773453, + "learning_rate": 1.6583333333333334e-05, + "loss": 0.0019, + "step": 6420 + }, + { + "epoch": 13.379166666666666, + "grad_norm": 0.1426796168088913, + "learning_rate": 1.657291666666667e-05, + "loss": 0.0025, + "step": 6422 + }, + { + "epoch": 13.383333333333333, + "grad_norm": 0.07756586372852325, + "learning_rate": 1.65625e-05, + "loss": 0.0021, + "step": 6424 + }, + { + "epoch": 13.3875, + "grad_norm": 0.04516509920358658, + "learning_rate": 1.6552083333333334e-05, + "loss": 0.0032, + "step": 6426 + }, + { + "epoch": 13.391666666666667, + "grad_norm": 0.3209531903266907, + "learning_rate": 1.6541666666666668e-05, + "loss": 0.006, + "step": 6428 + }, + { + "epoch": 13.395833333333334, + "grad_norm": 0.050619937479496, + "learning_rate": 1.6531250000000002e-05, + "loss": 0.002, + "step": 6430 + }, + { + "epoch": 13.4, + "grad_norm": 0.09837516397237778, + "learning_rate": 1.6520833333333336e-05, + "loss": 0.0023, + "step": 6432 + }, + { + "epoch": 13.404166666666667, + "grad_norm": 0.10227131098508835, + "learning_rate": 1.6510416666666667e-05, + "loss": 0.0044, + "step": 6434 + }, + { + "epoch": 13.408333333333333, + "grad_norm": 0.04197448119521141, + "learning_rate": 1.65e-05, + "loss": 0.0023, + "step": 6436 + }, + { + "epoch": 13.4125, + "grad_norm": 0.5361396074295044, + "learning_rate": 1.6489583333333332e-05, + "loss": 0.003, + "step": 6438 + }, + { + "epoch": 13.416666666666666, + "grad_norm": 0.05744115263223648, + "learning_rate": 1.6479166666666666e-05, + "loss": 0.0018, + "step": 6440 + }, + { + "epoch": 13.420833333333333, + "grad_norm": 0.10607446730136871, + "learning_rate": 1.646875e-05, + "loss": 0.0025, + "step": 6442 + }, + { + "epoch": 13.425, + "grad_norm": 0.060387931764125824, + "learning_rate": 1.6458333333333335e-05, + "loss": 0.002, + "step": 6444 + }, + { + "epoch": 13.429166666666667, + "grad_norm": 0.036336980760097504, + "learning_rate": 1.644791666666667e-05, + "loss": 0.0019, + "step": 6446 + }, + { + "epoch": 13.433333333333334, + "grad_norm": 0.06848835200071335, + "learning_rate": 1.64375e-05, + "loss": 0.002, + "step": 6448 + }, + { + "epoch": 13.4375, + "grad_norm": 0.5597620606422424, + "learning_rate": 1.6427083333333334e-05, + "loss": 0.0039, + "step": 6450 + }, + { + "epoch": 13.441666666666666, + "grad_norm": 0.16536912322044373, + "learning_rate": 1.6416666666666665e-05, + "loss": 0.0024, + "step": 6452 + }, + { + "epoch": 13.445833333333333, + "grad_norm": 0.1401306837797165, + "learning_rate": 1.6406250000000002e-05, + "loss": 0.0028, + "step": 6454 + }, + { + "epoch": 13.45, + "grad_norm": 0.09521885216236115, + "learning_rate": 1.6395833333333337e-05, + "loss": 0.0025, + "step": 6456 + }, + { + "epoch": 13.454166666666667, + "grad_norm": 0.10676634311676025, + "learning_rate": 1.6385416666666667e-05, + "loss": 0.0022, + "step": 6458 + }, + { + "epoch": 13.458333333333334, + "grad_norm": 0.05474865436553955, + "learning_rate": 1.6375e-05, + "loss": 0.0025, + "step": 6460 + }, + { + "epoch": 13.4625, + "grad_norm": 0.05013493448495865, + "learning_rate": 1.6364583333333332e-05, + "loss": 0.0018, + "step": 6462 + }, + { + "epoch": 13.466666666666667, + "grad_norm": 0.12773020565509796, + "learning_rate": 1.6354166666666667e-05, + "loss": 0.0028, + "step": 6464 + }, + { + "epoch": 13.470833333333333, + "grad_norm": 0.14741913974285126, + "learning_rate": 1.634375e-05, + "loss": 0.0031, + "step": 6466 + }, + { + "epoch": 13.475, + "grad_norm": 0.2770758271217346, + "learning_rate": 1.6333333333333335e-05, + "loss": 0.0025, + "step": 6468 + }, + { + "epoch": 13.479166666666666, + "grad_norm": 0.06496131420135498, + "learning_rate": 1.632291666666667e-05, + "loss": 0.0017, + "step": 6470 + }, + { + "epoch": 13.483333333333333, + "grad_norm": 0.0668620616197586, + "learning_rate": 1.63125e-05, + "loss": 0.0023, + "step": 6472 + }, + { + "epoch": 13.4875, + "grad_norm": 0.07766970992088318, + "learning_rate": 1.6302083333333334e-05, + "loss": 0.0024, + "step": 6474 + }, + { + "epoch": 13.491666666666667, + "grad_norm": 0.19480179250240326, + "learning_rate": 1.6291666666666665e-05, + "loss": 0.0026, + "step": 6476 + }, + { + "epoch": 13.495833333333334, + "grad_norm": 0.0485403873026371, + "learning_rate": 1.628125e-05, + "loss": 0.0021, + "step": 6478 + }, + { + "epoch": 13.5, + "grad_norm": 0.08578673750162125, + "learning_rate": 1.6270833333333334e-05, + "loss": 0.0023, + "step": 6480 + }, + { + "epoch": 13.504166666666666, + "grad_norm": 0.08711384236812592, + "learning_rate": 1.6260416666666668e-05, + "loss": 0.0051, + "step": 6482 + }, + { + "epoch": 13.508333333333333, + "grad_norm": 0.2495734989643097, + "learning_rate": 1.6250000000000002e-05, + "loss": 0.0038, + "step": 6484 + }, + { + "epoch": 13.5125, + "grad_norm": 0.09940969198942184, + "learning_rate": 1.6239583333333333e-05, + "loss": 0.0027, + "step": 6486 + }, + { + "epoch": 13.516666666666667, + "grad_norm": 0.20602618157863617, + "learning_rate": 1.6229166666666667e-05, + "loss": 0.008, + "step": 6488 + }, + { + "epoch": 13.520833333333334, + "grad_norm": 0.12978626787662506, + "learning_rate": 1.621875e-05, + "loss": 0.0017, + "step": 6490 + }, + { + "epoch": 13.525, + "grad_norm": 0.12740416824817657, + "learning_rate": 1.6208333333333332e-05, + "loss": 0.0027, + "step": 6492 + }, + { + "epoch": 13.529166666666667, + "grad_norm": 0.21826502680778503, + "learning_rate": 1.619791666666667e-05, + "loss": 0.0062, + "step": 6494 + }, + { + "epoch": 13.533333333333333, + "grad_norm": 0.16093166172504425, + "learning_rate": 1.61875e-05, + "loss": 0.002, + "step": 6496 + }, + { + "epoch": 13.5375, + "grad_norm": 0.07412050664424896, + "learning_rate": 1.6177083333333335e-05, + "loss": 0.0024, + "step": 6498 + }, + { + "epoch": 13.541666666666666, + "grad_norm": 0.1684143841266632, + "learning_rate": 1.6166666666666665e-05, + "loss": 0.0035, + "step": 6500 + }, + { + "epoch": 13.545833333333333, + "grad_norm": 0.1683197021484375, + "learning_rate": 1.615625e-05, + "loss": 0.0031, + "step": 6502 + }, + { + "epoch": 13.55, + "grad_norm": 0.07519049197435379, + "learning_rate": 1.6145833333333334e-05, + "loss": 0.0021, + "step": 6504 + }, + { + "epoch": 13.554166666666667, + "grad_norm": 0.09994664043188095, + "learning_rate": 1.6135416666666668e-05, + "loss": 0.0018, + "step": 6506 + }, + { + "epoch": 13.558333333333334, + "grad_norm": 0.07023806869983673, + "learning_rate": 1.6125000000000002e-05, + "loss": 0.0027, + "step": 6508 + }, + { + "epoch": 13.5625, + "grad_norm": 0.04434641823172569, + "learning_rate": 1.6114583333333333e-05, + "loss": 0.0017, + "step": 6510 + }, + { + "epoch": 13.566666666666666, + "grad_norm": 0.05924547091126442, + "learning_rate": 1.6104166666666667e-05, + "loss": 0.0017, + "step": 6512 + }, + { + "epoch": 13.570833333333333, + "grad_norm": 0.24255569279193878, + "learning_rate": 1.609375e-05, + "loss": 0.0033, + "step": 6514 + }, + { + "epoch": 13.575, + "grad_norm": 0.1360824704170227, + "learning_rate": 1.6083333333333332e-05, + "loss": 0.0022, + "step": 6516 + }, + { + "epoch": 13.579166666666667, + "grad_norm": 0.14458172023296356, + "learning_rate": 1.6072916666666667e-05, + "loss": 0.0031, + "step": 6518 + }, + { + "epoch": 13.583333333333334, + "grad_norm": 0.0715312510728836, + "learning_rate": 1.60625e-05, + "loss": 0.0026, + "step": 6520 + }, + { + "epoch": 13.5875, + "grad_norm": 0.2636762261390686, + "learning_rate": 1.6052083333333335e-05, + "loss": 0.0031, + "step": 6522 + }, + { + "epoch": 13.591666666666667, + "grad_norm": 0.0804002657532692, + "learning_rate": 1.604166666666667e-05, + "loss": 0.0022, + "step": 6524 + }, + { + "epoch": 13.595833333333333, + "grad_norm": 0.15152859687805176, + "learning_rate": 1.603125e-05, + "loss": 0.0084, + "step": 6526 + }, + { + "epoch": 13.6, + "grad_norm": 0.15780454874038696, + "learning_rate": 1.6020833333333334e-05, + "loss": 0.0035, + "step": 6528 + }, + { + "epoch": 13.604166666666666, + "grad_norm": 0.19803659617900848, + "learning_rate": 1.6010416666666665e-05, + "loss": 0.0052, + "step": 6530 + }, + { + "epoch": 13.608333333333333, + "grad_norm": 0.21142706274986267, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.0029, + "step": 6532 + }, + { + "epoch": 13.6125, + "grad_norm": 0.051383182406425476, + "learning_rate": 1.5989583333333333e-05, + "loss": 0.0022, + "step": 6534 + }, + { + "epoch": 13.616666666666667, + "grad_norm": 0.043692126870155334, + "learning_rate": 1.5979166666666668e-05, + "loss": 0.0024, + "step": 6536 + }, + { + "epoch": 13.620833333333334, + "grad_norm": 0.1039465144276619, + "learning_rate": 1.5968750000000002e-05, + "loss": 0.0027, + "step": 6538 + }, + { + "epoch": 13.625, + "grad_norm": 0.10016585886478424, + "learning_rate": 1.5958333333333333e-05, + "loss": 0.0021, + "step": 6540 + }, + { + "epoch": 13.629166666666666, + "grad_norm": 0.11184591799974442, + "learning_rate": 1.5947916666666667e-05, + "loss": 0.0023, + "step": 6542 + }, + { + "epoch": 13.633333333333333, + "grad_norm": 0.05191025882959366, + "learning_rate": 1.59375e-05, + "loss": 0.0045, + "step": 6544 + }, + { + "epoch": 13.6375, + "grad_norm": 0.13095977902412415, + "learning_rate": 1.5927083333333335e-05, + "loss": 0.003, + "step": 6546 + }, + { + "epoch": 13.641666666666667, + "grad_norm": 0.07775112986564636, + "learning_rate": 1.591666666666667e-05, + "loss": 0.0038, + "step": 6548 + }, + { + "epoch": 13.645833333333334, + "grad_norm": 0.2849348187446594, + "learning_rate": 1.590625e-05, + "loss": 0.0023, + "step": 6550 + }, + { + "epoch": 13.65, + "grad_norm": 0.06629511713981628, + "learning_rate": 1.5895833333333335e-05, + "loss": 0.0022, + "step": 6552 + }, + { + "epoch": 13.654166666666667, + "grad_norm": 0.14140784740447998, + "learning_rate": 1.5885416666666665e-05, + "loss": 0.0023, + "step": 6554 + }, + { + "epoch": 13.658333333333333, + "grad_norm": 0.2714425027370453, + "learning_rate": 1.5875e-05, + "loss": 0.0045, + "step": 6556 + }, + { + "epoch": 13.6625, + "grad_norm": 0.2961695194244385, + "learning_rate": 1.5864583333333334e-05, + "loss": 0.0031, + "step": 6558 + }, + { + "epoch": 13.666666666666666, + "grad_norm": 0.3609687387943268, + "learning_rate": 1.5854166666666668e-05, + "loss": 0.0124, + "step": 6560 + }, + { + "epoch": 13.670833333333333, + "grad_norm": 0.10034968703985214, + "learning_rate": 1.5843750000000002e-05, + "loss": 0.0023, + "step": 6562 + }, + { + "epoch": 13.675, + "grad_norm": 0.072947196662426, + "learning_rate": 1.5833333333333333e-05, + "loss": 0.0028, + "step": 6564 + }, + { + "epoch": 13.679166666666667, + "grad_norm": 0.09259199351072311, + "learning_rate": 1.5822916666666667e-05, + "loss": 0.0036, + "step": 6566 + }, + { + "epoch": 13.683333333333334, + "grad_norm": 0.047906599938869476, + "learning_rate": 1.5812499999999998e-05, + "loss": 0.0045, + "step": 6568 + }, + { + "epoch": 13.6875, + "grad_norm": 0.09217698872089386, + "learning_rate": 1.5802083333333336e-05, + "loss": 0.0023, + "step": 6570 + }, + { + "epoch": 13.691666666666666, + "grad_norm": 0.08779177069664001, + "learning_rate": 1.579166666666667e-05, + "loss": 0.0027, + "step": 6572 + }, + { + "epoch": 13.695833333333333, + "grad_norm": 0.08510252833366394, + "learning_rate": 1.578125e-05, + "loss": 0.0031, + "step": 6574 + }, + { + "epoch": 13.7, + "grad_norm": 0.16148851811885834, + "learning_rate": 1.5770833333333335e-05, + "loss": 0.003, + "step": 6576 + }, + { + "epoch": 13.704166666666667, + "grad_norm": 0.16418138146400452, + "learning_rate": 1.5760416666666666e-05, + "loss": 0.002, + "step": 6578 + }, + { + "epoch": 13.708333333333334, + "grad_norm": 0.10763213783502579, + "learning_rate": 1.575e-05, + "loss": 0.0027, + "step": 6580 + }, + { + "epoch": 13.7125, + "grad_norm": 0.12884636223316193, + "learning_rate": 1.5739583333333334e-05, + "loss": 0.0045, + "step": 6582 + }, + { + "epoch": 13.716666666666667, + "grad_norm": 0.2788851857185364, + "learning_rate": 1.572916666666667e-05, + "loss": 0.0058, + "step": 6584 + }, + { + "epoch": 13.720833333333333, + "grad_norm": 1.0432802438735962, + "learning_rate": 1.5718750000000003e-05, + "loss": 0.0032, + "step": 6586 + }, + { + "epoch": 13.725, + "grad_norm": 0.1249435544013977, + "learning_rate": 1.5708333333333333e-05, + "loss": 0.0033, + "step": 6588 + }, + { + "epoch": 13.729166666666666, + "grad_norm": 0.39373183250427246, + "learning_rate": 1.5697916666666668e-05, + "loss": 0.0078, + "step": 6590 + }, + { + "epoch": 13.733333333333333, + "grad_norm": 0.06215585768222809, + "learning_rate": 1.56875e-05, + "loss": 0.0021, + "step": 6592 + }, + { + "epoch": 13.7375, + "grad_norm": 0.1623803824186325, + "learning_rate": 1.5677083333333333e-05, + "loss": 0.0027, + "step": 6594 + }, + { + "epoch": 13.741666666666667, + "grad_norm": 0.054530736058950424, + "learning_rate": 1.5666666666666667e-05, + "loss": 0.003, + "step": 6596 + }, + { + "epoch": 13.745833333333334, + "grad_norm": 0.16028320789337158, + "learning_rate": 1.565625e-05, + "loss": 0.0025, + "step": 6598 + }, + { + "epoch": 13.75, + "grad_norm": 0.3133435547351837, + "learning_rate": 1.5645833333333335e-05, + "loss": 0.0054, + "step": 6600 + }, + { + "epoch": 13.75, + "eval_cer": 0.05653043091959129, + "eval_loss": 0.4131419360637665, + "eval_runtime": 74.8533, + "eval_samples_per_second": 5.264, + "eval_steps_per_second": 0.668, + "step": 6600 + }, + { + "epoch": 13.754166666666666, + "grad_norm": 0.10264972597360611, + "learning_rate": 1.5635416666666666e-05, + "loss": 0.0043, + "step": 6602 + }, + { + "epoch": 13.758333333333333, + "grad_norm": 0.2827208638191223, + "learning_rate": 1.5625e-05, + "loss": 0.0043, + "step": 6604 + }, + { + "epoch": 13.7625, + "grad_norm": 0.18630099296569824, + "learning_rate": 1.5614583333333335e-05, + "loss": 0.0093, + "step": 6606 + }, + { + "epoch": 13.766666666666667, + "grad_norm": 0.0557548850774765, + "learning_rate": 1.5604166666666665e-05, + "loss": 0.0023, + "step": 6608 + }, + { + "epoch": 13.770833333333334, + "grad_norm": 0.235639750957489, + "learning_rate": 1.5593750000000003e-05, + "loss": 0.0045, + "step": 6610 + }, + { + "epoch": 13.775, + "grad_norm": 0.8878408670425415, + "learning_rate": 1.5583333333333334e-05, + "loss": 0.003, + "step": 6612 + }, + { + "epoch": 13.779166666666667, + "grad_norm": 0.04364406690001488, + "learning_rate": 1.5572916666666668e-05, + "loss": 0.0021, + "step": 6614 + }, + { + "epoch": 13.783333333333333, + "grad_norm": 0.059193991124629974, + "learning_rate": 1.5562500000000002e-05, + "loss": 0.0024, + "step": 6616 + }, + { + "epoch": 13.7875, + "grad_norm": 0.1417813003063202, + "learning_rate": 1.5552083333333333e-05, + "loss": 0.0027, + "step": 6618 + }, + { + "epoch": 13.791666666666666, + "grad_norm": 0.12418420612812042, + "learning_rate": 1.5541666666666667e-05, + "loss": 0.0027, + "step": 6620 + }, + { + "epoch": 13.795833333333333, + "grad_norm": 0.12030600011348724, + "learning_rate": 1.553125e-05, + "loss": 0.0042, + "step": 6622 + }, + { + "epoch": 13.8, + "grad_norm": 0.05735962465405464, + "learning_rate": 1.5520833333333336e-05, + "loss": 0.0016, + "step": 6624 + }, + { + "epoch": 13.804166666666667, + "grad_norm": 0.398192435503006, + "learning_rate": 1.5510416666666666e-05, + "loss": 0.0057, + "step": 6626 + }, + { + "epoch": 13.808333333333334, + "grad_norm": 0.1572618931531906, + "learning_rate": 1.55e-05, + "loss": 0.0033, + "step": 6628 + }, + { + "epoch": 13.8125, + "grad_norm": 0.20721299946308136, + "learning_rate": 1.5489583333333335e-05, + "loss": 0.0032, + "step": 6630 + }, + { + "epoch": 13.816666666666666, + "grad_norm": 0.6656963229179382, + "learning_rate": 1.5479166666666666e-05, + "loss": 0.0026, + "step": 6632 + }, + { + "epoch": 13.820833333333333, + "grad_norm": 0.7500977516174316, + "learning_rate": 1.546875e-05, + "loss": 0.0041, + "step": 6634 + }, + { + "epoch": 13.825, + "grad_norm": 0.27128320932388306, + "learning_rate": 1.5458333333333334e-05, + "loss": 0.0067, + "step": 6636 + }, + { + "epoch": 13.829166666666667, + "grad_norm": 0.11513631045818329, + "learning_rate": 1.544791666666667e-05, + "loss": 0.0027, + "step": 6638 + }, + { + "epoch": 13.833333333333334, + "grad_norm": 0.045905597507953644, + "learning_rate": 1.5437500000000003e-05, + "loss": 0.0025, + "step": 6640 + }, + { + "epoch": 13.8375, + "grad_norm": 0.12906470894813538, + "learning_rate": 1.5427083333333333e-05, + "loss": 0.0042, + "step": 6642 + }, + { + "epoch": 13.841666666666667, + "grad_norm": 0.431550532579422, + "learning_rate": 1.5416666666666668e-05, + "loss": 0.0043, + "step": 6644 + }, + { + "epoch": 13.845833333333333, + "grad_norm": 0.18586336076259613, + "learning_rate": 1.540625e-05, + "loss": 0.0065, + "step": 6646 + }, + { + "epoch": 13.85, + "grad_norm": 0.3067913055419922, + "learning_rate": 1.5395833333333336e-05, + "loss": 0.0049, + "step": 6648 + }, + { + "epoch": 13.854166666666666, + "grad_norm": 0.07272881269454956, + "learning_rate": 1.5385416666666667e-05, + "loss": 0.0021, + "step": 6650 + }, + { + "epoch": 13.858333333333333, + "grad_norm": 0.14190886914730072, + "learning_rate": 1.5375e-05, + "loss": 0.0033, + "step": 6652 + }, + { + "epoch": 13.8625, + "grad_norm": 0.09749709814786911, + "learning_rate": 1.5364583333333335e-05, + "loss": 0.0023, + "step": 6654 + }, + { + "epoch": 13.866666666666667, + "grad_norm": 0.2671657204627991, + "learning_rate": 1.5354166666666666e-05, + "loss": 0.0075, + "step": 6656 + }, + { + "epoch": 13.870833333333334, + "grad_norm": 0.144461989402771, + "learning_rate": 1.534375e-05, + "loss": 0.0026, + "step": 6658 + }, + { + "epoch": 13.875, + "grad_norm": 0.8031550645828247, + "learning_rate": 1.5333333333333334e-05, + "loss": 0.0116, + "step": 6660 + }, + { + "epoch": 13.879166666666666, + "grad_norm": 0.08302131295204163, + "learning_rate": 1.532291666666667e-05, + "loss": 0.0027, + "step": 6662 + }, + { + "epoch": 13.883333333333333, + "grad_norm": 0.33705297112464905, + "learning_rate": 1.5312500000000003e-05, + "loss": 0.0041, + "step": 6664 + }, + { + "epoch": 13.8875, + "grad_norm": 0.05843769758939743, + "learning_rate": 1.5302083333333334e-05, + "loss": 0.0033, + "step": 6666 + }, + { + "epoch": 13.891666666666667, + "grad_norm": 0.058634959161281586, + "learning_rate": 1.5291666666666668e-05, + "loss": 0.0056, + "step": 6668 + }, + { + "epoch": 13.895833333333334, + "grad_norm": 0.10217398405075073, + "learning_rate": 1.528125e-05, + "loss": 0.0028, + "step": 6670 + }, + { + "epoch": 13.9, + "grad_norm": 0.11372138559818268, + "learning_rate": 1.5270833333333333e-05, + "loss": 0.0049, + "step": 6672 + }, + { + "epoch": 13.904166666666667, + "grad_norm": 0.2324199229478836, + "learning_rate": 1.5260416666666667e-05, + "loss": 0.0033, + "step": 6674 + }, + { + "epoch": 13.908333333333333, + "grad_norm": 0.053841665387153625, + "learning_rate": 1.525e-05, + "loss": 0.0019, + "step": 6676 + }, + { + "epoch": 13.9125, + "grad_norm": 0.05354693531990051, + "learning_rate": 1.5239583333333336e-05, + "loss": 0.0024, + "step": 6678 + }, + { + "epoch": 13.916666666666666, + "grad_norm": 0.4247072637081146, + "learning_rate": 1.5229166666666666e-05, + "loss": 0.006, + "step": 6680 + }, + { + "epoch": 13.920833333333333, + "grad_norm": 0.2648441195487976, + "learning_rate": 1.521875e-05, + "loss": 0.0049, + "step": 6682 + }, + { + "epoch": 13.925, + "grad_norm": 0.10714209079742432, + "learning_rate": 1.5208333333333333e-05, + "loss": 0.0049, + "step": 6684 + }, + { + "epoch": 13.929166666666667, + "grad_norm": 0.05607300251722336, + "learning_rate": 1.5197916666666667e-05, + "loss": 0.0031, + "step": 6686 + }, + { + "epoch": 13.933333333333334, + "grad_norm": 0.34447771310806274, + "learning_rate": 1.5187500000000002e-05, + "loss": 0.0033, + "step": 6688 + }, + { + "epoch": 13.9375, + "grad_norm": 0.07800997793674469, + "learning_rate": 1.5177083333333334e-05, + "loss": 0.0023, + "step": 6690 + }, + { + "epoch": 13.941666666666666, + "grad_norm": 0.03209361806511879, + "learning_rate": 1.5166666666666668e-05, + "loss": 0.0031, + "step": 6692 + }, + { + "epoch": 13.945833333333333, + "grad_norm": 0.04913395643234253, + "learning_rate": 1.5156249999999999e-05, + "loss": 0.0023, + "step": 6694 + }, + { + "epoch": 13.95, + "grad_norm": 0.04655245691537857, + "learning_rate": 1.5145833333333333e-05, + "loss": 0.0018, + "step": 6696 + }, + { + "epoch": 13.954166666666667, + "grad_norm": 0.08584462106227875, + "learning_rate": 1.513541666666667e-05, + "loss": 0.0023, + "step": 6698 + }, + { + "epoch": 13.958333333333334, + "grad_norm": 0.19915041327476501, + "learning_rate": 1.5125e-05, + "loss": 0.004, + "step": 6700 + }, + { + "epoch": 13.9625, + "grad_norm": 0.07963789999485016, + "learning_rate": 1.5114583333333334e-05, + "loss": 0.0056, + "step": 6702 + }, + { + "epoch": 13.966666666666667, + "grad_norm": 0.05457717925310135, + "learning_rate": 1.5104166666666667e-05, + "loss": 0.0019, + "step": 6704 + }, + { + "epoch": 13.970833333333333, + "grad_norm": 0.10204040259122849, + "learning_rate": 1.5093750000000001e-05, + "loss": 0.0024, + "step": 6706 + }, + { + "epoch": 13.975, + "grad_norm": 0.11524426937103271, + "learning_rate": 1.5083333333333335e-05, + "loss": 0.0021, + "step": 6708 + }, + { + "epoch": 13.979166666666666, + "grad_norm": 0.1516694575548172, + "learning_rate": 1.5072916666666668e-05, + "loss": 0.0073, + "step": 6710 + }, + { + "epoch": 13.983333333333333, + "grad_norm": 0.04500000178813934, + "learning_rate": 1.5062500000000002e-05, + "loss": 0.0017, + "step": 6712 + }, + { + "epoch": 13.9875, + "grad_norm": 0.4163214862346649, + "learning_rate": 1.5052083333333333e-05, + "loss": 0.0051, + "step": 6714 + }, + { + "epoch": 13.991666666666667, + "grad_norm": 0.04419863969087601, + "learning_rate": 1.5041666666666669e-05, + "loss": 0.0025, + "step": 6716 + }, + { + "epoch": 13.995833333333334, + "grad_norm": 0.06305772811174393, + "learning_rate": 1.503125e-05, + "loss": 0.0022, + "step": 6718 + }, + { + "epoch": 14.0, + "grad_norm": 0.13797101378440857, + "learning_rate": 1.5020833333333334e-05, + "loss": 0.0027, + "step": 6720 + }, + { + "epoch": 14.004166666666666, + "grad_norm": 0.3175923228263855, + "learning_rate": 1.5010416666666668e-05, + "loss": 0.0029, + "step": 6722 + }, + { + "epoch": 14.008333333333333, + "grad_norm": 0.0952536016702652, + "learning_rate": 1.5e-05, + "loss": 0.0022, + "step": 6724 + }, + { + "epoch": 14.0125, + "grad_norm": 0.1487370729446411, + "learning_rate": 1.4989583333333335e-05, + "loss": 0.0026, + "step": 6726 + }, + { + "epoch": 14.016666666666667, + "grad_norm": 0.1992005705833435, + "learning_rate": 1.4979166666666667e-05, + "loss": 0.0021, + "step": 6728 + }, + { + "epoch": 14.020833333333334, + "grad_norm": 0.15221185982227325, + "learning_rate": 1.4968750000000001e-05, + "loss": 0.003, + "step": 6730 + }, + { + "epoch": 14.025, + "grad_norm": 0.03944152593612671, + "learning_rate": 1.4958333333333336e-05, + "loss": 0.0023, + "step": 6732 + }, + { + "epoch": 14.029166666666667, + "grad_norm": 0.2936011552810669, + "learning_rate": 1.4947916666666666e-05, + "loss": 0.0024, + "step": 6734 + }, + { + "epoch": 14.033333333333333, + "grad_norm": 0.07432222366333008, + "learning_rate": 1.4937500000000002e-05, + "loss": 0.0022, + "step": 6736 + }, + { + "epoch": 14.0375, + "grad_norm": 0.16294702887535095, + "learning_rate": 1.4927083333333333e-05, + "loss": 0.0036, + "step": 6738 + }, + { + "epoch": 14.041666666666666, + "grad_norm": 0.08084812015295029, + "learning_rate": 1.4916666666666667e-05, + "loss": 0.0019, + "step": 6740 + }, + { + "epoch": 14.045833333333333, + "grad_norm": 0.05392075330018997, + "learning_rate": 1.490625e-05, + "loss": 0.0018, + "step": 6742 + }, + { + "epoch": 14.05, + "grad_norm": 0.04019289091229439, + "learning_rate": 1.4895833333333334e-05, + "loss": 0.0016, + "step": 6744 + }, + { + "epoch": 14.054166666666667, + "grad_norm": 0.09720532596111298, + "learning_rate": 1.4885416666666668e-05, + "loss": 0.0021, + "step": 6746 + }, + { + "epoch": 14.058333333333334, + "grad_norm": 0.07292551547288895, + "learning_rate": 1.4875e-05, + "loss": 0.002, + "step": 6748 + }, + { + "epoch": 14.0625, + "grad_norm": 0.042501915246248245, + "learning_rate": 1.4864583333333335e-05, + "loss": 0.0019, + "step": 6750 + }, + { + "epoch": 14.066666666666666, + "grad_norm": 0.20131415128707886, + "learning_rate": 1.4854166666666666e-05, + "loss": 0.0029, + "step": 6752 + }, + { + "epoch": 14.070833333333333, + "grad_norm": 0.2206254005432129, + "learning_rate": 1.484375e-05, + "loss": 0.0039, + "step": 6754 + }, + { + "epoch": 14.075, + "grad_norm": 0.1910758763551712, + "learning_rate": 1.4833333333333336e-05, + "loss": 0.0046, + "step": 6756 + }, + { + "epoch": 14.079166666666667, + "grad_norm": 0.05188716575503349, + "learning_rate": 1.4822916666666667e-05, + "loss": 0.0066, + "step": 6758 + }, + { + "epoch": 14.083333333333334, + "grad_norm": 0.07941067218780518, + "learning_rate": 1.4812500000000001e-05, + "loss": 0.002, + "step": 6760 + }, + { + "epoch": 14.0875, + "grad_norm": 0.15998734533786774, + "learning_rate": 1.4802083333333333e-05, + "loss": 0.0019, + "step": 6762 + }, + { + "epoch": 14.091666666666667, + "grad_norm": 0.081133633852005, + "learning_rate": 1.4791666666666668e-05, + "loss": 0.0017, + "step": 6764 + }, + { + "epoch": 14.095833333333333, + "grad_norm": 0.049275245517492294, + "learning_rate": 1.4781250000000002e-05, + "loss": 0.0025, + "step": 6766 + }, + { + "epoch": 14.1, + "grad_norm": 0.08918793499469757, + "learning_rate": 1.4770833333333334e-05, + "loss": 0.0018, + "step": 6768 + }, + { + "epoch": 14.104166666666666, + "grad_norm": 0.04353095218539238, + "learning_rate": 1.4760416666666669e-05, + "loss": 0.0017, + "step": 6770 + }, + { + "epoch": 14.108333333333333, + "grad_norm": 0.06716294586658478, + "learning_rate": 1.475e-05, + "loss": 0.0016, + "step": 6772 + }, + { + "epoch": 14.1125, + "grad_norm": 0.027354771271348, + "learning_rate": 1.4739583333333334e-05, + "loss": 0.0018, + "step": 6774 + }, + { + "epoch": 14.116666666666667, + "grad_norm": 0.25023260712623596, + "learning_rate": 1.4729166666666666e-05, + "loss": 0.0049, + "step": 6776 + }, + { + "epoch": 14.120833333333334, + "grad_norm": 0.08264948427677155, + "learning_rate": 1.471875e-05, + "loss": 0.0014, + "step": 6778 + }, + { + "epoch": 14.125, + "grad_norm": 0.14390164613723755, + "learning_rate": 1.4708333333333335e-05, + "loss": 0.0016, + "step": 6780 + }, + { + "epoch": 14.129166666666666, + "grad_norm": 0.05219584330916405, + "learning_rate": 1.4697916666666667e-05, + "loss": 0.0019, + "step": 6782 + }, + { + "epoch": 14.133333333333333, + "grad_norm": 0.06974564492702484, + "learning_rate": 1.4687500000000001e-05, + "loss": 0.0017, + "step": 6784 + }, + { + "epoch": 14.1375, + "grad_norm": 0.032226819545030594, + "learning_rate": 1.4677083333333334e-05, + "loss": 0.0016, + "step": 6786 + }, + { + "epoch": 14.141666666666667, + "grad_norm": 0.21882657706737518, + "learning_rate": 1.4666666666666668e-05, + "loss": 0.0062, + "step": 6788 + }, + { + "epoch": 14.145833333333334, + "grad_norm": 0.4155077040195465, + "learning_rate": 1.4656250000000002e-05, + "loss": 0.0044, + "step": 6790 + }, + { + "epoch": 14.15, + "grad_norm": 0.0691014975309372, + "learning_rate": 1.4645833333333333e-05, + "loss": 0.0018, + "step": 6792 + }, + { + "epoch": 14.154166666666667, + "grad_norm": 0.2622540295124054, + "learning_rate": 1.4635416666666669e-05, + "loss": 0.0043, + "step": 6794 + }, + { + "epoch": 14.158333333333333, + "grad_norm": 0.05779508128762245, + "learning_rate": 1.4625e-05, + "loss": 0.0018, + "step": 6796 + }, + { + "epoch": 14.1625, + "grad_norm": 0.058104485273361206, + "learning_rate": 1.4614583333333334e-05, + "loss": 0.0016, + "step": 6798 + }, + { + "epoch": 14.166666666666666, + "grad_norm": 0.2024669051170349, + "learning_rate": 1.4604166666666666e-05, + "loss": 0.0041, + "step": 6800 + }, + { + "epoch": 14.166666666666666, + "eval_cer": 0.05436472678809418, + "eval_loss": 0.41585394740104675, + "eval_runtime": 75.0615, + "eval_samples_per_second": 5.249, + "eval_steps_per_second": 0.666, + "step": 6800 + } + ], + "logging_steps": 2, + "max_steps": 9600, + "num_input_tokens_seen": 0, + "num_train_epochs": 20, + "save_steps": 200, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 2.9230002850021717e+20, + "train_batch_size": 8, + "trial_name": null, + "trial_params": null +}