Upload 10 files

Browse files

Files changed (6) hide show

.gitattributes +1 -0
model.safetensors +1 -1
optimizer.pt +3 -0
rng_state.pth +0 -0
scheduler.pt +0 -0
trainer_state.json +1497 -0

.gitattributes CHANGED Viewed

@@ -1,3 +1,4 @@
 model.safetensors filter=lfs diff=lfs merge=lfs -text
 model.SRC filter=lfs diff=lfs merge=lfs -text
 model.TGT filter=lfs diff=lfs merge=lfs -text

 model.safetensors filter=lfs diff=lfs merge=lfs -text
 model.SRC filter=lfs diff=lfs merge=lfs -text
 model.TGT filter=lfs diff=lfs merge=lfs -text
+optimizer.pt filter=lfs diff=lfs merge=lfs -text

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea67a27d22d8aed4603f79437cd9a36cdf096acf2c62df9dd9d20d7343546e27
 size 2247492800

 version https://git-lfs.github.com/spec/v1
+oid sha256:b807377b9259c63916b600d8d5eb99c70dc4a2085059628e505000b277a9f84b
 size 2247492800

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8171315046191596a4cd9a881659f2157b1d1a3b94517b2186ee617eba4b2515
+size 4495445235

rng_state.pth ADDED Viewed

Binary file (14.3 kB). View file

scheduler.pt ADDED Viewed

Binary file (1.06 kB). View file

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1497 @@

+{
+  "best_metric": 34.19371467731715,
+  "best_model_checkpoint": "indictrans-en-ne-checkpoint-1B-2/checkpoint-12000",
+  "epoch": 1.9999086966446016,
+  "eval_steps": 1200,
+  "global_step": 16428,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.012173780719774785,
+      "grad_norm": 0.1044921875,
+      "learning_rate": 0.0001414213562373095,
+      "loss": 0.1798,
+      "num_input_tokens_seen": 3276800,
+      "step": 100
+    },
+    {
+      "epoch": 0.02434756143954957,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 0.0001,
+      "loss": 0.1787,
+      "num_input_tokens_seen": 6553600,
+      "step": 200
+    },
+    {
+      "epoch": 0.03652134215932436,
+      "grad_norm": 0.08349609375,
+      "learning_rate": 8.164965809277262e-05,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 9830400,
+      "step": 300
+    },
+    {
+      "epoch": 0.04869512287909914,
+      "grad_norm": 0.08203125,
+      "learning_rate": 7.071067811865475e-05,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 13107200,
+      "step": 400
+    },
+    {
+      "epoch": 0.060868903598873925,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 6.324555320336759e-05,
+      "loss": 0.177,
+      "num_input_tokens_seen": 16384000,
+      "step": 500
+    },
+    {
+      "epoch": 0.07304268431864872,
+      "grad_norm": 0.09228515625,
+      "learning_rate": 5.7735026918962585e-05,
+      "loss": 0.1757,
+      "num_input_tokens_seen": 19660800,
+      "step": 600
+    },
+    {
+      "epoch": 0.08521646503842349,
+      "grad_norm": 0.091796875,
+      "learning_rate": 5.3452248382484884e-05,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 22937600,
+      "step": 700
+    },
+    {
+      "epoch": 0.09739024575819828,
+      "grad_norm": 0.08154296875,
+      "learning_rate": 5e-05,
+      "loss": 0.1745,
+      "num_input_tokens_seen": 26214400,
+      "step": 800
+    },
+    {
+      "epoch": 0.10956402647797306,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 4.7140452079103176e-05,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 29491200,
+      "step": 900
+    },
+    {
+      "epoch": 0.12173780719774785,
+      "grad_norm": 0.0791015625,
+      "learning_rate": 4.4721359549995795e-05,
+      "loss": 0.175,
+      "num_input_tokens_seen": 32768000,
+      "step": 1000
+    },
+    {
+      "epoch": 0.13391158791752264,
+      "grad_norm": 0.09765625,
+      "learning_rate": 4.264014327112208e-05,
+      "loss": 0.1757,
+      "num_input_tokens_seen": 36044800,
+      "step": 1100
+    },
+    {
+      "epoch": 0.14608536863729743,
+      "grad_norm": 0.0830078125,
+      "learning_rate": 4.082482904638631e-05,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 39321600,
+      "step": 1200
+    },
+    {
+      "epoch": 0.14608536863729743,
+      "eval_BLEU": 33.851984753329205,
+      "eval_chrF": 59.48761000963931,
+      "eval_loss": 0.1480654925107956,
+      "eval_runtime": 4021.48,
+      "eval_samples_per_second": 4.692,
+      "eval_steps_per_second": 0.293,
+      "num_input_tokens_seen": 39321600,
+      "step": 1200
+    },
+    {
+      "epoch": 0.1582591493570722,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 3.922322702763681e-05,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 42598400,
+      "step": 1300
+    },
+    {
+      "epoch": 0.17043293007684698,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 3.779644730092272e-05,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 45875200,
+      "step": 1400
+    },
+    {
+      "epoch": 0.18260671079662177,
+      "grad_norm": 0.08837890625,
+      "learning_rate": 3.651483716701107e-05,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 49152000,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19478049151639656,
+      "grad_norm": 0.09130859375,
+      "learning_rate": 3.535533905932738e-05,
+      "loss": 0.1742,
+      "num_input_tokens_seen": 52428800,
+      "step": 1600
+    },
+    {
+      "epoch": 0.20695427223617135,
+      "grad_norm": 0.09033203125,
+      "learning_rate": 3.4299717028501764e-05,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 55705600,
+      "step": 1700
+    },
+    {
+      "epoch": 0.21912805295594612,
+      "grad_norm": 0.10498046875,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.1714,
+      "num_input_tokens_seen": 58982400,
+      "step": 1800
+    },
+    {
+      "epoch": 0.2313018336757209,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 3.244428422615251e-05,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 62259200,
+      "step": 1900
+    },
+    {
+      "epoch": 0.2434756143954957,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 3.1622776601683795e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 65536000,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25564939511527046,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 3.086066999241838e-05,
+      "loss": 0.175,
+      "num_input_tokens_seen": 68812800,
+      "step": 2100
+    },
+    {
+      "epoch": 0.2678231758350453,
+      "grad_norm": 0.09521484375,
+      "learning_rate": 3.0151134457776364e-05,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 72089600,
+      "step": 2200
+    },
+    {
+      "epoch": 0.27999695655482004,
+      "grad_norm": 0.0966796875,
+      "learning_rate": 2.948839123097943e-05,
+      "loss": 0.1758,
+      "num_input_tokens_seen": 75366400,
+      "step": 2300
+    },
+    {
+      "epoch": 0.29217073727459486,
+      "grad_norm": 0.080078125,
+      "learning_rate": 2.8867513459481293e-05,
+      "loss": 0.1741,
+      "num_input_tokens_seen": 78643200,
+      "step": 2400
+    },
+    {
+      "epoch": 0.29217073727459486,
+      "eval_BLEU": 34.039957674706194,
+      "eval_chrF": 59.611408479987894,
+      "eval_loss": 0.14743424952030182,
+      "eval_runtime": 4005.0853,
+      "eval_samples_per_second": 4.712,
+      "eval_steps_per_second": 0.295,
+      "num_input_tokens_seen": 78643200,
+      "step": 2400
+    },
+    {
+      "epoch": 0.3043445179943696,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 2.8284271247461902e-05,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 81920000,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3165182987141444,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 2.7735009811261458e-05,
+      "loss": 0.1729,
+      "num_input_tokens_seen": 85196800,
+      "step": 2600
+    },
+    {
+      "epoch": 0.3286920794339192,
+      "grad_norm": 0.0888671875,
+      "learning_rate": 2.721655269759087e-05,
+      "loss": 0.1753,
+      "num_input_tokens_seen": 88473600,
+      "step": 2700
+    },
+    {
+      "epoch": 0.34086586015369397,
+      "grad_norm": 0.09423828125,
+      "learning_rate": 2.6726124191242442e-05,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 91750400,
+      "step": 2800
+    },
+    {
+      "epoch": 0.3530396408734688,
+      "grad_norm": 0.10107421875,
+      "learning_rate": 2.626128657194451e-05,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 95027200,
+      "step": 2900
+    },
+    {
+      "epoch": 0.36521342159324355,
+      "grad_norm": 0.0927734375,
+      "learning_rate": 2.581988897471611e-05,
+      "loss": 0.1696,
+      "num_input_tokens_seen": 98304000,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3773872023130183,
+      "grad_norm": 0.0810546875,
+      "learning_rate": 2.5400025400038102e-05,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 101580800,
+      "step": 3100
+    },
+    {
+      "epoch": 0.38956098303279313,
+      "grad_norm": 0.0859375,
+      "learning_rate": 2.5e-05,
+      "loss": 0.1746,
+      "num_input_tokens_seen": 104857600,
+      "step": 3200
+    },
+    {
+      "epoch": 0.4017347637525679,
+      "grad_norm": 0.095703125,
+      "learning_rate": 2.4618298195866546e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 108134400,
+      "step": 3300
+    },
+    {
+      "epoch": 0.4139085444723427,
+      "grad_norm": 0.087890625,
+      "learning_rate": 2.42535625036333e-05,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 111411200,
+      "step": 3400
+    },
+    {
+      "epoch": 0.4260823251921175,
+      "grad_norm": 0.09228515625,
+      "learning_rate": 2.3904572186687872e-05,
+      "loss": 0.171,
+      "num_input_tokens_seen": 114688000,
+      "step": 3500
+    },
+    {
+      "epoch": 0.43825610591189224,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 2.3570226039551588e-05,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 117964800,
+      "step": 3600
+    },
+    {
+      "epoch": 0.43825610591189224,
+      "eval_BLEU": 34.1284026902063,
+      "eval_chrF": 59.6592142520761,
+      "eval_loss": 0.14721617102622986,
+      "eval_runtime": 3969.206,
+      "eval_samples_per_second": 4.754,
+      "eval_steps_per_second": 0.297,
+      "num_input_tokens_seen": 117964800,
+      "step": 3600
+    },
+    {
+      "epoch": 0.45042988663166705,
+      "grad_norm": 0.0966796875,
+      "learning_rate": 2.324952774876386e-05,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 121241600,
+      "step": 3700
+    },
+    {
+      "epoch": 0.4626036673514418,
+      "grad_norm": 0.08984375,
+      "learning_rate": 2.2941573387056174e-05,
+      "loss": 0.1705,
+      "num_input_tokens_seen": 124518400,
+      "step": 3800
+    },
+    {
+      "epoch": 0.47477744807121663,
+      "grad_norm": 0.0966796875,
+      "learning_rate": 2.2645540682891912e-05,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 127795200,
+      "step": 3900
+    },
+    {
+      "epoch": 0.4869512287909914,
+      "grad_norm": 0.091796875,
+      "learning_rate": 2.2360679774997898e-05,
+      "loss": 0.1722,
+      "num_input_tokens_seen": 131072000,
+      "step": 4000
+    },
+    {
+      "epoch": 0.49912500951076616,
+      "grad_norm": 0.07958984375,
+      "learning_rate": 2.2086305214969307e-05,
+      "loss": 0.1696,
+      "num_input_tokens_seen": 134348800,
+      "step": 4100
+    },
+    {
+      "epoch": 0.5112987902305409,
+      "grad_norm": 0.08984375,
+      "learning_rate": 2.182178902359924e-05,
+      "loss": 0.1696,
+      "num_input_tokens_seen": 137625600,
+      "step": 4200
+    },
+    {
+      "epoch": 0.5234725709503157,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 2.1566554640687683e-05,
+      "loss": 0.1721,
+      "num_input_tokens_seen": 140902400,
+      "step": 4300
+    },
+    {
+      "epoch": 0.5356463516700906,
+      "grad_norm": 0.0791015625,
+      "learning_rate": 2.132007163556104e-05,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 144179200,
+      "step": 4400
+    },
+    {
+      "epoch": 0.5478201323898654,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 2.1081851067789197e-05,
+      "loss": 0.1726,
+      "num_input_tokens_seen": 147456000,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5599939131096401,
+      "grad_norm": 0.08984375,
+      "learning_rate": 2.0851441405707478e-05,
+      "loss": 0.1688,
+      "num_input_tokens_seen": 150732800,
+      "step": 4600
+    },
+    {
+      "epoch": 0.5721676938294149,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 2.062842492517587e-05,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 154009600,
+      "step": 4700
+    },
+    {
+      "epoch": 0.5843414745491897,
+      "grad_norm": 0.12158203125,
+      "learning_rate": 2.0412414523193156e-05,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 157286400,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5843414745491897,
+      "eval_BLEU": 34.08945609042042,
+      "eval_chrF": 59.66085393977354,
+      "eval_loss": 0.14703597128391266,
+      "eval_runtime": 3968.308,
+      "eval_samples_per_second": 4.755,
+      "eval_steps_per_second": 0.297,
+      "num_input_tokens_seen": 157286400,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5965152552689644,
+      "grad_norm": 0.087890625,
+      "learning_rate": 2.0203050891044213e-05,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 160563200,
+      "step": 4900
+    },
+    {
+      "epoch": 0.6086890359887392,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 2e-05,
+      "loss": 0.169,
+      "num_input_tokens_seen": 163840000,
+      "step": 5000
+    },
+    {
+      "epoch": 0.6208628167085141,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 1.980295085953349e-05,
+      "loss": 0.1722,
+      "num_input_tokens_seen": 167116800,
+      "step": 5100
+    },
+    {
+      "epoch": 0.6330365974282888,
+      "grad_norm": 0.09326171875,
+      "learning_rate": 1.9611613513818405e-05,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 170393600,
+      "step": 5200
+    },
+    {
+      "epoch": 0.6452103781480636,
+      "grad_norm": 0.08203125,
+      "learning_rate": 1.9425717247145284e-05,
+      "loss": 0.171,
+      "num_input_tokens_seen": 173670400,
+      "step": 5300
+    },
+    {
+      "epoch": 0.6573841588678384,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.9245008972987527e-05,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 176947200,
+      "step": 5400
+    },
+    {
+      "epoch": 0.6695579395876132,
+      "grad_norm": 0.07958984375,
+      "learning_rate": 1.906925178491185e-05,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 180224000,
+      "step": 5500
+    },
+    {
+      "epoch": 0.6817317203073879,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 1.889822365046136e-05,
+      "loss": 0.1727,
+      "num_input_tokens_seen": 183500800,
+      "step": 5600
+    },
+    {
+      "epoch": 0.6939055010271628,
+      "grad_norm": 0.0927734375,
+      "learning_rate": 1.873171623163388e-05,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 186777600,
+      "step": 5700
+    },
+    {
+      "epoch": 0.7060792817469376,
+      "grad_norm": 0.0888671875,
+      "learning_rate": 1.8569533817705186e-05,
+      "loss": 0.1694,
+      "num_input_tokens_seen": 190054400,
+      "step": 5800
+    },
+    {
+      "epoch": 0.7182530624667123,
+      "grad_norm": 0.08349609375,
+      "learning_rate": 1.841149235796647e-05,
+      "loss": 0.1741,
+      "num_input_tokens_seen": 193331200,
+      "step": 5900
+    },
+    {
+      "epoch": 0.7304268431864871,
+      "grad_norm": 0.08984375,
+      "learning_rate": 1.8257418583505536e-05,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 196608000,
+      "step": 6000
+    },
+    {
+      "epoch": 0.7304268431864871,
+      "eval_BLEU": 34.04924804951594,
+      "eval_chrF": 59.694436913924406,
+      "eval_loss": 0.14692962169647217,
+      "eval_runtime": 3965.0872,
+      "eval_samples_per_second": 4.759,
+      "eval_steps_per_second": 0.298,
+      "num_input_tokens_seen": 196608000,
+      "step": 6000
+    },
+    {
+      "epoch": 0.7426006239062619,
+      "grad_norm": 0.0830078125,
+      "learning_rate": 1.8107149208503708e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 199884800,
+      "step": 6100
+    },
+    {
+      "epoch": 0.7547744046260366,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.7960530202677492e-05,
+      "loss": 0.1687,
+      "num_input_tokens_seen": 203161600,
+      "step": 6200
+    },
+    {
+      "epoch": 0.7669481853458114,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.781741612749496e-05,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 206438400,
+      "step": 6300
+    },
+    {
+      "epoch": 0.7791219660655863,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.767766952966369e-05,
+      "loss": 0.171,
+      "num_input_tokens_seen": 209715200,
+      "step": 6400
+    },
+    {
+      "epoch": 0.7912957467853611,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.7541160386140587e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 212992000,
+      "step": 6500
+    },
+    {
+      "epoch": 0.8034695275051358,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 1.7407765595569787e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 216268800,
+      "step": 6600
+    },
+    {
+      "epoch": 0.8156433082249106,
+      "grad_norm": 0.09130859375,
+      "learning_rate": 1.7277368511627203e-05,
+      "loss": 0.1705,
+      "num_input_tokens_seen": 219545600,
+      "step": 6700
+    },
+    {
+      "epoch": 0.8278170889446854,
+      "grad_norm": 0.07861328125,
+      "learning_rate": 1.7149858514250882e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 222822400,
+      "step": 6800
+    },
+    {
+      "epoch": 0.8399908696644601,
+      "grad_norm": 0.08837890625,
+      "learning_rate": 1.7025130615174974e-05,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 226099200,
+      "step": 6900
+    },
+    {
+      "epoch": 0.852164650384235,
+      "grad_norm": 0.08984375,
+      "learning_rate": 1.690308509457033e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 229376000,
+      "step": 7000
+    },
+    {
+      "epoch": 0.8643384311040098,
+      "grad_norm": 0.083984375,
+      "learning_rate": 1.6783627165933782e-05,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 232652800,
+      "step": 7100
+    },
+    {
+      "epoch": 0.8765122118237845,
+      "grad_norm": 0.09326171875,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.1713,
+      "num_input_tokens_seen": 235929600,
+      "step": 7200
+    },
+    {
+      "epoch": 0.8765122118237845,
+      "eval_BLEU": 34.04522084811147,
+      "eval_chrF": 59.676716604524316,
+      "eval_loss": 0.14679720997810364,
+      "eval_runtime": 4014.0769,
+      "eval_samples_per_second": 4.701,
+      "eval_steps_per_second": 0.294,
+      "num_input_tokens_seen": 235929600,
+      "step": 7200
+    },
+    {
+      "epoch": 0.8886859925435593,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 1.655211777204736e-05,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 239206400,
+      "step": 7300
+    },
+    {
+      "epoch": 0.9008597732633341,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.643989873053573e-05,
+      "loss": 0.1705,
+      "num_input_tokens_seen": 242483200,
+      "step": 7400
+    },
+    {
+      "epoch": 0.9130335539831089,
+      "grad_norm": 0.08984375,
+      "learning_rate": 1.6329931618554523e-05,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 245760000,
+      "step": 7500
+    },
+    {
+      "epoch": 0.9252073347028836,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 1.6222142113076256e-05,
+      "loss": 0.171,
+      "num_input_tokens_seen": 249036800,
+      "step": 7600
+    },
+    {
+      "epoch": 0.9373811154226585,
+      "grad_norm": 0.08349609375,
+      "learning_rate": 1.6116459280507607e-05,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 252313600,
+      "step": 7700
+    },
+    {
+      "epoch": 0.9495548961424333,
+      "grad_norm": 0.09375,
+      "learning_rate": 1.6012815380508712e-05,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 255590400,
+      "step": 7800
+    },
+    {
+      "epoch": 0.961728676862208,
+      "grad_norm": 0.09423828125,
+      "learning_rate": 1.59111456835146e-05,
+      "loss": 0.173,
+      "num_input_tokens_seen": 258867200,
+      "step": 7900
+    },
+    {
+      "epoch": 0.9739024575819828,
+      "grad_norm": 0.08251953125,
+      "learning_rate": 1.5811388300841898e-05,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 262144000,
+      "step": 8000
+    },
+    {
+      "epoch": 0.9860762383017576,
+      "grad_norm": 0.09033203125,
+      "learning_rate": 1.5713484026367723e-05,
+      "loss": 0.1735,
+      "num_input_tokens_seen": 265420800,
+      "step": 8100
+    },
+    {
+      "epoch": 0.9982500190215323,
+      "grad_norm": 0.08935546875,
+      "learning_rate": 1.5617376188860607e-05,
+      "loss": 0.1714,
+      "num_input_tokens_seen": 268697600,
+      "step": 8200
+    },
+    {
+      "epoch": 1.0104237997413072,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 1.5523010514126655e-05,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 271972864,
+      "step": 8300
+    },
+    {
+      "epoch": 1.0225975804610818,
+      "grad_norm": 0.09375,
+      "learning_rate": 1.543033499620919e-05,
+      "loss": 0.171,
+      "num_input_tokens_seen": 275249664,
+      "step": 8400
+    },
+    {
+      "epoch": 1.0225975804610818,
+      "eval_BLEU": 34.158464778823294,
+      "eval_chrF": 59.68876956861537,
+      "eval_loss": 0.1467299610376358,
+      "eval_runtime": 3923.1304,
+      "eval_samples_per_second": 4.81,
+      "eval_steps_per_second": 0.301,
+      "num_input_tokens_seen": 275249664,
+      "step": 8400
+    },
+    {
+      "epoch": 1.0347713611808567,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 1.5339299776947406e-05,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 278526464,
+      "step": 8500
+    },
+    {
+      "epoch": 1.0469451419006315,
+      "grad_norm": 0.0888671875,
+      "learning_rate": 1.5249857033260467e-05,
+      "loss": 0.1679,
+      "num_input_tokens_seen": 281803264,
+      "step": 8600
+    },
+    {
+      "epoch": 1.0591189226204063,
+      "grad_norm": 0.080078125,
+      "learning_rate": 1.5161960871578069e-05,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 285080064,
+      "step": 8700
+    },
+    {
+      "epoch": 1.0712927033401811,
+      "grad_norm": 0.08056640625,
+      "learning_rate": 1.5075567228888182e-05,
+      "loss": 0.1701,
+      "num_input_tokens_seen": 288356864,
+      "step": 8800
+    },
+    {
+      "epoch": 1.083466484059956,
+      "grad_norm": 0.0986328125,
+      "learning_rate": 1.499063377991723e-05,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 291633664,
+      "step": 8900
+    },
+    {
+      "epoch": 1.0956402647797308,
+      "grad_norm": 0.0859375,
+      "learning_rate": 1.49071198499986e-05,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 294910464,
+      "step": 9000
+    },
+    {
+      "epoch": 1.1078140454995054,
+      "grad_norm": 0.087890625,
+      "learning_rate": 1.4824986333222024e-05,
+      "loss": 0.17,
+      "num_input_tokens_seen": 298187264,
+      "step": 9100
+    },
+    {
+      "epoch": 1.1199878262192802,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.4744195615489715e-05,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 301464064,
+      "step": 9200
+    },
+    {
+      "epoch": 1.132161606939055,
+      "grad_norm": 0.08154296875,
+      "learning_rate": 1.4664711502135331e-05,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 304740864,
+      "step": 9300
+    },
+    {
+      "epoch": 1.1443353876588298,
+      "grad_norm": 0.083984375,
+      "learning_rate": 1.4586499149789456e-05,
+      "loss": 0.1688,
+      "num_input_tokens_seen": 308017664,
+      "step": 9400
+    },
+    {
+      "epoch": 1.1565091683786046,
+      "grad_norm": 0.08837890625,
+      "learning_rate": 1.4509525002200233e-05,
+      "loss": 0.1674,
+      "num_input_tokens_seen": 311294464,
+      "step": 9500
+    },
+    {
+      "epoch": 1.1686829490983794,
+      "grad_norm": 0.08837890625,
+      "learning_rate": 1.4433756729740646e-05,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 314571264,
+      "step": 9600
+    },
+    {
+      "epoch": 1.1686829490983794,
+      "eval_BLEU": 34.125660852650576,
+      "eval_chrF": 59.69577135277113,
+      "eval_loss": 0.14671051502227783,
+      "eval_runtime": 3968.6253,
+      "eval_samples_per_second": 4.755,
+      "eval_steps_per_second": 0.297,
+      "num_input_tokens_seen": 314571264,
+      "step": 9600
+    },
+    {
+      "epoch": 1.1808567298181543,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 1.4359163172354764e-05,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 317848064,
+      "step": 9700
+    },
+    {
+      "epoch": 1.1930305105379289,
+      "grad_norm": 0.09521484375,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 321124864,
+      "step": 9800
+    },
+    {
+      "epoch": 1.2052042912577037,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.4213381090374031e-05,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 324401664,
+      "step": 9900
+    },
+    {
+      "epoch": 1.2173780719774785,
+      "grad_norm": 0.087890625,
+      "learning_rate": 1.4142135623730951e-05,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 327678464,
+      "step": 10000
+    },
+    {
+      "epoch": 1.2295518526972533,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.4071950894605838e-05,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 330955264,
+      "step": 10100
+    },
+    {
+      "epoch": 1.2417256334170281,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.4002800840280098e-05,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 334232064,
+      "step": 10200
+    },
+    {
+      "epoch": 1.2538994141368027,
+      "grad_norm": 0.0830078125,
+      "learning_rate": 1.3934660285832355e-05,
+      "loss": 0.1666,
+      "num_input_tokens_seen": 337508864,
+      "step": 10300
+    },
+    {
+      "epoch": 1.2660731948565775,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.3867504905630729e-05,
+      "loss": 0.1688,
+      "num_input_tokens_seen": 340785664,
+      "step": 10400
+    },
+    {
+      "epoch": 1.2782469755763524,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 1.3801311186847085e-05,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 344062464,
+      "step": 10500
+    },
+    {
+      "epoch": 1.2904207562961272,
+      "grad_norm": 0.0859375,
+      "learning_rate": 1.3736056394868905e-05,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 347339264,
+      "step": 10600
+    },
+    {
+      "epoch": 1.302594537015902,
+      "grad_norm": 0.0888671875,
+      "learning_rate": 1.3671718540493266e-05,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 350616064,
+      "step": 10700
+    },
+    {
+      "epoch": 1.3147683177356768,
+      "grad_norm": 0.083984375,
+      "learning_rate": 1.3608276348795434e-05,
+      "loss": 0.1705,
+      "num_input_tokens_seen": 353892864,
+      "step": 10800
+    },
+    {
+      "epoch": 1.3147683177356768,
+      "eval_BLEU": 34.190278283000254,
+      "eval_chrF": 59.72105944050832,
+      "eval_loss": 0.14669395983219147,
+      "eval_runtime": 3965.5317,
+      "eval_samples_per_second": 4.759,
+      "eval_steps_per_second": 0.298,
+      "num_input_tokens_seen": 353892864,
+      "step": 10800
+    },
+    {
+      "epoch": 1.3269420984554516,
+      "grad_norm": 0.08251953125,
+      "learning_rate": 1.3545709229571929e-05,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 357169664,
+      "step": 10900
+    },
+    {
+      "epoch": 1.3391158791752265,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.3483997249264842e-05,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 360446464,
+      "step": 11000
+    },
+    {
+      "epoch": 1.3512896598950013,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.3423121104280487e-05,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 363723264,
+      "step": 11100
+    },
+    {
+      "epoch": 1.3634634406147759,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 1.3363062095621221e-05,
+      "loss": 0.1687,
+      "num_input_tokens_seen": 367000064,
+      "step": 11200
+    },
+    {
+      "epoch": 1.3756372213345507,
+      "grad_norm": 0.09033203125,
+      "learning_rate": 1.3303802104754787e-05,
+      "loss": 0.1701,
+      "num_input_tokens_seen": 370276864,
+      "step": 11300
+    },
+    {
+      "epoch": 1.3878110020543255,
+      "grad_norm": 0.10107421875,
+      "learning_rate": 1.324532357065044e-05,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 373553664,
+      "step": 11400
+    },
+    {
+      "epoch": 1.3999847827741003,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.318760946791574e-05,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 376830464,
+      "step": 11500
+    },
+    {
+      "epoch": 1.4121585634938751,
+      "grad_norm": 0.09130859375,
+      "learning_rate": 1.3130643285972255e-05,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 380107264,
+      "step": 11600
+    },
+    {
+      "epoch": 1.4243323442136497,
+      "grad_norm": 0.095703125,
+      "learning_rate": 1.3074409009212269e-05,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 383384064,
+      "step": 11700
+    },
+    {
+      "epoch": 1.4365061249334246,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 1.3018891098082389e-05,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 386660864,
+      "step": 11800
+    },
+    {
+      "epoch": 1.4486799056531994,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 1.2964074471043288e-05,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 389937664,
+      "step": 11900
+    },
+    {
+      "epoch": 1.4608536863729742,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 1.2909944487358055e-05,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 393214464,
+      "step": 12000
+    },
+    {
+      "epoch": 1.4608536863729742,
+      "eval_BLEU": 34.19371467731715,
+      "eval_chrF": 59.7146095038311,
+      "eval_loss": 0.14666913449764252,
+      "eval_runtime": 3982.0054,
+      "eval_samples_per_second": 4.739,
+      "eval_steps_per_second": 0.296,
+      "num_input_tokens_seen": 393214464,
+      "step": 12000
+    },
+    {
+      "epoch": 1.473027467092749,
+      "grad_norm": 0.08837890625,
+      "learning_rate": 1.2856486930664503e-05,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 396491264,
+      "step": 12100
+    },
+    {
+      "epoch": 1.4852012478125238,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.2803687993289598e-05,
+      "loss": 0.1677,
+      "num_input_tokens_seen": 399768064,
+      "step": 12200
+    },
+    {
+      "epoch": 1.4973750285322986,
+      "grad_norm": 0.0830078125,
+      "learning_rate": 1.2751534261266765e-05,
+      "loss": 0.1696,
+      "num_input_tokens_seen": 403044864,
+      "step": 12300
+    },
+    {
+      "epoch": 1.5095488092520735,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.2700012700019051e-05,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 406321664,
+      "step": 12400
+    },
+    {
+      "epoch": 1.5217225899718483,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.2649110640673517e-05,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 409598464,
+      "step": 12500
+    },
+    {
+      "epoch": 1.5338963706916229,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.2598815766974239e-05,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 412875264,
+      "step": 12600
+    },
+    {
+      "epoch": 1.5460701514113977,
+      "grad_norm": 0.09521484375,
+      "learning_rate": 1.2549116102763172e-05,
+      "loss": 0.1678,
+      "num_input_tokens_seen": 416152064,
+      "step": 12700
+    },
+    {
+      "epoch": 1.5582439321311725,
+      "grad_norm": 0.07958984375,
+      "learning_rate": 1.25e-05,
+      "loss": 0.1668,
+      "num_input_tokens_seen": 419428864,
+      "step": 12800
+    },
+    {
+      "epoch": 1.5704177128509471,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.2451456127293808e-05,
+      "loss": 0.169,
+      "num_input_tokens_seen": 422705664,
+      "step": 12900
+    },
+    {
+      "epoch": 1.582591493570722,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 1.2403473458920847e-05,
+      "loss": 0.1677,
+      "num_input_tokens_seen": 425982464,
+      "step": 13000
+    },
+    {
+      "epoch": 1.5947652742904967,
+      "grad_norm": 0.0830078125,
+      "learning_rate": 1.2356041264304309e-05,
+      "loss": 0.168,
+      "num_input_tokens_seen": 429259264,
+      "step": 13100
+    },
+    {
+      "epoch": 1.6069390550102716,
+      "grad_norm": 0.09765625,
+      "learning_rate": 1.2309149097933273e-05,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 432536064,
+      "step": 13200
+    },
+    {
+      "epoch": 1.6069390550102716,
+      "eval_BLEU": 34.185916767080265,
+      "eval_chrF": 59.706613240927844,
+      "eval_loss": 0.14664307236671448,
+      "eval_runtime": 3971.3932,
+      "eval_samples_per_second": 4.751,
+      "eval_steps_per_second": 0.297,
+      "num_input_tokens_seen": 432536064,
+      "step": 13200
+    },
+    {
+      "epoch": 1.6191128357300464,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.2262786789699317e-05,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 435812864,
+      "step": 13300
+    },
+    {
+      "epoch": 1.6312866164498212,
+      "grad_norm": 0.09326171875,
+      "learning_rate": 1.2216944435630522e-05,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 439089664,
+      "step": 13400
+    },
+    {
+      "epoch": 1.643460397169596,
+      "grad_norm": 0.091796875,
+      "learning_rate": 1.2171612389003693e-05,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 442366464,
+      "step": 13500
+    },
+    {
+      "epoch": 1.6556341778893708,
+      "grad_norm": 0.09716796875,
+      "learning_rate": 1.212678125181665e-05,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 445643264,
+      "step": 13600
+    },
+    {
+      "epoch": 1.6678079586091457,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 1.208244186660354e-05,
+      "loss": 0.17,
+      "num_input_tokens_seen": 448920064,
+      "step": 13700
+    },
+    {
+      "epoch": 1.6799817393289205,
+      "grad_norm": 0.07958984375,
+      "learning_rate": 1.203858530857692e-05,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 452196864,
+      "step": 13800
+    },
+    {
+      "epoch": 1.692155520048695,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 1.1995202878081345e-05,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 455473664,
+      "step": 13900
+    },
+    {
+      "epoch": 1.70432930076847,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 1.1952286093343936e-05,
+      "loss": 0.173,
+      "num_input_tokens_seen": 458750464,
+      "step": 14000
+    },
+    {
+      "epoch": 1.7165030814882447,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 1.1909826683508273e-05,
+      "loss": 0.1694,
+      "num_input_tokens_seen": 462027264,
+      "step": 14100
+    },
+    {
+      "epoch": 1.7286768622080195,
+      "grad_norm": 0.080078125,
+      "learning_rate": 1.1867816581938534e-05,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 465304064,
+      "step": 14200
+    },
+    {
+      "epoch": 1.7408506429277941,
+      "grad_norm": 0.08251953125,
+      "learning_rate": 1.1826247919781652e-05,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 468580864,
+      "step": 14300
+    },
+    {
+      "epoch": 1.753024423647569,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.1785113019775794e-05,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 471857664,
+      "step": 14400
+    },
+    {
+      "epoch": 1.753024423647569,
+      "eval_BLEU": 34.102099613409436,
+      "eval_chrF": 59.716548967741204,
+      "eval_loss": 0.1466248631477356,
+      "eval_runtime": 3984.4468,
+      "eval_samples_per_second": 4.736,
+      "eval_steps_per_second": 0.296,
+      "num_input_tokens_seen": 471857664,
+      "step": 14400
+    },
+    {
+      "epoch": 1.7651982043673438,
+      "grad_norm": 0.0859375,
+      "learning_rate": 1.174440439029407e-05,
+      "loss": 0.1677,
+      "num_input_tokens_seen": 475134464,
+      "step": 14500
+    },
+    {
+      "epoch": 1.7773719850871186,
+      "grad_norm": 0.07958984375,
+      "learning_rate": 1.1704114719613058e-05,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 478411264,
+      "step": 14600
+    },
+    {
+      "epoch": 1.7895457658068934,
+      "grad_norm": 0.0947265625,
+      "learning_rate": 1.1664236870396087e-05,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 481688064,
+      "step": 14700
+    },
+    {
+      "epoch": 1.8017195465266682,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.162476387438193e-05,
+      "loss": 0.1689,
+      "num_input_tokens_seen": 484964864,
+      "step": 14800
+    },
+    {
+      "epoch": 1.813893327246443,
+      "grad_norm": 0.09033203125,
+      "learning_rate": 1.1585688927269846e-05,
+      "loss": 0.1681,
+      "num_input_tokens_seen": 488241664,
+      "step": 14900
+    },
+    {
+      "epoch": 1.8260671079662179,
+      "grad_norm": 0.0830078125,
+      "learning_rate": 1.1547005383792514e-05,
+      "loss": 0.1682,
+      "num_input_tokens_seen": 491518464,
+      "step": 15000
+    },
+    {
+      "epoch": 1.8382408886859927,
+      "grad_norm": 0.09423828125,
+      "learning_rate": 1.150870675296872e-05,
+      "loss": 0.1725,
+      "num_input_tokens_seen": 494795264,
+      "step": 15100
+    },
+    {
+      "epoch": 1.8504146694057675,
+      "grad_norm": 0.08203125,
+      "learning_rate": 1.1470786693528087e-05,
+      "loss": 0.167,
+      "num_input_tokens_seen": 498072064,
+      "step": 15200
+    },
+    {
+      "epoch": 1.862588450125542,
+      "grad_norm": 0.09130859375,
+      "learning_rate": 1.143323900950059e-05,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 501348864,
+      "step": 15300
+    },
+    {
+      "epoch": 1.874762230845317,
+      "grad_norm": 0.08349609375,
+      "learning_rate": 1.1396057645963795e-05,
+      "loss": 0.1696,
+      "num_input_tokens_seen": 504625664,
+      "step": 15400
+    },
+    {
+      "epoch": 1.8869360115650917,
+      "grad_norm": 0.0859375,
+      "learning_rate": 1.1359236684941297e-05,
+      "loss": 0.1679,
+      "num_input_tokens_seen": 507902464,
+      "step": 15500
+    },
+    {
+      "epoch": 1.8991097922848663,
+      "grad_norm": 0.0869140625,
+      "learning_rate": 1.1322770341445956e-05,
+      "loss": 0.17,
+      "num_input_tokens_seen": 511179264,
+      "step": 15600
+    },
+    {
+      "epoch": 1.8991097922848663,
+      "eval_BLEU": 34.13689431537213,
+      "eval_chrF": 59.7127572353836,
+      "eval_loss": 0.14662402868270874,
+      "eval_runtime": 3972.3482,
+      "eval_samples_per_second": 4.75,
+      "eval_steps_per_second": 0.297,
+      "num_input_tokens_seen": 511179264,
+      "step": 15600
+    },
+    {
+      "epoch": 1.9112835730046411,
+      "grad_norm": 0.09521484375,
+      "learning_rate": 1.1286652959662007e-05,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 514456064,
+      "step": 15700
+    },
+    {
+      "epoch": 1.923457353724416,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 1.125087900926024e-05,
+      "loss": 0.1713,
+      "num_input_tokens_seen": 517732864,
+      "step": 15800
+    },
+    {
+      "epoch": 1.9356311344441908,
+      "grad_norm": 0.08544921875,
+      "learning_rate": 1.1215443081840888e-05,
+      "loss": 0.169,
+      "num_input_tokens_seen": 521009664,
+      "step": 15900
+    },
+    {
+      "epoch": 1.9478049151639656,
+      "grad_norm": 0.0908203125,
+      "learning_rate": 1.1180339887498949e-05,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 524286464,
+      "step": 16000
+    },
+    {
+      "epoch": 1.9599786958837404,
+      "grad_norm": 0.09130859375,
+      "learning_rate": 1.1145564251507057e-05,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 527563264,
+      "step": 16100
+    },
+    {
+      "epoch": 1.9721524766035152,
+      "grad_norm": 0.08642578125,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 530840064,
+      "step": 16200
+    },
+    {
+      "epoch": 1.98432625732329,
+      "grad_norm": 0.09619140625,
+      "learning_rate": 1.1076975512434226e-05,
+      "loss": 0.168,
+      "num_input_tokens_seen": 534116864,
+      "step": 16300
+    },
+    {
+      "epoch": 1.9965000380430649,
+      "grad_norm": 0.08447265625,
+      "learning_rate": 1.1043152607484654e-05,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 537393664,
+      "step": 16400
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 16428,
+  "num_input_tokens_seen": 538311168,
+  "num_train_epochs": 2,
+  "save_steps": 1200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.1036059771249623e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}