Training in progress, epoch 2, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +691 -3

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f1f58242f921ff5cabef15e7b456ddab6ee5c2492aca332696d9923220d554e
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:35e7bd1801d0d4245d02fcc221540d160d9ca4436762abd40ab696436db37997
 size 4949453792

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aae85a730f6054c602af36fcff51046f218fc5b35a76b78b3fce17eeaa541d82
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fac833f220a4de94d80f1c6128e85dbd0534b37e1778d74f64d089406b9a9cd
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa43ebd02383e8d9c58aac2b25bfe0e394870e4024e4ba4da7f830fa19be0f07
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5d6ebf26b088bbc6f219afaf49ff803ae69e0485761a48a6794d7aaaccc4eb7
 size 4546807800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:082b179ff93c4a9aff94779ffadea379af9c2834f7256314cddc7667645a41dc
 size 28992348490

 version https://git-lfs.github.com/spec/v1
+oid sha256:84bf6c04da13948bebd4d30d4b13cd682886c3f4762b4f85e343d6b5fe8ad40e
 size 28992348490

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78d3f197f6c6558fa8056324f1563ab9e957255f5a1a959362aa4eed7a9545db
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:06fea830cf5ad73ec00d500ea6fb952740ac936f18e93fa2d32abde1ea3ead92
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c1a9c65c2869356282cad6b4a0f7dff7f4dd68ab3d9d216c72b7d6cb524f860
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:be561d1df19be227394d8ea607c54262a06c9bf880af0aa5e04a52596a2a6cb0
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:896febe768e17bae5022a95960c041f6425783774ec8859d99d3b149063b1bf9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:03f3e24417a59435f5a8450a4aeb0f09cc92734b5c3b45a0701b2c043c415c05
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac482d57e966585467c8ef44dae2869bf7e5d92886f69c11ed7bccc34c07efe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bea02744c29f30024590ab1629a0e7b7dabbf1e8476456c2e7c5ce46dc35c28
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1f27d227a20dc320ac283e0938fb2f6e5b475829a583f8c44d1a16a8c828307
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:041be966454b60c86af576fc1eb7f34189114689abff8f9622b947110f7334c8
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d05a7106aaeaec4b81704e3f4a998b5123cf9342a6733bd9fd2d578e99108c3b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b85766f6596d15a810177d77dd259d9b50588cf100ec5f8ebff5fed881d57957
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94120d8d88502ec8d8b623ec7550315caca003b44fcffbb5767ab0de91baefe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8be75d04b1ebe614241b88fd010a5dda1b7bf703c00c6ebe310ca07975830fe7
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:332e4d901be380f740b5d8578f7b80ef1865c7fba83bc288c8a35852205cc668
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4699833a7ab4cb692996ef7567f934c0bac79d6a067963a873f89a38e412bd48
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:092f3dcf63385897e30ca4d02c4ae9c2eac8f7e2e0b5f3c908bbed7efb16cffd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a23384b1a4df8f5cde36ecc73a9742d7fae5940c0f154d6cc580286c571d0dba
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 300,
-  "global_step": 481,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -694,6 +694,694 @@
       "learning_rate": 1.5043989923528937e-06,
       "loss": 1.2183,
       "step": 480
     }
   ],
   "logging_steps": 5,
@@ -713,7 +1401,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.690966406601638e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 300,
+  "global_step": 962,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.5043989923528937e-06,
       "loss": 1.2183,
       "step": 480
+    },
+    {
+      "epoch": 1.0083160083160083,
+      "grad_norm": 3.453125,
+      "learning_rate": 1.4949567433771448e-06,
+      "loss": 1.1826,
+      "step": 485
+    },
+    {
+      "epoch": 1.0187110187110187,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.4854556812111887e-06,
+      "loss": 1.1925,
+      "step": 490
+    },
+    {
+      "epoch": 1.0291060291060292,
+      "grad_norm": 3.5,
+      "learning_rate": 1.4758969348178766e-06,
+      "loss": 1.19,
+      "step": 495
+    },
+    {
+      "epoch": 1.0395010395010396,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.4662816400143836e-06,
+      "loss": 1.1963,
+      "step": 500
+    },
+    {
+      "epoch": 1.04989604989605,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.4566109393372433e-06,
+      "loss": 1.1872,
+      "step": 505
+    },
+    {
+      "epoch": 1.0602910602910602,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.4468859819065882e-06,
+      "loss": 1.1833,
+      "step": 510
+    },
+    {
+      "epoch": 1.0706860706860706,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.4371079232896044e-06,
+      "loss": 1.1815,
+      "step": 515
+    },
+    {
+      "epoch": 1.0810810810810811,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.4272779253632212e-06,
+      "loss": 1.1855,
+      "step": 520
+    },
+    {
+      "epoch": 1.0914760914760915,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.4173971561760518e-06,
+      "loss": 1.188,
+      "step": 525
+    },
+    {
+      "epoch": 1.1018711018711018,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.4074667898096009e-06,
+      "loss": 1.1873,
+      "step": 530
+    },
+    {
+      "epoch": 1.1122661122661124,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.397488006238752e-06,
+      "loss": 1.1945,
+      "step": 535
+    },
+    {
+      "epoch": 1.1226611226611227,
+      "grad_norm": 3.5,
+      "learning_rate": 1.387461991191559e-06,
+      "loss": 1.1856,
+      "step": 540
+    },
+    {
+      "epoch": 1.133056133056133,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.3773899360083524e-06,
+      "loss": 1.1868,
+      "step": 545
+    },
+    {
+      "epoch": 1.1434511434511434,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.3672730375001773e-06,
+      "loss": 1.1791,
+      "step": 550
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.357112497806582e-06,
+      "loss": 1.1969,
+      "step": 555
+    },
+    {
+      "epoch": 1.1642411642411643,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.3469095242527764e-06,
+      "loss": 1.1828,
+      "step": 560
+    },
+    {
+      "epoch": 1.1746361746361746,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.3366653292061682e-06,
+      "loss": 1.1803,
+      "step": 565
+    },
+    {
+      "epoch": 1.185031185031185,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.3263811299323063e-06,
+      "loss": 1.1803,
+      "step": 570
+    },
+    {
+      "epoch": 1.1954261954261955,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.3160581484502382e-06,
+      "loss": 1.1823,
+      "step": 575
+    },
+    {
+      "epoch": 1.2058212058212059,
+      "grad_norm": 3.71875,
+      "learning_rate": 1.3056976113873037e-06,
+      "loss": 1.1832,
+      "step": 580
+    },
+    {
+      "epoch": 1.2162162162162162,
+      "grad_norm": 3.625,
+      "learning_rate": 1.2953007498333807e-06,
+      "loss": 1.1841,
+      "step": 585
+    },
+    {
+      "epoch": 1.2266112266112266,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.284868799194602e-06,
+      "loss": 1.1804,
+      "step": 590
+    },
+    {
+      "epoch": 1.237006237006237,
+      "grad_norm": 3.5,
+      "learning_rate": 1.2744029990465574e-06,
+      "loss": 1.1811,
+      "step": 595
+    },
+    {
+      "epoch": 1.2474012474012475,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.2639045929870018e-06,
+      "loss": 1.1794,
+      "step": 600
+    },
+    {
+      "epoch": 1.2474012474012475,
+      "eval_loss": 1.2036519050598145,
+      "eval_runtime": 10.8624,
+      "eval_samples_per_second": 85.616,
+      "eval_steps_per_second": 2.762,
+      "step": 600
+    },
+    {
+      "epoch": 1.2577962577962578,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.2533748284880842e-06,
+      "loss": 1.1905,
+      "step": 605
+    },
+    {
+      "epoch": 1.2681912681912682,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.2428149567481184e-06,
+      "loss": 1.1836,
+      "step": 610
+    },
+    {
+      "epoch": 1.2785862785862787,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.2322262325429063e-06,
+      "loss": 1.1823,
+      "step": 615
+    },
+    {
+      "epoch": 1.288981288981289,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.2216099140766436e-06,
+      "loss": 1.1836,
+      "step": 620
+    },
+    {
+      "epoch": 1.2993762993762994,
+      "grad_norm": 3.71875,
+      "learning_rate": 1.2109672628324104e-06,
+      "loss": 1.1837,
+      "step": 625
+    },
+    {
+      "epoch": 1.3097713097713097,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.2002995434222767e-06,
+      "loss": 1.1827,
+      "step": 630
+    },
+    {
+      "epoch": 1.32016632016632,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.1896080234370355e-06,
+      "loss": 1.1803,
+      "step": 635
+    },
+    {
+      "epoch": 1.3305613305613306,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.178893973295581e-06,
+      "loss": 1.1788,
+      "step": 640
+    },
+    {
+      "epoch": 1.340956340956341,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.1681586660939504e-06,
+      "loss": 1.1918,
+      "step": 645
+    },
+    {
+      "epoch": 1.3513513513513513,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.1574033774540505e-06,
+      "loss": 1.1796,
+      "step": 650
+    },
+    {
+      "epoch": 1.3617463617463619,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.1466293853720795e-06,
+      "loss": 1.1837,
+      "step": 655
+    },
+    {
+      "epoch": 1.3721413721413722,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.1358379700666703e-06,
+      "loss": 1.1776,
+      "step": 660
+    },
+    {
+      "epoch": 1.3825363825363826,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.1250304138267701e-06,
+      "loss": 1.181,
+      "step": 665
+    },
+    {
+      "epoch": 1.392931392931393,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.11420800085927e-06,
+      "loss": 1.1764,
+      "step": 670
+    },
+    {
+      "epoch": 1.4033264033264032,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.1033720171364108e-06,
+      "loss": 1.1792,
+      "step": 675
+    },
+    {
+      "epoch": 1.4137214137214138,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.092523750242977e-06,
+      "loss": 1.1784,
+      "step": 680
+    },
+    {
+      "epoch": 1.4241164241164241,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.0816644892232997e-06,
+      "loss": 1.1855,
+      "step": 685
+    },
+    {
+      "epoch": 1.4345114345114345,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.070795524428086e-06,
+      "loss": 1.1782,
+      "step": 690
+    },
+    {
+      "epoch": 1.444906444906445,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.0599181473610938e-06,
+      "loss": 1.1837,
+      "step": 695
+    },
+    {
+      "epoch": 1.4553014553014554,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.049033650525668e-06,
+      "loss": 1.1786,
+      "step": 700
+    },
+    {
+      "epoch": 1.4656964656964657,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.0381433272711585e-06,
+      "loss": 1.1747,
+      "step": 705
+    },
+    {
+      "epoch": 1.476091476091476,
+      "grad_norm": 3.71875,
+      "learning_rate": 1.0272484716392408e-06,
+      "loss": 1.1854,
+      "step": 710
+    },
+    {
+      "epoch": 1.4864864864864864,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.0163503782101484e-06,
+      "loss": 1.1755,
+      "step": 715
+    },
+    {
+      "epoch": 1.496881496881497,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.0054503419488454e-06,
+      "loss": 1.1795,
+      "step": 720
+    },
+    {
+      "epoch": 1.5072765072765073,
+      "grad_norm": 3.578125,
+      "learning_rate": 9.945496580511543e-07,
+      "loss": 1.1846,
+      "step": 725
+    },
+    {
+      "epoch": 1.5176715176715176,
+      "grad_norm": 3.6875,
+      "learning_rate": 9.836496217898518e-07,
+      "loss": 1.1806,
+      "step": 730
+    },
+    {
+      "epoch": 1.5280665280665282,
+      "grad_norm": 3.609375,
+      "learning_rate": 9.72751528360759e-07,
+      "loss": 1.1667,
+      "step": 735
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 3.65625,
+      "learning_rate": 9.618566727288414e-07,
+      "loss": 1.185,
+      "step": 740
+    },
+    {
+      "epoch": 1.5488565488565489,
+      "grad_norm": 3.703125,
+      "learning_rate": 9.509663494743321e-07,
+      "loss": 1.191,
+      "step": 745
+    },
+    {
+      "epoch": 1.5592515592515592,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.400818526389062e-07,
+      "loss": 1.1769,
+      "step": 750
+    },
+    {
+      "epoch": 1.5696465696465696,
+      "grad_norm": 3.546875,
+      "learning_rate": 9.292044755719138e-07,
+      "loss": 1.1741,
+      "step": 755
+    },
+    {
+      "epoch": 1.5800415800415801,
+      "grad_norm": 3.546875,
+      "learning_rate": 9.183355107767003e-07,
+      "loss": 1.1771,
+      "step": 760
+    },
+    {
+      "epoch": 1.5904365904365905,
+      "grad_norm": 3.59375,
+      "learning_rate": 9.07476249757023e-07,
+      "loss": 1.1725,
+      "step": 765
+    },
+    {
+      "epoch": 1.6008316008316008,
+      "grad_norm": 3.59375,
+      "learning_rate": 8.966279828635894e-07,
+      "loss": 1.1801,
+      "step": 770
+    },
+    {
+      "epoch": 1.6112266112266114,
+      "grad_norm": 3.609375,
+      "learning_rate": 8.8579199914073e-07,
+      "loss": 1.1697,
+      "step": 775
+    },
+    {
+      "epoch": 1.6216216216216215,
+      "grad_norm": 3.546875,
+      "learning_rate": 8.749695861732299e-07,
+      "loss": 1.175,
+      "step": 780
+    },
+    {
+      "epoch": 1.632016632016632,
+      "grad_norm": 3.578125,
+      "learning_rate": 8.641620299333295e-07,
+      "loss": 1.1818,
+      "step": 785
+    },
+    {
+      "epoch": 1.6424116424116424,
+      "grad_norm": 3.65625,
+      "learning_rate": 8.533706146279207e-07,
+      "loss": 1.1697,
+      "step": 790
+    },
+    {
+      "epoch": 1.6528066528066527,
+      "grad_norm": 3.59375,
+      "learning_rate": 8.425966225459493e-07,
+      "loss": 1.1702,
+      "step": 795
+    },
+    {
+      "epoch": 1.6632016632016633,
+      "grad_norm": 3.65625,
+      "learning_rate": 8.318413339060495e-07,
+      "loss": 1.1793,
+      "step": 800
+    },
+    {
+      "epoch": 1.6735966735966736,
+      "grad_norm": 3.65625,
+      "learning_rate": 8.21106026704419e-07,
+      "loss": 1.1801,
+      "step": 805
+    },
+    {
+      "epoch": 1.683991683991684,
+      "grad_norm": 3.59375,
+      "learning_rate": 8.103919765629645e-07,
+      "loss": 1.1797,
+      "step": 810
+    },
+    {
+      "epoch": 1.6943866943866945,
+      "grad_norm": 3.5625,
+      "learning_rate": 7.997004565777233e-07,
+      "loss": 1.1659,
+      "step": 815
+    },
+    {
+      "epoch": 1.7047817047817047,
+      "grad_norm": 3.671875,
+      "learning_rate": 7.890327371675895e-07,
+      "loss": 1.1743,
+      "step": 820
+    },
+    {
+      "epoch": 1.7151767151767152,
+      "grad_norm": 3.671875,
+      "learning_rate": 7.783900859233562e-07,
+      "loss": 1.1849,
+      "step": 825
+    },
+    {
+      "epoch": 1.7255717255717256,
+      "grad_norm": 3.625,
+      "learning_rate": 7.677737674570936e-07,
+      "loss": 1.1791,
+      "step": 830
+    },
+    {
+      "epoch": 1.735966735966736,
+      "grad_norm": 3.578125,
+      "learning_rate": 7.571850432518819e-07,
+      "loss": 1.1789,
+      "step": 835
+    },
+    {
+      "epoch": 1.7463617463617465,
+      "grad_norm": 3.5625,
+      "learning_rate": 7.466251715119156e-07,
+      "loss": 1.1773,
+      "step": 840
+    },
+    {
+      "epoch": 1.7567567567567568,
+      "grad_norm": 3.609375,
+      "learning_rate": 7.360954070129981e-07,
+      "loss": 1.175,
+      "step": 845
+    },
+    {
+      "epoch": 1.7671517671517671,
+      "grad_norm": 3.609375,
+      "learning_rate": 7.255970009534425e-07,
+      "loss": 1.1816,
+      "step": 850
+    },
+    {
+      "epoch": 1.7775467775467777,
+      "grad_norm": 3.734375,
+      "learning_rate": 7.151312008053979e-07,
+      "loss": 1.1848,
+      "step": 855
+    },
+    {
+      "epoch": 1.7879417879417878,
+      "grad_norm": 3.5625,
+      "learning_rate": 7.046992501666195e-07,
+      "loss": 1.175,
+      "step": 860
+    },
+    {
+      "epoch": 1.7983367983367984,
+      "grad_norm": 3.625,
+      "learning_rate": 6.943023886126965e-07,
+      "loss": 1.1753,
+      "step": 865
+    },
+    {
+      "epoch": 1.8087318087318087,
+      "grad_norm": 3.5625,
+      "learning_rate": 6.839418515497618e-07,
+      "loss": 1.1718,
+      "step": 870
+    },
+    {
+      "epoch": 1.819126819126819,
+      "grad_norm": 3.59375,
+      "learning_rate": 6.736188700676935e-07,
+      "loss": 1.164,
+      "step": 875
+    },
+    {
+      "epoch": 1.8295218295218296,
+      "grad_norm": 3.59375,
+      "learning_rate": 6.633346707938319e-07,
+      "loss": 1.1761,
+      "step": 880
+    },
+    {
+      "epoch": 1.83991683991684,
+      "grad_norm": 3.671875,
+      "learning_rate": 6.530904757472236e-07,
+      "loss": 1.1869,
+      "step": 885
+    },
+    {
+      "epoch": 1.8503118503118503,
+      "grad_norm": 3.59375,
+      "learning_rate": 6.42887502193418e-07,
+      "loss": 1.1836,
+      "step": 890
+    },
+    {
+      "epoch": 1.8607068607068609,
+      "grad_norm": 3.578125,
+      "learning_rate": 6.327269624998227e-07,
+      "loss": 1.1699,
+      "step": 895
+    },
+    {
+      "epoch": 1.871101871101871,
+      "grad_norm": 3.65625,
+      "learning_rate": 6.226100639916474e-07,
+      "loss": 1.1743,
+      "step": 900
+    },
+    {
+      "epoch": 1.871101871101871,
+      "eval_loss": 1.1942965984344482,
+      "eval_runtime": 10.786,
+      "eval_samples_per_second": 86.223,
+      "eval_steps_per_second": 2.781,
+      "step": 900
+    },
+    {
+      "epoch": 1.8814968814968815,
+      "grad_norm": 3.53125,
+      "learning_rate": 6.125380088084408e-07,
+      "loss": 1.1797,
+      "step": 905
+    },
+    {
+      "epoch": 1.8918918918918919,
+      "grad_norm": 3.71875,
+      "learning_rate": 6.025119937612481e-07,
+      "loss": 1.1758,
+      "step": 910
+    },
+    {
+      "epoch": 1.9022869022869022,
+      "grad_norm": 3.65625,
+      "learning_rate": 5.925332101903994e-07,
+      "loss": 1.1783,
+      "step": 915
+    },
+    {
+      "epoch": 1.9126819126819128,
+      "grad_norm": 3.71875,
+      "learning_rate": 5.826028438239479e-07,
+      "loss": 1.1763,
+      "step": 920
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 3.546875,
+      "learning_rate": 5.727220746367791e-07,
+      "loss": 1.18,
+      "step": 925
+    },
+    {
+      "epoch": 1.9334719334719335,
+      "grad_norm": 3.546875,
+      "learning_rate": 5.628920767103957e-07,
+      "loss": 1.1782,
+      "step": 930
+    },
+    {
+      "epoch": 1.943866943866944,
+      "grad_norm": 3.65625,
+      "learning_rate": 5.531140180934119e-07,
+      "loss": 1.1772,
+      "step": 935
+    },
+    {
+      "epoch": 1.9542619542619541,
+      "grad_norm": 3.546875,
+      "learning_rate": 5.433890606627568e-07,
+      "loss": 1.175,
+      "step": 940
+    },
+    {
+      "epoch": 1.9646569646569647,
+      "grad_norm": 3.59375,
+      "learning_rate": 5.337183599856164e-07,
+      "loss": 1.1745,
+      "step": 945
+    },
+    {
+      "epoch": 1.975051975051975,
+      "grad_norm": 3.5625,
+      "learning_rate": 5.241030651821231e-07,
+      "loss": 1.1662,
+      "step": 950
+    },
+    {
+      "epoch": 1.9854469854469854,
+      "grad_norm": 3.609375,
+      "learning_rate": 5.145443187888114e-07,
+      "loss": 1.171,
+      "step": 955
+    },
+    {
+      "epoch": 1.995841995841996,
+      "grad_norm": 3.640625,
+      "learning_rate": 5.050432566228552e-07,
+      "loss": 1.1831,
+      "step": 960
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.381932813203276e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null