g4rg commited on Oct 5, 2024

Commit

5237730

verified ·

1 Parent(s): dd4a223

Training in progress, step 132, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step132/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step132/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +473 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cde4c0dc915fef419c1193ae86c0d6cad089c08b2c9fd319eb8d1cfc01feab3
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:33b1027b21df86a9ac1c25a185657bca1afb488a02b9101ce864a4e74d409fce
 size 763470136

last-checkpoint/global_step132/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:742ce79752a5d8f0f3bf416b20f26d0f43bf95ed67d8c4c7df176a96494ce4a7
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7540fcf32349a07dccbf889ebf653db148b8f90e0077e9c2773d4a587b5e6f0d
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d844d71c8fc5d221f10e43400cb57625275fb899e1239a152e204ad0fc6385a5
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33ff85863a7ea2f39275c0d2d3407b1886a4b3986c7ab9ae40b2ceae0faedc6a
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f31cc78687d87c75bfac1aee87d90e2fa493fdf962050eaf448508789290855
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:daeee2f1ff388a0c5d58446daca3360a54c25c03bcb2103024266444dff2c968
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57f303a512fb5d564e9ee13087ea01b1c6bd22971339058543e7d100f646b6e9
+size 289064656

last-checkpoint/global_step132/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59477ac9941f46dcd1e7675c7ac8aa0d21d1adaa0c8e8f0a11ec59f473ca0a6d
+size 289064656

last-checkpoint/global_step132/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a6e15ec8a4fea8016bdc708db571fc4212d9dad165f5c6e02d9f04f48bd29f8
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:183de6c87d63300d6bb1b236b4562d587ff5bd8ec5d12e6120bcdd17afb1a6c4
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd5fd70732c9aa6fca7bec2c252b4802ec2a29c3426999950d15a4c4e66dc92a
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4a2665c422731e5e52cb26adf3b9335c8736f3524fd6cfab44a1b8e43065b5f
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ce77382eebe7ffca32bb93b82b1dfed357461d5a71957037e89bcb6836702a
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6492d02148e09765f05c4731dca56fff868571a0dbcda5a427e275c3f948ee31
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8af7082a1e598c068aecd4d85e10b3d4798ef0ede3019f3d78b244e87f354703
+size 348711830

last-checkpoint/global_step132/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5886fbf4415c2dfe8a7101e4dca20e4b432af43bece3613f79f94fbff34aed8d
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step66~~


1	+ global_step132

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f92646c5a2fa7121ebc27f21b41b150cf9055bfe20103354daf6932bc493b7c
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ca402835f1af6d48f2f47ac363c7097358373e395ec83d7eb3d57ddbb0a4b2d
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e4bba7e58c6a0dcffa575bfc4f4a34515b83e8aaa1510b610980ff57eb0cce
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:a82bbd72da921737fac229854d3f27169eee4db7ddeacdba4a7199bad357bf3c
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7b17e78ab4ecfdfe23d8a98330499e2780c1777f23428c0e1ae30c2c65dead5
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5972e7fa3b67599264ff7edaf7cea513fbe8d18030796597e4baae2d425cad3
 size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cabf58e5a6c7207c39a270554cbc1a122d69f2acb3a6524c23884ae131c30b4
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:b53ae0f3c148cf1921cf63943d12ae8efd4e59d00acc2c75a186e9cb04f50b9c
 size 15920

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7a2488f153c409c51dffbb327bcdf64f4d17302a658281b1f239ac084c1c80e
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:84863aaa0987e7ec58181dc3d6c18d688fa5e191ef4d53a10df375a42bac5e2d
 size 15920

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1eae6522e11d0a1769e0fd4347da083b199a859689a217969c16dbc22713e5ec
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6b191726b8c03f5e523ba50eb220f1728e82f11657f92ec30a0f367e31c0945
 size 15920

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d61936499fcf57780309d38cc47b82c866dcadab1dba74812948364a7175461a
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae89d13f767f2c751bc315568edaf6650d050eb04a09f1b3bd9d20f069ee5007
 size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d80b25072a00168e3d05af00108eeff37fe60f0755470a62f6ae6672dc4ad8e
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:1147b95ab7e867550d2f4e0481eddb98045dd538809f0c554423f517ebb61468
 size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6530e0522c975674706d8073e33fa508580e6b794aaf4f3e6111389796f319e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dea28a2bfa00902c551f1f93e746f32ec9126cb389e7c8deda3380b1f2fec426
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20245398773006135,
   "eval_steps": 66,
-  "global_step": 66,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -485,6 +485,476 @@
       "eval_samples_per_second": 1.799,
       "eval_steps_per_second": 0.126,
       "step": 66
     }
   ],
   "logging_steps": 1,
@@ -504,7 +974,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 72071698710528.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4049079754601227,
   "eval_steps": 66,
+  "global_step": 132,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.799,
       "eval_steps_per_second": 0.126,
       "step": 66
+    },
+    {
+      "epoch": 0.20552147239263804,
+      "grad_norm": 0.525841804476554,
+      "learning_rate": 9.486202423496679e-05,
+      "loss": 1.8319,
+      "step": 67
+    },
+    {
+      "epoch": 0.2085889570552147,
+      "grad_norm": 0.33648300397500824,
+      "learning_rate": 9.46455487428603e-05,
+      "loss": 1.889,
+      "step": 68
+    },
+    {
+      "epoch": 0.2116564417177914,
+      "grad_norm": 0.2982307248009996,
+      "learning_rate": 9.442489448996261e-05,
+      "loss": 1.9004,
+      "step": 69
+    },
+    {
+      "epoch": 0.2147239263803681,
+      "grad_norm": 1.3863327829569763,
+      "learning_rate": 9.42000847338996e-05,
+      "loss": 1.9529,
+      "step": 70
+    },
+    {
+      "epoch": 0.21779141104294478,
+      "grad_norm": 0.3507002144386185,
+      "learning_rate": 9.397114317029975e-05,
+      "loss": 1.9561,
+      "step": 71
+    },
+    {
+      "epoch": 0.22085889570552147,
+      "grad_norm": 0.26047398296778806,
+      "learning_rate": 9.373809393029654e-05,
+      "loss": 1.9666,
+      "step": 72
+    },
+    {
+      "epoch": 0.22392638036809817,
+      "grad_norm": 0.31142946623961487,
+      "learning_rate": 9.350096157798505e-05,
+      "loss": 1.9669,
+      "step": 73
+    },
+    {
+      "epoch": 0.22699386503067484,
+      "grad_norm": 0.6059103096641723,
+      "learning_rate": 9.325977110783264e-05,
+      "loss": 1.8732,
+      "step": 74
+    },
+    {
+      "epoch": 0.23006134969325154,
+      "grad_norm": 0.2988013721693877,
+      "learning_rate": 9.301454794204464e-05,
+      "loss": 1.9106,
+      "step": 75
+    },
+    {
+      "epoch": 0.2331288343558282,
+      "grad_norm": 0.3322046656491888,
+      "learning_rate": 9.276531792788471e-05,
+      "loss": 1.9082,
+      "step": 76
+    },
+    {
+      "epoch": 0.2361963190184049,
+      "grad_norm": 0.4251032871261752,
+      "learning_rate": 9.251210733495039e-05,
+      "loss": 1.873,
+      "step": 77
+    },
+    {
+      "epoch": 0.2392638036809816,
+      "grad_norm": 0.5316920231449993,
+      "learning_rate": 9.225494285240432e-05,
+      "loss": 1.9237,
+      "step": 78
+    },
+    {
+      "epoch": 0.24233128834355827,
+      "grad_norm": 0.3879744017362554,
+      "learning_rate": 9.199385158616103e-05,
+      "loss": 1.9097,
+      "step": 79
+    },
+    {
+      "epoch": 0.24539877300613497,
+      "grad_norm": 0.34345641723744996,
+      "learning_rate": 9.172886105602998e-05,
+      "loss": 1.8854,
+      "step": 80
+    },
+    {
+      "epoch": 0.24846625766871167,
+      "grad_norm": 0.28939057442749516,
+      "learning_rate": 9.145999919281481e-05,
+      "loss": 1.8964,
+      "step": 81
+    },
+    {
+      "epoch": 0.25153374233128833,
+      "grad_norm": 1.3304291601448779,
+      "learning_rate": 9.118729433536938e-05,
+      "loss": 1.9008,
+      "step": 82
+    },
+    {
+      "epoch": 0.254601226993865,
+      "grad_norm": 0.31217347045844684,
+      "learning_rate": 9.091077522761079e-05,
+      "loss": 1.9452,
+      "step": 83
+    },
+    {
+      "epoch": 0.25766871165644173,
+      "grad_norm": 0.437112787156602,
+      "learning_rate": 9.063047101548962e-05,
+      "loss": 1.8645,
+      "step": 84
+    },
+    {
+      "epoch": 0.2607361963190184,
+      "grad_norm": 0.29101868827151584,
+      "learning_rate": 9.034641124391795e-05,
+      "loss": 1.9555,
+      "step": 85
+    },
+    {
+      "epoch": 0.26380368098159507,
+      "grad_norm": 0.3581357829575129,
+      "learning_rate": 9.005862585365517e-05,
+      "loss": 1.8963,
+      "step": 86
+    },
+    {
+      "epoch": 0.2668711656441718,
+      "grad_norm": 0.2870730838141048,
+      "learning_rate": 8.976714517815216e-05,
+      "loss": 1.9004,
+      "step": 87
+    },
+    {
+      "epoch": 0.26993865030674846,
+      "grad_norm": 0.432917577879272,
+      "learning_rate": 8.947199994035401e-05,
+      "loss": 1.9512,
+      "step": 88
+    },
+    {
+      "epoch": 0.27300613496932513,
+      "grad_norm": 0.2818163590615669,
+      "learning_rate": 8.917322124946182e-05,
+      "loss": 1.951,
+      "step": 89
+    },
+    {
+      "epoch": 0.27607361963190186,
+      "grad_norm": 0.35253042451634276,
+      "learning_rate": 8.88708405976536e-05,
+      "loss": 1.8632,
+      "step": 90
+    },
+    {
+      "epoch": 0.2791411042944785,
+      "grad_norm": 0.2590173941857926,
+      "learning_rate": 8.856488985676495e-05,
+      "loss": 1.9345,
+      "step": 91
+    },
+    {
+      "epoch": 0.2822085889570552,
+      "grad_norm": 0.27658536342174034,
+      "learning_rate": 8.825540127492967e-05,
+      "loss": 1.9323,
+      "step": 92
+    },
+    {
+      "epoch": 0.2852760736196319,
+      "grad_norm": 0.4745120742354108,
+      "learning_rate": 8.794240747318066e-05,
+      "loss": 1.9018,
+      "step": 93
+    },
+    {
+      "epoch": 0.2883435582822086,
+      "grad_norm": 0.26070920298493305,
+      "learning_rate": 8.762594144201167e-05,
+      "loss": 1.9387,
+      "step": 94
+    },
+    {
+      "epoch": 0.29141104294478526,
+      "grad_norm": 0.5280391087971116,
+      "learning_rate": 8.73060365378999e-05,
+      "loss": 1.862,
+      "step": 95
+    },
+    {
+      "epoch": 0.294478527607362,
+      "grad_norm": 0.2507206580092369,
+      "learning_rate": 8.698272647979012e-05,
+      "loss": 1.9286,
+      "step": 96
+    },
+    {
+      "epoch": 0.29754601226993865,
+      "grad_norm": 0.26686171742356907,
+      "learning_rate": 8.665604534554075e-05,
+      "loss": 1.8256,
+      "step": 97
+    },
+    {
+      "epoch": 0.3006134969325153,
+      "grad_norm": 0.2528790515143118,
+      "learning_rate": 8.632602756833172e-05,
+      "loss": 1.9627,
+      "step": 98
+    },
+    {
+      "epoch": 0.30368098159509205,
+      "grad_norm": 0.3485782871675419,
+      "learning_rate": 8.599270793303524e-05,
+      "loss": 1.8465,
+      "step": 99
+    },
+    {
+      "epoch": 0.3067484662576687,
+      "grad_norm": 0.26793745211248754,
+      "learning_rate": 8.565612157254943e-05,
+      "loss": 1.8918,
+      "step": 100
+    },
+    {
+      "epoch": 0.3098159509202454,
+      "grad_norm": 0.25037629545985934,
+      "learning_rate": 8.531630396409507e-05,
+      "loss": 1.8663,
+      "step": 101
+    },
+    {
+      "epoch": 0.3128834355828221,
+      "grad_norm": 0.2592216678438039,
+      "learning_rate": 8.497329092547627e-05,
+      "loss": 1.9302,
+      "step": 102
+    },
+    {
+      "epoch": 0.3159509202453988,
+      "grad_norm": 0.26334854065125896,
+      "learning_rate": 8.46271186113051e-05,
+      "loss": 1.8775,
+      "step": 103
+    },
+    {
+      "epoch": 0.31901840490797545,
+      "grad_norm": 0.2626800828290798,
+      "learning_rate": 8.42778235091909e-05,
+      "loss": 1.9522,
+      "step": 104
+    },
+    {
+      "epoch": 0.3220858895705521,
+      "grad_norm": 0.24256073020090993,
+      "learning_rate": 8.392544243589427e-05,
+      "loss": 1.9295,
+      "step": 105
+    },
+    {
+      "epoch": 0.32515337423312884,
+      "grad_norm": 0.2484627790629833,
+      "learning_rate": 8.357001253344653e-05,
+      "loss": 1.9287,
+      "step": 106
+    },
+    {
+      "epoch": 0.3282208588957055,
+      "grad_norm": 0.31955912356468386,
+      "learning_rate": 8.32115712652348e-05,
+      "loss": 1.9886,
+      "step": 107
+    },
+    {
+      "epoch": 0.3312883435582822,
+      "grad_norm": 0.2434642052279205,
+      "learning_rate": 8.285015641205325e-05,
+      "loss": 1.9623,
+      "step": 108
+    },
+    {
+      "epoch": 0.3343558282208589,
+      "grad_norm": 0.28552157930226957,
+      "learning_rate": 8.248580606812096e-05,
+      "loss": 1.8705,
+      "step": 109
+    },
+    {
+      "epoch": 0.3374233128834356,
+      "grad_norm": 0.27716036272992295,
+      "learning_rate": 8.211855863706654e-05,
+      "loss": 1.8958,
+      "step": 110
+    },
+    {
+      "epoch": 0.34049079754601225,
+      "grad_norm": 0.40776621930987433,
+      "learning_rate": 8.174845282788041e-05,
+      "loss": 1.9219,
+      "step": 111
+    },
+    {
+      "epoch": 0.34355828220858897,
+      "grad_norm": 0.27546145956009194,
+      "learning_rate": 8.137552765083466e-05,
+      "loss": 1.8948,
+      "step": 112
+    },
+    {
+      "epoch": 0.34662576687116564,
+      "grad_norm": 0.2463745150403918,
+      "learning_rate": 8.09998224133713e-05,
+      "loss": 1.907,
+      "step": 113
+    },
+    {
+      "epoch": 0.3496932515337423,
+      "grad_norm": 0.2530717713867962,
+      "learning_rate": 8.062137671595911e-05,
+      "loss": 1.8945,
+      "step": 114
+    },
+    {
+      "epoch": 0.35276073619631904,
+      "grad_norm": 0.26804689577846247,
+      "learning_rate": 8.024023044791964e-05,
+      "loss": 1.8984,
+      "step": 115
+    },
+    {
+      "epoch": 0.3558282208588957,
+      "grad_norm": 0.2922869142073029,
+      "learning_rate": 7.985642378322276e-05,
+      "loss": 1.9499,
+      "step": 116
+    },
+    {
+      "epoch": 0.3588957055214724,
+      "grad_norm": 0.2302050850660013,
+      "learning_rate": 7.946999717625221e-05,
+      "loss": 1.9398,
+      "step": 117
+    },
+    {
+      "epoch": 0.3619631901840491,
+      "grad_norm": 0.4179152288704764,
+      "learning_rate": 7.908099135754152e-05,
+      "loss": 1.909,
+      "step": 118
+    },
+    {
+      "epoch": 0.36503067484662577,
+      "grad_norm": 0.2448034947982603,
+      "learning_rate": 7.868944732948101e-05,
+      "loss": 1.9202,
+      "step": 119
+    },
+    {
+      "epoch": 0.36809815950920244,
+      "grad_norm": 0.3642159637354568,
+      "learning_rate": 7.829540636199591e-05,
+      "loss": 1.9188,
+      "step": 120
+    },
+    {
+      "epoch": 0.37116564417177916,
+      "grad_norm": 0.2751031027135651,
+      "learning_rate": 7.789890998819643e-05,
+      "loss": 1.8903,
+      "step": 121
+    },
+    {
+      "epoch": 0.37423312883435583,
+      "grad_norm": 0.2519348027896112,
+      "learning_rate": 7.75e-05,
+      "loss": 1.9422,
+      "step": 122
+    },
+    {
+      "epoch": 0.3773006134969325,
+      "grad_norm": 0.2724753380540709,
+      "learning_rate": 7.709871844372639e-05,
+      "loss": 1.9314,
+      "step": 123
+    },
+    {
+      "epoch": 0.3803680981595092,
+      "grad_norm": 0.2831411354349516,
+      "learning_rate": 7.669510761566571e-05,
+      "loss": 1.8467,
+      "step": 124
+    },
+    {
+      "epoch": 0.3834355828220859,
+      "grad_norm": 0.34065192298819646,
+      "learning_rate": 7.628921005762047e-05,
+      "loss": 1.9109,
+      "step": 125
+    },
+    {
+      "epoch": 0.38650306748466257,
+      "grad_norm": 0.2744987049992245,
+      "learning_rate": 7.588106855242135e-05,
+      "loss": 1.8961,
+      "step": 126
+    },
+    {
+      "epoch": 0.3895705521472393,
+      "grad_norm": 0.24972903865472293,
+      "learning_rate": 7.547072611941795e-05,
+      "loss": 1.9183,
+      "step": 127
+    },
+    {
+      "epoch": 0.39263803680981596,
+      "grad_norm": 0.2717954573790397,
+      "learning_rate": 7.505822600994424e-05,
+      "loss": 1.9925,
+      "step": 128
+    },
+    {
+      "epoch": 0.39570552147239263,
+      "grad_norm": 0.2710599653280406,
+      "learning_rate": 7.46436117027598e-05,
+      "loss": 1.9588,
+      "step": 129
+    },
+    {
+      "epoch": 0.3987730061349693,
+      "grad_norm": 0.3038954677693998,
+      "learning_rate": 7.422692689946714e-05,
+      "loss": 1.9182,
+      "step": 130
+    },
+    {
+      "epoch": 0.401840490797546,
+      "grad_norm": 0.2587552748890865,
+      "learning_rate": 7.380821551990525e-05,
+      "loss": 1.9383,
+      "step": 131
+    },
+    {
+      "epoch": 0.4049079754601227,
+      "grad_norm": 0.25905002770576757,
+      "learning_rate": 7.338752169752042e-05,
+      "loss": 1.9514,
+      "step": 132
+    },
+    {
+      "epoch": 0.4049079754601227,
+      "eval_loss": 2.577134370803833,
+      "eval_runtime": 55.6924,
+      "eval_samples_per_second": 1.796,
+      "eval_steps_per_second": 0.126,
+      "step": 132
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 144143397421056.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null