g4rg commited on Oct 5, 2024

Commit

edb80cf

verified ·

1 Parent(s): 41515e9

Training in progress, step 66, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_0_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_1_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_2_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_3_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_4_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_5_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_6_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step66/zero_pp_rank_7_mp_rank_00_model_states.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -203
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
     "down_proj",
-    "q_proj",
     "k_proj",
     "gate_proj",
     "o_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "k_proj",
     "gate_proj",
     "o_proj",
+    "v_proj",
+    "up_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d57f3636e2133ab27cbaef1d146c062bbf8047122ac16b770bdafd4bf8302618
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:651204470d974333e74132ca634e50c46cab4f71d2b3bef1ed0dec3eb6aba04d
 size 763470136

last-checkpoint/global_step66/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05d925bd275a804385265819262d1a84eff377f920a44e985cb9ee58810c0b7e
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:856881d6095b0839d3bd7514110d2cdcdc0559f6fc8cb267bc5141b3bb8fb130
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:025283c4a1b2a98c4c67a14e76aa0e78ae970d099fd43392d9694fef490b0198
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3ec5485157f503118c0e48f554d1f5520735c3097bc76d41a8443b455963ffb
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7649d324563a02310f6c3f5f12273d4a8d2bed580278bcfab66fb75a442da89
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c5675f6c03826d269461d7b487eeb925e2dd98d3705817b40437ec232b0b7a1
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89d23306dca8c84ae69d0bbc9e7e502a59e474abd1f09c7dc3f64ac12d79f3e4
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:f588dd44a055da72c47094f640c1b63e398913c5459f8a5ee48af60cb02399e2
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9075c7ca19e86e1ed65f8c466966791f9e32a91a73393fdc305c6dcc5b2694
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:24c8a76833729b7e642158d26cd8ecc63eb5c89c0149c1072a38619d99b3ad10
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c8de2810a40762114166aaac27caa7862c9d8c567a4313c5754e3262962dac7
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:53431f389a44260329ba5449b3c3cdd854a928d7cffcabb54e25b959e1ed251e
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb939367bf3fef598ede269d94fba135a5a6a404d910e0b9975cceedd3214a12
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ad56bb2d798741728bf4f2e6df097e85c333f37686dd375d9f8ef96f29a457d
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84f55d7c62ff6b146e916ded57f2a79aa09eefbe2310a7ce8921a704aad7df49
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cde8be6f46a02f5fa7d6a09a30b5cc4236445fcb495af50fd87624b38a4d7b4
 size 289064656

last-checkpoint/global_step66/zero_pp_rank_0_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a6c977b5d5f9c66ee6db2bd8d5b9e2b2b88ad840dac6d2413eb547a35537075
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:b30b4af07705758f540ab408f607841c632d191549b988a598bf975c09b0e7cb
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_1_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8882aec7f02bd893978cd44e040ce759fd05b02752ed9f985b80df3b5e75f954
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e540c5d8fb1796d999684280ae93deb6127870750006bf833d2521eb66fd4a4
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_2_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d680c922dceea2f0785a6dbc2951117cd7a79715753469d6c790d14743b54aa
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4a10c1d91e1d751287fe76ac8e3146648d57be5da2137b55a4ab42cfb058cbb
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_3_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf14c08df5c11b1784536ad560edb51364d579f27f836a26ee8466a91ddb3527
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:b73ff2f17ef507ddb68bf70c6029a92d54306396de7264db85dc76e11e5547f0
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_4_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb6e912b5973c332168adab81722dec35ccd7429d09fd6801dc8707380885939
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:76f6a128d4879301eda5788ac3c67d3842710cad6a60e1bcf72f5ad00638ae73
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_5_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07685172fd27452dab986dc18506fef46e8a338fb1b93654aba933207197b7d9
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea7fa0a2d9924154f3707dd356f769bb1bc7c5e4722445670e7e904b08704000
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_6_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc403215e9de5c040f6ad74e14c77e5a940a58e3d3acbedc75e1395fdf3bfbc
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:af970f914ad002cb5356956219f0cc30a0646717400a1ee56afa250626413828
 size 348711830

last-checkpoint/global_step66/zero_pp_rank_7_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:583359030777daa4d8dc602466cd4a75ad4a649319fae570547488b2a2492f4c
 size 348711830

 version https://git-lfs.github.com/spec/v1
+oid sha256:219f44c121df9d7f087bf509c1e60e443f8a17c8d25503e8e7f545185d1841e7
 size 348711830

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff29b0b9a1886460050faf8cc16c464a4f189b7dcd65a7cde30b46da44d6228f
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f92646c5a2fa7121ebc27f21b41b150cf9055bfe20103354daf6932bc493b7c
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf1abdcb348481efb333566df593e0f69e86fd80b5dca2a3d86c8552f818218d
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:13e4bba7e58c6a0dcffa575bfc4f4a34515b83e8aaa1510b610980ff57eb0cce
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcbe91bb7cc47195243800eac6fd566b03cdc366455749c9fb5966ac2ca4d206
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7b17e78ab4ecfdfe23d8a98330499e2780c1777f23428c0e1ae30c2c65dead5
 size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cdeeaceac1d49cfdd526d2175a7ba3804fcf744ded87807419eacaf668fd6cf
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cabf58e5a6c7207c39a270554cbc1a122d69f2acb3a6524c23884ae131c30b4
 size 15920

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b96b1f659b748768c17d18f35f1502233265533c6be86242403d45cd4e61a70a
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7a2488f153c409c51dffbb327bcdf64f4d17302a658281b1f239ac084c1c80e
 size 15920

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a85f1df64c01db3268103f2293d5522fcefbd7286a53242806262b2f56ab1daa
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:1eae6522e11d0a1769e0fd4347da083b199a859689a217969c16dbc22713e5ec
 size 15920

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a004480513796572b56d3fe300079c0320b47f357442f63e3cc44ee43b32331
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:d61936499fcf57780309d38cc47b82c866dcadab1dba74812948364a7175461a
 size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4039c20df906b36c492158121503325a0c00c0b5ef67b1e7950b92b1bb850f34
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d80b25072a00168e3d05af00108eeff37fe60f0755470a62f6ae6672dc4ad8e
 size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3018a92e2fcc609e72188b18b74340d0320b4a8c0f2e108928930852ee099d99
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e9ce871037e8d378408842390a351a4bb8856d71d37389bd1055187b26f84d4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,480 +10,480 @@
   "log_history": [
     {
       "epoch": 0.003067484662576687,
-      "grad_norm": 0.9395559024527919,
-      "learning_rate": 2.5e-06,
       "loss": 1.9557,
       "step": 1
     },
     {
       "epoch": 0.003067484662576687,
       "eval_loss": 2.6437082290649414,
-      "eval_runtime": 55.8191,
-      "eval_samples_per_second": 1.792,
-      "eval_steps_per_second": 0.125,
       "step": 1
     },
     {
       "epoch": 0.006134969325153374,
-      "grad_norm": 0.5082114608415543,
-      "learning_rate": 5e-06,
       "loss": 1.9268,
       "step": 2
     },
     {
       "epoch": 0.009202453987730062,
-      "grad_norm": 0.545523617822875,
-      "learning_rate": 7.5e-06,
-      "loss": 1.9672,
       "step": 3
     },
     {
       "epoch": 0.012269938650306749,
-      "grad_norm": 0.5931869038518968,
-      "learning_rate": 1e-05,
-      "loss": 1.9192,
       "step": 4
     },
     {
       "epoch": 0.015337423312883436,
-      "grad_norm": 0.498556696377154,
-      "learning_rate": 1.25e-05,
-      "loss": 1.9185,
       "step": 5
     },
     {
       "epoch": 0.018404907975460124,
-      "grad_norm": 0.5501689457090166,
-      "learning_rate": 1.5e-05,
-      "loss": 1.9038,
       "step": 6
     },
     {
       "epoch": 0.02147239263803681,
-      "grad_norm": 0.43641501566976315,
-      "learning_rate": 1.75e-05,
-      "loss": 1.9735,
       "step": 7
     },
     {
       "epoch": 0.024539877300613498,
-      "grad_norm": 0.7151973611497675,
-      "learning_rate": 2e-05,
-      "loss": 1.9135,
       "step": 8
     },
     {
       "epoch": 0.027607361963190184,
-      "grad_norm": 0.5158517925776626,
-      "learning_rate": 2.25e-05,
-      "loss": 1.9379,
       "step": 9
     },
     {
       "epoch": 0.03067484662576687,
-      "grad_norm": 0.5301495295200299,
-      "learning_rate": 2.5e-05,
-      "loss": 1.9386,
       "step": 10
     },
     {
       "epoch": 0.03374233128834356,
-      "grad_norm": 0.4205339050197659,
-      "learning_rate": 2.7500000000000004e-05,
-      "loss": 1.9029,
       "step": 11
     },
     {
       "epoch": 0.03680981595092025,
-      "grad_norm": 0.5599178839825415,
-      "learning_rate": 3e-05,
-      "loss": 1.9246,
       "step": 12
     },
     {
       "epoch": 0.03987730061349693,
-      "grad_norm": 0.5333810020316109,
-      "learning_rate": 3.2500000000000004e-05,
-      "loss": 1.8621,
       "step": 13
     },
     {
       "epoch": 0.04294478527607362,
-      "grad_norm": 0.5151180815653086,
-      "learning_rate": 3.5e-05,
-      "loss": 1.949,
       "step": 14
     },
     {
       "epoch": 0.046012269938650305,
-      "grad_norm": 0.35627888892281423,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 1.9505,
       "step": 15
     },
     {
       "epoch": 0.049079754601226995,
-      "grad_norm": 0.33573264334052605,
-      "learning_rate": 4e-05,
-      "loss": 1.9614,
       "step": 16
     },
     {
       "epoch": 0.05214723926380368,
-      "grad_norm": 0.31671336768465796,
-      "learning_rate": 4.25e-05,
-      "loss": 1.9705,
       "step": 17
     },
     {
       "epoch": 0.05521472392638037,
-      "grad_norm": 0.7883355132974788,
-      "learning_rate": 4.5e-05,
-      "loss": 1.891,
       "step": 18
     },
     {
       "epoch": 0.05828220858895705,
-      "grad_norm": 0.38426117984889024,
-      "learning_rate": 4.75e-05,
-      "loss": 1.9682,
       "step": 19
     },
     {
       "epoch": 0.06134969325153374,
-      "grad_norm": 0.5205077926790433,
-      "learning_rate": 5e-05,
-      "loss": 1.9717,
       "step": 20
     },
     {
       "epoch": 0.06441717791411043,
-      "grad_norm": 0.34395402269736797,
-      "learning_rate": 4.9998814215961395e-05,
-      "loss": 1.9601,
       "step": 21
     },
     {
       "epoch": 0.06748466257668712,
-      "grad_norm": 1.0892443652168247,
-      "learning_rate": 4.999525698883081e-05,
-      "loss": 1.8868,
       "step": 22
     },
     {
       "epoch": 0.0705521472392638,
-      "grad_norm": 0.3839309430823124,
-      "learning_rate": 4.9989328693550736e-05,
-      "loss": 1.9526,
       "step": 23
     },
     {
       "epoch": 0.0736196319018405,
-      "grad_norm": 0.5435945484115218,
-      "learning_rate": 4.998102995498144e-05,
-      "loss": 1.8828,
       "step": 24
     },
     {
       "epoch": 0.07668711656441718,
-      "grad_norm": 0.5344791990449174,
-      "learning_rate": 4.9970361647835076e-05,
-      "loss": 1.9814,
       "step": 25
     },
     {
       "epoch": 0.07975460122699386,
-      "grad_norm": 0.4169092381345823,
-      "learning_rate": 4.9957324896583496e-05,
-      "loss": 2.0039,
       "step": 26
     },
     {
       "epoch": 0.08282208588957055,
-      "grad_norm": 0.5321002725036647,
-      "learning_rate": 4.9941921075339726e-05,
-      "loss": 1.8978,
       "step": 27
     },
     {
       "epoch": 0.08588957055214724,
-      "grad_norm": 0.43527235030627903,
-      "learning_rate": 4.992415180771313e-05,
-      "loss": 1.9955,
       "step": 28
     },
     {
       "epoch": 0.08895705521472393,
-      "grad_norm": 0.3352860122105628,
-      "learning_rate": 4.990401896663828e-05,
-      "loss": 1.9811,
       "step": 29
     },
     {
       "epoch": 0.09202453987730061,
-      "grad_norm": 0.5180744406200457,
-      "learning_rate": 4.9881524674177544e-05,
-      "loss": 1.993,
       "step": 30
     },
     {
       "epoch": 0.0950920245398773,
-      "grad_norm": 0.37572166232306053,
-      "learning_rate": 4.98566713012974e-05,
-      "loss": 1.9254,
       "step": 31
     },
     {
       "epoch": 0.09815950920245399,
-      "grad_norm": 0.45641066732216334,
-      "learning_rate": 4.982946146761856e-05,
-      "loss": 1.8769,
       "step": 32
     },
     {
       "epoch": 0.10122699386503067,
-      "grad_norm": 0.3929634926287055,
-      "learning_rate": 4.9799898041139806e-05,
-      "loss": 2.0258,
       "step": 33
     },
     {
       "epoch": 0.10429447852760736,
-      "grad_norm": 0.5314588508536493,
-      "learning_rate": 4.976798413793575e-05,
-      "loss": 1.9554,
       "step": 34
     },
     {
       "epoch": 0.10736196319018405,
-      "grad_norm": 0.748246551881334,
-      "learning_rate": 4.973372312182834e-05,
-      "loss": 1.9068,
       "step": 35
     },
     {
       "epoch": 0.11042944785276074,
-      "grad_norm": 0.4060167480927513,
-      "learning_rate": 4.969711860403234e-05,
-      "loss": 1.9333,
       "step": 36
     },
     {
       "epoch": 0.11349693251533742,
-      "grad_norm": 0.5799530880648744,
-      "learning_rate": 4.965817444277468e-05,
-      "loss": 1.9181,
       "step": 37
     },
     {
       "epoch": 0.1165644171779141,
-      "grad_norm": 0.606660471450205,
-      "learning_rate": 4.961689474288779e-05,
-      "loss": 1.998,
       "step": 38
     },
     {
       "epoch": 0.1196319018404908,
-      "grad_norm": 0.4060851512441128,
-      "learning_rate": 4.9573283855376935e-05,
-      "loss": 1.897,
       "step": 39
     },
     {
       "epoch": 0.12269938650306748,
-      "grad_norm": 0.6739628631888296,
-      "learning_rate": 4.95273463769616e-05,
-      "loss": 1.9552,
       "step": 40
     },
     {
       "epoch": 0.12576687116564417,
-      "grad_norm": 0.33685172710853173,
-      "learning_rate": 4.9479087149591016e-05,
-      "loss": 1.9792,
       "step": 41
     },
     {
       "epoch": 0.12883435582822086,
-      "grad_norm": 0.3259384980995625,
-      "learning_rate": 4.9428511259933764e-05,
-      "loss": 1.9744,
       "step": 42
     },
     {
       "epoch": 0.13190184049079753,
-      "grad_norm": 0.4327785334030348,
-      "learning_rate": 4.937562403884162e-05,
-      "loss": 1.94,
       "step": 43
     },
     {
       "epoch": 0.13496932515337423,
-      "grad_norm": 0.3926063542265063,
-      "learning_rate": 4.932043106078772e-05,
-      "loss": 1.9529,
       "step": 44
     },
     {
       "epoch": 0.13803680981595093,
-      "grad_norm": 1.3215391718011407,
-      "learning_rate": 4.926293814327893e-05,
-      "loss": 1.8909,
       "step": 45
     },
     {
       "epoch": 0.1411042944785276,
-      "grad_norm": 0.36338656895366955,
-      "learning_rate": 4.9203151346242745e-05,
-      "loss": 1.9136,
       "step": 46
     },
     {
       "epoch": 0.1441717791411043,
-      "grad_norm": 0.498562015335393,
-      "learning_rate": 4.914107697138843e-05,
-      "loss": 1.9528,
       "step": 47
     },
     {
       "epoch": 0.147239263803681,
-      "grad_norm": 0.8964552394647333,
-      "learning_rate": 4.907672156154293e-05,
-      "loss": 1.9196,
       "step": 48
     },
     {
       "epoch": 0.15030674846625766,
-      "grad_norm": 0.5849768143890427,
-      "learning_rate": 4.901009189996115e-05,
-      "loss": 1.9379,
       "step": 49
     },
     {
       "epoch": 0.15337423312883436,
-      "grad_norm": 0.29099134515938846,
-      "learning_rate": 4.894119500961103e-05,
-      "loss": 1.886,
       "step": 50
     },
     {
       "epoch": 0.15644171779141106,
-      "grad_norm": 0.337221028366163,
-      "learning_rate": 4.887003815243326e-05,
-      "loss": 1.9122,
       "step": 51
     },
     {
       "epoch": 0.15950920245398773,
-      "grad_norm": 0.3009145092042191,
-      "learning_rate": 4.879662882857588e-05,
-      "loss": 1.9304,
       "step": 52
     },
     {
       "epoch": 0.16257668711656442,
-      "grad_norm": 0.2848317412160051,
-      "learning_rate": 4.872097477560374e-05,
-      "loss": 1.9373,
       "step": 53
     },
     {
       "epoch": 0.1656441717791411,
-      "grad_norm": 0.6132329639328981,
-      "learning_rate": 4.864308396768294e-05,
-      "loss": 1.9435,
       "step": 54
     },
     {
       "epoch": 0.1687116564417178,
-      "grad_norm": 0.3131156581720946,
-      "learning_rate": 4.8562964614740284e-05,
-      "loss": 1.9489,
       "step": 55
     },
     {
       "epoch": 0.17177914110429449,
-      "grad_norm": 0.27232749681035767,
-      "learning_rate": 4.8480625161598e-05,
-      "loss": 1.8898,
       "step": 56
     },
     {
       "epoch": 0.17484662576687116,
-      "grad_norm": 0.4737912499270363,
-      "learning_rate": 4.839607428708359e-05,
-      "loss": 1.9283,
       "step": 57
     },
     {
       "epoch": 0.17791411042944785,
-      "grad_norm": 0.3326629263563354,
-      "learning_rate": 4.8309320903115015e-05,
-      "loss": 1.9541,
       "step": 58
     },
     {
       "epoch": 0.18098159509202455,
-      "grad_norm": 0.3228293620778407,
-      "learning_rate": 4.822037415376146e-05,
-      "loss": 1.9516,
       "step": 59
     },
     {
       "epoch": 0.18404907975460122,
-      "grad_norm": 1.6397638257869722,
-      "learning_rate": 4.812924341427942e-05,
-      "loss": 1.877,
       "step": 60
     },
     {
       "epoch": 0.18711656441717792,
-      "grad_norm": 0.26549680234513334,
-      "learning_rate": 4.803593829012456e-05,
-      "loss": 1.9009,
       "step": 61
     },
     {
       "epoch": 0.1901840490797546,
-      "grad_norm": 0.2866804800126102,
-      "learning_rate": 4.7940468615939285e-05,
-      "loss": 1.9193,
       "step": 62
     },
     {
       "epoch": 0.19325153374233128,
-      "grad_norm": 0.6831206341052352,
-      "learning_rate": 4.7842844454516107e-05,
-      "loss": 1.9136,
       "step": 63
     },
     {
       "epoch": 0.19631901840490798,
-      "grad_norm": 0.36663549660831984,
-      "learning_rate": 4.7743076095737025e-05,
-      "loss": 1.8692,
       "step": 64
     },
     {
       "epoch": 0.19938650306748465,
-      "grad_norm": 6.190735884904401,
-      "learning_rate": 4.764117405548891e-05,
-      "loss": 1.8542,
       "step": 65
     },
     {
       "epoch": 0.20245398773006135,
-      "grad_norm": 0.2877773769970794,
-      "learning_rate": 4.753714907455512e-05,
-      "loss": 1.8651,
       "step": 66
     },
     {
       "epoch": 0.20245398773006135,
-      "eval_loss": 2.587120771408081,
-      "eval_runtime": 55.7851,
-      "eval_samples_per_second": 1.793,
-      "eval_steps_per_second": 0.125,
       "step": 66
     }
   ],

   "log_history": [
     {
       "epoch": 0.003067484662576687,
+      "grad_norm": 0.9516617278813834,
+      "learning_rate": 1.25e-05,
       "loss": 1.9557,
       "step": 1
     },
     {
       "epoch": 0.003067484662576687,
       "eval_loss": 2.6437082290649414,
+      "eval_runtime": 55.5495,
+      "eval_samples_per_second": 1.8,
+      "eval_steps_per_second": 0.126,
       "step": 1
     },
     {
       "epoch": 0.006134969325153374,
+      "grad_norm": 0.515521728634264,
+      "learning_rate": 2.5e-05,
       "loss": 1.9268,
       "step": 2
     },
     {
       "epoch": 0.009202453987730062,
+      "grad_norm": 1.0602168628533477,
+      "learning_rate": 3.75e-05,
+      "loss": 1.9644,
       "step": 3
     },
     {
       "epoch": 0.012269938650306749,
+      "grad_norm": 0.5232804296238467,
+      "learning_rate": 5e-05,
+      "loss": 1.9174,
       "step": 4
     },
     {
       "epoch": 0.015337423312883436,
+      "grad_norm": 0.6049728735982117,
+      "learning_rate": 6.25e-05,
+      "loss": 1.9183,
       "step": 5
     },
     {
       "epoch": 0.018404907975460124,
+      "grad_norm": 0.44617735370287787,
+      "learning_rate": 7.5e-05,
+      "loss": 1.9016,
       "step": 6
     },
     {
       "epoch": 0.02147239263803681,
+      "grad_norm": 0.5041842596415366,
+      "learning_rate": 8.75e-05,
+      "loss": 1.9706,
       "step": 7
     },
     {
       "epoch": 0.024539877300613498,
+      "grad_norm": 0.5697227180606876,
+      "learning_rate": 0.0001,
+      "loss": 1.9105,
       "step": 8
     },
     {
       "epoch": 0.027607361963190184,
+      "grad_norm": 0.3797683389810269,
+      "learning_rate": 0.00011250000000000001,
+      "loss": 1.9351,
       "step": 9
     },
     {
       "epoch": 0.03067484662576687,
+      "grad_norm": 0.3464113535012369,
+      "learning_rate": 0.000125,
+      "loss": 1.9347,
       "step": 10
     },
     {
       "epoch": 0.03374233128834356,
+      "grad_norm": 1.038453745480312,
+      "learning_rate": 0.0001375,
+      "loss": 1.9008,
       "step": 11
     },
     {
       "epoch": 0.03680981595092025,
+      "grad_norm": 0.5222824963828644,
+      "learning_rate": 0.00015,
+      "loss": 1.9251,
       "step": 12
     },
     {
       "epoch": 0.03987730061349693,
+      "grad_norm": 0.5129473208257509,
+      "learning_rate": 0.00016250000000000002,
+      "loss": 1.8613,
       "step": 13
     },
     {
       "epoch": 0.04294478527607362,
+      "grad_norm": 0.7292233670769845,
+      "learning_rate": 0.000175,
+      "loss": 1.9507,
       "step": 14
     },
     {
       "epoch": 0.046012269938650305,
+      "grad_norm": 0.6360368446619434,
+      "learning_rate": 0.0001875,
+      "loss": 1.9512,
       "step": 15
     },
     {
       "epoch": 0.049079754601226995,
+      "grad_norm": 0.48214017101050627,
+      "learning_rate": 0.0002,
+      "loss": 1.961,
       "step": 16
     },
     {
       "epoch": 0.05214723926380368,
+      "grad_norm": 0.4394229337647846,
+      "learning_rate": 0.0002125,
+      "loss": 1.9704,
       "step": 17
     },
     {
       "epoch": 0.05521472392638037,
+      "grad_norm": 0.3796994442046945,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 1.8925,
       "step": 18
     },
     {
       "epoch": 0.05828220858895705,
+      "grad_norm": 0.3188673935343497,
+      "learning_rate": 0.0002375,
+      "loss": 1.969,
       "step": 19
     },
     {
       "epoch": 0.06134969325153374,
+      "grad_norm": 0.9883905241335006,
+      "learning_rate": 0.00025,
+      "loss": 1.9734,
       "step": 20
     },
     {
       "epoch": 0.06441717791411043,
+      "grad_norm": 0.42956410678121015,
+      "learning_rate": 0.000249994071079807,
+      "loss": 1.9632,
       "step": 21
     },
     {
       "epoch": 0.06748466257668712,
+      "grad_norm": 0.5580696830715027,
+      "learning_rate": 0.00024997628494415405,
+      "loss": 1.8911,
       "step": 22
     },
     {
       "epoch": 0.0705521472392638,
+      "grad_norm": 0.4247455273508192,
+      "learning_rate": 0.00024994664346775366,
+      "loss": 1.9549,
       "step": 23
     },
     {
       "epoch": 0.0736196319018405,
+      "grad_norm": 0.5638089571797716,
+      "learning_rate": 0.0002499051497749072,
+      "loss": 1.8903,
       "step": 24
     },
     {
       "epoch": 0.07668711656441718,
+      "grad_norm": 0.3337856270380794,
+      "learning_rate": 0.00024985180823917534,
+      "loss": 1.9817,
       "step": 25
     },
     {
       "epoch": 0.07975460122699386,
+      "grad_norm": 0.5964071002925826,
+      "learning_rate": 0.00024978662448291747,
+      "loss": 2.0113,
       "step": 26
     },
     {
       "epoch": 0.08282208588957055,
+      "grad_norm": 1.3108802906417165,
+      "learning_rate": 0.0002497096053766986,
+      "loss": 1.9136,
       "step": 27
     },
     {
       "epoch": 0.08588957055214724,
+      "grad_norm": 1.9953168113527813,
+      "learning_rate": 0.0002496207590385656,
+      "loss": 2.0042,
       "step": 28
     },
     {
       "epoch": 0.08895705521472393,
+      "grad_norm": 4.7288777305801615,
+      "learning_rate": 0.00024952009483319136,
+      "loss": 2.0138,
       "step": 29
     },
     {
       "epoch": 0.09202453987730061,
+      "grad_norm": 0.9466987524434748,
+      "learning_rate": 0.0002494076233708877,
+      "loss": 2.027,
       "step": 30
     },
     {
       "epoch": 0.0950920245398773,
+      "grad_norm": 0.5335701207102423,
+      "learning_rate": 0.000249283356506487,
+      "loss": 1.9497,
       "step": 31
     },
     {
       "epoch": 0.09815950920245399,
+      "grad_norm": 0.4530090911036831,
+      "learning_rate": 0.0002491473073380928,
+      "loss": 1.8991,
       "step": 32
     },
     {
       "epoch": 0.10122699386503067,
+      "grad_norm": 0.43545874771481075,
+      "learning_rate": 0.000248999490205699,
+      "loss": 2.0384,
       "step": 33
     },
     {
       "epoch": 0.10429447852760736,
+      "grad_norm": 3.1727083160562874,
+      "learning_rate": 0.00024883992068967873,
+      "loss": 1.9743,
       "step": 34
     },
     {
       "epoch": 0.10736196319018405,
+      "grad_norm": 5.481030996815809,
+      "learning_rate": 0.0002486686156091417,
+      "loss": 2.0054,
       "step": 35
     },
     {
       "epoch": 0.11042944785276074,
+      "grad_norm": 9.756683051815624,
+      "learning_rate": 0.0002484855930201617,
+      "loss": 1.9805,
       "step": 36
     },
     {
       "epoch": 0.11349693251533742,
+      "grad_norm": 0.5694221348977583,
+      "learning_rate": 0.0002482908722138734,
+      "loss": 1.9495,
       "step": 37
     },
     {
       "epoch": 0.1165644171779141,
+      "grad_norm": 0.4781718005749317,
+      "learning_rate": 0.00024808447371443896,
+      "loss": 2.0154,
       "step": 38
     },
     {
       "epoch": 0.1196319018404908,
+      "grad_norm": 2.070517297643313,
+      "learning_rate": 0.00024786641927688466,
+      "loss": 1.9294,
       "step": 39
     },
     {
       "epoch": 0.12269938650306748,
+      "grad_norm": 0.4269552409103539,
+      "learning_rate": 0.000247636731884808,
+      "loss": 1.9768,
       "step": 40
     },
     {
       "epoch": 0.12576687116564417,
+      "grad_norm": 0.39633691656297887,
+      "learning_rate": 0.0002473954357479551,
+      "loss": 1.9978,
       "step": 41
     },
     {
       "epoch": 0.12883435582822086,
+      "grad_norm": 0.5628682021190763,
+      "learning_rate": 0.0002471425562996688,
+      "loss": 1.9877,
       "step": 42
     },
     {
       "epoch": 0.13190184049079753,
+      "grad_norm": 0.4235604267637786,
+      "learning_rate": 0.00024687812019420806,
+      "loss": 1.9601,
       "step": 43
     },
     {
       "epoch": 0.13496932515337423,
+      "grad_norm": 1.955262598542115,
+      "learning_rate": 0.0002466021553039386,
+      "loss": 1.9665,
       "step": 44
     },
     {
       "epoch": 0.13803680981595093,
+      "grad_norm": 0.5343967332691423,
+      "learning_rate": 0.0002463146907163947,
+      "loss": 1.9132,
       "step": 45
     },
     {
       "epoch": 0.1411042944785276,
+      "grad_norm": 0.35886735373161066,
+      "learning_rate": 0.0002460157567312137,
+      "loss": 1.9353,
       "step": 46
     },
     {
       "epoch": 0.1441717791411043,
+      "grad_norm": 0.49035062436723287,
+      "learning_rate": 0.00024570538485694214,
+      "loss": 1.9721,
       "step": 47
     },
     {
       "epoch": 0.147239263803681,
+      "grad_norm": 0.3404214165006091,
+      "learning_rate": 0.00024538360780771465,
+      "loss": 1.9382,
       "step": 48
     },
     {
       "epoch": 0.15030674846625766,
+      "grad_norm": 0.5345047082277987,
+      "learning_rate": 0.00024505045949980574,
+      "loss": 1.9566,
       "step": 49
     },
     {
       "epoch": 0.15337423312883436,
+      "grad_norm": 0.33138829718017737,
+      "learning_rate": 0.00024470597504805516,
+      "loss": 1.9025,
       "step": 50
     },
     {
       "epoch": 0.15644171779141106,
+      "grad_norm": 0.3960289244574568,
+      "learning_rate": 0.00024435019076216627,
+      "loss": 1.9338,
       "step": 51
     },
     {
       "epoch": 0.15950920245398773,
+      "grad_norm": 0.44538606572029693,
+      "learning_rate": 0.00024398314414287938,
+      "loss": 1.9495,
       "step": 52
     },
     {
       "epoch": 0.16257668711656442,
+      "grad_norm": 0.38091673390175385,
+      "learning_rate": 0.00024360487387801872,
+      "loss": 1.9579,
       "step": 53
     },
     {
       "epoch": 0.1656441717791411,
+      "grad_norm": 0.3786713587133258,
+      "learning_rate": 0.00024321541983841468,
+      "loss": 1.9606,
       "step": 54
     },
     {
       "epoch": 0.1687116564417178,
+      "grad_norm": 0.34787683708853046,
+      "learning_rate": 0.00024281482307370142,
+      "loss": 1.9642,
       "step": 55
     },
     {
       "epoch": 0.17177914110429449,
+      "grad_norm": 0.7739678290668914,
+      "learning_rate": 0.00024240312580799,
+      "loss": 1.9082,
       "step": 56
     },
     {
       "epoch": 0.17484662576687116,
+      "grad_norm": 0.8090200041147584,
+      "learning_rate": 0.00024198037143541792,
+      "loss": 1.9458,
       "step": 57
     },
     {
       "epoch": 0.17791411042944785,
+      "grad_norm": 0.38965067919011226,
+      "learning_rate": 0.00024154660451557508,
+      "loss": 1.9724,
       "step": 58
     },
     {
       "epoch": 0.18098159509202455,
+      "grad_norm": 0.525233423512868,
+      "learning_rate": 0.0002411018707688073,
+      "loss": 1.9726,
       "step": 59
     },
     {
       "epoch": 0.18404907975460122,
+      "grad_norm": 0.6309847144158074,
+      "learning_rate": 0.00024064621707139708,
+      "loss": 1.8999,
       "step": 60
     },
     {
       "epoch": 0.18711656441717792,
+      "grad_norm": 0.8241404186554419,
+      "learning_rate": 0.00024017969145062278,
+      "loss": 1.927,
       "step": 61
     },
     {
       "epoch": 0.1901840490797546,
+      "grad_norm": 0.3936537378135966,
+      "learning_rate": 0.0002397023430796964,
+      "loss": 1.9457,
       "step": 62
     },
     {
       "epoch": 0.19325153374233128,
+      "grad_norm": 0.5030215425538933,
+      "learning_rate": 0.0002392142222725805,
+      "loss": 1.9413,
       "step": 63
     },
     {
       "epoch": 0.19631901840490798,
+      "grad_norm": 0.82199867849235,
+      "learning_rate": 0.00023871538047868512,
+      "loss": 1.8935,
       "step": 64
     },
     {
       "epoch": 0.19938650306748465,
+      "grad_norm": 0.36522090025587745,
+      "learning_rate": 0.00023820587027744452,
+      "loss": 1.8778,
       "step": 65
     },
     {
       "epoch": 0.20245398773006135,
+      "grad_norm": 0.44631812034158336,
+      "learning_rate": 0.00023768574537277558,
+      "loss": 1.8862,
       "step": 66
     },
     {
       "epoch": 0.20245398773006135,
+      "eval_loss": 2.6580638885498047,
+      "eval_runtime": 55.7526,
+      "eval_samples_per_second": 1.794,
+      "eval_steps_per_second": 0.126,
       "step": 66
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20a2a75112970d2f5eadf0b3dfedd8ee2a80f0b77d6656f1a708195b6286e91a
 size 8120

 version https://git-lfs.github.com/spec/v1
+oid sha256:46d6cb0eb1e7ca6e84cff1f8ec963246766ca8b78e905f9a2825914974167129
 size 8120