Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:971a2f59249d55a8b48186cd9295cb594f33af73df45f87bf14fbbcafe8fa76a
 size 349243752

 version https://git-lfs.github.com/spec/v1
+oid sha256:77e076f7213cd541801b56e598732e42d7aaa49f322189b3825f935f5e1a9284
 size 349243752

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c1c4f17c0acd80bfb8240e71fa6a14ad3d00c291599f75e0c43d07631c9ed35
 size 177909253

 version https://git-lfs.github.com/spec/v1
+oid sha256:47e1d75dde1eaa357bbd53fa9529a45fd976f9322d969b161d305861e4d4d4f6
 size 177909253

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdd06785c427f9c2a97b75ee5b71e93815ab2666e5c88a6c7a1e96a2bf4caaf0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:96e967965c983a20a302f5bd4e11508247b969959098eb0b66c2fdc8d23296fa
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:118821fc5b8206c24fc92c01c7602ae0213214e4c85db903243af594ef0e4c50
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:7258fe24b7785a5fa76614aef57f913158962a01367bf1fe11174ca5bb4f2704
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.39800995024875624,
   "eval_steps": 500,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -708,6 +708,181 @@
       "learning_rate": 7.68782851756094e-06,
       "loss": 1.3148,
       "step": 400
     }
   ],
   "logging_steps": 4,
@@ -727,7 +902,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.99858436292608e+17,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4975124378109453,
   "eval_steps": 500,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 7.68782851756094e-06,
       "loss": 1.3148,
       "step": 400
+    },
+    {
+      "epoch": 0.4019900497512438,
+      "grad_norm": 0.17020876705646515,
+      "learning_rate": 7.633781445683757e-06,
+      "loss": 1.4201,
+      "step": 404
+    },
+    {
+      "epoch": 0.4059701492537313,
+      "grad_norm": 0.17484496533870697,
+      "learning_rate": 7.578917304062244e-06,
+      "loss": 1.3405,
+      "step": 408
+    },
+    {
+      "epoch": 0.4099502487562189,
+      "grad_norm": 0.1632368564605713,
+      "learning_rate": 7.523250629339467e-06,
+      "loss": 1.4,
+      "step": 412
+    },
+    {
+      "epoch": 0.41393034825870645,
+      "grad_norm": 0.17625893652439117,
+      "learning_rate": 7.4667961707953255e-06,
+      "loss": 1.4348,
+      "step": 416
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 0.15959715843200684,
+      "learning_rate": 7.409568886438621e-06,
+      "loss": 1.4332,
+      "step": 420
+    },
+    {
+      "epoch": 0.4218905472636816,
+      "grad_norm": 0.17473378777503967,
+      "learning_rate": 7.351583939043828e-06,
+      "loss": 1.4602,
+      "step": 424
+    },
+    {
+      "epoch": 0.42587064676616915,
+      "grad_norm": 0.18552260100841522,
+      "learning_rate": 7.292856692133618e-06,
+      "loss": 1.3272,
+      "step": 428
+    },
+    {
+      "epoch": 0.4298507462686567,
+      "grad_norm": 0.15143436193466187,
+      "learning_rate": 7.233402705908171e-06,
+      "loss": 1.2945,
+      "step": 432
+    },
+    {
+      "epoch": 0.4338308457711443,
+      "grad_norm": 0.17919780313968658,
+      "learning_rate": 7.173237733122405e-06,
+      "loss": 1.3907,
+      "step": 436
+    },
+    {
+      "epoch": 0.43781094527363185,
+      "grad_norm": 0.18790380656719208,
+      "learning_rate": 7.11237771491216e-06,
+      "loss": 1.3891,
+      "step": 440
+    },
+    {
+      "epoch": 0.4417910447761194,
+      "grad_norm": 0.17522069811820984,
+      "learning_rate": 7.050838776570487e-06,
+      "loss": 1.4066,
+      "step": 444
+    },
+    {
+      "epoch": 0.445771144278607,
+      "grad_norm": 0.13809643685817719,
+      "learning_rate": 6.9886372232751395e-06,
+      "loss": 1.3792,
+      "step": 448
+    },
+    {
+      "epoch": 0.44975124378109455,
+      "grad_norm": 0.16660109162330627,
+      "learning_rate": 6.925789535768393e-06,
+      "loss": 1.4093,
+      "step": 452
+    },
+    {
+      "epoch": 0.4537313432835821,
+      "grad_norm": 0.1820070743560791,
+      "learning_rate": 6.862312365990363e-06,
+      "loss": 1.38,
+      "step": 456
+    },
+    {
+      "epoch": 0.4577114427860697,
+      "grad_norm": 0.13574036955833435,
+      "learning_rate": 6.798222532666956e-06,
+      "loss": 1.3845,
+      "step": 460
+    },
+    {
+      "epoch": 0.4616915422885572,
+      "grad_norm": 0.18035098910331726,
+      "learning_rate": 6.73353701685362e-06,
+      "loss": 1.4684,
+      "step": 464
+    },
+    {
+      "epoch": 0.46567164179104475,
+      "grad_norm": 0.13899867236614227,
+      "learning_rate": 6.668272957436101e-06,
+      "loss": 1.4925,
+      "step": 468
+    },
+    {
+      "epoch": 0.4696517412935323,
+      "grad_norm": 0.16560381650924683,
+      "learning_rate": 6.602447646589379e-06,
+      "loss": 1.4543,
+      "step": 472
+    },
+    {
+      "epoch": 0.4736318407960199,
+      "grad_norm": 0.19061513245105743,
+      "learning_rate": 6.536078525195966e-06,
+      "loss": 1.4835,
+      "step": 476
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 0.20418591797351837,
+      "learning_rate": 6.46918317822484e-06,
+      "loss": 1.3522,
+      "step": 480
+    },
+    {
+      "epoch": 0.481592039800995,
+      "grad_norm": 0.14897631108760834,
+      "learning_rate": 6.401779330072171e-06,
+      "loss": 1.4015,
+      "step": 484
+    },
+    {
+      "epoch": 0.4855721393034826,
+      "grad_norm": 0.15127280354499817,
+      "learning_rate": 6.33388483986512e-06,
+      "loss": 1.3304,
+      "step": 488
+    },
+    {
+      "epoch": 0.48955223880597015,
+      "grad_norm": 0.16975510120391846,
+      "learning_rate": 6.265517696729937e-06,
+      "loss": 1.4004,
+      "step": 492
+    },
+    {
+      "epoch": 0.4935323383084577,
+      "grad_norm": 0.17138828337192535,
+      "learning_rate": 6.196696015025615e-06,
+      "loss": 1.3479,
+      "step": 496
+    },
+    {
+      "epoch": 0.4975124378109453,
+      "grad_norm": 0.16889625787734985,
+      "learning_rate": 6.1274380295443624e-06,
+      "loss": 1.345,
+      "step": 500
     }
   ],
   "logging_steps": 4,
       "attributes": {}
     }
   },
+  "total_flos": 3.748818411375821e+17,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null