Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:846434ca50ba2a07c1aa914ac92335cf2e993e47f0a4fb98035e3767df707187
 size 144748392

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb06faffef34c41555fea1d5089780e433d69d42990a3d68280d81f3534dd8d8
 size 144748392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76bd4bbf6bad97827cd2d1c96918889601fe5549f9ddbaa27e3833ca7ecf5226
-size 289690498

 version https://git-lfs.github.com/spec/v1
+oid sha256:3349182d6b3c5f7af8836559bfe4beb9f252d5cdb2f1fc30236f4044b83635cf
+size 289690562

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bcf421949ef5e2cf610a12a564035f1eafe2c2459ad36aec2693cef4a5645fc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aedac496cb43fdf15db405755e31a29c804a8eb29ca1acc7f2849e933d85bfa3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a61a0595dd1862605bddb150b0c4ebd6b684b46d33bd5e4926bf5e77255160
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef8d2900de30e6031eb67496f65d84b5428252e5a56573254c12f627baa587a8
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0569764375686646,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 0.019120458891013385,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -233,6 +233,119 @@
       "eval_samples_per_second": 12.034,
       "eval_steps_per_second": 12.034,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -252,7 +365,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8380319636520960.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.032205581665039,
+  "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 0.028680688336520075,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.034,
       "eval_steps_per_second": 12.034,
       "step": 300
+    },
+    {
+      "epoch": 0.019757807520713832,
+      "grad_norm": 0.7070486545562744,
+      "learning_rate": 0.00012443436011049593,
+      "loss": 1.0582,
+      "step": 310
+    },
+    {
+      "epoch": 0.020395156150414276,
+      "grad_norm": 0.6703718304634094,
+      "learning_rate": 0.0001243792984780751,
+      "loss": 1.017,
+      "step": 320
+    },
+    {
+      "epoch": 0.021032504780114723,
+      "grad_norm": 0.7044450044631958,
+      "learning_rate": 0.00012432169323005853,
+      "loss": 1.0458,
+      "step": 330
+    },
+    {
+      "epoch": 0.021669853409815167,
+      "grad_norm": 0.6337553858757019,
+      "learning_rate": 0.00012426154673437223,
+      "loss": 1.0401,
+      "step": 340
+    },
+    {
+      "epoch": 0.022307202039515615,
+      "grad_norm": 0.6895059943199158,
+      "learning_rate": 0.00012419886146340314,
+      "loss": 1.0332,
+      "step": 350
+    },
+    {
+      "epoch": 0.022944550669216062,
+      "grad_norm": 0.6908580660820007,
+      "learning_rate": 0.0001241336399938972,
+      "loss": 1.0295,
+      "step": 360
+    },
+    {
+      "epoch": 0.023581899298916506,
+      "grad_norm": 0.6715300679206848,
+      "learning_rate": 0.00012406588500685355,
+      "loss": 1.0342,
+      "step": 370
+    },
+    {
+      "epoch": 0.024219247928616953,
+      "grad_norm": 0.6342328190803528,
+      "learning_rate": 0.00012399559928741435,
+      "loss": 1.0214,
+      "step": 380
+    },
+    {
+      "epoch": 0.0248565965583174,
+      "grad_norm": 0.6497303247451782,
+      "learning_rate": 0.00012392278572475023,
+      "loss": 1.0498,
+      "step": 390
+    },
+    {
+      "epoch": 0.025493945188017845,
+      "grad_norm": 0.6558589935302734,
+      "learning_rate": 0.0001238474473119416,
+      "loss": 1.0091,
+      "step": 400
+    },
+    {
+      "epoch": 0.026131293817718292,
+      "grad_norm": 0.6536452770233154,
+      "learning_rate": 0.00012376958714585545,
+      "loss": 1.051,
+      "step": 410
+    },
+    {
+      "epoch": 0.02676864244741874,
+      "grad_norm": 0.734528660774231,
+      "learning_rate": 0.0001236892084270183,
+      "loss": 1.0173,
+      "step": 420
+    },
+    {
+      "epoch": 0.027405991077119184,
+      "grad_norm": 0.6470915675163269,
+      "learning_rate": 0.00012360631445948448,
+      "loss": 1.0331,
+      "step": 430
+    },
+    {
+      "epoch": 0.02804333970681963,
+      "grad_norm": 0.6855731010437012,
+      "learning_rate": 0.00012352090865070026,
+      "loss": 1.0086,
+      "step": 440
+    },
+    {
+      "epoch": 0.028680688336520075,
+      "grad_norm": 0.6433871388435364,
+      "learning_rate": 0.00012343299451136397,
+      "loss": 1.0321,
+      "step": 450
+    },
+    {
+      "epoch": 0.028680688336520075,
+      "eval_loss": 1.032205581665039,
+      "eval_runtime": 41.0788,
+      "eval_samples_per_second": 12.172,
+      "eval_steps_per_second": 12.172,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.255704084086784e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null