Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5145dc16f2b6ee5c4f3cabf1b658b3b65311e66c7b724a1027bd47ca61d2c731
 size 239135488

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c3fe01ebf102faadf21e99276e72d2255d43c3cac7da2f2dddd1bc52829c58b
 size 239135488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d22a5e7132966eb2a5a29f60e4073d0cddf038abff83dd9feb58cd767db71bc
 size 478529298

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5a4373c40eeaabcdf3654bb7d0b226f1abbfa96d77ee81a19df5e422cb0433b
 size 478529298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be84dc7c40d3e93b07523f0aea3994c1b453c0f06b0611385b4b4c03b5c09cee
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4974088f352891e76a46dceadf36e9f64499d9c07879aad02094c958e664da14
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a61a0595dd1862605bddb150b0c4ebd6b684b46d33bd5e4926bf5e77255160
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef8d2900de30e6031eb67496f65d84b5428252e5a56573254c12f627baa587a8
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.061199020594358444,
   "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 0.3024193548387097,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -233,6 +233,119 @@
       "eval_samples_per_second": 8.332,
       "eval_steps_per_second": 8.332,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -252,7 +365,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.7374151982546944e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.061199020594358444,
   "best_model_checkpoint": "./output/checkpoint-300",
+  "epoch": 0.4536290322580645,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.332,
       "eval_steps_per_second": 8.332,
       "step": 300
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 0.9389004111289978,
+      "learning_rate": 0.00012443436011049593,
+      "loss": 0.129,
+      "step": 310
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8787228465080261,
+      "learning_rate": 0.0001243792984780751,
+      "loss": 0.1333,
+      "step": 320
+    },
+    {
+      "epoch": 0.3326612903225806,
+      "grad_norm": 0.3159072697162628,
+      "learning_rate": 0.00012432169323005853,
+      "loss": 0.0931,
+      "step": 330
+    },
+    {
+      "epoch": 0.34274193548387094,
+      "grad_norm": 0.7588217258453369,
+      "learning_rate": 0.00012426154673437223,
+      "loss": 0.1053,
+      "step": 340
+    },
+    {
+      "epoch": 0.3528225806451613,
+      "grad_norm": 1.1616908311843872,
+      "learning_rate": 0.00012419886146340314,
+      "loss": 0.1468,
+      "step": 350
+    },
+    {
+      "epoch": 0.3629032258064516,
+      "grad_norm": 0.8137270212173462,
+      "learning_rate": 0.0001241336399938972,
+      "loss": 0.1196,
+      "step": 360
+    },
+    {
+      "epoch": 0.37298387096774194,
+      "grad_norm": 0.27941054105758667,
+      "learning_rate": 0.00012406588500685355,
+      "loss": 0.0915,
+      "step": 370
+    },
+    {
+      "epoch": 0.38306451612903225,
+      "grad_norm": 0.22469285130500793,
+      "learning_rate": 0.00012399559928741435,
+      "loss": 0.0607,
+      "step": 380
+    },
+    {
+      "epoch": 0.39314516129032256,
+      "grad_norm": 0.20622070133686066,
+      "learning_rate": 0.00012392278572475023,
+      "loss": 0.0657,
+      "step": 390
+    },
+    {
+      "epoch": 0.4032258064516129,
+      "grad_norm": 0.1868823766708374,
+      "learning_rate": 0.0001238474473119416,
+      "loss": 0.0873,
+      "step": 400
+    },
+    {
+      "epoch": 0.41330645161290325,
+      "grad_norm": 0.262215793132782,
+      "learning_rate": 0.00012376958714585545,
+      "loss": 0.0899,
+      "step": 410
+    },
+    {
+      "epoch": 0.42338709677419356,
+      "grad_norm": 0.8614699840545654,
+      "learning_rate": 0.0001236892084270183,
+      "loss": 0.0724,
+      "step": 420
+    },
+    {
+      "epoch": 0.4334677419354839,
+      "grad_norm": 0.917412281036377,
+      "learning_rate": 0.00012360631445948448,
+      "loss": 0.1351,
+      "step": 430
+    },
+    {
+      "epoch": 0.4435483870967742,
+      "grad_norm": 0.8552457094192505,
+      "learning_rate": 0.00012352090865070026,
+      "loss": 0.1108,
+      "step": 440
+    },
+    {
+      "epoch": 0.4536290322580645,
+      "grad_norm": 0.6661000847816467,
+      "learning_rate": 0.00012343299451136397,
+      "loss": 0.0681,
+      "step": 450
+    },
+    {
+      "epoch": 0.4536290322580645,
+      "eval_loss": 0.06194188818335533,
+      "eval_runtime": 57.5815,
+      "eval_samples_per_second": 8.683,
+      "eval_steps_per_second": 8.683,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.086097535316787e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null