Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c3fe01ebf102faadf21e99276e72d2255d43c3cac7da2f2dddd1bc52829c58b
 size 239135488

 version https://git-lfs.github.com/spec/v1
+oid sha256:46362f87c9a61c05b35d0017fee94e615fca0a9b7944183e4fe55ba595828133
 size 239135488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5a4373c40eeaabcdf3654bb7d0b226f1abbfa96d77ee81a19df5e422cb0433b
 size 478529298

 version https://git-lfs.github.com/spec/v1
+oid sha256:46d24afbca3886cdf731f6d838b9a4156a014dec44c201e2985259be59fc1c82
 size 478529298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4974088f352891e76a46dceadf36e9f64499d9c07879aad02094c958e664da14
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d2562493ee420bea042a2629099ab839a87ff45ebc5efa964141a21ffe350f4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef8d2900de30e6031eb67496f65d84b5428252e5a56573254c12f627baa587a8
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbc27f6f3a634484ed89290f95b9dae37d8dd2743b63bc90bc3c4a747107d486
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.061199020594358444,
-  "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 0.4536290322580645,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -346,6 +346,119 @@
       "eval_samples_per_second": 8.683,
       "eval_steps_per_second": 8.683,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -365,7 +478,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.086097535316787e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.053511977195739746,
+  "best_model_checkpoint": "./output/checkpoint-600",
+  "epoch": 0.6048387096774194,
   "eval_steps": 150,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.683,
       "eval_steps_per_second": 8.683,
       "step": 450
+    },
+    {
+      "epoch": 0.4637096774193548,
+      "grad_norm": 0.17224998772144318,
+      "learning_rate": 0.00012334257565528155,
+      "loss": 0.0752,
+      "step": 460
+    },
+    {
+      "epoch": 0.4737903225806452,
+      "grad_norm": 0.6695602536201477,
+      "learning_rate": 0.000123249655799218,
+      "loss": 0.1084,
+      "step": 470
+    },
+    {
+      "epoch": 0.4838709677419355,
+      "grad_norm": 0.256228506565094,
+      "learning_rate": 0.00012315423876274468,
+      "loss": 0.0635,
+      "step": 480
+    },
+    {
+      "epoch": 0.4939516129032258,
+      "grad_norm": 0.25890034437179565,
+      "learning_rate": 0.0001230563284680822,
+      "loss": 0.0857,
+      "step": 490
+    },
+    {
+      "epoch": 0.5040322580645161,
+      "grad_norm": 0.20878875255584717,
+      "learning_rate": 0.00012295592893993935,
+      "loss": 0.0967,
+      "step": 500
+    },
+    {
+      "epoch": 0.5141129032258065,
+      "grad_norm": 0.23766882717609406,
+      "learning_rate": 0.00012285304430534745,
+      "loss": 0.1212,
+      "step": 510
+    },
+    {
+      "epoch": 0.5241935483870968,
+      "grad_norm": 0.18952979147434235,
+      "learning_rate": 0.00012274767879349083,
+      "loss": 0.0889,
+      "step": 520
+    },
+    {
+      "epoch": 0.5342741935483871,
+      "grad_norm": 0.4890676736831665,
+      "learning_rate": 0.00012263983673553306,
+      "loss": 0.09,
+      "step": 530
+    },
+    {
+      "epoch": 0.5443548387096774,
+      "grad_norm": 0.6612870097160339,
+      "learning_rate": 0.0001225295225644387,
+      "loss": 0.1209,
+      "step": 540
+    },
+    {
+      "epoch": 0.5544354838709677,
+      "grad_norm": 0.3861521780490875,
+      "learning_rate": 0.0001224167408147913,
+      "loss": 0.085,
+      "step": 550
+    },
+    {
+      "epoch": 0.5645161290322581,
+      "grad_norm": 0.22604888677597046,
+      "learning_rate": 0.0001223014961226068,
+      "loss": 0.0877,
+      "step": 560
+    },
+    {
+      "epoch": 0.5745967741935484,
+      "grad_norm": 0.4841513931751251,
+      "learning_rate": 0.00012218379322514317,
+      "loss": 0.0861,
+      "step": 570
+    },
+    {
+      "epoch": 0.5846774193548387,
+      "grad_norm": 0.16400082409381866,
+      "learning_rate": 0.00012206363696070545,
+      "loss": 0.1509,
+      "step": 580
+    },
+    {
+      "epoch": 0.594758064516129,
+      "grad_norm": 0.14709672331809998,
+      "learning_rate": 0.0001219410322684471,
+      "loss": 0.0619,
+      "step": 590
+    },
+    {
+      "epoch": 0.6048387096774194,
+      "grad_norm": 0.17841552197933197,
+      "learning_rate": 0.0001218159841881668,
+      "loss": 0.0782,
+      "step": 600
+    },
+    {
+      "epoch": 0.6048387096774194,
+      "eval_loss": 0.053511977195739746,
+      "eval_runtime": 58.4751,
+      "eval_samples_per_second": 8.551,
+      "eval_steps_per_second": 8.551,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.430349986663629e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null