Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1c23281588fe7914d4d4f44fa96d1bebe41c212bf719c33b5fdf7b40eeecca6
 size 239135488

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c90d78e887cabe5092648a5f2500eff4360533a5506f69f490047c60938c223
 size 239135488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:192b8e53e5187f343994adcd574d24d72b38e9908a8d4af0ec0e2eb7e0a4cf96
 size 478529298

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcf770adef12f056ea3ee3225ff7c3425f43be1f98c6994a9ff81521a6b19aff
 size 478529298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2586975e1d3b683969aff70c9424e21fce04e276125109d1dca17ca7667d0c91
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4abc4dbe90bb5ad444fc5d07c6c8a7deecdcbcc42c2db53b12a4ccd3e4d07913
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d9acb300ee3481a499d71232bda2cc6822a3d265890998459ac4ab1f2a7a58f
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:19edf8f1957a4ee4a7ad7c15c95d0e40ddbc2262c2a8b3d331d09ae113e648a2
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.05326759070158005,
-  "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 0.7560483870967742,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -572,6 +572,119 @@
       "eval_samples_per_second": 8.66,
       "eval_steps_per_second": 8.66,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -591,7 +704,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.769083236135731e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.05111026018857956,
+  "best_model_checkpoint": "./output/checkpoint-900",
+  "epoch": 0.907258064516129,
   "eval_steps": 150,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.66,
       "eval_steps_per_second": 8.66,
       "step": 750
+    },
+    {
+      "epoch": 0.7661290322580645,
+      "grad_norm": 0.4265230894088745,
+      "learning_rate": 0.00011948741333828481,
+      "loss": 0.0847,
+      "step": 760
+    },
+    {
+      "epoch": 0.7762096774193549,
+      "grad_norm": 0.8098424077033997,
+      "learning_rate": 0.00011932169520872344,
+      "loss": 0.0822,
+      "step": 770
+    },
+    {
+      "epoch": 0.7862903225806451,
+      "grad_norm": 0.8245271444320679,
+      "learning_rate": 0.00011915364136182738,
+      "loss": 0.1158,
+      "step": 780
+    },
+    {
+      "epoch": 0.7963709677419355,
+      "grad_norm": 0.22349853813648224,
+      "learning_rate": 0.0001189832587056321,
+      "loss": 0.0921,
+      "step": 790
+    },
+    {
+      "epoch": 0.8064516129032258,
+      "grad_norm": 0.7429900169372559,
+      "learning_rate": 0.00011881055424390119,
+      "loss": 0.0817,
+      "step": 800
+    },
+    {
+      "epoch": 0.8165322580645161,
+      "grad_norm": 0.5830271244049072,
+      "learning_rate": 0.00011863553507583869,
+      "loss": 0.0938,
+      "step": 810
+    },
+    {
+      "epoch": 0.8266129032258065,
+      "grad_norm": 0.2562120258808136,
+      "learning_rate": 0.00011845820839579708,
+      "loss": 0.0856,
+      "step": 820
+    },
+    {
+      "epoch": 0.8366935483870968,
+      "grad_norm": 0.6078082919120789,
+      "learning_rate": 0.00011827858149298162,
+      "loss": 0.0998,
+      "step": 830
+    },
+    {
+      "epoch": 0.8467741935483871,
+      "grad_norm": 0.48718827962875366,
+      "learning_rate": 0.00011809666175115075,
+      "loss": 0.0794,
+      "step": 840
+    },
+    {
+      "epoch": 0.8568548387096774,
+      "grad_norm": 0.9318081736564636,
+      "learning_rate": 0.00011791245664831251,
+      "loss": 0.0562,
+      "step": 850
+    },
+    {
+      "epoch": 0.8669354838709677,
+      "grad_norm": 0.5518208146095276,
+      "learning_rate": 0.0001177259737564172,
+      "loss": 0.0759,
+      "step": 860
+    },
+    {
+      "epoch": 0.8770161290322581,
+      "grad_norm": 0.8083676099777222,
+      "learning_rate": 0.00011753722074104613,
+      "loss": 0.0876,
+      "step": 870
+    },
+    {
+      "epoch": 0.8870967741935484,
+      "grad_norm": 0.3032991886138916,
+      "learning_rate": 0.00011734620536109644,
+      "loss": 0.0737,
+      "step": 880
+    },
+    {
+      "epoch": 0.8971774193548387,
+      "grad_norm": 0.1460338681936264,
+      "learning_rate": 0.00011715293546846223,
+      "loss": 0.0784,
+      "step": 890
+    },
+    {
+      "epoch": 0.907258064516129,
+      "grad_norm": 1.3422744274139404,
+      "learning_rate": 0.00011695741900771184,
+      "loss": 0.1411,
+      "step": 900
+    },
+    {
+      "epoch": 0.907258064516129,
+      "eval_loss": 0.05111026018857956,
+      "eval_runtime": 58.3136,
+      "eval_samples_per_second": 8.574,
+      "eval_steps_per_second": 8.574,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.093945859843686e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null