End of training

Browse files

Files changed (5) hide show

all_results.json +15 -0
eval_results.json +10 -0
runs/Apr16_21-21-21_359ea6c74d92/events.out.tfevents.1681681402.359ea6c74d92.15015.2 +3 -0
train_results.json +8 -0
trainer_state.json +274 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 0.15,
+    "eval_accuracy": 0.5974110480409802,
+    "eval_loss": 2.3658390045166016,
+    "eval_runtime": 159.8962,
+    "eval_samples": 2330,
+    "eval_samples_per_second": 14.572,
+    "eval_steps_per_second": 14.572,
+    "perplexity": 10.652972961522288,
+    "train_loss": 2.5314815139770506,
+    "train_runtime": 879.4243,
+    "train_samples": 20691,
+    "train_samples_per_second": 3.639,
+    "train_steps_per_second": 0.455
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 0.15,
+    "eval_accuracy": 0.5974110480409802,
+    "eval_loss": 2.3658390045166016,
+    "eval_runtime": 159.8962,
+    "eval_samples": 2330,
+    "eval_samples_per_second": 14.572,
+    "eval_steps_per_second": 14.572,
+    "perplexity": 10.652972961522288
+}

runs/Apr16_21-21-21_359ea6c74d92/events.out.tfevents.1681681402.359ea6c74d92.15015.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d26606b9876503a971bafe90d7fd0f72e0198a7ff0f807d35d0c46c0d109e4b2
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.15,
+    "train_loss": 2.5314815139770506,
+    "train_runtime": 879.4243,
+    "train_samples": 20691,
+    "train_samples_per_second": 3.639,
+    "train_steps_per_second": 0.455
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,274 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.15465661398675754,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.775e-06,
+      "loss": 3.3176,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.525000000000001e-06,
+      "loss": 2.8977,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.275e-06,
+      "loss": 2.7035,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.025e-06,
+      "loss": 2.7184,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 8.775e-06,
+      "loss": 2.594,
+      "step": 50
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 8.525e-06,
+      "loss": 2.6345,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 8.275000000000001e-06,
+      "loss": 2.7017,
+      "step": 70
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 8.025e-06,
+      "loss": 2.4358,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 7.775000000000001e-06,
+      "loss": 2.5228,
+      "step": 90
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 7.525e-06,
+      "loss": 2.6187,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 7.275000000000001e-06,
+      "loss": 2.4855,
+      "step": 110
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 7.0250000000000005e-06,
+      "loss": 2.4278,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6.775e-06,
+      "loss": 2.4997,
+      "step": 130
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6.525e-06,
+      "loss": 2.5494,
+      "step": 140
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6.275e-06,
+      "loss": 2.5052,
+      "step": 150
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6.025000000000001e-06,
+      "loss": 2.5652,
+      "step": 160
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.775000000000001e-06,
+      "loss": 2.5257,
+      "step": 170
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.5250000000000005e-06,
+      "loss": 2.5405,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.275e-06,
+      "loss": 2.485,
+      "step": 190
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 5.025e-06,
+      "loss": 2.6217,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.775e-06,
+      "loss": 2.4446,
+      "step": 210
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.525000000000001e-06,
+      "loss": 2.4229,
+      "step": 220
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.2750000000000006e-06,
+      "loss": 2.5445,
+      "step": 230
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.0250000000000004e-06,
+      "loss": 2.4543,
+      "step": 240
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 3.7750000000000003e-06,
+      "loss": 2.5161,
+      "step": 250
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 3.525e-06,
+      "loss": 2.4905,
+      "step": 260
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 3.2750000000000004e-06,
+      "loss": 2.433,
+      "step": 270
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 3.0250000000000003e-06,
+      "loss": 2.4915,
+      "step": 280
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.7750000000000005e-06,
+      "loss": 2.388,
+      "step": 290
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.5250000000000004e-06,
+      "loss": 2.4379,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_accuracy": 0.5969701165049358,
+      "eval_loss": 2.3698670864105225,
+      "eval_runtime": 163.1025,
+      "eval_samples_per_second": 14.285,
+      "eval_steps_per_second": 14.285,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.2750000000000002e-06,
+      "loss": 2.3871,
+      "step": 310
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.025e-06,
+      "loss": 2.476,
+      "step": 320
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.7750000000000002e-06,
+      "loss": 2.4082,
+      "step": 330
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.525e-06,
+      "loss": 2.354,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.275e-06,
+      "loss": 2.404,
+      "step": 350
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.025e-06,
+      "loss": 2.3877,
+      "step": 360
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 7.750000000000001e-07,
+      "loss": 2.4133,
+      "step": 370
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 5.250000000000001e-07,
+      "loss": 2.4382,
+      "step": 380
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.75e-07,
+      "loss": 2.4238,
+      "step": 390
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5000000000000002e-08,
+      "loss": 2.5933,
+      "step": 400
+    },
+    {
+      "epoch": 0.15,
+      "step": 400,
+      "total_flos": 1672269004800000.0,
+      "train_loss": 2.5314815139770506,
+      "train_runtime": 879.4243,
+      "train_samples_per_second": 3.639,
+      "train_steps_per_second": 0.455
+    }
+  ],
+  "max_steps": 400,
+  "num_train_epochs": 1,
+  "total_flos": 1672269004800000.0,
+  "trial_name": null,
+  "trial_params": null
+}