Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ec0246d4e2aea1b71a33338e4420dd5d8c26630b4c1753f038e7f2036aad545
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aa66ee572d638da161b0876a24a0495b141e6a283ebe22e54c7bb4b5cecc85d
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdc53657d0d3de6712008710ba891fd0a388a380e3678a28f24c312f466e7db5
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:3095de81d8b920e91d85b8e2ee04f326ef5aa3917fee9ca74a8d0a152e8b3447
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01936a26df76d30ee6550fdbb203f4526dab703ccbf83b9464caef2a32f84a5b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ada5f6f7cb1b6a49d79d11cd5642321498733c76d6eb8ca5030fe74fa4bc331
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bdbe69a1efdf2a6b7b8df096446c782edc1c5607aae343868c0f0cf62a3941a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e217ad856cdf0ac7c67db1e21b2cb21b2f44c6c7063ade06b9a1720236888449
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 49.85901151405969,
-  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-6000",
-  "epoch": 2.4,
   "eval_steps": 1000,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1741,6 +1741,295 @@
       "eval_samples_per_second": 2.22,
       "eval_steps_per_second": 0.278,
       "step": 6000
     }
   ],
   "logging_steps": 25,
@@ -1748,7 +2037,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 1000,
-  "total_flos": 2.770419843072e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 47.53661784287617,
+  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-7000",
+  "epoch": 2.8,
   "eval_steps": 1000,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.22,
       "eval_steps_per_second": 0.278,
       "step": 6000
+    },
+    {
+      "epoch": 2.41,
+      "grad_norm": 12.415263175964355,
+      "learning_rate": 3.67283950617284e-06,
+      "loss": 0.6038,
+      "step": 6025
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 12.250804901123047,
+      "learning_rate": 3.641975308641976e-06,
+      "loss": 0.6355,
+      "step": 6050
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 10.84643840789795,
+      "learning_rate": 3.6111111111111115e-06,
+      "loss": 0.5963,
+      "step": 6075
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 9.677035331726074,
+      "learning_rate": 3.580246913580247e-06,
+      "loss": 0.5596,
+      "step": 6100
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 12.466174125671387,
+      "learning_rate": 3.549382716049383e-06,
+      "loss": 0.6114,
+      "step": 6125
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 10.494367599487305,
+      "learning_rate": 3.5185185185185187e-06,
+      "loss": 0.5983,
+      "step": 6150
+    },
+    {
+      "epoch": 2.4699999999999998,
+      "grad_norm": 10.007222175598145,
+      "learning_rate": 3.4876543209876544e-06,
+      "loss": 0.5739,
+      "step": 6175
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 10.590246200561523,
+      "learning_rate": 3.4567901234567904e-06,
+      "loss": 0.6105,
+      "step": 6200
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 11.260624885559082,
+      "learning_rate": 3.4259259259259265e-06,
+      "loss": 0.5963,
+      "step": 6225
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 12.293840408325195,
+      "learning_rate": 3.395061728395062e-06,
+      "loss": 0.6278,
+      "step": 6250
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 12.284423828125,
+      "learning_rate": 3.3641975308641977e-06,
+      "loss": 0.613,
+      "step": 6275
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 10.285521507263184,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.5841,
+      "step": 6300
+    },
+    {
+      "epoch": 2.5300000000000002,
+      "grad_norm": 11.444025039672852,
+      "learning_rate": 3.30246913580247e-06,
+      "loss": 0.6789,
+      "step": 6325
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 9.65517520904541,
+      "learning_rate": 3.2716049382716054e-06,
+      "loss": 0.5777,
+      "step": 6350
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 11.333357810974121,
+      "learning_rate": 3.240740740740741e-06,
+      "loss": 0.6097,
+      "step": 6375
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 9.03528118133545,
+      "learning_rate": 3.2098765432098767e-06,
+      "loss": 0.5724,
+      "step": 6400
+    },
+    {
+      "epoch": 2.57,
+      "grad_norm": 11.75942325592041,
+      "learning_rate": 3.1790123456790127e-06,
+      "loss": 0.6378,
+      "step": 6425
+    },
+    {
+      "epoch": 2.58,
+      "grad_norm": 11.017098426818848,
+      "learning_rate": 3.1481481481481483e-06,
+      "loss": 0.6758,
+      "step": 6450
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 12.29273509979248,
+      "learning_rate": 3.1172839506172844e-06,
+      "loss": 0.5915,
+      "step": 6475
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 12.807594299316406,
+      "learning_rate": 3.08641975308642e-06,
+      "loss": 0.6041,
+      "step": 6500
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 12.91454029083252,
+      "learning_rate": 3.055555555555556e-06,
+      "loss": 0.5537,
+      "step": 6525
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 12.020458221435547,
+      "learning_rate": 3.0246913580246917e-06,
+      "loss": 0.6154,
+      "step": 6550
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 10.018027305603027,
+      "learning_rate": 2.9938271604938273e-06,
+      "loss": 0.5778,
+      "step": 6575
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 10.63597297668457,
+      "learning_rate": 2.962962962962963e-06,
+      "loss": 0.5592,
+      "step": 6600
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 13.188393592834473,
+      "learning_rate": 2.9320987654320994e-06,
+      "loss": 0.582,
+      "step": 6625
+    },
+    {
+      "epoch": 2.66,
+      "grad_norm": 10.43333625793457,
+      "learning_rate": 2.901234567901235e-06,
+      "loss": 0.621,
+      "step": 6650
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 11.198952674865723,
+      "learning_rate": 2.8703703703703706e-06,
+      "loss": 0.593,
+      "step": 6675
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 12.264167785644531,
+      "learning_rate": 2.8395061728395062e-06,
+      "loss": 0.587,
+      "step": 6700
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 12.704331398010254,
+      "learning_rate": 2.8086419753086423e-06,
+      "loss": 0.6146,
+      "step": 6725
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 10.604636192321777,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.6201,
+      "step": 6750
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 14.896036148071289,
+      "learning_rate": 2.746913580246914e-06,
+      "loss": 0.5932,
+      "step": 6775
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 11.566553115844727,
+      "learning_rate": 2.7160493827160496e-06,
+      "loss": 0.55,
+      "step": 6800
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 12.04855728149414,
+      "learning_rate": 2.6851851851851856e-06,
+      "loss": 0.6556,
+      "step": 6825
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 10.649229049682617,
+      "learning_rate": 2.6543209876543212e-06,
+      "loss": 0.5829,
+      "step": 6850
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 9.8768310546875,
+      "learning_rate": 2.623456790123457e-06,
+      "loss": 0.5403,
+      "step": 6875
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 11.587966918945312,
+      "learning_rate": 2.5925925925925925e-06,
+      "loss": 0.579,
+      "step": 6900
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 9.96321964263916,
+      "learning_rate": 2.561728395061729e-06,
+      "loss": 0.61,
+      "step": 6925
+    },
+    {
+      "epoch": 2.7800000000000002,
+      "grad_norm": 11.546381950378418,
+      "learning_rate": 2.5308641975308646e-06,
+      "loss": 0.5558,
+      "step": 6950
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 13.616846084594727,
+      "learning_rate": 2.5e-06,
+      "loss": 0.5776,
+      "step": 6975
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 11.600656509399414,
+      "learning_rate": 2.469135802469136e-06,
+      "loss": 0.5584,
+      "step": 7000
+    },
+    {
+      "epoch": 2.8,
+      "eval_cer": 47.53661784287617,
+      "eval_loss": 0.896188497543335,
+      "eval_runtime": 1733.8859,
+      "eval_samples_per_second": 2.27,
+      "eval_steps_per_second": 0.284,
+      "step": 7000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 1000,
+  "total_flos": 3.232156483584e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null