Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +292 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4aa66ee572d638da161b0876a24a0495b141e6a283ebe22e54c7bb4b5cecc85d
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6272cdab34ad742ff5d8928b1a3b73208418c7bfce7d87a0db8c4712d83527d
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3095de81d8b920e91d85b8e2ee04f326ef5aa3917fee9ca74a8d0a152e8b3447
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7de0ef00f4d8d9f4fa9b0e18f25384399f28c54b520f62c3dd31eca12ff60e2
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ada5f6f7cb1b6a49d79d11cd5642321498733c76d6eb8ca5030fe74fa4bc331
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bcd75decc8ec809bdd000c1a023eecd569d9a9775fe640822926fa2ab60021b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e217ad856cdf0ac7c67db1e21b2cb21b2f44c6c7063ade06b9a1720236888449
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:64cb8f98c15d4c048d873b0e5f521cf693b6283121ee23f325cb6b6e1b684e58
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 47.53661784287617,
   "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-7000",
-  "epoch": 2.8,
   "eval_steps": 1000,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2030,6 +2030,295 @@
       "eval_samples_per_second": 2.27,
       "eval_steps_per_second": 0.284,
       "step": 7000
     }
   ],
   "logging_steps": 25,
@@ -2037,7 +2326,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 1000,
-  "total_flos": 3.232156483584e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 47.53661784287617,
   "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-7000",
+  "epoch": 3.2,
   "eval_steps": 1000,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.27,
       "eval_steps_per_second": 0.284,
       "step": 7000
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 12.68954086303711,
+      "learning_rate": 2.438271604938272e-06,
+      "loss": 0.6009,
+      "step": 7025
+    },
+    {
+      "epoch": 2.82,
+      "grad_norm": 10.792320251464844,
+      "learning_rate": 2.4074074074074075e-06,
+      "loss": 0.5913,
+      "step": 7050
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 10.7244291305542,
+      "learning_rate": 2.3765432098765435e-06,
+      "loss": 0.5993,
+      "step": 7075
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 10.002340316772461,
+      "learning_rate": 2.345679012345679e-06,
+      "loss": 0.5822,
+      "step": 7100
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 9.782127380371094,
+      "learning_rate": 2.314814814814815e-06,
+      "loss": 0.6265,
+      "step": 7125
+    },
+    {
+      "epoch": 2.86,
+      "grad_norm": 11.622259140014648,
+      "learning_rate": 2.283950617283951e-06,
+      "loss": 0.6251,
+      "step": 7150
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 9.750394821166992,
+      "learning_rate": 2.2530864197530865e-06,
+      "loss": 0.5412,
+      "step": 7175
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 11.742593765258789,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.6171,
+      "step": 7200
+    },
+    {
+      "epoch": 2.89,
+      "grad_norm": 11.124135971069336,
+      "learning_rate": 2.191358024691358e-06,
+      "loss": 0.555,
+      "step": 7225
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 13.9995756149292,
+      "learning_rate": 2.1604938271604937e-06,
+      "loss": 0.63,
+      "step": 7250
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 10.930980682373047,
+      "learning_rate": 2.1296296296296298e-06,
+      "loss": 0.565,
+      "step": 7275
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 10.784317970275879,
+      "learning_rate": 2.0987654320987654e-06,
+      "loss": 0.5634,
+      "step": 7300
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 14.178128242492676,
+      "learning_rate": 2.0679012345679015e-06,
+      "loss": 0.5464,
+      "step": 7325
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 14.49055004119873,
+      "learning_rate": 2.037037037037037e-06,
+      "loss": 0.6182,
+      "step": 7350
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 9.5054349899292,
+      "learning_rate": 2.006172839506173e-06,
+      "loss": 0.6202,
+      "step": 7375
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 11.535719871520996,
+      "learning_rate": 1.9753086419753087e-06,
+      "loss": 0.5973,
+      "step": 7400
+    },
+    {
+      "epoch": 2.9699999999999998,
+      "grad_norm": 12.069352149963379,
+      "learning_rate": 1.944444444444445e-06,
+      "loss": 0.5828,
+      "step": 7425
+    },
+    {
+      "epoch": 2.98,
+      "grad_norm": 10.448741912841797,
+      "learning_rate": 1.9135802469135804e-06,
+      "loss": 0.5961,
+      "step": 7450
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 9.852815628051758,
+      "learning_rate": 1.8827160493827162e-06,
+      "loss": 0.6516,
+      "step": 7475
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 15.387414932250977,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.5692,
+      "step": 7500
+    },
+    {
+      "epoch": 3.01,
+      "grad_norm": 7.3440070152282715,
+      "learning_rate": 1.820987654320988e-06,
+      "loss": 0.4318,
+      "step": 7525
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 7.697348594665527,
+      "learning_rate": 1.7901234567901235e-06,
+      "loss": 0.457,
+      "step": 7550
+    },
+    {
+      "epoch": 3.03,
+      "grad_norm": 11.595518112182617,
+      "learning_rate": 1.7592592592592594e-06,
+      "loss": 0.4364,
+      "step": 7575
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 10.860459327697754,
+      "learning_rate": 1.7283950617283952e-06,
+      "loss": 0.4025,
+      "step": 7600
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 8.72067642211914,
+      "learning_rate": 1.697530864197531e-06,
+      "loss": 0.4296,
+      "step": 7625
+    },
+    {
+      "epoch": 3.06,
+      "grad_norm": 9.136699676513672,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.4182,
+      "step": 7650
+    },
+    {
+      "epoch": 3.07,
+      "grad_norm": 9.509159088134766,
+      "learning_rate": 1.6358024691358027e-06,
+      "loss": 0.4468,
+      "step": 7675
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 9.242144584655762,
+      "learning_rate": 1.6049382716049383e-06,
+      "loss": 0.4146,
+      "step": 7700
+    },
+    {
+      "epoch": 3.09,
+      "grad_norm": 9.915699005126953,
+      "learning_rate": 1.5740740740740742e-06,
+      "loss": 0.4493,
+      "step": 7725
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 9.449831008911133,
+      "learning_rate": 1.54320987654321e-06,
+      "loss": 0.4995,
+      "step": 7750
+    },
+    {
+      "epoch": 3.11,
+      "grad_norm": 10.038348197937012,
+      "learning_rate": 1.5123456790123458e-06,
+      "loss": 0.4491,
+      "step": 7775
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 10.652295112609863,
+      "learning_rate": 1.4814814814814815e-06,
+      "loss": 0.4216,
+      "step": 7800
+    },
+    {
+      "epoch": 3.13,
+      "grad_norm": 13.189153671264648,
+      "learning_rate": 1.4506172839506175e-06,
+      "loss": 0.4502,
+      "step": 7825
+    },
+    {
+      "epoch": 3.14,
+      "grad_norm": 9.493179321289062,
+      "learning_rate": 1.4197530864197531e-06,
+      "loss": 0.4084,
+      "step": 7850
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 8.161423683166504,
+      "learning_rate": 1.3888888888888892e-06,
+      "loss": 0.441,
+      "step": 7875
+    },
+    {
+      "epoch": 3.16,
+      "grad_norm": 8.957440376281738,
+      "learning_rate": 1.3580246913580248e-06,
+      "loss": 0.3998,
+      "step": 7900
+    },
+    {
+      "epoch": 3.17,
+      "grad_norm": 10.819154739379883,
+      "learning_rate": 1.3271604938271606e-06,
+      "loss": 0.3827,
+      "step": 7925
+    },
+    {
+      "epoch": 3.18,
+      "grad_norm": 8.5838041305542,
+      "learning_rate": 1.2962962962962962e-06,
+      "loss": 0.4418,
+      "step": 7950
+    },
+    {
+      "epoch": 3.19,
+      "grad_norm": 9.781057357788086,
+      "learning_rate": 1.2654320987654323e-06,
+      "loss": 0.4375,
+      "step": 7975
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 9.840452194213867,
+      "learning_rate": 1.234567901234568e-06,
+      "loss": 0.3952,
+      "step": 8000
+    },
+    {
+      "epoch": 3.2,
+      "eval_cer": 48.29247278138952,
+      "eval_loss": 0.9025322794914246,
+      "eval_runtime": 1733.8061,
+      "eval_samples_per_second": 2.27,
+      "eval_steps_per_second": 0.284,
+      "step": 8000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 1000,
+  "total_flos": 3.693893124096e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null