End of training

Browse files

Files changed (6) hide show

README.md +16 -4
all_results.json +15 -0
eval_results.json +9 -0
runs/Feb09_10-58-30_srvrocgpu011.uct.ac.za/events.out.tfevents.1739096736.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +506 -0

README.md CHANGED Viewed

@@ -4,11 +4,23 @@ license: apache-2.0
 base_model: openai/whisper-medium
 tags:
 - generated_from_trainer
 metrics:
 - wer
 model-index:
 - name: whisper-medium-bigcgen-baseline-model
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -16,10 +28,10 @@ should probably proofread and complete it, then remove this comment. -->
 # whisper-medium-bigcgen-baseline-model
-This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7521
-- Wer: 0.4930
 ## Model description

 base_model: openai/whisper-medium
 tags:
 - generated_from_trainer
+datasets:
+- bigcgen
 metrics:
 - wer
 model-index:
 - name: whisper-medium-bigcgen-baseline-model
+  results:
+  - task:
+      name: Automatic Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: bigcgen
+      type: bigcgen
+    metrics:
+    - name: Wer
+      type: wer
+      value: 0.5197446204776542
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # whisper-medium-bigcgen-baseline-model
+This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the bigcgen dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6934
+- Wer: 0.5197
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 4.280701754385965,
+    "eval_loss": 0.6934465765953064,
+    "eval_runtime": 264.0242,
+    "eval_samples": 456,
+    "eval_samples_per_second": 1.727,
+    "eval_steps_per_second": 0.864,
+    "eval_wer": 0.5197446204776542,
+    "total_flos": 1.143893980348416e+19,
+    "train_loss": 2.618672251020159,
+    "train_runtime": 4686.4496,
+    "train_samples": 2621,
+    "train_samples_per_second": 8.535,
+    "train_steps_per_second": 1.067
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 4.280701754385965,
+    "eval_loss": 0.6934465765953064,
+    "eval_runtime": 264.0242,
+    "eval_samples": 456,
+    "eval_samples_per_second": 1.727,
+    "eval_steps_per_second": 0.864,
+    "eval_wer": 0.5197446204776542
+}

runs/Feb09_10-58-30_srvrocgpu011.uct.ac.za/events.out.tfevents.1739096736.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8497924ff89e4c17f51a405d83f1f2426ed6f25e2858a40aea5789ea6673e1a
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 4.280701754385965,
+    "total_flos": 1.143893980348416e+19,
+    "train_loss": 2.618672251020159,
+    "train_runtime": 4686.4496,
+    "train_samples": 2621,
+    "train_samples_per_second": 8.535,
+    "train_steps_per_second": 1.067
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,506 @@

+{
+  "best_metric": 0.6934465765953064,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/whisper-medium-bigcgen-baseline-model/checkpoint-800",
+  "epoch": 4.280701754385965,
+  "eval_steps": 200,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07627765064836003,
+      "grad_norm": 137.64962768554688,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 13.6406,
+      "step": 25
+    },
+    {
+      "epoch": 0.15255530129672007,
+      "grad_norm": 110.61531829833984,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 11.1328,
+      "step": 50
+    },
+    {
+      "epoch": 0.2288329519450801,
+      "grad_norm": 91.1012191772461,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 8.6141,
+      "step": 75
+    },
+    {
+      "epoch": 0.30511060259344014,
+      "grad_norm": 71.3803939819336,
+      "learning_rate": 1.9000000000000002e-06,
+      "loss": 6.2411,
+      "step": 100
+    },
+    {
+      "epoch": 0.38138825324180015,
+      "grad_norm": 66.27933502197266,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 5.1581,
+      "step": 125
+    },
+    {
+      "epoch": 0.4576659038901602,
+      "grad_norm": 75.14862823486328,
+      "learning_rate": 2.88e-06,
+      "loss": 4.6755,
+      "step": 150
+    },
+    {
+      "epoch": 0.5339435545385202,
+      "grad_norm": 74.03665924072266,
+      "learning_rate": 3.3800000000000007e-06,
+      "loss": 4.1496,
+      "step": 175
+    },
+    {
+      "epoch": 0.6102212051868803,
+      "grad_norm": 36.858238220214844,
+      "learning_rate": 3.88e-06,
+      "loss": 4.3168,
+      "step": 200
+    },
+    {
+      "epoch": 0.6102212051868803,
+      "eval_loss": 0.9403302669525146,
+      "eval_runtime": 262.5624,
+      "eval_samples_per_second": 1.737,
+      "eval_steps_per_second": 0.868,
+      "eval_wer": 0.6505083944194845,
+      "step": 200
+    },
+    {
+      "epoch": 0.6864988558352403,
+      "grad_norm": 80.03799438476562,
+      "learning_rate": 4.38e-06,
+      "loss": 4.4104,
+      "step": 225
+    },
+    {
+      "epoch": 0.7627765064836003,
+      "grad_norm": 70.2144546508789,
+      "learning_rate": 4.880000000000001e-06,
+      "loss": 3.4546,
+      "step": 250
+    },
+    {
+      "epoch": 0.8390541571319603,
+      "grad_norm": 53.64554214477539,
+      "learning_rate": 5.380000000000001e-06,
+      "loss": 3.6309,
+      "step": 275
+    },
+    {
+      "epoch": 0.9153318077803204,
+      "grad_norm": 75.12934112548828,
+      "learning_rate": 5.8800000000000005e-06,
+      "loss": 3.6382,
+      "step": 300
+    },
+    {
+      "epoch": 0.9916094584286804,
+      "grad_norm": 48.22256088256836,
+      "learning_rate": 6.380000000000001e-06,
+      "loss": 2.8936,
+      "step": 325
+    },
+    {
+      "epoch": 1.0701754385964912,
+      "grad_norm": 63.77941131591797,
+      "learning_rate": 6.88e-06,
+      "loss": 2.8511,
+      "step": 350
+    },
+    {
+      "epoch": 1.1464530892448512,
+      "grad_norm": 42.396610260009766,
+      "learning_rate": 7.3800000000000005e-06,
+      "loss": 2.8276,
+      "step": 375
+    },
+    {
+      "epoch": 1.2227307398932112,
+      "grad_norm": 55.257259368896484,
+      "learning_rate": 7.88e-06,
+      "loss": 2.7179,
+      "step": 400
+    },
+    {
+      "epoch": 1.2227307398932112,
+      "eval_loss": 0.7716614603996277,
+      "eval_runtime": 265.2283,
+      "eval_samples_per_second": 1.719,
+      "eval_steps_per_second": 0.86,
+      "eval_wer": 0.5571056987467486,
+      "step": 400
+    },
+    {
+      "epoch": 1.2990083905415712,
+      "grad_norm": 51.08662414550781,
+      "learning_rate": 8.380000000000001e-06,
+      "loss": 2.4041,
+      "step": 425
+    },
+    {
+      "epoch": 1.3752860411899315,
+      "grad_norm": 73.73877716064453,
+      "learning_rate": 8.880000000000001e-06,
+      "loss": 2.8672,
+      "step": 450
+    },
+    {
+      "epoch": 1.4515636918382913,
+      "grad_norm": 55.714534759521484,
+      "learning_rate": 9.38e-06,
+      "loss": 2.6339,
+      "step": 475
+    },
+    {
+      "epoch": 1.5278413424866515,
+      "grad_norm": 73.57788848876953,
+      "learning_rate": 9.88e-06,
+      "loss": 2.8241,
+      "step": 500
+    },
+    {
+      "epoch": 1.6041189931350115,
+      "grad_norm": 47.00935363769531,
+      "learning_rate": 9.957777777777779e-06,
+      "loss": 2.7736,
+      "step": 525
+    },
+    {
+      "epoch": 1.6803966437833715,
+      "grad_norm": 59.0834846496582,
+      "learning_rate": 9.902222222222223e-06,
+      "loss": 2.4972,
+      "step": 550
+    },
+    {
+      "epoch": 1.7566742944317315,
+      "grad_norm": 48.87959671020508,
+      "learning_rate": 9.846666666666668e-06,
+      "loss": 2.5252,
+      "step": 575
+    },
+    {
+      "epoch": 1.8329519450800915,
+      "grad_norm": 31.21257781982422,
+      "learning_rate": 9.791111111111112e-06,
+      "loss": 2.4784,
+      "step": 600
+    },
+    {
+      "epoch": 1.8329519450800915,
+      "eval_loss": 0.7119807600975037,
+      "eval_runtime": 264.448,
+      "eval_samples_per_second": 1.724,
+      "eval_steps_per_second": 0.862,
+      "eval_wer": 0.5119413572948688,
+      "step": 600
+    },
+    {
+      "epoch": 1.9092295957284515,
+      "grad_norm": 50.41967010498047,
+      "learning_rate": 9.735555555555556e-06,
+      "loss": 2.7986,
+      "step": 625
+    },
+    {
+      "epoch": 1.9855072463768115,
+      "grad_norm": 44.248531341552734,
+      "learning_rate": 9.68e-06,
+      "loss": 2.5769,
+      "step": 650
+    },
+    {
+      "epoch": 2.064073226544622,
+      "grad_norm": 37.23513412475586,
+      "learning_rate": 9.624444444444445e-06,
+      "loss": 1.7681,
+      "step": 675
+    },
+    {
+      "epoch": 2.1403508771929824,
+      "grad_norm": 40.0003662109375,
+      "learning_rate": 9.56888888888889e-06,
+      "loss": 1.5085,
+      "step": 700
+    },
+    {
+      "epoch": 2.2166285278413427,
+      "grad_norm": 39.90888595581055,
+      "learning_rate": 9.513333333333334e-06,
+      "loss": 1.5618,
+      "step": 725
+    },
+    {
+      "epoch": 2.2929061784897025,
+      "grad_norm": 55.87771224975586,
+      "learning_rate": 9.457777777777778e-06,
+      "loss": 1.6802,
+      "step": 750
+    },
+    {
+      "epoch": 2.3691838291380627,
+      "grad_norm": 34.04142761230469,
+      "learning_rate": 9.402222222222222e-06,
+      "loss": 1.7494,
+      "step": 775
+    },
+    {
+      "epoch": 2.4454614797864225,
+      "grad_norm": 46.634639739990234,
+      "learning_rate": 9.346666666666666e-06,
+      "loss": 1.6451,
+      "step": 800
+    },
+    {
+      "epoch": 2.4454614797864225,
+      "eval_loss": 0.6934465765953064,
+      "eval_runtime": 264.0293,
+      "eval_samples_per_second": 1.727,
+      "eval_steps_per_second": 0.864,
+      "eval_wer": 0.5197446204776542,
+      "step": 800
+    },
+    {
+      "epoch": 2.5217391304347827,
+      "grad_norm": 39.516021728515625,
+      "learning_rate": 9.291111111111112e-06,
+      "loss": 1.5014,
+      "step": 825
+    },
+    {
+      "epoch": 2.5980167810831425,
+      "grad_norm": 44.975582122802734,
+      "learning_rate": 9.235555555555556e-06,
+      "loss": 1.5709,
+      "step": 850
+    },
+    {
+      "epoch": 2.6742944317315027,
+      "grad_norm": 28.40919303894043,
+      "learning_rate": 9.180000000000002e-06,
+      "loss": 2.0282,
+      "step": 875
+    },
+    {
+      "epoch": 2.750572082379863,
+      "grad_norm": 60.81425094604492,
+      "learning_rate": 9.124444444444444e-06,
+      "loss": 1.864,
+      "step": 900
+    },
+    {
+      "epoch": 2.8268497330282227,
+      "grad_norm": 32.39435577392578,
+      "learning_rate": 9.06888888888889e-06,
+      "loss": 1.7512,
+      "step": 925
+    },
+    {
+      "epoch": 2.9031273836765825,
+      "grad_norm": 38.313018798828125,
+      "learning_rate": 9.013333333333334e-06,
+      "loss": 1.3823,
+      "step": 950
+    },
+    {
+      "epoch": 2.9794050343249427,
+      "grad_norm": 42.93181228637695,
+      "learning_rate": 8.957777777777778e-06,
+      "loss": 1.6005,
+      "step": 975
+    },
+    {
+      "epoch": 3.0579710144927534,
+      "grad_norm": 31.643321990966797,
+      "learning_rate": 8.902222222222224e-06,
+      "loss": 0.9938,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0579710144927534,
+      "eval_loss": 0.7157843112945557,
+      "eval_runtime": 257.958,
+      "eval_samples_per_second": 1.768,
+      "eval_steps_per_second": 0.884,
+      "eval_wer": 0.4880586427051312,
+      "step": 1000
+    },
+    {
+      "epoch": 3.1342486651411137,
+      "grad_norm": 22.868074417114258,
+      "learning_rate": 8.846666666666668e-06,
+      "loss": 0.728,
+      "step": 1025
+    },
+    {
+      "epoch": 3.2105263157894735,
+      "grad_norm": 31.28504753112793,
+      "learning_rate": 8.791111111111112e-06,
+      "loss": 0.8879,
+      "step": 1050
+    },
+    {
+      "epoch": 3.2868039664378337,
+      "grad_norm": 21.087993621826172,
+      "learning_rate": 8.735555555555556e-06,
+      "loss": 1.003,
+      "step": 1075
+    },
+    {
+      "epoch": 3.363081617086194,
+      "grad_norm": 28.20087432861328,
+      "learning_rate": 8.68e-06,
+      "loss": 1.0596,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4393592677345537,
+      "grad_norm": 32.88563537597656,
+      "learning_rate": 8.624444444444446e-06,
+      "loss": 0.8597,
+      "step": 1125
+    },
+    {
+      "epoch": 3.515636918382914,
+      "grad_norm": 39.13291931152344,
+      "learning_rate": 8.56888888888889e-06,
+      "loss": 0.9792,
+      "step": 1150
+    },
+    {
+      "epoch": 3.5919145690312737,
+      "grad_norm": 46.251625061035156,
+      "learning_rate": 8.513333333333335e-06,
+      "loss": 1.0441,
+      "step": 1175
+    },
+    {
+      "epoch": 3.668192219679634,
+      "grad_norm": 36.31629943847656,
+      "learning_rate": 8.457777777777778e-06,
+      "loss": 0.9703,
+      "step": 1200
+    },
+    {
+      "epoch": 3.668192219679634,
+      "eval_loss": 0.7219667434692383,
+      "eval_runtime": 261.4674,
+      "eval_samples_per_second": 1.744,
+      "eval_steps_per_second": 0.872,
+      "eval_wer": 0.5017734689051785,
+      "step": 1200
+    },
+    {
+      "epoch": 3.744469870327994,
+      "grad_norm": 29.359949111938477,
+      "learning_rate": 8.402222222222223e-06,
+      "loss": 0.9309,
+      "step": 1225
+    },
+    {
+      "epoch": 3.820747520976354,
+      "grad_norm": 30.23845672607422,
+      "learning_rate": 8.346666666666668e-06,
+      "loss": 1.0202,
+      "step": 1250
+    },
+    {
+      "epoch": 3.8970251716247137,
+      "grad_norm": 40.023502349853516,
+      "learning_rate": 8.291111111111112e-06,
+      "loss": 0.9428,
+      "step": 1275
+    },
+    {
+      "epoch": 3.973302822273074,
+      "grad_norm": 30.0853328704834,
+      "learning_rate": 8.235555555555557e-06,
+      "loss": 1.002,
+      "step": 1300
+    },
+    {
+      "epoch": 4.051868802440885,
+      "grad_norm": 20.796226501464844,
+      "learning_rate": 8.18e-06,
+      "loss": 0.4708,
+      "step": 1325
+    },
+    {
+      "epoch": 4.128146453089244,
+      "grad_norm": 20.870452880859375,
+      "learning_rate": 8.124444444444445e-06,
+      "loss": 0.3905,
+      "step": 1350
+    },
+    {
+      "epoch": 4.204424103737605,
+      "grad_norm": 28.822954177856445,
+      "learning_rate": 8.06888888888889e-06,
+      "loss": 0.4386,
+      "step": 1375
+    },
+    {
+      "epoch": 4.280701754385965,
+      "grad_norm": 16.58919334411621,
+      "learning_rate": 8.013333333333333e-06,
+      "loss": 0.5808,
+      "step": 1400
+    },
+    {
+      "epoch": 4.280701754385965,
+      "eval_loss": 0.7521243095397949,
+      "eval_runtime": 265.5999,
+      "eval_samples_per_second": 1.717,
+      "eval_steps_per_second": 0.858,
+      "eval_wer": 0.4930243556396311,
+      "step": 1400
+    },
+    {
+      "epoch": 4.280701754385965,
+      "step": 1400,
+      "total_flos": 1.143893980348416e+19,
+      "train_loss": 2.618672251020159,
+      "train_runtime": 4686.4496,
+      "train_samples_per_second": 8.535,
+      "train_steps_per_second": 1.067
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.143893980348416e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}