“baseline-0.1”

Files changed (7) hide show

config.json +3 -3
optimizer.pt +2 -2
pytorch_model.bin +2 -2
scheduler.pt +1 -1
trainer_state.json +54 -284
training_args.bin +2 -2
vocab.json +1 -1

config.json CHANGED Viewed

@@ -36,7 +36,7 @@
     2
   ],
   "ctc_loss_reduction": "mean",
-  "ctc_zero_infinity": false,
   "do_stable_layer_norm": true,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
@@ -70,7 +70,7 @@
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
-  "pad_token_id": 40,
   "transformers_version": "4.5.0.dev0",
-  "vocab_size": 41
 }

     2
   ],
   "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
   "do_stable_layer_norm": true,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
+  "pad_token_id": 38,
   "transformers_version": "4.5.0.dev0",
+  "vocab_size": 39
 }

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce45012be135497e4b16ab8654d1a24b97bb14be98b5fabf07fdcff635dcf3e0
-size 1711

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d31ec004aaf1d538f6e31e243606338c02541fb9ebbd8484b070da2cc3e584d
+size 2490396935

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a7772a1884e576f8ce8b03059b788e2f7a734edad5a45f3676945b1b37aba5f
-size 1262101912

 version https://git-lfs.github.com/spec/v1
+oid sha256:81b052db94c38d86377adc7920c03bba67a2472ad264f2dcb1a53e25cff59a16
+size 1262093719

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42d008c9c215de3fb87e964d070febd87668726621c0db21bca9ed9eda04b74d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:64543182043f9cdb3527195be935ec8f62e7dc4e7d6bad306616415bb49fc302
 size 623

trainer_state.json CHANGED Viewed

@@ -1,316 +1,86 @@
 {
-  "best_metric": 1.0,
-  "best_model_checkpoint": "../wav2vec2-large-xlsr-53-sw/checkpoint-154",
-  "epoch": 2.9967637540453076,
-  "global_step": 462,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06,
-      "learning_rate": 0.00015,
-      "loss": Infinity,
-      "step": 10
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.0003,
-      "loss": NaN,
-      "step": 20
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.000296,
-      "loss": NaN,
-      "step": 30
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.000292,
-      "loss": NaN,
-      "step": 40
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00028799999999999995,
-      "loss": NaN,
-      "step": 50
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.00028399999999999996,
-      "loss": NaN,
-      "step": 60
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00028,
-      "loss": NaN,
-      "step": 70
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.000276,
-      "loss": NaN,
-      "step": 80
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.00027199999999999994,
-      "loss": NaN,
-      "step": 90
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.00026799999999999995,
-      "loss": NaN,
-      "step": 100
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.00026399999999999997,
-      "loss": NaN,
-      "step": 110
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.00026,
-      "loss": NaN,
-      "step": 120
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.000256,
-      "loss": NaN,
-      "step": 130
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.00025199999999999995,
-      "loss": NaN,
-      "step": 140
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.00024799999999999996,
-      "loss": NaN,
-      "step": 150
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": Infinity,
-      "eval_runtime": 358.7961,
-      "eval_samples_per_second": 5.549,
-      "eval_wer": 1.0,
-      "step": 154
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.000244,
-      "loss": NaN,
-      "step": 160
-    },
-    {
-      "epoch": 1.1,
       "learning_rate": 0.00023999999999999998,
-      "loss": NaN,
-      "step": 170
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.00023599999999999996,
-      "loss": NaN,
-      "step": 180
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.00023199999999999997,
-      "loss": NaN,
-      "step": 190
     },
     {
       "epoch": 1.3,
-      "learning_rate": 0.00022799999999999999,
-      "loss": NaN,
-      "step": 200
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.000224,
-      "loss": NaN,
-      "step": 210
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.00021999999999999995,
-      "loss": NaN,
-      "step": 220
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00021599999999999996,
-      "loss": NaN,
-      "step": 230
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.00021199999999999998,
-      "loss": NaN,
-      "step": 240
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.000208,
-      "loss": NaN,
-      "step": 250
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 0.000204,
-      "loss": NaN,
-      "step": 260
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.00019999999999999998,
-      "loss": NaN,
-      "step": 270
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.00019599999999999997,
-      "loss": NaN,
-      "step": 280
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.00019199999999999998,
-      "loss": NaN,
-      "step": 290
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.000188,
-      "loss": NaN,
-      "step": 300
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": Infinity,
-      "eval_runtime": 374.8395,
-      "eval_samples_per_second": 5.312,
-      "eval_wer": 1.0,
-      "step": 308
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.00018399999999999997,
-      "loss": NaN,
-      "step": 310
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.00017999999999999998,
-      "loss": NaN,
-      "step": 320
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.000176,
-      "loss": NaN,
-      "step": 330
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.000172,
-      "loss": NaN,
-      "step": 340
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.000168,
-      "loss": NaN,
-      "step": 350
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.00016399999999999997,
-      "loss": NaN,
-      "step": 360
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.00015999999999999999,
-      "loss": NaN,
-      "step": 370
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.000156,
-      "loss": NaN,
-      "step": 380
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.000152,
-      "loss": NaN,
-      "step": 390
     },
     {
       "epoch": 2.6,
-      "learning_rate": 0.000148,
-      "loss": NaN,
-      "step": 400
     },
     {
-      "epoch": 2.66,
-      "learning_rate": 0.00014399999999999998,
-      "loss": NaN,
-      "step": 410
     },
     {
-      "epoch": 2.72,
-      "learning_rate": 0.00014,
-      "loss": NaN,
-      "step": 420
     },
     {
-      "epoch": 2.79,
-      "learning_rate": 0.00013599999999999997,
-      "loss": NaN,
-      "step": 430
     },
     {
-      "epoch": 2.85,
-      "learning_rate": 0.00013199999999999998,
-      "loss": NaN,
-      "step": 440
     },
     {
-      "epoch": 2.92,
-      "learning_rate": 0.000128,
-      "loss": NaN,
-      "step": 450
     },
     {
-      "epoch": 2.98,
-      "learning_rate": 0.00012399999999999998,
-      "loss": NaN,
-      "step": 460
     },
     {
-      "epoch": 3.0,
-      "eval_loss": Infinity,
-      "eval_runtime": 334.0794,
-      "eval_samples_per_second": 5.96,
-      "eval_wer": 1.0,
-      "step": 462
     }
   ],
-  "max_steps": 770,
-  "num_train_epochs": 5,
-  "total_flos": 1.7250623020466376e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.492706645056726,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.3,
       "learning_rate": 0.00023999999999999998,
+      "loss": 3.5498,
+      "step": 400
     },
     {
       "epoch": 1.3,
+      "eval_loss": 0.7558379173278809,
+      "eval_runtime": 196.0447,
+      "eval_samples_per_second": 10.156,
+      "eval_wer": 0.7275141242937853,
+      "step": 400
     },
     {
       "epoch": 2.6,
+      "learning_rate": 0.000297029702970297,
+      "loss": 0.735,
+      "step": 800
     },
     {
+      "epoch": 2.6,
+      "eval_loss": 0.4254470467567444,
+      "eval_runtime": 196.081,
+      "eval_samples_per_second": 10.154,
+      "eval_wer": 0.521412429378531,
+      "step": 800
     },
     {
+      "epoch": 3.89,
+      "learning_rate": 0.00029306930693069307,
+      "loss": 0.502,
+      "step": 1200
     },
     {
+      "epoch": 3.89,
+      "eval_loss": 0.369031697511673,
+      "eval_runtime": 193.173,
+      "eval_samples_per_second": 10.307,
+      "eval_wer": 0.46146892655367233,
+      "step": 1200
     },
     {
+      "epoch": 5.19,
+      "learning_rate": 0.00028910891089108906,
+      "loss": 0.4002,
+      "step": 1600
     },
     {
+      "epoch": 5.19,
+      "eval_loss": 0.34798651933670044,
+      "eval_runtime": 194.1431,
+      "eval_samples_per_second": 10.255,
+      "eval_wer": 0.4266666666666667,
+      "step": 1600
     },
     {
+      "epoch": 6.49,
+      "learning_rate": 0.0002851485148514851,
+      "loss": 0.3301,
+      "step": 2000
     },
     {
+      "epoch": 6.49,
+      "eval_loss": 0.34466618299484253,
+      "eval_runtime": 194.5915,
+      "eval_samples_per_second": 10.232,
+      "eval_wer": 0.41836158192090395,
+      "step": 2000
     }
   ],
+  "max_steps": 30800,
+  "num_train_epochs": 100,
+  "total_flos": 6.866081544696079e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fcccbfe1b211984cf07a9455560cac8fbc9c69a011acf7c165d7e5331248598
-size 2351

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b4b6b9216cddae0e2711129cec936f431b1dad296c1b852446679260b47926d
+size 2287

vocab.json CHANGED Viewed

	@@ -1 +1 @@
1	- {">": 0, "y": 1, "z": 2, "o": 3, "w": 4, "f": 5, "i": 6, "t": 7, "h": 8, "b": 9, "r": 10, "j": 11, "x": 13, "l": 14, "k": 15, "p": 16, "c": 17, "v": 18, "<": 19, "a": 20, "d": 21, "m": 22, "n": 23, "u": 24, "g": 25, "s": 26, "q": 27, "e": 28, "\|": 12, "[UNK]": 29, "[PAD]": 30}


1	+ {"q": 0, "s": 1, "3": 2, "'": 3, "n": 4, "y": 5, "c": 7, "_": 8, "k": 9, "5": 10, "l": 11, "o": 12, "0": 13, "j": 14, "6": 15, "d": 16, "1": 17, "9": 18, "u": 19, "g": 20, "b": 21, "p": 22, "m": 23, "v": 24, "2": 25, "f": 26, "i": 27, "t": 28, "r": 29, "w": 30, "z": 31, "a": 32, "x": 33, "h": 34, "7": 35, "e": 36, "\|": 6, "[UNK]": 37, "[PAD]": 38}