Upload 9 files

Browse files

Files changed (9) hide show

all_results.json +18 -0
config.json +34 -0
eval_results.json +8 -0
model.safetensors +3 -0
pred_results.json +7 -0
preprocessor_config.json +22 -0
train_results.json +8 -0
trainer_state.json +1816 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 143.48,
+    "eval_accuracy": 0.9545454545454546,
+    "eval_loss": 0.2613329589366913,
+    "eval_runtime": 2.0486,
+    "eval_samples_per_second": 75.175,
+    "eval_steps_per_second": 4.881,
+    "test_accuracy": 0.9483870967741935,
+    "test_loss": 0.3847464323043823,
+    "test_runtime": 1.8406,
+    "test_samples_per_second": 84.211,
+    "test_steps_per_second": 5.433,
+    "total_flos": 8.017005638819359e+18,
+    "train_loss": 0.028458750352940775,
+    "train_runtime": 2286.6106,
+    "train_samples_per_second": 47.297,
+    "train_steps_per_second": 0.722
+}

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "benign",
+    "1": "malignant",
+    "2": "normal"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "benign": 0,
+    "malignant": 1,
+    "normal": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 143.48,
+    "eval_accuracy": 0.9545454545454546,
+    "eval_loss": 0.2613329589366913,
+    "eval_runtime": 2.0486,
+    "eval_samples_per_second": 75.175,
+    "eval_steps_per_second": 4.881
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24935da771bbd606f46dcd50c7b33ee49771f900acfe2817fbae9e382e968b26
+size 343227052

pred_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "test_accuracy": 0.9483870967741935,
+    "test_loss": 0.3847464323043823,
+    "test_runtime": 1.8406,
+    "test_samples_per_second": 84.211,
+    "test_steps_per_second": 5.433
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 143.48,
+    "total_flos": 8.017005638819359e+18,
+    "train_loss": 0.028458750352940775,
+    "train_runtime": 2286.6106,
+    "train_samples_per_second": 47.297,
+    "train_steps_per_second": 0.722
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1816 @@

+{
+  "best_metric": 0.9545454545454546,
+  "best_model_checkpoint": "ViT-base-16-224-7.5-1.5-1.5-split-lion-4\\checkpoint-943",
+  "epoch": 143.47826086956522,
+  "eval_steps": 500,
+  "global_step": 1650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.7077922077922078,
+      "eval_loss": 0.7381948232650757,
+      "eval_runtime": 1.6508,
+      "eval_samples_per_second": 93.289,
+      "eval_steps_per_second": 6.058,
+      "step": 11
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.5780272002695102e-05,
+      "loss": 0.8102,
+      "step": 20
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8181818181818182,
+      "eval_loss": 0.5202796459197998,
+      "eval_runtime": 1.6447,
+      "eval_samples_per_second": 93.636,
+      "eval_steps_per_second": 6.08,
+      "step": 23
+    },
+    {
+      "epoch": 2.96,
+      "eval_accuracy": 0.8701298701298701,
+      "eval_loss": 0.4076531231403351,
+      "eval_runtime": 1.6584,
+      "eval_samples_per_second": 92.862,
+      "eval_steps_per_second": 6.03,
+      "step": 34
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.3309654930856552e-05,
+      "loss": 0.4016,
+      "step": 40
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.3777826428413391,
+      "eval_runtime": 1.6734,
+      "eval_samples_per_second": 92.03,
+      "eval_steps_per_second": 5.976,
+      "step": 46
+    },
+    {
+      "epoch": 4.96,
+      "eval_accuracy": 0.8766233766233766,
+      "eval_loss": 0.35903552174568176,
+      "eval_runtime": 1.6866,
+      "eval_samples_per_second": 91.308,
+      "eval_steps_per_second": 5.929,
+      "step": 57
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 9.780401480557754e-06,
+      "loss": 0.2052,
+      "step": 60
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.29355403780937195,
+      "eval_runtime": 1.7256,
+      "eval_samples_per_second": 89.245,
+      "eval_steps_per_second": 5.795,
+      "step": 69
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 5.943306394074249e-06,
+      "loss": 0.0838,
+      "step": 80
+    },
+    {
+      "epoch": 6.96,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.2710248529911041,
+      "eval_runtime": 1.6959,
+      "eval_samples_per_second": 90.805,
+      "eval_steps_per_second": 5.896,
+      "step": 80
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.2775874435901642,
+      "eval_runtime": 1.6736,
+      "eval_samples_per_second": 92.018,
+      "eval_steps_per_second": 5.975,
+      "step": 92
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 2.6146530177605546e-06,
+      "loss": 0.0407,
+      "step": 100
+    },
+    {
+      "epoch": 8.96,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.22880351543426514,
+      "eval_runtime": 1.6916,
+      "eval_samples_per_second": 91.039,
+      "eval_steps_per_second": 5.912,
+      "step": 103
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.2207733541727066,
+      "eval_runtime": 1.6896,
+      "eval_samples_per_second": 91.147,
+      "eval_steps_per_second": 5.919,
+      "step": 115
+    },
+    {
+      "epoch": 10.43,
+      "learning_rate": 5.025614934507641e-07,
+      "loss": 0.039,
+      "step": 120
+    },
+    {
+      "epoch": 10.96,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.22476842999458313,
+      "eval_runtime": 1.7237,
+      "eval_samples_per_second": 89.342,
+      "eval_steps_per_second": 5.801,
+      "step": 126
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.3085295557975769,
+      "eval_runtime": 1.727,
+      "eval_samples_per_second": 89.173,
+      "eval_steps_per_second": 5.79,
+      "step": 138
+    },
+    {
+      "epoch": 12.17,
+      "learning_rate": 1.6610319647849526e-05,
+      "loss": 0.0324,
+      "step": 140
+    },
+    {
+      "epoch": 12.96,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.26784980297088623,
+      "eval_runtime": 1.7027,
+      "eval_samples_per_second": 90.446,
+      "eval_steps_per_second": 5.873,
+      "step": 149
+    },
+    {
+      "epoch": 13.91,
+      "learning_rate": 1.529573176177447e-05,
+      "loss": 0.022,
+      "step": 160
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.948051948051948,
+      "eval_loss": 0.2529321610927582,
+      "eval_runtime": 1.7126,
+      "eval_samples_per_second": 89.923,
+      "eval_steps_per_second": 5.839,
+      "step": 161
+    },
+    {
+      "epoch": 14.96,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.24028430879116058,
+      "eval_runtime": 1.7176,
+      "eval_samples_per_second": 89.659,
+      "eval_steps_per_second": 5.822,
+      "step": 172
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 1.25e-05,
+      "loss": 0.012,
+      "step": 180
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.3513343632221222,
+      "eval_runtime": 1.7476,
+      "eval_samples_per_second": 88.12,
+      "eval_steps_per_second": 5.722,
+      "step": 184
+    },
+    {
+      "epoch": 16.96,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.3014402389526367,
+      "eval_runtime": 1.7276,
+      "eval_samples_per_second": 89.139,
+      "eval_steps_per_second": 5.788,
+      "step": 195
+    },
+    {
+      "epoch": 17.39,
+      "learning_rate": 8.817873574253966e-06,
+      "loss": 0.0097,
+      "step": 200
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.31746622920036316,
+      "eval_runtime": 1.9143,
+      "eval_samples_per_second": 80.446,
+      "eval_steps_per_second": 5.224,
+      "step": 207
+    },
+    {
+      "epoch": 18.96,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.2747339904308319,
+      "eval_runtime": 1.7322,
+      "eval_samples_per_second": 88.904,
+      "eval_steps_per_second": 5.773,
+      "step": 218
+    },
+    {
+      "epoch": 19.13,
+      "learning_rate": 5.03266861634036e-06,
+      "loss": 0.0052,
+      "step": 220
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.2932997941970825,
+      "eval_runtime": 1.7167,
+      "eval_samples_per_second": 89.706,
+      "eval_steps_per_second": 5.825,
+      "step": 230
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 1.9496296406751813e-06,
+      "loss": 0.009,
+      "step": 240
+    },
+    {
+      "epoch": 20.96,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.28077924251556396,
+      "eval_runtime": 1.7005,
+      "eval_samples_per_second": 90.563,
+      "eval_steps_per_second": 5.881,
+      "step": 241
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.29576078057289124,
+      "eval_runtime": 1.7368,
+      "eval_samples_per_second": 88.67,
+      "eval_steps_per_second": 5.758,
+      "step": 253
+    },
+    {
+      "epoch": 22.61,
+      "learning_rate": 2.246260785014683e-07,
+      "loss": 0.0115,
+      "step": 260
+    },
+    {
+      "epoch": 22.96,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.2983975112438202,
+      "eval_runtime": 1.7116,
+      "eval_samples_per_second": 89.976,
+      "eval_steps_per_second": 5.843,
+      "step": 264
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.3521440327167511,
+      "eval_runtime": 1.7503,
+      "eval_samples_per_second": 87.986,
+      "eval_steps_per_second": 5.713,
+      "step": 276
+    },
+    {
+      "epoch": 24.35,
+      "learning_rate": 1.64420405881652e-05,
+      "loss": 0.0104,
+      "step": 280
+    },
+    {
+      "epoch": 24.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.4289417862892151,
+      "eval_runtime": 1.7466,
+      "eval_samples_per_second": 88.173,
+      "eval_steps_per_second": 5.726,
+      "step": 287
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.6231942176818848,
+      "eval_runtime": 1.7359,
+      "eval_samples_per_second": 88.715,
+      "eval_steps_per_second": 5.761,
+      "step": 299
+    },
+    {
+      "epoch": 26.09,
+      "learning_rate": 1.4717037025991483e-05,
+      "loss": 0.0086,
+      "step": 300
+    },
+    {
+      "epoch": 26.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5161650776863098,
+      "eval_runtime": 1.7289,
+      "eval_samples_per_second": 89.075,
+      "eval_steps_per_second": 5.784,
+      "step": 310
+    },
+    {
+      "epoch": 27.83,
+      "learning_rate": 1.1633998050326307e-05,
+      "loss": 0.0205,
+      "step": 320
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.6762561798095703,
+      "eval_runtime": 1.7546,
+      "eval_samples_per_second": 87.77,
+      "eval_steps_per_second": 5.699,
+      "step": 322
+    },
+    {
+      "epoch": 28.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.4664335250854492,
+      "eval_runtime": 1.7617,
+      "eval_samples_per_second": 87.414,
+      "eval_steps_per_second": 5.676,
+      "step": 333
+    },
+    {
+      "epoch": 29.57,
+      "learning_rate": 7.848793092412702e-06,
+      "loss": 0.012,
+      "step": 340
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.3841441869735718,
+      "eval_runtime": 1.7019,
+      "eval_samples_per_second": 90.487,
+      "eval_steps_per_second": 5.876,
+      "step": 345
+    },
+    {
+      "epoch": 30.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.42462781071662903,
+      "eval_runtime": 1.741,
+      "eval_samples_per_second": 88.455,
+      "eval_steps_per_second": 5.744,
+      "step": 356
+    },
+    {
+      "epoch": 31.3,
+      "learning_rate": 4.1666666666666686e-06,
+      "loss": 0.0061,
+      "step": 360
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.43087005615234375,
+      "eval_runtime": 1.7385,
+      "eval_samples_per_second": 88.582,
+      "eval_steps_per_second": 5.752,
+      "step": 368
+    },
+    {
+      "epoch": 32.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.45713886618614197,
+      "eval_runtime": 1.7098,
+      "eval_samples_per_second": 90.069,
+      "eval_steps_per_second": 5.849,
+      "step": 379
+    },
+    {
+      "epoch": 33.04,
+      "learning_rate": 1.3709349048921951e-06,
+      "loss": 0.0093,
+      "step": 380
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.48606640100479126,
+      "eval_runtime": 1.7668,
+      "eval_samples_per_second": 87.163,
+      "eval_steps_per_second": 5.66,
+      "step": 391
+    },
+    {
+      "epoch": 34.78,
+      "learning_rate": 5.634701881714148e-08,
+      "loss": 0.0101,
+      "step": 400
+    },
+    {
+      "epoch": 34.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.49100440740585327,
+      "eval_runtime": 1.7267,
+      "eval_samples_per_second": 89.186,
+      "eval_steps_per_second": 5.791,
+      "step": 402
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.5978976488113403,
+      "eval_runtime": 1.7357,
+      "eval_samples_per_second": 88.725,
+      "eval_steps_per_second": 5.761,
+      "step": 414
+    },
+    {
+      "epoch": 36.52,
+      "learning_rate": 1.6164105173215904e-05,
+      "loss": 0.011,
+      "step": 420
+    },
+    {
+      "epoch": 36.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.3977736830711365,
+      "eval_runtime": 1.7968,
+      "eval_samples_per_second": 85.708,
+      "eval_steps_per_second": 5.565,
+      "step": 425
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.40591639280319214,
+      "eval_runtime": 1.7136,
+      "eval_samples_per_second": 89.87,
+      "eval_steps_per_second": 5.836,
+      "step": 437
+    },
+    {
+      "epoch": 38.26,
+      "learning_rate": 1.4052013648906114e-05,
+      "loss": 0.0226,
+      "step": 440
+    },
+    {
+      "epoch": 38.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.4942101240158081,
+      "eval_runtime": 1.7437,
+      "eval_samples_per_second": 88.318,
+      "eval_steps_per_second": 5.735,
+      "step": 448
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 1.0723360272592418e-05,
+      "loss": 0.0118,
+      "step": 460
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.7233626842498779,
+      "eval_runtime": 1.7317,
+      "eval_samples_per_second": 88.928,
+      "eval_steps_per_second": 5.775,
+      "step": 460
+    },
+    {
+      "epoch": 40.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5826935172080994,
+      "eval_runtime": 1.7439,
+      "eval_samples_per_second": 88.31,
+      "eval_steps_per_second": 5.734,
+      "step": 471
+    },
+    {
+      "epoch": 41.74,
+      "learning_rate": 6.886265186108914e-06,
+      "loss": 0.011,
+      "step": 480
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.662550687789917,
+      "eval_runtime": 1.7627,
+      "eval_samples_per_second": 87.366,
+      "eval_steps_per_second": 5.673,
+      "step": 483
+    },
+    {
+      "epoch": 42.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5871102213859558,
+      "eval_runtime": 1.7486,
+      "eval_samples_per_second": 88.072,
+      "eval_steps_per_second": 5.719,
+      "step": 494
+    },
+    {
+      "epoch": 43.48,
+      "learning_rate": 3.3570117358101172e-06,
+      "loss": 0.0003,
+      "step": 500
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5640321969985962,
+      "eval_runtime": 1.6975,
+      "eval_samples_per_second": 90.721,
+      "eval_steps_per_second": 5.891,
+      "step": 506
+    },
+    {
+      "epoch": 44.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5655084848403931,
+      "eval_runtime": 1.7184,
+      "eval_samples_per_second": 89.619,
+      "eval_steps_per_second": 5.819,
+      "step": 517
+    },
+    {
+      "epoch": 45.22,
+      "learning_rate": 8.863946639715635e-07,
+      "loss": 0.0005,
+      "step": 520
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5844298601150513,
+      "eval_runtime": 1.7344,
+      "eval_samples_per_second": 88.793,
+      "eval_steps_per_second": 5.766,
+      "step": 529
+    },
+    {
+      "epoch": 46.96,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0064,
+      "step": 540
+    },
+    {
+      "epoch": 46.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5887525677680969,
+      "eval_runtime": 1.7094,
+      "eval_samples_per_second": 90.091,
+      "eval_steps_per_second": 5.85,
+      "step": 540
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.6656709313392639,
+      "eval_runtime": 1.7414,
+      "eval_samples_per_second": 88.435,
+      "eval_steps_per_second": 5.743,
+      "step": 552
+    },
+    {
+      "epoch": 48.7,
+      "learning_rate": 1.5780272002695102e-05,
+      "loss": 0.0084,
+      "step": 560
+    },
+    {
+      "epoch": 48.96,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.7156269550323486,
+      "eval_runtime": 1.7014,
+      "eval_samples_per_second": 90.514,
+      "eval_steps_per_second": 5.878,
+      "step": 563
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.8766233766233766,
+      "eval_loss": 0.9346238970756531,
+      "eval_runtime": 1.7164,
+      "eval_samples_per_second": 89.724,
+      "eval_steps_per_second": 5.826,
+      "step": 575
+    },
+    {
+      "epoch": 50.43,
+      "learning_rate": 1.3309654930856552e-05,
+      "loss": 0.0318,
+      "step": 580
+    },
+    {
+      "epoch": 50.96,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.8030693531036377,
+      "eval_runtime": 1.6994,
+      "eval_samples_per_second": 90.621,
+      "eval_steps_per_second": 5.884,
+      "step": 586
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.5700052976608276,
+      "eval_runtime": 1.7294,
+      "eval_samples_per_second": 89.049,
+      "eval_steps_per_second": 5.782,
+      "step": 598
+    },
+    {
+      "epoch": 52.17,
+      "learning_rate": 9.780401480557754e-06,
+      "loss": 0.0338,
+      "step": 600
+    },
+    {
+      "epoch": 52.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.40834710001945496,
+      "eval_runtime": 1.6964,
+      "eval_samples_per_second": 90.781,
+      "eval_steps_per_second": 5.895,
+      "step": 609
+    },
+    {
+      "epoch": 53.91,
+      "learning_rate": 5.943306394074249e-06,
+      "loss": 0.0147,
+      "step": 620
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.41295498609542847,
+      "eval_runtime": 1.7144,
+      "eval_samples_per_second": 89.828,
+      "eval_steps_per_second": 5.833,
+      "step": 621
+    },
+    {
+      "epoch": 54.96,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.40372058749198914,
+      "eval_runtime": 1.7344,
+      "eval_samples_per_second": 88.792,
+      "eval_steps_per_second": 5.766,
+      "step": 632
+    },
+    {
+      "epoch": 55.65,
+      "learning_rate": 2.6146530177605546e-06,
+      "loss": 0.0011,
+      "step": 640
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.36978378891944885,
+      "eval_runtime": 1.7234,
+      "eval_samples_per_second": 89.359,
+      "eval_steps_per_second": 5.803,
+      "step": 644
+    },
+    {
+      "epoch": 56.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.38696253299713135,
+      "eval_runtime": 1.7014,
+      "eval_samples_per_second": 90.515,
+      "eval_steps_per_second": 5.878,
+      "step": 655
+    },
+    {
+      "epoch": 57.39,
+      "learning_rate": 5.025614934507641e-07,
+      "loss": 0.0021,
+      "step": 660
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.39924710988998413,
+      "eval_runtime": 1.6854,
+      "eval_samples_per_second": 91.374,
+      "eval_steps_per_second": 5.933,
+      "step": 667
+    },
+    {
+      "epoch": 58.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.44311344623565674,
+      "eval_runtime": 1.6854,
+      "eval_samples_per_second": 91.374,
+      "eval_steps_per_second": 5.933,
+      "step": 678
+    },
+    {
+      "epoch": 59.13,
+      "learning_rate": 1.6610319647849526e-05,
+      "loss": 0.0002,
+      "step": 680
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.44143199920654297,
+      "eval_runtime": 1.7504,
+      "eval_samples_per_second": 87.98,
+      "eval_steps_per_second": 5.713,
+      "step": 690
+    },
+    {
+      "epoch": 60.87,
+      "learning_rate": 1.529573176177447e-05,
+      "loss": 0.0088,
+      "step": 700
+    },
+    {
+      "epoch": 60.96,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.4255146086215973,
+      "eval_runtime": 1.7144,
+      "eval_samples_per_second": 89.828,
+      "eval_steps_per_second": 5.833,
+      "step": 701
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.4168331027030945,
+      "eval_runtime": 1.7434,
+      "eval_samples_per_second": 88.334,
+      "eval_steps_per_second": 5.736,
+      "step": 713
+    },
+    {
+      "epoch": 62.61,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0061,
+      "step": 720
+    },
+    {
+      "epoch": 62.96,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.49312305450439453,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 88.843,
+      "eval_steps_per_second": 5.769,
+      "step": 724
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.948051948051948,
+      "eval_loss": 0.28522124886512756,
+      "eval_runtime": 1.7184,
+      "eval_samples_per_second": 89.619,
+      "eval_steps_per_second": 5.819,
+      "step": 736
+    },
+    {
+      "epoch": 64.35,
+      "learning_rate": 8.817873574253966e-06,
+      "loss": 0.0179,
+      "step": 740
+    },
+    {
+      "epoch": 64.96,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.44120827317237854,
+      "eval_runtime": 1.7364,
+      "eval_samples_per_second": 88.69,
+      "eval_steps_per_second": 5.759,
+      "step": 747
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.331409215927124,
+      "eval_runtime": 1.7124,
+      "eval_samples_per_second": 89.933,
+      "eval_steps_per_second": 5.84,
+      "step": 759
+    },
+    {
+      "epoch": 66.09,
+      "learning_rate": 5.03266861634036e-06,
+      "loss": 0.0014,
+      "step": 760
+    },
+    {
+      "epoch": 66.96,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.2971489727497101,
+      "eval_runtime": 1.7494,
+      "eval_samples_per_second": 88.031,
+      "eval_steps_per_second": 5.716,
+      "step": 770
+    },
+    {
+      "epoch": 67.83,
+      "learning_rate": 1.9496296406751813e-06,
+      "loss": 0.0199,
+      "step": 780
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.3261590301990509,
+      "eval_runtime": 1.7504,
+      "eval_samples_per_second": 87.98,
+      "eval_steps_per_second": 5.713,
+      "step": 782
+    },
+    {
+      "epoch": 68.96,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.3835467994213104,
+      "eval_runtime": 1.7824,
+      "eval_samples_per_second": 86.401,
+      "eval_steps_per_second": 5.61,
+      "step": 793
+    },
+    {
+      "epoch": 69.57,
+      "learning_rate": 2.246260785014683e-07,
+      "loss": 0.0091,
+      "step": 800
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.3903743326663971,
+      "eval_runtime": 1.8425,
+      "eval_samples_per_second": 83.582,
+      "eval_steps_per_second": 5.427,
+      "step": 805
+    },
+    {
+      "epoch": 70.96,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.47730717062950134,
+      "eval_runtime": 1.8005,
+      "eval_samples_per_second": 85.531,
+      "eval_steps_per_second": 5.554,
+      "step": 816
+    },
+    {
+      "epoch": 71.3,
+      "learning_rate": 1.64420405881652e-05,
+      "loss": 0.0029,
+      "step": 820
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.4937627613544464,
+      "eval_runtime": 1.7875,
+      "eval_samples_per_second": 86.152,
+      "eval_steps_per_second": 5.594,
+      "step": 828
+    },
+    {
+      "epoch": 72.96,
+      "eval_accuracy": 0.948051948051948,
+      "eval_loss": 0.456775426864624,
+      "eval_runtime": 1.7718,
+      "eval_samples_per_second": 86.918,
+      "eval_steps_per_second": 5.644,
+      "step": 839
+    },
+    {
+      "epoch": 73.04,
+      "learning_rate": 1.4717037025991483e-05,
+      "loss": 0.0224,
+      "step": 840
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.4465040862560272,
+      "eval_runtime": 1.7516,
+      "eval_samples_per_second": 87.92,
+      "eval_steps_per_second": 5.709,
+      "step": 851
+    },
+    {
+      "epoch": 74.78,
+      "learning_rate": 1.1633998050326307e-05,
+      "loss": 0.0045,
+      "step": 860
+    },
+    {
+      "epoch": 74.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.6093705296516418,
+      "eval_runtime": 1.8028,
+      "eval_samples_per_second": 85.421,
+      "eval_steps_per_second": 5.547,
+      "step": 862
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.6924065947532654,
+      "eval_runtime": 1.7779,
+      "eval_samples_per_second": 86.617,
+      "eval_steps_per_second": 5.624,
+      "step": 874
+    },
+    {
+      "epoch": 76.52,
+      "learning_rate": 7.848793092412702e-06,
+      "loss": 0.0088,
+      "step": 880
+    },
+    {
+      "epoch": 76.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.48120445013046265,
+      "eval_runtime": 1.7635,
+      "eval_samples_per_second": 87.327,
+      "eval_steps_per_second": 5.671,
+      "step": 885
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.6367415189743042,
+      "eval_runtime": 1.7799,
+      "eval_samples_per_second": 86.522,
+      "eval_steps_per_second": 5.618,
+      "step": 897
+    },
+    {
+      "epoch": 78.26,
+      "learning_rate": 4.1666666666666686e-06,
+      "loss": 0.0033,
+      "step": 900
+    },
+    {
+      "epoch": 78.96,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.49070408940315247,
+      "eval_runtime": 1.7676,
+      "eval_samples_per_second": 87.125,
+      "eval_steps_per_second": 5.657,
+      "step": 908
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 1.3709349048921951e-06,
+      "loss": 0.0076,
+      "step": 920
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.9415584415584416,
+      "eval_loss": 0.31148040294647217,
+      "eval_runtime": 1.7496,
+      "eval_samples_per_second": 88.021,
+      "eval_steps_per_second": 5.716,
+      "step": 920
+    },
+    {
+      "epoch": 80.96,
+      "eval_accuracy": 0.948051948051948,
+      "eval_loss": 0.2700955271720886,
+      "eval_runtime": 1.7827,
+      "eval_samples_per_second": 86.387,
+      "eval_steps_per_second": 5.61,
+      "step": 931
+    },
+    {
+      "epoch": 81.74,
+      "learning_rate": 5.634701881714148e-08,
+      "loss": 0.0002,
+      "step": 940
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.9545454545454546,
+      "eval_loss": 0.2613329589366913,
+      "eval_runtime": 1.7597,
+      "eval_samples_per_second": 87.515,
+      "eval_steps_per_second": 5.683,
+      "step": 943
+    },
+    {
+      "epoch": 82.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.40443289279937744,
+      "eval_runtime": 1.7637,
+      "eval_samples_per_second": 87.314,
+      "eval_steps_per_second": 5.67,
+      "step": 954
+    },
+    {
+      "epoch": 83.48,
+      "learning_rate": 1.6164105173215904e-05,
+      "loss": 0.0193,
+      "step": 960
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.9613493084907532,
+      "eval_runtime": 1.7854,
+      "eval_samples_per_second": 86.255,
+      "eval_steps_per_second": 5.601,
+      "step": 966
+    },
+    {
+      "epoch": 84.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.6934040784835815,
+      "eval_runtime": 1.7617,
+      "eval_samples_per_second": 87.414,
+      "eval_steps_per_second": 5.676,
+      "step": 977
+    },
+    {
+      "epoch": 85.22,
+      "learning_rate": 1.4052013648906114e-05,
+      "loss": 0.0238,
+      "step": 980
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.9348794221878052,
+      "eval_runtime": 1.7915,
+      "eval_samples_per_second": 85.962,
+      "eval_steps_per_second": 5.582,
+      "step": 989
+    },
+    {
+      "epoch": 86.96,
+      "learning_rate": 1.0723360272592418e-05,
+      "loss": 0.011,
+      "step": 1000
+    },
+    {
+      "epoch": 86.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.8836289644241333,
+      "eval_runtime": 1.8098,
+      "eval_samples_per_second": 85.095,
+      "eval_steps_per_second": 5.526,
+      "step": 1000
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.7403988838195801,
+      "eval_runtime": 1.7608,
+      "eval_samples_per_second": 87.459,
+      "eval_steps_per_second": 5.679,
+      "step": 1012
+    },
+    {
+      "epoch": 88.7,
+      "learning_rate": 6.886265186108914e-06,
+      "loss": 0.018,
+      "step": 1020
+    },
+    {
+      "epoch": 88.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5259799957275391,
+      "eval_runtime": 1.7749,
+      "eval_samples_per_second": 86.764,
+      "eval_steps_per_second": 5.634,
+      "step": 1023
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5202356576919556,
+      "eval_runtime": 1.7868,
+      "eval_samples_per_second": 86.187,
+      "eval_steps_per_second": 5.597,
+      "step": 1035
+    },
+    {
+      "epoch": 90.43,
+      "learning_rate": 3.3570117358101172e-06,
+      "loss": 0.0041,
+      "step": 1040
+    },
+    {
+      "epoch": 90.96,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.48472902178764343,
+      "eval_runtime": 1.7845,
+      "eval_samples_per_second": 86.297,
+      "eval_steps_per_second": 5.604,
+      "step": 1046
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.48678579926490784,
+      "eval_runtime": 1.7317,
+      "eval_samples_per_second": 88.93,
+      "eval_steps_per_second": 5.775,
+      "step": 1058
+    },
+    {
+      "epoch": 92.17,
+      "learning_rate": 8.863946639715635e-07,
+      "loss": 0.001,
+      "step": 1060
+    },
+    {
+      "epoch": 92.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.4975196421146393,
+      "eval_runtime": 1.7866,
+      "eval_samples_per_second": 86.198,
+      "eval_steps_per_second": 5.597,
+      "step": 1069
+    },
+    {
+      "epoch": 93.91,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0014,
+      "step": 1080
+    },
+    {
+      "epoch": 94.0,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.6255179643630981,
+      "eval_runtime": 1.7777,
+      "eval_samples_per_second": 86.631,
+      "eval_steps_per_second": 5.625,
+      "step": 1081
+    },
+    {
+      "epoch": 94.96,
+      "eval_accuracy": 0.8766233766233766,
+      "eval_loss": 0.9968315362930298,
+      "eval_runtime": 1.7619,
+      "eval_samples_per_second": 87.408,
+      "eval_steps_per_second": 5.676,
+      "step": 1092
+    },
+    {
+      "epoch": 95.65,
+      "learning_rate": 1.5780272002695102e-05,
+      "loss": 0.0165,
+      "step": 1100
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.6173205971717834,
+      "eval_runtime": 1.8105,
+      "eval_samples_per_second": 85.06,
+      "eval_steps_per_second": 5.523,
+      "step": 1104
+    },
+    {
+      "epoch": 96.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.7537987232208252,
+      "eval_runtime": 1.7727,
+      "eval_samples_per_second": 86.873,
+      "eval_steps_per_second": 5.641,
+      "step": 1115
+    },
+    {
+      "epoch": 97.39,
+      "learning_rate": 1.3309654930856552e-05,
+      "loss": 0.013,
+      "step": 1120
+    },
+    {
+      "epoch": 98.0,
+      "eval_accuracy": 0.8766233766233766,
+      "eval_loss": 0.7560279965400696,
+      "eval_runtime": 1.7715,
+      "eval_samples_per_second": 86.931,
+      "eval_steps_per_second": 5.645,
+      "step": 1127
+    },
+    {
+      "epoch": 98.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5807818174362183,
+      "eval_runtime": 1.79,
+      "eval_samples_per_second": 86.032,
+      "eval_steps_per_second": 5.586,
+      "step": 1138
+    },
+    {
+      "epoch": 99.13,
+      "learning_rate": 9.780401480557754e-06,
+      "loss": 0.0237,
+      "step": 1140
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5147651433944702,
+      "eval_runtime": 1.7527,
+      "eval_samples_per_second": 87.864,
+      "eval_steps_per_second": 5.705,
+      "step": 1150
+    },
+    {
+      "epoch": 100.87,
+      "learning_rate": 5.943306394074249e-06,
+      "loss": 0.0061,
+      "step": 1160
+    },
+    {
+      "epoch": 100.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5672047734260559,
+      "eval_runtime": 1.7885,
+      "eval_samples_per_second": 86.106,
+      "eval_steps_per_second": 5.591,
+      "step": 1161
+    },
+    {
+      "epoch": 102.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.4343276619911194,
+      "eval_runtime": 1.7759,
+      "eval_samples_per_second": 86.714,
+      "eval_steps_per_second": 5.631,
+      "step": 1173
+    },
+    {
+      "epoch": 102.61,
+      "learning_rate": 2.6146530177605546e-06,
+      "loss": 0.002,
+      "step": 1180
+    },
+    {
+      "epoch": 102.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.32392024993896484,
+      "eval_runtime": 1.8027,
+      "eval_samples_per_second": 85.425,
+      "eval_steps_per_second": 5.547,
+      "step": 1184
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.2951604127883911,
+      "eval_runtime": 1.8006,
+      "eval_samples_per_second": 85.525,
+      "eval_steps_per_second": 5.554,
+      "step": 1196
+    },
+    {
+      "epoch": 104.35,
+      "learning_rate": 5.025614934507641e-07,
+      "loss": 0.0005,
+      "step": 1200
+    },
+    {
+      "epoch": 104.96,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.2926579713821411,
+      "eval_runtime": 1.7666,
+      "eval_samples_per_second": 87.174,
+      "eval_steps_per_second": 5.661,
+      "step": 1207
+    },
+    {
+      "epoch": 106.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.3511568605899811,
+      "eval_runtime": 1.7794,
+      "eval_samples_per_second": 86.546,
+      "eval_steps_per_second": 5.62,
+      "step": 1219
+    },
+    {
+      "epoch": 106.09,
+      "learning_rate": 1.6610319647849526e-05,
+      "loss": 0.0003,
+      "step": 1220
+    },
+    {
+      "epoch": 106.96,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.4030219316482544,
+      "eval_runtime": 1.7918,
+      "eval_samples_per_second": 85.945,
+      "eval_steps_per_second": 5.581,
+      "step": 1230
+    },
+    {
+      "epoch": 107.83,
+      "learning_rate": 1.529573176177447e-05,
+      "loss": 0.0023,
+      "step": 1240
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.3911021053791046,
+      "eval_runtime": 1.7635,
+      "eval_samples_per_second": 87.328,
+      "eval_steps_per_second": 5.671,
+      "step": 1242
+    },
+    {
+      "epoch": 108.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5156851410865784,
+      "eval_runtime": 1.7917,
+      "eval_samples_per_second": 85.953,
+      "eval_steps_per_second": 5.581,
+      "step": 1253
+    },
+    {
+      "epoch": 109.57,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0114,
+      "step": 1260
+    },
+    {
+      "epoch": 110.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5531629323959351,
+      "eval_runtime": 1.7244,
+      "eval_samples_per_second": 89.307,
+      "eval_steps_per_second": 5.799,
+      "step": 1265
+    },
+    {
+      "epoch": 110.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.6447522640228271,
+      "eval_runtime": 1.7304,
+      "eval_samples_per_second": 88.997,
+      "eval_steps_per_second": 5.779,
+      "step": 1276
+    },
+    {
+      "epoch": 111.3,
+      "learning_rate": 8.817873574253966e-06,
+      "loss": 0.0003,
+      "step": 1280
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.6866676807403564,
+      "eval_runtime": 1.7494,
+      "eval_samples_per_second": 88.031,
+      "eval_steps_per_second": 5.716,
+      "step": 1288
+    },
+    {
+      "epoch": 112.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.7411206960678101,
+      "eval_runtime": 1.7444,
+      "eval_samples_per_second": 88.283,
+      "eval_steps_per_second": 5.733,
+      "step": 1299
+    },
+    {
+      "epoch": 113.04,
+      "learning_rate": 5.03266861634036e-06,
+      "loss": 0.0153,
+      "step": 1300
+    },
+    {
+      "epoch": 114.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.7488161325454712,
+      "eval_runtime": 1.7644,
+      "eval_samples_per_second": 87.282,
+      "eval_steps_per_second": 5.668,
+      "step": 1311
+    },
+    {
+      "epoch": 114.78,
+      "learning_rate": 1.9496296406751813e-06,
+      "loss": 0.0039,
+      "step": 1320
+    },
+    {
+      "epoch": 114.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.6945769786834717,
+      "eval_runtime": 1.7344,
+      "eval_samples_per_second": 88.792,
+      "eval_steps_per_second": 5.766,
+      "step": 1322
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.7218338847160339,
+      "eval_runtime": 1.7644,
+      "eval_samples_per_second": 87.281,
+      "eval_steps_per_second": 5.668,
+      "step": 1334
+    },
+    {
+      "epoch": 116.52,
+      "learning_rate": 2.246260785014683e-07,
+      "loss": 0.0002,
+      "step": 1340
+    },
+    {
+      "epoch": 116.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.7305352091789246,
+      "eval_runtime": 1.7634,
+      "eval_samples_per_second": 87.332,
+      "eval_steps_per_second": 5.671,
+      "step": 1345
+    },
+    {
+      "epoch": 118.0,
+      "eval_accuracy": 0.8701298701298701,
+      "eval_loss": 1.0061231851577759,
+      "eval_runtime": 1.7854,
+      "eval_samples_per_second": 86.255,
+      "eval_steps_per_second": 5.601,
+      "step": 1357
+    },
+    {
+      "epoch": 118.26,
+      "learning_rate": 1.64420405881652e-05,
+      "loss": 0.0066,
+      "step": 1360
+    },
+    {
+      "epoch": 118.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.5966177582740784,
+      "eval_runtime": 1.7834,
+      "eval_samples_per_second": 86.352,
+      "eval_steps_per_second": 5.607,
+      "step": 1368
+    },
+    {
+      "epoch": 120.0,
+      "learning_rate": 1.4717037025991483e-05,
+      "loss": 0.0083,
+      "step": 1380
+    },
+    {
+      "epoch": 120.0,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 1.1087840795516968,
+      "eval_runtime": 1.7834,
+      "eval_samples_per_second": 86.352,
+      "eval_steps_per_second": 5.607,
+      "step": 1380
+    },
+    {
+      "epoch": 120.96,
+      "eval_accuracy": 0.8831168831168831,
+      "eval_loss": 0.821342945098877,
+      "eval_runtime": 1.7534,
+      "eval_samples_per_second": 87.83,
+      "eval_steps_per_second": 5.703,
+      "step": 1391
+    },
+    {
+      "epoch": 121.74,
+      "learning_rate": 1.1633998050326307e-05,
+      "loss": 0.0202,
+      "step": 1400
+    },
+    {
+      "epoch": 122.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5226480960845947,
+      "eval_runtime": 1.7954,
+      "eval_samples_per_second": 85.775,
+      "eval_steps_per_second": 5.57,
+      "step": 1403
+    },
+    {
+      "epoch": 122.96,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.44853323698043823,
+      "eval_runtime": 1.7774,
+      "eval_samples_per_second": 86.643,
+      "eval_steps_per_second": 5.626,
+      "step": 1414
+    },
+    {
+      "epoch": 123.48,
+      "learning_rate": 7.848793092412702e-06,
+      "loss": 0.0033,
+      "step": 1420
+    },
+    {
+      "epoch": 124.0,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.7281427979469299,
+      "eval_runtime": 1.8004,
+      "eval_samples_per_second": 85.537,
+      "eval_steps_per_second": 5.554,
+      "step": 1426
+    },
+    {
+      "epoch": 124.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.6655176281929016,
+      "eval_runtime": 1.7664,
+      "eval_samples_per_second": 87.183,
+      "eval_steps_per_second": 5.661,
+      "step": 1437
+    },
+    {
+      "epoch": 125.22,
+      "learning_rate": 4.1666666666666686e-06,
+      "loss": 0.0185,
+      "step": 1440
+    },
+    {
+      "epoch": 126.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.5161400437355042,
+      "eval_runtime": 1.7704,
+      "eval_samples_per_second": 86.986,
+      "eval_steps_per_second": 5.648,
+      "step": 1449
+    },
+    {
+      "epoch": 126.96,
+      "learning_rate": 1.3709349048921951e-06,
+      "loss": 0.0001,
+      "step": 1460
+    },
+    {
+      "epoch": 126.96,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.4859886169433594,
+      "eval_runtime": 1.7874,
+      "eval_samples_per_second": 86.159,
+      "eval_steps_per_second": 5.595,
+      "step": 1460
+    },
+    {
+      "epoch": 128.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.4834165573120117,
+      "eval_runtime": 1.7944,
+      "eval_samples_per_second": 85.822,
+      "eval_steps_per_second": 5.573,
+      "step": 1472
+    },
+    {
+      "epoch": 128.7,
+      "learning_rate": 5.634701881714148e-08,
+      "loss": 0.0047,
+      "step": 1480
+    },
+    {
+      "epoch": 128.96,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.48360273241996765,
+      "eval_runtime": 1.7574,
+      "eval_samples_per_second": 87.63,
+      "eval_steps_per_second": 5.69,
+      "step": 1483
+    },
+    {
+      "epoch": 130.0,
+      "eval_accuracy": 0.9155844155844156,
+      "eval_loss": 0.6164301037788391,
+      "eval_runtime": 1.7394,
+      "eval_samples_per_second": 88.537,
+      "eval_steps_per_second": 5.749,
+      "step": 1495
+    },
+    {
+      "epoch": 130.43,
+      "learning_rate": 1.6164105173215904e-05,
+      "loss": 0.011,
+      "step": 1500
+    },
+    {
+      "epoch": 130.96,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.7818012237548828,
+      "eval_runtime": 1.7684,
+      "eval_samples_per_second": 87.085,
+      "eval_steps_per_second": 5.655,
+      "step": 1506
+    },
+    {
+      "epoch": 132.0,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.8022345900535583,
+      "eval_runtime": 1.7544,
+      "eval_samples_per_second": 87.779,
+      "eval_steps_per_second": 5.7,
+      "step": 1518
+    },
+    {
+      "epoch": 132.17,
+      "learning_rate": 1.4052013648906114e-05,
+      "loss": 0.0023,
+      "step": 1520
+    },
+    {
+      "epoch": 132.96,
+      "eval_accuracy": 0.8636363636363636,
+      "eval_loss": 0.8653693199157715,
+      "eval_runtime": 1.7604,
+      "eval_samples_per_second": 87.48,
+      "eval_steps_per_second": 5.681,
+      "step": 1529
+    },
+    {
+      "epoch": 133.91,
+      "learning_rate": 1.0723360272592418e-05,
+      "loss": 0.0222,
+      "step": 1540
+    },
+    {
+      "epoch": 134.0,
+      "eval_accuracy": 0.8896103896103896,
+      "eval_loss": 0.6707515716552734,
+      "eval_runtime": 1.7434,
+      "eval_samples_per_second": 88.334,
+      "eval_steps_per_second": 5.736,
+      "step": 1541
+    },
+    {
+      "epoch": 134.96,
+      "eval_accuracy": 0.935064935064935,
+      "eval_loss": 0.4996984004974365,
+      "eval_runtime": 1.7534,
+      "eval_samples_per_second": 87.83,
+      "eval_steps_per_second": 5.703,
+      "step": 1552
+    },
+    {
+      "epoch": 135.65,
+      "learning_rate": 6.886265186108914e-06,
+      "loss": 0.0126,
+      "step": 1560
+    },
+    {
+      "epoch": 136.0,
+      "eval_accuracy": 0.922077922077922,
+      "eval_loss": 0.5560286641120911,
+      "eval_runtime": 1.7314,
+      "eval_samples_per_second": 88.946,
+      "eval_steps_per_second": 5.776,
+      "step": 1564
+    },
+    {
+      "epoch": 136.96,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.6162758469581604,
+      "eval_runtime": 1.7204,
+      "eval_samples_per_second": 89.515,
+      "eval_steps_per_second": 5.813,
+      "step": 1575
+    },
+    {
+      "epoch": 137.39,
+      "learning_rate": 3.3570117358101172e-06,
+      "loss": 0.014,
+      "step": 1580
+    },
+    {
+      "epoch": 138.0,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.6488694548606873,
+      "eval_runtime": 1.7194,
+      "eval_samples_per_second": 89.567,
+      "eval_steps_per_second": 5.816,
+      "step": 1587
+    },
+    {
+      "epoch": 138.96,
+      "eval_accuracy": 0.8701298701298701,
+      "eval_loss": 0.684516191482544,
+      "eval_runtime": 1.7304,
+      "eval_samples_per_second": 88.997,
+      "eval_steps_per_second": 5.779,
+      "step": 1598
+    },
+    {
+      "epoch": 139.13,
+      "learning_rate": 8.863946639715635e-07,
+      "loss": 0.0088,
+      "step": 1600
+    },
+    {
+      "epoch": 140.0,
+      "eval_accuracy": 0.8766233766233766,
+      "eval_loss": 0.7022619247436523,
+      "eval_runtime": 1.7374,
+      "eval_samples_per_second": 88.639,
+      "eval_steps_per_second": 5.756,
+      "step": 1610
+    },
+    {
+      "epoch": 140.87,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0022,
+      "step": 1620
+    },
+    {
+      "epoch": 140.96,
+      "eval_accuracy": 0.8701298701298701,
+      "eval_loss": 0.762221097946167,
+      "eval_runtime": 1.6984,
+      "eval_samples_per_second": 90.675,
+      "eval_steps_per_second": 5.888,
+      "step": 1621
+    },
+    {
+      "epoch": 142.0,
+      "eval_accuracy": 0.8961038961038961,
+      "eval_loss": 0.6736029982566833,
+      "eval_runtime": 1.7594,
+      "eval_samples_per_second": 87.53,
+      "eval_steps_per_second": 5.684,
+      "step": 1633
+    },
+    {
+      "epoch": 142.61,
+      "learning_rate": 1.5780272002695102e-05,
+      "loss": 0.0017,
+      "step": 1640
+    },
+    {
+      "epoch": 142.96,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_loss": 0.5298991799354553,
+      "eval_runtime": 1.6954,
+      "eval_samples_per_second": 90.835,
+      "eval_steps_per_second": 5.898,
+      "step": 1644
+    },
+    {
+      "epoch": 143.48,
+      "eval_accuracy": 0.9025974025974026,
+      "eval_loss": 0.5584802031517029,
+      "eval_runtime": 1.6964,
+      "eval_samples_per_second": 90.782,
+      "eval_steps_per_second": 5.895,
+      "step": 1650
+    },
+    {
+      "epoch": 143.48,
+      "step": 1650,
+      "total_flos": 8.017005638819359e+18,
+      "train_loss": 0.028458750352940775,
+      "train_runtime": 2286.6106,
+      "train_samples_per_second": 47.297,
+      "train_steps_per_second": 0.722
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1650,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "total_flos": 8.017005638819359e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee48722e8d443342cee852ce36ed0c4d288098a9d3d580fb816532456bc52a90
+size 4664