End of training

Browse files

Files changed (6) hide show

README.md +5 -5
all_results.json +16 -0
eval_results.json +11 -0
runs/Mar16_11-27-33_774ccf98b3fe/events.out.tfevents.1742127600.774ccf98b3fe.5066.2 +3 -0
train_results.json +8 -0
trainer_state.json +1030 -0

README.md CHANGED Viewed

@@ -21,11 +21,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/beit-base-patch16-224-pt22k-ft22k](https://huggingface.co/microsoft/beit-base-patch16-224-pt22k-ft22k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2066
-- Accuracy: 0.9181
-- F1: 0.9170
-- Precision: 0.9201
-- Recall: 0.9181
 ## Model description

 This model is a fine-tuned version of [microsoft/beit-base-patch16-224-pt22k-ft22k](https://huggingface.co/microsoft/beit-base-patch16-224-pt22k-ft22k) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2029
+- Accuracy: 0.9222
+- F1: 0.9214
+- Precision: 0.9234
+- Recall: 0.9222
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 47.9907120743034,
+    "eval_accuracy": 0.9222071460877431,
+    "eval_f1": 0.9213530294983667,
+    "eval_loss": 0.20286186039447784,
+    "eval_precision": 0.9233953907433776,
+    "eval_recall": 0.9222071460877431,
+    "eval_runtime": 9.8001,
+    "eval_samples_per_second": 225.611,
+    "eval_steps_per_second": 28.265,
+    "total_flos": 2.738563601264935e+19,
+    "train_loss": 0.3012936460475127,
+    "train_runtime": 3086.985,
+    "train_samples_per_second": 80.203,
+    "train_steps_per_second": 1.244
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 47.9907120743034,
+    "eval_accuracy": 0.9222071460877431,
+    "eval_f1": 0.9213530294983667,
+    "eval_loss": 0.20286186039447784,
+    "eval_precision": 0.9233953907433776,
+    "eval_recall": 0.9222071460877431,
+    "eval_runtime": 9.8001,
+    "eval_samples_per_second": 225.611,
+    "eval_steps_per_second": 28.265
+}

runs/Mar16_11-27-33_774ccf98b3fe/events.out.tfevents.1742127600.774ccf98b3fe.5066.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc918b6f8d2e9be6798aab0da6703d7db791ebfb85d742fa2e2569de3759b156
+size 560

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 47.9907120743034,
+    "total_flos": 2.738563601264935e+19,
+    "train_loss": 0.3012936460475127,
+    "train_runtime": 3086.985,
+    "train_samples_per_second": 80.203,
+    "train_steps_per_second": 1.244
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1030 @@

+{
+  "best_metric": 0.9213530294983667,
+  "best_model_checkpoint": "beit-base-patch16-224-pt22k-ft22k-finetuned-stroke-binary/checkpoint-3200",
+  "epoch": 47.9907120743034,
+  "eval_steps": 100,
+  "global_step": 3840,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.6191950464396285,
+      "grad_norm": 5.044180870056152,
+      "learning_rate": 2.604166666666667e-06,
+      "loss": 0.744,
+      "step": 50
+    },
+    {
+      "epoch": 1.2476780185758514,
+      "grad_norm": 1.894531011581421,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 0.7256,
+      "step": 100
+    },
+    {
+      "epoch": 1.2476780185758514,
+      "eval_accuracy": 0.5685210312075983,
+      "eval_f1": 0.48230573725672854,
+      "eval_loss": 0.6912839412689209,
+      "eval_precision": 0.47305459682975004,
+      "eval_recall": 0.5685210312075983,
+      "eval_runtime": 9.7307,
+      "eval_samples_per_second": 227.22,
+      "eval_steps_per_second": 28.467,
+      "step": 100
+    },
+    {
+      "epoch": 1.86687306501548,
+      "grad_norm": 1.9874528646469116,
+      "learning_rate": 7.8125e-06,
+      "loss": 0.7033,
+      "step": 150
+    },
+    {
+      "epoch": 2.4953560371517027,
+      "grad_norm": 2.1426079273223877,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.6695,
+      "step": 200
+    },
+    {
+      "epoch": 2.4953560371517027,
+      "eval_accuracy": 0.6209859791949344,
+      "eval_f1": 0.5163511984739979,
+      "eval_loss": 0.64801025390625,
+      "eval_precision": 0.5986617059765201,
+      "eval_recall": 0.6209859791949344,
+      "eval_runtime": 9.7733,
+      "eval_samples_per_second": 226.229,
+      "eval_steps_per_second": 28.343,
+      "step": 200
+    },
+    {
+      "epoch": 3.123839009287926,
+      "grad_norm": 1.4950852394104004,
+      "learning_rate": 1.3020833333333334e-05,
+      "loss": 0.6399,
+      "step": 250
+    },
+    {
+      "epoch": 3.7430340557275543,
+      "grad_norm": 1.932099461555481,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.5963,
+      "step": 300
+    },
+    {
+      "epoch": 3.7430340557275543,
+      "eval_accuracy": 0.6725463591135233,
+      "eval_f1": 0.6118497378760206,
+      "eval_loss": 0.5882277488708496,
+      "eval_precision": 0.6992514519414246,
+      "eval_recall": 0.6725463591135233,
+      "eval_runtime": 9.9265,
+      "eval_samples_per_second": 222.737,
+      "eval_steps_per_second": 27.905,
+      "step": 300
+    },
+    {
+      "epoch": 4.371517027863777,
+      "grad_norm": 1.4714239835739136,
+      "learning_rate": 1.8229166666666668e-05,
+      "loss": 0.5616,
+      "step": 350
+    },
+    {
+      "epoch": 4.9907120743034055,
+      "grad_norm": 1.6321817636489868,
+      "learning_rate": 1.9998942319271076e-05,
+      "loss": 0.518,
+      "step": 400
+    },
+    {
+      "epoch": 4.9907120743034055,
+      "eval_accuracy": 0.7480777928539123,
+      "eval_f1": 0.7167175429836762,
+      "eval_loss": 0.49900302290916443,
+      "eval_precision": 0.7891493639439078,
+      "eval_recall": 0.7480777928539123,
+      "eval_runtime": 9.9652,
+      "eval_samples_per_second": 221.873,
+      "eval_steps_per_second": 27.797,
+      "step": 400
+    },
+    {
+      "epoch": 5.6191950464396285,
+      "grad_norm": 2.7871556282043457,
+      "learning_rate": 1.998200798188685e-05,
+      "loss": 0.4858,
+      "step": 450
+    },
+    {
+      "epoch": 6.247678018575852,
+      "grad_norm": 3.0406832695007324,
+      "learning_rate": 1.9944456171551024e-05,
+      "loss": 0.4325,
+      "step": 500
+    },
+    {
+      "epoch": 6.247678018575852,
+      "eval_accuracy": 0.8073270013568521,
+      "eval_f1": 0.7957289617278764,
+      "eval_loss": 0.40903061628341675,
+      "eval_precision": 0.8231915996306657,
+      "eval_recall": 0.8073270013568521,
+      "eval_runtime": 10.0105,
+      "eval_samples_per_second": 220.868,
+      "eval_steps_per_second": 27.671,
+      "step": 500
+    },
+    {
+      "epoch": 6.86687306501548,
+      "grad_norm": 1.8095026016235352,
+      "learning_rate": 1.9886364450156485e-05,
+      "loss": 0.3996,
+      "step": 550
+    },
+    {
+      "epoch": 7.495356037151703,
+      "grad_norm": 2.2104787826538086,
+      "learning_rate": 1.9807852804032306e-05,
+      "loss": 0.3848,
+      "step": 600
+    },
+    {
+      "epoch": 7.495356037151703,
+      "eval_accuracy": 0.8340117593848937,
+      "eval_f1": 0.8257264682013935,
+      "eval_loss": 0.37033286690711975,
+      "eval_precision": 0.8481671958516468,
+      "eval_recall": 0.8340117593848937,
+      "eval_runtime": 10.0319,
+      "eval_samples_per_second": 220.396,
+      "eval_steps_per_second": 27.612,
+      "step": 600
+    },
+    {
+      "epoch": 8.123839009287925,
+      "grad_norm": 1.679534912109375,
+      "learning_rate": 1.970908339611638e-05,
+      "loss": 0.3628,
+      "step": 650
+    },
+    {
+      "epoch": 8.743034055727554,
+      "grad_norm": 1.1306818723678589,
+      "learning_rate": 1.9590260231013774e-05,
+      "loss": 0.3532,
+      "step": 700
+    },
+    {
+      "epoch": 8.743034055727554,
+      "eval_accuracy": 0.8312980551786522,
+      "eval_f1": 0.8200843868501977,
+      "eval_loss": 0.39578977227211,
+      "eval_precision": 0.8564151669725956,
+      "eval_recall": 0.8312980551786522,
+      "eval_runtime": 10.0177,
+      "eval_samples_per_second": 220.71,
+      "eval_steps_per_second": 27.651,
+      "step": 700
+    },
+    {
+      "epoch": 9.371517027863778,
+      "grad_norm": 2.967256784439087,
+      "learning_rate": 1.945162873363268e-05,
+      "loss": 0.3368,
+      "step": 750
+    },
+    {
+      "epoch": 9.990712074303406,
+      "grad_norm": 1.7120331525802612,
+      "learning_rate": 1.9293475242268224e-05,
+      "loss": 0.3297,
+      "step": 800
+    },
+    {
+      "epoch": 9.990712074303406,
+      "eval_accuracy": 0.8611488014473089,
+      "eval_f1": 0.8558119987362278,
+      "eval_loss": 0.32570937275886536,
+      "eval_precision": 0.871840635108417,
+      "eval_recall": 0.8611488014473089,
+      "eval_runtime": 10.0508,
+      "eval_samples_per_second": 219.982,
+      "eval_steps_per_second": 27.56,
+      "step": 800
+    },
+    {
+      "epoch": 10.619195046439629,
+      "grad_norm": 1.371287226676941,
+      "learning_rate": 1.9116126417181188e-05,
+      "loss": 0.3143,
+      "step": 850
+    },
+    {
+      "epoch": 11.24767801857585,
+      "grad_norm": 1.5851930379867554,
+      "learning_rate": 1.8919948565893144e-05,
+      "loss": 0.3281,
+      "step": 900
+    },
+    {
+      "epoch": 11.24767801857585,
+      "eval_accuracy": 0.866576209859792,
+      "eval_f1": 0.8611949189284244,
+      "eval_loss": 0.3168693780899048,
+      "eval_precision": 0.8790588339902896,
+      "eval_recall": 0.866576209859792,
+      "eval_runtime": 10.0434,
+      "eval_samples_per_second": 220.144,
+      "eval_steps_per_second": 27.58,
+      "step": 900
+    },
+    {
+      "epoch": 11.86687306501548,
+      "grad_norm": 0.8977594375610352,
+      "learning_rate": 1.8705346886591667e-05,
+      "loss": 0.3036,
+      "step": 950
+    },
+    {
+      "epoch": 12.495356037151703,
+      "grad_norm": 2.8011789321899414,
+      "learning_rate": 1.847276463120828e-05,
+      "loss": 0.2938,
+      "step": 1000
+    },
+    {
+      "epoch": 12.495356037151703,
+      "eval_accuracy": 0.8864767073722297,
+      "eval_f1": 0.8841053273932936,
+      "eval_loss": 0.28136056661605835,
+      "eval_precision": 0.8900209862709351,
+      "eval_recall": 0.8864767073722297,
+      "eval_runtime": 10.0799,
+      "eval_samples_per_second": 219.348,
+      "eval_steps_per_second": 27.481,
+      "step": 1000
+    },
+    {
+      "epoch": 13.123839009287925,
+      "grad_norm": 2.865165948867798,
+      "learning_rate": 1.822268218989775e-05,
+      "loss": 0.294,
+      "step": 1050
+    },
+    {
+      "epoch": 13.743034055727554,
+      "grad_norm": 1.8461377620697021,
+      "learning_rate": 1.79556160988098e-05,
+      "loss": 0.2866,
+      "step": 1100
+    },
+    {
+      "epoch": 13.743034055727554,
+      "eval_accuracy": 0.8869289914066033,
+      "eval_f1": 0.883705253652531,
+      "eval_loss": 0.2827624976634979,
+      "eval_precision": 0.8942761361900506,
+      "eval_recall": 0.8869289914066033,
+      "eval_runtime": 10.0748,
+      "eval_samples_per_second": 219.459,
+      "eval_steps_per_second": 27.494,
+      "step": 1100
+    },
+    {
+      "epoch": 14.371517027863778,
+      "grad_norm": 1.1585817337036133,
+      "learning_rate": 1.7672117973202526e-05,
+      "loss": 0.2667,
+      "step": 1150
+    },
+    {
+      "epoch": 14.990712074303406,
+      "grad_norm": 1.050703525543213,
+      "learning_rate": 1.737277336810124e-05,
+      "loss": 0.2884,
+      "step": 1200
+    },
+    {
+      "epoch": 14.990712074303406,
+      "eval_accuracy": 0.8846675712347354,
+      "eval_f1": 0.8810137319907275,
+      "eval_loss": 0.29289892315864563,
+      "eval_precision": 0.8936495972210173,
+      "eval_recall": 0.8846675712347354,
+      "eval_runtime": 10.0424,
+      "eval_samples_per_second": 220.167,
+      "eval_steps_per_second": 27.583,
+      "step": 1200
+    },
+    {
+      "epoch": 15.619195046439629,
+      "grad_norm": 1.1661638021469116,
+      "learning_rate": 1.705820056885596e-05,
+      "loss": 0.2722,
+      "step": 1250
+    },
+    {
+      "epoch": 16.24767801857585,
+      "grad_norm": 1.4716720581054688,
+      "learning_rate": 1.6729049314095578e-05,
+      "loss": 0.2808,
+      "step": 1300
+    },
+    {
+      "epoch": 16.24767801857585,
+      "eval_accuracy": 0.9014020805065581,
+      "eval_f1": 0.8998791257539092,
+      "eval_loss": 0.24578717350959778,
+      "eval_precision": 0.9034472507945439,
+      "eval_recall": 0.9014020805065581,
+      "eval_runtime": 10.1493,
+      "eval_samples_per_second": 217.847,
+      "eval_steps_per_second": 27.292,
+      "step": 1300
+    },
+    {
+      "epoch": 16.86687306501548,
+      "grad_norm": 1.2002067565917969,
+      "learning_rate": 1.6385999453716453e-05,
+      "loss": 0.2843,
+      "step": 1350
+    },
+    {
+      "epoch": 17.4953560371517,
+      "grad_norm": 2.676912307739258,
+      "learning_rate": 1.6029759544677298e-05,
+      "loss": 0.258,
+      "step": 1400
+    },
+    {
+      "epoch": 17.4953560371517,
+      "eval_accuracy": 0.9090909090909091,
+      "eval_f1": 0.908023053812085,
+      "eval_loss": 0.235076442360878,
+      "eval_precision": 0.9101607687708339,
+      "eval_recall": 0.9090909090909091,
+      "eval_runtime": 10.0503,
+      "eval_samples_per_second": 219.993,
+      "eval_steps_per_second": 27.561,
+      "step": 1400
+    },
+    {
+      "epoch": 18.123839009287927,
+      "grad_norm": 1.2184885740280151,
+      "learning_rate": 1.566106538750063e-05,
+      "loss": 0.2639,
+      "step": 1450
+    },
+    {
+      "epoch": 18.743034055727556,
+      "grad_norm": 1.8000015020370483,
+      "learning_rate": 1.528067850650368e-05,
+      "loss": 0.2744,
+      "step": 1500
+    },
+    {
+      "epoch": 18.743034055727556,
+      "eval_accuracy": 0.9014020805065581,
+      "eval_f1": 0.8993606111929588,
+      "eval_loss": 0.25163090229034424,
+      "eval_precision": 0.9056565314020832,
+      "eval_recall": 0.9014020805065581,
+      "eval_runtime": 10.0711,
+      "eval_samples_per_second": 219.538,
+      "eval_steps_per_second": 27.504,
+      "step": 1500
+    },
+    {
+      "epoch": 19.371517027863778,
+      "grad_norm": 0.9816193580627441,
+      "learning_rate": 1.4889384576897728e-05,
+      "loss": 0.2576,
+      "step": 1550
+    },
+    {
+      "epoch": 19.990712074303406,
+      "grad_norm": 1.5961647033691406,
+      "learning_rate": 1.4487991802004625e-05,
+      "loss": 0.261,
+      "step": 1600
+    },
+    {
+      "epoch": 19.990712074303406,
+      "eval_accuracy": 0.9068294889190411,
+      "eval_f1": 0.9050356054740915,
+      "eval_loss": 0.2453160583972931,
+      "eval_precision": 0.910682778753074,
+      "eval_recall": 0.9068294889190411,
+      "eval_runtime": 10.0772,
+      "eval_samples_per_second": 219.406,
+      "eval_steps_per_second": 27.488,
+      "step": 1600
+    },
+    {
+      "epoch": 20.61919504643963,
+      "grad_norm": 1.3451308012008667,
+      "learning_rate": 1.4077329243942368e-05,
+      "loss": 0.2573,
+      "step": 1650
+    },
+    {
+      "epoch": 21.24767801857585,
+      "grad_norm": 2.416846990585327,
+      "learning_rate": 1.3658245111227571e-05,
+      "loss": 0.2519,
+      "step": 1700
+    },
+    {
+      "epoch": 21.24767801857585,
+      "eval_accuracy": 0.8986883763003166,
+      "eval_f1": 0.8961275295230519,
+      "eval_loss": 0.25643372535705566,
+      "eval_precision": 0.9051038365282786,
+      "eval_recall": 0.8986883763003166,
+      "eval_runtime": 10.0812,
+      "eval_samples_per_second": 219.319,
+      "eval_steps_per_second": 27.477,
+      "step": 1700
+    },
+    {
+      "epoch": 21.86687306501548,
+      "grad_norm": 1.3278274536132812,
+      "learning_rate": 1.323160500683173e-05,
+      "loss": 0.2546,
+      "step": 1750
+    },
+    {
+      "epoch": 22.4953560371517,
+      "grad_norm": 2.4079225063323975,
+      "learning_rate": 1.2798290140309924e-05,
+      "loss": 0.2595,
+      "step": 1800
+    },
+    {
+      "epoch": 22.4953560371517,
+      "eval_accuracy": 0.9095431931252826,
+      "eval_f1": 0.9079295985892596,
+      "eval_loss": 0.23176445066928864,
+      "eval_precision": 0.9128858666371455,
+      "eval_recall": 0.9095431931252826,
+      "eval_runtime": 10.0549,
+      "eval_samples_per_second": 219.893,
+      "eval_steps_per_second": 27.549,
+      "step": 1800
+    },
+    {
+      "epoch": 23.123839009287927,
+      "grad_norm": 1.916286587715149,
+      "learning_rate": 1.2359195507694633e-05,
+      "loss": 0.2383,
+      "step": 1850
+    },
+    {
+      "epoch": 23.743034055727556,
+      "grad_norm": 3.8509888648986816,
+      "learning_rate": 1.1915228042914144e-05,
+      "loss": 0.2548,
+      "step": 1900
+    },
+    {
+      "epoch": 23.743034055727556,
+      "eval_accuracy": 0.9136137494346449,
+      "eval_f1": 0.912807074710142,
+      "eval_loss": 0.21959343552589417,
+      "eval_precision": 0.91415122785338,
+      "eval_recall": 0.9136137494346449,
+      "eval_runtime": 10.0827,
+      "eval_samples_per_second": 219.287,
+      "eval_steps_per_second": 27.473,
+      "step": 1900
+    },
+    {
+      "epoch": 24.371517027863778,
+      "grad_norm": 1.1695117950439453,
+      "learning_rate": 1.1467304744553618e-05,
+      "loss": 0.2336,
+      "step": 1950
+    },
+    {
+      "epoch": 24.990712074303406,
+      "grad_norm": 0.93059903383255,
+      "learning_rate": 1.101635078182802e-05,
+      "loss": 0.2327,
+      "step": 2000
+    },
+    {
+      "epoch": 24.990712074303406,
+      "eval_accuracy": 0.9068294889190411,
+      "eval_f1": 0.904968418219579,
+      "eval_loss": 0.23764155805110931,
+      "eval_precision": 0.9110196660671599,
+      "eval_recall": 0.9068294889190411,
+      "eval_runtime": 10.0796,
+      "eval_samples_per_second": 219.354,
+      "eval_steps_per_second": 27.481,
+      "step": 2000
+    },
+    {
+      "epoch": 25.61919504643963,
+      "grad_norm": 1.0239897966384888,
+      "learning_rate": 1.0563297583678877e-05,
+      "loss": 0.2351,
+      "step": 2050
+    },
+    {
+      "epoch": 26.24767801857585,
+      "grad_norm": 1.6756315231323242,
+      "learning_rate": 1.0109080914941825e-05,
+      "loss": 0.2563,
+      "step": 2100
+    },
+    {
+      "epoch": 26.24767801857585,
+      "eval_accuracy": 0.9027589326096789,
+      "eval_f1": 0.9005087315122816,
+      "eval_loss": 0.2420978993177414,
+      "eval_precision": 0.9082977649283199,
+      "eval_recall": 0.9027589326096789,
+      "eval_runtime": 10.0674,
+      "eval_samples_per_second": 219.621,
+      "eval_steps_per_second": 27.515,
+      "step": 2100
+    },
+    {
+      "epoch": 26.86687306501548,
+      "grad_norm": 2.134220838546753,
+      "learning_rate": 9.65463894355851e-06,
+      "loss": 0.2373,
+      "step": 2150
+    },
+    {
+      "epoch": 27.4953560371517,
+      "grad_norm": 0.8266007304191589,
+      "learning_rate": 9.200910302824964e-06,
+      "loss": 0.2348,
+      "step": 2200
+    },
+    {
+      "epoch": 27.4953560371517,
+      "eval_accuracy": 0.9109000452284034,
+      "eval_f1": 0.9095386566495041,
+      "eval_loss": 0.22126996517181396,
+      "eval_precision": 0.9132386550038264,
+      "eval_recall": 0.9109000452284034,
+      "eval_runtime": 10.0881,
+      "eval_samples_per_second": 219.169,
+      "eval_steps_per_second": 27.458,
+      "step": 2200
+    },
+    {
+      "epoch": 28.123839009287927,
+      "grad_norm": 1.1402108669281006,
+      "learning_rate": 8.74883215267881e-06,
+      "loss": 0.2366,
+      "step": 2250
+    },
+    {
+      "epoch": 28.743034055727556,
+      "grad_norm": 1.5788310766220093,
+      "learning_rate": 8.299338244029646e-06,
+      "loss": 0.2427,
+      "step": 2300
+    },
+    {
+      "epoch": 28.743034055727556,
+      "eval_accuracy": 0.9077340569877883,
+      "eval_f1": 0.9059575898869645,
+      "eval_loss": 0.23078913986682892,
+      "eval_precision": 0.9116313077973748,
+      "eval_recall": 0.9077340569877883,
+      "eval_runtime": 10.0773,
+      "eval_samples_per_second": 219.404,
+      "eval_steps_per_second": 27.488,
+      "step": 2300
+    },
+    {
+      "epoch": 29.371517027863778,
+      "grad_norm": 1.0100857019424438,
+      "learning_rate": 7.853356990130625e-06,
+      "loss": 0.2462,
+      "step": 2350
+    },
+    {
+      "epoch": 29.990712074303406,
+      "grad_norm": 1.6099952459335327,
+      "learning_rate": 7.411809548974792e-06,
+      "loss": 0.2166,
+      "step": 2400
+    },
+    {
+      "epoch": 29.990712074303406,
+      "eval_accuracy": 0.9140660334690185,
+      "eval_f1": 0.9127673040043155,
+      "eval_loss": 0.21517515182495117,
+      "eval_precision": 0.9164570638030407,
+      "eval_recall": 0.9140660334690185,
+      "eval_runtime": 10.0698,
+      "eval_samples_per_second": 219.568,
+      "eval_steps_per_second": 27.508,
+      "step": 2400
+    },
+    {
+      "epoch": 30.61919504643963,
+      "grad_norm": 2.7743020057678223,
+      "learning_rate": 6.975607920676901e-06,
+      "loss": 0.2315,
+      "step": 2450
+    },
+    {
+      "epoch": 31.24767801857585,
+      "grad_norm": 2.1687729358673096,
+      "learning_rate": 6.545653063770458e-06,
+      "loss": 0.2345,
+      "step": 2500
+    },
+    {
+      "epoch": 31.24767801857585,
+      "eval_accuracy": 0.9068294889190411,
+      "eval_f1": 0.9049003940630713,
+      "eval_loss": 0.22831733524799347,
+      "eval_precision": 0.9113708908998591,
+      "eval_recall": 0.9068294889190411,
+      "eval_runtime": 10.1159,
+      "eval_samples_per_second": 218.567,
+      "eval_steps_per_second": 27.383,
+      "step": 2500
+    },
+    {
+      "epoch": 31.86687306501548,
+      "grad_norm": 2.7222249507904053,
+      "learning_rate": 6.122833034310794e-06,
+      "loss": 0.2283,
+      "step": 2550
+    },
+    {
+      "epoch": 32.4953560371517,
+      "grad_norm": 1.5686038732528687,
+      "learning_rate": 5.708021151627712e-06,
+      "loss": 0.2355,
+      "step": 2600
+    },
+    {
+      "epoch": 32.4953560371517,
+      "eval_accuracy": 0.9118046132971506,
+      "eval_f1": 0.9103077963732922,
+      "eval_loss": 0.21731863915920258,
+      "eval_precision": 0.9148692757405781,
+      "eval_recall": 0.9118046132971506,
+      "eval_runtime": 10.0717,
+      "eval_samples_per_second": 219.526,
+      "eval_steps_per_second": 27.503,
+      "step": 2600
+    },
+    {
+      "epoch": 33.12383900928793,
+      "grad_norm": 2.4550020694732666,
+      "learning_rate": 5.302074194516291e-06,
+      "loss": 0.2207,
+      "step": 2650
+    },
+    {
+      "epoch": 33.743034055727556,
+      "grad_norm": 2.3107786178588867,
+      "learning_rate": 4.9058306315915826e-06,
+      "loss": 0.2291,
+      "step": 2700
+    },
+    {
+      "epoch": 33.743034055727556,
+      "eval_accuracy": 0.9127091813658977,
+      "eval_f1": 0.9112873759668951,
+      "eval_loss": 0.214884415268898,
+      "eval_precision": 0.9155228611707341,
+      "eval_recall": 0.9127091813658977,
+      "eval_runtime": 10.1219,
+      "eval_samples_per_second": 218.437,
+      "eval_steps_per_second": 27.366,
+      "step": 2700
+    },
+    {
+      "epoch": 34.371517027863774,
+      "grad_norm": 1.5490918159484863,
+      "learning_rate": 4.52010888946231e-06,
+      "loss": 0.2344,
+      "step": 2750
+    },
+    {
+      "epoch": 34.9907120743034,
+      "grad_norm": 1.1831104755401611,
+      "learning_rate": 4.1457056623005954e-06,
+      "loss": 0.2319,
+      "step": 2800
+    },
+    {
+      "epoch": 34.9907120743034,
+      "eval_accuracy": 0.9140660334690185,
+      "eval_f1": 0.912709884455563,
+      "eval_loss": 0.2123376727104187,
+      "eval_precision": 0.9167245062463679,
+      "eval_recall": 0.9140660334690185,
+      "eval_runtime": 10.0267,
+      "eval_samples_per_second": 220.512,
+      "eval_steps_per_second": 27.626,
+      "step": 2800
+    },
+    {
+      "epoch": 35.61919504643963,
+      "grad_norm": 1.047865629196167,
+      "learning_rate": 3.7833942662992286e-06,
+      "loss": 0.2253,
+      "step": 2850
+    },
+    {
+      "epoch": 36.247678018575854,
+      "grad_norm": 1.880428433418274,
+      "learning_rate": 3.4339230424153225e-06,
+      "loss": 0.222,
+      "step": 2900
+    },
+    {
+      "epoch": 36.247678018575854,
+      "eval_accuracy": 0.9181365897783809,
+      "eval_f1": 0.9171239767848,
+      "eval_loss": 0.2052914798259735,
+      "eval_precision": 0.9196609395815928,
+      "eval_recall": 0.9181365897783809,
+      "eval_runtime": 10.0315,
+      "eval_samples_per_second": 220.405,
+      "eval_steps_per_second": 27.613,
+      "step": 2900
+    },
+    {
+      "epoch": 36.86687306501548,
+      "grad_norm": 1.5235450267791748,
+      "learning_rate": 3.098013810699404e-06,
+      "loss": 0.2256,
+      "step": 2950
+    },
+    {
+      "epoch": 37.4953560371517,
+      "grad_norm": 1.710253357887268,
+      "learning_rate": 2.776360379402445e-06,
+      "loss": 0.2235,
+      "step": 3000
+    },
+    {
+      "epoch": 37.4953560371517,
+      "eval_accuracy": 0.9140660334690185,
+      "eval_f1": 0.9127386875836824,
+      "eval_loss": 0.21209371089935303,
+      "eval_precision": 0.9165890729592928,
+      "eval_recall": 0.9140660334690185,
+      "eval_runtime": 10.0492,
+      "eval_samples_per_second": 220.018,
+      "eval_steps_per_second": 27.564,
+      "step": 3000
+    },
+    {
+      "epoch": 38.12383900928793,
+      "grad_norm": 1.8632524013519287,
+      "learning_rate": 2.469627111940258e-06,
+      "loss": 0.2207,
+      "step": 3050
+    },
+    {
+      "epoch": 38.743034055727556,
+      "grad_norm": 1.2123332023620605,
+      "learning_rate": 2.178447554675136e-06,
+      "loss": 0.2221,
+      "step": 3100
+    },
+    {
+      "epoch": 38.743034055727556,
+      "eval_accuracy": 0.9194934418815016,
+      "eval_f1": 0.9188000621156364,
+      "eval_loss": 0.20125794410705566,
+      "eval_precision": 0.9199821991038324,
+      "eval_recall": 0.9194934418815016,
+      "eval_runtime": 10.0477,
+      "eval_samples_per_second": 220.05,
+      "eval_steps_per_second": 27.568,
+      "step": 3100
+    },
+    {
+      "epoch": 39.371517027863774,
+      "grad_norm": 1.6572494506835938,
+      "learning_rate": 1.903423128348959e-06,
+      "loss": 0.2411,
+      "step": 3150
+    },
+    {
+      "epoch": 39.9907120743034,
+      "grad_norm": 1.047083854675293,
+      "learning_rate": 1.6451218858706374e-06,
+      "loss": 0.2262,
+      "step": 3200
+    },
+    {
+      "epoch": 39.9907120743034,
+      "eval_accuracy": 0.9222071460877431,
+      "eval_f1": 0.9213530294983667,
+      "eval_loss": 0.20286186039447784,
+      "eval_precision": 0.9233953907433776,
+      "eval_recall": 0.9222071460877431,
+      "eval_runtime": 10.0854,
+      "eval_samples_per_second": 219.227,
+      "eval_steps_per_second": 27.465,
+      "step": 3200
+    },
+    {
+      "epoch": 40.61919504643963,
+      "grad_norm": 1.171499490737915,
+      "learning_rate": 1.4040773390235463e-06,
+      "loss": 0.2213,
+      "step": 3250
+    },
+    {
+      "epoch": 41.247678018575854,
+      "grad_norm": 2.6431760787963867,
+      "learning_rate": 1.1807873565164507e-06,
+      "loss": 0.2171,
+      "step": 3300
+    },
+    {
+      "epoch": 41.247678018575854,
+      "eval_accuracy": 0.9181365897783809,
+      "eval_f1": 0.9169933978820265,
+      "eval_loss": 0.2075406163930893,
+      "eval_precision": 0.9202292831462632,
+      "eval_recall": 0.9181365897783809,
+      "eval_runtime": 10.0343,
+      "eval_samples_per_second": 220.344,
+      "eval_steps_per_second": 27.605,
+      "step": 3300
+    },
+    {
+      "epoch": 41.86687306501548,
+      "grad_norm": 1.0989552736282349,
+      "learning_rate": 9.757131356538408e-07,
+      "loss": 0.2162,
+      "step": 3350
+    },
+    {
+      "epoch": 42.4953560371517,
+      "grad_norm": 1.126570463180542,
+      "learning_rate": 7.892782497497642e-07,
+      "loss": 0.2268,
+      "step": 3400
+    },
+    {
+      "epoch": 42.4953560371517,
+      "eval_accuracy": 0.919041157847128,
+      "eval_f1": 0.9179885980860357,
+      "eval_loss": 0.2045469731092453,
+      "eval_precision": 0.9208108708737649,
+      "eval_recall": 0.919041157847128,
+      "eval_runtime": 10.0534,
+      "eval_samples_per_second": 219.925,
+      "eval_steps_per_second": 27.553,
+      "step": 3400
+    },
+    {
+      "epoch": 43.12383900928793,
+      "grad_norm": 1.0992859601974487,
+      "learning_rate": 6.218677732526035e-07,
+      "loss": 0.2284,
+      "step": 3450
+    },
+    {
+      "epoch": 43.743034055727556,
+      "grad_norm": 0.8807310461997986,
+      "learning_rate": 4.7382748638786336e-07,
+      "loss": 0.2222,
+      "step": 3500
+    },
+    {
+      "epoch": 43.743034055727556,
+      "eval_accuracy": 0.9203980099502488,
+      "eval_f1": 0.9193757241191305,
+      "eval_loss": 0.20502084493637085,
+      "eval_precision": 0.9221532972644962,
+      "eval_recall": 0.9203980099502488,
+      "eval_runtime": 10.0674,
+      "eval_samples_per_second": 219.619,
+      "eval_steps_per_second": 27.514,
+      "step": 3500
+    },
+    {
+      "epoch": 44.371517027863774,
+      "grad_norm": 1.0601508617401123,
+      "learning_rate": 3.454631609617487e-07,
+      "loss": 0.2232,
+      "step": 3550
+    },
+    {
+      "epoch": 44.9907120743034,
+      "grad_norm": 1.5610824823379517,
+      "learning_rate": 2.370399288006664e-07,
+      "loss": 0.2169,
+      "step": 3600
+    },
+    {
+      "epoch": 44.9907120743034,
+      "eval_accuracy": 0.9176843057440073,
+      "eval_f1": 0.9165481260183203,
+      "eval_loss": 0.20695888996124268,
+      "eval_precision": 0.9197013630605291,
+      "eval_recall": 0.9176843057440073,
+      "eval_runtime": 10.0683,
+      "eval_samples_per_second": 219.6,
+      "eval_steps_per_second": 27.512,
+      "step": 3600
+    },
+    {
+      "epoch": 45.61919504643963,
+      "grad_norm": 1.097316861152649,
+      "learning_rate": 1.4878173413111485e-07,
+      "loss": 0.2269,
+      "step": 3650
+    },
+    {
+      "epoch": 46.247678018575854,
+      "grad_norm": 1.628519892692566,
+      "learning_rate": 8.087087103106461e-08,
+      "loss": 0.2245,
+      "step": 3700
+    },
+    {
+      "epoch": 46.247678018575854,
+      "eval_accuracy": 0.9181365897783809,
+      "eval_f1": 0.9170198637903132,
+      "eval_loss": 0.20643840730190277,
+      "eval_precision": 0.9201088948883855,
+      "eval_recall": 0.9181365897783809,
+      "eval_runtime": 10.0506,
+      "eval_samples_per_second": 219.986,
+      "eval_steps_per_second": 27.56,
+      "step": 3700
+    },
+    {
+      "epoch": 46.86687306501548,
+      "grad_norm": 0.9928280115127563,
+      "learning_rate": 3.3447606908196815e-08,
+      "loss": 0.212,
+      "step": 3750
+    },
+    {
+      "epoch": 47.4953560371517,
+      "grad_norm": 1.0919773578643799,
+      "learning_rate": 6.609892782699634e-09,
+      "loss": 0.2148,
+      "step": 3800
+    },
+    {
+      "epoch": 47.4953560371517,
+      "eval_accuracy": 0.9181365897783809,
+      "eval_f1": 0.9170198637903132,
+      "eval_loss": 0.20658649504184723,
+      "eval_precision": 0.9201088948883855,
+      "eval_recall": 0.9181365897783809,
+      "eval_runtime": 10.0329,
+      "eval_samples_per_second": 220.375,
+      "eval_steps_per_second": 27.609,
+      "step": 3800
+    },
+    {
+      "epoch": 47.9907120743034,
+      "step": 3840,
+      "total_flos": 2.738563601264935e+19,
+      "train_loss": 0.3012936460475127,
+      "train_runtime": 3086.985,
+      "train_samples_per_second": 80.203,
+      "train_steps_per_second": 1.244
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3840,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 48,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.738563601264935e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}