Training in progress, epoch 12, checkpoint

Browse files

Files changed (5) hide show

checkpoint-492/model.safetensors +1 -1
checkpoint-492/optimizer.pt +1 -1
checkpoint-492/rng_state.pth +1 -1
checkpoint-492/trainer_state.json +313 -313
checkpoint-492/training_args.bin +1 -1

checkpoint-492/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e981afc5c5878689d86a12cba5beeb3cd2dd40a2e80920babd987c6740c66e4
 size 592318676

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea06a7166e0cb6f67c545e8261fecfaa50b5ff2f245bee8491cbeb43c3ed0703
 size 592318676

checkpoint-492/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfbc2026ea09efb4e1cc1b855fddf0d0568e9e9574396508e395ce28d81a4464
 size 1014645498

 version https://git-lfs.github.com/spec/v1
+oid sha256:b453b657df9670e0c14adab9b5ef3ade6d8285ddd5c18130521bd050e85b646d
 size 1014645498

checkpoint-492/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e53e706c63ba0c275c9b6332ceadb76c337b40858f3ddadb0ab10622a334eb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c189466643703424c77db24cb1c70bb1b76b65752ddeeaa3d7bb424b6ea3dcb
 size 14244

checkpoint-492/trainer_state.json CHANGED Viewed

@@ -11,468 +11,468 @@
     {
       "epoch": 1.0,
       "eval_B": {
-        "f1-score": 0.668295065950171,
-        "precision": 0.7871116225546605,
-        "recall": 0.5806451612903226,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9265394121049587,
-        "precision": 0.9208257120459891,
-        "recall": 0.9323244616117254,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.8679097538295895,
-        "precision": 0.8648200526675119,
-        "recall": 0.8710216110019646,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.8980070727434973,
-      "eval_loss": 0.28059592843055725,
       "eval_macro avg": {
-        "f1-score": 0.820914743961573,
-        "precision": 0.8575857957560539,
-        "recall": 0.7946637446346708,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3597,
-      "eval_samples_per_second": 59.57,
-      "eval_steps_per_second": 8.09,
       "eval_weighted avg": {
-        "f1-score": 0.896759137754772,
-        "precision": 0.8967766387772022,
-        "recall": 0.8980070727434973,
-        "support": 30257.0
       },
       "step": 41
     },
     {
       "epoch": 2.0,
       "eval_B": {
-        "f1-score": 0.8330464716006883,
-        "precision": 0.8446771378708552,
-        "recall": 0.8217317487266553,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9456807848767648,
-        "precision": 0.950406156477127,
-        "recall": 0.9410021694269538,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.8991690558336167,
-        "precision": 0.8897009327819982,
-        "recall": 0.9088408644400786,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9255378920580362,
-      "eval_loss": 0.19417612254619598,
       "eval_macro avg": {
-        "f1-score": 0.89263210410369,
-        "precision": 0.8949280757099934,
-        "recall": 0.8905249275312292,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3644,
-      "eval_samples_per_second": 59.368,
-      "eval_steps_per_second": 8.062,
       "eval_weighted avg": {
-        "f1-score": 0.925646656486691,
-        "precision": 0.9258654564363231,
-        "recall": 0.9255378920580362,
-        "support": 30257.0
       },
       "step": 82
     },
     {
       "epoch": 3.0,
       "eval_B": {
-        "f1-score": 0.8500201045436268,
-        "precision": 0.8074866310160428,
-        "recall": 0.8972835314091681,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9522313010685104,
-        "precision": 0.942701581540057,
-        "recall": 0.9619556590295782,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.907826437534647,
-        "precision": 0.9321121804822519,
-        "recall": 0.8847740667976425,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9334699408401361,
-      "eval_loss": 0.18320441246032715,
       "eval_macro avg": {
-        "f1-score": 0.9033592810489282,
-        "precision": 0.894100131012784,
-        "recall": 0.9146710857454629,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3637,
-      "eval_samples_per_second": 59.395,
-      "eval_steps_per_second": 8.066,
       "eval_weighted avg": {
-        "f1-score": 0.9333118344895024,
-        "precision": 0.9338744237092824,
-        "recall": 0.9334699408401361,
-        "support": 30257.0
       },
       "step": 123
     },
     {
       "epoch": 4.0,
       "eval_B": {
-        "f1-score": 0.8664440734557596,
-        "precision": 0.8522167487684729,
-        "recall": 0.8811544991511036,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9518863198966544,
-        "precision": 0.9485603194619588,
-        "recall": 0.9552357267580295,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9081091791747165,
-        "precision": 0.9159588288198262,
-        "recall": 0.9003929273084479,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9338995934825,
-      "eval_loss": 0.17474766075611115,
       "eval_macro avg": {
-        "f1-score": 0.9088131908423769,
-        "precision": 0.905578632350086,
-        "recall": 0.912261051072527,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3717,
-      "eval_samples_per_second": 59.053,
-      "eval_steps_per_second": 8.02,
       "eval_weighted avg": {
-        "f1-score": 0.9338309192007261,
-        "precision": 0.9338405554069026,
-        "recall": 0.9338995934825,
-        "support": 30257.0
       },
       "step": 164
     },
     {
       "epoch": 5.0,
       "eval_B": {
-        "f1-score": 0.8666666666666667,
-        "precision": 0.8224085365853658,
-        "recall": 0.9159592529711376,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9542531309396725,
-        "precision": 0.9393582120155833,
-        "recall": 0.9696280226467009,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9089055411123006,
-        "precision": 0.9446858111688037,
-        "recall": 0.8757367387033399,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9359487060845424,
-      "eval_loss": 0.18612883985042572,
       "eval_macro avg": {
-        "f1-score": 0.9099417795728799,
-        "precision": 0.9021508532565843,
-        "recall": 0.9204413381070594,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3578,
-      "eval_samples_per_second": 59.654,
-      "eval_steps_per_second": 8.101,
       "eval_weighted avg": {
-        "f1-score": 0.9355858698312928,
-        "precision": 0.9365974704259672,
-        "recall": 0.9359487060845424,
-        "support": 30257.0
       },
       "step": 205
     },
     {
       "epoch": 6.0,
       "eval_B": {
-        "f1-score": 0.8542262147815436,
-        "precision": 0.8229740361919748,
-        "recall": 0.8879456706281834,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9509714713911042,
-        "precision": 0.962094547029837,
-        "recall": 0.9401026509339119,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9120247354944683,
-        "precision": 0.897328643407168,
-        "recall": 0.9272102161100196,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9337343424662061,
-      "eval_loss": 0.19629183411598206,
       "eval_macro avg": {
-        "f1-score": 0.9057408072223719,
-        "precision": 0.8941324088763266,
-        "recall": 0.9184195125573716,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3603,
-      "eval_samples_per_second": 59.544,
-      "eval_steps_per_second": 8.086,
       "eval_weighted avg": {
-        "f1-score": 0.9341012038922174,
-        "precision": 0.9348875912627161,
-        "recall": 0.9337343424662061,
-        "support": 30257.0
       },
       "step": 246
     },
     {
       "epoch": 7.0,
       "eval_B": {
-        "f1-score": 0.8589743589743589,
-        "precision": 0.8133535660091047,
-        "recall": 0.9100169779286927,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9495904221802143,
-        "precision": 0.9424149252175725,
-        "recall": 0.9568760251865178,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9019568489713999,
-        "precision": 0.9218461538461539,
-        "recall": 0.8829076620825147,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9301649205142611,
-      "eval_loss": 0.23149603605270386,
       "eval_macro avg": {
-        "f1-score": 0.9035072100419911,
-        "precision": 0.8925382150242771,
-        "recall": 0.9166002217325749,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3656,
-      "eval_samples_per_second": 59.314,
-      "eval_steps_per_second": 8.055,
       "eval_weighted avg": {
-        "f1-score": 0.9300360877213377,
-        "precision": 0.9304697762038363,
-        "recall": 0.9301649205142611,
-        "support": 30257.0
       },
       "step": 287
     },
     {
       "epoch": 8.0,
       "eval_B": {
-        "f1-score": 0.87409200968523,
-        "precision": 0.833076923076923,
-        "recall": 0.9193548387096774,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.952083279518508,
-        "precision": 0.9300999293428889,
-        "recall": 0.9751309593100164,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9016198312891373,
-        "precision": 0.9527507382697146,
-        "recall": 0.8556974459724951,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9327758865717024,
-      "eval_loss": 0.2542731761932373,
       "eval_macro avg": {
-        "f1-score": 0.9092650401642918,
-        "precision": 0.9053091968965088,
-        "recall": 0.9167277479973963,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3569,
-      "eval_samples_per_second": 59.697,
-      "eval_steps_per_second": 8.107,
       "eval_weighted avg": {
-        "f1-score": 0.932068353424097,
-        "precision": 0.9339434079922521,
-        "recall": 0.9327758865717024,
-        "support": 30257.0
       },
       "step": 328
     },
     {
       "epoch": 9.0,
       "eval_B": {
-        "f1-score": 0.8768793173506705,
-        "precision": 0.8409976617303195,
-        "recall": 0.9159592529711376,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9543993519220215,
-        "precision": 0.9428438661710037,
-        "recall": 0.9662416000846605,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9107449711917517,
-        "precision": 0.9379554445138455,
-        "recall": 0.8850687622789783,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9369732623855637,
-      "eval_loss": 0.23665204644203186,
       "eval_macro avg": {
-        "f1-score": 0.9140078801548146,
-        "precision": 0.9072656574717229,
-        "recall": 0.9224232051115923,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3607,
-      "eval_samples_per_second": 59.526,
-      "eval_steps_per_second": 8.084,
       "eval_weighted avg": {
-        "f1-score": 0.9366936905359226,
-        "precision": 0.9372339589990767,
-        "recall": 0.9369732623855637,
-        "support": 30257.0
       },
       "step": 369
     },
     {
       "epoch": 10.0,
       "eval_B": {
-        "f1-score": 0.8608903020667728,
-        "precision": 0.8094170403587444,
-        "recall": 0.9193548387096774,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9494098249103614,
-        "precision": 0.9393060590367686,
-        "recall": 0.9597333192232393,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9020162716660771,
-        "precision": 0.9288167343115828,
-        "recall": 0.8767190569744597,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9302310209207787,
-      "eval_loss": 0.27300411462783813,
       "eval_macro avg": {
-        "f1-score": 0.9041054662144038,
-        "precision": 0.8925132779023652,
-        "recall": 0.9186024049691256,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3606,
-      "eval_samples_per_second": 59.531,
-      "eval_steps_per_second": 8.084,
       "eval_weighted avg": {
-        "f1-score": 0.9300178703234373,
-        "precision": 0.9307199272423042,
-        "recall": 0.9302310209207787,
-        "support": 30257.0
       },
       "step": 410
     },
     {
       "epoch": 11.0,
       "eval_B": {
-        "f1-score": 0.8705882352941178,
-        "precision": 0.8337218337218337,
-        "recall": 0.9108658743633277,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9516225883090098,
-        "precision": 0.9392393320964749,
-        "recall": 0.9643367373935129,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9045882710422363,
-        "precision": 0.9336190675308383,
-        "recall": 0.8773084479371316,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.932974187791255,
-      "eval_loss": 0.2785099744796753,
       "eval_macro avg": {
-        "f1-score": 0.9089330315484546,
-        "precision": 0.9021934111163823,
-        "recall": 0.9175036865646574,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.357,
-      "eval_samples_per_second": 59.689,
-      "eval_steps_per_second": 8.106,
       "eval_weighted avg": {
-        "f1-score": 0.9326429202114688,
-        "precision": 0.9332402605968713,
-        "recall": 0.932974187791255,
-        "support": 30257.0
       },
       "step": 451
     },
     {
       "epoch": 12.0,
       "eval_B": {
-        "f1-score": 0.871941272430669,
-        "precision": 0.8390894819466248,
-        "recall": 0.9074702886247877,
-        "support": 1178.0
       },
       "eval_I": {
-        "f1-score": 0.9533659666298226,
-        "precision": 0.9483742604324834,
-        "recall": 0.9584104979099424,
-        "support": 18899.0
       },
       "eval_O": {
-        "f1-score": 0.9108851674641149,
-        "precision": 0.924524484014569,
-        "recall": 0.8976424361493124,
-        "support": 10180.0
       },
-      "eval_accuracy": 0.9359817562878012,
-      "eval_loss": 0.2702731788158417,
       "eval_macro avg": {
-        "f1-score": 0.9120641355082021,
-        "precision": 0.903996075464559,
-        "recall": 0.9211744075613475,
-        "support": 30257.0
-      },
-      "eval_runtime": 1.3674,
-      "eval_samples_per_second": 59.235,
-      "eval_steps_per_second": 8.044,
       "eval_weighted avg": {
-        "f1-score": 0.9359031373581331,
-        "precision": 0.9360951781377842,
-        "recall": 0.9359817562878012,
-        "support": 30257.0
       },
       "step": 492
     }
@@ -482,7 +482,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 16,
   "save_steps": 500,
-  "total_flos": 1720081324029600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 1.0,
       "eval_B": {
+        "f1-score": 0.6054590570719602,
+        "precision": 0.8472222222222222,
+        "recall": 0.47104247104247104,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9281628372580799,
+        "precision": 0.8894522863277146,
+        "recall": 0.9703962123099925,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.826809241932404,
+        "precision": 0.8983402489626556,
+        "recall": 0.7658295012380616,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.8905867765825543,
+      "eval_loss": 0.3152744174003601,
       "eval_macro avg": {
+        "f1-score": 0.786810378754148,
+        "precision": 0.8783382525041974,
+        "recall": 0.735756061530175,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3493,
+      "eval_samples_per_second": 59.291,
+      "eval_steps_per_second": 7.411,
       "eval_weighted avg": {
+        "f1-score": 0.8853532384745914,
+        "precision": 0.8901456571293072,
+        "recall": 0.8905867765825543,
+        "support": 29841.0
       },
       "step": 41
     },
     {
       "epoch": 2.0,
       "eval_B": {
+        "f1-score": 0.8510791366906474,
+        "precision": 0.7966329966329966,
+        "recall": 0.9135135135135135,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9477035236938031,
+        "precision": 0.9247806497510078,
+        "recall": 0.9717916770495888,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.8622397155916709,
+        "precision": 0.9339843212763032,
+        "recall": 0.8007310458672326,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9206460909486948,
+      "eval_loss": 0.22530655562877655,
       "eval_macro avg": {
+        "f1-score": 0.8870074586587071,
+        "precision": 0.8851326558867693,
+        "recall": 0.895345412143445,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.356,
+      "eval_samples_per_second": 58.999,
+      "eval_steps_per_second": 7.375,
       "eval_weighted avg": {
+        "f1-score": 0.9192209950358067,
+        "precision": 0.9218352098333846,
+        "recall": 0.9206460909486948,
+        "support": 29841.0
       },
       "step": 82
     },
     {
       "epoch": 3.0,
       "eval_B": {
+        "f1-score": 0.8718693284936478,
+        "precision": 0.8226027397260274,
+        "recall": 0.9274131274131274,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.95727385377943,
+        "precision": 0.9520828198175992,
+        "recall": 0.9625218041365562,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.8947336671291549,
+        "precision": 0.91600790513834,
+        "recall": 0.8744251857092324,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9359605911330049,
+      "eval_loss": 0.18091395497322083,
       "eval_macro avg": {
+        "f1-score": 0.9079589498007442,
+        "precision": 0.8968978215606556,
+        "recall": 0.9214533724196388,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3616,
+      "eval_samples_per_second": 58.756,
+      "eval_steps_per_second": 7.344,
       "eval_weighted avg": {
+        "f1-score": 0.9357932672298482,
+        "precision": 0.9362110978540797,
+        "recall": 0.9359605911330049,
+        "support": 29841.0
       },
       "step": 123
     },
     {
       "epoch": 4.0,
       "eval_B": {
+        "f1-score": 0.8863383931877082,
+        "precision": 0.8513513513513513,
+        "recall": 0.9243243243243243,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9597514129823103,
+        "precision": 0.942660770931462,
+        "recall": 0.9774732120608024,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.8954686530105526,
+        "precision": 0.9454712282081531,
+        "recall": 0.8504893290885509,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9390771086759827,
+      "eval_loss": 0.19618020951747894,
       "eval_macro avg": {
+        "f1-score": 0.913852819726857,
+        "precision": 0.9131611168303221,
+        "recall": 0.9174289551578925,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.355,
+      "eval_samples_per_second": 59.041,
+      "eval_steps_per_second": 7.38,
       "eval_weighted avg": {
+        "f1-score": 0.9382959675228925,
+        "precision": 0.9394969959174669,
+        "recall": 0.9390771086759827,
+        "support": 29841.0
       },
       "step": 164
     },
     {
       "epoch": 5.0,
       "eval_B": {
+        "f1-score": 0.8794862108046846,
+        "precision": 0.8609467455621301,
+        "recall": 0.8988416988416988,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.955187788105494,
+        "precision": 0.9656717938270347,
+        "recall": 0.9449289808123599,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.8953622519612366,
+        "precision": 0.8764539808018069,
+        "recall": 0.9151043509020163,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9344525987734995,
+      "eval_loss": 0.1936398446559906,
       "eval_macro avg": {
+        "f1-score": 0.9100120836238051,
+        "precision": 0.9010241733969906,
+        "recall": 0.9196250101853582,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3533,
+      "eval_samples_per_second": 59.115,
+      "eval_steps_per_second": 7.389,
       "eval_weighted avg": {
+        "f1-score": 0.9348997979361299,
+        "precision": 0.9357708116290517,
+        "recall": 0.9344525987734995,
+        "support": 29841.0
       },
       "step": 205
     },
     {
       "epoch": 6.0,
       "eval_B": {
+        "f1-score": 0.8813928182807399,
+        "precision": 0.8310533515731874,
+        "recall": 0.9382239382239382,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9576389581878055,
+        "precision": 0.958739197762126,
+        "recall": 0.9565412409668577,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.8994715278190131,
+        "precision": 0.9059808612440191,
+        "recall": 0.8930550642612899,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9377031600817667,
+      "eval_loss": 0.19472843408584595,
       "eval_macro avg": {
+        "f1-score": 0.9128344347625195,
+        "precision": 0.8985911368597775,
+        "recall": 0.9292734144840287,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.351,
+      "eval_samples_per_second": 59.216,
+      "eval_steps_per_second": 7.402,
       "eval_weighted avg": {
+        "f1-score": 0.9377985799116962,
+        "precision": 0.9382038060921168,
+        "recall": 0.9377031600817667,
+        "support": 29841.0
       },
       "step": 246
     },
     {
       "epoch": 7.0,
       "eval_B": {
+        "f1-score": 0.8952959028831563,
+        "precision": 0.8799403430275914,
+        "recall": 0.9111969111969112,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9592318906147891,
+        "precision": 0.9675979919882359,
+        "recall": 0.9510092200348866,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.9041714947856316,
+        "precision": 0.8888256065611118,
+        "recall": 0.9200565970993987,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.940484568211521,
+      "eval_loss": 0.20142190158367157,
       "eval_macro avg": {
+        "f1-score": 0.919566429427859,
+        "precision": 0.9121213138589797,
+        "recall": 0.9274209094437321,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3501,
+      "eval_samples_per_second": 59.256,
+      "eval_steps_per_second": 7.407,
       "eval_weighted avg": {
+        "f1-score": 0.9408087707079646,
+        "precision": 0.9414063343289258,
+        "recall": 0.940484568211521,
+        "support": 29841.0
       },
       "step": 287
     },
     {
       "epoch": 8.0,
       "eval_B": {
+        "f1-score": 0.8921130952380952,
+        "precision": 0.8607322325915291,
+        "recall": 0.9258687258687258,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9613341204250295,
+        "precision": 0.9490554125588849,
+        "recall": 0.9739347121853975,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.9013343126453666,
+        "precision": 0.9371261295659921,
+        "recall": 0.8681759226506308,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9417914949230924,
+      "eval_loss": 0.21689558029174805,
       "eval_macro avg": {
+        "f1-score": 0.9182605094361639,
+        "precision": 0.9156379249054686,
+        "recall": 0.9226597869015847,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3576,
+      "eval_samples_per_second": 58.928,
+      "eval_steps_per_second": 7.366,
       "eval_weighted avg": {
+        "f1-score": 0.9412778355352336,
+        "precision": 0.9418321034499257,
+        "recall": 0.9417914949230924,
+        "support": 29841.0
       },
       "step": 328
     },
     {
       "epoch": 9.0,
       "eval_B": {
+        "f1-score": 0.8985947588302315,
+        "precision": 0.8841554559043349,
+        "recall": 0.9135135135135135,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9622013609496847,
+        "precision": 0.958962427602594,
+        "recall": 0.9654622476949912,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.9079425609247452,
+        "precision": 0.9177306673090821,
+        "recall": 0.8983610423299139,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9441372608156563,
+      "eval_loss": 0.23563022911548615,
       "eval_macro avg": {
+        "f1-score": 0.9229128935682205,
+        "precision": 0.9202828502720036,
+        "recall": 0.9257789345128061,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3543,
+      "eval_samples_per_second": 59.071,
+      "eval_steps_per_second": 7.384,
       "eval_weighted avg": {
+        "f1-score": 0.944020353853535,
+        "precision": 0.9439977284504704,
+        "recall": 0.9441372608156563,
+        "support": 29841.0
       },
       "step": 369
     },
     {
       "epoch": 10.0,
       "eval_B": {
+        "f1-score": 0.883806713389893,
+        "precision": 0.846045197740113,
+        "recall": 0.9250965250965251,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9612357047378584,
+        "precision": 0.9549009000147544,
+        "recall": 0.9676551208572141,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.904241839135944,
+        "precision": 0.9259762728620861,
+        "recall": 0.8835043037377668,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9418920277470594,
+      "eval_loss": 0.2491447478532791,
       "eval_macro avg": {
+        "f1-score": 0.9164280857545651,
+        "precision": 0.9089741235389845,
+        "recall": 0.9254186498971686,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3513,
+      "eval_samples_per_second": 59.204,
+      "eval_steps_per_second": 7.401,
       "eval_weighted avg": {
+        "f1-score": 0.9416775291416837,
+        "precision": 0.941956364063297,
+        "recall": 0.9418920277470594,
+        "support": 29841.0
       },
       "step": 410
     },
     {
       "epoch": 11.0,
       "eval_B": {
+        "f1-score": 0.8962935230250841,
+        "precision": 0.8699127906976745,
+        "recall": 0.9243243243243243,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9609275419158742,
+        "precision": 0.9454922579711543,
+        "recall": 0.9768751557438325,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.8992907801418439,
+        "precision": 0.9427204551331781,
+        "recall": 0.8596863577408325,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9412888308032573,
+      "eval_loss": 0.2823159396648407,
       "eval_macro avg": {
+        "f1-score": 0.9188372816942675,
+        "precision": 0.9193751679340023,
+        "recall": 0.9202952792696631,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.359,
+      "eval_samples_per_second": 58.865,
+      "eval_steps_per_second": 7.358,
       "eval_weighted avg": {
+        "f1-score": 0.9406050851929385,
+        "precision": 0.9414245970352596,
+        "recall": 0.9412888308032573,
+        "support": 29841.0
       },
       "step": 451
     },
     {
       "epoch": 12.0,
       "eval_B": {
+        "f1-score": 0.896006028636021,
+        "precision": 0.8749080206033848,
+        "recall": 0.9181467181467181,
+        "support": 1295.0
       },
       "eval_I": {
+        "f1-score": 0.9606028094513335,
+        "precision": 0.9618267212950934,
+        "recall": 0.9593820084724645,
+        "support": 20065.0
       },
       "eval_O": {
+        "f1-score": 0.9053041477373296,
+        "precision": 0.9059990552668871,
+        "recall": 0.9046103053885155,
+        "support": 8481.0
       },
+      "eval_accuracy": 0.9420260715123487,
+      "eval_loss": 0.2665592133998871,
       "eval_macro avg": {
+        "f1-score": 0.9206376619415613,
+        "precision": 0.9142445990551217,
+        "recall": 0.9273796773358992,
+        "support": 29841.0
+      },
+      "eval_runtime": 1.3553,
+      "eval_samples_per_second": 59.028,
+      "eval_steps_per_second": 7.379,
       "eval_weighted avg": {
+        "f1-score": 0.9420832966618057,
+        "precision": 0.9421881651816595,
+        "recall": 0.9420260715123487,
+        "support": 29841.0
       },
       "step": 492
     }
   "num_input_tokens_seen": 0,
   "num_train_epochs": 16,
   "save_steps": 500,
+  "total_flos": 1725439832827200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-492/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:652d293bb850de701018062dce9e70536f9289fef58a5600464855a993d48087
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfd4286d28d76d8e118be26c28e11f81993aa41382921ccbb13e9cdeb7b58cf4
 size 4664