Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +132 -162
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ceab72e5dc3684140897d5c2a3b2593a7ea147ed1ff2614ede555c59383efed8
 size 344790040

 version https://git-lfs.github.com/spec/v1
+oid sha256:8962e483a174ca887089bca215fcc134b3d7cd29049dc3fa9e81f411b10ad198
 size 344790040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e72365216c73fd30bbb2b91d525f6b987587dd780debcaf06c0cef3c069130d1
 size 689692538

 version https://git-lfs.github.com/spec/v1
+oid sha256:a26081b96d44f7aa4a12360a1ef108c0d93dfb7afab42e1e27b764c11652af27
 size 689692538

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16ae9b4ab5daafbb59448b3702971ecfae343b959586f11e64de68c29a0039bb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbbd8b4a2dbc8fd3db2017ceb5ff77a698159c33408d0a4db73e8ca4ac709c19
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,201 +1,171 @@
 {
-  "best_metric": 0.9945750452079566,
-  "best_model_checkpoint": "./results/checkpoint-90",
-  "epoch": 2.4193548387096775,
-  "eval_steps": 30,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0,
-      "eval_accuracy": 0.4335378323108384,
-      "eval_f1": 0.0,
-      "eval_loss": 0.8338117599487305,
-      "eval_precision": 0.0,
-      "eval_recall": 0.0,
-      "eval_roc_auc": 0.49765258215962443,
-      "eval_runtime": 21.4766,
-      "eval_samples_per_second": 22.769,
-      "eval_steps_per_second": 0.372,
       "step": 0
     },
     {
-      "epoch": 0.16129032258064516,
-      "grad_norm": 248532.359375,
-      "learning_rate": 5e-05,
-      "loss": 0.6955,
-      "step": 10
-    },
-    {
-      "epoch": 0.3225806451612903,
-      "grad_norm": 282179.78125,
-      "learning_rate": 4.918032786885246e-05,
-      "loss": 0.3455,
-      "step": 20
-    },
-    {
-      "epoch": 0.4838709677419355,
-      "grad_norm": 89623.296875,
-      "learning_rate": 4.836065573770492e-05,
-      "loss": 0.1399,
-      "step": 30
     },
     {
-      "epoch": 0.4838709677419355,
-      "eval_accuracy": 0.983640081799591,
-      "eval_f1": 0.9852941176470589,
-      "eval_loss": 0.04734700545668602,
       "eval_precision": 1.0,
-      "eval_recall": 0.9710144927536232,
-      "eval_roc_auc": 0.9855072463768115,
-      "eval_runtime": 23.8626,
-      "eval_samples_per_second": 20.492,
-      "eval_steps_per_second": 0.335,
-      "step": 30
-    },
-    {
-      "epoch": 0.6451612903225806,
-      "grad_norm": 94711.421875,
-      "learning_rate": 4.754098360655738e-05,
-      "loss": 0.1264,
-      "step": 40
-    },
-    {
-      "epoch": 0.8064516129032258,
-      "grad_norm": 5300.99853515625,
-      "learning_rate": 4.672131147540984e-05,
-      "loss": 0.0676,
-      "step": 50
-    },
-    {
-      "epoch": 0.967741935483871,
-      "grad_norm": 832800.4375,
-      "learning_rate": 4.59016393442623e-05,
-      "loss": 0.1843,
-      "step": 60
-    },
-    {
-      "epoch": 0.967741935483871,
-      "eval_accuracy": 0.9938650306748467,
-      "eval_f1": 0.9945553539019963,
-      "eval_loss": 0.016523737460374832,
-      "eval_precision": 0.9963636363636363,
-      "eval_recall": 0.9927536231884058,
-      "eval_roc_auc": 0.9940293937538274,
-      "eval_runtime": 23.1377,
-      "eval_samples_per_second": 21.134,
-      "eval_steps_per_second": 0.346,
-      "step": 60
     },
     {
-      "epoch": 1.129032258064516,
-      "grad_norm": 165031.5,
-      "learning_rate": 4.508196721311476e-05,
-      "loss": 0.1003,
-      "step": 70
-    },
-    {
-      "epoch": 1.2903225806451613,
-      "grad_norm": 6823.15771484375,
-      "learning_rate": 4.426229508196721e-05,
-      "loss": 0.0504,
-      "step": 80
     },
     {
-      "epoch": 1.4516129032258065,
-      "grad_norm": 103032.0625,
-      "learning_rate": 4.3442622950819674e-05,
-      "loss": 0.0636,
-      "step": 90
     },
     {
-      "epoch": 1.4516129032258065,
-      "eval_accuracy": 0.9938650306748467,
-      "eval_f1": 0.9945750452079566,
-      "eval_loss": 0.024305040016770363,
-      "eval_precision": 0.9927797833935018,
-      "eval_recall": 0.9963768115942029,
-      "eval_roc_auc": 0.9934935701163503,
-      "eval_runtime": 23.6734,
-      "eval_samples_per_second": 20.656,
-      "eval_steps_per_second": 0.338,
-      "step": 90
     },
     {
-      "epoch": 1.6129032258064515,
-      "grad_norm": 1728276.875,
-      "learning_rate": 4.262295081967213e-05,
-      "loss": 0.2189,
-      "step": 100
     },
     {
-      "epoch": 1.7741935483870968,
-      "grad_norm": 168125.453125,
-      "learning_rate": 4.1803278688524595e-05,
-      "loss": 0.0983,
-      "step": 110
     },
     {
-      "epoch": 1.935483870967742,
-      "grad_norm": 88308.171875,
-      "learning_rate": 4.098360655737705e-05,
-      "loss": 0.073,
-      "step": 120
     },
     {
-      "epoch": 1.935483870967742,
-      "eval_accuracy": 0.9775051124744376,
-      "eval_f1": 0.9796672828096119,
-      "eval_loss": 0.10954457521438599,
-      "eval_precision": 1.0,
-      "eval_recall": 0.9601449275362319,
-      "eval_roc_auc": 0.980072463768116,
-      "eval_runtime": 23.0631,
-      "eval_samples_per_second": 21.203,
-      "eval_steps_per_second": 0.347,
-      "step": 120
     },
     {
-      "epoch": 2.096774193548387,
-      "grad_norm": 120.51848602294922,
-      "learning_rate": 4.016393442622951e-05,
-      "loss": 0.1133,
-      "step": 130
     },
     {
-      "epoch": 2.258064516129032,
-      "grad_norm": 14.447233200073242,
-      "learning_rate": 3.934426229508197e-05,
-      "loss": 0.2497,
-      "step": 140
     },
     {
-      "epoch": 2.4193548387096775,
-      "grad_norm": 458481.71875,
-      "learning_rate": 3.8524590163934424e-05,
-      "loss": 0.1631,
-      "step": 150
     },
     {
-      "epoch": 2.4193548387096775,
-      "eval_accuracy": 0.967280163599182,
-      "eval_f1": 0.9701492537313433,
-      "eval_loss": 0.21287178993225098,
-      "eval_precision": 1.0,
-      "eval_recall": 0.9420289855072463,
-      "eval_roc_auc": 0.9710144927536232,
-      "eval_runtime": 23.3482,
-      "eval_samples_per_second": 20.944,
-      "eval_steps_per_second": 0.343,
-      "step": 150
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 620,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 150,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -204,12 +174,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.2129066109763584e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9884615384615384,
+  "best_model_checkpoint": "./results/checkpoint-30",
+  "epoch": 1.0,
+  "eval_steps": 5,
+  "global_step": 38,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0,
+      "eval_accuracy": 0.43902439024390244,
+      "eval_f1": 0.7958371594735232,
+      "eval_loss": 0.8333200216293335,
+      "eval_precision": 0.43807919123841615,
+      "eval_recall": 1.0,
+      "eval_roc_auc": 0.5014947683109118,
+      "eval_runtime": 52.2016,
+      "eval_samples_per_second": 22.777,
+      "eval_steps_per_second": 0.364,
       "step": 0
     },
     {
+      "epoch": 0.13157894736842105,
+      "grad_norm": 499350.4375,
+      "learning_rate": 2.5e-05,
+      "loss": 0.7332,
+      "step": 5
     },
     {
+      "epoch": 0.13157894736842105,
+      "eval_accuracy": 0.6181665264928511,
+      "eval_f1": 0.1537744641192917,
+      "eval_loss": 0.6050995588302612,
       "eval_precision": 1.0,
+      "eval_recall": 0.12692307692307692,
+      "eval_roc_auc": 0.5634615384615385,
+      "eval_runtime": 52.7835,
+      "eval_samples_per_second": 22.526,
+      "eval_steps_per_second": 0.36,
+      "step": 5
     },
     {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 544000.625,
+      "learning_rate": 5e-05,
+      "loss": 0.5445,
+      "step": 10
     },
     {
+      "epoch": 0.2631578947368421,
+      "eval_accuracy": 0.8275862068965517,
+      "eval_f1": 0.9246697607997144,
+      "eval_loss": 0.3963133990764618,
+      "eval_precision": 0.7184466019417476,
+      "eval_recall": 0.9961538461538462,
+      "eval_roc_auc": 0.8463579395193745,
+      "eval_runtime": 51.9808,
+      "eval_samples_per_second": 22.874,
+      "eval_steps_per_second": 0.366,
+      "step": 10
     },
     {
+      "epoch": 0.39473684210526316,
+      "grad_norm": 215321.078125,
+      "learning_rate": 4.107142857142857e-05,
+      "loss": 0.328,
+      "step": 15
     },
     {
+      "epoch": 0.39473684210526316,
+      "eval_accuracy": 0.928511354079058,
+      "eval_f1": 0.9660574412532638,
+      "eval_loss": 0.2025815099477768,
+      "eval_precision": 0.8618968386023295,
+      "eval_recall": 0.9961538461538462,
+      "eval_roc_auc": 0.9360440381740831,
+      "eval_runtime": 52.187,
+      "eval_samples_per_second": 22.783,
+      "eval_steps_per_second": 0.364,
+      "step": 15
     },
     {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 447920.53125,
+      "learning_rate": 3.2142857142857144e-05,
+      "loss": 0.2165,
+      "step": 20
     },
     {
+      "epoch": 0.5263157894736842,
+      "eval_accuracy": 0.9865433137089992,
+      "eval_f1": 0.9799382716049382,
+      "eval_loss": 0.061642639338970184,
+      "eval_precision": 0.9921875,
+      "eval_recall": 0.9769230769230769,
+      "eval_roc_auc": 0.9854720018397148,
+      "eval_runtime": 51.8127,
+      "eval_samples_per_second": 22.948,
+      "eval_steps_per_second": 0.367,
+      "step": 20
     },
     {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 41190.76953125,
+      "learning_rate": 2.3214285714285715e-05,
+      "loss": 0.0754,
+      "step": 25
     },
     {
+      "epoch": 0.6578947368421053,
+      "eval_accuracy": 0.9806560134566863,
+      "eval_f1": 0.9854573287409109,
+      "eval_loss": 0.050207946449518204,
+      "eval_precision": 0.9662288930581614,
+      "eval_recall": 0.9903846153846154,
+      "eval_roc_auc": 0.9817393928941014,
+      "eval_runtime": 51.4902,
+      "eval_samples_per_second": 23.092,
+      "eval_steps_per_second": 0.369,
+      "step": 25
     },
     {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 14033.9931640625,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.022,
+      "step": 30
     },
     {
+      "epoch": 0.7894736842105263,
+      "eval_accuracy": 0.9899074852817493,
+      "eval_f1": 0.9884615384615384,
+      "eval_loss": 0.03608058765530586,
+      "eval_precision": 0.9884615384615385,
+      "eval_recall": 0.9884615384615385,
+      "eval_roc_auc": 0.9897464642980338,
+      "eval_runtime": 51.3673,
+      "eval_samples_per_second": 23.147,
+      "eval_steps_per_second": 0.37,
+      "step": 30
     },
     {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 249264.84375,
+      "learning_rate": 5.357142857142857e-06,
+      "loss": 0.1406,
+      "step": 35
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "eval_accuracy": 0.9915895710681245,
+      "eval_f1": 0.9880585516178735,
+      "eval_loss": 0.031022196635603905,
+      "eval_precision": 0.9941860465116279,
+      "eval_recall": 0.9865384615384616,
+      "eval_roc_auc": 0.9910270783028631,
+      "eval_runtime": 50.7403,
+      "eval_samples_per_second": 23.433,
+      "eval_steps_per_second": 0.374,
+      "step": 35
     }
   ],
+  "logging_steps": 5,
+  "max_steps": 38,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 150,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.0526013794091e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41e1d94b2b5afa105209ff866921531f2fe24b77b96ea7daa667e3c48788b45f
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e971f68a25b36c7a8c2486713a843d411a1a82953b9bc60c3ca9075d2d3d72
 size 5304