sn14_task1

Browse files

Files changed (10) hide show

config.json +43 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
trainer_state.json +1153 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "protectai/deberta-v3-base-prompt-injection",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "SAFE",
+    "1": "INJECTION"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "INJECTION": 1,
+    "SAFE": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.0",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c73e0415b6ca299276e7779bafbdd5bc8be95ee6828305dcbb0aa08a777efc8
+size 737719272

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3da562737df82adf0aab4d3dc3efc8b0f854841225923106f98f22722d6ea6bf
+size 1475558394

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68d4614bbf939a32ad50791f3b203eba00870c83c9d6e581d47f093a9824950f
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0da825d895379b3dbe151f5ffb44bc9609493cccd8b8e47d2c10042ade49ce
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1153 @@

+{
+  "best_metric": 0.9716312056737588,
+  "best_model_checkpoint": "./results/checkpoint-3807",
+  "epoch": 70.0,
+  "eval_steps": 500,
+  "global_step": 5670,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 6.570446014404297,
+      "learning_rate": 1.9728395061728395e-05,
+      "loss": 2.6389,
+      "step": 81
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.475177304964539,
+      "eval_loss": 0.7098350524902344,
+      "eval_runtime": 0.3441,
+      "eval_samples_per_second": 819.478,
+      "eval_steps_per_second": 52.307,
+      "step": 81
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 4.623419284820557,
+      "learning_rate": 1.944268077601411e-05,
+      "loss": 0.6477,
+      "step": 162
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.48226950354609927,
+      "eval_loss": 0.7516428828239441,
+      "eval_runtime": 0.3434,
+      "eval_samples_per_second": 821.083,
+      "eval_steps_per_second": 52.41,
+      "step": 162
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 10.926794052124023,
+      "learning_rate": 1.9156966490299824e-05,
+      "loss": 0.6227,
+      "step": 243
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.4929078014184397,
+      "eval_loss": 0.8317187428474426,
+      "eval_runtime": 0.3439,
+      "eval_samples_per_second": 820.006,
+      "eval_steps_per_second": 52.341,
+      "step": 243
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 12.648384094238281,
+      "learning_rate": 1.887125220458554e-05,
+      "loss": 0.5403,
+      "step": 324
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4929078014184397,
+      "eval_loss": 1.9380121231079102,
+      "eval_runtime": 0.3424,
+      "eval_samples_per_second": 823.561,
+      "eval_steps_per_second": 52.568,
+      "step": 324
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 23.567258834838867,
+      "learning_rate": 1.8585537918871256e-05,
+      "loss": 0.5108,
+      "step": 405
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.49645390070921985,
+      "eval_loss": 2.270359754562378,
+      "eval_runtime": 0.3437,
+      "eval_samples_per_second": 820.538,
+      "eval_steps_per_second": 52.375,
+      "step": 405
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.5719075202941895,
+      "learning_rate": 1.830335097001764e-05,
+      "loss": 0.4677,
+      "step": 486
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.48936170212765956,
+      "eval_loss": 1.6858181953430176,
+      "eval_runtime": 0.3432,
+      "eval_samples_per_second": 821.693,
+      "eval_steps_per_second": 52.449,
+      "step": 486
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 7.08165168762207,
+      "learning_rate": 1.8017636684303353e-05,
+      "loss": 0.4798,
+      "step": 567
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.49645390070921985,
+      "eval_loss": 1.623734712600708,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.682,
+      "eval_steps_per_second": 52.384,
+      "step": 567
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 10.894269943237305,
+      "learning_rate": 1.773192239858907e-05,
+      "loss": 0.4817,
+      "step": 648
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5141843971631206,
+      "eval_loss": 1.3935478925704956,
+      "eval_runtime": 0.3435,
+      "eval_samples_per_second": 821.029,
+      "eval_steps_per_second": 52.406,
+      "step": 648
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 7.739453315734863,
+      "learning_rate": 1.744620811287478e-05,
+      "loss": 0.4668,
+      "step": 729
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5177304964539007,
+      "eval_loss": 1.259345531463623,
+      "eval_runtime": 0.343,
+      "eval_samples_per_second": 822.053,
+      "eval_steps_per_second": 52.471,
+      "step": 729
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 17.012800216674805,
+      "learning_rate": 1.7160493827160498e-05,
+      "loss": 0.4359,
+      "step": 810
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5354609929078015,
+      "eval_loss": 1.310729742050171,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.694,
+      "eval_steps_per_second": 52.385,
+      "step": 810
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 1.6642764806747437,
+      "learning_rate": 1.687477954144621e-05,
+      "loss": 0.3956,
+      "step": 891
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8226950354609929,
+      "eval_loss": 0.43421775102615356,
+      "eval_runtime": 0.3435,
+      "eval_samples_per_second": 820.982,
+      "eval_steps_per_second": 52.403,
+      "step": 891
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.3688388168811798,
+      "learning_rate": 1.6589065255731923e-05,
+      "loss": 0.2906,
+      "step": 972
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9290780141843972,
+      "eval_loss": 0.23947754502296448,
+      "eval_runtime": 0.3442,
+      "eval_samples_per_second": 819.25,
+      "eval_steps_per_second": 52.293,
+      "step": 972
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 37.02349853515625,
+      "learning_rate": 1.630335097001764e-05,
+      "loss": 0.2146,
+      "step": 1053
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9397163120567376,
+      "eval_loss": 0.33284759521484375,
+      "eval_runtime": 0.3437,
+      "eval_samples_per_second": 820.462,
+      "eval_steps_per_second": 52.37,
+      "step": 1053
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.11939908564090729,
+      "learning_rate": 1.601763668430335e-05,
+      "loss": 0.1462,
+      "step": 1134
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.3009294867515564,
+      "eval_runtime": 0.3439,
+      "eval_samples_per_second": 819.984,
+      "eval_steps_per_second": 52.339,
+      "step": 1134
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.08733003586530685,
+      "learning_rate": 1.5731922398589064e-05,
+      "loss": 0.1062,
+      "step": 1215
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9290780141843972,
+      "eval_loss": 0.21407951414585114,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.805,
+      "eval_steps_per_second": 52.392,
+      "step": 1215
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.21886540949344635,
+      "learning_rate": 1.544620811287478e-05,
+      "loss": 0.0813,
+      "step": 1296
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9432624113475178,
+      "eval_loss": 0.34917283058166504,
+      "eval_runtime": 0.344,
+      "eval_samples_per_second": 819.711,
+      "eval_steps_per_second": 52.322,
+      "step": 1296
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.5847246646881104,
+      "learning_rate": 1.5160493827160495e-05,
+      "loss": 0.1027,
+      "step": 1377
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9219858156028369,
+      "eval_loss": 0.3432806432247162,
+      "eval_runtime": 0.3446,
+      "eval_samples_per_second": 818.425,
+      "eval_steps_per_second": 52.24,
+      "step": 1377
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.6198065280914307,
+      "learning_rate": 1.4874779541446209e-05,
+      "loss": 0.0736,
+      "step": 1458
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.27183273434638977,
+      "eval_runtime": 0.3437,
+      "eval_samples_per_second": 820.405,
+      "eval_steps_per_second": 52.366,
+      "step": 1458
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.5257266163825989,
+      "learning_rate": 1.4589065255731925e-05,
+      "loss": 0.0684,
+      "step": 1539
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.25684282183647156,
+      "eval_runtime": 0.3434,
+      "eval_samples_per_second": 821.157,
+      "eval_steps_per_second": 52.414,
+      "step": 1539
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0009818405378609896,
+      "learning_rate": 1.4303350970017638e-05,
+      "loss": 0.0779,
+      "step": 1620
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.2152564525604248,
+      "eval_runtime": 0.3431,
+      "eval_samples_per_second": 821.93,
+      "eval_steps_per_second": 52.464,
+      "step": 1620
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 0.4532203674316406,
+      "learning_rate": 1.4021164021164022e-05,
+      "loss": 0.0745,
+      "step": 1701
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.1914406418800354,
+      "eval_runtime": 0.344,
+      "eval_samples_per_second": 819.813,
+      "eval_steps_per_second": 52.329,
+      "step": 1701
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 17.428327560424805,
+      "learning_rate": 1.3735449735449738e-05,
+      "loss": 0.1106,
+      "step": 1782
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.2807099223136902,
+      "eval_runtime": 0.3441,
+      "eval_samples_per_second": 819.457,
+      "eval_steps_per_second": 52.306,
+      "step": 1782
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 0.00047796443686820567,
+      "learning_rate": 1.344973544973545e-05,
+      "loss": 0.0755,
+      "step": 1863
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.331978976726532,
+      "eval_runtime": 0.3453,
+      "eval_samples_per_second": 816.672,
+      "eval_steps_per_second": 52.128,
+      "step": 1863
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 1.006925106048584,
+      "learning_rate": 1.3164021164021166e-05,
+      "loss": 0.0833,
+      "step": 1944
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.34625303745269775,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.661,
+      "eval_steps_per_second": 52.383,
+      "step": 1944
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.506279706954956,
+      "learning_rate": 1.288183421516755e-05,
+      "loss": 0.0754,
+      "step": 2025
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9432624113475178,
+      "eval_loss": 0.34365448355674744,
+      "eval_runtime": 0.3432,
+      "eval_samples_per_second": 821.691,
+      "eval_steps_per_second": 52.448,
+      "step": 2025
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 0.1998976171016693,
+      "learning_rate": 1.2596119929453263e-05,
+      "loss": 0.0772,
+      "step": 2106
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.3350883424282074,
+      "eval_runtime": 0.3435,
+      "eval_samples_per_second": 820.852,
+      "eval_steps_per_second": 52.395,
+      "step": 2106
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 0.19478876888751984,
+      "learning_rate": 1.2310405643738979e-05,
+      "loss": 0.076,
+      "step": 2187
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9468085106382979,
+      "eval_loss": 0.4145265519618988,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.483,
+      "eval_steps_per_second": 52.244,
+      "step": 2187
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 0.27469512820243835,
+      "learning_rate": 1.2024691358024691e-05,
+      "loss": 0.0625,
+      "step": 2268
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.44451093673706055,
+      "eval_runtime": 0.3439,
+      "eval_samples_per_second": 819.913,
+      "eval_steps_per_second": 52.335,
+      "step": 2268
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 26.14291000366211,
+      "learning_rate": 1.1738977072310408e-05,
+      "loss": 0.0741,
+      "step": 2349
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9468085106382979,
+      "eval_loss": 0.29801085591316223,
+      "eval_runtime": 0.3448,
+      "eval_samples_per_second": 817.812,
+      "eval_steps_per_second": 52.201,
+      "step": 2349
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.0004499799106270075,
+      "learning_rate": 1.145326278659612e-05,
+      "loss": 0.0649,
+      "step": 2430
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.28359255194664,
+      "eval_runtime": 0.3442,
+      "eval_samples_per_second": 819.247,
+      "eval_steps_per_second": 52.292,
+      "step": 2430
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 0.0018564946949481964,
+      "learning_rate": 1.1167548500881835e-05,
+      "loss": 0.0688,
+      "step": 2511
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.21793903410434723,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.498,
+      "eval_steps_per_second": 52.245,
+      "step": 2511
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 0.0009469461510889232,
+      "learning_rate": 1.088183421516755e-05,
+      "loss": 0.0735,
+      "step": 2592
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.22946923971176147,
+      "eval_runtime": 0.3449,
+      "eval_samples_per_second": 817.666,
+      "eval_steps_per_second": 52.191,
+      "step": 2592
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 0.4778638184070587,
+      "learning_rate": 1.0596119929453263e-05,
+      "loss": 0.0648,
+      "step": 2673
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9468085106382979,
+      "eval_loss": 0.42410480976104736,
+      "eval_runtime": 0.3433,
+      "eval_samples_per_second": 821.406,
+      "eval_steps_per_second": 52.43,
+      "step": 2673
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 0.21737487614154816,
+      "learning_rate": 1.031040564373898e-05,
+      "loss": 0.0672,
+      "step": 2754
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.2829430401325226,
+      "eval_runtime": 0.3447,
+      "eval_samples_per_second": 818.124,
+      "eval_steps_per_second": 52.221,
+      "step": 2754
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 0.08269879966974258,
+      "learning_rate": 1.0024691358024692e-05,
+      "loss": 0.067,
+      "step": 2835
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9468085106382979,
+      "eval_loss": 0.3723122179508209,
+      "eval_runtime": 0.3448,
+      "eval_samples_per_second": 817.778,
+      "eval_steps_per_second": 52.199,
+      "step": 2835
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 0.3665499687194824,
+      "learning_rate": 9.738977072310406e-06,
+      "loss": 0.0768,
+      "step": 2916
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.25441667437553406,
+      "eval_runtime": 0.3447,
+      "eval_samples_per_second": 818.182,
+      "eval_steps_per_second": 52.224,
+      "step": 2916
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 0.11919476091861725,
+      "learning_rate": 9.45326278659612e-06,
+      "loss": 0.0691,
+      "step": 2997
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.20481815934181213,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.558,
+      "eval_steps_per_second": 52.248,
+      "step": 2997
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 0.0036801116075366735,
+      "learning_rate": 9.167548500881835e-06,
+      "loss": 0.0661,
+      "step": 3078
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.20478524267673492,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.468,
+      "eval_steps_per_second": 52.243,
+      "step": 3078
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 0.12663815915584564,
+      "learning_rate": 8.88183421516755e-06,
+      "loss": 0.0409,
+      "step": 3159
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.18502239882946014,
+      "eval_runtime": 0.3434,
+      "eval_samples_per_second": 821.144,
+      "eval_steps_per_second": 52.413,
+      "step": 3159
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.06950168311595917,
+      "learning_rate": 8.596119929453264e-06,
+      "loss": 0.0424,
+      "step": 3240
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.20747074484825134,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.693,
+      "eval_steps_per_second": 52.257,
+      "step": 3240
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 0.09251494705677032,
+      "learning_rate": 8.310405643738978e-06,
+      "loss": 0.0381,
+      "step": 3321
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.2633875906467438,
+      "eval_runtime": 0.3468,
+      "eval_samples_per_second": 813.14,
+      "eval_steps_per_second": 51.903,
+      "step": 3321
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 0.06917154043912888,
+      "learning_rate": 8.024691358024692e-06,
+      "loss": 0.0383,
+      "step": 3402
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.3520617187023163,
+      "eval_runtime": 0.3447,
+      "eval_samples_per_second": 818.036,
+      "eval_steps_per_second": 52.215,
+      "step": 3402
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 0.0010325413895770907,
+      "learning_rate": 7.738977072310407e-06,
+      "loss": 0.0288,
+      "step": 3483
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.2726523280143738,
+      "eval_runtime": 0.3428,
+      "eval_samples_per_second": 822.588,
+      "eval_steps_per_second": 52.506,
+      "step": 3483
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 0.04726780578494072,
+      "learning_rate": 7.45326278659612e-06,
+      "loss": 0.035,
+      "step": 3564
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.2995310127735138,
+      "eval_runtime": 0.3442,
+      "eval_samples_per_second": 819.308,
+      "eval_steps_per_second": 52.296,
+      "step": 3564
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.09283600747585297,
+      "learning_rate": 7.167548500881835e-06,
+      "loss": 0.0265,
+      "step": 3645
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.33694958686828613,
+      "eval_runtime": 0.3443,
+      "eval_samples_per_second": 818.994,
+      "eval_steps_per_second": 52.276,
+      "step": 3645
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 0.03685113787651062,
+      "learning_rate": 6.881834215167549e-06,
+      "loss": 0.0217,
+      "step": 3726
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.35722091794013977,
+      "eval_runtime": 0.3438,
+      "eval_samples_per_second": 820.281,
+      "eval_steps_per_second": 52.358,
+      "step": 3726
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 0.04708189144730568,
+      "learning_rate": 6.596119929453263e-06,
+      "loss": 0.0259,
+      "step": 3807
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.9716312056737588,
+      "eval_loss": 0.21833930909633636,
+      "eval_runtime": 0.3427,
+      "eval_samples_per_second": 822.913,
+      "eval_steps_per_second": 52.526,
+      "step": 3807
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 0.06329997628927231,
+      "learning_rate": 6.310405643738977e-06,
+      "loss": 0.0264,
+      "step": 3888
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.2745024561882019,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.777,
+      "eval_steps_per_second": 52.39,
+      "step": 3888
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 0.13020673394203186,
+      "learning_rate": 6.024691358024692e-06,
+      "loss": 0.027,
+      "step": 3969
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.3425739109516144,
+      "eval_runtime": 0.3449,
+      "eval_samples_per_second": 817.548,
+      "eval_steps_per_second": 52.184,
+      "step": 3969
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.04181819409132004,
+      "learning_rate": 5.7389770723104065e-06,
+      "loss": 0.023,
+      "step": 4050
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.37068530917167664,
+      "eval_runtime": 0.3441,
+      "eval_samples_per_second": 819.471,
+      "eval_steps_per_second": 52.307,
+      "step": 4050
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 0.03754027560353279,
+      "learning_rate": 5.453262786596121e-06,
+      "loss": 0.0241,
+      "step": 4131
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.3041815459728241,
+      "eval_runtime": 0.3443,
+      "eval_samples_per_second": 819.127,
+      "eval_steps_per_second": 52.285,
+      "step": 4131
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 0.06724414229393005,
+      "learning_rate": 5.167548500881835e-06,
+      "loss": 0.0248,
+      "step": 4212
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.3282240927219391,
+      "eval_runtime": 0.3433,
+      "eval_samples_per_second": 821.512,
+      "eval_steps_per_second": 52.437,
+      "step": 4212
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 0.044111430644989014,
+      "learning_rate": 4.881834215167549e-06,
+      "loss": 0.0267,
+      "step": 4293
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.2480100840330124,
+      "eval_runtime": 0.3438,
+      "eval_samples_per_second": 820.176,
+      "eval_steps_per_second": 52.352,
+      "step": 4293
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 0.09385800361633301,
+      "learning_rate": 4.596119929453263e-06,
+      "loss": 0.019,
+      "step": 4374
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.2954387366771698,
+      "eval_runtime": 0.3444,
+      "eval_samples_per_second": 818.748,
+      "eval_steps_per_second": 52.261,
+      "step": 4374
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 0.00036285247188061476,
+      "learning_rate": 4.3104056437389775e-06,
+      "loss": 0.0233,
+      "step": 4455
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.26300373673439026,
+      "eval_runtime": 0.3483,
+      "eval_samples_per_second": 809.563,
+      "eval_steps_per_second": 51.674,
+      "step": 4455
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 0.03549063578248024,
+      "learning_rate": 4.024691358024692e-06,
+      "loss": 0.0231,
+      "step": 4536
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9645390070921985,
+      "eval_loss": 0.26614007353782654,
+      "eval_runtime": 0.3434,
+      "eval_samples_per_second": 821.294,
+      "eval_steps_per_second": 52.423,
+      "step": 4536
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 0.0008688592351973057,
+      "learning_rate": 3.7389770723104058e-06,
+      "loss": 0.0188,
+      "step": 4617
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.3676702678203583,
+      "eval_runtime": 0.3441,
+      "eval_samples_per_second": 819.514,
+      "eval_steps_per_second": 52.309,
+      "step": 4617
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 0.00031407736241817474,
+      "learning_rate": 3.4532627865961205e-06,
+      "loss": 0.0263,
+      "step": 4698
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.36925771832466125,
+      "eval_runtime": 0.348,
+      "eval_samples_per_second": 810.368,
+      "eval_steps_per_second": 51.726,
+      "step": 4698
+    },
+    {
+      "epoch": 59.0,
+      "grad_norm": 0.040128860622644424,
+      "learning_rate": 3.1675485008818345e-06,
+      "loss": 0.019,
+      "step": 4779
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.35094693303108215,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.815,
+      "eval_steps_per_second": 52.392,
+      "step": 4779
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.0004439246258698404,
+      "learning_rate": 2.881834215167549e-06,
+      "loss": 0.0202,
+      "step": 4860
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.3040333092212677,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.559,
+      "eval_steps_per_second": 52.248,
+      "step": 4860
+    },
+    {
+      "epoch": 61.0,
+      "grad_norm": 0.07529360055923462,
+      "learning_rate": 2.5961199294532628e-06,
+      "loss": 0.0208,
+      "step": 4941
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.9468085106382979,
+      "eval_loss": 0.5039365887641907,
+      "eval_runtime": 0.3439,
+      "eval_samples_per_second": 819.902,
+      "eval_steps_per_second": 52.334,
+      "step": 4941
+    },
+    {
+      "epoch": 62.0,
+      "grad_norm": 0.00026053638430312276,
+      "learning_rate": 2.310405643738977e-06,
+      "loss": 0.0242,
+      "step": 5022
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.4803861677646637,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.64,
+      "eval_steps_per_second": 52.254,
+      "step": 5022
+    },
+    {
+      "epoch": 63.0,
+      "grad_norm": 0.06742388755083084,
+      "learning_rate": 2.0246913580246915e-06,
+      "loss": 0.023,
+      "step": 5103
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.9609929078014184,
+      "eval_loss": 0.3538144826889038,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.51,
+      "eval_steps_per_second": 52.245,
+      "step": 5103
+    },
+    {
+      "epoch": 64.0,
+      "grad_norm": 0.00042550539365038276,
+      "learning_rate": 1.7389770723104056e-06,
+      "loss": 0.0189,
+      "step": 5184
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.37617096304893494,
+      "eval_runtime": 0.3442,
+      "eval_samples_per_second": 819.198,
+      "eval_steps_per_second": 52.289,
+      "step": 5184
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 0.02407378889620304,
+      "learning_rate": 1.45326278659612e-06,
+      "loss": 0.0209,
+      "step": 5265
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.43608424067497253,
+      "eval_runtime": 0.3438,
+      "eval_samples_per_second": 820.243,
+      "eval_steps_per_second": 52.356,
+      "step": 5265
+    },
+    {
+      "epoch": 66.0,
+      "grad_norm": 0.054311446845531464,
+      "learning_rate": 1.1675485008818344e-06,
+      "loss": 0.0209,
+      "step": 5346
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.41794532537460327,
+      "eval_runtime": 0.3436,
+      "eval_samples_per_second": 820.791,
+      "eval_steps_per_second": 52.391,
+      "step": 5346
+    },
+    {
+      "epoch": 67.0,
+      "grad_norm": 0.04109662398695946,
+      "learning_rate": 8.818342151675485e-07,
+      "loss": 0.0198,
+      "step": 5427
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.3815895617008209,
+      "eval_runtime": 0.3443,
+      "eval_samples_per_second": 819.013,
+      "eval_steps_per_second": 52.277,
+      "step": 5427
+    },
+    {
+      "epoch": 68.0,
+      "grad_norm": 0.13629287481307983,
+      "learning_rate": 5.961199294532629e-07,
+      "loss": 0.0197,
+      "step": 5508
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.39786896109580994,
+      "eval_runtime": 0.3445,
+      "eval_samples_per_second": 818.46,
+      "eval_steps_per_second": 52.242,
+      "step": 5508
+    },
+    {
+      "epoch": 69.0,
+      "grad_norm": 0.039983708411455154,
+      "learning_rate": 3.104056437389771e-07,
+      "loss": 0.0192,
+      "step": 5589
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.950354609929078,
+      "eval_loss": 0.411296546459198,
+      "eval_runtime": 0.3435,
+      "eval_samples_per_second": 820.901,
+      "eval_steps_per_second": 52.398,
+      "step": 5589
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 0.00027353325276635587,
+      "learning_rate": 2.469135802469136e-08,
+      "loss": 0.0177,
+      "step": 5670
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.9539007092198581,
+      "eval_loss": 0.40772485733032227,
+      "eval_runtime": 0.3437,
+      "eval_samples_per_second": 820.466,
+      "eval_steps_per_second": 52.37,
+      "step": 5670
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5670,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 70,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9735501528974304.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:122d1be97ec5b07fbecea5e4a86ddec4f045fe64d647dec340002d311d768f01
+size 5112