ZaaCo commited on Mar 5

Commit

c2f27c8

•

1 Parent(s): d2318a4

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-1/checkpoint-128/added_tokens.json +3 -0
run-1/checkpoint-128/config.json +35 -0
run-1/checkpoint-128/model.safetensors +3 -0
run-1/checkpoint-128/optimizer.pt +3 -0
run-1/checkpoint-128/rng_state.pth +3 -0
run-1/checkpoint-128/scheduler.pt +3 -0
run-1/checkpoint-128/special_tokens_map.json +15 -0
run-1/checkpoint-128/spm.model +3 -0
run-1/checkpoint-128/tokenizer.json +0 -0
run-1/checkpoint-128/tokenizer_config.json +58 -0
run-1/checkpoint-128/trainer_state.json +62 -0
run-1/checkpoint-128/training_args.bin +3 -0
run-1/checkpoint-64/added_tokens.json +3 -0
run-1/checkpoint-64/config.json +35 -0
run-1/checkpoint-64/model.safetensors +3 -0
run-1/checkpoint-64/optimizer.pt +3 -0
run-1/checkpoint-64/rng_state.pth +3 -0
run-1/checkpoint-64/scheduler.pt +3 -0
run-1/checkpoint-64/special_tokens_map.json +15 -0
run-1/checkpoint-64/spm.model +3 -0
run-1/checkpoint-64/tokenizer.json +0 -0
run-1/checkpoint-64/tokenizer_config.json +58 -0
run-1/checkpoint-64/trainer_state.json +44 -0
run-1/checkpoint-64/training_args.bin +3 -0
run-1/checkpoint-96/added_tokens.json +3 -0
run-1/checkpoint-96/config.json +35 -0
run-1/checkpoint-96/model.safetensors +3 -0
run-1/checkpoint-96/optimizer.pt +3 -0
run-1/checkpoint-96/rng_state.pth +3 -0
run-1/checkpoint-96/scheduler.pt +3 -0
run-1/checkpoint-96/special_tokens_map.json +15 -0
run-1/checkpoint-96/spm.model +3 -0
run-1/checkpoint-96/tokenizer.json +0 -0
run-1/checkpoint-96/tokenizer_config.json +58 -0
run-1/checkpoint-96/trainer_state.json +53 -0
run-1/checkpoint-96/training_args.bin +3 -0
run-2/checkpoint-8/added_tokens.json +3 -0
run-2/checkpoint-8/config.json +35 -0
run-2/checkpoint-8/model.safetensors +3 -0
run-2/checkpoint-8/optimizer.pt +3 -0
run-2/checkpoint-8/rng_state.pth +3 -0
run-2/checkpoint-8/scheduler.pt +3 -0
run-2/checkpoint-8/special_tokens_map.json +15 -0
run-2/checkpoint-8/spm.model +3 -0
run-2/checkpoint-8/tokenizer.json +0 -0
run-2/checkpoint-8/tokenizer_config.json +58 -0
run-2/checkpoint-8/trainer_state.json +35 -0
run-2/checkpoint-8/training_args.bin +3 -0
runs/Mar05_19-28-01_f943f6aa6ee4/events.out.tfevents.1709668168.f943f6aa6ee4.164.5 +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a0ed7e16ef483b27232414f2218dfed0b03003c0fa0e7d25a853349642ff5eb
 size 567598552

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cacd28cd5c843b258e6f41ca722601b6bb990e1a79342889831d8e898817409
 size 567598552

run-1/checkpoint-128/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

run-1/checkpoint-128/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

run-1/checkpoint-128/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41d4528b99281c70943c8815815f217736c4a769a6135b41ac7fdabc15edb37f
+size 567598552

run-1/checkpoint-128/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:847a8ff55cf39e177a235d707e30fa007bd90afd95927f793dd00dfbc147838b
+size 1135260474

run-1/checkpoint-128/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90be3a82896a7484c753c0b163ae29f8448c7b1337cf233c482906739c1de6db
+size 14308

run-1/checkpoint-128/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1cf2f7a14cb1ebe4d53087241e559644f111b40dd8938be413fb2934086d186
+size 1064

run-1/checkpoint-128/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-1/checkpoint-128/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

run-1/checkpoint-128/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-128/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

run-1/checkpoint-128/trainer_state.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "best_metric": 0.5523465703971119,
+  "best_model_checkpoint": "microsoft/deberta-v3-smallsed_rte-finetuned-rte/run-1/checkpoint-32",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 128,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5523465703971119,
+      "eval_loss": 0.6929216384887695,
+      "eval_runtime": 1.7369,
+      "eval_samples_per_second": 159.476,
+      "eval_steps_per_second": 10.363,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5451263537906137,
+      "eval_loss": 0.6928884983062744,
+      "eval_runtime": 2.1858,
+      "eval_samples_per_second": 126.73,
+      "eval_steps_per_second": 8.235,
+      "step": 64
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.6929385662078857,
+      "eval_runtime": 2.3139,
+      "eval_samples_per_second": 119.712,
+      "eval_steps_per_second": 7.779,
+      "step": 96
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.6930323839187622,
+      "eval_runtime": 1.9173,
+      "eval_samples_per_second": 144.475,
+      "eval_steps_per_second": 9.388,
+      "step": 128
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 128,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.8381474440323331e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 31
+  }
+}

run-1/checkpoint-128/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b5e427ef0a76766264176abfa85efce7b3f91a032c91065856ed466c93fd396
+size 4984

run-1/checkpoint-64/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

run-1/checkpoint-64/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

run-1/checkpoint-64/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d206b972ab791c547ae6a51c01197762ddd83a2435b6d58e1e6e176b9104b65
+size 567598552

run-1/checkpoint-64/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1de05c6bac5be7923e0002a29244d198459fd9456faa5b8b208bfd6608096ca4
+size 1135260474

run-1/checkpoint-64/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80857d8ad7de73ab60d03f5d20c5690fbe4442585a84faba934ce77f31997d23
+size 14308

run-1/checkpoint-64/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7534a26e531d29bd4f3f5be4161775ceb25de096666c51bf940f1b5a401fe18d
+size 1064

run-1/checkpoint-64/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-1/checkpoint-64/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

run-1/checkpoint-64/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-64/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

run-1/checkpoint-64/trainer_state.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "best_metric": 0.5523465703971119,
+  "best_model_checkpoint": "microsoft/deberta-v3-smallsed_rte-finetuned-rte/run-1/checkpoint-32",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 64,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5523465703971119,
+      "eval_loss": 0.6929216384887695,
+      "eval_runtime": 1.7369,
+      "eval_samples_per_second": 159.476,
+      "eval_steps_per_second": 10.363,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5451263537906137,
+      "eval_loss": 0.6928884983062744,
+      "eval_runtime": 2.1858,
+      "eval_samples_per_second": 126.73,
+      "eval_steps_per_second": 8.235,
+      "step": 64
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 128,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.8381474440323331e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 31
+  }
+}

run-1/checkpoint-64/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b5e427ef0a76766264176abfa85efce7b3f91a032c91065856ed466c93fd396
+size 4984

run-1/checkpoint-96/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

run-1/checkpoint-96/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

run-1/checkpoint-96/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb394038f0564c155eb1f4ae089ea66258f2598b29b469b20942c54ff2953c6e
+size 567598552

run-1/checkpoint-96/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47c2237c88ec6e1927cfafbb65dbb044ab4fa501081bf44ef005a64ccf39addd
+size 1135260474

run-1/checkpoint-96/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:547bcc6f14296dae5351bf4e63f7186a35a20f12a7fe2a44758c4442b0b10633
+size 14308

run-1/checkpoint-96/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:528a18c406cae1371a29845d7787f54d4479d85a76ec95120a4d4208a12d059a
+size 1064

run-1/checkpoint-96/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-1/checkpoint-96/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

run-1/checkpoint-96/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-96/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

run-1/checkpoint-96/trainer_state.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "best_metric": 0.5523465703971119,
+  "best_model_checkpoint": "microsoft/deberta-v3-smallsed_rte-finetuned-rte/run-1/checkpoint-32",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 96,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5523465703971119,
+      "eval_loss": 0.6929216384887695,
+      "eval_runtime": 1.7369,
+      "eval_samples_per_second": 159.476,
+      "eval_steps_per_second": 10.363,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5451263537906137,
+      "eval_loss": 0.6928884983062744,
+      "eval_runtime": 2.1858,
+      "eval_samples_per_second": 126.73,
+      "eval_steps_per_second": 8.235,
+      "step": 64
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5415162454873647,
+      "eval_loss": 0.6929385662078857,
+      "eval_runtime": 2.3139,
+      "eval_samples_per_second": 119.712,
+      "eval_steps_per_second": 7.779,
+      "step": 96
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 128,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.8381474440323331e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 31
+  }
+}

run-1/checkpoint-96/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b5e427ef0a76766264176abfa85efce7b3f91a032c91065856ed466c93fd396
+size 4984

run-2/checkpoint-8/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

run-2/checkpoint-8/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

run-2/checkpoint-8/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cacd28cd5c843b258e6f41ca722601b6bb990e1a79342889831d8e898817409
+size 567598552

run-2/checkpoint-8/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a47eb79afc76dbf71441ae13c8c90154a52536b784f8b731ef6fa428c4b111ca
+size 1135260474

run-2/checkpoint-8/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42b639eeb894c0df114602157f34cfe9ba4cdd4e905d85e2670022201666db91
+size 14244

run-2/checkpoint-8/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dab7964524994783c39831b6c1bf8639078ccffbf8b9423096e13be7ac9f7c6
+size 1064

run-2/checkpoint-8/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-2/checkpoint-8/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

run-2/checkpoint-8/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-8/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

run-2/checkpoint-8/trainer_state.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "best_metric": 0.4729241877256318,
+  "best_model_checkpoint": "microsoft/deberta-v3-smallsed_rte-finetuned-rte/run-2/checkpoint-8",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 8,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.7006650567054749,
+      "eval_runtime": 1.7391,
+      "eval_samples_per_second": 159.277,
+      "eval_steps_per_second": 10.35,
+      "step": 8
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 16,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.71484161515299e-05,
+    "num_train_epochs": 2,
+    "per_device_train_batch_size": 32,
+    "seed": 19
+  }
+}

run-2/checkpoint-8/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b4f3d330908570efaf2e322ac10b12e2d62549b83561e3e6147dcf919bcd1d6
+size 4984

runs/Mar05_19-28-01_f943f6aa6ee4/events.out.tfevents.1709668168.f943f6aa6ee4.164.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91c438bd079effc0ab79546786c02db2376a330f6c0edb439175fa0b0ca91ad8
+size 5799