Training in progress, step 7

Browse files

Files changed (10) hide show

added_tokens.json +105 -0
config.json +32 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +516 -0
special_tokens_map.json +117 -0
spiece.model +3 -0
tokenizer_config.json +968 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,105 @@

+{
+  "<extra_id_0>": 31,
+  "<extra_id_10>": 41,
+  "<extra_id_11>": 42,
+  "<extra_id_12>": 43,
+  "<extra_id_13>": 44,
+  "<extra_id_14>": 45,
+  "<extra_id_15>": 46,
+  "<extra_id_16>": 47,
+  "<extra_id_17>": 48,
+  "<extra_id_18>": 49,
+  "<extra_id_19>": 50,
+  "<extra_id_1>": 32,
+  "<extra_id_20>": 51,
+  "<extra_id_21>": 52,
+  "<extra_id_22>": 53,
+  "<extra_id_23>": 54,
+  "<extra_id_24>": 55,
+  "<extra_id_25>": 56,
+  "<extra_id_26>": 57,
+  "<extra_id_27>": 58,
+  "<extra_id_28>": 59,
+  "<extra_id_29>": 60,
+  "<extra_id_2>": 33,
+  "<extra_id_30>": 61,
+  "<extra_id_31>": 62,
+  "<extra_id_32>": 63,
+  "<extra_id_33>": 64,
+  "<extra_id_34>": 65,
+  "<extra_id_35>": 66,
+  "<extra_id_36>": 67,
+  "<extra_id_37>": 68,
+  "<extra_id_38>": 69,
+  "<extra_id_39>": 70,
+  "<extra_id_3>": 34,
+  "<extra_id_40>": 71,
+  "<extra_id_41>": 72,
+  "<extra_id_42>": 73,
+  "<extra_id_43>": 74,
+  "<extra_id_44>": 75,
+  "<extra_id_45>": 76,
+  "<extra_id_46>": 77,
+  "<extra_id_47>": 78,
+  "<extra_id_48>": 79,
+  "<extra_id_49>": 80,
+  "<extra_id_4>": 35,
+  "<extra_id_50>": 81,
+  "<extra_id_51>": 82,
+  "<extra_id_52>": 83,
+  "<extra_id_53>": 84,
+  "<extra_id_54>": 85,
+  "<extra_id_55>": 86,
+  "<extra_id_56>": 87,
+  "<extra_id_57>": 88,
+  "<extra_id_58>": 89,
+  "<extra_id_59>": 90,
+  "<extra_id_5>": 36,
+  "<extra_id_60>": 91,
+  "<extra_id_61>": 92,
+  "<extra_id_62>": 93,
+  "<extra_id_63>": 94,
+  "<extra_id_64>": 95,
+  "<extra_id_65>": 96,
+  "<extra_id_66>": 97,
+  "<extra_id_67>": 98,
+  "<extra_id_68>": 99,
+  "<extra_id_69>": 100,
+  "<extra_id_6>": 37,
+  "<extra_id_70>": 101,
+  "<extra_id_71>": 102,
+  "<extra_id_72>": 103,
+  "<extra_id_73>": 104,
+  "<extra_id_74>": 105,
+  "<extra_id_75>": 106,
+  "<extra_id_76>": 107,
+  "<extra_id_77>": 108,
+  "<extra_id_78>": 109,
+  "<extra_id_79>": 110,
+  "<extra_id_7>": 38,
+  "<extra_id_80>": 111,
+  "<extra_id_81>": 112,
+  "<extra_id_82>": 113,
+  "<extra_id_83>": 114,
+  "<extra_id_84>": 115,
+  "<extra_id_85>": 116,
+  "<extra_id_86>": 117,
+  "<extra_id_87>": 118,
+  "<extra_id_88>": 119,
+  "<extra_id_89>": 120,
+  "<extra_id_8>": 39,
+  "<extra_id_90>": 121,
+  "<extra_id_91>": 122,
+  "<extra_id_92>": 123,
+  "<extra_id_93>": 124,
+  "<extra_id_94>": 125,
+  "<extra_id_95>": 126,
+  "<extra_id_96>": 127,
+  "<extra_id_97>": 128,
+  "<extra_id_98>": 129,
+  "<extra_id_99>": 130,
+  "<extra_id_9>": 40,
+  "[CLS]": 28,
+  "[MASK]": 30,
+  "[SEP]": 29
+}

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "Rostlab/prot_t5_xl_uniref50",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 16384,
+  "d_kv": 128,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 32,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": true,
+  "vocab_size": 128
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d8732e6b01a7bb3d76979c5797bcf89dbf368afabc961a27808a648e7edbcf4
+size 4966822528

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b9673c67bd5ed399e11ef068a9f7982265730476bcb2eba7d602cdd551db991
+size 4999865056

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15c67aef72c73b81b6626512c2ca3a867fce51055e5a9846ff9fecbb313b6107
+size 1308696208

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,516 @@

+{
+  "metadata": {
+    "total_size": 11275321344
+  },
+  "weight_map": {
+    "decoder.block.0.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.relative_attention_bias.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.k.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.o.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.q.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.v.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "decoder.block.0.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.13.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.14.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.15.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.16.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.17.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.18.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.DenseReluDense.wi.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.DenseReluDense.wi.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.DenseReluDense.wi.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.DenseReluDense.wi.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.DenseReluDense.wi.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.DenseReluDense.wi.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.relative_attention_bias.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.16.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.17.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.18.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.19.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.21.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.22.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.23.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.DenseReluDense.wi.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "shared.weight": "model-00001-of-00003.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "[SEP]",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74da7b4afcde53faa570114b530c726135bdfcdb813dec3abfb27f9d44db7324
+size 237990

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,968 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "28": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "29": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "30": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "31": {
+      "content": "<extra_id_0>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32": {
+      "content": "<extra_id_1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "33": {
+      "content": "<extra_id_2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "34": {
+      "content": "<extra_id_3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "35": {
+      "content": "<extra_id_4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "36": {
+      "content": "<extra_id_5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "37": {
+      "content": "<extra_id_6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "38": {
+      "content": "<extra_id_7>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "39": {
+      "content": "<extra_id_8>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "40": {
+      "content": "<extra_id_9>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "41": {
+      "content": "<extra_id_10>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "42": {
+      "content": "<extra_id_11>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "43": {
+      "content": "<extra_id_12>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "44": {
+      "content": "<extra_id_13>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "45": {
+      "content": "<extra_id_14>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "46": {
+      "content": "<extra_id_15>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "47": {
+      "content": "<extra_id_16>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "48": {
+      "content": "<extra_id_17>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "49": {
+      "content": "<extra_id_18>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50": {
+      "content": "<extra_id_19>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "51": {
+      "content": "<extra_id_20>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "52": {
+      "content": "<extra_id_21>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "53": {
+      "content": "<extra_id_22>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "54": {
+      "content": "<extra_id_23>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "55": {
+      "content": "<extra_id_24>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "56": {
+      "content": "<extra_id_25>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57": {
+      "content": "<extra_id_26>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "58": {
+      "content": "<extra_id_27>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "59": {
+      "content": "<extra_id_28>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "60": {
+      "content": "<extra_id_29>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "61": {
+      "content": "<extra_id_30>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "62": {
+      "content": "<extra_id_31>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "63": {
+      "content": "<extra_id_32>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64": {
+      "content": "<extra_id_33>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "65": {
+      "content": "<extra_id_34>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "66": {
+      "content": "<extra_id_35>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "67": {
+      "content": "<extra_id_36>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "68": {
+      "content": "<extra_id_37>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "69": {
+      "content": "<extra_id_38>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "70": {
+      "content": "<extra_id_39>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "71": {
+      "content": "<extra_id_40>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "72": {
+      "content": "<extra_id_41>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "73": {
+      "content": "<extra_id_42>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "74": {
+      "content": "<extra_id_43>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "75": {
+      "content": "<extra_id_44>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "76": {
+      "content": "<extra_id_45>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "77": {
+      "content": "<extra_id_46>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "78": {
+      "content": "<extra_id_47>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "79": {
+      "content": "<extra_id_48>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "80": {
+      "content": "<extra_id_49>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "81": {
+      "content": "<extra_id_50>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "82": {
+      "content": "<extra_id_51>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "83": {
+      "content": "<extra_id_52>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "84": {
+      "content": "<extra_id_53>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "85": {
+      "content": "<extra_id_54>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "86": {
+      "content": "<extra_id_55>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "87": {
+      "content": "<extra_id_56>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "88": {
+      "content": "<extra_id_57>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "89": {
+      "content": "<extra_id_58>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "90": {
+      "content": "<extra_id_59>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "91": {
+      "content": "<extra_id_60>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "92": {
+      "content": "<extra_id_61>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "93": {
+      "content": "<extra_id_62>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "94": {
+      "content": "<extra_id_63>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "95": {
+      "content": "<extra_id_64>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "96": {
+      "content": "<extra_id_65>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "97": {
+      "content": "<extra_id_66>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "98": {
+      "content": "<extra_id_67>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "99": {
+      "content": "<extra_id_68>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "<extra_id_69>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "<extra_id_70>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "<extra_id_71>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "<extra_id_72>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "104": {
+      "content": "<extra_id_73>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "105": {
+      "content": "<extra_id_74>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "106": {
+      "content": "<extra_id_75>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "107": {
+      "content": "<extra_id_76>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "108": {
+      "content": "<extra_id_77>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "109": {
+      "content": "<extra_id_78>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "110": {
+      "content": "<extra_id_79>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "111": {
+      "content": "<extra_id_80>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "112": {
+      "content": "<extra_id_81>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "113": {
+      "content": "<extra_id_82>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "114": {
+      "content": "<extra_id_83>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "115": {
+      "content": "<extra_id_84>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "116": {
+      "content": "<extra_id_85>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "117": {
+      "content": "<extra_id_86>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "118": {
+      "content": "<extra_id_87>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119": {
+      "content": "<extra_id_88>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "120": {
+      "content": "<extra_id_89>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "121": {
+      "content": "<extra_id_90>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "122": {
+      "content": "<extra_id_91>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "123": {
+      "content": "<extra_id_92>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "124": {
+      "content": "<extra_id_93>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125": {
+      "content": "<extra_id_94>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "126": {
+      "content": "<extra_id_95>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "127": {
+      "content": "<extra_id_96>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128": {
+      "content": "<extra_id_97>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "129": {
+      "content": "<extra_id_98>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "130": {
+      "content": "<extra_id_99>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "keep_accents": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "remove_space": true,
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "AlbertTokenizer",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:245fcf91de6bb7701516ca33543748222cd18f3f3bdf456eb2719410588d6710
+size 5368