Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

README.md +15 -27
adapter_config.json +1 -29
config.json +2 -2
model-00001-of-00007.safetensors +2 -2
model-00002-of-00007.safetensors +2 -2
model-00003-of-00007.safetensors +2 -2
model-00004-of-00007.safetensors +2 -2
model-00005-of-00007.safetensors +2 -2
model-00006-of-00007.safetensors +2 -2
model-00007-of-00007.safetensors +2 -2
model.safetensors.index.json +68 -68
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +0 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,33 +1,21 @@
 ---
-license: mit
-language:
-- ar
 ---
-Mistral-7B LAPT + CLP+ Arabic
-===
-## How to use
-```python
-from peft import AutoPeftModelForCausalLM
-from transformers import AutoTokenizer
-model = AutoPeftModelForCausalLM.from_pretrained(
-  "atsuki-yamaguchi/Mistral-7B-v0.1-clpp-ar"
-)
-```
-## Citation
-```
-@article{yamaguchi2024empirical,
-  title={An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Generative {LLM} Inference},
-  author={Atsuki Yamaguchi and Aline Villavicencio and Nikolaos Aletras},
-  journal={ArXiv},
-  year={2024},
-  volume={abs/2402.10712},
-  url={https://arxiv.org/abs/2402.10712}
-}
-```
-## Link
-For more details, please visit https://github.com/gucci-j/llm-cva

 ---
+library_name: peft
 ---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0

adapter_config.json CHANGED Viewed

@@ -1,29 +1 @@
-{
-  "auto_mapping": null,
-  "base_model_name_or_path": "atsuki-yamaguchi/Mistral-7B-v0.1-clpp-ar",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "layers_pattern": null,
-  "layers_to_transform": null,
-  "lora_alpha": 32,
-  "lora_dropout": 0.05,
-  "modules_to_save": [
-    "lm_head",
-    "embed_tokens"
-  ],
-  "peft_type": "LORA",
-  "r": 8,
-  "revision": null,
-  "target_modules": [
-    "q_proj",
-    "v_proj",
-    "k_proj",
-    "o_proj",
-    "gate_proj",
-    "down_proj",
-    "up_proj"
-  ],
-  "task_type": "CAUSAL_LM"
-}


1	+ {"auto_mapping": null, "base_model_name_or_path": "atsuki-yamaguchi/Mistral-7B-v0.1-clpp-ar", "bias": "none", "fan_in_fan_out": false, "inference_mode": true, "init_lora_weights": true, "layers_pattern": null, "layers_to_transform": null, "lora_alpha": 32, "lora_dropout": 0.05, "modules_to_save": ["lm_head", "embed_tokens"], "peft_type": "LORA", "r": 8, "revision": null, "target_modules": ["q_proj", "v_proj", "k_proj", "o_proj", "gate_proj", "down_proj", "up_proj"], "task_type": "CAUSAL_LM"}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/mnt/parscratch/users/acp23ay/private/models/Mistral-7B-v0.1-ar-clp-plus",
   "architectures": [
     "MistralForCausalLM"
   ],
@@ -18,7 +18,7 @@
   "rope_theta": 10000.0,
   "sliding_window": 4096,
   "tie_word_embeddings": false,
-  "torch_dtype": "float32",
   "transformers_version": "4.35.0.dev0",
   "use_cache": true,
   "vocab_size": 64000

 {
+  "_name_or_path": "mistralai/Mistral-7B-v0.1",
   "architectures": [
     "MistralForCausalLM"
   ],
   "rope_theta": 10000.0,
   "sliding_window": 4096,
   "tie_word_embeddings": false,
+  "torch_dtype": "float64",
   "transformers_version": "4.35.0.dev0",
   "use_cache": true,
   "vocab_size": 64000

model-00001-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18776d2880936a5fec755d529088f4ac00a15970e949e6c84606b6256b3a207b
-size 4941026032

 version https://git-lfs.github.com/spec/v1
+oid sha256:84f66a3b315fab959b9e7e6a6a1b60d36e791307fc3da04008fd98b0b82190c7
+size 4882271864

model-00002-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d32f4e850f6bda3b1aa1fd85a372377274b9a8a166dab9047fd4cd958199746
-size 4999813072

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f0bac6759c14ee4d41847d0bae723b5a6a49581431401e0e1bde7e727c0d1aa
+size 4832007448

model-00003-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f3b1794261ba1e27810d553cd2b5f949fcc3a6fe37ba9b09f5033bc7e5de472
-size 4832007496

 version https://git-lfs.github.com/spec/v1
+oid sha256:26363511ef9b74574e4b1d0240bd8cfdd94e4f7b0c89ef4ff70da486d804051d
+size 4999813112

model-00004-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f72da02290a5f95304a8cff4c7216f30405a3f0072ac1b2b1a906e9748ff10a7
-size 4999813120

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e9ffd6a5d87b5ef96d752d8d1558aa36ac3fc5d05e9c4f6162061cec092b116
+size 4999813128

model-00005-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f289adb9a536fe1aed9ba102e26c6b07185a467cb77def237d8715d378831662
-size 4999813128

 version https://git-lfs.github.com/spec/v1
+oid sha256:76a7302529c832d7cfc43e98e64ccf942c9ddd3e574f283ae2e596df8f9ae364
+size 4832007496

model-00006-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7c45253c17a967ef82cbb9b04de5020794f951c0b749205f2f533d6e746962d
-size 4194489072

 version https://git-lfs.github.com/spec/v1
+oid sha256:40c1a941d32a3c23f0a37ecfa4b38ea8eb7913a5373bb9244277309935e84d69
+size 4999813120

model-00007-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb2eaae68b06a4407d7a8c4a51ada496a85cabb19cc7788afe5d7261f4c2b0ee
-size 1048576128

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f1e2c53dd876cc21962855732b7519ceb5603066c1555fd76dd66af90043579
+size 1518387880

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 30015504384
   },
   "weight_map": {
     "lm_head.weight": "model-00007-of-00007.safetensors",
@@ -28,10 +28,10 @@
     "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
     "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
@@ -59,24 +59,24 @@
     "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
     "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
     "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
@@ -122,24 +122,24 @@
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
@@ -167,33 +167,33 @@
     "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00006-of-00007.safetensors",
     "model.layers.28.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.28.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
@@ -212,11 +212,11 @@
     "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
     "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
@@ -230,24 +230,24 @@
     "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
     "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
@@ -275,24 +275,24 @@
     "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
   }
 }

 {
   "metadata": {
+    "total_size": 31064080384
   },
   "weight_map": {
     "lm_head.weight": "model-00007-of-00007.safetensors",
     "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
     "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
     "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
     "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
     "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
     "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
     "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00006-of-00007.safetensors",
     "model.layers.28.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.28.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
     "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
     "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
     "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
     "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
     "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
     "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
     "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00007-of-00007.safetensors"
   }
 }

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:588176f88946a2ff8c488d92af398828e3f8541fb47d24eef98c671e22da7a1a
+size 1093167324

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f21655ba8bdde9d44ecb6be12e1fe5543c4cdb67e0e5a746b9dcacce9091f703
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c502c4839bd0e8f15b5c7edfd874c07c774ff47fb7f76292ac238af80666792
+size 1064

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51a88219c1d227ec061b20873c4e395ad7b93bc7b6eda6a800ea6ff797967234
+size 4664