jackyoung96 commited on Jul 2

Commit

3c41cff

verified ·

1 Parent(s): 6ee5b7b

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

.gitattributes +4 -0
LICENSE +51 -0
README.md +509 -3
assets/A.X_logo.png +0 -0
assets/A.X_logo_ko_4x3.png +3 -0
generation_config.json +9 -0
merges.txt +0 -0
model-00001-of-00030.safetensors +3 -0
model-00002-of-00030.safetensors +3 -0
model-00003-of-00030.safetensors +3 -0
model-00004-of-00030.safetensors +3 -0
model-00005-of-00030.safetensors +3 -0
model-00006-of-00030.safetensors +3 -0
model-00007-of-00030.safetensors +3 -0
model-00008-of-00030.safetensors +3 -0
model-00009-of-00030.safetensors +3 -0
model-00010-of-00030.safetensors +3 -0
model-00011-of-00030.safetensors +3 -0
model-00012-of-00030.safetensors +3 -0
model-00013-of-00030.safetensors +3 -0
model-00014-of-00030.safetensors +3 -0
model-00015-of-00030.safetensors +3 -0
model-00016-of-00030.safetensors +3 -0
model-00017-of-00030.safetensors +3 -0
model-00018-of-00030.safetensors +3 -0
model-00019-of-00030.safetensors +3 -0
model-00020-of-00030.safetensors +3 -0
model-00021-of-00030.safetensors +3 -0
model-00022-of-00030.safetensors +3 -0
model-00023-of-00030.safetensors +3 -0
model-00024-of-00030.safetensors +3 -0
model-00025-of-00030.safetensors +3 -0
model-00026-of-00030.safetensors +3 -0
model-00027-of-00030.safetensors +3 -0
model-00028-of-00030.safetensors +3 -0
model-00029-of-00030.safetensors +3 -0
model-00030-of-00030.safetensors +3 -0
model.safetensors.index.json +970 -0
pytorch_model.bin.index.json +970 -0
special_tokens_map.json +90 -0
tokenizer_config.json +391 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/A.X_logo_ko.jpg filter=lfs diff=lfs merge=lfs -text
+A.X_logo_ko.png filter=lfs diff=lfs merge=lfs -text
+assets/A.X_logo_ko.png filter=lfs diff=lfs merge=lfs -text
+assets/A.X_logo_ko_4x3.png filter=lfs diff=lfs merge=lfs -text

LICENSE ADDED Viewed

	@@ -0,0 +1,51 @@

+Qwen LICENSE AGREEMENT
+Qwen LICENSE AGREEMENT Release Date: September 19, 2024
+By clicking to agree or by using or distributing any portion or element of the Qwen Materials, you will be deemed to have recognized and accepted the content of this Agreement, which is effective immediately.
+1. Definitions
+    a. This Qwen LICENSE AGREEMENT (this "Agreement") shall mean the terms and conditions for use, reproduction, distribution and modification of the Materials as defined by this Agreement.
+    b. "We" (or "Us") shall mean Alibaba Cloud.
+    c. "You" (or "Your") shall mean a natural person or legal entity exercising the rights granted by this Agreement and/or using the Materials for any purpose and in any field of use.
+    d. "Third Parties" shall mean individuals or legal entities that are not under common control with us or you.
+    e. "Qwen" shall mean the large language models, and software and algorithms, consisting of trained model weights, parameters (including optimizer states), machine-learning model code, inference-enabling code, training-enabling code, fine-tuning enabling code and other elements of the foregoing distributed by us.
+    f. "Materials" shall mean, collectively, Alibaba Cloud's proprietary Qwen and Documentation (and any portion thereof) made available under this Agreement.
+    g. "Source" form shall mean the preferred form for making modifications, including but not limited to model source code, documentation source, and configuration files.
+    h. "Object" form shall mean any form resulting from mechanical transformation or translation of a Source form, including but not limited to compiled object code, generated documentation, and conversions to other media types.
+2. Grant of Rights
+You are granted a non-exclusive, worldwide, non-transferable and royalty-free limited license under Alibaba Cloud's intellectual property or other rights owned by us embodied in the Materials to use, reproduce, distribute, copy, create derivative works of, and make modifications to the Materials.
+3. Redistribution
+You may distribute copies or make the Materials, or derivative works thereof, available as part of a product or service that contains any of them, with or without modifications, and in Source or Object form, provided that you meet the following conditions:
+    a. You shall give any other recipients of the Materials or derivative works a copy of this Agreement;
+    b. You shall cause any modified files to carry prominent notices stating that you changed the files;
+    c. You shall retain in all copies of the Materials that you distribute the following attribution notices within a "Notice" text file distributed as a part of such copies: "Qwen is licensed under the Qwen LICENSE AGREEMENT, Copyright (c) Alibaba Cloud. All Rights Reserved."; and
+    d. You may add your own copyright statement to your modifications and may provide additional or different license terms and conditions for use, reproduction, or distribution of your modifications, or for any such derivative works as a whole, provided your use, reproduction, and distribution of the work otherwise complies with the terms and conditions of this Agreement.
+4. Restrictions
+If you are commercially using the Materials, and your product or service has more than 100 million monthly active users, you shall request a license from us. You cannot exercise your rights under this Agreement without our express authorization.
+5. Rules of use
+    a. The Materials may be subject to export controls or restrictions in China, the United States or other countries or regions. You shall comply with applicable laws and regulations in your use of the Materials.
+    b. If you use the Materials or any outputs or results therefrom to create, train, fine-tune, or improve an AI model that is distributed or made available, you shall prominently display “Built with Qwen” or “Improved using Qwen” in the related product documentation.
+6. Intellectual Property
+    a. We retain ownership of all intellectual property rights in and to the Materials and derivatives made by or for us. Conditioned upon compliance with the terms and conditions of this Agreement, with respect to any derivative works and modifications of the Materials that are made by you, you are and will be the owner of such derivative works and modifications.
+    b. No trademark license is granted to use the trade names, trademarks, service marks, or product names of us, except as required to fulfill notice requirements under this Agreement or as required for reasonable and customary use in describing and redistributing the Materials.
+    c. If you commence a lawsuit or other proceedings (including a cross-claim or counterclaim in a lawsuit) against us or any entity alleging that the Materials or any output therefrom, or any part of the foregoing, infringe any intellectual property or other right owned or licensable by you, then all licenses granted to you under this Agreement shall terminate as of the date such lawsuit or other proceeding is commenced or brought.
+7. Disclaimer of Warranty and Limitation of Liability
+    a. We are not obligated to support, update, provide training for, or develop any further version of the Qwen Materials or to grant any license thereto.
+    b. THE MATERIALS ARE PROVIDED "AS IS" WITHOUT ANY EXPRESS OR IMPLIED WARRANTY OF ANY KIND INCLUDING WARRANTIES OF MERCHANTABILITY, NONINFRINGEMENT, OR FITNESS FOR A PARTICULAR PURPOSE. WE MAKE NO WARRANTY AND ASSUME NO RESPONSIBILITY FOR THE SAFETY OR STABILITY OF THE MATERIALS AND ANY OUTPUT THEREFROM.
+    c. IN NO EVENT SHALL WE BE LIABLE TO YOU FOR ANY DAMAGES, INCLUDING, BUT NOT LIMITED TO ANY DIRECT, OR INDIRECT, SPECIAL OR CONSEQUENTIAL DAMAGES ARISING FROM YOUR USE OR INABILITY TO USE THE MATERIALS OR ANY OUTPUT OF IT, NO MATTER HOW IT’S CAUSED.
+    d. You will defend, indemnify and hold harmless us from and against any claim by any third party arising out of or related to your use or distribution of the Materials.
+8. Survival and Termination.
+    a. The term of this Agreement shall commence upon your acceptance of this Agreement or access to the Materials and will continue in full force and effect until terminated in accordance with the terms and conditions herein.
+    b. We may terminate this Agreement if you breach any of the terms or conditions of this Agreement. Upon termination of this Agreement, you must delete and cease use of the Materials. Sections 7 and 9 shall survive the termination of this Agreement.
+9. Governing Law and Jurisdiction.
+    a. This Agreement and any dispute arising out of or relating to it will be governed by the laws of China, without regard to conflict of law principles, and the UN Convention on Contracts for the International Sale of Goods does not apply to this Agreement.
+    b. The People's Courts in Hangzhou City shall have exclusive jurisdiction over any dispute arising out of this Agreement.

README.md CHANGED Viewed

@@ -1,3 +1,509 @@
----
-license: apache-2.0
----

+---
+license: other
+license_name: qwen
+license_link: https://huggingface.co/skt/A.X-4.0/blob/main/LICENSE
+language:
+- en
+- ko
+pipeline_tag: text-generation
+library_name: transformers
+model_id: skt/A.X-4.0
+developers: SKT AI Model Lab
+model-index:
+- name: A.X-4.0
+  results:
+  - task:
+      type: generate_until
+      name: mmlu
+    dataset:
+      name: mmlu (chat CoT)
+      type: hails/mmlu_no_train
+    metrics:
+    - type: exact_match
+      value: 86.62
+      name: exact_match
+  - task:
+      type: generate_until
+      name: kmmlu
+    dataset:
+      name: kmmlu (chat CoT)
+      type: HAERAE-HUB/KMMLU
+    metrics:
+    - type: exact_match
+      value: 78.32
+      name: exact_match
+---
+# A.X 4.0
+<p align="center">
+    <picture>
+        <img src="./assets/A.X_logo_ko_4x3.png" width="45%" style="margin: 40px auto;">
+    </picture>
+</p>
+<p align="center"> <a href="https://huggingface.co/collections/skt/ax-4-68637ebaa63b9cc51925e886">🤗 Models</a>   |   <a href="https://sktax.chat/chat">💬 Chat</a>   |   <a href="https://github.com/SKT-AI/A.X-4.0">🖥️ Github</a> </p>
+## A.X 4.0 Family Highlights
+SK Telecom released **A.X 4.0** (pronounced "A dot X"), a large language model (LLM) optimized for Korean-language understanding and enterprise deployment, on July 03, 2025. Built on the open-source [Qwen2.5](https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e) model, A.X 4.0 has been further trained with large-scale Korean datasets to deliver outstanding performance in real-world business environments.
+- **Superior Korean Proficiency**: Achieved a score of 78.3 on [KMMLU](https://huggingface.co/datasets/HAERAE-HUB/KMMLU), the leading benchmark for Korean-language evaluation and a Korean-specific adaptation of MMLU, outperforming GPT-4o (72.5).
+- **Deep Cultural Understanding**: Scored 83.5 on [CLIcK](https://huggingface.co/datasets/EunsuKim/CLIcK), a benchmark for Korean cultural and contextual comprehension, surpassing GPT-4o (80.2).
+- **Efficient Token Usage**: A.X 4.0 uses approximately 33% fewer tokens than GPT-4o for the same Korean input, enabling more cost-effective and efficient processing.
+- **Deployment Flexibility**: Offered in both a 72B-parameter standard model (A.X 4.0) and a 7B lightweight version (A.X 4.0 Light).
+- **Long Context Handling**: Supports up to 131,072 tokens, allowing comprehension of lengthy documents and conversations. (Lightweight model supports up to 16,384 tokens length)
+## Performance
+### Model Performance
+<table><thead>
+  <tr>
+    <th colspan="2">Benchmarks</th>
+    <th>A.X 4.0</th>
+    <th>Qwen3-235B-A22B<br/>(w/o reasoning)</th>
+    <th>Qwen2.5-72B</th>
+    <th>GPT-4o</th>
+  </tr></thead>
+<tbody>
+  <tr>
+    <td rowspan="4">Knowledge</td>
+    <td>KMMLU</td>
+    <td>78.32</td>
+    <td>73.64</td>
+    <td>66.44</td>
+    <td>72.51</td>
+  </tr>
+  <tr>
+    <td>CLIcK</td>
+    <td>83.51</td>
+    <td>74.55</td>
+    <td>72.59</td>
+    <td>80.22</td>
+  </tr>
+  <tr>
+    <td>KoBALT</td>
+    <td>47.30</td>
+    <td>41.57</td>
+    <td>37.00</td>
+    <td>44.00</td>
+  </tr>
+  <tr>
+    <td>MMLU</td>
+    <td>86.62</td>
+    <td>87.37</td>
+    <td>85.70</td>
+    <td>88.70</td>
+  </tr>
+  <tr>
+    <td rowspan="3">General</td>
+    <td>Ko-MT-Bench</td>
+    <td>86.69</td>
+    <td>88.00</td>
+    <td>82.69</td>
+    <td>88.44</td>
+  </tr>
+  <tr>
+    <td>MT-Bench</td>
+    <td>83.25</td>
+    <td>86.56</td>
+    <td>93.50</td>
+    <td>88.19</td>
+  </tr>
+  <tr>
+    <td>LiveBench<sup>2024.11</sup></td>
+    <td>52.30</td>
+    <td>64.50</td>
+    <td>54.20</td>
+    <td>52.19</td>
+  </tr>
+  <tr>
+    <td rowspan="2">Instruction Following</td>
+    <td>Ko-IFEval</td>
+    <td>77.96</td>
+    <td>77.53</td>
+    <td>77.07</td>
+    <td>75.38</td>
+  </tr>
+  <tr>
+    <td>IFEval</td>
+    <td>86.05</td>
+    <td>85.77</td>
+    <td>86.54</td>
+    <td>83.86</td>
+  </tr>
+  <tr>
+    <td rowspan="2">Math</td>
+    <td>HRM8K</td>
+    <td>48.55</td>
+    <td>54.52</td>
+    <td>46.37</td>
+    <td>43.27</td>
+  </tr>
+  <tr>
+    <td>MATH</td>
+    <td>74.28</td>
+    <td>72.72</td>
+    <td>77.00</td>
+    <td>72.38</td>
+  </tr>
+  <tr>
+    <td rowspan="3">Code</td>
+    <td>HumanEval+</td>
+    <td>79.27</td>
+    <td>79.27</td>
+    <td>81.71</td>
+    <td>86.00</td>
+  </tr>
+  <tr>
+    <td>MBPP+</td>
+    <td>73.28</td>
+    <td>70.11</td>
+    <td>75.66</td>
+    <td>75.10</td>
+  </tr>
+  <tr>
+    <td>LiveCodeBench<sup>2024.10~2025.04</sup></td>
+    <td>26.07</td>
+    <td>33.09</td>
+    <td>27.58</td>
+    <td>29.30</td>
+  </tr>
+  <tr>
+    <td>Long Context</td>
+    <td>LongBench<sup>&lt;128K</sup></td>
+    <td>56.70</td>
+    <td>49.40</td>
+    <td>45.60</td>
+    <td>47.50</td>
+  </tr>
+  <tr>
+    <td>Tool-use</td>
+    <td>FunctionChatBench</td>
+    <td>85.96</td>
+    <td>82.43</td>
+    <td>88.30</td>
+    <td>95.70</td>
+  </tr>
+</tbody></table>
+### Lightweight Model Performance
+<table><thead>
+  <tr>
+    <th colspan="2">Benchmarks</th>
+    <th>A.X 4.0 Light</th>
+    <th>Qwen3-8B<br/>(w/o reasoning)</th>
+    <th>Qwen2.5-7B</th>
+    <th>EXAONE-3.5-7.8B</th>
+    <th>Kanana-1.5-8B</th>
+  </tr></thead>
+<tbody>
+  <tr>
+    <td rowspan="4">Knowledge</td>
+    <td>KMMLU</td>
+    <td>64.15</td>
+    <td>63.53</td>
+    <td>49.56</td>
+    <td>53.76</td>
+    <td>48.28</td>
+  </tr>
+  <tr>
+    <td>CLIcK</td>
+    <td>68.05</td>
+    <td>62.71</td>
+    <td>60.56</td>
+    <td>64.30</td>
+    <td>61.30</td>
+  </tr>
+  <tr>
+    <td>KoBALT</td>
+    <td>30.29</td>
+    <td>26.57</td>
+    <td>21.57</td>
+    <td>21.71</td>
+    <td>23.14</td>
+  </tr>
+  <tr>
+    <td>MMLU</td>
+    <td>75.43</td>
+    <td>82.89</td>
+    <td>75.40</td>
+    <td>72.20</td>
+    <td>68.82</td>
+  </tr>
+  <tr>
+    <td rowspan="3">General</td>
+    <td>Ko-MT-Bench</td>
+    <td>79.50</td>
+    <td>64.06</td>
+    <td>61.31</td>
+    <td>81.06</td>
+    <td>76.30</td>
+  </tr>
+  <tr>
+    <td>MT-Bench</td>
+    <td>81.56</td>
+    <td>65.69</td>
+    <td>79.37</td>
+    <td>83.50</td>
+    <td>77.60</td>
+  </tr>
+  <tr>
+    <td>LiveBench</td>
+    <td>37.10</td>
+    <td>50.20</td>
+    <td>37.00</td>
+    <td>40.20</td>
+    <td>29.40</td>
+  </tr>
+  <tr>
+    <td rowspan="2">Instruction Following</td>
+    <td>Ko-IFEval</td>
+    <td>72.99</td>
+    <td>73.39</td>
+    <td>60.73</td>
+    <td>65.01</td>
+    <td>69.96</td>
+  </tr>
+  <tr>
+    <td>IFEval</td>
+    <td>84.68</td>
+    <td>85.38</td>
+    <td>76.73</td>
+    <td>82.61</td>
+    <td>80.11</td>
+  </tr>
+  <tr>
+    <td rowspan="2">Math</td>
+    <td>HRM8K</td>
+    <td>40.12</td>
+    <td>52.50</td>
+    <td>35.13</td>
+    <td>31.88</td>
+    <td>30.87</td>
+  </tr>
+  <tr>
+    <td>MATH</td>
+    <td>68.88</td>
+    <td>71.48</td>
+    <td>65.58</td>
+    <td>63.20</td>
+    <td>59.28</td>
+  </tr>
+  <tr>
+    <td rowspan="3">Code</td>
+    <td>HumanEval+</td>
+    <td>75.61</td>
+    <td>77.44</td>
+    <td>74.39</td>
+    <td>76.83</td>
+    <td>76.83</td>
+  </tr>
+  <tr>
+    <td>MBPP+</td>
+    <td>67.20</td>
+    <td>62.17</td>
+    <td>68.50</td>
+    <td>64.29</td>
+    <td>67.99</td>
+  </tr>
+  <tr>
+    <td>LiveCodeBench</td>
+    <td>18.03</td>
+    <td>23.93</td>
+    <td>16.62</td>
+    <td>17.98</td>
+    <td>16.52</td>
+  </tr>
+</tbody></table>
+## 🚀 Quickstart
+### with HuggingFace Transformers
+- `transformers>=4.46.0` or the latest version is required to use `skt/A.X-4.0`
+```bash
+pip install transformers>=4.46.0
+```
+#### Example Usage
+```python
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "skt/A.X-4.0"
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.bfloat16,
+    device_map="auto",
+)
+model.eval()
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+messages = [
+    {"role": "system", "content": "당신은 사용자가 제공하는 영어 문장들을 한국어로 번역하는 AI 전문가입니다."},
+    {"role": "user", "content": "The first human went into space and orbited the Earth on April 12, 1961."},
+]
+input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
+with torch.no_grad():
+    output = model.generate(
+        input_ids,
+        max_new_tokens=128,
+        do_sample=False,
+    )
+len_input_prompt = len(input_ids[0])
+response = tokenizer.decode(output[0][len_input_prompt:], skip_special_tokens=True)
+print(response)
+# Output:
+# 최초의 인간이 1961년 4월 12일에 우주로 가서 지구 궤도를 돌았습니다.
+```
+### with vLLM
+- `vllm>=v0.6.4.post1` or the latest version is required to use tool-use function
+```bash
+pip install vllm>=v0.6.4.post1
+# if you don't want to activate tool-use function, just commenting out below vLLM option
+VLLM_OPTION="--enable-auto-tool-choice --tool-call-parser hermes"
+vllm serve skt/A.X-4.0 $VLLM_OPTION
+```
+#### Example Usage
+```python
+from openai import OpenAI
+def call(messages, model):
+    completion = client.chat.completions.create(
+        model=model,
+        messages=messages,
+    )
+    print(completion.choices[0].message)
+client = OpenAI(
+    base_url="http://localhost:8000/v1",
+    api_key="api_key"
+)
+model = "skt/A.X-4.0"
+messages = [{"role": "user", "content": "에어컨 여름철 적정 온도는? 한줄로 답변해줘"}]
+call(messages, model)
+# Output:
+# ChatCompletionMessage(content='여름철 에어컨 적정 온도는 24~26도입니다.', refusal=None, role='assistant', audio=None, function_call=None, tool_calls=[], reasoning_content=None)
+messages = [{"role": "user", "content": "What is the appropriate temperature for air conditioning in summer? Response in a single sentence."}]
+call(messages, model)
+# Output:
+# ChatCompletionMessage(content='A comfortable and energy-efficient temperature for air conditioning in summer is typically around 24-26°C (75-79°F).', refusal=None, role='assistant', audio=None, function_call=None, tool_calls=[], reasoning_content=None)
+```
+#### Examples for tool-use
+```python
+from openai import OpenAI
+def call(messages, model):
+    completion = client.chat.completions.create(
+        model=model,
+        messages=messages,
+        tools=tools
+    )
+    print(completion.choices[0].message)
+client = OpenAI(
+    base_url="http://ip:port/v1",
+    api_key="api_key"
+)
+model = "skt/A.X-4.0"
+calculate_discount = {
+    "type": "function",
+    "function": {
+        "name": "calculate_discount",
+        "description": "원가격과 할인율(퍼센트 단위)을 입력받아 할인된 가격을계산한다.",
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "original_price": {
+                    "type": "number",
+                    "description": "상품의 원래 가격"
+                },
+                "discount_percentage": {
+                    "type": "number",
+                    "description": "적용할 할인율(예: 20% 할인의 경우 20을 입력)"
+                }
+            },
+            "required": ["original_price", "discount_percentage"]
+        }
+    }
+}
+get_exchange_rate = {
+    "type": "function",
+    "function": {
+        "name": "get_exchange_rate",
+        "description": "두 통화 간의 환율을 가져온다.",
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "base_currency": {
+                    "type": "string",
+                    "description": "The currency to convert from."
+                },
+                "target_currency": {
+                    "type": "string",
+                    "description": "The currency to convert to."
+                }
+            },
+            "required": ["base_currency", "target_currency"]
+        }
+    }
+}
+tools = [calculate_discount, get_exchange_rate]
+### Slot filling ###
+messages = [{"role": "user", "content": "우리가 뭘 사야되는데 원래 57600원인데 직원할인 받을 수 있거든? 할인가좀 계산해줘"}]
+call(messages, model)
+# Output:
+# ChatCompletionMessage(content='직원 할인을 몇 퍼센트 받을 수 있는지 알려주시겠어요?', refusal=None, role='assistant', audio=None, function_call=None, tool_calls=[], reasoning_content=None)
+### Function calling ###
+messages = [
+    {"role": "user", "content": "우리가 뭘 사야되는데 원래 57600원인데 직원할인 받을 수 있거든? 할인가좀 계산해줘"},
+    {"role": "assistant", "content": "직원 할인을 몇 퍼센트 받을 수 있는지 알려주시겠어요?"},
+    {"role": "user", "content": "15% 할인 받을 수 있어."},
+]
+call(messages, model)
+# Output:
+# ChatCompletionMessage(content=None, refusal=None, role='assistant', audio=None, function_call=None, tool_calls=[ChatCompletionMessageToolCall(id='chatcmpl-tool-8634f423e5494ebfa7a428b8385b4981', function=Function(arguments='{"original_price": 57600, "discount_percentage": 15}', name='calculate_discount'), type='function')], reasoning_content=None)
+### Completion ###
+messages = [
+    {"role": "user", "content": "우리가 뭘 사야되는데 원래 57600원인데 직원할인 받을 수 있거든? 할인가좀 계산해줘"},
+    {"role": "assistant", "content": "직원 할인을 몇 퍼센트 받을 수 있는지 알려주시겠어요?"},
+    {"role": "user", "content": "15% 할인 받을 수 있어."},
+    {"role": "tool", "tool_call_id": "random_id", "name": "calculate_discount", "content": "{\"original_price\": 57600, \"discount_percentage\": 15, \"discounted_price\": 48960.0}"}
+]
+call(messages, model)
+# Output:
+# ChatCompletionMessage(content='15% 할인을 적용하면 상품의 가격은 48,960원이 됩니다.', refusal=None, role='assistant', audio=None, function_call=None, tool_calls=[], reasoning_content=None)
+```
+## Citation
+```
+@article{SKTAdotX4,
+  title={A.X 4.0},
+  author={SKT AI Model Lab},
+  year={2025},
+  url={https://huggingface.co/skt/A.X-4.0}
+}
+```
+## Contact
+- Business & Partnership Contact: [[email protected]]([email protected])

assets/A.X_logo.png ADDED Viewed

assets/A.X_logo_ko_4x3.png ADDED Viewed

Git LFS Details

SHA256: 45eecde59e22d7be0f8a451c2cd7bb7f1526e0bb5b021ed202ce12c0838fc53d
Pointer size: 131 Bytes
Size of remote file: 183 kB

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 0,
+  "do_sample": true,
+  "eos_token_id": 27,
+  "pad_token_id": 1,
+  "temperature": 0.6,
+  "top_p": 0.95,
+  "transformers_version": "4.46.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feba41b4c918fa7554c0e7e8c0cff8a46ec3ada9dfefe1ec5def20a206d8fae7
+size 4703988200

model-00002-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bcdac4caf98dc86f39904c5cdab0a73d22e658d511788db1386c2042e37f2de
+size 4781670320

model-00003-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:050b91c51172fef3311e1a5dcff3557a84331ccc95db5a269485bac67d65994d
+size 4781670320

model-00004-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e962786cb37b965d3be092de6ac7f92960e184410244e38bce0ace63644dc1ff
+size 4964101384

model-00005-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e29ff282edbd3af6d33c31f35acd31ad985c4aa90e20d9d910bbf577cb75c22c
+size 4781637360

model-00006-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:718b449c3e786c02ef6af6993cd371ed366cd370cef7b492010f8395eedd0389
+size 4781670360

model-00007-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f1ae422781189a51e9837c05c470d0240c2782f271ddf2694bddeb6eb24752a
+size 4781670360

model-00008-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63702cad1b0218f8a397458fc592937c7ee833fe1cb75af3c5d37f69b3659e29
+size 4964101416

model-00009-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2f3300db8eb54808ff95a468fdfcb28f9c2f9020876a3568020027c356f0f56
+size 4781637360

model-00010-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b04514f793fa918e44802a4c8489b671f5a85be3b4e581ca513c17d9a85a2cd
+size 4781670360

model-00011-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a83baa09fe8a0b8b9e10d7b2d5a97387602307e9c69a32316b7db0ebe9b015e7
+size 4781670360

model-00012-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5206ecb9042498db8ac33a05f68b18c6272448e9ead7ae3739bd91f0acd33f26
+size 4964101416

model-00013-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aab4de7a44181f765a3b3254bf365dc134cb59a0002ccef7284cec62dc0597d
+size 4781637360

model-00014-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7728baa5ec80314e238138b83227778c999bdfc361112d5aa95f272516b1f26e
+size 4781670360

model-00015-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:892dfbfe6e881e0c2ab0582fd0674bfe42a658f17bfd39e4df6c46ebfa231f18
+size 4781670360

model-00016-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ceb8f5c7c2c4400252e82f395d4ac027f887ce139af51d251d3997201886d28a
+size 4964101416

model-00017-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acd65258cf1d8f1efbc744cfe18ec7f3c5045dfc240e0cea104ef46a6c3141c5
+size 4781637360

model-00018-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7984f99ea428e4ffeed94abeab4ef7971a505fcf96977252d40ab9568bd9b00
+size 4781670360

model-00019-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dddbdc37ac256f202a06efc2189792ae28d4ab7a0f6a31f8f136c69c299c7919
+size 4781670360

model-00020-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dff3e6affff39308bb7a71d51ad65449cdb5cc47317258ff5ec13aecc7a5bd3
+size 4964101416

model-00021-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ece216cf71d87fe3463a812dd9875eeb49290ecc85c4a4ead3e7326d3b9f4459
+size 4781637360

model-00022-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21b25846d8be5e151477a028cf7482a6a7d39b18fc65dad0714ae465c4d5801e
+size 4781670360

model-00023-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972c7a34c9d6adadffbc6289ad270160ce5df8fea95f1dd3aaf8329bdcc6c0ec
+size 4781670360

model-00024-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:788763f0f03134c76dee604d742629d09783bb9ca489474bf02ad11d0494c11a
+size 4964101416

model-00025-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4369120bcd6bc1e99676e884a93317cbe672e1269815c4f594c25e4c15c9ddd1
+size 4781637360

model-00026-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e517eacf17841231cad1eb47d2af678919755b827e338c6585754079670bf75
+size 4781670360

model-00027-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:790f64775a4e979bf5231c2fac8524fc4ef5df1e0220d5e5e1b3278a8a5b88e7
+size 4781670360

model-00028-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a5561d2992610036af13958035fc85dcd73b258a4545178e898beaf30163cf5
+size 4964101416

model-00029-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ecfbf583fb98b604c3c8ec8f890bfe718c933003eff43f06e852461918fedce
+size 4781637360

model-00030-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f3319cb54f874931b2a257d9b4efe339534d6c33caaad6bb0ec41b1f8521ea3
+size 3917584288

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,970 @@

+{
+  "metadata": {
+    "total_size": 143785017344
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00030-of-00030.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.self_attn.k_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.q_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.v_proj.bias": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.k_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.q_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.v_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.k_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.q_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.v_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.self_attn.k_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.q_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.v_proj.bias": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.k_proj.bias": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.q_proj.bias": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.v_proj.bias": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.k_proj.bias": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.q_proj.bias": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.v_proj.bias": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.k_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.q_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.v_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.k_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.q_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.v_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.56.self_attn.k_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.q_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.v_proj.bias": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.k_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.q_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.v_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.k_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.q_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.v_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.self_attn.k_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.q_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.v_proj.bias": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.k_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.q_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.v_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.k_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.q_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.v_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.self_attn.k_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.q_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.v_proj.bias": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.k_proj.bias": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.q_proj.bias": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.v_proj.bias": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.input_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.down_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.gate_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.up_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.post_attention_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.k_proj.bias": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.k_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.o_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.q_proj.bias": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.q_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.v_proj.bias": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.v_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.65.input_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.down_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.gate_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.up_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.post_attention_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.k_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.k_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.o_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.q_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.q_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.v_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.v_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.input_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.down_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.gate_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.up_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.post_attention_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.k_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.k_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.o_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.q_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.q_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.v_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.v_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.input_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.down_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.gate_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.mlp.up_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.post_attention_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.67.self_attn.k_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.k_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.o_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.q_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.q_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.v_proj.bias": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.v_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.68.input_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.down_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.gate_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.up_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.post_attention_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.k_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.k_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.o_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.q_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.q_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.v_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.v_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.input_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.down_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.gate_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.up_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.post_attention_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.k_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.k_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.o_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.q_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.q_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.v_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.v_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.70.input_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.down_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.gate_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.mlp.up_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.post_attention_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.self_attn.k_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.k_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.o_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.q_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.q_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.v_proj.bias": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.v_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.71.input_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.down_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.gate_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.up_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.post_attention_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.k_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.k_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.o_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.q_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.q_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.v_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.v_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.input_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.down_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.gate_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.up_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.post_attention_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.k_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.k_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.o_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.q_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.q_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.v_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.v_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.input_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.down_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.gate_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.up_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.post_attention_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.self_attn.k_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.k_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.o_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.q_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.q_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.v_proj.bias": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.v_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.74.input_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.down_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.gate_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.up_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.post_attention_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.k_proj.bias": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.k_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.o_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.q_proj.bias": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.q_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.v_proj.bias": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.v_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.input_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.down_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.gate_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.up_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.post_attention_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.k_proj.bias": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.k_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.o_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.q_proj.bias": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.q_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.v_proj.bias": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.v_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.76.input_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.down_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.gate_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.up_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.post_attention_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.k_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.k_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.o_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.q_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.q_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.v_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.v_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.input_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.down_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.gate_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.up_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.post_attention_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.k_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.k_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.o_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.q_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.q_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.v_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.v_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.input_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.down_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.gate_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.mlp.up_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.post_attention_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.78.self_attn.k_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.k_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.o_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.q_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.q_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.v_proj.bias": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.v_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.79.input_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.down_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.gate_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.up_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.post_attention_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.k_proj.bias": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.k_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.o_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.q_proj.bias": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.q_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.v_proj.bias": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.v_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00004-of-00030.safetensors",
+    "model.norm.weight": "model-00030-of-00030.safetensors"
+  }
+}

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,970 @@

+{
+  "metadata": {
+    "total_size": 287570034688
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00062-of-00062.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.0.self_attn.k_proj.bias": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.self_attn.q_proj.bias": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.self_attn.v_proj.bias": "pytorch_model-00001-of-00062.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00062.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.1.self_attn.k_proj.bias": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.self_attn.q_proj.bias": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.self_attn.v_proj.bias": "pytorch_model-00002-of-00062.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00002-of-00062.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.k_proj.bias": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.q_proj.bias": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.v_proj.bias": "pytorch_model-00009-of-00062.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.11.self_attn.k_proj.bias": "pytorch_model-00009-of-00062.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.11.self_attn.q_proj.bias": "pytorch_model-00009-of-00062.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.11.self_attn.v_proj.bias": "pytorch_model-00009-of-00062.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.12.self_attn.k_proj.bias": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.self_attn.q_proj.bias": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.self_attn.v_proj.bias": "pytorch_model-00010-of-00062.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00010-of-00062.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.13.self_attn.k_proj.bias": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.self_attn.q_proj.bias": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.self_attn.v_proj.bias": "pytorch_model-00011-of-00062.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00011-of-00062.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.k_proj.bias": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.q_proj.bias": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.v_proj.bias": "pytorch_model-00012-of-00062.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.15.self_attn.k_proj.bias": "pytorch_model-00012-of-00062.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.15.self_attn.q_proj.bias": "pytorch_model-00012-of-00062.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.15.self_attn.v_proj.bias": "pytorch_model-00012-of-00062.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00012-of-00062.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.16.self_attn.k_proj.bias": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.self_attn.q_proj.bias": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.self_attn.v_proj.bias": "pytorch_model-00013-of-00062.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00013-of-00062.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.17.self_attn.k_proj.bias": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.self_attn.q_proj.bias": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.self_attn.v_proj.bias": "pytorch_model-00014-of-00062.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00014-of-00062.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.k_proj.bias": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.q_proj.bias": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.v_proj.bias": "pytorch_model-00015-of-00062.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.19.self_attn.k_proj.bias": "pytorch_model-00015-of-00062.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.19.self_attn.q_proj.bias": "pytorch_model-00015-of-00062.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.19.self_attn.v_proj.bias": "pytorch_model-00015-of-00062.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00015-of-00062.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.k_proj.bias": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.q_proj.bias": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.v_proj.bias": "pytorch_model-00003-of-00062.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.20.self_attn.k_proj.bias": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.self_attn.q_proj.bias": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.self_attn.v_proj.bias": "pytorch_model-00016-of-00062.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00016-of-00062.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.21.self_attn.k_proj.bias": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.self_attn.q_proj.bias": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.self_attn.v_proj.bias": "pytorch_model-00017-of-00062.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00017-of-00062.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.k_proj.bias": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.q_proj.bias": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.v_proj.bias": "pytorch_model-00018-of-00062.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.23.self_attn.k_proj.bias": "pytorch_model-00018-of-00062.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.23.self_attn.q_proj.bias": "pytorch_model-00018-of-00062.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.23.self_attn.v_proj.bias": "pytorch_model-00018-of-00062.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00018-of-00062.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.24.self_attn.k_proj.bias": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.self_attn.q_proj.bias": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.self_attn.v_proj.bias": "pytorch_model-00019-of-00062.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00019-of-00062.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.25.self_attn.k_proj.bias": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.self_attn.q_proj.bias": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.self_attn.v_proj.bias": "pytorch_model-00020-of-00062.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00020-of-00062.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.k_proj.bias": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.q_proj.bias": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.v_proj.bias": "pytorch_model-00021-of-00062.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.27.self_attn.k_proj.bias": "pytorch_model-00021-of-00062.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.27.self_attn.q_proj.bias": "pytorch_model-00021-of-00062.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.27.self_attn.v_proj.bias": "pytorch_model-00021-of-00062.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00021-of-00062.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.28.self_attn.k_proj.bias": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.self_attn.q_proj.bias": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.self_attn.v_proj.bias": "pytorch_model-00022-of-00062.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00022-of-00062.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.29.self_attn.k_proj.bias": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.self_attn.q_proj.bias": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.self_attn.v_proj.bias": "pytorch_model-00023-of-00062.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00023-of-00062.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.3.self_attn.k_proj.bias": "pytorch_model-00003-of-00062.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.3.self_attn.q_proj.bias": "pytorch_model-00003-of-00062.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.3.self_attn.v_proj.bias": "pytorch_model-00003-of-00062.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00003-of-00062.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.k_proj.bias": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.q_proj.bias": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.v_proj.bias": "pytorch_model-00024-of-00062.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.31.self_attn.k_proj.bias": "pytorch_model-00024-of-00062.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.31.self_attn.q_proj.bias": "pytorch_model-00024-of-00062.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.31.self_attn.v_proj.bias": "pytorch_model-00024-of-00062.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00024-of-00062.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.32.self_attn.k_proj.bias": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.self_attn.q_proj.bias": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.self_attn.v_proj.bias": "pytorch_model-00025-of-00062.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00025-of-00062.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.33.self_attn.k_proj.bias": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.self_attn.q_proj.bias": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.self_attn.v_proj.bias": "pytorch_model-00026-of-00062.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00026-of-00062.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.k_proj.bias": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.q_proj.bias": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.v_proj.bias": "pytorch_model-00027-of-00062.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.35.self_attn.k_proj.bias": "pytorch_model-00027-of-00062.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.35.self_attn.q_proj.bias": "pytorch_model-00027-of-00062.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.35.self_attn.v_proj.bias": "pytorch_model-00027-of-00062.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00027-of-00062.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.36.self_attn.k_proj.bias": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.self_attn.q_proj.bias": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.self_attn.v_proj.bias": "pytorch_model-00028-of-00062.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00028-of-00062.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.37.self_attn.k_proj.bias": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.self_attn.q_proj.bias": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.self_attn.v_proj.bias": "pytorch_model-00029-of-00062.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00029-of-00062.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.k_proj.bias": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.q_proj.bias": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.v_proj.bias": "pytorch_model-00030-of-00062.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.39.self_attn.k_proj.bias": "pytorch_model-00030-of-00062.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.39.self_attn.q_proj.bias": "pytorch_model-00030-of-00062.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.39.self_attn.v_proj.bias": "pytorch_model-00030-of-00062.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00030-of-00062.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.4.self_attn.k_proj.bias": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.self_attn.q_proj.bias": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.self_attn.v_proj.bias": "pytorch_model-00004-of-00062.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00004-of-00062.bin",
+    "model.layers.40.input_layernorm.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.40.mlp.down_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.40.mlp.gate_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.mlp.up_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.40.post_attention_layernorm.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.40.self_attn.k_proj.bias": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.self_attn.k_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.self_attn.o_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.self_attn.q_proj.bias": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.self_attn.q_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.self_attn.v_proj.bias": "pytorch_model-00031-of-00062.bin",
+    "model.layers.40.self_attn.v_proj.weight": "pytorch_model-00031-of-00062.bin",
+    "model.layers.41.input_layernorm.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.41.mlp.down_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.41.mlp.gate_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.mlp.up_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.post_attention_layernorm.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.41.self_attn.k_proj.bias": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.self_attn.k_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.self_attn.o_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.self_attn.q_proj.bias": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.self_attn.q_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.self_attn.v_proj.bias": "pytorch_model-00032-of-00062.bin",
+    "model.layers.41.self_attn.v_proj.weight": "pytorch_model-00032-of-00062.bin",
+    "model.layers.42.input_layernorm.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.mlp.down_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.mlp.gate_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.mlp.up_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.post_attention_layernorm.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.k_proj.bias": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.k_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.o_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.q_proj.bias": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.q_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.v_proj.bias": "pytorch_model-00033-of-00062.bin",
+    "model.layers.42.self_attn.v_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.43.input_layernorm.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.43.mlp.down_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.43.mlp.gate_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.43.mlp.up_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.43.post_attention_layernorm.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.43.self_attn.k_proj.bias": "pytorch_model-00033-of-00062.bin",
+    "model.layers.43.self_attn.k_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.43.self_attn.o_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.43.self_attn.q_proj.bias": "pytorch_model-00033-of-00062.bin",
+    "model.layers.43.self_attn.q_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.43.self_attn.v_proj.bias": "pytorch_model-00033-of-00062.bin",
+    "model.layers.43.self_attn.v_proj.weight": "pytorch_model-00033-of-00062.bin",
+    "model.layers.44.input_layernorm.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.44.mlp.down_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.44.mlp.gate_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.mlp.up_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.44.post_attention_layernorm.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.44.self_attn.k_proj.bias": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.self_attn.k_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.self_attn.o_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.self_attn.q_proj.bias": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.self_attn.q_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.self_attn.v_proj.bias": "pytorch_model-00034-of-00062.bin",
+    "model.layers.44.self_attn.v_proj.weight": "pytorch_model-00034-of-00062.bin",
+    "model.layers.45.input_layernorm.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.45.mlp.down_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.45.mlp.gate_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.mlp.up_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.post_attention_layernorm.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.45.self_attn.k_proj.bias": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.self_attn.k_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.self_attn.o_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.self_attn.q_proj.bias": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.self_attn.q_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.self_attn.v_proj.bias": "pytorch_model-00035-of-00062.bin",
+    "model.layers.45.self_attn.v_proj.weight": "pytorch_model-00035-of-00062.bin",
+    "model.layers.46.input_layernorm.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.mlp.down_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.mlp.gate_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.mlp.up_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.post_attention_layernorm.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.k_proj.bias": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.k_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.o_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.q_proj.bias": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.q_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.v_proj.bias": "pytorch_model-00036-of-00062.bin",
+    "model.layers.46.self_attn.v_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.47.input_layernorm.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.47.mlp.down_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.47.mlp.gate_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.47.mlp.up_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.47.post_attention_layernorm.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.47.self_attn.k_proj.bias": "pytorch_model-00036-of-00062.bin",
+    "model.layers.47.self_attn.k_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.47.self_attn.o_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.47.self_attn.q_proj.bias": "pytorch_model-00036-of-00062.bin",
+    "model.layers.47.self_attn.q_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.47.self_attn.v_proj.bias": "pytorch_model-00036-of-00062.bin",
+    "model.layers.47.self_attn.v_proj.weight": "pytorch_model-00036-of-00062.bin",
+    "model.layers.48.input_layernorm.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.48.mlp.down_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.48.mlp.gate_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.mlp.up_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.48.post_attention_layernorm.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.48.self_attn.k_proj.bias": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.self_attn.k_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.self_attn.o_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.self_attn.q_proj.bias": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.self_attn.q_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.self_attn.v_proj.bias": "pytorch_model-00037-of-00062.bin",
+    "model.layers.48.self_attn.v_proj.weight": "pytorch_model-00037-of-00062.bin",
+    "model.layers.49.input_layernorm.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.49.mlp.down_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.49.mlp.gate_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.mlp.up_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.post_attention_layernorm.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.49.self_attn.k_proj.bias": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.self_attn.k_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.self_attn.o_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.self_attn.q_proj.bias": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.self_attn.q_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.self_attn.v_proj.bias": "pytorch_model-00038-of-00062.bin",
+    "model.layers.49.self_attn.v_proj.weight": "pytorch_model-00038-of-00062.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.5.self_attn.k_proj.bias": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.self_attn.q_proj.bias": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.self_attn.v_proj.bias": "pytorch_model-00005-of-00062.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00005-of-00062.bin",
+    "model.layers.50.input_layernorm.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.mlp.down_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.mlp.gate_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.mlp.up_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.post_attention_layernorm.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.k_proj.bias": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.k_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.o_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.q_proj.bias": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.q_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.v_proj.bias": "pytorch_model-00039-of-00062.bin",
+    "model.layers.50.self_attn.v_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.51.input_layernorm.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.51.mlp.down_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.51.mlp.gate_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.51.mlp.up_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.51.post_attention_layernorm.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.51.self_attn.k_proj.bias": "pytorch_model-00039-of-00062.bin",
+    "model.layers.51.self_attn.k_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.51.self_attn.o_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.51.self_attn.q_proj.bias": "pytorch_model-00039-of-00062.bin",
+    "model.layers.51.self_attn.q_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.51.self_attn.v_proj.bias": "pytorch_model-00039-of-00062.bin",
+    "model.layers.51.self_attn.v_proj.weight": "pytorch_model-00039-of-00062.bin",
+    "model.layers.52.input_layernorm.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.52.mlp.down_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.52.mlp.gate_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.mlp.up_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.52.post_attention_layernorm.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.52.self_attn.k_proj.bias": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.self_attn.k_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.self_attn.o_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.self_attn.q_proj.bias": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.self_attn.q_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.self_attn.v_proj.bias": "pytorch_model-00040-of-00062.bin",
+    "model.layers.52.self_attn.v_proj.weight": "pytorch_model-00040-of-00062.bin",
+    "model.layers.53.input_layernorm.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.53.mlp.down_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.53.mlp.gate_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.mlp.up_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.post_attention_layernorm.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.53.self_attn.k_proj.bias": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.self_attn.k_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.self_attn.o_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.self_attn.q_proj.bias": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.self_attn.q_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.self_attn.v_proj.bias": "pytorch_model-00041-of-00062.bin",
+    "model.layers.53.self_attn.v_proj.weight": "pytorch_model-00041-of-00062.bin",
+    "model.layers.54.input_layernorm.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.mlp.down_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.mlp.gate_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.mlp.up_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.post_attention_layernorm.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.k_proj.bias": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.k_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.o_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.q_proj.bias": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.q_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.v_proj.bias": "pytorch_model-00042-of-00062.bin",
+    "model.layers.54.self_attn.v_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.55.input_layernorm.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.55.mlp.down_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.55.mlp.gate_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.55.mlp.up_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.55.post_attention_layernorm.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.55.self_attn.k_proj.bias": "pytorch_model-00042-of-00062.bin",
+    "model.layers.55.self_attn.k_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.55.self_attn.o_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.55.self_attn.q_proj.bias": "pytorch_model-00042-of-00062.bin",
+    "model.layers.55.self_attn.q_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.55.self_attn.v_proj.bias": "pytorch_model-00042-of-00062.bin",
+    "model.layers.55.self_attn.v_proj.weight": "pytorch_model-00042-of-00062.bin",
+    "model.layers.56.input_layernorm.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.56.mlp.down_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.56.mlp.gate_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.mlp.up_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.56.post_attention_layernorm.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.56.self_attn.k_proj.bias": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.self_attn.k_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.self_attn.o_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.self_attn.q_proj.bias": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.self_attn.q_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.self_attn.v_proj.bias": "pytorch_model-00043-of-00062.bin",
+    "model.layers.56.self_attn.v_proj.weight": "pytorch_model-00043-of-00062.bin",
+    "model.layers.57.input_layernorm.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.57.mlp.down_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.57.mlp.gate_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.mlp.up_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.post_attention_layernorm.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.57.self_attn.k_proj.bias": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.self_attn.k_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.self_attn.o_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.self_attn.q_proj.bias": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.self_attn.q_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.self_attn.v_proj.bias": "pytorch_model-00044-of-00062.bin",
+    "model.layers.57.self_attn.v_proj.weight": "pytorch_model-00044-of-00062.bin",
+    "model.layers.58.input_layernorm.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.mlp.down_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.mlp.gate_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.mlp.up_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.post_attention_layernorm.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.k_proj.bias": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.k_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.o_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.q_proj.bias": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.q_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.v_proj.bias": "pytorch_model-00045-of-00062.bin",
+    "model.layers.58.self_attn.v_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.59.input_layernorm.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.59.mlp.down_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.59.mlp.gate_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.59.mlp.up_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.59.post_attention_layernorm.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.59.self_attn.k_proj.bias": "pytorch_model-00045-of-00062.bin",
+    "model.layers.59.self_attn.k_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.59.self_attn.o_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.59.self_attn.q_proj.bias": "pytorch_model-00045-of-00062.bin",
+    "model.layers.59.self_attn.q_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.59.self_attn.v_proj.bias": "pytorch_model-00045-of-00062.bin",
+    "model.layers.59.self_attn.v_proj.weight": "pytorch_model-00045-of-00062.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.k_proj.bias": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.q_proj.bias": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.v_proj.bias": "pytorch_model-00006-of-00062.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.60.input_layernorm.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.60.mlp.down_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.60.mlp.gate_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.mlp.up_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.60.post_attention_layernorm.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.60.self_attn.k_proj.bias": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.self_attn.k_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.self_attn.o_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.self_attn.q_proj.bias": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.self_attn.q_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.self_attn.v_proj.bias": "pytorch_model-00046-of-00062.bin",
+    "model.layers.60.self_attn.v_proj.weight": "pytorch_model-00046-of-00062.bin",
+    "model.layers.61.input_layernorm.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.61.mlp.down_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.61.mlp.gate_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.mlp.up_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.post_attention_layernorm.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.61.self_attn.k_proj.bias": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.self_attn.k_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.self_attn.o_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.self_attn.q_proj.bias": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.self_attn.q_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.self_attn.v_proj.bias": "pytorch_model-00047-of-00062.bin",
+    "model.layers.61.self_attn.v_proj.weight": "pytorch_model-00047-of-00062.bin",
+    "model.layers.62.input_layernorm.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.mlp.down_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.mlp.gate_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.mlp.up_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.post_attention_layernorm.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.k_proj.bias": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.k_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.o_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.q_proj.bias": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.q_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.v_proj.bias": "pytorch_model-00048-of-00062.bin",
+    "model.layers.62.self_attn.v_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.63.input_layernorm.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.63.mlp.down_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.63.mlp.gate_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.63.mlp.up_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.63.post_attention_layernorm.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.63.self_attn.k_proj.bias": "pytorch_model-00048-of-00062.bin",
+    "model.layers.63.self_attn.k_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.63.self_attn.o_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.63.self_attn.q_proj.bias": "pytorch_model-00048-of-00062.bin",
+    "model.layers.63.self_attn.q_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.63.self_attn.v_proj.bias": "pytorch_model-00048-of-00062.bin",
+    "model.layers.63.self_attn.v_proj.weight": "pytorch_model-00048-of-00062.bin",
+    "model.layers.64.input_layernorm.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.64.mlp.down_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.64.mlp.gate_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.mlp.up_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.64.post_attention_layernorm.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.64.self_attn.k_proj.bias": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.self_attn.k_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.self_attn.o_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.self_attn.q_proj.bias": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.self_attn.q_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.self_attn.v_proj.bias": "pytorch_model-00049-of-00062.bin",
+    "model.layers.64.self_attn.v_proj.weight": "pytorch_model-00049-of-00062.bin",
+    "model.layers.65.input_layernorm.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.65.mlp.down_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.65.mlp.gate_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.mlp.up_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.post_attention_layernorm.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.65.self_attn.k_proj.bias": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.self_attn.k_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.self_attn.o_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.self_attn.q_proj.bias": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.self_attn.q_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.self_attn.v_proj.bias": "pytorch_model-00050-of-00062.bin",
+    "model.layers.65.self_attn.v_proj.weight": "pytorch_model-00050-of-00062.bin",
+    "model.layers.66.input_layernorm.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.mlp.down_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.mlp.gate_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.mlp.up_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.post_attention_layernorm.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.k_proj.bias": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.k_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.o_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.q_proj.bias": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.q_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.v_proj.bias": "pytorch_model-00051-of-00062.bin",
+    "model.layers.66.self_attn.v_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.67.input_layernorm.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.67.mlp.down_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.67.mlp.gate_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.67.mlp.up_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.67.post_attention_layernorm.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.67.self_attn.k_proj.bias": "pytorch_model-00051-of-00062.bin",
+    "model.layers.67.self_attn.k_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.67.self_attn.o_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.67.self_attn.q_proj.bias": "pytorch_model-00051-of-00062.bin",
+    "model.layers.67.self_attn.q_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.67.self_attn.v_proj.bias": "pytorch_model-00051-of-00062.bin",
+    "model.layers.67.self_attn.v_proj.weight": "pytorch_model-00051-of-00062.bin",
+    "model.layers.68.input_layernorm.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.68.mlp.down_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.68.mlp.gate_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.mlp.up_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.68.post_attention_layernorm.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.68.self_attn.k_proj.bias": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.self_attn.k_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.self_attn.o_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.self_attn.q_proj.bias": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.self_attn.q_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.self_attn.v_proj.bias": "pytorch_model-00052-of-00062.bin",
+    "model.layers.68.self_attn.v_proj.weight": "pytorch_model-00052-of-00062.bin",
+    "model.layers.69.input_layernorm.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.69.mlp.down_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.69.mlp.gate_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.mlp.up_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.post_attention_layernorm.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.69.self_attn.k_proj.bias": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.self_attn.k_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.self_attn.o_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.self_attn.q_proj.bias": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.self_attn.q_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.self_attn.v_proj.bias": "pytorch_model-00053-of-00062.bin",
+    "model.layers.69.self_attn.v_proj.weight": "pytorch_model-00053-of-00062.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.7.self_attn.k_proj.bias": "pytorch_model-00006-of-00062.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.7.self_attn.q_proj.bias": "pytorch_model-00006-of-00062.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.7.self_attn.v_proj.bias": "pytorch_model-00006-of-00062.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00006-of-00062.bin",
+    "model.layers.70.input_layernorm.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.mlp.down_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.mlp.gate_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.mlp.up_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.post_attention_layernorm.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.k_proj.bias": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.k_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.o_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.q_proj.bias": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.q_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.v_proj.bias": "pytorch_model-00054-of-00062.bin",
+    "model.layers.70.self_attn.v_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.71.input_layernorm.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.71.mlp.down_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.71.mlp.gate_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.71.mlp.up_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.71.post_attention_layernorm.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.71.self_attn.k_proj.bias": "pytorch_model-00054-of-00062.bin",
+    "model.layers.71.self_attn.k_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.71.self_attn.o_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.71.self_attn.q_proj.bias": "pytorch_model-00054-of-00062.bin",
+    "model.layers.71.self_attn.q_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.71.self_attn.v_proj.bias": "pytorch_model-00054-of-00062.bin",
+    "model.layers.71.self_attn.v_proj.weight": "pytorch_model-00054-of-00062.bin",
+    "model.layers.72.input_layernorm.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.72.mlp.down_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.72.mlp.gate_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.mlp.up_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.72.post_attention_layernorm.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.72.self_attn.k_proj.bias": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.self_attn.k_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.self_attn.o_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.self_attn.q_proj.bias": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.self_attn.q_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.self_attn.v_proj.bias": "pytorch_model-00055-of-00062.bin",
+    "model.layers.72.self_attn.v_proj.weight": "pytorch_model-00055-of-00062.bin",
+    "model.layers.73.input_layernorm.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.73.mlp.down_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.73.mlp.gate_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.mlp.up_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.post_attention_layernorm.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.73.self_attn.k_proj.bias": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.self_attn.k_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.self_attn.o_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.self_attn.q_proj.bias": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.self_attn.q_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.self_attn.v_proj.bias": "pytorch_model-00056-of-00062.bin",
+    "model.layers.73.self_attn.v_proj.weight": "pytorch_model-00056-of-00062.bin",
+    "model.layers.74.input_layernorm.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.mlp.down_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.mlp.gate_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.mlp.up_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.post_attention_layernorm.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.k_proj.bias": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.k_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.o_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.q_proj.bias": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.q_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.v_proj.bias": "pytorch_model-00057-of-00062.bin",
+    "model.layers.74.self_attn.v_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.75.input_layernorm.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.75.mlp.down_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.75.mlp.gate_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.75.mlp.up_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.75.post_attention_layernorm.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.75.self_attn.k_proj.bias": "pytorch_model-00057-of-00062.bin",
+    "model.layers.75.self_attn.k_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.75.self_attn.o_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.75.self_attn.q_proj.bias": "pytorch_model-00057-of-00062.bin",
+    "model.layers.75.self_attn.q_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.75.self_attn.v_proj.bias": "pytorch_model-00057-of-00062.bin",
+    "model.layers.75.self_attn.v_proj.weight": "pytorch_model-00057-of-00062.bin",
+    "model.layers.76.input_layernorm.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.76.mlp.down_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.76.mlp.gate_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.mlp.up_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.76.post_attention_layernorm.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.76.self_attn.k_proj.bias": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.self_attn.k_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.self_attn.o_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.self_attn.q_proj.bias": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.self_attn.q_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.self_attn.v_proj.bias": "pytorch_model-00058-of-00062.bin",
+    "model.layers.76.self_attn.v_proj.weight": "pytorch_model-00058-of-00062.bin",
+    "model.layers.77.input_layernorm.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.77.mlp.down_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.77.mlp.gate_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.mlp.up_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.post_attention_layernorm.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.77.self_attn.k_proj.bias": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.self_attn.k_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.self_attn.o_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.self_attn.q_proj.bias": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.self_attn.q_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.self_attn.v_proj.bias": "pytorch_model-00059-of-00062.bin",
+    "model.layers.77.self_attn.v_proj.weight": "pytorch_model-00059-of-00062.bin",
+    "model.layers.78.input_layernorm.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.mlp.down_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.mlp.gate_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.mlp.up_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.post_attention_layernorm.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.k_proj.bias": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.k_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.o_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.q_proj.bias": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.q_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.v_proj.bias": "pytorch_model-00060-of-00062.bin",
+    "model.layers.78.self_attn.v_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.79.input_layernorm.weight": "pytorch_model-00061-of-00062.bin",
+    "model.layers.79.mlp.down_proj.weight": "pytorch_model-00061-of-00062.bin",
+    "model.layers.79.mlp.gate_proj.weight": "pytorch_model-00061-of-00062.bin",
+    "model.layers.79.mlp.up_proj.weight": "pytorch_model-00061-of-00062.bin",
+    "model.layers.79.post_attention_layernorm.weight": "pytorch_model-00061-of-00062.bin",
+    "model.layers.79.self_attn.k_proj.bias": "pytorch_model-00060-of-00062.bin",
+    "model.layers.79.self_attn.k_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.79.self_attn.o_proj.weight": "pytorch_model-00061-of-00062.bin",
+    "model.layers.79.self_attn.q_proj.bias": "pytorch_model-00060-of-00062.bin",
+    "model.layers.79.self_attn.q_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.79.self_attn.v_proj.bias": "pytorch_model-00060-of-00062.bin",
+    "model.layers.79.self_attn.v_proj.weight": "pytorch_model-00060-of-00062.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.8.self_attn.k_proj.bias": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.self_attn.q_proj.bias": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.self_attn.v_proj.bias": "pytorch_model-00007-of-00062.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00007-of-00062.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00009-of-00062.bin",
+    "model.layers.9.self_attn.k_proj.bias": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.self_attn.q_proj.bias": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.self_attn.v_proj.bias": "pytorch_model-00008-of-00062.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00008-of-00062.bin",
+    "model.norm.weight": "pytorch_model-00061-of-00062.bin"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,90 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<|pad|>",
+    "<|unk|>",
+    "<|sep|>",
+    "<|mask|>",
+    "<|cls|>",
+    "<|image|>",
+    "<|audio|>",
+    "<|user|>",
+    "<|system|>",
+    "<|assistant|>",
+    "<|extra_id_0|>",
+    "<|extra_id_1|>",
+    "<|extra_id_2|>",
+    "<|extra_id_3|>",
+    "<|extra_id_4|>",
+    "<|extra_id_5|>",
+    "<|extra_id_6|>",
+    "<|extra_id_7|>",
+    "<|extra_id_8|>",
+    "<|extra_id_9|>",
+    "<|extra_id_10|>",
+    "<|extra_id_11|>",
+    "<|extra_id_12|>",
+    "<|extra_id_13|>",
+    "<|im_start|>",
+    "<|im_sep|>",
+    "<|im_end|>",
+    "<|resident_reg|>",
+    "<|foreigner_reg|>",
+    "<|business_reg|>",
+    "<|credit_card|>",
+    "<|passport|>",
+    "<|driver_license|>",
+    "<|telephone|>",
+    "<|health_insurance|>",
+    "<|bank_account|>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<|cls|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<|mask|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<|sep|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|unk|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,391 @@

+{
+    "add_bos_token": false,
+    "add_prefix_space": false,
+    "added_tokens_decoder": {
+      "0": {
+        "content": "<|endoftext|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "1": {
+        "content": "<|pad|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "2": {
+        "content": "<|unk|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "3": {
+        "content": "<|sep|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "4": {
+        "content": "<|mask|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "5": {
+        "content": "<|cls|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "6": {
+        "content": "<|image|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "7": {
+        "content": "<|audio|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "8": {
+        "content": "<|user|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "9": {
+        "content": "<|system|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "10": {
+        "content": "<|assistant|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "11": {
+        "content": "<|extra_id_0|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "12": {
+        "content": "<|extra_id_1|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "13": {
+        "content": "<|extra_id_2|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "14": {
+        "content": "<|extra_id_3|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "15": {
+        "content": "<|extra_id_4|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "16": {
+        "content": "<|extra_id_5|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "17": {
+        "content": "<|extra_id_6|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "18": {
+        "content": "<|extra_id_7|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "19": {
+        "content": "<|extra_id_8|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "20": {
+        "content": "<|extra_id_9|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "21": {
+        "content": "<|extra_id_10|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "22": {
+        "content": "<|extra_id_11|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "23": {
+        "content": "<|extra_id_12|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "24": {
+        "content": "<|extra_id_13|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "25": {
+        "content": "<|im_start|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "26": {
+        "content": "<|im_sep|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "27": {
+        "content": "<|im_end|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "28": {
+        "content": "<|resident_reg|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "29": {
+        "content": "<|foreigner_reg|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "30": {
+        "content": "<|business_reg|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "31": {
+        "content": "<|credit_card|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "32": {
+        "content": "<|passport|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "33": {
+        "content": "<|driver_license|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "34": {
+        "content": "<|telephone|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "35": {
+        "content": "<|health_insurance|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "36": {
+        "content": "<|bank_account|>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": true
+      },
+      "37": {
+        "content": "</tool_output>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": false
+      },
+      "38": {
+        "content": "<tool_output>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": false
+      },
+      "39": {
+        "content": "</tool_call>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": false
+      },
+      "40": {
+        "content": "<tool_call>",
+        "lstrip": false,
+        "normalized": false,
+        "rstrip": false,
+        "single_word": false,
+        "special": false
+      }
+    },
+    "additional_special_tokens": [
+      "<|endoftext|>",
+      "<|pad|>",
+      "<|unk|>",
+      "<|sep|>",
+      "<|mask|>",
+      "<|cls|>",
+      "<|image|>",
+      "<|audio|>",
+      "<|user|>",
+      "<|system|>",
+      "<|assistant|>",
+      "<|extra_id_0|>",
+      "<|extra_id_1|>",
+      "<|extra_id_2|>",
+      "<|extra_id_3|>",
+      "<|extra_id_4|>",
+      "<|extra_id_5|>",
+      "<|extra_id_6|>",
+      "<|extra_id_7|>",
+      "<|extra_id_8|>",
+      "<|extra_id_9|>",
+      "<|extra_id_10|>",
+      "<|extra_id_11|>",
+      "<|extra_id_12|>",
+      "<|extra_id_13|>",
+      "<|im_start|>",
+      "<|im_sep|>",
+      "<|im_end|>",
+      "<|resident_reg|>",
+      "<|foreigner_reg|>",
+      "<|business_reg|>",
+      "<|credit_card|>",
+      "<|passport|>",
+      "<|driver_license|>",
+      "<|telephone|>",
+      "<|health_insurance|>",
+      "<|bank_account|>"
+    ],
+    "bos_token": "<|endoftext|>",
+    "chat_template": "{%- if tools is iterable and tools | length > 0 %}\n                    {{- '<|im_start|><|system|>'}}\n                    {{- '당신은 도구 호출 기능을 갖춘 유용한 도우미입니다. 사용자의 요청을 처리하기 위해서 필요한 도구가 주어진 목록에 있는 경우 도구 호출로 응답하세요.\n필요한 도구가 목록에 없는 경우에는 도구 호출 없이 사용자가 요구한 정보를 제공하세요.\n필요한 도구가 목록에 있지만 해당 도구를 호출하는데 필요한 argument 정보가 부족한 경우 해당 정보를 사용자에게 요청하세요.\n사용자의 요청을 처리하기 위해 여러번 도구를 호출할 수 있어야 합니다.\n도구 호출 이후 도구 실행 결과를 입력으로 받으면 해당 결과를 활용하여 답변을 생성하세요.\n\n다음은 접근할 수 있는 도구들의 목록 입니다:\n<tools>\n'}}\n                    {%- for t in tools %}\n                        {{- t | tojson }}\n                        {{- '\n' }}\n                    {%- endfor %}\n                    {{- '</tools>' }}\n                    {{- '\n\n도구를 호출하려면 아래의 JSON으로 응답하세요.\n도구 호출 형식: <tool_call>{\"name\": 도구 이름, \"arguments\": dictionary 형태의 도구 인자값}</tool_call>' }}\n                    {{- '<|im_end|>' }}\n                {%- endif %}\n        \n                {%- for message in messages %}\n                    {%- if message.role == 'system' %}\n                        {{- '<|im_start|><|system|>' + message.content + '<|im_end|>'}}\n                    {%- elif message.role == 'user' %}\n                        {{- '<|im_start|><|user|>' + message.content + '<|im_end|>'}}\n                    {%- elif message.role == 'assistant' %}\n                        {{- '<|im_start|><|assistant|>'}}\n                        {%- set content = '' %}\n                        {%- if message.content is defined %}\n                            {%- set content = message.content %}\n                        {%- endif %}\n                        \n                {%- if add_generation_prompt and not (message.reasoning_content is defined and message.reasoning_content is not none) %}\n                    {%- if '</think>' in message.content %}\n                        {%- set content = message.content.split('</think>'.strip())[-1].lstrip('\\n') %}\n                    {%- endif %}\n                {%- endif %}\n                \n                        {{- content}}\n                        {%- if message.tool_calls is defined %}\n                            {%- for tool_call in message.tool_calls %}\n                                {%- if tool_call.function is defined %}\n                                    {%- set tool_call = tool_call.function %}\n                                {%- endif %}\n                                {{- '<tool_call>' }}\n                                {{- '{' }}\n                                {{- '\"name\": \"' }}\n                                {{- tool_call.name }}\n                                {{- '\"' }}\n                                {%- if tool_call.arguments is defined %}\n                                    {{- ', ' }}\n                                    {{- '\"arguments\": ' }}\n                                    {{- tool_call.arguments|tojson }}\n                                {%- endif %}\n                                {{- '}' }}\n                                {{- '</tool_call>' }}\n                            {%- endfor %}\n                        {%- endif %}\n                        {{- '<|im_end|>'}}\n        \n                    {%- elif message.role == 'tool' %}\n                        {{- '<|im_start|><|extra_id_13|><tool_output>' + message.content + '</tool_output><|im_end|>'}}\n                    {%- endif %}\n                {%- endfor %}\n                \n                    {%- if add_generation_prompt %}\n                        {{- '<|im_start|><|assistant|>' }}\n                    {%- endif %}",
+    "clean_up_tokenization_spaces": true,
+    "cls_token": "<|cls|>",
+    "eod_token": "<|endoftext|>",
+    "eos_token": "<|im_end|>",
+    "errors": "replace",
+    "mask_token": "<|mask|>",
+    "max_length": 7680,
+    "model_max_length": 262144,
+    "pad_token": "<|pad|>",
+    "padding_side": "right",
+    "sep_token": "<|sep|>",
+    "tokenizer_class": "GPT2Tokenizer",
+    "truncation_side": "left",
+    "unk_token": "<|unk|>",
+    "vocab_size": 102400
+  }

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff