Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +3 -3
config.json +2 -3
original/model--00001-of-00007.safetensors +3 -0
original/model--00002-of-00007.safetensors +3 -0
original/model--00003-of-00007.safetensors +3 -0
original/model--00004-of-00007.safetensors +3 -0
original/model--00005-of-00007.safetensors +3 -0
original/model--00006-of-00007.safetensors +3 -0
original/model--00007-of-00007.safetensors +3 -0
original/model.safetensors.index.json +550 -0
special_tokens_map.json +3 -21

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ tags:
 <p align="center">
   <a href="https://gpt-oss.com"><strong>Try gpt-oss</strong></a> ·
   <a href="https://cookbook.openai.com/topic/gpt-oss"><strong>Guides</strong></a> ·
-  <a href="https://openai.com/index/gpt-oss-model-card"><strong>System card</strong></a> ·
   <a href="https://openai.com/index/introducing-gpt-oss/"><strong>OpenAI blog</strong></a>
 </p>
@@ -21,8 +21,8 @@ tags:
 Welcome to the gpt-oss series, [OpenAI’s open-weight models](https://openai.com/open-models) designed for powerful reasoning, agentic tasks, and versatile developer use cases.
-We’re releasing two flavors of the open models:
-- `gpt-oss-120b` — for production, general purpose, high reasoning use cases that fits into a single H100 GPU (117B parameters with 5.1B active parameters)
 - `gpt-oss-20b` — for lower latency, and local or specialized use cases (21B parameters with 3.6B active parameters)
 Both models were trained on our [harmony response format](https://github.com/openai/harmony) and should only be used with the harmony format as it will not work correctly otherwise.

 <p align="center">
   <a href="https://gpt-oss.com"><strong>Try gpt-oss</strong></a> ·
   <a href="https://cookbook.openai.com/topic/gpt-oss"><strong>Guides</strong></a> ·
+  <a href="https://openai.com/index/gpt-oss-model-card"><strong>Model card</strong></a> ·
   <a href="https://openai.com/index/introducing-gpt-oss/"><strong>OpenAI blog</strong></a>
 </p>
 Welcome to the gpt-oss series, [OpenAI’s open-weight models](https://openai.com/open-models) designed for powerful reasoning, agentic tasks, and versatile developer use cases.
+We’re releasing two flavors of these open models:
+- `gpt-oss-120b` — for production, general purpose, high reasoning use cases that fit into a single H100 GPU (117B parameters with 5.1B active parameters)
 - `gpt-oss-20b` — for lower latency, and local or specialized use cases (21B parameters with 3.6B active parameters)
 Both models were trained on our [harmony response format](https://github.com/openai/harmony) and should only be used with the harmony format as it will not work correctly otherwise.

config.json CHANGED Viewed

@@ -58,7 +58,7 @@
   "num_key_value_heads": 8,
   "num_local_experts": 128,
   "output_router_logits": false,
-  "pad_token_id": 200017,
   "quantization_config": {
     "modules_to_not_convert": [
       "model.layers.*.self_attn",
@@ -82,8 +82,7 @@
   "sliding_window": 128,
   "swiglu_limit": 7.0,
   "tie_word_embeddings": false,
-  "transformers_version": "4.55.0",
-  "unsloth_fixed": true,
   "use_cache": true,
   "vocab_size": 201088
 }

   "num_key_value_heads": 8,
   "num_local_experts": 128,
   "output_router_logits": false,
+  "pad_token_id": 199999,
   "quantization_config": {
     "modules_to_not_convert": [
       "model.layers.*.self_attn",
   "sliding_window": 128,
   "swiglu_limit": 7.0,
   "tie_word_embeddings": false,
+  "transformers_version": "4.55.0.dev0",
   "use_cache": true,
   "vocab_size": 201088
 }

original/model--00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68a8dc1f8e2e5996cb702f14332a25ddf3463daeab2df68e21ca09ef181203c3
+size 10544040680

original/model--00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19b8f0d5c7dc3195c61a711d08384a1f85624f018186da541585c0f97ac61020
+size 10488721680

original/model--00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dbccd746d50e9543e8016d0a43ab4487c7f86d72349b1ef17abdfec509d0701
+size 10488721688

original/model--00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcc73cf6d18f96a2e62428758463157cc12768f410873152a50d3929a64cd049
+size 10488721672

original/model--00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15fd69843e9cc6fdf2db0efe0cf0979b49a6ba84b3a38169b2fabc5479d04a7d
+size 10488721680

original/model--00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3aedef2ee0a5a78a003b3f74fd6883033946b80097bf41e4f4715d95066f0588
+size 10433402600

original/model--00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20d5dfcad1ed6c50aa3c0da7d3f08828dba72b5f58686a987bf3a8f01659cda6
+size 2316539800

original/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,550 @@

+{
+  "metadata": {
+    "total_size": 65248815744
+  },
+  "weight_map": {
+    "block.0.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.0.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.0.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.0.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.0.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.0.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.0.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.0.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.0.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.0.mlp.mlp1_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.0.mlp.mlp1_weight.scales": "model--00001-of-00007.safetensors",
+    "block.0.mlp.mlp2_bias": "model--00001-of-00007.safetensors",
+    "block.0.mlp.mlp2_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.0.mlp.mlp2_weight.scales": "model--00001-of-00007.safetensors",
+    "block.0.mlp.norm.scale": "model--00001-of-00007.safetensors",
+    "block.1.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.1.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.1.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.1.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.1.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.1.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.1.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.1.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.1.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.1.mlp.mlp1_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.1.mlp.mlp1_weight.scales": "model--00001-of-00007.safetensors",
+    "block.1.mlp.mlp2_bias": "model--00001-of-00007.safetensors",
+    "block.1.mlp.mlp2_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.1.mlp.mlp2_weight.scales": "model--00001-of-00007.safetensors",
+    "block.1.mlp.norm.scale": "model--00001-of-00007.safetensors",
+    "block.10.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.10.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.10.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.10.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.10.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.10.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.10.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.10.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.10.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.10.mlp.mlp1_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.10.mlp.mlp1_weight.scales": "model--00001-of-00007.safetensors",
+    "block.10.mlp.mlp2_bias": "model--00001-of-00007.safetensors",
+    "block.10.mlp.mlp2_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.10.mlp.mlp2_weight.scales": "model--00001-of-00007.safetensors",
+    "block.10.mlp.norm.scale": "model--00001-of-00007.safetensors",
+    "block.11.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.11.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.11.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.11.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.11.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.11.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.11.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.11.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.11.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.11.mlp.mlp1_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.11.mlp.mlp1_weight.scales": "model--00001-of-00007.safetensors",
+    "block.11.mlp.mlp2_bias": "model--00001-of-00007.safetensors",
+    "block.11.mlp.mlp2_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.11.mlp.mlp2_weight.scales": "model--00001-of-00007.safetensors",
+    "block.11.mlp.norm.scale": "model--00001-of-00007.safetensors",
+    "block.12.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.12.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.12.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.12.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.12.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.12.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.12.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.12.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.12.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.12.mlp.mlp1_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.12.mlp.mlp1_weight.scales": "model--00001-of-00007.safetensors",
+    "block.12.mlp.mlp2_bias": "model--00001-of-00007.safetensors",
+    "block.12.mlp.mlp2_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.12.mlp.mlp2_weight.scales": "model--00001-of-00007.safetensors",
+    "block.12.mlp.norm.scale": "model--00001-of-00007.safetensors",
+    "block.13.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.13.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.13.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.13.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.13.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.13.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.13.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.13.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.13.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.13.mlp.mlp1_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.13.mlp.mlp1_weight.scales": "model--00001-of-00007.safetensors",
+    "block.13.mlp.mlp2_bias": "model--00001-of-00007.safetensors",
+    "block.13.mlp.mlp2_weight.blocks": "model--00001-of-00007.safetensors",
+    "block.13.mlp.mlp2_weight.scales": "model--00001-of-00007.safetensors",
+    "block.13.mlp.norm.scale": "model--00001-of-00007.safetensors",
+    "block.14.attn.norm.scale": "model--00001-of-00007.safetensors",
+    "block.14.attn.out.bias": "model--00001-of-00007.safetensors",
+    "block.14.attn.out.weight": "model--00001-of-00007.safetensors",
+    "block.14.attn.qkv.bias": "model--00001-of-00007.safetensors",
+    "block.14.attn.qkv.weight": "model--00001-of-00007.safetensors",
+    "block.14.attn.sinks": "model--00001-of-00007.safetensors",
+    "block.14.mlp.gate.bias": "model--00001-of-00007.safetensors",
+    "block.14.mlp.gate.weight": "model--00001-of-00007.safetensors",
+    "block.14.mlp.mlp1_bias": "model--00001-of-00007.safetensors",
+    "block.14.mlp.mlp1_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.14.mlp.mlp1_weight.scales": "model--00002-of-00007.safetensors",
+    "block.14.mlp.mlp2_bias": "model--00002-of-00007.safetensors",
+    "block.14.mlp.mlp2_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.14.mlp.mlp2_weight.scales": "model--00002-of-00007.safetensors",
+    "block.14.mlp.norm.scale": "model--00002-of-00007.safetensors",
+    "block.15.attn.norm.scale": "model--00002-of-00007.safetensors",
+    "block.15.attn.out.bias": "model--00002-of-00007.safetensors",
+    "block.15.attn.out.weight": "model--00002-of-00007.safetensors",
+    "block.15.attn.qkv.bias": "model--00002-of-00007.safetensors",
+    "block.15.attn.qkv.weight": "model--00002-of-00007.safetensors",
+    "block.15.attn.sinks": "model--00002-of-00007.safetensors",
+    "block.15.mlp.gate.bias": "model--00002-of-00007.safetensors",
+    "block.15.mlp.gate.weight": "model--00002-of-00007.safetensors",
+    "block.15.mlp.mlp1_bias": "model--00002-of-00007.safetensors",
+    "block.15.mlp.mlp1_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.15.mlp.mlp1_weight.scales": "model--00002-of-00007.safetensors",
+    "block.15.mlp.mlp2_bias": "model--00002-of-00007.safetensors",
+    "block.15.mlp.mlp2_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.15.mlp.mlp2_weight.scales": "model--00002-of-00007.safetensors",
+    "block.15.mlp.norm.scale": "model--00002-of-00007.safetensors",
+    "block.16.attn.norm.scale": "model--00002-of-00007.safetensors",
+    "block.16.attn.out.bias": "model--00002-of-00007.safetensors",
+    "block.16.attn.out.weight": "model--00002-of-00007.safetensors",
+    "block.16.attn.qkv.bias": "model--00002-of-00007.safetensors",
+    "block.16.attn.qkv.weight": "model--00002-of-00007.safetensors",
+    "block.16.attn.sinks": "model--00002-of-00007.safetensors",
+    "block.16.mlp.gate.bias": "model--00002-of-00007.safetensors",
+    "block.16.mlp.gate.weight": "model--00002-of-00007.safetensors",
+    "block.16.mlp.mlp1_bias": "model--00002-of-00007.safetensors",
+    "block.16.mlp.mlp1_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.16.mlp.mlp1_weight.scales": "model--00002-of-00007.safetensors",
+    "block.16.mlp.mlp2_bias": "model--00002-of-00007.safetensors",
+    "block.16.mlp.mlp2_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.16.mlp.mlp2_weight.scales": "model--00002-of-00007.safetensors",
+    "block.16.mlp.norm.scale": "model--00002-of-00007.safetensors",
+    "block.17.attn.norm.scale": "model--00002-of-00007.safetensors",
+    "block.17.attn.out.bias": "model--00002-of-00007.safetensors",
+    "block.17.attn.out.weight": "model--00002-of-00007.safetensors",
+    "block.17.attn.qkv.bias": "model--00002-of-00007.safetensors",
+    "block.17.attn.qkv.weight": "model--00002-of-00007.safetensors",
+    "block.17.attn.sinks": "model--00002-of-00007.safetensors",
+    "block.17.mlp.gate.bias": "model--00002-of-00007.safetensors",
+    "block.17.mlp.gate.weight": "model--00002-of-00007.safetensors",
+    "block.17.mlp.mlp1_bias": "model--00002-of-00007.safetensors",
+    "block.17.mlp.mlp1_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.17.mlp.mlp1_weight.scales": "model--00002-of-00007.safetensors",
+    "block.17.mlp.mlp2_bias": "model--00002-of-00007.safetensors",
+    "block.17.mlp.mlp2_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.17.mlp.mlp2_weight.scales": "model--00002-of-00007.safetensors",
+    "block.17.mlp.norm.scale": "model--00002-of-00007.safetensors",
+    "block.18.attn.norm.scale": "model--00002-of-00007.safetensors",
+    "block.18.attn.out.bias": "model--00002-of-00007.safetensors",
+    "block.18.attn.out.weight": "model--00002-of-00007.safetensors",
+    "block.18.attn.qkv.bias": "model--00002-of-00007.safetensors",
+    "block.18.attn.qkv.weight": "model--00002-of-00007.safetensors",
+    "block.18.attn.sinks": "model--00002-of-00007.safetensors",
+    "block.18.mlp.gate.bias": "model--00002-of-00007.safetensors",
+    "block.18.mlp.gate.weight": "model--00002-of-00007.safetensors",
+    "block.18.mlp.mlp1_bias": "model--00002-of-00007.safetensors",
+    "block.18.mlp.mlp1_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.18.mlp.mlp1_weight.scales": "model--00002-of-00007.safetensors",
+    "block.18.mlp.mlp2_bias": "model--00002-of-00007.safetensors",
+    "block.18.mlp.mlp2_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.18.mlp.mlp2_weight.scales": "model--00002-of-00007.safetensors",
+    "block.18.mlp.norm.scale": "model--00002-of-00007.safetensors",
+    "block.19.attn.norm.scale": "model--00002-of-00007.safetensors",
+    "block.19.attn.out.bias": "model--00002-of-00007.safetensors",
+    "block.19.attn.out.weight": "model--00002-of-00007.safetensors",
+    "block.19.attn.qkv.bias": "model--00002-of-00007.safetensors",
+    "block.19.attn.qkv.weight": "model--00002-of-00007.safetensors",
+    "block.19.attn.sinks": "model--00002-of-00007.safetensors",
+    "block.19.mlp.gate.bias": "model--00002-of-00007.safetensors",
+    "block.19.mlp.gate.weight": "model--00002-of-00007.safetensors",
+    "block.19.mlp.mlp1_bias": "model--00002-of-00007.safetensors",
+    "block.19.mlp.mlp1_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.19.mlp.mlp1_weight.scales": "model--00002-of-00007.safetensors",
+    "block.19.mlp.mlp2_bias": "model--00002-of-00007.safetensors",
+    "block.19.mlp.mlp2_weight.blocks": "model--00002-of-00007.safetensors",
+    "block.19.mlp.mlp2_weight.scales": "model--00002-of-00007.safetensors",
+    "block.19.mlp.norm.scale": "model--00002-of-00007.safetensors",
+    "block.2.attn.norm.scale": "model--00002-of-00007.safetensors",
+    "block.2.attn.out.bias": "model--00002-of-00007.safetensors",
+    "block.2.attn.out.weight": "model--00002-of-00007.safetensors",
+    "block.2.attn.qkv.bias": "model--00002-of-00007.safetensors",
+    "block.2.attn.qkv.weight": "model--00002-of-00007.safetensors",
+    "block.2.attn.sinks": "model--00002-of-00007.safetensors",
+    "block.2.mlp.gate.bias": "model--00002-of-00007.safetensors",
+    "block.2.mlp.gate.weight": "model--00002-of-00007.safetensors",
+    "block.2.mlp.mlp1_bias": "model--00002-of-00007.safetensors",
+    "block.2.mlp.mlp1_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.2.mlp.mlp1_weight.scales": "model--00003-of-00007.safetensors",
+    "block.2.mlp.mlp2_bias": "model--00003-of-00007.safetensors",
+    "block.2.mlp.mlp2_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.2.mlp.mlp2_weight.scales": "model--00003-of-00007.safetensors",
+    "block.2.mlp.norm.scale": "model--00003-of-00007.safetensors",
+    "block.20.attn.norm.scale": "model--00003-of-00007.safetensors",
+    "block.20.attn.out.bias": "model--00003-of-00007.safetensors",
+    "block.20.attn.out.weight": "model--00003-of-00007.safetensors",
+    "block.20.attn.qkv.bias": "model--00003-of-00007.safetensors",
+    "block.20.attn.qkv.weight": "model--00003-of-00007.safetensors",
+    "block.20.attn.sinks": "model--00003-of-00007.safetensors",
+    "block.20.mlp.gate.bias": "model--00003-of-00007.safetensors",
+    "block.20.mlp.gate.weight": "model--00003-of-00007.safetensors",
+    "block.20.mlp.mlp1_bias": "model--00003-of-00007.safetensors",
+    "block.20.mlp.mlp1_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.20.mlp.mlp1_weight.scales": "model--00003-of-00007.safetensors",
+    "block.20.mlp.mlp2_bias": "model--00003-of-00007.safetensors",
+    "block.20.mlp.mlp2_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.20.mlp.mlp2_weight.scales": "model--00003-of-00007.safetensors",
+    "block.20.mlp.norm.scale": "model--00003-of-00007.safetensors",
+    "block.21.attn.norm.scale": "model--00003-of-00007.safetensors",
+    "block.21.attn.out.bias": "model--00003-of-00007.safetensors",
+    "block.21.attn.out.weight": "model--00003-of-00007.safetensors",
+    "block.21.attn.qkv.bias": "model--00003-of-00007.safetensors",
+    "block.21.attn.qkv.weight": "model--00003-of-00007.safetensors",
+    "block.21.attn.sinks": "model--00003-of-00007.safetensors",
+    "block.21.mlp.gate.bias": "model--00003-of-00007.safetensors",
+    "block.21.mlp.gate.weight": "model--00003-of-00007.safetensors",
+    "block.21.mlp.mlp1_bias": "model--00003-of-00007.safetensors",
+    "block.21.mlp.mlp1_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.21.mlp.mlp1_weight.scales": "model--00003-of-00007.safetensors",
+    "block.21.mlp.mlp2_bias": "model--00003-of-00007.safetensors",
+    "block.21.mlp.mlp2_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.21.mlp.mlp2_weight.scales": "model--00003-of-00007.safetensors",
+    "block.21.mlp.norm.scale": "model--00003-of-00007.safetensors",
+    "block.22.attn.norm.scale": "model--00003-of-00007.safetensors",
+    "block.22.attn.out.bias": "model--00003-of-00007.safetensors",
+    "block.22.attn.out.weight": "model--00003-of-00007.safetensors",
+    "block.22.attn.qkv.bias": "model--00003-of-00007.safetensors",
+    "block.22.attn.qkv.weight": "model--00003-of-00007.safetensors",
+    "block.22.attn.sinks": "model--00003-of-00007.safetensors",
+    "block.22.mlp.gate.bias": "model--00003-of-00007.safetensors",
+    "block.22.mlp.gate.weight": "model--00003-of-00007.safetensors",
+    "block.22.mlp.mlp1_bias": "model--00003-of-00007.safetensors",
+    "block.22.mlp.mlp1_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.22.mlp.mlp1_weight.scales": "model--00003-of-00007.safetensors",
+    "block.22.mlp.mlp2_bias": "model--00003-of-00007.safetensors",
+    "block.22.mlp.mlp2_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.22.mlp.mlp2_weight.scales": "model--00003-of-00007.safetensors",
+    "block.22.mlp.norm.scale": "model--00003-of-00007.safetensors",
+    "block.23.attn.norm.scale": "model--00003-of-00007.safetensors",
+    "block.23.attn.out.bias": "model--00003-of-00007.safetensors",
+    "block.23.attn.out.weight": "model--00003-of-00007.safetensors",
+    "block.23.attn.qkv.bias": "model--00003-of-00007.safetensors",
+    "block.23.attn.qkv.weight": "model--00003-of-00007.safetensors",
+    "block.23.attn.sinks": "model--00003-of-00007.safetensors",
+    "block.23.mlp.gate.bias": "model--00003-of-00007.safetensors",
+    "block.23.mlp.gate.weight": "model--00003-of-00007.safetensors",
+    "block.23.mlp.mlp1_bias": "model--00003-of-00007.safetensors",
+    "block.23.mlp.mlp1_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.23.mlp.mlp1_weight.scales": "model--00003-of-00007.safetensors",
+    "block.23.mlp.mlp2_bias": "model--00003-of-00007.safetensors",
+    "block.23.mlp.mlp2_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.23.mlp.mlp2_weight.scales": "model--00003-of-00007.safetensors",
+    "block.23.mlp.norm.scale": "model--00003-of-00007.safetensors",
+    "block.24.attn.norm.scale": "model--00003-of-00007.safetensors",
+    "block.24.attn.out.bias": "model--00003-of-00007.safetensors",
+    "block.24.attn.out.weight": "model--00003-of-00007.safetensors",
+    "block.24.attn.qkv.bias": "model--00003-of-00007.safetensors",
+    "block.24.attn.qkv.weight": "model--00003-of-00007.safetensors",
+    "block.24.attn.sinks": "model--00003-of-00007.safetensors",
+    "block.24.mlp.gate.bias": "model--00003-of-00007.safetensors",
+    "block.24.mlp.gate.weight": "model--00003-of-00007.safetensors",
+    "block.24.mlp.mlp1_bias": "model--00003-of-00007.safetensors",
+    "block.24.mlp.mlp1_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.24.mlp.mlp1_weight.scales": "model--00003-of-00007.safetensors",
+    "block.24.mlp.mlp2_bias": "model--00003-of-00007.safetensors",
+    "block.24.mlp.mlp2_weight.blocks": "model--00003-of-00007.safetensors",
+    "block.24.mlp.mlp2_weight.scales": "model--00003-of-00007.safetensors",
+    "block.24.mlp.norm.scale": "model--00003-of-00007.safetensors",
+    "block.25.attn.norm.scale": "model--00003-of-00007.safetensors",
+    "block.25.attn.out.bias": "model--00003-of-00007.safetensors",
+    "block.25.attn.out.weight": "model--00003-of-00007.safetensors",
+    "block.25.attn.qkv.bias": "model--00003-of-00007.safetensors",
+    "block.25.attn.qkv.weight": "model--00003-of-00007.safetensors",
+    "block.25.attn.sinks": "model--00003-of-00007.safetensors",
+    "block.25.mlp.gate.bias": "model--00003-of-00007.safetensors",
+    "block.25.mlp.gate.weight": "model--00003-of-00007.safetensors",
+    "block.25.mlp.mlp1_bias": "model--00003-of-00007.safetensors",
+    "block.25.mlp.mlp1_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.25.mlp.mlp1_weight.scales": "model--00004-of-00007.safetensors",
+    "block.25.mlp.mlp2_bias": "model--00004-of-00007.safetensors",
+    "block.25.mlp.mlp2_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.25.mlp.mlp2_weight.scales": "model--00004-of-00007.safetensors",
+    "block.25.mlp.norm.scale": "model--00004-of-00007.safetensors",
+    "block.26.attn.norm.scale": "model--00004-of-00007.safetensors",
+    "block.26.attn.out.bias": "model--00004-of-00007.safetensors",
+    "block.26.attn.out.weight": "model--00004-of-00007.safetensors",
+    "block.26.attn.qkv.bias": "model--00004-of-00007.safetensors",
+    "block.26.attn.qkv.weight": "model--00004-of-00007.safetensors",
+    "block.26.attn.sinks": "model--00004-of-00007.safetensors",
+    "block.26.mlp.gate.bias": "model--00004-of-00007.safetensors",
+    "block.26.mlp.gate.weight": "model--00004-of-00007.safetensors",
+    "block.26.mlp.mlp1_bias": "model--00004-of-00007.safetensors",
+    "block.26.mlp.mlp1_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.26.mlp.mlp1_weight.scales": "model--00004-of-00007.safetensors",
+    "block.26.mlp.mlp2_bias": "model--00004-of-00007.safetensors",
+    "block.26.mlp.mlp2_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.26.mlp.mlp2_weight.scales": "model--00004-of-00007.safetensors",
+    "block.26.mlp.norm.scale": "model--00004-of-00007.safetensors",
+    "block.27.attn.norm.scale": "model--00004-of-00007.safetensors",
+    "block.27.attn.out.bias": "model--00004-of-00007.safetensors",
+    "block.27.attn.out.weight": "model--00004-of-00007.safetensors",
+    "block.27.attn.qkv.bias": "model--00004-of-00007.safetensors",
+    "block.27.attn.qkv.weight": "model--00004-of-00007.safetensors",
+    "block.27.attn.sinks": "model--00004-of-00007.safetensors",
+    "block.27.mlp.gate.bias": "model--00004-of-00007.safetensors",
+    "block.27.mlp.gate.weight": "model--00004-of-00007.safetensors",
+    "block.27.mlp.mlp1_bias": "model--00004-of-00007.safetensors",
+    "block.27.mlp.mlp1_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.27.mlp.mlp1_weight.scales": "model--00004-of-00007.safetensors",
+    "block.27.mlp.mlp2_bias": "model--00004-of-00007.safetensors",
+    "block.27.mlp.mlp2_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.27.mlp.mlp2_weight.scales": "model--00004-of-00007.safetensors",
+    "block.27.mlp.norm.scale": "model--00004-of-00007.safetensors",
+    "block.28.attn.norm.scale": "model--00004-of-00007.safetensors",
+    "block.28.attn.out.bias": "model--00004-of-00007.safetensors",
+    "block.28.attn.out.weight": "model--00004-of-00007.safetensors",
+    "block.28.attn.qkv.bias": "model--00004-of-00007.safetensors",
+    "block.28.attn.qkv.weight": "model--00004-of-00007.safetensors",
+    "block.28.attn.sinks": "model--00004-of-00007.safetensors",
+    "block.28.mlp.gate.bias": "model--00004-of-00007.safetensors",
+    "block.28.mlp.gate.weight": "model--00004-of-00007.safetensors",
+    "block.28.mlp.mlp1_bias": "model--00004-of-00007.safetensors",
+    "block.28.mlp.mlp1_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.28.mlp.mlp1_weight.scales": "model--00004-of-00007.safetensors",
+    "block.28.mlp.mlp2_bias": "model--00004-of-00007.safetensors",
+    "block.28.mlp.mlp2_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.28.mlp.mlp2_weight.scales": "model--00004-of-00007.safetensors",
+    "block.28.mlp.norm.scale": "model--00004-of-00007.safetensors",
+    "block.29.attn.norm.scale": "model--00004-of-00007.safetensors",
+    "block.29.attn.out.bias": "model--00004-of-00007.safetensors",
+    "block.29.attn.out.weight": "model--00004-of-00007.safetensors",
+    "block.29.attn.qkv.bias": "model--00004-of-00007.safetensors",
+    "block.29.attn.qkv.weight": "model--00004-of-00007.safetensors",
+    "block.29.attn.sinks": "model--00004-of-00007.safetensors",
+    "block.29.mlp.gate.bias": "model--00004-of-00007.safetensors",
+    "block.29.mlp.gate.weight": "model--00004-of-00007.safetensors",
+    "block.29.mlp.mlp1_bias": "model--00004-of-00007.safetensors",
+    "block.29.mlp.mlp1_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.29.mlp.mlp1_weight.scales": "model--00004-of-00007.safetensors",
+    "block.29.mlp.mlp2_bias": "model--00004-of-00007.safetensors",
+    "block.29.mlp.mlp2_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.29.mlp.mlp2_weight.scales": "model--00004-of-00007.safetensors",
+    "block.29.mlp.norm.scale": "model--00004-of-00007.safetensors",
+    "block.3.attn.norm.scale": "model--00004-of-00007.safetensors",
+    "block.3.attn.out.bias": "model--00004-of-00007.safetensors",
+    "block.3.attn.out.weight": "model--00004-of-00007.safetensors",
+    "block.3.attn.qkv.bias": "model--00004-of-00007.safetensors",
+    "block.3.attn.qkv.weight": "model--00004-of-00007.safetensors",
+    "block.3.attn.sinks": "model--00004-of-00007.safetensors",
+    "block.3.mlp.gate.bias": "model--00004-of-00007.safetensors",
+    "block.3.mlp.gate.weight": "model--00004-of-00007.safetensors",
+    "block.3.mlp.mlp1_bias": "model--00004-of-00007.safetensors",
+    "block.3.mlp.mlp1_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.3.mlp.mlp1_weight.scales": "model--00004-of-00007.safetensors",
+    "block.3.mlp.mlp2_bias": "model--00004-of-00007.safetensors",
+    "block.3.mlp.mlp2_weight.blocks": "model--00004-of-00007.safetensors",
+    "block.3.mlp.mlp2_weight.scales": "model--00004-of-00007.safetensors",
+    "block.3.mlp.norm.scale": "model--00004-of-00007.safetensors",
+    "block.30.attn.norm.scale": "model--00004-of-00007.safetensors",
+    "block.30.attn.out.bias": "model--00004-of-00007.safetensors",
+    "block.30.attn.out.weight": "model--00004-of-00007.safetensors",
+    "block.30.attn.qkv.bias": "model--00004-of-00007.safetensors",
+    "block.30.attn.qkv.weight": "model--00004-of-00007.safetensors",
+    "block.30.attn.sinks": "model--00004-of-00007.safetensors",
+    "block.30.mlp.gate.bias": "model--00004-of-00007.safetensors",
+    "block.30.mlp.gate.weight": "model--00004-of-00007.safetensors",
+    "block.30.mlp.mlp1_bias": "model--00004-of-00007.safetensors",
+    "block.30.mlp.mlp1_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.30.mlp.mlp1_weight.scales": "model--00005-of-00007.safetensors",
+    "block.30.mlp.mlp2_bias": "model--00005-of-00007.safetensors",
+    "block.30.mlp.mlp2_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.30.mlp.mlp2_weight.scales": "model--00005-of-00007.safetensors",
+    "block.30.mlp.norm.scale": "model--00005-of-00007.safetensors",
+    "block.31.attn.norm.scale": "model--00005-of-00007.safetensors",
+    "block.31.attn.out.bias": "model--00005-of-00007.safetensors",
+    "block.31.attn.out.weight": "model--00005-of-00007.safetensors",
+    "block.31.attn.qkv.bias": "model--00005-of-00007.safetensors",
+    "block.31.attn.qkv.weight": "model--00005-of-00007.safetensors",
+    "block.31.attn.sinks": "model--00005-of-00007.safetensors",
+    "block.31.mlp.gate.bias": "model--00005-of-00007.safetensors",
+    "block.31.mlp.gate.weight": "model--00005-of-00007.safetensors",
+    "block.31.mlp.mlp1_bias": "model--00005-of-00007.safetensors",
+    "block.31.mlp.mlp1_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.31.mlp.mlp1_weight.scales": "model--00005-of-00007.safetensors",
+    "block.31.mlp.mlp2_bias": "model--00005-of-00007.safetensors",
+    "block.31.mlp.mlp2_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.31.mlp.mlp2_weight.scales": "model--00005-of-00007.safetensors",
+    "block.31.mlp.norm.scale": "model--00005-of-00007.safetensors",
+    "block.32.attn.norm.scale": "model--00005-of-00007.safetensors",
+    "block.32.attn.out.bias": "model--00005-of-00007.safetensors",
+    "block.32.attn.out.weight": "model--00005-of-00007.safetensors",
+    "block.32.attn.qkv.bias": "model--00005-of-00007.safetensors",
+    "block.32.attn.qkv.weight": "model--00005-of-00007.safetensors",
+    "block.32.attn.sinks": "model--00005-of-00007.safetensors",
+    "block.32.mlp.gate.bias": "model--00005-of-00007.safetensors",
+    "block.32.mlp.gate.weight": "model--00005-of-00007.safetensors",
+    "block.32.mlp.mlp1_bias": "model--00005-of-00007.safetensors",
+    "block.32.mlp.mlp1_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.32.mlp.mlp1_weight.scales": "model--00005-of-00007.safetensors",
+    "block.32.mlp.mlp2_bias": "model--00005-of-00007.safetensors",
+    "block.32.mlp.mlp2_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.32.mlp.mlp2_weight.scales": "model--00005-of-00007.safetensors",
+    "block.32.mlp.norm.scale": "model--00005-of-00007.safetensors",
+    "block.33.attn.norm.scale": "model--00005-of-00007.safetensors",
+    "block.33.attn.out.bias": "model--00005-of-00007.safetensors",
+    "block.33.attn.out.weight": "model--00005-of-00007.safetensors",
+    "block.33.attn.qkv.bias": "model--00005-of-00007.safetensors",
+    "block.33.attn.qkv.weight": "model--00005-of-00007.safetensors",
+    "block.33.attn.sinks": "model--00005-of-00007.safetensors",
+    "block.33.mlp.gate.bias": "model--00005-of-00007.safetensors",
+    "block.33.mlp.gate.weight": "model--00005-of-00007.safetensors",
+    "block.33.mlp.mlp1_bias": "model--00005-of-00007.safetensors",
+    "block.33.mlp.mlp1_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.33.mlp.mlp1_weight.scales": "model--00005-of-00007.safetensors",
+    "block.33.mlp.mlp2_bias": "model--00005-of-00007.safetensors",
+    "block.33.mlp.mlp2_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.33.mlp.mlp2_weight.scales": "model--00005-of-00007.safetensors",
+    "block.33.mlp.norm.scale": "model--00005-of-00007.safetensors",
+    "block.34.attn.norm.scale": "model--00005-of-00007.safetensors",
+    "block.34.attn.out.bias": "model--00005-of-00007.safetensors",
+    "block.34.attn.out.weight": "model--00005-of-00007.safetensors",
+    "block.34.attn.qkv.bias": "model--00005-of-00007.safetensors",
+    "block.34.attn.qkv.weight": "model--00005-of-00007.safetensors",
+    "block.34.attn.sinks": "model--00005-of-00007.safetensors",
+    "block.34.mlp.gate.bias": "model--00005-of-00007.safetensors",
+    "block.34.mlp.gate.weight": "model--00005-of-00007.safetensors",
+    "block.34.mlp.mlp1_bias": "model--00005-of-00007.safetensors",
+    "block.34.mlp.mlp1_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.34.mlp.mlp1_weight.scales": "model--00005-of-00007.safetensors",
+    "block.34.mlp.mlp2_bias": "model--00005-of-00007.safetensors",
+    "block.34.mlp.mlp2_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.34.mlp.mlp2_weight.scales": "model--00005-of-00007.safetensors",
+    "block.34.mlp.norm.scale": "model--00005-of-00007.safetensors",
+    "block.35.attn.norm.scale": "model--00005-of-00007.safetensors",
+    "block.35.attn.out.bias": "model--00005-of-00007.safetensors",
+    "block.35.attn.out.weight": "model--00005-of-00007.safetensors",
+    "block.35.attn.qkv.bias": "model--00005-of-00007.safetensors",
+    "block.35.attn.qkv.weight": "model--00005-of-00007.safetensors",
+    "block.35.attn.sinks": "model--00005-of-00007.safetensors",
+    "block.35.mlp.gate.bias": "model--00005-of-00007.safetensors",
+    "block.35.mlp.gate.weight": "model--00005-of-00007.safetensors",
+    "block.35.mlp.mlp1_bias": "model--00005-of-00007.safetensors",
+    "block.35.mlp.mlp1_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.35.mlp.mlp1_weight.scales": "model--00005-of-00007.safetensors",
+    "block.35.mlp.mlp2_bias": "model--00005-of-00007.safetensors",
+    "block.35.mlp.mlp2_weight.blocks": "model--00005-of-00007.safetensors",
+    "block.35.mlp.mlp2_weight.scales": "model--00005-of-00007.safetensors",
+    "block.35.mlp.norm.scale": "model--00005-of-00007.safetensors",
+    "block.4.attn.norm.scale": "model--00005-of-00007.safetensors",
+    "block.4.attn.out.bias": "model--00005-of-00007.safetensors",
+    "block.4.attn.out.weight": "model--00005-of-00007.safetensors",
+    "block.4.attn.qkv.bias": "model--00005-of-00007.safetensors",
+    "block.4.attn.qkv.weight": "model--00005-of-00007.safetensors",
+    "block.4.attn.sinks": "model--00005-of-00007.safetensors",
+    "block.4.mlp.gate.bias": "model--00005-of-00007.safetensors",
+    "block.4.mlp.gate.weight": "model--00005-of-00007.safetensors",
+    "block.4.mlp.mlp1_bias": "model--00005-of-00007.safetensors",
+    "block.4.mlp.mlp1_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.4.mlp.mlp1_weight.scales": "model--00006-of-00007.safetensors",
+    "block.4.mlp.mlp2_bias": "model--00006-of-00007.safetensors",
+    "block.4.mlp.mlp2_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.4.mlp.mlp2_weight.scales": "model--00006-of-00007.safetensors",
+    "block.4.mlp.norm.scale": "model--00006-of-00007.safetensors",
+    "block.5.attn.norm.scale": "model--00006-of-00007.safetensors",
+    "block.5.attn.out.bias": "model--00006-of-00007.safetensors",
+    "block.5.attn.out.weight": "model--00006-of-00007.safetensors",
+    "block.5.attn.qkv.bias": "model--00006-of-00007.safetensors",
+    "block.5.attn.qkv.weight": "model--00006-of-00007.safetensors",
+    "block.5.attn.sinks": "model--00006-of-00007.safetensors",
+    "block.5.mlp.gate.bias": "model--00006-of-00007.safetensors",
+    "block.5.mlp.gate.weight": "model--00006-of-00007.safetensors",
+    "block.5.mlp.mlp1_bias": "model--00006-of-00007.safetensors",
+    "block.5.mlp.mlp1_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.5.mlp.mlp1_weight.scales": "model--00006-of-00007.safetensors",
+    "block.5.mlp.mlp2_bias": "model--00006-of-00007.safetensors",
+    "block.5.mlp.mlp2_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.5.mlp.mlp2_weight.scales": "model--00006-of-00007.safetensors",
+    "block.5.mlp.norm.scale": "model--00006-of-00007.safetensors",
+    "block.6.attn.norm.scale": "model--00006-of-00007.safetensors",
+    "block.6.attn.out.bias": "model--00006-of-00007.safetensors",
+    "block.6.attn.out.weight": "model--00006-of-00007.safetensors",
+    "block.6.attn.qkv.bias": "model--00006-of-00007.safetensors",
+    "block.6.attn.qkv.weight": "model--00006-of-00007.safetensors",
+    "block.6.attn.sinks": "model--00006-of-00007.safetensors",
+    "block.6.mlp.gate.bias": "model--00006-of-00007.safetensors",
+    "block.6.mlp.gate.weight": "model--00006-of-00007.safetensors",
+    "block.6.mlp.mlp1_bias": "model--00006-of-00007.safetensors",
+    "block.6.mlp.mlp1_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.6.mlp.mlp1_weight.scales": "model--00006-of-00007.safetensors",
+    "block.6.mlp.mlp2_bias": "model--00006-of-00007.safetensors",
+    "block.6.mlp.mlp2_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.6.mlp.mlp2_weight.scales": "model--00006-of-00007.safetensors",
+    "block.6.mlp.norm.scale": "model--00006-of-00007.safetensors",
+    "block.7.attn.norm.scale": "model--00006-of-00007.safetensors",
+    "block.7.attn.out.bias": "model--00006-of-00007.safetensors",
+    "block.7.attn.out.weight": "model--00006-of-00007.safetensors",
+    "block.7.attn.qkv.bias": "model--00006-of-00007.safetensors",
+    "block.7.attn.qkv.weight": "model--00006-of-00007.safetensors",
+    "block.7.attn.sinks": "model--00006-of-00007.safetensors",
+    "block.7.mlp.gate.bias": "model--00006-of-00007.safetensors",
+    "block.7.mlp.gate.weight": "model--00006-of-00007.safetensors",
+    "block.7.mlp.mlp1_bias": "model--00006-of-00007.safetensors",
+    "block.7.mlp.mlp1_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.7.mlp.mlp1_weight.scales": "model--00006-of-00007.safetensors",
+    "block.7.mlp.mlp2_bias": "model--00006-of-00007.safetensors",
+    "block.7.mlp.mlp2_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.7.mlp.mlp2_weight.scales": "model--00006-of-00007.safetensors",
+    "block.7.mlp.norm.scale": "model--00006-of-00007.safetensors",
+    "block.8.attn.norm.scale": "model--00006-of-00007.safetensors",
+    "block.8.attn.out.bias": "model--00006-of-00007.safetensors",
+    "block.8.attn.out.weight": "model--00006-of-00007.safetensors",
+    "block.8.attn.qkv.bias": "model--00006-of-00007.safetensors",
+    "block.8.attn.qkv.weight": "model--00006-of-00007.safetensors",
+    "block.8.attn.sinks": "model--00006-of-00007.safetensors",
+    "block.8.mlp.gate.bias": "model--00006-of-00007.safetensors",
+    "block.8.mlp.gate.weight": "model--00006-of-00007.safetensors",
+    "block.8.mlp.mlp1_bias": "model--00006-of-00007.safetensors",
+    "block.8.mlp.mlp1_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.8.mlp.mlp1_weight.scales": "model--00006-of-00007.safetensors",
+    "block.8.mlp.mlp2_bias": "model--00006-of-00007.safetensors",
+    "block.8.mlp.mlp2_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.8.mlp.mlp2_weight.scales": "model--00006-of-00007.safetensors",
+    "block.8.mlp.norm.scale": "model--00006-of-00007.safetensors",
+    "block.9.attn.norm.scale": "model--00006-of-00007.safetensors",
+    "block.9.attn.out.bias": "model--00006-of-00007.safetensors",
+    "block.9.attn.out.weight": "model--00006-of-00007.safetensors",
+    "block.9.attn.qkv.bias": "model--00006-of-00007.safetensors",
+    "block.9.attn.qkv.weight": "model--00006-of-00007.safetensors",
+    "block.9.attn.sinks": "model--00006-of-00007.safetensors",
+    "block.9.mlp.gate.bias": "model--00006-of-00007.safetensors",
+    "block.9.mlp.gate.weight": "model--00006-of-00007.safetensors",
+    "block.9.mlp.mlp1_bias": "model--00006-of-00007.safetensors",
+    "block.9.mlp.mlp1_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.9.mlp.mlp1_weight.scales": "model--00006-of-00007.safetensors",
+    "block.9.mlp.mlp2_bias": "model--00006-of-00007.safetensors",
+    "block.9.mlp.mlp2_weight.blocks": "model--00006-of-00007.safetensors",
+    "block.9.mlp.mlp2_weight.scales": "model--00006-of-00007.safetensors",
+    "block.9.mlp.norm.scale": "model--00006-of-00007.safetensors",
+    "embedding.weight": "model--00007-of-00007.safetensors",
+    "norm.scale": "model--00007-of-00007.safetensors",
+    "unembedding.weight": "model--00007-of-00007.safetensors"
+  }
+}

special_tokens_map.json CHANGED Viewed

@@ -1,23 +1,5 @@
 {
-  "bos_token": {
-    "content": "<|startoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|return|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|reserved_200017|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|startoftext|>",
+  "eos_token": "<|return|>",
+  "pad_token": "<|endoftext|>"
 }