Add files using upload-large-folder tool

Browse files

Files changed (9) hide show

config.json +67 -52
generation_config.json +1 -1
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +0 -0
tokenizer_config.json +1 -1

config.json CHANGED Viewed

@@ -23,56 +23,71 @@
       "multi_modal_projector",
       "merger",
       "modality_projection",
-      "vision_tower.transformer.layers.19.attention",
-      "language_model.model.layers.2.mlp",
-      "vision_tower.transformer.layers.20.attention",
-      "vision_tower.transformer.layers.16.attention",
-      "vision_tower.transformer.layers.18.attention",
-      "vision_tower.transformer.layers.17.attention",
-      "vision_tower.transformer.layers.21.attention",
-      "vision_tower.transformer.layers.20.feed_forward",
-      "vision_tower.transformer.layers.22.attention",
-      "vision_tower.transformer.layers.18.feed_forward",
-      "vision_tower.transformer.layers.15.feed_forward",
-      "vision_tower.transformer.layers.14.attention",
-      "vision_tower.transformer.layers.19.feed_forward",
-      "vision_tower.transformer.layers.15.attention",
-      "vision_tower.transformer.layers.7.feed_forward",
-      "multi_modal_projector",
-      "vision_tower.transformer.layers.5.feed_forward",
-      "vision_tower.transformer.layers.12.feed_forward",
-      "vision_tower.transformer.layers.6.feed_forward",
-      "vision_tower.transformer.layers.16.feed_forward",
-      "vision_tower.transformer.layers.21.feed_forward",
-      "vision_tower.transformer.layers.8.feed_forward",
-      "vision_tower.transformer.layers.4.feed_forward",
-      "vision_tower.transformer.layers.14.feed_forward",
-      "vision_tower.transformer.layers.17.feed_forward",
-      "vision_tower.transformer.layers.11.feed_forward",
-      "vision_tower.transformer.layers.23.attention",
-      "vision_tower.transformer.layers.3.feed_forward",
-      "vision_tower.transformer.layers.10.feed_forward",
-      "vision_tower.transformer.layers.22.feed_forward",
-      "vision_tower.transformer.layers.23.feed_forward",
-      "vision_tower.transformer.layers.9.feed_forward",
-      "vision_tower.transformer.layers.13.attention",
-      "vision_tower.transformer.layers.13.feed_forward",
-      "vision_tower.transformer.layers.12.attention",
-      "vision_tower.transformer.layers.2.feed_forward",
-      "vision_tower.transformer.layers.11.attention",
-      "vision_tower.transformer.layers.0.feed_forward",
-      "vision_tower.transformer.layers.10.attention",
-      "vision_tower.transformer.layers.4.attention",
-      "vision_tower.transformer.layers.8.attention",
-      "vision_tower.transformer.layers.7.attention",
-      "vision_tower.transformer.layers.5.attention",
-      "vision_tower.transformer.layers.1.feed_forward",
-      "vision_tower.transformer.layers.6.attention",
-      "vision_tower.transformer.layers.0.attention",
-      "vision_tower.transformer.layers.3.attention",
-      "vision_tower.transformer.layers.1.attention",
-      "vision_tower.transformer.layers.9.attention",
-      "vision_tower.transformer.layers.2.attention"
     ],
     "llm_int8_threshold": 6.0,
     "load_in_4bit": true,
@@ -100,12 +115,12 @@
     "vocab_size": 131072
   },
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.50.0.dev0",
   "unsloth_fixed": true,
   "vision_config": {
     "attention_dropout": 0.0,
     "head_dim": 64,
-    "hidden_act": "gelu",
     "hidden_size": 1024,
     "image_size": 1540,
     "initializer_range": 0.02,

       "multi_modal_projector",
       "merger",
       "modality_projection",
+      "model.language_model.layers.10.mlp",
+      "model.language_model.layers.8.self_attn",
+      "model.language_model.layers.4.mlp",
+      "model.language_model.layers.6.mlp",
+      "model.language_model.layers.8.mlp",
+      "model.language_model.layers.9.mlp",
+      "model.language_model.layers.5.mlp",
+      "model.language_model.layers.3.self_attn",
+      "model.language_model.layers.4.self_attn",
+      "model.language_model.layers.6.self_attn",
+      "model.language_model.layers.7.mlp",
+      "model.language_model.layers.1.self_attn",
+      "model.vision_tower.transformer.layers.20.attention",
+      "model.language_model.layers.2.self_attn",
+      "model.vision_tower.transformer.layers.19.attention",
+      "model.language_model.layers.7.self_attn",
+      "model.language_model.layers.5.self_attn",
+      "model.vision_tower.transformer.layers.18.attention",
+      "model.vision_tower.transformer.layers.17.attention",
+      "model.vision_tower.transformer.layers.20.feed_forward",
+      "model.vision_tower.transformer.layers.21.attention",
+      "model.vision_tower.transformer.layers.16.attention",
+      "model.vision_tower.transformer.layers.21.feed_forward",
+      "model.vision_tower.transformer.layers.15.attention",
+      "model.vision_tower.transformer.layers.22.feed_forward",
+      "model.multi_modal_projector",
+      "model.vision_tower.transformer.layers.18.feed_forward",
+      "model.vision_tower.transformer.layers.16.feed_forward",
+      "model.vision_tower.transformer.layers.15.feed_forward",
+      "model.language_model.layers.2.mlp",
+      "model.vision_tower.transformer.layers.19.feed_forward",
+      "model.vision_tower.transformer.layers.14.attention",
+      "model.vision_tower.transformer.layers.8.feed_forward",
+      "model.vision_tower.transformer.layers.12.feed_forward",
+      "model.vision_tower.transformer.layers.14.feed_forward",
+      "model.vision_tower.transformer.layers.7.feed_forward",
+      "model.vision_tower.transformer.layers.5.feed_forward",
+      "model.vision_tower.transformer.layers.4.feed_forward",
+      "model.vision_tower.transformer.layers.6.feed_forward",
+      "model.vision_tower.transformer.layers.23.attention",
+      "model.vision_tower.transformer.layers.17.feed_forward",
+      "model.vision_tower.transformer.layers.13.attention",
+      "model.vision_tower.transformer.layers.11.feed_forward",
+      "model.vision_tower.transformer.layers.22.attention",
+      "model.vision_tower.transformer.layers.3.feed_forward",
+      "model.vision_tower.transformer.layers.10.feed_forward",
+      "model.vision_tower.transformer.layers.9.feed_forward",
+      "model.vision_tower.transformer.layers.13.feed_forward",
+      "model.vision_tower.transformer.layers.12.attention",
+      "model.vision_tower.transformer.layers.23.feed_forward",
+      "model.vision_tower.transformer.layers.11.attention",
+      "model.vision_tower.transformer.layers.10.attention",
+      "model.vision_tower.transformer.layers.8.attention",
+      "model.vision_tower.transformer.layers.2.feed_forward",
+      "model.vision_tower.transformer.layers.5.attention",
+      "model.vision_tower.transformer.layers.0.feed_forward",
+      "model.vision_tower.transformer.layers.1.feed_forward",
+      "model.vision_tower.transformer.layers.4.attention",
+      "model.vision_tower.transformer.layers.7.attention",
+      "model.vision_tower.transformer.layers.6.attention",
+      "model.vision_tower.transformer.layers.0.attention",
+      "model.vision_tower.transformer.layers.3.attention",
+      "model.vision_tower.transformer.layers.1.attention",
+      "model.vision_tower.transformer.layers.9.attention",
+      "model.vision_tower.transformer.layers.2.attention"
     ],
     "llm_int8_threshold": 6.0,
     "load_in_4bit": true,
     "vocab_size": 131072
   },
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.3",
   "unsloth_fixed": true,
   "vision_config": {
     "attention_dropout": 0.0,
     "head_dim": 64,
+    "hidden_act": "silu",
     "hidden_size": 1024,
     "image_size": 1540,
     "initializer_range": 0.02,

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 11,
-  "transformers_version": "4.50.0.dev0"
 }

   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 11,
+  "transformers_version": "4.52.3"
 }

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b8e786bb48255b88409fa752312a4e3f535755b88ac6ddd665b05b179f9778b
+size 4787827762

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f06765d75d85b016ac8c483b8f299e54482c611448ffcf9e2ffed489ac1c74da
+size 4781593336

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c387a5b535f3be869604cc76bbf46e39c81f3e279269ba19b5a11514ae0bc3dd
+size 4999760552

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4ff098c12f3ab27cf0940fb25db799b557c996f49a08d44a643e5f18d1776ca
+size 4971731423

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0265677a5cae4750e80bd318b93744b34b433954ea605e54a3ced02e580b18af
+size 2088763690

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -9018,4 +9018,4 @@
   "tokenizer_class": "LlamaTokenizerFast",
   "unk_token": "<unk>",
   "use_default_system_prompt": false
-}

   "tokenizer_class": "LlamaTokenizerFast",
   "unk_token": "<unk>",
   "use_default_system_prompt": false
+}