Upload Phi4MMForCausalLM

Browse files

Updated weights (Speech full fine-tuning, 4 epochs)

Files changed (6) hide show

config.json +2 -2
generation_config.json +1 -1
model-00001-of-00003.safetensors +2 -2
model-00002-of-00003.safetensors +2 -2
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +63 -63

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "./Phi-4-multimodal-finetune-ko-speech",
   "architectures": [
     "Phi4MMForCausalLM"
   ],
@@ -209,7 +209,7 @@
   },
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.48.2",
   "use_cache": true,
   "vision_lora": {
     "dp": 0.0,

 {
+  "_name_or_path": "./output",
   "architectures": [
     "Phi4MMForCausalLM"
   ],
   },
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.3",
   "use_cache": true,
   "vision_lora": {
     "dp": 0.0,

generation_config.json CHANGED Viewed

@@ -6,5 +6,5 @@
     199999
   ],
   "pad_token_id": 199999,
-  "transformers_version": "4.48.2"
 }

     199999
   ],
   "pad_token_id": 199999,
+  "transformers_version": "4.46.3"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a1e57956624d5a96c5dcaab437261353efbcfaf5eff49d58d92329311020802
-size 4997504848

 version https://git-lfs.github.com/spec/v1
+oid sha256:b93562f8e2135e7d780834a9f2300699e9e71d56d64e986386e92906ae571ca9
+size 4998420448

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7ae17c45b5ab41c7659784e8cb2d6a79e6f886783b3c2af0297448a1f240c1c
-size 4952333128

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c974d2962a9fa092d2219161c87234175e860328c5978591548f0886e929f33
+size 4983891952

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7277ccd89f1b88a99dd7ce37095510f2036e18e6289b732164704ee0d2934b92
-size 1199389232

 version https://git-lfs.github.com/spec/v1
+oid sha256:d44c5ed024d7f64060d50ad89a41380def480e396d6ae71b774ee9f6125ec38a
+size 1905111704

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 11148920768
   },
   "weight_map": {
     "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
@@ -1741,50 +1741,50 @@
     "model.layers.24.self_attn.qkv_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.qkv_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.qkv_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.down_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.down_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.gate_up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.gate_up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.gate_up_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.gate_up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.mlp.gate_up_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.qkv_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.qkv_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.qkv_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.qkv_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.qkv_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.down_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.down_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.gate_up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.gate_up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.gate_up_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.gate_up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.mlp.gate_up_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.o_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.o_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.qkv_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.qkv_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.qkv_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.qkv_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.qkv_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
@@ -1797,16 +1797,16 @@
     "model.layers.27.mlp.gate_up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.gate_up_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.o_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.o_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.qkv_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.qkv_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.qkv_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.qkv_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.qkv_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.28.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "model.layers.28.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
@@ -1989,22 +1989,22 @@
     "model.layers.7.mlp.down_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.gate_up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.mlp.gate_up_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.mlp.gate_up_proj.lora_A.vision.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.gate_up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.gate_up_proj.lora_B.vision.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.o_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.o_proj.lora_A.vision.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.o_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.o_proj.lora_B.vision.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.qkv_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.qkv_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.qkv_proj.lora_A.vision.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.qkv_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.qkv_proj.lora_B.vision.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.8.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "model.layers.8.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",

 {
   "metadata": {
+    "total_size": 11887118272
   },
   "weight_map": {
     "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
     "model.layers.24.self_attn.qkv_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.qkv_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.qkv_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_up_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_up_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.o_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.qkv_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.qkv_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.qkv_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.qkv_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.qkv_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_up_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_up_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.qkv_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.qkv_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.qkv_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.qkv_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.qkv_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.gate_up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.mlp.gate_up_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.qkv_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.qkv_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.qkv_proj.lora_A.vision.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.qkv_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.qkv_proj.lora_B.vision.weight": "model-00003-of-00003.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.28.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "model.layers.28.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.mlp.gate_up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.mlp.gate_up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.mlp.gate_up_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.mlp.gate_up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.mlp.gate_up_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.7.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.qkv_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.qkv_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.qkv_proj.lora_A.vision.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.qkv_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.qkv_proj.lora_B.vision.weight": "model-00002-of-00003.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.8.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "model.layers.8.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",