123lxb
/

lxb

123lxb commited on Mar 9

Commit

ca94c52

verified ·

1 Parent(s): 20ca3e6

Update config.json

Files changed (1) hide show

config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "hidden_size": 2048,
   "intermediate_size": 5632,
   "max_position_embeddings": 16384,
@@ -6,12 +8,11 @@
   "num_hidden_layers": 24,
   "num_key_value_heads": 16,
   "vocab_size": 102400,
-  "model_type": "llama",
-  "architectures": ["LlamaForCausalLM"],
   "torch_dtype": "bfloat16",
   "transformers_version": "4.33.1",
   "aligner_config": {
     "cls": "MlpProjector",
     "params": {
       "depth": 2,
       "input_dim": 1024,
@@ -21,6 +22,7 @@
   },
   "gen_aligner_config": {
     "cls": "MlpProjector",
     "params": {
       "depth": 2,
       "input_dim": 8,
@@ -30,6 +32,7 @@
   },
   "gen_head_config": {
     "cls": "vision_head",
     "params": {
       "image_token_embed": 2048,
       "image_token_size": 16384,
@@ -38,6 +41,7 @@
   },
   "gen_vision_config": {
     "cls": "VQ-16",
     "params": {
       "image_token_size": 16384,
       "n_embed": 8
@@ -45,6 +49,7 @@
   },
   "vision_config": {
     "cls": "CLIPVisionTower",
     "params": {
       "image_size": 384,
       "model_name": "siglip_large_patch16_384",

 {
+  "model_type": "llama",
+  "architectures": ["LlamaForCausalLM"],
   "hidden_size": 2048,
   "intermediate_size": 5632,
   "max_position_embeddings": 16384,
   "num_hidden_layers": 24,
   "num_key_value_heads": 16,
   "vocab_size": 102400,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.33.1",
   "aligner_config": {
     "cls": "MlpProjector",
+    "model_type": "aligner",
     "params": {
       "depth": 2,
       "input_dim": 1024,
   },
   "gen_aligner_config": {
     "cls": "MlpProjector",
+    "model_type": "gen_aligner",
     "params": {
       "depth": 2,
       "input_dim": 8,
   },
   "gen_head_config": {
     "cls": "vision_head",
+    "model_type": "gen_head",
     "params": {
       "image_token_embed": 2048,
       "image_token_size": 16384,
   },
   "gen_vision_config": {
     "cls": "VQ-16",
+    "model_type": "gen_vision",
     "params": {
       "image_token_size": 16384,
       "n_embed": 8
   },
   "vision_config": {
     "cls": "CLIPVisionTower",
+    "model_type": "vision",
     "params": {
       "image_size": 384,
       "model_name": "siglip_large_patch16_384",