Upload KawnIdefics3ForConditionalGeneration

Browse files

Files changed (4) hide show

config.json +39 -34
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +5 -16

config.json CHANGED Viewed

@@ -1,72 +1,75 @@
 {
-  "_name_or_path": "kawn_idefics3_siglib14_384",
   "architectures": [
     "KawnIdefics3ForConditionalGeneration"
   ],
   "ignore_index": -100,
   "image_grid_pinpoints": [
     [
-      384,
-      384
     ],
     [
-      384,
-      768
     ],
     [
-      384,
-      1152
     ],
     [
-      384,
-      1536
     ],
     [
-      1536,
-      384
     ],
     [
-      1152,
-      384
     ],
     [
-      768,
-      384
     ],
     [
-      768,
-      768
     ],
     [
-      768,
-      1152
     ],
     [
-      768,
-      1536
     ],
     [
-      1536,
-      768
     ],
     [
-      1152,
-      768
     ],
     [
-      1152,
-      1536
     ],
     [
-      1536,
-      1152
     ],
     [
-      1152,
-      1152
     ]
   ],
-  "image_seq_length": 182,
   "image_token_id": 256001,
   "model_type": "kawn_idefics3",
   "scale_factor": 2,
@@ -104,12 +107,14 @@
   "vision_config": {
     "_attn_implementation_autoset": true,
     "hidden_size": 1152,
-    "image_size": 384,
     "intermediate_size": 4304,
     "model_type": "siglip_vision_model",
     "num_attention_heads": 16,
     "num_hidden_layers": 27,
-    "patch_size": 14
   },
   "vision_feature_layer": null
 }

 {
   "architectures": [
     "KawnIdefics3ForConditionalGeneration"
   ],
   "ignore_index": -100,
   "image_grid_pinpoints": [
     [
+      364,
+      364
     ],
     [
+      364,
+      728
     ],
     [
+      364,
+      1092
     ],
     [
+      1092,
+      364
     ],
     [
+      728,
+      364
     ],
     [
+      728,
+      728
     ],
     [
+      728,
+      1092
     ],
     [
+      1092,
+      728
     ],
     [
+      1092,
+      1092
     ],
     [
+      364,
+      1456
     ],
     [
+      1456,
+      364
     ],
     [
+      728,
+      1456
     ],
     [
+      1456,
+      728
     ],
     [
+      1456,
+      1092
     ],
     [
+      1092,
+      1456
+    ],
+    [
+      1456,
+      1456
     ]
   ],
+  "image_seq_length": 169,
   "image_token_id": 256001,
   "model_type": "kawn_idefics3",
   "scale_factor": 2,
   "vision_config": {
     "_attn_implementation_autoset": true,
     "hidden_size": 1152,
+    "image_size": 364,
+    "initializer_range": 0.02,
     "intermediate_size": 4304,
     "model_type": "siglip_vision_model",
     "num_attention_heads": 16,
     "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
   },
   "vision_feature_layer": null
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba2eda00fa86a92ba7db61f66370ba6fd7142d270864789638f6f2b38264c08e
-size 4995096080

 version https://git-lfs.github.com/spec/v1
+oid sha256:541b49f43819467781d6c9ee78ea536ca9bf0f1faabad845e3946e652f1bc896
+size 4992807984

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b41d4dc5bc76fb9f7a806ceb0127e85d41b30011246595938a5b0e20af5b704
-size 1111372352

 version https://git-lfs.github.com/spec/v1
+oid sha256:02171ba9269c1c2ba76a3c0ff3845dbe5de817f04d2462e28772c9d7d4da6a04
+size 1083060272

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 6106368640
   },
   "weight_map": {
     "connector.proj.weight": "model-00002-of-00002.safetensors",
@@ -133,10 +133,10 @@
     "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "language_model.model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
     "language_model.model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
@@ -727,17 +727,6 @@
     "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.head.probe": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
   }

 {
   "metadata": {
+    "total_size": 6075769824
   },
   "weight_map": {
     "connector.proj.weight": "model-00002-of-00002.safetensors",
     "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "language_model.model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
     "language_model.model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
     "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
   }