aws-neuron
/

optimum-neuron-cache

Model card Files Files and versions Community

311

dacorvo HF staff commited on Dec 4, 2024

Commit

4e25bb0

verified ·

1 Parent(s): 38fdd8c

Add qwen2.5 config for models up to 14B params

Browse files

Files changed (1) hide show

inference-cache-config/qwen2.5 +76 -0

inference-cache-config/qwen2.5 ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+   "Qwen/Qwen2.5-7B-Instruct": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "num_cores": 8,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 32,
+      "sequence_length": 4096,
+      "num_cores": 8,
+      "auto_cast_type": "bf16"
+    }
+  ],
+  "Qwen/Qwen2.5-0.5B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    }
+  ],
+  "Qwen/Qwen2.5-1.5B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "num_cores": 2,
+      "auto_cast_type": "bf16"
+    }
+  ],
+  "Qwen/Qwen2.5-14B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "num_cores": 8,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "batch_size": 16,
+      "sequence_length": 4096,
+      "num_cores": 8,
+      "auto_cast_type": "bf16"
+    }
+  ]
+}