Edit Models filters

Misc

compressed-tensors

Inference Endpoints

AutoTrain Compatible

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

798

Full-text search

Active filters: compressed-tensors

FINGU-AI/QWEN2.5-32B-2600s-FP8

Updated 24 days ago • 61

v2ray/GPT4chan-8B-FP8

Text Generation • Updated 1 day ago • 5

leon-se/Idefics3-8B-Llama3-FP8-Dynamic

Updated 22 days ago • 36

horheynm/TinyLlama-1.1B-Chat-v1.0-FP8_DYNAMIC-e2e

Updated 22 days ago • 8

nm-testing/TinyLlama-1.1B-Chat-v1.0-kv_cache_default_tinyllama-e2e

Updated about 9 hours ago • 19

nm-testing/Phi-3-mini-4k-instruct-kv_cache_default_phi3-e2e

Updated 5 days ago • 13

zygi/Qwen2.5-72B-Instruct-abliterated-FP8-Dynamic

Updated 22 days ago • 43

Infermatic/70B-L3.3-mhnnn-x1-FP8-Dynamic

Text Generation • Updated 22 days ago • 7

noneUsername/huihui-ai-phi-4-abliterated-W8A8

Updated 21 days ago • 4

nm-testing/TinyLlama-1.1B-Chat-v1.0-FP8-Dynamic-compressed

Updated 21 days ago • 28

nm-testing/TinyLlama-1.1B-Chat-v1.0-FP8-Dynamic-uncompressed

Updated 21 days ago • 20

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16-G128-compressed

Updated 21 days ago • 30

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16-G128-uncompressed

Updated 21 days ago • 14

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A16-G128-compressed

Updated 21 days ago • 33

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A16-G128-uncompressed

Updated 21 days ago • 17

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-Dynamic-Per-Token-compressed

Updated 21 days ago • 25

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-Dynamic-Per-Token-uncompressed

Updated 21 days ago • 12

nm-testing/llama2.c-stories42M-quantized-fp8-Dynamic

Updated 21 days ago • 7

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse2of4_only-e2e

Updated about 9 hours ago • 46

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse2of4_fp8_dynamic-e2e

Updated 5 days ago • 8

nfunctor/SuperNova-Medius-FP8-Dynamic

Text Generation • Updated 21 days ago • 60

novita-ai/dolphin-2.9.2-qwen2-72b-fp8

Updated 20 days ago • 48

soprasteria/Lucie-7B-Instruct-FP8-KV

Updated 20 days ago

soprasteria/Mistral-Nemo-Instruct-2407-FP8-KV

Updated 20 days ago • 70

neuralmagic/granite-3.1-2b-base-quantized.w8a8

Text Generation • Updated 5 days ago • 26

neuralmagic/granite-3.1-2b-base-quantized.w4a16

Text Generation • Updated 5 days ago • 36

neuralmagic/granite-3.1-2b-base-FP8-dynamic

Text Generation • Updated 5 days ago • 40

neuralmagic/granite-3.1-8b-base-quantized.w8a8

Text Generation • Updated 5 days ago • 11

neuralmagic/granite-3.1-8b-base-quantized.w4a16

Text Generation • Updated 5 days ago • 32

stan-hua/Qwen2.5-0.5B-Instruct-LC-RTN-W4A16

Updated 19 days ago • 4