nm-testing
/

NVLM-D-72B-FP8-dynamic

compressed-tensors

Model card Files Files and versions Community

mgoin commited on 15 days ago

Commit

3e3f4f0

•

1 Parent(s): 4241b73

Update README.md

Files changed (1) hide show

README.md +1 -8

README.md CHANGED Viewed

@@ -24,14 +24,7 @@ recipe = QuantizationModifier(
 )
 # Apply quantization and save to disk in compressed-tensors format.
-SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
 oneshot(model=model, recipe=recipe, output_dir=SAVE_DIR)
 processor.save_pretrained(SAVE_DIR)
-# Confirm generations of the quantized model look sane.
-print("========== SAMPLE GENERATION ==============")
-input_ids = processor(text="Hello my name is", return_tensors="pt").input_ids.to("cuda")
-output = model.generate(input_ids, max_new_tokens=20)
-print(processor.decode(output[0]))
-print("==========================================")
 ```

 )
 # Apply quantization and save to disk in compressed-tensors format.
+SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-dynamic"
 oneshot(model=model, recipe=recipe, output_dir=SAVE_DIR)
 processor.save_pretrained(SAVE_DIR)
 ```