bigcode
/

starcoder2-15b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

loubnabnl HF staff commited on Feb 27, 2024

Commit

eaa8ac9

·

verified ·

1 Parent(s): 5c5e0d3

fix typos

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -61,7 +61,7 @@ checkpoint = "bigcode/starcoder2-15b"
 device = "cuda" # for GPU usage or "cpu" for CPU usage
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
-# to use Multiple GPUs do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
 model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
 inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
@@ -100,7 +100,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 # to use 4bit use `load_in_4bit=True` instead
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
-checkpoint = "bigcode/starcoder2-15b_16k"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForCausalLM.from_pretrained("bigcode/starcoder2-15b_16k", quantization_config=quantization_config)

 device = "cuda" # for GPU usage or "cpu" for CPU usage
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
+# for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
 model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
 inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
 # to use 4bit use `load_in_4bit=True` instead
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
+checkpoint = "bigcode/starcoder2-15b"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForCausalLM.from_pretrained("bigcode/starcoder2-15b_16k", quantization_config=quantization_config)