TheBloke
/

open-llama-7b-open-instruct-GPTQ

Text Generation

text-generation-inference

4-bit precision

Model card Files Files and versions Community

TheBloke commited on Jun 9, 2023

Commit

bce43c2

·

1 Parent(s): 0b402a5

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -85,6 +85,10 @@ model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
         use_triton=use_triton,
         quantize_config=None)
 print("\n\n*** Generate:")
 input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
@@ -96,10 +100,6 @@ print(tokenizer.decode(output[0]))
 # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
 logging.set_verbosity(logging.CRITICAL)
-prompt = "Tell me about AI"
-prompt_template=f'''### Human: {prompt}
-### Assistant:'''
 print("*** Pipeline:")
 pipe = pipeline(
     "text-generation",

         use_triton=use_triton,
         quantize_config=None)
+prompt = "Tell me about AI"
+prompt_template=f'''### Instruction: {prompt}
+### Response:'''
 print("\n\n*** Generate:")
 input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
 # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
 logging.set_verbosity(logging.CRITICAL)
 print("*** Pipeline:")
 pipe = pipeline(
     "text-generation",