kajdun
/

iubaris-13b-v3_GPTQ

Text Generation

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

kajdun commited on Aug 21, 2023

Commit

a1c6e67

·

1 Parent(s): 46814d3

Update handler.py

Files changed (1) hide show

handler.py +13 -17

handler.py CHANGED Viewed

@@ -4,26 +4,17 @@ from transformers import AutoTokenizer, TextGenerationPipeline
 from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
 # check for GPU
-device = 0 if torch.cuda.is_available() else -1
 #print(f"cuda: {device}")
 class EndpointHandler():
-    def __init__(self, path=""):
-        quantize_config = BaseQuantizeConfig(**{
-                                        "bits": 4,
-                                        "group_size": 128,
-                                        "damp_percent": 0.01,
-                                        "desc_act": False,
-                                        "static_groups": False,
-                                        "sym": True,
-                                        "true_sequential": True
-                                      })
         # load the optimized model
-        model = AutoGPTQForCausalLM.from_quantized(path, device="cuda:0", quantize_config=quantize_config, use_safetensors=True) #file_name="model-quantized.onnx")
-        tokenizer = AutoTokenizer.from_pretrained(path)
         # or you can also use pipeline
-        self.generator = TextGenerationPipeline(model=model, tokenizer=tokenizer)
     def __call__(self, data: Any) -> List[List[Dict[str, float]]]:
         """
@@ -36,10 +27,15 @@ class EndpointHandler():
         inputs = data.pop("inputs", data)
         parameters = data.pop("parameters", None)
         # pass inputs with all kwargs in data
         if parameters is not None:
-            prediction = self.generator(inputs, **parameters)
         else:
-            prediction = self.generator(inputs)
-        return prediction

 from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
 # check for GPU
+#device = 0 if torch.cuda.is_available() else -1
 #print(f"cuda: {device}")
 class EndpointHandler():
+    def __init__(self, path=""):
         # load the optimized model
+        self.model = AutoGPTQForCausalLM.from_quantized(path, device_map="auto", use_safetensors=True) #file_name="model-quantized.onnx")
+        self.tokenizer = AutoTokenizer.from_pretrained(path)
         # or you can also use pipeline
+        #self.generator = TextGenerationPipeline(model=model, tokenizer=tokenizer)
     def __call__(self, data: Any) -> List[List[Dict[str, float]]]:
         """
         inputs = data.pop("inputs", data)
         parameters = data.pop("parameters", None)
+        input_ids = self.tokenizer(inputs, return_tensors="pt").to(self.model.device)
         # pass inputs with all kwargs in data
         if parameters is not None:
+            #prediction = self.generator(inputs, **parameters)
+            outputs = self.model.generate(**input_ids, **parameters)
         else:
+            outputs = self.model.generate(**input_ids)
+        prediction = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return [{"generated_text": prediction}]