kajdun
/

iubaris-13b-v3_GPTQ

Text Generation

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

kajdun commited on Aug 24, 2023

Commit

db34714

·

1 Parent(s): 9a254c2

Update handler.py

Files changed (1) hide show

handler.py +3 -5

handler.py CHANGED Viewed

@@ -4,11 +4,6 @@ from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
 import torch
 from loguru import logger
-# check for GPU
-device = 0 if torch.cuda.is_available() else -1
-logger.info(f"cuda: {device}")
 MAX_INPUT_TOKEN_LENGTH  = 4000
 MAX_MAX_NEW_TOKENS      = 2048
 DEFAULT_MAX_NEW_TOKENS  = 1024
@@ -29,12 +24,15 @@ class EndpointHandler():
         parameters["max_new_tokens"] = parameters.pop("max_new_tokens", DEFAULT_MAX_NEW_TOKENS)
         if parameters["max_new_tokens"] > MAX_MAX_NEW_TOKENS:
             return [{"generated_text": None, "error": f"requested max_new_tokens too high (> {MAX_MAX_NEW_TOKENS})"}]
         input_token_length = self.get_input_token_length(inputs)
         if input_token_length > MAX_INPUT_TOKEN_LENGTH:
             return [{"generated_text": None, "error": f"input is too long ({input_token_length} > {MAX_INPUT_TOKEN_LENGTH})"}]
         input_ids = self.tokenizer(inputs, return_tensors="pt").to(self.model.device)
         outputs = self.model.generate(**input_ids, **parameters)

 import torch
 from loguru import logger
 MAX_INPUT_TOKEN_LENGTH  = 4000
 MAX_MAX_NEW_TOKENS      = 2048
 DEFAULT_MAX_NEW_TOKENS  = 1024
         parameters["max_new_tokens"] = parameters.pop("max_new_tokens", DEFAULT_MAX_NEW_TOKENS)
         if parameters["max_new_tokens"] > MAX_MAX_NEW_TOKENS:
+            logger.error(f"requested max_new_tokens too high (> {MAX_MAX_NEW_TOKENS})")
             return [{"generated_text": None, "error": f"requested max_new_tokens too high (> {MAX_MAX_NEW_TOKENS})"}]
         input_token_length = self.get_input_token_length(inputs)
         if input_token_length > MAX_INPUT_TOKEN_LENGTH:
+            logger.error(f"input is too long ({input_token_length} > {MAX_INPUT_TOKEN_LENGTH})")
             return [{"generated_text": None, "error": f"input is too long ({input_token_length} > {MAX_INPUT_TOKEN_LENGTH})"}]
+        logger.info(f"inputs: {inputs}")
         input_ids = self.tokenizer(inputs, return_tensors="pt").to(self.model.device)
         outputs = self.model.generate(**input_ids, **parameters)