Imran1
/

Qwen2.5-72B-Instruct-FP8

Model card Files Files and versions Community

Imran1 commited on 14 days ago

Commit

28a42cc

•

1 Parent(s): 892e588

Update code/inference.py

Files changed (1) hide show

code/inference.py +5 -4

code/inference.py CHANGED Viewed

@@ -12,11 +12,12 @@ def model_fn(model_dir):
         model=model_dir,
         trust_remote_code=True,
         dtype="float16",
         gpu_memory_utilization=0.9,
     )
     return model
-def predict_fn(data, model,context = None):
     try:
         input_text = data.pop("inputs", data)
         parameters = data.pop("parameters", {})
@@ -36,11 +37,11 @@ def predict_fn(data, model,context = None):
         logger.error(f"Exception during prediction: {e}")
         return {"error": str(e)}
-def input_fn(request_body, request_content_type, context = None):
     if request_content_type == "application/json":
         return json.loads(request_body)
     else:
         raise ValueError(f"Unsupported content type: {request_content_type}")
-def output_fn(prediction, accept, context = None):
-    return json.dumps(prediction)

         model=model_dir,
         trust_remote_code=True,
         dtype="float16",
+        tensor_parallel_size=4,  # Use 4 GPUs for parallelization
         gpu_memory_utilization=0.9,
     )
     return model
+def predict_fn(data, model, context=None):
     try:
         input_text = data.pop("inputs", data)
         parameters = data.pop("parameters", {})
         logger.error(f"Exception during prediction: {e}")
         return {"error": str(e)}
+def input_fn(request_body, request_content_type, context=None):
     if request_content_type == "application/json":
         return json.loads(request_body)
     else:
         raise ValueError(f"Unsupported content type: {request_content_type}")
+def output_fn(prediction, accept, context=None):
+    return json.dumps(prediction)