Spaces:

kirankunapuli
/

Gemma-2B-Hinglish-Model-Inference-v1.0

Sleeping

kirankunapuli commited on Mar 24

Commit

c0ddfd5

•

1 Parent(s): 969a44b

Update app.py to use cache

Files changed (1) hide show

app.py CHANGED Viewed

@@ -36,7 +36,7 @@ def get_response(input_text: str) -> str:
         return_tensors="pt",
     ).to(device)
-    outputs = model.generate(**inputs, max_new_tokens=256)
     output = tokenizer.batch_decode(outputs)[0]
     response_pattern = re.compile(r"### Response:\n(.*?)<eos>", re.DOTALL)
     response_match = response_pattern.search(output)

         return_tensors="pt",
     ).to(device)
+    outputs = model.generate(**inputs, max_new_tokens=256, use_cache=True)
     output = tokenizer.batch_decode(outputs)[0]
     response_pattern = re.compile(r"### Response:\n(.*?)<eos>", re.DOTALL)
     response_match = response_pattern.search(output)