kirankunapuli
/

Gemma-2B-Hinglish-LORA-v1.0

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

kirankunapuli commited on Mar 24, 2024

Commit

ff3d2de

·

verified ·

1 Parent(s): f994de4

Update README.md

Files changed (1) hide show

README.md +17 -3

README.md CHANGED Viewed

@@ -17,13 +17,15 @@ datasets:
 pipeline_tag: text-generation
 ---
-# Gemma-2B-Hinglish-LORA-v1.0 model
 - **Developed by:** [Kiran Kunapuli](https://www.linkedin.com/in/kirankunapuli/)
 - **License:** apache-2.0
 - **Finetuned from model :** unsloth/gemma-2b-bnb-4bit
 - **Model usage:** Use the below code in Python
   ```python
     import torch
     from transformers import AutoTokenizer, AutoModelForCausalLM
@@ -55,7 +57,11 @@ pipeline_tag: text-generation
     ], return_tensors = "pt").to(device)
     outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
-    print(tokenizer.batch_decode(outputs))
     # Example 2
     inputs = tokenizer(
@@ -68,7 +74,15 @@ pipeline_tag: text-generation
     ], return_tensors = "pt").to(device)
     outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
-    print(tokenizer.batch_decode(outputs))
   ```
 - **Model config:**
   ```python

 pipeline_tag: text-generation
 ---
+# 🔥 Gemma-2B-Hinglish-LORA-v1.0 model
+### 🚀 Visit this HF Space to try out this model's inference: https://huggingface.co/spaces/kirankunapuli/Gemma-2B-Hinglish-Model-Inference-v1.0
 - **Developed by:** [Kiran Kunapuli](https://www.linkedin.com/in/kirankunapuli/)
 - **License:** apache-2.0
 - **Finetuned from model :** unsloth/gemma-2b-bnb-4bit
 - **Model usage:** Use the below code in Python
   ```python
+    import re
     import torch
     from transformers import AutoTokenizer, AutoModelForCausalLM
     ], return_tensors = "pt").to(device)
     outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
+    output = tokenizer.batch_decode(outputs)[0]
+    response_start = output.find("### Response:") + len("### Response:")
+    response_end = output.find("<eos>", response_start)
+    response = output[response_start:response_end].strip()
+    print(response)
     # Example 2
     inputs = tokenizer(
     ], return_tensors = "pt").to(device)
     outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
+    output = tokenizer.batch_decode(outputs)[0]
+    response_pattern = re.compile(r'### Response:\n(.*?)<eos>', re.DOTALL)
+    response_match = response_pattern.search(output)
+    if response_match:
+        response = response_match.group(1).strip()
+        return response
+    else:
+        return "Response not found"
   ```
 - **Model config:**
   ```python