firqaaa
/

indo-gemma-2b-alpaca

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

firqaaa commited on May 23

Commit

8a7cf8b

•

1 Parent(s): 9b66ad8

Update README.md

Files changed (1) hide show

README.md +46 -0

README.md CHANGED Viewed

@@ -12,6 +12,52 @@ base_model: unsloth/gemma-2b-bnb-4bit
 pipeline_tag: text-generation
 ---
 # Uploaded  model
 - **Developed by:** firqaaa

 pipeline_tag: text-generation
 ---
+# How to use
+```python
+import warnings
+warnings.filterwarnings("ignore")
+alpaca_prompt = """Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan masukan yang memberikan konteks lebih lanjut. Tulis tanggapan yang melengkapi instruksi dengan tepat.
+### Instruksi:
+{}
+### Masukan:
+{}
+### Tanggapan:
+{}"""
+max_seq_length = 4096 # Choose any! We auto support RoPE Scaling internally!
+dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
+load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.
+if True:
+    from unsloth import FastLanguageModel
+    model, tokenizer = FastLanguageModel.from_pretrained(
+        model_name = "indo-gemma-2b-alpaca",
+        max_seq_length = max_seq_length,
+        dtype = dtype,
+        load_in_4bit = load_in_4bit
+    )
+    FastLanguageModel.for_inference(model) # Enable native 2x faster inference
+inputs = tokenizer(
+    [
+        alpaca_prompt.format(
+            "Sebutkan langkah-langkah membuat nasi goreng!",
+            "", # input
+            "", # output - leave this blank for generation!
+        )
+    ], return_tensors = "pt"
+).to("cuda")
+from transformers import TextStreamer
+text_streamer = TextStreamer(tokenizer)
+_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 256)
+```
 # Uploaded  model
 - **Developed by:** firqaaa