llama-3.2-3B-Instruct

Running on Zero

App Files Files Community

zizo66 commited on 1 day ago

Commit

1284be2

verified ·

1 Parent(s): 4922032

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -30

app.py CHANGED Viewed

@@ -1,57 +1,67 @@
 import os
-from collections.abc import Iterator
-from threading import Thread
-import gradio as gr
-import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 DESCRIPTION = """\
-# Llama 3.2 3B Instruct
-Llama 3.2 3B is Meta's latest iteration of open LLMs.
-This is a demo of [`meta-llama/Llama-3.2-3B-Instruct`](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct), fine-tuned for instruction following.
-For more details, please check [our post](https://huggingface.co/blog/llama32).
 """
 MAX_MAX_NEW_TOKENS = 2048
-DEFAULT_MAX_NEW_TOKENS = 1024
-MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))
-device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 model_id = "meta-llama/Llama-3.2-3B-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
-    device_map="auto",
-    torch_dtype=torch.bfloat16,
 )
 model.eval()
-@spaces.GPU(duration=90)
 def generate(
     message: str,
     chat_history: list[dict],
-    max_new_tokens: int = 1024,
     temperature: float = 0.6,
     top_p: float = 0.9,
     top_k: int = 50,
     repetition_penalty: float = 1.2,
-) -> Iterator[str]:
     conversation = [*chat_history, {"role": "user", "content": message}]
-    input_ids = tokenizer.apply_chat_template(conversation, add_generation_prompt=True, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
-        gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
-    input_ids = input_ids.to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
-        {"input_ids": input_ids},
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
@@ -61,15 +71,17 @@ def generate(
         num_beams=1,
         repetition_penalty=repetition_penalty,
     )
-    t = Thread(target=model.generate, kwargs=generate_kwargs)
-    t.start()
     outputs = []
     for text in streamer:
         outputs.append(text)
         yield "".join(outputs)
 demo = gr.ChatInterface(
     fn=generate,
     additional_inputs=[
@@ -120,10 +132,10 @@ demo = gr.ChatInterface(
     cache_examples=False,
     type="messages",
     description=DESCRIPTION,
-    css_paths="style.css",
     fill_height=True,
 )
 if __name__ == "__main__":
     demo.queue(max_size=20).launch()

 import os
 import torch
+import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+# وصف التطبيق
 DESCRIPTION = """\
+# Llama 3.2 3B Instruct (CPU-Only)
+هذا نموذج توضيحي لـ [`meta-llama/Llama-3.2-3B-Instruct`](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) يعمل باستخدام الـ CPU فقط.
 """
+# إعداد الثوابت
 MAX_MAX_NEW_TOKENS = 2048
+DEFAULT_MAX_NEW_TOKENS = 512
+MAX_INPUT_TOKEN_LENGTH = 4096  # الحد الأقصى لعدد التوكنات في المدخلات
+# تحديد الجهاز: استخدام CPU فقط
+device = torch.device("cpu")
+# تحديد معرف النموذج وتحميله
 model_id = "meta-llama/Llama-3.2-3B-Instruct"
+# تحميل التوكن الخاص بالنموذج
 tokenizer = AutoTokenizer.from_pretrained(model_id)
+# تحميل النموذج على CPU مع استخدام torch.float32
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
+    device_map=None,         # عدم استخدام GPU
+    torch_dtype=torch.float32
 )
 model.eval()
+model.to(device)
 def generate(
     message: str,
     chat_history: list[dict],
+    max_new_tokens: int = DEFAULT_MAX_NEW_TOKENS,
     temperature: float = 0.6,
     top_p: float = 0.9,
     top_k: int = 50,
     repetition_penalty: float = 1.2,
+):
+    # دمج سجل المحادثة مع الرسالة الجديدة
     conversation = [*chat_history, {"role": "user", "content": message}]
+    # تحويل المحادثة إلى مدخلات للنموذج
+    inputs = tokenizer.apply_chat_template(
+        conversation,
+        add_generation_prompt=True,
+        return_tensors="pt"
+    )
+    input_ids = inputs["input_ids"]
+    # قص التوكنز إذا تجاوز طولها الحد المسموح
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
+    input_ids = input_ids.to(device)
+    # إعداد البث التدريجي للنص باستخدام TextIteratorStreamer
     streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
+        input_ids=input_ids,
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         num_beams=1,
         repetition_penalty=repetition_penalty,
     )
+    # تشغيل عملية التوليد على نفس الخيط (CPU)
+    model.generate(**generate_kwargs)
     outputs = []
+    # بث النص تدريجيًا أثناء توليد النموذج
     for text in streamer:
         outputs.append(text)
         yield "".join(outputs)
+# إنشاء واجهة الدردشة باستخدام Gradio
 demo = gr.ChatInterface(
     fn=generate,
     additional_inputs=[
     cache_examples=False,
     type="messages",
     description=DESCRIPTION,
+    css_paths="style.css",   # تأكدي من رفع ملف style.css إذا كان موجوداً
     fill_height=True,
 )
 if __name__ == "__main__":
+    # استخدام queue() لإدارة الطلبات المتزامنة
     demo.queue(max_size=20).launch()