Spaces:

TOOTLE
/

Gemma_instructor

Running

TOOTLE commited on 13 days ago

Commit

d2d2885

verified ·

1 Parent(s): 3ee5860

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,14 +4,14 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 # Chemin vers le dossier contenant les fichiers du modèle (.bin, tokenizer)
 MODEL_PATH = "TOOTLE/Gemma_instruct_model_gguf"  # Remplace par le chemin réel de ton modèle
-# Charger le modèle et le tokenizer
-model = AutoModelForCausalLM.from_pretrained(MODEL_PATH)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
 # Définir la fonction de réponse pour le chatbot
 def chatbot_response(prompt):
     # Encoder l'entrée
-    inputs = tokenizer(prompt, return_tensors="pt")
     # Générer la réponse avec le modèle
     outputs = model.generate(inputs["input_ids"], max_new_tokens=128)
@@ -33,4 +33,4 @@ with gr.Blocks() as demo:
 # Lancer l'interface Gradio
 if __name__ == "__main__":
-    demo.launch()

 # Chemin vers le dossier contenant les fichiers du modèle (.bin, tokenizer)
 MODEL_PATH = "TOOTLE/Gemma_instruct_model_gguf"  # Remplace par le chemin réel de ton modèle
+# Charger le modèle avec quantization pour économiser de la mémoire (par exemple, FP16)
+model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, torch_dtype="float16", device_map="auto")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
 # Définir la fonction de réponse pour le chatbot
 def chatbot_response(prompt):
     # Encoder l'entrée
+    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True)
     # Générer la réponse avec le modèle
     outputs = model.generate(inputs["input_ids"], max_new_tokens=128)
 # Lancer l'interface Gradio
 if __name__ == "__main__":
+    demo.launch()