Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
@@ -4,14 +4,14 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
|
|
4 |
# Chemin vers le dossier contenant les fichiers du modèle (.bin, tokenizer)
|
5 |
MODEL_PATH = "TOOTLE/Gemma_instruct_model_gguf" # Remplace par le chemin réel de ton modèle
|
6 |
|
7 |
-
# Charger le modèle
|
8 |
-
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH)
|
9 |
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
|
10 |
|
11 |
# Définir la fonction de réponse pour le chatbot
|
12 |
def chatbot_response(prompt):
|
13 |
# Encoder l'entrée
|
14 |
-
inputs = tokenizer(prompt, return_tensors="pt")
|
15 |
|
16 |
# Générer la réponse avec le modèle
|
17 |
outputs = model.generate(inputs["input_ids"], max_new_tokens=128)
|
@@ -33,4 +33,4 @@ with gr.Blocks() as demo:
|
|
33 |
|
34 |
# Lancer l'interface Gradio
|
35 |
if __name__ == "__main__":
|
36 |
-
demo.launch()
|
|
|
4 |
# Chemin vers le dossier contenant les fichiers du modèle (.bin, tokenizer)
|
5 |
MODEL_PATH = "TOOTLE/Gemma_instruct_model_gguf" # Remplace par le chemin réel de ton modèle
|
6 |
|
7 |
+
# Charger le modèle avec quantization pour économiser de la mémoire (par exemple, FP16)
|
8 |
+
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, torch_dtype="float16", device_map="auto")
|
9 |
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
|
10 |
|
11 |
# Définir la fonction de réponse pour le chatbot
|
12 |
def chatbot_response(prompt):
|
13 |
# Encoder l'entrée
|
14 |
+
inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True)
|
15 |
|
16 |
# Générer la réponse avec le modèle
|
17 |
outputs = model.generate(inputs["input_ids"], max_new_tokens=128)
|
|
|
33 |
|
34 |
# Lancer l'interface Gradio
|
35 |
if __name__ == "__main__":
|
36 |
+
demo.launch()
|