TOOTLE commited on
Commit
d2d2885
·
verified ·
1 Parent(s): 3ee5860

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +4 -4
app.py CHANGED
@@ -4,14 +4,14 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
4
  # Chemin vers le dossier contenant les fichiers du modèle (.bin, tokenizer)
5
  MODEL_PATH = "TOOTLE/Gemma_instruct_model_gguf" # Remplace par le chemin réel de ton modèle
6
 
7
- # Charger le modèle et le tokenizer
8
- model = AutoModelForCausalLM.from_pretrained(MODEL_PATH)
9
  tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
10
 
11
  # Définir la fonction de réponse pour le chatbot
12
  def chatbot_response(prompt):
13
  # Encoder l'entrée
14
- inputs = tokenizer(prompt, return_tensors="pt")
15
 
16
  # Générer la réponse avec le modèle
17
  outputs = model.generate(inputs["input_ids"], max_new_tokens=128)
@@ -33,4 +33,4 @@ with gr.Blocks() as demo:
33
 
34
  # Lancer l'interface Gradio
35
  if __name__ == "__main__":
36
- demo.launch()
 
4
  # Chemin vers le dossier contenant les fichiers du modèle (.bin, tokenizer)
5
  MODEL_PATH = "TOOTLE/Gemma_instruct_model_gguf" # Remplace par le chemin réel de ton modèle
6
 
7
+ # Charger le modèle avec quantization pour économiser de la mémoire (par exemple, FP16)
8
+ model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, torch_dtype="float16", device_map="auto")
9
  tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
10
 
11
  # Définir la fonction de réponse pour le chatbot
12
  def chatbot_response(prompt):
13
  # Encoder l'entrée
14
+ inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True)
15
 
16
  # Générer la réponse avec le modèle
17
  outputs = model.generate(inputs["input_ids"], max_new_tokens=128)
 
33
 
34
  # Lancer l'interface Gradio
35
  if __name__ == "__main__":
36
+ demo.launch()