JuanCabs commited on
Commit
699aefd
verified
1 Parent(s): 2d751cb

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +3 -5
app.py CHANGED
@@ -5,17 +5,15 @@ import torch
5
  # Cargar el tokenizer del modelo base
6
  tokenizer = AutoTokenizer.from_pretrained("unsloth/meta-llama-3.1-8b-bnb-4bit")
7
 
8
- # Cargar el modelo base con soporte de 4 bits
9
- model = AutoModelForCausalLM.from_pretrained("unsloth/meta-llama-3.1-8b-bnb-4bit",
10
- load_in_4bit=True,
11
- device_map="auto")
12
 
13
  # Cargar el adaptador LoRA
14
  model.load_adapter("JuanCabs/lapepav1", source="hf")
15
 
16
  # Funci贸n para generar texto con el modelo
17
  def generar_respuesta(prompt):
18
- inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
19
  outputs = model.generate(**inputs, max_length=100)
20
  return tokenizer.decode(outputs[0], skip_special_tokens=True)
21
 
 
5
  # Cargar el tokenizer del modelo base
6
  tokenizer = AutoTokenizer.from_pretrained("unsloth/meta-llama-3.1-8b-bnb-4bit")
7
 
8
+ # Cargar el modelo base sin 4-bit ni CUDA, para que funcione en CPU
9
+ model = AutoModelForCausalLM.from_pretrained("unsloth/meta-llama-3.1-8b-bnb-4bit")
 
 
10
 
11
  # Cargar el adaptador LoRA
12
  model.load_adapter("JuanCabs/lapepav1", source="hf")
13
 
14
  # Funci贸n para generar texto con el modelo
15
  def generar_respuesta(prompt):
16
+ inputs = tokenizer(prompt, return_tensors="pt")
17
  outputs = model.generate(**inputs, max_length=100)
18
  return tokenizer.decode(outputs[0], skip_special_tokens=True)
19