gggg

Runtime error

App Files Files Community

Uhhy commited on Aug 31

Commit

18000a9

•

1 Parent(s): 185b262

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -11

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from concurrent.futures import ThreadPoolExecutor, as_completed
 import uvicorn
 from dotenv import load_dotenv
 from difflib import SequenceMatcher
 load_dotenv()
@@ -20,6 +21,7 @@ models = [
 # Cargar modelos en memoria solo una vez
 llms = [Llama.from_pretrained(repo_id=model['repo_id'], filename=model['filename']) for model in models]
 class ChatRequest(BaseModel):
     message: str
@@ -29,6 +31,7 @@ class ChatRequest(BaseModel):
 def generate_chat_response(request, llm):
     try:
         user_input = normalize_input(request.message)
         response = llm.create_chat_completion(
             messages=[{"role": "user", "content": user_input}],
@@ -42,10 +45,11 @@ def generate_chat_response(request, llm):
         return {"response": f"Error: {str(e)}", "literal": user_input}
 def normalize_input(input_text):
     return input_text.strip()
 def select_best_response(responses, request):
-    coherent_responses = filter_by_coherence(responses, request)
     best_response = filter_by_similarity(coherent_responses)
     return best_response
@@ -68,29 +72,32 @@ async def generate_chat(request: ChatRequest):
     if not request.message.strip():
         raise HTTPException(status_code=400, detail="The message cannot be empty.")
     with ThreadPoolExecutor(max_workers=None) as executor:
         futures = [executor.submit(generate_chat_response, request, llm) for llm in llms]
         responses = []
-        for future in as_completed(futures):
             response = future.result()
             responses.append(response)
-    # Verifica si alguna respuesta contiene un error y maneja el error si es necesario
     if any("Error" in response['response'] for response in responses):
         error_response = next(response for response in responses if "Error" in response['response'])
         raise HTTPException(status_code=500, detail=error_response['response'])
-    # Extrae las respuestas y las entradas literales
-    response_texts = [resp['response'] for resp in responses]
-    literal_inputs = [resp['literal'] for resp in responses]
-    # Selecciona la mejor respuesta
-    best_response = select_best_response(response_texts, request)
     return {
         "best_response": best_response,
-        "all_responses": response_texts,
-        "literal_inputs": literal_inputs
     }
 if __name__ == "__main__":

 import uvicorn
 from dotenv import load_dotenv
 from difflib import SequenceMatcher
+from tqdm import tqdm  # Importa tqdm para la barra de progreso
 load_dotenv()
 # Cargar modelos en memoria solo una vez
 llms = [Llama.from_pretrained(repo_id=model['repo_id'], filename=model['filename']) for model in models]
+print(f"Modelos cargados: {[model['repo_id'] for model in models]}")
 class ChatRequest(BaseModel):
     message: str
 def generate_chat_response(request, llm):
     try:
+        # Normalización del mensaje para manejo robusto
         user_input = normalize_input(request.message)
         response = llm.create_chat_completion(
             messages=[{"role": "user", "content": user_input}],
         return {"response": f"Error: {str(e)}", "literal": user_input}
 def normalize_input(input_text):
+    # Implementar aquí cualquier lógica de normalización que sea necesaria
     return input_text.strip()
 def select_best_response(responses, request):
+    coherent_responses = filter_by_coherence([resp['response'] for resp in responses], request)
     best_response = filter_by_similarity(coherent_responses)
     return best_response
     if not request.message.strip():
         raise HTTPException(status_code=400, detail="The message cannot be empty.")
+    print(f"Procesando solicitud: {request.message}")
+    # Crear un ThreadPoolExecutor para ejecutar las tareas en paralelo
     with ThreadPoolExecutor(max_workers=None) as executor:
+        # Usar tqdm para mostrar la barra de progreso
         futures = [executor.submit(generate_chat_response, request, llm) for llm in llms]
         responses = []
+        for future in tqdm(as_completed(futures), total=len(futures), desc="Generando respuestas"):
             response = future.result()
             responses.append(response)
+            print(f"Modelo procesado: {response['literal'][:30]}...")  # Muestra los primeros 30 caracteres de la respuesta
+    # Verificar si hay errores en las respuestas
     if any("Error" in response['response'] for response in responses):
         error_response = next(response for response in responses if "Error" in response['response'])
         raise HTTPException(status_code=500, detail=error_response['response'])
+    best_response = select_best_response([resp['response'] for resp in responses], request)
+    print(f"Mejor respuesta seleccionada: {best_response}")
     return {
         "best_response": best_response,
+        "all_responses": [resp['response'] for resp in responses],
+        "literal_inputs": [resp['literal'] for resp in responses]
     }
 if __name__ == "__main__":