gggg

Runtime error

App Files Files Community

Uhhy commited on Sep 19

Commit

3eeafd2

•

1 Parent(s): 0692f71

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -29

app.py CHANGED Viewed

@@ -1,12 +1,10 @@
-from fastapi import FastAPI, HTTPException, Request
 from pydantic import BaseModel
 from llama_cpp import Llama
 from concurrent.futures import ThreadPoolExecutor, as_completed
-import uvicorn
 import re
 from spaces import GPU
-app = FastAPI()
 global_data = {
     'models': {},
@@ -44,6 +42,7 @@ model_configs = [
     {"repo_id": "Ffftdtd5dtft/Mistral-Nemo-Instruct-2407-Q2_K-GGUF", "filename": "mistral-nemo-instruct-2407-q2_k.gguf", "name": "Mistral Nemo Instruct 2407"}
 ]
 class ModelManager:
     def __init__(self):
         self.models = {}
@@ -83,7 +82,7 @@ def remove_duplicates(text):
             seen_lines.add(line)
     return '\n'.join(unique_lines)
-@GPU(duration=0)
 def generate_model_response(model, inputs):
     try:
         response = model(inputs)
@@ -92,30 +91,36 @@ def generate_model_response(model, inputs):
         print(f"Error generating model response: {e}")
         return ""
-@app.post("/generate")
-async def generate(request: ChatRequest):
-    try:
-        inputs = normalize_input(request.message)
-        with ThreadPoolExecutor() as executor:
-            futures = [
-                executor.submit(generate_model_response, model, inputs)
-                for model in global_data['models'].values()
-            ]
-            responses = [{'model': model_name, 'response': future.result()} for model_name, future in zip(global_data['models'].keys(), as_completed(futures))]
-        unique_responses = remove_repetitive_responses(responses)
-        return unique_responses
-    except Exception as e:
-        print(f"Error generating responses: {e}")
-        raise HTTPException(status_code=500, detail="Error generating responses")
-@app.middleware("http")
-async def process_request(request: Request, call_next):
-    try:
-        response = await call_next(request)
-        return response
-    except Exception as e:
-        print(f"Request error: {e}")
-        raise HTTPException(status_code=500, detail="Internal Server Error")
 def remove_repetitive_responses(responses):
     unique_responses = {}
@@ -125,4 +130,5 @@ def remove_repetitive_responses(responses):
     return unique_responses
 if __name__ == "__main__":
-    uvicorn.run(app, host="0.0.0.0", port=7860)

 from pydantic import BaseModel
 from llama_cpp import Llama
 from concurrent.futures import ThreadPoolExecutor, as_completed
 import re
+import httpx
 from spaces import GPU
+import asyncio
 global_data = {
     'models': {},
     {"repo_id": "Ffftdtd5dtft/Mistral-Nemo-Instruct-2407-Q2_K-GGUF", "filename": "mistral-nemo-instruct-2407-q2_k.gguf", "name": "Mistral Nemo Instruct 2407"}
 ]
 class ModelManager:
     def __init__(self):
         self.models = {}
             seen_lines.add(line)
     return '\n'.join(unique_lines)
+@GPU(duration=0)
 def generate_model_response(model, inputs):
     try:
         response = model(inputs)
         print(f"Error generating model response: {e}")
         return ""
+async def handle_request(request):
+    if request.method == "POST" and request.url.path == "/generate":
+        try:
+            chat_request = ChatRequest(**request.json())
+            inputs = normalize_input(chat_request.message)
+            with ThreadPoolExecutor() as executor:
+                futures = [
+                    executor.submit(generate_model_response, model, inputs)
+                    for model in global_data['models'].values()
+                ]
+                responses = [{'model': model_name, 'response': future.result()} for model_name, future in zip(global_data['models'].keys(), as_completed(futures))]
+            unique_responses = remove_repetitive_responses(responses)
+            return httpx.Response(status_code=200, json=unique_responses)
+        except Exception as e:
+            print(f"Error handling request: {e}")
+            return httpx.Response(status_code=500, json={"error": f"Error handling request: {e}"})
+    else:
+        return httpx.Response(status_code=404, text="Not Found")
+async def run_server(port: int):
+    async with httpx.AsyncClient(base_url=f"http://localhost:{port}") as client:
+        while True:
+            request = await client.get("/")  # You might need to adjust this based on your expected requests
+            response = await handle_request(request)
+            print(f"Received request: {request}")
+            print(f"Sending response: {response}")
+            await asyncio.sleep(1)  # Adjust the sleep duration as needed
 def remove_repetitive_responses(responses):
     unique_responses = {}
     return unique_responses
 if __name__ == "__main__":
+    port = 7860
+    asyncio.run(run_server(port))