asasasText-servicegggg

Runtime error

App Files Files Community

Yhhxhfh commited on Sep 24

Commit

b76928d

•

1 Parent(s): 436a488

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -8

app.py CHANGED Viewed

@@ -5,11 +5,13 @@ import re
 import asyncio
 import gradio as gr
 import os
-import spaces # Keep spaces for other functionalities if needed
 from dotenv import load_dotenv
 from fastapi import FastAPI, Request
 from fastapi.responses import JSONResponse
 import urllib3
 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
@@ -56,6 +58,7 @@ class ModelManager:
                 self.models[model_config['name']] = Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename'], use_auth_token=HUGGINGFACE_TOKEN)
             except Exception as e:
                 print(f"Error loading model {model_config['name']}: {e}")
     def load_all_models(self):
         with ThreadPoolExecutor() as executor:
@@ -85,14 +88,25 @@ def remove_duplicates(text):
             seen_lines.add(line)
     return '\n'.join(unique_lines)
-# Removed @spaces.GPU decorator
 def generate_model_response(model, inputs):
     try:
         response = model(inputs)
         return remove_duplicates(response['choices'][0]['text'])
     except Exception as e:
-        print(f"Error generating model response: {e}")
-        return ""
 def remove_repetitive_responses(responses):
     unique_responses = {}
@@ -118,10 +132,16 @@ async def process_message(message):
 @app.post("/generate_multimodel")
 async def api_generate_multimodel(request: Request):
-    data = await request.json()
-    message = data["message"]
-    formatted_response = await process_message(message)
-    return JSONResponse({"response": formatted_response})
 iface = gr.Interface(
     fn=process_message,

 import asyncio
 import gradio as gr
 import os
+import spaces
 from dotenv import load_dotenv
 from fastapi import FastAPI, Request
 from fastapi.responses import JSONResponse
 import urllib3
+import time
+import random
 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
                 self.models[model_config['name']] = Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename'], use_auth_token=HUGGINGFACE_TOKEN)
             except Exception as e:
                 print(f"Error loading model {model_config['name']}: {e}")
+                pass  # Add pass to handle exceptions during model loading
     def load_all_models(self):
         with ThreadPoolExecutor() as executor:
             seen_lines.add(line)
     return '\n'.join(unique_lines)
+@spaces.GPU(queue=False, idle_timeout=0, timeout=0)
 def generate_model_response(model, inputs):
     try:
         response = model(inputs)
         return remove_duplicates(response['choices'][0]['text'])
     except Exception as e:
+        if "You have exceeded your GPU quota" in str(e):
+            time.sleep(random.uniform(1, 3))
+            try:
+                response = model(inputs)
+                return remove_duplicates(response['choices'][0]['text'])
+            except Exception as e2:
+                print(f"Error generating model response (after retry): {e2}")
+                pass  # Add pass to handle exceptions during retry
+                return ""
+        else:
+            print(f"Error generating model response: {e}")
+            pass  # Add pass to handle other exceptions
+            return ""
 def remove_repetitive_responses(responses):
     unique_responses = {}
 @app.post("/generate_multimodel")
 async def api_generate_multimodel(request: Request):
+    while True:
+        try:
+            data = await request.json()
+            message = data["message"]
+            formatted_response = await process_message(message)
+            return JSONResponse({"response": formatted_response})
+        except Exception as e:
+            print(f"Error in API request handling: {e}")
+            pass  # Add pass to handle exceptions in API request handling
+        time.sleep(300)
 iface = gr.Interface(
     fn=process_message,