Spaces:

KoDer123
/

Nerealnost

Running

App Files Files Community

KoDer123 commited on 6 days ago

Commit

5ee1df2

verified ·

1 Parent(s): 01ac9e3

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -25

app.py CHANGED Viewed

@@ -9,6 +9,36 @@ import gc
 import signal
 from contextlib import contextmanager
 # Настройка логирования
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
@@ -239,31 +269,38 @@ def respond(
     logger.info(f"Генерируем ответ на запрос: '{message[:50]}...' (длина промпта: {len(full_prompt)})")
     try:
-        # Используем таймаут для генерации
-        with time_limit(generation_timeout):
-            # Токенизация входных данных
-            inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
-            # Генерация ответа
-            outputs = model.generate(
-                inputs.input_ids,
-                max_new_tokens=max_tokens,
-                temperature=temperature,
-                top_p=top_p,
-                do_sample=True,
-                pad_token_id=tokenizer.pad_token_id,
-            )
-            # Декодирование полного вывода
-            generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-            # Извлекаем только часть после "Ассистент: "
-            response_start = generated_text.rfind("Ассистент: ") + len("Ассистент: ")
-            if response_start >= len("Ассистент: "):  # Проверяем, что "Ассистент: " найден
-                response = generated_text[response_start:].strip()
-            else:
-                # Если не найдено, возвращаем весь текст
-                response = generated_text.strip()
         end_time = time.time()
         generation_time = end_time - start_time
@@ -277,6 +314,10 @@ def respond(
     except Exception as e:
         logger.error(f"Ошибка при генерации ответа: {str(e)}")
         return f"Произошла ошибка при генерации ответа: {str(e)}"
 # Настройка интерфейса Gradio
 with gr.Blocks(theme=gr.themes.Soft()) as demo:

 import signal
 from contextlib import contextmanager
+import threading
+import time
+# Класс для обработки таймаута без использования signal
+class TimeoutManager:
+    def __init__(self, seconds):
+        self.seconds = seconds
+        self.timeout_occurred = False
+        self.timer = None
+    def start(self):
+        self.timeout_occurred = False
+        self.timer = threading.Timer(self.seconds, self._timeout)
+        self.timer.daemon = True
+        self.timer.start()
+    def _timeout(self):
+        self.timeout_occurred = True
+    def stop(self):
+        if self.timer:
+            self.timer.cancel()
+    def check_timeout(self):
+        if self.timeout_occurred:
+            raise TimeoutException("Timeout occurred")
+class TimeoutException(Exception):
+    pass
 # Настройка логирования
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
     logger.info(f"Генерируем ответ на запрос: '{message[:50]}...' (длина промпта: {len(full_prompt)})")
     try:
+        # Настраиваем таймаут
+        timeout_mgr = TimeoutManager(generation_timeout)
+        timeout_mgr.start()
+        # Токенизация входных данных
+        inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
+        # Генерация ответа с периодической проверкой таймаута
+        gen_kwargs = {
+            "input_ids": inputs.input_ids,
+            "max_new_tokens": max_tokens,
+            "temperature": temperature,
+            "top_p": top_p,
+            "do_sample": True,
+            "pad_token_id": tokenizer.pad_token_id,
+        }
+        outputs = model.generate(**gen_kwargs)
+        # Останавливаем таймаут
+        timeout_mgr.stop()
+        # Декодирование полного вывода
+        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # Извлекаем только часть после "Ассистент: "
+        response_start = generated_text.rfind("Ассистент: ") + len("Ассистент: ")
+        if response_start >= len("Ассистент: "):  # Проверяем, что "Ассистент: " найден
+            response = generated_text[response_start:].strip()
+        else:
+            # Если не найдено, возвращаем весь текст
+            response = generated_text.strip()
         end_time = time.time()
         generation_time = end_time - start_time
     except Exception as e:
         logger.error(f"Ошибка при генерации ответа: {str(e)}")
         return f"Произошла ошибка при генерации ответа: {str(e)}"
+    finally:
+        # Гарантируем остановку таймера
+        if 'timeout_mgr' in locals():
+            timeout_mgr.stop()
 # Настройка интерфейса Gradio
 with gr.Blocks(theme=gr.themes.Soft()) as demo: