Spaces:

sakaltcommunity
/

Qwen2.5

Runtime error

App Files Files Community

Sakalti commited on Oct 11, 2024

Commit

5a64991

verified ·

1 Parent(s): 8edf56a

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -17

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from huggingface_hub import InferenceClient
 import time
 client = InferenceClient("Qwen/Qwen2.5-3b-Instruct")
@@ -10,11 +11,11 @@ def respond(
     system_message,
     max_tokens,
     temperature,
-    top_p,
-    progress=gr.Progress()  # 進捗表示用
 ):
     messages = [{"role": "system", "content": system_message}]
     for val in history:
         if val[0]:
             messages.append({"role": "user", "content": val[0]})
@@ -23,22 +24,39 @@ def respond(
     messages.append({"role": "user", "content": message})
-    # AI応答時間計測開始
-    start_time = time.time()
-    response = client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-    )
-    elapsed_time = time.time() - start_time  # AI応答時間計測終了
-    # ユーザーに進捗を表示
-    progress(0, f"応答中... {elapsed_time:.2f}秒")  # 初期応答時間表示
-    time.sleep(0.5)  # 応答中に少し待機
-    total_response_time = elapsed_time + 0.5  # 総応答時間を計算
-    return response.choices[0].message.content, f"予測時間: {elapsed_time:.2f}秒 / 総応答時間: {total_response_time:.2f}秒"
 demo = gr.ChatInterface(
     respond,

 import gradio as gr
 from huggingface_hub import InferenceClient
 import time
+import threading
 client = InferenceClient("Qwen/Qwen2.5-3b-Instruct")
     system_message,
     max_tokens,
     temperature,
+    top_p
 ):
     messages = [{"role": "system", "content": system_message}]
+    # メッセージ履歴を追加
     for val in history:
         if val[0]:
             messages.append({"role": "user", "content": val[0]})
     messages.append({"role": "user", "content": message})
+    # 応答生成の別スレッド処理
+    def ai_response():
+        nonlocal response_content
+        start_time = time.time()
+        response = client.chat_completion(
+            messages,
+            max_tokens=max_tokens,
+            temperature=temperature,
+            top_p=top_p,
+        )
+        elapsed_time = time.time() - start_time  # 応答時間計測
+        response_content = response.choices[0].message.content
+        response_time = f"応答にかかった時間: {elapsed_time:.2f}秒"
+        return response_content, response_time
+    # 応答時間を表示するためのスレッド
+    response_content = "応答生成中です..."
+    thread = threading.Thread(target=ai_response)
+    thread.start()
+    # 応答を返すまでの間、経過時間を更新
+    elapsed_time_display = ""
+    elapsed_time = 0
+    while thread.is_alive():
+        elapsed_time += 1
+        elapsed_time_display = f"{elapsed_time}秒経過..."
+        time.sleep(1)
+        if not thread.is_alive():
+            break
+    thread.join()  # スレッド終了を待機
+    return response_content, elapsed_time_display
 demo = gr.ChatInterface(
     respond,