Spaces:

islam23
/

llama3-8b-RAG_News_Finance

Sleeping

App Files Files Community

islam23 commited on Jun 6

Commit

e5bacb6

•

1 Parent(s): 79abb0d

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -11

app.py CHANGED Viewed

@@ -15,8 +15,10 @@ from gradio.themes.utils import (
 #  ================================================================================================================================
 TOKEN = os.getenv("HF_TOKEN")
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta" , token=TOKEN)
 system_message ="You are a capable and freindly assistant."
 no_change_btn = gr.Button()
 enable_btn = gr.Button(interactive=True)
@@ -125,18 +127,31 @@ def chat(
     messages.append({"role": "user", "content": run_rag(message)})
     response = "This is a response to the question"
     chatbot.append((question,""))
-    for msg in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
         temperature=temperature,
         top_p=top_p,
     ):
-        token = msg.choices[0].delta.content
-        response += str(token)
-        # chatbot.append(( response, response))
-        # yield "" , chatbot
     chatbot.clear()
     chatbot.append((question , response))
     state.save_response(response)
@@ -230,7 +245,7 @@ with gr.Blocks(title="RAG", theme=theme, css=block_css , fill_height=True) as de
             with gr.Accordion("Parameters", open=False) as parameter_row:
                     temperature = gr.Slider(minimum=0.1, maximum=1.0, value=0.2, step=0.1, interactive=True, label="Temperature",)
                     top_p = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.1, interactive=True, label="Top P",)
-                    max_output_tokens = gr.Slider(minimum=0, maximum=4096, value=1024, step=64, interactive=True, label="Max output tokens",)
 #  ================================================================================================================================

 #  ================================================================================================================================
 TOKEN = os.getenv("HF_TOKEN")
+# client = InferenceClient("HuggingFaceH4/zephyr-7b-beta" , token=TOKEN)
 system_message ="You are a capable and freindly assistant."
+Endpoint_URL = "https://gx986bv0z1k42aqe.us-east-1.aws.endpoints.huggingface.cloud/"
+client = InferenceClient(Endpoint_URL, token=TOKEN)
 no_change_btn = gr.Button()
 enable_btn = gr.Button(interactive=True)
     messages.append({"role": "user", "content": run_rag(message)})
     response = "This is a response to the question"
     chatbot.append((question,""))
+    # for msg in client.chat_completion(
+    #     messages,
+    #     max_tokens=max_tokens,
+    #     stream=True,
+    #     temperature=temperature,
+    #     top_p=top_p,
+    # ):
+    #     token = msg.choices[0].delta.content
+    #     response += str(token)
+    #     # chatbot.append(( response, response))
+    #     # yield "" , chatbot
+    for msg in client.text_generation(
+        prompt=run_rag(message),
         temperature=temperature,
+        max_new_tokens=max_tokens,
         top_p=top_p,
+        stream=False,
     ):
+        # token = msg.choices[0].delta.content
+        response += str(msg)
+        chatbot.append(( response, response))
     chatbot.clear()
     chatbot.append((question , response))
     state.save_response(response)
             with gr.Accordion("Parameters", open=False) as parameter_row:
                     temperature = gr.Slider(minimum=0.1, maximum=1.0, value=0.2, step=0.1, interactive=True, label="Temperature",)
                     top_p = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.1, interactive=True, label="Top P",)
+                    max_output_tokens = gr.Slider(minimum=0, maximum=4096, value=480, step=64, interactive=True, label="Max output tokens",)
 #  ================================================================================================================================