Spaces:

DHEIVER
/

chat-Llama-3.3-70B

Runtime error

App Files Files Community

DHEIVER commited on Dec 7, 2024

Commit

6bd3626

verified ·

1 Parent(s): b36585f

Update app.py

Browse files

Files changed (1) hide show

app.py +93 -108

app.py CHANGED Viewed

@@ -1,120 +1,105 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-import os
 from typing import List, Tuple
-import time
-# Configuração do cliente
-HF_TOKEN = os.getenv("HF_TOKEN")  # Token deve ser configurado como variável de ambiente
-MODEL_ID = "models/meta-llama/Meta-Llama-3.1-405B-FP8"
-try:
-    client = InferenceClient(
-        MODEL_ID,
-        token=HF_TOKEN
-    )
-except Exception as e:
-    print(f"Erro ao inicializar o cliente: {str(e)}")
-def respond(
-    mensagem: str,
-    historico: List[Tuple[str, str]],
-    mensagem_sistema: str,
-    max_tokens: int,
-    temperatura: float,
-    top_p: float,
-) -> str:
-    """
-    Processa a mensagem do usuário e gera uma resposta.
-    """
-    try:
-        # Formata as mensagens no formato correto
-        messages = [{"role": "system", "content": mensagem_sistema}]
-        for usuario, assistente in historico:
-            if usuario:
-                messages.append({"role": "user", "content": usuario})
-            if assistente:
-                messages.append({"role": "assistant", "content": assistente})
-        messages.append({"role": "user", "content": mensagem})
-        response = ""
-        # Stream da resposta
-        for chunk in client.chat_completion(
-            messages,
-            max_tokens=max_tokens,
-            stream=True,
-            temperature=temperatura,
-            top_p=top_p,
-        ):
-            if hasattr(chunk.choices[0].delta, 'content'):
-                token = chunk.choices[0].delta.content
-                if token:
-                    response += token
-                    yield response
-    except Exception as e:
-        yield f"Desculpe, ocorreu um erro: {str(e)}\nPor favor, verifique sua conexão e configurações."
-# Configuração da interface
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("""
-    # 🤖 Chat com Llama em Português
-    Este é um chatbot baseado no modelo Llama. Para usar:
-    1. Configure seu token HF como variável de ambiente
-    2. Ajuste os parâmetros conforme necessário
-    3. Digite sua mensagem e pressione Enter
-    """)
-    chatbot = gr.ChatInterface(
-        respond,
-        additional_inputs=[
-            gr.Textbox(
-                value="Você é um assistente amigável e prestativo que responde em português.",
-                label="Mensagem do Sistema"
-            ),
-            gr.Slider(
-                minimum=1,
-                maximum=2048,
-                value=512,
-                step=1,
-                label="Máximo de Tokens"
-            ),
-            gr.Slider(
-                minimum=0.1,
-                maximum=4.0,
-                value=0.7,
-                step=0.1,
-                label="Temperatura"
-            ),
-            gr.Slider(
-                minimum=0.1,
-                maximum=1.0,
-                value=0.95,
-                step=0.05,
-                label="Top-p (Amostragem Nucleus)"
-            ),
-        ],
-        title="Chat com Llama",
-        description="Um chatbot interativo usando o modelo Llama.",
-        examples=[
-            ["Olá! Como você está?"],
-            ["Pode me explicar o que é inteligência artificial?"],
-            ["Qual é a capital do Brasil?"]
-        ]
-    )
-    gr.Markdown("""
-    ### ℹ️ Informações
-    - Modelo: Llama
-    - Idioma: Português
-    - Stream: Ativado
-    Para melhor desempenho, ajuste os parâmetros de acordo com suas necessidades.
-    """)
 if __name__ == "__main__":
     demo.launch(share=False)

 import gradio as gr
 from typing import List, Tuple
+import os
+from gradio_client import Client
+def create_chat_app():
+    def respond(
+        message: str,
+        history: List[Tuple[str, str]],
+        system_message: str,
+        max_tokens: int,
+        temperature: float,
+        top_p: float,
+    ) -> str:
+        """
+        Process user message and generate a response using the Llama model.
+        """
+        try:
+            # Initialize client for the specific space
+            client = Client("1ofteamos/meta-llama-Llama-3.2-1B-Instruct")
+            # Format the conversation history and current message
+            formatted_message = f"{system_message}\n\nConversation history:\n"
+            for user, assistant in history:
+                if user:
+                    formatted_message += f"User: {user}\n"
+                if assistant:
+                    formatted_message += f"Assistant: {assistant}\n"
+            formatted_message += f"User: {message}"
+            # Get response from the model
+            response = client.predict(
+                message=formatted_message,
+                api_name="/chat"
+            )
+            return response
+        except Exception as e:
+            return f"Desculpe, ocorreu um erro: {str(e)}\nPor favor, verifique sua conexão e configurações."
+    # Interface configuration
+    with gr.Blocks(theme=gr.themes.Soft()) as demo:
+        gr.Markdown("""
+        # 🤖 Chat com Llama em Português
+        Este é um chatbot baseado no modelo Llama. Para usar:
+        1. Digite sua mensagem no campo abaixo
+        2. Ajuste os parâmetros conforme necessário
+        3. Pressione Enter para enviar
+        """)
+        chatbot = gr.ChatInterface(
+            respond,
+            additional_inputs=[
+                gr.Textbox(
+                    value="Você é um assistente amigável e prestativo que responde em português.",
+                    label="Mensagem do Sistema"
+                ),
+                gr.Slider(
+                    minimum=1,
+                    maximum=2048,
+                    value=512,
+                    step=1,
+                    label="Máximo de Tokens"
+                ),
+                gr.Slider(
+                    minimum=0.1,
+                    maximum=4.0,
+                    value=0.7,
+                    step=0.1,
+                    label="Temperatura"
+                ),
+                gr.Slider(
+                    minimum=0.1,
+                    maximum=1.0,
+                    value=0.95,
+                    step=0.05,
+                    label="Top-p (Amostragem Nucleus)"
+                ),
+            ],
+            title="Chat com Llama",
+            description="Um chatbot interativo usando o modelo Llama.",
+            examples=[
+                ["Olá! Como você está?"],
+                ["Pode me explicar o que é inteligência artificial?"],
+                ["Qual é a capital do Brasil?"]
+            ]
+        )
+        gr.Markdown("""
+        ### ℹ️ Informações
+        - Modelo: Llama 3.2 1B Instruct
+        - Idioma: Português
+        - Hospedagem: Hugging Face Spaces
+        Para melhor desempenho, ajuste os parâmetros de acordo com suas necessidades.
+        """)
+    return demo
 if __name__ == "__main__":
+    demo = create_chat_app()
     demo.launch(share=False)