core_leaderboard

Running

benediktstroebl commited on Aug 17, 2024

Commit

19bb306

1 Parent(s): 3427022

added timestamp to task summary prompt for failure report and fixed failure report gradio issue

Files changed (2) hide show

agent_monitor/failure_report.py CHANGED Viewed

@@ -6,6 +6,7 @@ from pydantic import BaseModel
 from abc import ABC, abstractmethod
 import json
 from typing import Dict, List
 class FailureCategory(BaseModel):
     category_id: int
@@ -105,6 +106,7 @@ async def summarize_task(task_id, calls, llm_client):
         Step {i}:
         Input: {call['inputs']}
         Output: {call['outputs']}
         """
     prompt = f"""

 from abc import ABC, abstractmethod
 import json
 from typing import Dict, List
+from datetime import datetime
 class FailureCategory(BaseModel):
     category_id: int
         Step {i}:
         Input: {call['inputs']}
         Output: {call['outputs']}
+        Timestamp: {datetime.fromtimestamp(call_data['created_timestamp'])}
         """
     prompt = f"""

app.py CHANGED Viewed

@@ -216,8 +216,8 @@ def format_call_info(step, step_index):
     return formatted_info
-def update_failure_report(agent_name):
-    failure_report = get_failure_report(agent_name, "swebench_lite")
     if not failure_report:
         return "No failure report available for this agent.", None
@@ -382,7 +382,7 @@ with gr.Blocks() as demo:
             # Update failure report when agent is selected
             failure_report_agent_dropdown.change(update_failure_report,
-                                                inputs=[failure_report_agent_dropdown],
                                                 outputs=[failure_categories_overview, failure_categories_chart])
             gr.Markdown("# Raw Predictions")
@@ -480,7 +480,7 @@ with gr.Blocks() as demo:
             # Update failure report when agent is selected
             failure_report_agent_dropdown.change(update_failure_report,
-                                                inputs=[failure_report_agent_dropdown],
                                                 outputs=[failure_categories_overview, failure_categories_chart])
             gr.Markdown("# Raw Predictions")
@@ -553,7 +553,7 @@ async def main():
     preprocess_traces()
     # # Download the results from the Hugging Face Hub
-    # await asyncio.to_thread(download_latest_results)
     # Check for new uploads and process them
     await check_and_process_uploads()

     return formatted_info
+def update_failure_report(agent_name, benchmark_name):
+    failure_report = get_failure_report(agent_name, benchmark_name)
     if not failure_report:
         return "No failure report available for this agent.", None
             # Update failure report when agent is selected
             failure_report_agent_dropdown.change(update_failure_report,
+                                                inputs=[failure_report_agent_dropdown, gr.Textbox(value="swebench_lite", visible=False)],
                                                 outputs=[failure_categories_overview, failure_categories_chart])
             gr.Markdown("# Raw Predictions")
             # Update failure report when agent is selected
             failure_report_agent_dropdown.change(update_failure_report,
+                                                inputs=[failure_report_agent_dropdown, gr.Textbox(value="swebench_verified", visible=False)],
                                                 outputs=[failure_categories_overview, failure_categories_chart])
             gr.Markdown("# Raw Predictions")
     preprocess_traces()
     # # Download the results from the Hugging Face Hub
+    await asyncio.to_thread(download_latest_results)
     # Check for new uploads and process them
     await check_and_process_uploads()