core_leaderboard

Running

App Files Files Community

benediktstroebl commited on Aug 17, 2024

Commit

cb163b3

1 Parent(s): f9c6a2b

Added default to only restructure and not run llm task monitor inference calls

Browse files

Files changed (1) hide show

agent_monitor/monitor.py +39 -13

agent_monitor/monitor.py CHANGED Viewed

@@ -64,7 +64,7 @@ class AsyncOpenAIClient(AsyncLLMClient):
         return response.choices[0].message.content
-async def analyze_agent_steps(processed_calls, llm_client):
     task_calls = defaultdict(list)
     for call in processed_calls:
         task_calls[call['weave_task_id']].append(call)
@@ -72,30 +72,56 @@ async def analyze_agent_steps(processed_calls, llm_client):
     for task_id in task_calls:
         task_calls[task_id].sort(key=lambda x: x['created_timestamp'])
-    tasks = [analyze_task(calls, llm_client) for task_id, calls in task_calls.items()]
     task_analyses = await asyncio.gather(*tasks)
     return dict(zip(task_calls.keys(), task_analyses))
-async def analyze_task(calls, llm_client):
-    step_tasks = [analyze_step(call, i+1, len(calls), llm_client) for i, call in enumerate(calls)]
-    steps = await asyncio.gather(*step_tasks)
     try:
-        task_analysis = await summarize_task(steps, llm_client)
-        return {
             'steps': steps,
             'task_analysis': task_analysis
-        }
     except Exception as e:
         print(f"Error in task summarization: {str(e)}")
-        return TaskSummary(
             overview="Not available",
             key_successes='Not available',
             main_challenges='Not available',
             overall_assessment="Not available"
-        )
 async def analyze_step(call, step_number, total_steps, llm_client):
     prompt = f"""
@@ -128,12 +154,12 @@ async def analyze_step(call, step_number, total_steps, llm_client):
     except json.JSONDecodeError:
         print(f"Error parsing analysis for step {step_number} of {total_steps} in task {call['weave_task_id']}. Using default values.")
         analysis = print(f"Error in analysis for step {step_number} of {total_steps} in task {call['weave_task_id']}: {str(e)}")
-        analysis = StepAnalysis(
             description="Analysis failed",
             category='other',
             success=False,
             assessment="Unable to assess due to error"
-        )
     return {
         'call_data': call,

         return response.choices[0].message.content
+async def analyze_agent_steps(processed_calls, llm_client, llm_eval=False):
     task_calls = defaultdict(list)
     for call in processed_calls:
         task_calls[call['weave_task_id']].append(call)
     for task_id in task_calls:
         task_calls[task_id].sort(key=lambda x: x['created_timestamp'])
+    tasks = [analyze_task(calls, llm_client, llm_eval) for task_id, calls in task_calls.items()]
     task_analyses = await asyncio.gather(*tasks)
     return dict(zip(task_calls.keys(), task_analyses))
+async def analyze_task(calls, llm_client, llm_eval=False):
+    if llm_eval:
+        step_tasks = [analyze_step(call, i+1, len(calls), llm_client) for i, call in enumerate(calls)]
+        steps = await asyncio.gather(*step_tasks)
+    else:
+        steps = []
+        for i, call in enumerate(calls):
+            steps.append({
+                'call_data': call,
+                'analysis': dict(StepAnalysis(
+                    description="Not available",
+                    action_type='other',
+                    success=False,
+                    assessment="Not available",
+                    headline="Not available"
+                ))
+            })
     try:
+        if llm_eval:
+            task_analysis = await summarize_task(steps, llm_client)
+            return {
             'steps': steps,
             'task_analysis': task_analysis
+            }
+        else:
+            return {
+                'steps': steps,
+                'task_analysis': dict(TaskSummary(
+                    overview="Not available",
+                    key_successes='Not available',
+                    main_challenges='Not available',
+                    overall_assessment="Not available"
+                ))
+            }
     except Exception as e:
         print(f"Error in task summarization: {str(e)}")
+        return dict(TaskSummary(
             overview="Not available",
             key_successes='Not available',
             main_challenges='Not available',
             overall_assessment="Not available"
+        ))
 async def analyze_step(call, step_number, total_steps, llm_client):
     prompt = f"""
     except json.JSONDecodeError:
         print(f"Error parsing analysis for step {step_number} of {total_steps} in task {call['weave_task_id']}. Using default values.")
         analysis = print(f"Error in analysis for step {step_number} of {total_steps} in task {call['weave_task_id']}: {str(e)}")
+        analysis = dict(StepAnalysis(
             description="Analysis failed",
             category='other',
             success=False,
             assessment="Unable to assess due to error"
+        ))
     return {
         'call_data': call,