From 11071e9a17f21b47d5bc0397f916cc74d006e600 Mon Sep 17 00:00:00 2001
From: recursix <alex.lacoste.shmu@gmail.com>
Date: Mon, 27 Jan 2025 21:46:20 -0500
Subject: [PATCH 01/71] initial commit

---
 src/agentlab/benchmarks/abstract_env.py | 59 ++++++++++++++++++
 src/agentlab/benchmarks/tau_bench.py    | 82 +++++++++++++++++++++++++
 2 files changed, 141 insertions(+)
 create mode 100644 src/agentlab/benchmarks/abstract_env.py
 create mode 100644 src/agentlab/benchmarks/tau_bench.py

diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
new file mode 100644
index 00000000..0529a128
--- /dev/null
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -0,0 +1,59 @@
+import gym
+from abc import ABC, abstractmethod
+
+
+class AbstractEnvArgs(ABC):
+    """Easily serialiazable class to store the arguments of an environment"""
+
+    @abstractmethod
+    def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
+        """Create an instance of the environment with the arguments stored in this object.
+
+        Args:
+            action_mapping (dict[str,str]): mapping from the agent's action space to the environment's action space
+                see AbstractActionSet.to_python_code from BrowserGym for an example
+            exp_dir (str): directory where the experiment is stored
+            exp_task_kwargs (dict[str,Any]): additional arguments for the environment
+
+        Returns:
+            env (AbstractEnv): instance of the environment.
+        """
+
+
+class AbstractEnv(gym.Env, ABC):
+
+    @abstractmethod
+    def reset(self, seed: int = None) -> tuple[dict[str, any], dict[str, any]]:
+        """Reset the environment to the initial state, ready for an agent to start a new episode.
+
+        Args:
+            seed (int): seed to be used for the environment's random number generator. Some task may
+                be deterministic and not require a seed.
+
+        Returns:
+            obs (dict[str,Any]): dictionary containing the observations
+            env_info (dict[str,Any]): additional information about the environment (see step's docstring)
+        """
+
+    @abstractmethod
+    def step(self, action: str):
+        """Exection action in the environment and return the next observations
+
+        Args:
+            action (str): action to be executed in the environment, as a string
+
+        Returns:
+            obs (dict[str,Any]): dictionary containing the observations
+            reward (float): reward obtained after executing the action
+            terminated (bool): whether the episode is terminated. The MDP reached a terminal state
+            truncated (bool): whether the episode is truncated. The episode was truncated due to external reasons
+            env_info (dict[str,Any]): additional information about the environment
+                task_info (str): Some potential debugging information about the task, not intended for the agent
+                action_exec_start (float): time when the action execution started
+                action_exec_stop (float): time when the action execution ended
+                action_exec_timeout (float): TODO I don't remember exactly what this is
+        """
+
+    @abstractmethod
+    def close(self):
+        """Close any resources used by the environment"""
diff --git a/src/agentlab/benchmarks/tau_bench.py b/src/agentlab/benchmarks/tau_bench.py
new file mode 100644
index 00000000..41ad55f1
--- /dev/null
+++ b/src/agentlab/benchmarks/tau_bench.py
@@ -0,0 +1,82 @@
+from dataclasses import dataclass
+from agentlab.benchmarks.abstract_env import AbstractEnv, AbstractEnvArgs
+import bgym
+
+
+@dataclass
+class TauBenchEnvArgs(AbstractEnvArgs):
+    """All arguments parameterizing a task in tau-bench"""
+
+    task_name: str
+    task_seed: int  # is there any seeds or tasks are deterministic?
+
+    def __init__(self):
+        super().__init__()
+
+    def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
+        # TODO look at how bgym does it. You need to register tasks and do gym.make(task_name)
+        pass
+
+
+class TauBenchEnv(AbstractEnv):
+    def __init__(self):
+        super().__init__()
+
+    def reset(self, seed=None):
+        pass
+
+    def step(self, action: str):
+        pass
+
+    def close(self):
+        pass
+
+
+@dataclass
+class TauBenchActionSetArgs:
+    """Holds hyperparameters for the TauBenchActionSet"""
+
+    def make_action_set(self):
+        return TauBenchActionSet()
+
+
+class TauBenchActionSet(bgym.AbstractActionSet):
+    # TODO: Get inspiration from bgym's HighLevelActionSet, perhaps reusing code there, TBD
+
+    def describe(self, with_long_description: bool = True, with_examples: bool = True) -> str:
+        # TODO: Implement this method
+        pass
+
+    def example_action(self, abstract: bool) -> str:
+        # TODO: Implement this method
+
+        pass
+
+    def to_python_code(self, action) -> str:
+        # TODO: Implement this method
+
+        pass
+
+
+def _make_env_args_list():
+    # TODO generate all evn_args for the benchmark, get inspiration from bgym's task_list_from_metadata and make_env_args_list_from_repeat_tasks
+    return [TauBenchEnvArgs()]
+
+
+def _task_metadata():
+    # load a dataframe containing configuration for all tasks
+    pass
+
+
+def make_tau_benchmark():
+    return bgym.Benchmark(
+        name="tau-bench",
+        high_level_action_set_args=TauBenchActionSet(),
+        is_multi_tab=False,
+        supports_parallel_seeds=True,
+        backends=[
+            "taubench"
+        ],  # TODO this is not an implemented backend yet and bgym's make_backed implementation with match case needs to be revised
+        env_args_list=_make_env_args_list(),  # TODO adapt
+        task_metadata=_task_metadata(),  # TODO adapt
+    )

From 90150abed5b5c84a00c496d74946e70fba62d9ce Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 7 Feb 2025 13:51:52 +0100
Subject: [PATCH 02/71] multitool environment draft

---
 src/agentlab/benchmarks/abstract_env.py  |  8 ++-
 src/agentlab/benchmarks/multitool_gym.py | 76 ++++++++++++++++++++++++
 2 files changed, 82 insertions(+), 2 deletions(-)
 create mode 100644 src/agentlab/benchmarks/multitool_gym.py

diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index 0529a128..b8ad88d9 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -1,6 +1,7 @@
-import gym
 from abc import ABC, abstractmethod
 
+import gym
+
 
 class AbstractEnvArgs(ABC):
     """Easily serialiazable class to store the arguments of an environment"""
@@ -21,7 +22,6 @@ def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
 
 
 class AbstractEnv(gym.Env, ABC):
-
     @abstractmethod
     def reset(self, seed: int = None) -> tuple[dict[str, any], dict[str, any]]:
         """Reset the environment to the initial state, ready for an agent to start a new episode.
@@ -57,3 +57,7 @@ def step(self, action: str):
     @abstractmethod
     def close(self):
         """Close any resources used by the environment"""
+
+    @abstractmethod
+    def calculate_reward(self) -> float:
+        """Calculate the reward obtained in the last step"""
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
new file mode 100644
index 00000000..16c45f35
--- /dev/null
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -0,0 +1,76 @@
+from typing import Any, Literal, Union
+
+from pydantic import Annotated, Field, TypeAdapter
+from tapeagents.core import Action, Observation, Tape
+from tapeagents.environment import ToolCollectionEnvironment
+from tapeagents.tools.base import Multitool, Tool
+
+from agentlab.benchmarks.abstract_env import AbstractEnv
+
+EnvTape = Tape[None, Action | Observation]
+
+
+class FunctionCall(Action):
+    kind: Literal["function_call_action"] = ["function_call_action"]
+    function_name: str
+    args: list[Any] | None
+    kwargs: dict[str, Any] | None
+
+
+class FunctionCallResult(Observation):
+    kind: Literal["function_call_result"] = ["function_call_result"]
+    result: Any
+
+
+class SimpleFunctionCallTool(Tool):
+    action = FunctionCall
+    observation = FunctionCallResult
+    function: callable
+    function_name: str = ""
+
+    def model_post_init(self, __context):
+        function_name = getattr(self.function, "__name__", "")
+        if not function_name and not self.function_name:
+            raise ValueError("Function has no name, function_name must be provided")
+
+    def execute_action(self, action: FunctionCall) -> FunctionCallResult:
+        if not self.function_name == action.function_name:
+            raise ValueError(
+                f"Unexpected function action {action.function_name}, expected {self.function_name}"
+            )
+        result = self.function(*action.args, **action.kwargs)
+        return FunctionCallResult(result=result)
+
+
+class MultiToolGym(AbstractEnv):
+    def __init__(self, tools: list[Tool | Multitool]):
+        self._env = ToolCollectionEnvironment(tools)
+        self._actions = self._env.actions()
+        self._actions_parser: TypeAdapter = TypeAdapter(
+            Annotated[Union[self._actions], Field(discriminator="kind")]
+        )
+        self.reset()
+
+    def reset(self, seed=None):
+        self._tape: EnvTape = EnvTape(steps=[])
+
+    def step(self, action: str):
+        try:
+            action_step = self._actions_parser.validate_json(action)
+        except Exception:
+            raise ValueError("Action must be a valid JSON dict")
+        assert isinstance(action_step, Action), "{action_step.kind} is not an Action"
+        self._tape += [action_step]
+        self._tape = self._env.react(self._tape)
+        observation_step: Observation = self._tape.steps[-1]
+        reward = self.calculate_reward()
+        terminated = False
+        truncated = False
+        env_info = {"step_metadata": observation_step.metadata}
+        return observation_step.llm_dict(), reward, terminated, truncated, env_info
+
+    def calculate_reward(self) -> float:
+        return 0.0
+
+    def close(self):
+        self._env.close()

From 8d4dc18a9c5c84281f1d1413253fb6c8eb1e694a Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 7 Feb 2025 14:10:17 +0100
Subject: [PATCH 03/71] tapeagents and pydantic deps

---
 requirements.txt                                           | 2 ++
 src/agentlab/agents/generic_agent/reproducibility_agent.py | 2 +-
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/requirements.txt b/requirements.txt
index c598b342..7130d340 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -5,6 +5,7 @@ pytest==7.3.2
 flaky
 pytest-xdist
 pytest-playwright
+pydantic~=2.9
 dask
 distributed
 browsergym>=0.7.1
@@ -12,6 +13,7 @@ joblib>=1.2.0
 openai>=1.7,<2
 langchain_community
 tiktoken
+tapeagents[converters]~=0.1.4
 huggingface_hub
 contexttimer
 ipython
diff --git a/src/agentlab/agents/generic_agent/reproducibility_agent.py b/src/agentlab/agents/generic_agent/reproducibility_agent.py
index 19cbc5c6..d9fa4c29 100644
--- a/src/agentlab/agents/generic_agent/reproducibility_agent.py
+++ b/src/agentlab/agents/generic_agent/reproducibility_agent.py
@@ -5,7 +5,7 @@
 This module contains the classes and functions to reproduce the results of a
 study. It is used to create a new study that will run the same experiments as
 the original study, but with a reproducibility agent that will mimic the same
-answers as the original agent. 
+answers as the original agent.
 
 Stats are collected to compare the original agent's answers with the new agent's
 answers. Load the this reproducibility study in agent-xray to compare the results.

From 0791f2dd17f8ccf094a21126fc61fe7fd4ee37be Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 11:59:10 +0100
Subject: [PATCH 04/71] add GAIA gym

---
 requirements.txt                         |  2 +-
 src/agentlab/benchmarks/abstract_env.py  |  3 +-
 src/agentlab/benchmarks/gaia.py          | 51 ++++++++++++++++++++++++
 src/agentlab/benchmarks/multitool_gym.py |  3 +-
 4 files changed, 56 insertions(+), 3 deletions(-)
 create mode 100644 src/agentlab/benchmarks/gaia.py

diff --git a/requirements.txt b/requirements.txt
index 7130d340..f8e4159e 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -13,7 +13,7 @@ joblib>=1.2.0
 openai>=1.7,<2
 langchain_community
 tiktoken
-tapeagents[converters]~=0.1.4
+tapeagents[converters]
 huggingface_hub
 contexttimer
 ipython
diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index b8ad88d9..92602148 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -1,9 +1,10 @@
 from abc import ABC, abstractmethod
 
 import gym
+from pydantic import BaseModel
 
 
-class AbstractEnvArgs(ABC):
+class AbstractEnvArgs(BaseModel):
     """Easily serialiazable class to store the arguments of an environment"""
 
     @abstractmethod
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
new file mode 100644
index 00000000..2fa8cef0
--- /dev/null
+++ b/src/agentlab/benchmarks/gaia.py
@@ -0,0 +1,51 @@
+import os
+from typing import Literal
+
+import datasets
+from tapeagents.environment import ContainerExecutor
+from tapeagents.tools.browser import Browser
+from tapeagents.tools.code_executor import CodeExecutor
+from tapeagents.tools.container_executor import init_code_sandbox
+from tapeagents.tools.media_reader import VideoReader
+from tapeagents.tools.web_search import WebSearch
+
+from agentlab.benchmarks.abstract_env import AbstractEnvArgs
+from agentlab.benchmarks.multitool_gym import MultiToolGym
+
+
+class GaiaGym(MultiToolGym):
+    task: dict
+    exp_dir: str
+
+
+class GaiaGymArgs(AbstractEnvArgs):
+    task_id: str
+    split: Literal["test", "validation"]
+    exp_dir: str
+    viewport_chars: int = 64000
+
+    def make_env(self) -> GaiaGym:
+        init_code_sandbox(self.exp_dir)
+        dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")
+        tasks_by_id = {task["task_id"]: task for task in dataset[self.split]}
+        task = tasks_by_id[self.task_id]
+        tools = [
+            WebSearch(),
+            VideoReader(self.exp_dir),
+            Browser(self.exp_dir, viewport_chars=self.viewport_chars),
+            CodeExecutor(self.exp_dir),
+        ]
+        env = GaiaGym(tools=tools, task=task, exp_dir=self.exp_dir)
+        return env
+
+    def init_code_sandbox(self) -> None:
+        code_path = os.path.join(self.exp_dir, "code")
+        os.makedirs(code_path, exist_ok=True)
+        container_name = self.exp_dir.replace("/", "-")
+        ContainerExecutor(
+            work_dir=code_path,
+            container_name=container_name,
+            restart_if_exists=False,
+            stop_container=False,
+            no_deps=True,
+        )
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 16c45f35..266d4b37 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -51,8 +51,9 @@ def __init__(self, tools: list[Tool | Multitool]):
         )
         self.reset()
 
-    def reset(self, seed=None):
+    def reset(self):
         self._tape: EnvTape = EnvTape(steps=[])
+        self._env.reset()
 
     def step(self, action: str):
         try:

From 7e629bd246bafbdf4627cb5450ce46896bf6286a Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 12:18:29 +0100
Subject: [PATCH 05/71] universal tape agent that can load any agent from
 config

---
 src/agentlab/agents/tapeagent/tapeagent.py | 155 ++++-----------------
 src/agentlab/benchmarks/gaia.py            |   3 +-
 2 files changed, 27 insertions(+), 131 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/tapeagent.py b/src/agentlab/agents/tapeagent/tapeagent.py
index e40672b5..d1c89b9d 100644
--- a/src/agentlab/agents/tapeagent/tapeagent.py
+++ b/src/agentlab/agents/tapeagent/tapeagent.py
@@ -1,46 +1,13 @@
 import logging
 from dataclasses import dataclass
-from pathlib import Path
 from typing import Any
 
 import bgym
+import hydra
+from tapeagents.agent import Agent
+from tapeagents.core import Action, Observation, Tape, Thought
 
 from agentlab.agents.agent_args import AgentArgs
-from agentlab.llm.chat_api import BaseModelArgs
-from agentlab.llm.tracking import cost_tracker_decorator
-
-##############################
-#  TODO: replace this hacky imports after releasing tapeagents and tapeagents[examples] to pypi
-try:
-    from tapeagents.llms import LiteLLM
-    from tapeagents.tools.gym_browser import flatten_axtree
-except ImportError as e:
-    print("Please run install_tapeagents.sh to install tapeagents first.")
-    raise e
-
-import sys
-
-sys.path.append(str(Path(__file__).parent.resolve() / "TapeAgents"))
-##############################
-
-from examples.workarena.agent import WorkArenaAgent
-from examples.workarena.steps import (
-    WorkArenaAction,
-    ClickAction,
-    GoBackAction,
-    GoForwardAction,
-    GotoPageAction,
-    HoverAction,
-    InputTextAction,
-    PageObservation,
-    PressAction,
-    SelectOptionAction,
-    ScrollAction,
-    WorkArenaTape,
-    WorkArenaTask,
-    StopStep,
-)
-
 
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.INFO)
@@ -48,105 +15,35 @@
 
 @dataclass
 class TapeAgentArgs(AgentArgs):
-    agent_name: str = "WorkarenaTapeAgent"
-    chat_model_args: BaseModelArgs = None
+    config_name: str
 
     def make_agent(self) -> bgym.Agent:
-        llm = LiteLLM(
-            model_name=self.chat_model_args.model_name,
-            use_cache=False,
-            context_size=self.chat_model_args.max_total_tokens,
-            parameters={"temperature": self.chat_model_args.temperature},
-        )
-        return WorkarenaTapeAgent(llm)
-
-    def set_reproducibility_mode(self):
-        self.chat_model_args.temperature = 0
+        with hydra.initialize(config_path="./conf"):
+            config = hydra.compose(config_name=self.config_name)
+        agent: Agent = hydra.utils.instantiate(config)
+        return TapeAgent(agent=agent, tape=Tape(steps=[]))
 
-    def prepare(self):
-        return self.chat_model_args.prepare_server()
 
-    def close(self):
-        return self.chat_model_args.close_server()
+class TapeAgent(bgym.Agent):
+    agent: Agent
+    tape: Tape
 
-
-class WorkarenaTapeAgent(bgym.Agent):
-    tape: WorkArenaTape
-
-    def __init__(self, llm: LiteLLM):
-        self.tapeagent = WorkArenaAgent.create(llm)
-        self.tape = WorkArenaTape()
-
-    def obs_preprocessor(self, obs: dict) -> dict:
-        axtree = obs.pop("axtree_object")
-        obs["axtree_txt"] = flatten_axtree(axtree)
+    def obs_preprocessor(self, obs: dict) -> Any:
+        logger.info(f"Preprocessing observation: {obs}")
         return obs
 
-    @cost_tracker_decorator
-    def get_action(self, obs: Any) -> tuple[str, bgym.AgentInfo]:
-        self.update_tape(obs)
-        # run agent and collect thoughts and last action
-        tape_segment = []
-        action = None
-        logger.info(f"Run tape with {len(self.tape)} steps")
-        for event in self.tapeagent.run(self.tape):
+    def get_action(self, obs: Observation) -> tuple[str, bgym.AgentInfo]:
+        self.tape = self.tape.append(obs)
+        thoughts = []
+        for event in self.agent.run(self.tape):
             if not event.step:
                 continue
-            step = event.step
-            tape_segment.append(step)
-            logger.info(f"Generated step: {step.llm_view()}")
-            if isinstance(step, WorkArenaAction):
-                action = self.step_to_action(step)
-        self.tape += tape_segment
-
-        logger.info(f"Action string: {action}")
-        return (
-            action,
-            bgym.AgentInfo(
-                extra_info={"tape_segment": [step.model_dump() for step in tape_segment]},
-                stats={},
-            ),
-        )
-
-    def update_tape(self, obs: dict):
-        """
-        Update tape with new observation
-        """
-        obs_step = PageObservation(text=obs["axtree_txt"], current_page=1, total_pages=1)
-        self.tape = self.tape.append(obs_step)
-        if len(self.tape) == 1:  # first observation
-            logger.info("First observation, adding goal to tape")
-            self.tape = self.tape.append(WorkArenaTask(task=obs["goal"]))
-
-    def step_to_action(self, action: WorkArenaAction) -> str | None:
-        """
-        Convert action step to an action string with function call
-        """
-        action_str = ""
-        if isinstance(action, GotoPageAction):
-            action_str = f"goto('{action.url}')"
-        elif isinstance(action, ClickAction):
-            action_str = (
-                f"click('{action.bid}', button='{action.button}', modifiers={action.modifiers})"
-            )
-        elif isinstance(action, SelectOptionAction):
-            action_str = f"select_option('{action.bid}', '{action.option}')"
-        elif isinstance(action, HoverAction):
-            action_str = f"hover('{action.bid}')"
-        elif isinstance(action, InputTextAction):
-            text = action.text.replace("'", "\\'")
-            action_str = f"fill('{action.bid}', '{text}')"
-        elif isinstance(action, PressAction):
-            f"press('{action.bid}', '{action.key_comb}')"
-        elif isinstance(action, GoBackAction):
-            action_str = "go_back()"
-        elif isinstance(action, GoForwardAction):
-            action_str = "go_forward()"
-        elif isinstance(action, StopStep):
-            logger.info("Stopping the loop")
-            action_str = None
-        elif isinstance(action, ScrollAction):
-            action_str = "noop()"  # TODO: implement scroll action
-        else:
-            raise ValueError(f"Unknown action type: {action}")
-        return action_str
+            self.tape = self.tape.append(event.step)
+            if isinstance(event.step, Thought):
+                thoughts.append(event.step.llm_view())
+                logger.info(f"Thought: {event.step.llm_view()}")
+            elif isinstance(event.step, Action):
+                action = event.step.llm_view()
+                logger.info(f"Action: {action}")
+                break  # we stop at the first action
+        return (action, bgym.AgentInfo(think="\n".join(thoughts), stats={}))
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 2fa8cef0..006a2daf 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -5,7 +5,6 @@
 from tapeagents.environment import ContainerExecutor
 from tapeagents.tools.browser import Browser
 from tapeagents.tools.code_executor import CodeExecutor
-from tapeagents.tools.container_executor import init_code_sandbox
 from tapeagents.tools.media_reader import VideoReader
 from tapeagents.tools.web_search import WebSearch
 
@@ -25,7 +24,7 @@ class GaiaGymArgs(AbstractEnvArgs):
     viewport_chars: int = 64000
 
     def make_env(self) -> GaiaGym:
-        init_code_sandbox(self.exp_dir)
+        self.init_code_sandbox()
         dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")
         tasks_by_id = {task["task_id"]: task for task in dataset[self.split]}
         task = tasks_by_id[self.task_id]

From 27bcdc54e1806f2bda77a8ab4794249b51a4e519 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 12:25:38 +0100
Subject: [PATCH 06/71] make tapeagent a single module

---
 .../agents/{tapeagent => }/tapeagent.py       |  0
 src/agentlab/agents/tapeagent/.gitignore      |  2 --
 src/agentlab/agents/tapeagent/__init__.py     |  0
 .../agents/tapeagent/install_tapeagents.sh    | 10 ----------
 src/agentlab/agents/tapeagent/main.py         | 20 -------------------
 5 files changed, 32 deletions(-)
 rename src/agentlab/agents/{tapeagent => }/tapeagent.py (100%)
 delete mode 100644 src/agentlab/agents/tapeagent/.gitignore
 delete mode 100644 src/agentlab/agents/tapeagent/__init__.py
 delete mode 100755 src/agentlab/agents/tapeagent/install_tapeagents.sh
 delete mode 100644 src/agentlab/agents/tapeagent/main.py

diff --git a/src/agentlab/agents/tapeagent/tapeagent.py b/src/agentlab/agents/tapeagent.py
similarity index 100%
rename from src/agentlab/agents/tapeagent/tapeagent.py
rename to src/agentlab/agents/tapeagent.py
diff --git a/src/agentlab/agents/tapeagent/.gitignore b/src/agentlab/agents/tapeagent/.gitignore
deleted file mode 100644
index 7e78c9d4..00000000
--- a/src/agentlab/agents/tapeagent/.gitignore
+++ /dev/null
@@ -1,2 +0,0 @@
-TapeAgents/
-tapedata.sqlite
\ No newline at end of file
diff --git a/src/agentlab/agents/tapeagent/__init__.py b/src/agentlab/agents/tapeagent/__init__.py
deleted file mode 100644
index e69de29b..00000000
diff --git a/src/agentlab/agents/tapeagent/install_tapeagents.sh b/src/agentlab/agents/tapeagent/install_tapeagents.sh
deleted file mode 100755
index bed32789..00000000
--- a/src/agentlab/agents/tapeagent/install_tapeagents.sh
+++ /dev/null
@@ -1,10 +0,0 @@
-#!/bin/bash
-
-if [ ! -d "$(dirname "$0")/TapeAgents" ]; then
-    # Clone the repository to this directory
-    git clone https://github.com/ServiceNow/TapeAgents.git "$(dirname "$0")/TapeAgents"
-    # Install the package in editable mode
-    pip install -e "$(dirname "$0")/TapeAgents"
-else
-    echo "TapeAgents directory already exists. Skipping installation."
-fi
diff --git a/src/agentlab/agents/tapeagent/main.py b/src/agentlab/agents/tapeagent/main.py
deleted file mode 100644
index fca5ba0e..00000000
--- a/src/agentlab/agents/tapeagent/main.py
+++ /dev/null
@@ -1,20 +0,0 @@
-from agentlab.agents.tapeagent.tapeagent import TapeAgentArgs
-from agentlab.experiments import study_generators
-from agentlab.llm.llm_configs import CHAT_MODEL_ARGS_DICT
-
-
-def main(benchmark: str, n_jobs: int, reproducibility: bool):
-    agent_args = TapeAgentArgs(
-        chat_model_args=CHAT_MODEL_ARGS_DICT["openai/gpt-4o-mini-2024-07-18"]
-    )
-    if reproducibility:
-        agent_args.set_reproducibility_mode()
-    study = study_generators.run_agents_on_benchmark(agent_args, benchmark)
-    study.run(n_jobs=n_jobs, parallel_backend="joblib", strict_reproducibility=reproducibility)
-    study.append_to_journal(strict_reproducibility=reproducibility)
-
-
-if __name__ == "__main__":  # necessary for dask backend
-    n_jobs = 8  # 1 when debugging in VSCode, -1 to use all available cores
-    benchmark = "workarena.l1"
-    main(benchmark, n_jobs, reproducibility=True)

From 7691e4938b0f3815152bf3a77bd87fd72328473d Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 12:25:56 +0100
Subject: [PATCH 07/71] add gaia agent conf

---
 conf/gaia_agent.yaml | 69 ++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 69 insertions(+)
 create mode 100644 conf/gaia_agent.yaml

diff --git a/conf/gaia_agent.yaml b/conf/gaia_agent.yaml
new file mode 100644
index 00000000..b9268610
--- /dev/null
+++ b/conf/gaia_agent.yaml
@@ -0,0 +1,69 @@
+_target_: tapeagents.agent.Agent
+name : web_agent
+max_iterations: 2
+llms:
+  default: ${llm}
+templates:
+  system_prompt: |
+    You are an expert AI Agent trained to assist users with complex information processing tasks.
+    Your role is to understand user queries and respond in a helpful and accurate manner.
+    Keep your replies concise and direct. Prioritize clarity and avoid over-elaboration.
+    Do not express emotions or opinions about user questions.
+  allowed_tools: |
+    You have access to the following tools:
+    {tools_description}
+  thought_format: |
+    Important! Respond with the plain text, do not include any JSON or code.
+    Do not output anything besides what I asked in this message.
+  allowed_steps: |
+    You have access to the following tools:
+    {tools_description}
+    You are allowed to produce ONLY steps with the following JSON schemas:
+    {allowed_steps}
+    Do not reproduce the schema when producing steps; use it as a reference.
+  format: >
+    Output only a single JSON dict.
+    Do not repeat the last thought again.
+    If the last action does not change the observation, do not repeat it!
+    DO NOT OUTPUT ANYTHING BESIDES THE JSON! DO NOT PLACE ANY COMMENTS INSIDE THE JSON. 
+    It will break the system that processes the output.
+
+nodes:
+  - _target_: tapeagents.nodes.StandardNode
+    name: plan
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Write a concise multi-step plan explaining which steps should be performed to find the answer for the given task.
+      Remember that you can use web search, browser, python code execution and access the youtube videos to reach your goals.
+      Be specific about how each step should be performed. Only describe the intended actions here, do not perform them yet.
+      Consider that next steps may depend on results of previous steps, so include conditional branching using "if" statements where needed.
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
+
+  - _target_: tapeagents.nodes.StandardNode
+    name: facts_survey
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Before we begin executing the plan, please answer the following pre-survey.
+      Here is the pre-survey:
+          1. Please list any specific facts or figures that are GIVEN in the request itself. It is possible that there are none.
+          2. Please list any facts that may need to be looked up, and WHERE SPECIFICALLY they might be found. In some cases, authoritative sources are mentioned in the request itself.
+          3. Please list any facts that may need to be derived (e.g., via logical deduction, simulation, or computation)
+          4. Please list any facts that are recalled from memory, hunches, well-reasoned guesses, etc.
+      When answering this survey, keep in mind that "facts" will typically be specific names, dates, statistics, etc.
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
+
+  - _target_: tapeagents.nodes.StandardNode
+    name: act
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Produce single next step. If the answer is ready, produce gaia_answer_action.
+      ${agent.templates.format}
+    steps_prompt: ${agent.templates.allowed_steps}
+    steps:
+      - tapeagents.steps.ReasoningThought
+      - examples.gaia_agent.steps.ExtractedFacts
+      - examples.gaia_agent.steps.GaiaAnswer
+    use_known_actions: true
+    next_node: act
\ No newline at end of file

From 76958ee641b9ed1b6df4aac7a7cd45fbfdb30118 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 12:38:52 +0100
Subject: [PATCH 08/71] gaia benchmark class and entrypoint script

---
 .gitignore                      |  4 +++-
 scripts/run_gaia.py             | 13 +++++++++++++
 src/agentlab/benchmarks/gaia.py | 32 ++++++++++++++++++++++++++------
 3 files changed, 42 insertions(+), 7 deletions(-)
 create mode 100644 scripts/run_gaia.py

diff --git a/.gitignore b/.gitignore
index aa26dc9d..307425c7 100644
--- a/.gitignore
+++ b/.gitignore
@@ -167,4 +167,6 @@ _sandbox.py
 results/
 
 # gradio
-.gradio/
\ No newline at end of file
+.gradio/
+
+outputs/
\ No newline at end of file
diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
new file mode 100644
index 00000000..de016e29
--- /dev/null
+++ b/scripts/run_gaia.py
@@ -0,0 +1,13 @@
+from agentlab.agents.tapeagent import TapeAgentArgs
+from agentlab.benchmarks.gaia import GaiaBenchmark
+from agentlab.experiments.study import make_study
+
+exp_dir = "./outputs/gaia/debug1"
+agent_args = TapeAgentArgs("gaia_agent")
+study = make_study(
+    benchmark=GaiaBenchmark(split="validation", exp_dir=exp_dir),
+    agent_args=[agent_args],
+    comment="Gaia eval",
+)
+
+study.run(n_jobs=1)
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 006a2daf..f345e340 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -1,6 +1,7 @@
 import os
-from typing import Literal
+from typing import Any, Literal
 
+import bgym
 import datasets
 from tapeagents.environment import ContainerExecutor
 from tapeagents.tools.browser import Browser
@@ -12,29 +13,48 @@
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
 
+class GaiaBenchmark(bgym.Benchmark):
+    name = "gaia"
+    split: Literal["test", "validation"]
+    exp_dir: str
+
+    high_level_action_set_args = None
+    is_multi_tab = False
+    supports_parallel_seeds = False
+    backends = ["gaia"]
+    env_args_list = None
+    task_metadata = None
+
+    def __post_init__(self):
+        super().__post_init__()
+        self.env_args_list = []
+        dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
+        for task in dataset:
+            task_dir = os.path.join(self.name, task["task_id"])
+            env_args = GaiaGymArgs(task=task, exp_dir=task_dir)
+            self.env_args_list.append(env_args)
+
+
 class GaiaGym(MultiToolGym):
     task: dict
     exp_dir: str
 
 
 class GaiaGymArgs(AbstractEnvArgs):
-    task_id: str
+    task: dict[str, Any]
     split: Literal["test", "validation"]
     exp_dir: str
     viewport_chars: int = 64000
 
     def make_env(self) -> GaiaGym:
         self.init_code_sandbox()
-        dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")
-        tasks_by_id = {task["task_id"]: task for task in dataset[self.split]}
-        task = tasks_by_id[self.task_id]
         tools = [
             WebSearch(),
             VideoReader(self.exp_dir),
             Browser(self.exp_dir, viewport_chars=self.viewport_chars),
             CodeExecutor(self.exp_dir),
         ]
-        env = GaiaGym(tools=tools, task=task, exp_dir=self.exp_dir)
+        env = GaiaGym(tools=tools, task=self.task, exp_dir=self.exp_dir)
         return env
 
     def init_code_sandbox(self) -> None:

From ec8be75663882b9635a97855a2ffa292dbbd0d82 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 13:05:03 +0100
Subject: [PATCH 09/71] working gaia agent

---
 conf/gaia_agent.yaml             | 30 ++++++++--------
 conf/llm/gpt4o.yaml              |  6 ++++
 requirements.txt                 |  1 +
 src/agentlab/agents/tapeagent.py | 11 ++++--
 src/agentlab/benchmarks/gaia.py  | 60 ++++++++++++++++++++++++++++++++
 5 files changed, 91 insertions(+), 17 deletions(-)
 create mode 100644 conf/llm/gpt4o.yaml

diff --git a/conf/gaia_agent.yaml b/conf/gaia_agent.yaml
index b9268610..cef5078e 100644
--- a/conf/gaia_agent.yaml
+++ b/conf/gaia_agent.yaml
@@ -1,8 +1,10 @@
+defaults:
+  - llm@llms.default: gpt4o
+  - _self_
+
 _target_: tapeagents.agent.Agent
-name : web_agent
+name : gaia_agent
 max_iterations: 2
-llms:
-  default: ${llm}
 templates:
   system_prompt: |
     You are an expert AI Agent trained to assist users with complex information processing tasks.
@@ -31,18 +33,18 @@ templates:
 nodes:
   - _target_: tapeagents.nodes.StandardNode
     name: plan
-    system_prompt: ${agent.templates.system_prompt}
+    system_prompt: ${templates.system_prompt}
     guidance: |
       Write a concise multi-step plan explaining which steps should be performed to find the answer for the given task.
       Remember that you can use web search, browser, python code execution and access the youtube videos to reach your goals.
       Be specific about how each step should be performed. Only describe the intended actions here, do not perform them yet.
       Consider that next steps may depend on results of previous steps, so include conditional branching using "if" statements where needed.
-      ${agent.templates.thought_format}
-    steps_prompt: ${agent.templates.allowed_tools}
+      ${templates.thought_format}
+    steps_prompt: ${templates.allowed_tools}
 
   - _target_: tapeagents.nodes.StandardNode
     name: facts_survey
-    system_prompt: ${agent.templates.system_prompt}
+    system_prompt: ${templates.system_prompt}
     guidance: |
       Before we begin executing the plan, please answer the following pre-survey.
       Here is the pre-survey:
@@ -51,19 +53,19 @@ nodes:
           3. Please list any facts that may need to be derived (e.g., via logical deduction, simulation, or computation)
           4. Please list any facts that are recalled from memory, hunches, well-reasoned guesses, etc.
       When answering this survey, keep in mind that "facts" will typically be specific names, dates, statistics, etc.
-      ${agent.templates.thought_format}
-    steps_prompt: ${agent.templates.allowed_tools}
+      ${templates.thought_format}
+    steps_prompt: ${templates.allowed_tools}
 
   - _target_: tapeagents.nodes.StandardNode
     name: act
-    system_prompt: ${agent.templates.system_prompt}
+    system_prompt: ${templates.system_prompt}
     guidance: |
       Produce single next step. If the answer is ready, produce gaia_answer_action.
-      ${agent.templates.format}
-    steps_prompt: ${agent.templates.allowed_steps}
+      ${templates.format}
+    steps_prompt: ${templates.allowed_steps}
     steps:
       - tapeagents.steps.ReasoningThought
-      - examples.gaia_agent.steps.ExtractedFacts
-      - examples.gaia_agent.steps.GaiaAnswer
+      - agentlab.benchmarks.gaia.ExtractedFacts
+      - agentlab.benchmarks.gaia.GaiaAnswer
     use_known_actions: true
     next_node: act
\ No newline at end of file
diff --git a/conf/llm/gpt4o.yaml b/conf/llm/gpt4o.yaml
new file mode 100644
index 00000000..8caf7fec
--- /dev/null
+++ b/conf/llm/gpt4o.yaml
@@ -0,0 +1,6 @@
+_target_: tapeagents.llms.LiteLLM
+model_name: gpt-4o-2024-08-06
+use_cache: false
+context_size: 128000
+parameters:
+  temperature: 0.2
\ No newline at end of file
diff --git a/requirements.txt b/requirements.txt
index f8e4159e..4b0f3d17 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -26,3 +26,4 @@ matplotlib
 ray[default]
 python-slugify
 pillow
+gymnasium>=0.27
\ No newline at end of file
diff --git a/src/agentlab/agents/tapeagent.py b/src/agentlab/agents/tapeagent.py
index d1c89b9d..2130eb54 100644
--- a/src/agentlab/agents/tapeagent.py
+++ b/src/agentlab/agents/tapeagent.py
@@ -15,11 +15,11 @@
 
 @dataclass
 class TapeAgentArgs(AgentArgs):
-    config_name: str
+    agent_name: str
 
     def make_agent(self) -> bgym.Agent:
-        with hydra.initialize(config_path="./conf"):
-            config = hydra.compose(config_name=self.config_name)
+        with hydra.initialize(config_path="../../../conf"):
+            config = hydra.compose(config_name=self.agent_name)
         agent: Agent = hydra.utils.instantiate(config)
         return TapeAgent(agent=agent, tape=Tape(steps=[]))
 
@@ -28,6 +28,11 @@ class TapeAgent(bgym.Agent):
     agent: Agent
     tape: Tape
 
+    def __init__(self, agent: Agent, tape: Tape):
+        super().__init__()
+        self.agent = agent
+        self.tape = tape
+
     def obs_preprocessor(self, obs: dict) -> Any:
         logger.info(f"Preprocessing observation: {obs}")
         return obs
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index f345e340..f30064c3 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -1,8 +1,11 @@
 import os
+import shutil
 from typing import Any, Literal
 
 import bgym
 import datasets
+from pydantic import Field
+from tapeagents.core import Observation, StopStep, Thought
 from tapeagents.environment import ContainerExecutor
 from tapeagents.tools.browser import Browser
 from tapeagents.tools.code_executor import CodeExecutor
@@ -68,3 +71,60 @@ def init_code_sandbox(self) -> None:
             stop_container=False,
             no_deps=True,
         )
+
+
+class ExtractedFacts(Thought):
+    """
+    Thought that contains the list of facts extracted from the document
+    """
+
+    kind: Literal["extracted_facts_thought"] = "extracted_facts_thought"
+    extracted_facts: list[str] | dict[str, Any] | str = Field(
+        description="facts extracted from the observation"
+    )
+
+
+class GaiaQuestion(Observation):
+    kind: Literal["question"] = "question"
+    content: str
+    filename: str | None = None
+
+    @classmethod
+    def from_task(cls, question: dict):
+        question_prompt = question["Question"]
+        filename = None
+        if question["file_name"]:
+            basename = os.path.basename(question["file_name"])
+            tmp_fname = f"/tmp/{basename}"
+            shutil.copyfile(question["file_name"], tmp_fname)
+            assert os.path.exists(tmp_fname)
+            filename = tmp_fname
+        return cls(content=question_prompt, filename=filename)
+
+
+class GaiaAnswer(StopStep):
+    """
+    Action that indicates the agent has finished the plan and contains the answer or description of failure.
+    The answer should use already determined facts without additional conversion!
+    Your final answer should be a number OR as few words as possible OR a comma-separated list of numbers and/or strings.
+    ADDITIONALLY, your final answer MUST follow any formatting instructions specified in the original question (e.g., alphabetization, sequencing, units, rounding, decimal places, etc.)
+    If asked for a number, express it numerically, don't use commas, do not add anything after the number, don't include units such as $ or percent signs unless specified otherwise in the question.
+    If asked for a string, don't use articles or abbreviations (e.g. for cities), unless specified otherwise. Don't output any final sentence punctuation such as '.', '!', or '?'.
+    If asked for a comma-separated list, apply the above rules depending on whether the elements are numbers or strings.
+    If unable to determine the final answer, output an empty string.
+    """
+
+    kind: Literal["gaia_answer_action"] = "gaia_answer_action"
+    success: bool = Field(
+        description="True if the task was successful, False otherwise"
+    )
+    overview: str = Field(
+        description="List of steps performed to answer the question. If the task was not successful, includes the reason for failure"
+    )
+    answer_unit: str = Field(
+        description="Unit of measurement for the answer, if applicable; otherwise an empty string"
+    )
+    answer: Any = Field(description="Short final answer")
+    long_answer: str = Field(
+        description="Detailed final answer not restricted by format rules"
+    )

From 2ef8500cdba6eced93f41f38d56de208122a0d87 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 13:05:18 +0100
Subject: [PATCH 10/71] test tapeagent creation

---
 tests/agents/test_gaia_agent.py | 8 ++++++++
 1 file changed, 8 insertions(+)
 create mode 100644 tests/agents/test_gaia_agent.py

diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
new file mode 100644
index 00000000..8d1a7252
--- /dev/null
+++ b/tests/agents/test_gaia_agent.py
@@ -0,0 +1,8 @@
+from agentlab.agents.tapeagent import TapeAgent, TapeAgentArgs
+
+
+def test_agent_creation():
+    args = TapeAgentArgs(agent_name="gaia_agent")
+    agent = args.make_agent()
+    assert isinstance(agent, TapeAgent)
+    assert agent.agent.name == "gaia_agent"

From c59e60be47d8b445fe81988e38f351a7eba6036b Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 13:46:55 +0100
Subject: [PATCH 11/71] working gaia bench and gym, with test

---
 src/agentlab/benchmarks/abstract_env.py  | 16 ++++++-
 src/agentlab/benchmarks/gaia.py          | 20 +++------
 src/agentlab/benchmarks/multitool_gym.py | 54 ++----------------------
 tests/agents/test_gaia_agent.py          | 26 ++++++++++++
 4 files changed, 49 insertions(+), 67 deletions(-)

diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index 92602148..678e518c 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -1,9 +1,23 @@
 from abc import ABC, abstractmethod
 
-import gym
+import gymnasium as gym
 from pydantic import BaseModel
 
 
+class AbstractBenchmark(BaseModel):
+    name: str
+    env_args_list: list = None
+
+    def get_version(self) -> int:
+        return "1"
+
+    def prepare_backends(self):
+        pass
+
+    def dependency_graph_over_tasks(self) -> dict[str, list[str]]:
+        return {}
+
+
 class AbstractEnvArgs(BaseModel):
     """Easily serialiazable class to store the arguments of an environment"""
 
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index f30064c3..1c1b70ce 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -2,7 +2,6 @@
 import shutil
 from typing import Any, Literal
 
-import bgym
 import datasets
 from pydantic import Field
 from tapeagents.core import Observation, StopStep, Thought
@@ -12,24 +11,16 @@
 from tapeagents.tools.media_reader import VideoReader
 from tapeagents.tools.web_search import WebSearch
 
-from agentlab.benchmarks.abstract_env import AbstractEnvArgs
+from agentlab.benchmarks.abstract_env import AbstractBenchmark, AbstractEnvArgs
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
 
-class GaiaBenchmark(bgym.Benchmark):
-    name = "gaia"
-    split: Literal["test", "validation"]
+class GaiaBenchmark(AbstractBenchmark):
     exp_dir: str
+    name: str = "gaia"
+    split: Literal["test", "validation"]
 
-    high_level_action_set_args = None
-    is_multi_tab = False
-    supports_parallel_seeds = False
-    backends = ["gaia"]
-    env_args_list = None
-    task_metadata = None
-
-    def __post_init__(self):
-        super().__post_init__()
+    def model_post_init(self, __context: Any) -> None:
         self.env_args_list = []
         dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
         for task in dataset:
@@ -45,7 +36,6 @@ class GaiaGym(MultiToolGym):
 
 class GaiaGymArgs(AbstractEnvArgs):
     task: dict[str, Any]
-    split: Literal["test", "validation"]
     exp_dir: str
     viewport_chars: int = 64000
 
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 266d4b37..25fdd974 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -1,58 +1,12 @@
-from typing import Any, Literal, Union
-
-from pydantic import Annotated, Field, TypeAdapter
 from tapeagents.core import Action, Observation, Tape
-from tapeagents.environment import ToolCollectionEnvironment
-from tapeagents.tools.base import Multitool, Tool
 
 from agentlab.benchmarks.abstract_env import AbstractEnv
 
 EnvTape = Tape[None, Action | Observation]
 
 
-class FunctionCall(Action):
-    kind: Literal["function_call_action"] = ["function_call_action"]
-    function_name: str
-    args: list[Any] | None
-    kwargs: dict[str, Any] | None
-
-
-class FunctionCallResult(Observation):
-    kind: Literal["function_call_result"] = ["function_call_result"]
-    result: Any
-
-
-class SimpleFunctionCallTool(Tool):
-    action = FunctionCall
-    observation = FunctionCallResult
-    function: callable
-    function_name: str = ""
-
-    def model_post_init(self, __context):
-        function_name = getattr(self.function, "__name__", "")
-        if not function_name and not self.function_name:
-            raise ValueError("Function has no name, function_name must be provided")
-
-    def execute_action(self, action: FunctionCall) -> FunctionCallResult:
-        if not self.function_name == action.function_name:
-            raise ValueError(
-                f"Unexpected function action {action.function_name}, expected {self.function_name}"
-            )
-        result = self.function(*action.args, **action.kwargs)
-        return FunctionCallResult(result=result)
-
-
 class MultiToolGym(AbstractEnv):
-    def __init__(self, tools: list[Tool | Multitool]):
-        self._env = ToolCollectionEnvironment(tools)
-        self._actions = self._env.actions()
-        self._actions_parser: TypeAdapter = TypeAdapter(
-            Annotated[Union[self._actions], Field(discriminator="kind")]
-        )
-        self.reset()
-
     def reset(self):
-        self._tape: EnvTape = EnvTape(steps=[])
         self._env.reset()
 
     def step(self, action: str):
@@ -61,14 +15,12 @@ def step(self, action: str):
         except Exception:
             raise ValueError("Action must be a valid JSON dict")
         assert isinstance(action_step, Action), "{action_step.kind} is not an Action"
-        self._tape += [action_step]
-        self._tape = self._env.react(self._tape)
-        observation_step: Observation = self._tape.steps[-1]
+        observation = self._env.step(action_step)
         reward = self.calculate_reward()
         terminated = False
         truncated = False
-        env_info = {"step_metadata": observation_step.metadata}
-        return observation_step.llm_dict(), reward, terminated, truncated, env_info
+        env_info = {"step_metadata": observation.metadata}
+        return observation, reward, terminated, truncated, env_info
 
     def calculate_reward(self) -> float:
         return 0.0
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index 8d1a7252..1c4ee78f 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -1,4 +1,5 @@
 from agentlab.agents.tapeagent import TapeAgent, TapeAgentArgs
+from agentlab.benchmarks.gaia import GaiaBenchmark
 
 
 def test_agent_creation():
@@ -6,3 +7,28 @@ def test_agent_creation():
     agent = args.make_agent()
     assert isinstance(agent, TapeAgent)
     assert agent.agent.name == "gaia_agent"
+
+
+def test_gaia_bench():
+    exp_dir = "/tmp/"
+    bench = GaiaBenchmark(exp_dir=exp_dir, split="validation")
+    assert bench.name == "gaia"
+    assert bench.split == "validation"
+    assert bench.exp_dir == exp_dir
+    assert len(bench.env_args_list) == 165
+
+    assert bench.env_args_list[5].exp_dir == "gaia/32102e3e-d12a-4209-9163-7b3a104efe5d"
+    assert bench.env_args_list[5].viewport_chars == 64000
+    task = bench.env_args_list[5].task
+    question = """The attached spreadsheet shows the inventory for a movie and video game rental store in Seattle, Washington. What is the title of the oldest Blu-Ray recorded in this spreadsheet? Return it as appearing in the spreadsheet."""
+    steps = """1. Open the attached file.\n2. Compare the years given in the Blu-Ray section to find the oldest year, 2009.\n3. Find the title of the Blu-Ray disc that corresponds to the year 2009: Time-Parking 2: Parallel Universe."""
+    assert task["task_id"] == "32102e3e-d12a-4209-9163-7b3a104efe5d"
+    assert task["Question"] == question
+    assert task["Level"] == "2"
+    assert task["Final answer"] == "Time-Parking 2: Parallel Universe"
+    assert task["file_name"] == "32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx"
+    assert task["Annotator Metadata"]["Steps"] == steps
+    assert task["Annotator Metadata"]["Number of steps"] == "3"
+    assert task["Annotator Metadata"]["How long did this take?"] == "1 minute"
+    assert task["Annotator Metadata"]["Tools"] == "1. Microsoft Excel"
+    assert task["Annotator Metadata"]["Number of tools"] == "1"

From a1c30d15566ff311d2006a62ca587ea98429a51f Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 14:38:22 +0100
Subject: [PATCH 12/71] move conf to the tapeagent dir

---
 src/agentlab/agents/{tapeagent.py => tapeagent/agent.py}     | 2 +-
 {conf => src/agentlab/agents/tapeagent/conf}/gaia_agent.yaml | 0
 {conf => src/agentlab/agents/tapeagent/conf}/llm/gpt4o.yaml  | 0
 tests/agents/test_gaia_agent.py                              | 2 +-
 4 files changed, 2 insertions(+), 2 deletions(-)
 rename src/agentlab/agents/{tapeagent.py => tapeagent/agent.py} (96%)
 rename {conf => src/agentlab/agents/tapeagent/conf}/gaia_agent.yaml (100%)
 rename {conf => src/agentlab/agents/tapeagent/conf}/llm/gpt4o.yaml (100%)

diff --git a/src/agentlab/agents/tapeagent.py b/src/agentlab/agents/tapeagent/agent.py
similarity index 96%
rename from src/agentlab/agents/tapeagent.py
rename to src/agentlab/agents/tapeagent/agent.py
index 2130eb54..7cdf61eb 100644
--- a/src/agentlab/agents/tapeagent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -18,7 +18,7 @@ class TapeAgentArgs(AgentArgs):
     agent_name: str
 
     def make_agent(self) -> bgym.Agent:
-        with hydra.initialize(config_path="../../../conf"):
+        with hydra.initialize(config_path="conf"):
             config = hydra.compose(config_name=self.agent_name)
         agent: Agent = hydra.utils.instantiate(config)
         return TapeAgent(agent=agent, tape=Tape(steps=[]))
diff --git a/conf/gaia_agent.yaml b/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
similarity index 100%
rename from conf/gaia_agent.yaml
rename to src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
diff --git a/conf/llm/gpt4o.yaml b/src/agentlab/agents/tapeagent/conf/llm/gpt4o.yaml
similarity index 100%
rename from conf/llm/gpt4o.yaml
rename to src/agentlab/agents/tapeagent/conf/llm/gpt4o.yaml
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index 1c4ee78f..07407080 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -1,4 +1,4 @@
-from agentlab.agents.tapeagent import TapeAgent, TapeAgentArgs
+from agentlab.agents.tapeagent.agent import TapeAgent, TapeAgentArgs
 from agentlab.benchmarks.gaia import GaiaBenchmark
 
 
From 460febf0b195209a477516dee0d852c9ec57d1bc Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 15:01:44 +0100
Subject: [PATCH 13/71] gai gym reset method that builds initial task
 observations

---
 src/agentlab/agents/tapeagent/agent.py | 14 ++++++++++----
 src/agentlab/benchmarks/gaia.py        | 23 ++++++++++++++++++++---
 2 files changed, 30 insertions(+), 7 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 7cdf61eb..f5c2cb25 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -4,6 +4,7 @@
 
 import bgym
 import hydra
+from pydantic import json
 from tapeagents.agent import Agent
 from tapeagents.core import Action, Observation, Tape, Thought
 
@@ -37,18 +38,23 @@ def obs_preprocessor(self, obs: dict) -> Any:
         logger.info(f"Preprocessing observation: {obs}")
         return obs
 
-    def get_action(self, obs: Observation) -> tuple[str, bgym.AgentInfo]:
-        self.tape = self.tape.append(obs)
+    def get_action(
+        self, obs: Observation | list[Observation]
+    ) -> tuple[str, bgym.AgentInfo]:
+        if isinstance(obs, Observation):
+            obs = [obs]
+        for observation in obs:
+            self.tape = self.tape.append(observation)
         thoughts = []
         for event in self.agent.run(self.tape):
             if not event.step:
                 continue
             self.tape = self.tape.append(event.step)
             if isinstance(event.step, Thought):
-                thoughts.append(event.step.llm_view())
+                thoughts.append(event.step.llm_dict())
                 logger.info(f"Thought: {event.step.llm_view()}")
             elif isinstance(event.step, Action):
                 action = event.step.llm_view()
                 logger.info(f"Action: {action}")
                 break  # we stop at the first action
-        return (action, bgym.AgentInfo(think="\n".join(thoughts), stats={}))
+        return (action, bgym.AgentInfo(think=json.dumps(thoughts), stats={}))
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 1c1b70ce..9fa5be20 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -6,6 +6,7 @@
 from pydantic import Field
 from tapeagents.core import Observation, StopStep, Thought
 from tapeagents.environment import ContainerExecutor
+from tapeagents.steps import ImageObservation
 from tapeagents.tools.browser import Browser
 from tapeagents.tools.code_executor import CodeExecutor
 from tapeagents.tools.media_reader import VideoReader
@@ -33,6 +34,14 @@ class GaiaGym(MultiToolGym):
     task: dict
     exp_dir: str
 
+    def reset(self) -> tuple[list[Observation], dict]:
+        super().reset()
+        question = GaiaQuestion.from_task(self.task)
+        steps = [question]
+        if image_obs := with_image(question):
+            steps.append(image_obs)
+        return steps
+
 
 class GaiaGymArgs(AbstractEnvArgs):
     task: dict[str, Any]
@@ -83,15 +92,23 @@ class GaiaQuestion(Observation):
     def from_task(cls, question: dict):
         question_prompt = question["Question"]
         filename = None
-        if question["file_name"]:
-            basename = os.path.basename(question["file_name"])
+        if question["file_path"]:
+            basename = os.path.basename(question["file_path"])
             tmp_fname = f"/tmp/{basename}"
-            shutil.copyfile(question["file_name"], tmp_fname)
+            shutil.copyfile(question["file_path"], tmp_fname)
             assert os.path.exists(tmp_fname)
             filename = tmp_fname
         return cls(content=question_prompt, filename=filename)
 
 
+def with_image(question: GaiaQuestion) -> ImageObservation | None:
+    if question.filename.endswith((".png", ".jpg", ".jpeg")):
+        return ImageObservation(
+            image_path=question.filename,
+            image_caption="Attached image",
+        )
+
+
 class GaiaAnswer(StopStep):
     """
     Action that indicates the agent has finished the plan and contains the answer or description of failure.

From 418764fe2a13de78ae65fd3e00b6ff8bb38e2d70 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 15:18:06 +0100
Subject: [PATCH 14/71] test gym creation and reset

---
 src/agentlab/benchmarks/abstract_env.py  | 28 +++++++--------
 src/agentlab/benchmarks/gaia.py          | 44 ++++++++++++++----------
 src/agentlab/benchmarks/multitool_gym.py | 14 +++++++-
 tests/agents/test_gaia_agent.py          | 27 ++++++++++++++-
 4 files changed, 79 insertions(+), 34 deletions(-)

diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index 678e518c..f2e02c89 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -4,20 +4,6 @@
 from pydantic import BaseModel
 
 
-class AbstractBenchmark(BaseModel):
-    name: str
-    env_args_list: list = None
-
-    def get_version(self) -> int:
-        return "1"
-
-    def prepare_backends(self):
-        pass
-
-    def dependency_graph_over_tasks(self) -> dict[str, list[str]]:
-        return {}
-
-
 class AbstractEnvArgs(BaseModel):
     """Easily serialiazable class to store the arguments of an environment"""
 
@@ -36,6 +22,20 @@ def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
         """
 
 
+class AbstractBenchmark(BaseModel):
+    name: str
+    env_args_list: list[AbstractEnvArgs]
+
+    def get_version(self) -> int:
+        return "1"
+
+    def prepare_backends(self):
+        pass
+
+    def dependency_graph_over_tasks(self) -> dict[str, list[str]]:
+        return {}
+
+
 class AbstractEnv(gym.Env, ABC):
     @abstractmethod
     def reset(self, seed: int = None) -> tuple[dict[str, any], dict[str, any]]:
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 9fa5be20..c1dfb22d 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -5,7 +5,7 @@
 import datasets
 from pydantic import Field
 from tapeagents.core import Observation, StopStep, Thought
-from tapeagents.environment import ContainerExecutor
+from tapeagents.environment import ContainerExecutor, StatefulTool, Tool
 from tapeagents.steps import ImageObservation
 from tapeagents.tools.browser import Browser
 from tapeagents.tools.code_executor import CodeExecutor
@@ -16,29 +16,22 @@
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
 
-class GaiaBenchmark(AbstractBenchmark):
-    exp_dir: str
-    name: str = "gaia"
-    split: Literal["test", "validation"]
-
-    def model_post_init(self, __context: Any) -> None:
-        self.env_args_list = []
-        dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
-        for task in dataset:
-            task_dir = os.path.join(self.name, task["task_id"])
-            env_args = GaiaGymArgs(task=task, exp_dir=task_dir)
-            self.env_args_list.append(env_args)
-
-
 class GaiaGym(MultiToolGym):
     task: dict
     exp_dir: str
 
+    def __init__(self, tools: list[Tool | StatefulTool], task: dict, exp_dir: str):
+        super().__init__(tools=tools)
+        self.task = task
+        self.exp_dir = exp_dir
+
     def reset(self) -> tuple[list[Observation], dict]:
         super().reset()
+        print("task:", self.task)
         question = GaiaQuestion.from_task(self.task)
         steps = [question]
         if image_obs := with_image(question):
+            print("image_obs:", image_obs)
             steps.append(image_obs)
         return steps
 
@@ -52,9 +45,9 @@ def make_env(self) -> GaiaGym:
         self.init_code_sandbox()
         tools = [
             WebSearch(),
-            VideoReader(self.exp_dir),
-            Browser(self.exp_dir, viewport_chars=self.viewport_chars),
-            CodeExecutor(self.exp_dir),
+            VideoReader(exp_path=self.exp_dir),
+            Browser(exp_path=self.exp_dir, viewport_chars=self.viewport_chars),
+            CodeExecutor(exp_path=self.exp_dir),
         ]
         env = GaiaGym(tools=tools, task=self.task, exp_dir=self.exp_dir)
         return env
@@ -72,6 +65,21 @@ def init_code_sandbox(self) -> None:
         )
 
 
+class GaiaBenchmark(AbstractBenchmark):
+    exp_dir: str
+    name: str = "gaia"
+    split: Literal["test", "validation"]
+    env_args_list: list[GaiaGymArgs] = None
+
+    def model_post_init(self, __context: Any) -> None:
+        self.env_args_list = []
+        dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
+        for task in dataset:
+            task_dir = os.path.join(self.name, task["task_id"])
+            env_args = GaiaGymArgs(task=task, exp_dir=task_dir)
+            self.env_args_list.append(env_args)
+
+
 class ExtractedFacts(Thought):
     """
     Thought that contains the list of facts extracted from the document
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 25fdd974..1b7d1fd1 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -1,4 +1,9 @@
+from typing import Annotated, Union
+
+from pydantic import Field, TypeAdapter
 from tapeagents.core import Action, Observation, Tape
+from tapeagents.environment import ToolCollectionEnvironment
+from tapeagents.tools.base import StatefulTool, Tool
 
 from agentlab.benchmarks.abstract_env import AbstractEnv
 
@@ -6,10 +11,17 @@
 
 
 class MultiToolGym(AbstractEnv):
+    def __init__(self, tools: list[Tool | StatefulTool]):
+        self._env = ToolCollectionEnvironment(tools)
+        self._actions = self._env.actions()
+        self._actions_parser: TypeAdapter = TypeAdapter(
+            Annotated[Union[self._actions], Field(discriminator="kind")]
+        )
+
     def reset(self):
         self._env.reset()
 
-    def step(self, action: str):
+    def step(self, action: str) -> tuple[Observation, float, bool, bool, dict]:
         try:
             action_step = self._actions_parser.validate_json(action)
         except Exception:
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index 07407080..76a8ef0c 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -1,5 +1,9 @@
+import os
+
+from tapeagents.steps import ImageObservation
+
 from agentlab.agents.tapeagent.agent import TapeAgent, TapeAgentArgs
-from agentlab.benchmarks.gaia import GaiaBenchmark
+from agentlab.benchmarks.gaia import GaiaBenchmark, GaiaQuestion
 
 
 def test_agent_creation():
@@ -32,3 +36,24 @@ def test_gaia_bench():
     assert task["Annotator Metadata"]["How long did this take?"] == "1 minute"
     assert task["Annotator Metadata"]["Tools"] == "1. Microsoft Excel"
     assert task["Annotator Metadata"]["Number of tools"] == "1"
+
+
+def test_gaia_gym_reset():
+    exp_dir = "/tmp/"
+    bench = GaiaBenchmark(exp_dir=exp_dir, split="validation")
+
+    args = bench.env_args_list[5]
+    env = args.make_env()
+    steps = env.reset()
+    assert len(steps) == 1
+    assert isinstance(steps[0], GaiaQuestion)
+    assert steps[0].content == args.task["Question"]
+
+    args = bench.env_args_list[20]
+    env = args.make_env()
+    steps = env.reset()
+    assert len(steps) == 2
+    assert isinstance(steps[0], GaiaQuestion)
+    assert steps[0].content == args.task["Question"]
+    assert isinstance(steps[1], ImageObservation)
+    assert os.path.basename(steps[1].image_path) == args.task["file_name"]

From 55f2ffa6c9fc9e122a8969d3c4a33084b2c3bdd7 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 15:23:22 +0100
Subject: [PATCH 15/71] store thoughts in agent info without serialization

---
 src/agentlab/agents/tapeagent/agent.py | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index f5c2cb25..e4137d00 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -4,7 +4,6 @@
 
 import bgym
 import hydra
-from pydantic import json
 from tapeagents.agent import Agent
 from tapeagents.core import Action, Observation, Tape, Thought
 
@@ -25,6 +24,11 @@ def make_agent(self) -> bgym.Agent:
         return TapeAgent(agent=agent, tape=Tape(steps=[]))
 
 
+@dataclass
+class TapeAgentInfo(bgym.AgentInfo):
+    thoughts: list[Thought] = None
+
+
 class TapeAgent(bgym.Agent):
     agent: Agent
     tape: Tape
@@ -34,8 +38,8 @@ def __init__(self, agent: Agent, tape: Tape):
         self.agent = agent
         self.tape = tape
 
-    def obs_preprocessor(self, obs: dict) -> Any:
-        logger.info(f"Preprocessing observation: {obs}")
+    def obs_preprocessor(self, obs: Any) -> Any:
+        logger.info(f"Observation: {obs}")
         return obs
 
     def get_action(
@@ -57,4 +61,4 @@ def get_action(
                 action = event.step.llm_view()
                 logger.info(f"Action: {action}")
                 break  # we stop at the first action
-        return (action, bgym.AgentInfo(think=json.dumps(thoughts), stats={}))
+        return (action, TapeAgentInfo(thoughts=thoughts))

From e0eeaca7bf80cf4db2d23aa612a27fcca87f7fb5 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 16:33:57 +0100
Subject: [PATCH 16/71] move loop module from the browsergym

---
 src/agentlab/agents/README.md                 |   4 +-
 .../generic_agent/reproducibility_agent.py    |  13 +-
 src/agentlab/analyze/agent_xray.py            |  46 +-
 src/agentlab/analyze/inspect_results.py       |  13 +-
 src/agentlab/experiments/exp_utils.py         |   8 +-
 src/agentlab/experiments/launch_exp.py        |  10 +-
 src/agentlab/experiments/loop.py              | 979 ++++++++++++++++++
 src/agentlab/experiments/study.py             |  50 +-
 src/agentlab/ui_assistant.py                  |   4 +-
 tests/agents/test_agent.py                    |  33 +-
 tests/agents/test_visualwebarena_agent.py     |   2 +-
 tests/experiments/test_launch_exp.py          |  11 +-
 12 files changed, 1105 insertions(+), 68 deletions(-)
 create mode 100644 src/agentlab/experiments/loop.py

diff --git a/src/agentlab/agents/README.md b/src/agentlab/agents/README.md
index 6af24e71..d65c0967 100644
--- a/src/agentlab/agents/README.md
+++ b/src/agentlab/agents/README.md
@@ -99,7 +99,7 @@ have to specify the type of each field (You can use Any if it is unknown)*
 ```python
 from dataclasses import dataclass
 from browsergym.experiment.agent import Agent
-from browsergym.experiment.loop import AgentArgs
+from agentlab.experiments.loop import AgentArgs
 
 
 @dataclass
@@ -116,7 +116,7 @@ class CustomAgentArgs(AgentArgs):
 To run experiments with your custom agent, define an instance of `ExpArgs` with the required parameters.
 
 ```python
-from browsergym.experiment.loop import ExpArgs
+from agentlab.experiments.loop import ExpArgs
 
 exp_args = ExpArgs(
     agent_args=CustomAgentArgs(custom_param="value"),
diff --git a/src/agentlab/agents/generic_agent/reproducibility_agent.py b/src/agentlab/agents/generic_agent/reproducibility_agent.py
index d9fa4c29..b1d5e5a9 100644
--- a/src/agentlab/agents/generic_agent/reproducibility_agent.py
+++ b/src/agentlab/agents/generic_agent/reproducibility_agent.py
@@ -20,13 +20,10 @@
 
 import bgym
 from browsergym.experiments.agent import AgentInfo
-from browsergym.experiments.loop import ExpArgs, ExpResult, yield_all_exp_results
 from bs4 import BeautifulSoup
-from langchain.schema import AIMessage, BaseMessage
-from langchain_community.adapters.openai import convert_message_to_dict
 
 from agentlab.agents.agent_args import AgentArgs
-from agentlab.agents.dynamic_prompting import ActionFlags
+from agentlab.experiments.loop import ExpArgs, ExpResult, yield_all_exp_results
 from agentlab.experiments.study import Study
 from agentlab.llm.chat_api import make_assistant_message
 from agentlab.llm.llm_utils import Discussion, messages_to_dict
@@ -65,7 +62,6 @@ def get_stats(self):
 
 @dataclass
 class ReproAgentArgs(GenericAgentArgs):
-
     # starting with "_" will prevent from being part of the index in the load_results function
     _repro_dir: str = None
 
@@ -81,7 +77,6 @@ def make_agent(self):
 
 
 class ReproAgent(GenericAgent):
-
     def __init__(
         self,
         chat_model_args,
@@ -93,7 +88,6 @@ def __init__(
         super().__init__(chat_model_args, flags, max_retry)
 
     def get_action(self, obs):
-
         # replace the chat model with a reproducible chat that will mimic the
         # same answers
         step = len(self.actions)
@@ -218,7 +212,10 @@ def make_repro_agent(agent_args: AgentArgs, exp_dir: Path | str):
 
 def _make_diff(old_str, new_str):
     page = difflib.HtmlDiff().make_file(
-        old_str.splitlines(), new_str.splitlines(), fromdesc="Old Version", todesc="New Version"
+        old_str.splitlines(),
+        new_str.splitlines(),
+        fromdesc="Old Version",
+        todesc="New Version",
     )
     page = page.replace('nowrap="nowrap"', "")  # Remove nowrap attribute
     page = _set_style(page, DIFF_STYLE)
diff --git a/src/agentlab/analyze/agent_xray.py b/src/agentlab/analyze/agent_xray.py
index 9764898c..36ca51b9 100644
--- a/src/agentlab/analyze/agent_xray.py
+++ b/src/agentlab/analyze/agent_xray.py
@@ -12,13 +12,13 @@
 import numpy as np
 import pandas as pd
 from attr import dataclass
-from browsergym.experiments.loop import ExpResult, StepInfo
 from langchain.schema import BaseMessage, HumanMessage
 from openai import OpenAI
 from PIL import Image
 
 from agentlab.analyze import inspect_results
 from agentlab.experiments.exp_utils import RESULTS_DIR
+from agentlab.experiments.loop import ExpResult, StepInfo
 from agentlab.experiments.study import get_most_recent_study
 from agentlab.llm.chat_api import make_system_message, make_user_message
 from agentlab.llm.llm_utils import BaseMessage as AgentLabBaseMessage
@@ -201,7 +201,6 @@ def run_gradio(results_dir: Path):
 """
             )
         with gr.Row():
-
             exp_dir_choice = gr.Dropdown(
                 choices=get_directory_contents(results_dir),
                 value=select_dir_instructions,
@@ -297,7 +296,10 @@ def run_gradio(results_dir: Path):
             state_error = gr.Markdown(label="Next Step Error", elem_classes="my-markdown")
 
         profiling_gr = gr.Image(
-            label="Profiling", show_label=False, interactive=False, show_download_button=False
+            label="Profiling",
+            show_label=False,
+            interactive=False,
+            show_download_button=False,
         )
 
         gr.HTML(
@@ -418,7 +420,14 @@ def run_gradio(results_dir: Path):
         exp_dir_choice.change(
             fn=new_exp_dir,
             inputs=exp_dir_choice,
-            outputs=[agent_table, agent_id, constants, variables, global_stats, error_report],
+            outputs=[
+                agent_table,
+                agent_id,
+                constants,
+                variables,
+                global_stats,
+                error_report,
+            ],
         )
 
         agent_table.select(fn=on_select_agent, inputs=agent_table, outputs=[agent_id])
@@ -454,7 +463,8 @@ def run_gradio(results_dir: Path):
         screenshot_gallery.select(fn=gallery_step_change, inputs=episode_id, outputs=step_id)
         step_id.change(fn=if_active("DOM HTML")(update_html), outputs=html_code)
         step_id.change(
-            fn=if_active("Pruned DOM HTML")(update_pruned_html), outputs=pruned_html_code
+            fn=if_active("Pruned DOM HTML")(update_pruned_html),
+            outputs=pruned_html_code,
         )
         step_id.change(fn=if_active("AXTree")(update_axtree), outputs=axtree_code)
         step_id.change(fn=if_active("Chat Messages")(update_chat_messages), outputs=chat_messages)
@@ -475,10 +485,14 @@ def run_gradio(results_dir: Path):
         # we need to update them individually when the tab is selected
         tab_screenshot.select(fn=update_screenshot, inputs=som_or_not, outputs=screenshot)
         tab_screenshot_pair.select(
-            fn=update_screenshot_pair, inputs=som_or_not, outputs=[screenshot1, screenshot2]
+            fn=update_screenshot_pair,
+            inputs=som_or_not,
+            outputs=[screenshot1, screenshot2],
         )
         tab_screenshot_gallery.select(
-            fn=update_screenshot_gallery, inputs=som_or_not, outputs=[screenshot_gallery]
+            fn=update_screenshot_gallery,
+            inputs=som_or_not,
+            outputs=[screenshot_gallery],
         )
         tab_html.select(fn=update_html, outputs=html_code)
         tab_pruned_html.select(fn=update_pruned_html, outputs=pruned_html_code)
@@ -617,7 +631,7 @@ def update_logs():
     try:
         return f"""{info.exp_result.logs}"""
     except FileNotFoundError:
-        return f"""No Logs"""
+        return """No Logs"""
 
 
 def update_stats():
@@ -757,11 +771,11 @@ def get_episode_info(info: Info):
 
         info = f"""\
 ### {env_args.task_name} (seed: {env_args.task_seed})
-### Step {info.step} / {len(steps_info)-1} (Reward: {cum_reward:.1f})
+### Step {info.step} / {len(steps_info) - 1} (Reward: {cum_reward:.1f})
 
 **Goal:**
 
-{code(str(AgentLabBaseMessage('', goal)))}
+{code(str(AgentLabBaseMessage("", goal)))}
 
 **Task info:**
 
@@ -770,7 +784,7 @@ def get_episode_info(info: Info):
 **exp_dir:**
 
 <small style="line-height: 1; margin: 0; padding: 0;">{code(exp_dir_str)}</small>"""
-    except Exception as e:
+    except Exception:
         info = f"""\
 **Error while getting episode info**
 {code(traceback.format_exc())}"""
@@ -942,7 +956,6 @@ def update_error_report():
 
 
 def new_exp_dir(exp_dir, progress=gr.Progress(), just_refresh=False):
-
     if exp_dir == select_dir_instructions:
         return None, None
 
@@ -1075,7 +1088,6 @@ def add_patch(ax, start, stop, color, label, edge=False):
 
 
 def plot_profiling(ax, step_info_list: list[StepInfo], summary_info: dict, progress_fn):
-
     if len(step_info_list) == 0:
         warning("No step info to plot")
         return None
@@ -1123,7 +1135,13 @@ def plot_profiling(ax, step_info_list: list[StepInfo], summary_info: dict, progr
 
         if step_info.action is not None:
             # Blue rectangle for agent_start to agent_stop
-            add_patch(ax, prof.agent_start, prof.agent_stop, colors[10], labels.pop("agent", None))
+            add_patch(
+                ax,
+                prof.agent_start,
+                prof.agent_stop,
+                colors[10],
+                labels.pop("agent", None),
+            )
 
             # Black vertical bar at agent stop
             ax.axvline(prof.agent_stop, color="black", linewidth=3)
diff --git a/src/agentlab/analyze/inspect_results.py b/src/agentlab/analyze/inspect_results.py
index 41ee5c93..3532215b 100644
--- a/src/agentlab/analyze/inspect_results.py
+++ b/src/agentlab/analyze/inspect_results.py
@@ -10,10 +10,11 @@
 
 import numpy as np
 import pandas as pd
-from browsergym.experiments.loop import ExpResult, get_exp_result, yield_all_exp_results
 from IPython.display import display
 from tqdm import tqdm
 
+from agentlab.experiments.loop import ExpResult, get_exp_result, yield_all_exp_results
+
 # TODO find a more portable way to code set_task_category_as_index at least
 # handle dynamic imports. We don't want to always import workarena
 # from browsergym.workarena import TASK_CATEGORY_MAP
@@ -83,7 +84,7 @@ def set_index_from_variables(
         white = any([fnmatch.fnmatch(var, pattern) for pattern in index_white_list])
         black = any([fnmatch.fnmatch(var, pattern) for pattern in index_black_list])
 
-        if white and (not black) and (not var in index_variables):
+        if white and (not black) and (var not in index_variables):
             index_variables.append(var)
 
     for var in index_variables:
@@ -205,7 +206,7 @@ def report_constant_and_variables(df, show_stack_traces=True):
             if i >= 2:
                 break
         if len(unique_counts) > 3:
-            print(f"        ...\n")
+            print("        ...\n")
 
 
 def get_std_err(df, metric):
@@ -235,7 +236,7 @@ def get_sample_std_err(df, metric):
 
 
 def summarize(sub_df):
-    if not "cum_reward" in sub_df:
+    if "cum_reward" not in sub_df:
         record = dict(
             avg_reward=np.nan,
             std_err=np.nan,
@@ -745,7 +746,7 @@ def summarize_study(result_df: pd.DataFrame) -> pd.DataFrame:
 def split_by_key(df: pd.DataFrame, key):
     """Return a dict of dataframes spearted by the given key."""
     # check if key in df
-    if not (key in df.columns):
+    if key not in df.columns:
         df = df.reset_index(key, inplace=False)
 
     df_dict = {}
@@ -775,7 +776,7 @@ def get_all_summaries(results_dir: Path, skip_hidden=True, ignore_cache=False, i
                 summary.set_index("study_dir", inplace=True)
                 summaries.append(summary)
 
-        except Exception as e:
+        except Exception:
             traceback.print_exc()
             continue
 
diff --git a/src/agentlab/experiments/exp_utils.py b/src/agentlab/experiments/exp_utils.py
index 5759e6d1..27b909b2 100644
--- a/src/agentlab/experiments/exp_utils.py
+++ b/src/agentlab/experiments/exp_utils.py
@@ -6,9 +6,10 @@
 from pathlib import Path
 from time import sleep, time
 
-from browsergym.experiments.loop import ExpArgs, yield_all_exp_results
 from tqdm import tqdm
 
+from agentlab.experiments.loop import ExpArgs, yield_all_exp_results
+
 logger = logging.getLogger(__name__)  # Get logger based on module name
 
 
@@ -63,7 +64,6 @@ def timeout_manager(seconds: int = None):
         return
 
     def alarm_handler(signum, frame):
-
         logger.warning(f"Operation timed out after {seconds}s, raising TimeoutError.")
         # send sigint
         # os.kill(os.getpid(), signal.SIGINT) # this doesn't seem to do much I don't know why
@@ -176,11 +176,11 @@ def hide_some_exp(base_dir, filter: callable, just_test):
 
     msg = f"Searching {len(exp_list)} experiments to move to _* expriments where `filter(exp_args)` is True."
     if just_test:
-        msg += f"\nNote: This is a just a test, no experiments will be moved. Set `just_test=False` to move them."
+        msg += "\nNote: This is a just a test, no experiments will be moved. Set `just_test=False` to move them."
 
     logging.info(msg)
 
-    exp_list = tqdm(exp_list, desc=f"Filtering experiments.")
+    exp_list = tqdm(exp_list, desc="Filtering experiments.")
 
     filtered_out = []
     for exp in exp_list:
diff --git a/src/agentlab/experiments/launch_exp.py b/src/agentlab/experiments/launch_exp.py
index 962115c2..ac91becd 100644
--- a/src/agentlab/experiments/launch_exp.py
+++ b/src/agentlab/experiments/launch_exp.py
@@ -3,9 +3,9 @@
 from pathlib import Path
 
 import bgym
-from browsergym.experiments.loop import ExpArgs, yield_all_exp_results
 
 from agentlab.experiments.exp_utils import run_exp
+from agentlab.experiments.loop import ExpArgs, yield_all_exp_results
 
 
 def run_experiments(
@@ -142,8 +142,8 @@ def find_incomplete(study_dir: str | Path, include_errors=True):
     else:
         logging.info(f"Found {job_count} incomplete experiments in {study_dir}.")
 
-    message = f"Make sure the processes that were running are all stopped. Otherwise, "
-    f"there will be concurrent writing in the same directories.\n"
+    message = "Make sure the processes that were running are all stopped. Otherwise, "
+    "there will be concurrent writing in the same directories.\n"
 
     logging.info(message)
 
@@ -193,7 +193,9 @@ def _hide_completed(exp_result: bgym.ExpResult, include_errors: bool = True):
 
 
 # TODO remove this function once ray backend is stable
-def _split_sequential_exp(exp_args_list: list[ExpArgs]) -> tuple[list[ExpArgs], list[ExpArgs]]:
+def _split_sequential_exp(
+    exp_args_list: list[ExpArgs],
+) -> tuple[list[ExpArgs], list[ExpArgs]]:
     """split exp_args that are flagged as sequential from those that are not"""
     sequential_exp_args = []
     parallel_exp_args = []
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
new file mode 100644
index 00000000..ac22e663
--- /dev/null
+++ b/src/agentlab/experiments/loop.py
@@ -0,0 +1,979 @@
+import copy
+import gzip
+import importlib.metadata
+import json
+import logging
+import os
+import pickle
+import re
+import sys
+import time
+import traceback
+import uuid
+from abc import ABC, abstractmethod
+from collections import defaultdict
+from dataclasses import asdict, dataclass, field, is_dataclass
+from datetime import datetime
+from pathlib import Path
+from typing import Optional
+
+import gymnasium as gym
+import numpy as np
+from browsergym.core.action.parsers import highlevel_action_parser
+from browsergym.core.chat import Chat
+from browsergym.experiments.agent import Agent
+from browsergym.experiments.utils import count_messages_token, count_tokens
+from dataclasses_json import DataClassJsonMixin
+from PIL import Image
+from tqdm import tqdm
+
+logger = logging.getLogger(__name__)
+
+SEED_MAX = 2 ^ 32  # arbitrary max value (exclusive), seems large enough
+
+
+@dataclass
+class EnvArgs(DataClassJsonMixin):
+    task_name: str
+    task_seed: Optional[int] = None
+    max_steps: Optional[int] = None
+    headless: bool = True
+    record_video: bool = False
+    wait_for_user_message: bool = False
+    viewport: Optional[dict] = None  # use default value from BrowserGym
+    slow_mo: Optional[int] = None  # use default value from BrowserGym
+    storage_state: Optional[str | Path | dict] = None
+    task_kwargs: Optional[dict] = None  # use default value from BrowserGym
+
+    def make_env(self, action_mapping, exp_dir, exp_task_kwargs: dict = {}):
+        """
+        Instantiates the BrowserGym environment corresponding to the arguments (with some tweaks).
+
+        Args:
+            action_mapping: overrides the action mapping of the environment.
+            exp_dir: will set some environment parameters (e.g., record_video_dir) with respect to the directory where the experiment is running.
+            exp_task_kwargs: use with caution! Will override task parameters to experiment-specific values. Useful to set different server configs for different experiments, or output file paths within the experiment's folder (e.g., assistantbench).
+        """
+        extra_kwargs = {}
+        if self.record_video:
+            extra_kwargs["record_video_dir"] = exp_dir
+        if self.viewport:
+            extra_kwargs["viewport"] = self.viewport
+        if self.slow_mo is not None:
+            extra_kwargs["slow_mo"] = self.slow_mo
+        if self.storage_state:
+            extra_kwargs["pw_context_kwargs"] = {"storage_state": self.storage_state}
+        if self.task_kwargs is not None:
+            extra_kwargs["task_kwargs"] = self.task_kwargs
+        if exp_task_kwargs:
+            extra_kwargs["task_kwargs"] = extra_kwargs.get("task_kwargs", {}) | exp_task_kwargs
+
+        # assistantbench hack, write the task output (agent prediction) to a file in the experiment's directory
+        # TODO: find a better way to deal with this
+        if self.task_name.startswith("assistantbench.test"):
+            extra_kwargs["task_kwargs"] = extra_kwargs.get("task_kwargs", {}) | {
+                "output_file": exp_dir / "assistantbench-prediction.json"
+            }
+
+        return gym.make(
+            _get_env_name(self.task_name),
+            disable_env_checker=True,
+            max_episode_steps=self.max_steps,
+            headless=self.headless,
+            wait_for_user_message=self.wait_for_user_message,
+            action_mapping=action_mapping,  # action mapping is provided by the agent
+            **extra_kwargs,
+        )
+
+
+@dataclass
+class AbstractAgentArgs(ABC):
+    """A template class that defines the required signature of an agent's arguments."""
+
+    agent_name: str = None
+
+    def __post_init__(self):
+        if self.agent_name is None:
+            self.agent_name = self.__class__.__name__
+
+    def prepare(self):
+        """Prepare the agent's LLM models before running the experiment."""
+        pass
+
+    def close(self):
+        """Close the agent's LLM models after running the experiment."""
+        pass
+
+    @abstractmethod
+    def make_agent(self) -> Agent:
+        """Comply the experiments.loop API for instantiating the agent."""
+
+
+def save_package_versions(exp_dir: Path):
+    """Save the versions of the installed packages in the experiment directory."""
+    python_dists = "\n".join(
+        sorted(
+            [
+                f"{dist.metadata['Name']}=={dist.metadata['Version']}"
+                for dist in importlib.metadata.distributions()
+            ]
+        )
+    )
+    (exp_dir / "package_versions.txt").write_text(python_dists)
+
+
+@dataclass
+class ExpArgs:
+    """Arguments to run an experiment, i.e. run agent in an environment until done.
+
+    This dataclass is used to store experiments arguments. It contains
+    agent_args and env_args which follows the same principle. It contains helper
+    functions to prepare and run experiments.
+
+    Attributes:
+    -----------
+    agent_args: AbstractAgentArgs
+        The arguments to instantiate the agent.
+    env_args: EnvArgs
+        The arguments to instantiate the environment.
+    exp_dir: str
+        The directory where the experiment will be saved.
+    exp_name: str
+        The name of the experiment. If None, it will be generated from the
+        agent and environment names.
+    enable_debug: bool
+        If python is running in debug mode and `enable_debug` is True, errors
+        will be raised instead of only logged
+    error_msg: str
+        Error that occured while running the experiment (if any).
+    stack_trace: str
+        Stack trace of the error (if any).
+    order: int (internal)
+        The order of the experiment in the batch. It is used to keep track of
+        the original order of the experiments in case they are shuffled.
+    """
+
+    agent_args: AbstractAgentArgs
+    env_args: EnvArgs
+    exp_dir: str = None
+    exp_name: str = None
+    enable_debug: bool = True
+    err_msg: str = None
+    stack_trace: str = None
+    order: int = None  # use to keep the original order the experiments were meant to be launched.
+    logging_level: int = logging.INFO
+    logging_level_stdout: int = logging.INFO
+    exp_id: str = None
+    depends_on: tuple[str] = ()
+    save_screenshot: bool = True
+    save_som: bool = False
+
+    def make_id(self):
+        """Create a unique id for the experiment."""
+        if self.exp_id is None:
+            self.exp_id = str(uuid.uuid4())
+
+    def prepare(self, exp_root):
+        """Prepare the experiment directory and save the experiment arguments.
+
+        This enables inspecting experiments that are not run yet.
+        """
+        if self.env_args.task_seed is None:
+            self.env_args.task_seed = np.random.randint(0, SEED_MAX)
+
+        if self.exp_name is None:
+            task_name = self.env_args.task_name
+            self.exp_name = f"{self.agent_args.agent_name}_on_{task_name}_{self.env_args.task_seed}"
+
+        # if exp_dir exists, it means it's a re-run, move the old one
+        if self.exp_dir is not None:
+            _move_old_exp(self.exp_dir)
+
+        self.make_id()
+
+        self.exp_date = datetime.now()
+        self._make_dir(exp_root)
+
+        self.exp_dir.mkdir(parents=True, exist_ok=True)
+        with open(self.exp_dir / "exp_args.pkl", "wb") as f:
+            pickle.dump(self, f)
+
+    def _make_dir(self, exp_root):
+        """Create a unique directory for the experiment."""
+        date_str = self.exp_date.strftime("%Y-%m-%d_%H-%M-%S")
+        exp_str = re.sub(
+            r"[\/:*?<>|]", "_", self.exp_name
+        )  # sanitize exp_name to be used as a file name (substitute forbidden characters)
+
+        for i in range(1000):
+            if i >= 999:  # make sure we don't loop forever
+                raise ValueError("Could not find a unique name for the experiment directory.")
+
+            tag = f"_{i}" if i > 0 else ""
+            self.exp_dir = Path(exp_root) / f"{date_str}_{exp_str}{tag}"
+            if not self.exp_dir.exists():
+                break
+
+    # TODO distinguish between agent error and environment or system error. e.g.
+    # the parsing error of an action should not be re-run.
+    def run(self):
+        """Run the experiment and save the results"""
+        print("LOCAL EXP ARG RUN")
+        # start writing logs to run logfile
+        self._set_logger()
+
+        # log python environment info
+        save_package_versions(self.exp_dir)
+
+        episode_info = []
+        env, step_info, err_msg, stack_trace = None, None, None, None
+        try:
+            logger.info(f"Running experiment {self.exp_name} in:\n  {self.exp_dir}")
+            agent = self.agent_args.make_agent()
+            logger.debug("Agent created.")
+
+            env = self.env_args.make_env(
+                action_mapping=agent.action_set.to_python_code,
+                exp_dir=self.exp_dir,
+            )
+
+            logger.debug("Environment created.")
+            print("Environment created.")
+            step_info = StepInfo(step=0)
+            print("StepInfo created.")
+            episode_info = [step_info]
+            step_info.from_reset(
+                env,
+                seed=self.env_args.task_seed,
+                obs_preprocessor=agent.obs_preprocessor,
+            )
+            logger.debug("Environment reset.")
+
+            while not step_info.is_done:  # set a limit
+                logger.debug(f"Starting step {step_info.step}.")
+                action = step_info.from_action(agent)
+                logger.debug(f"Agent chose action:\n {action}")
+
+                if action is None:
+                    # will end the episode after saving the step info.
+                    step_info.truncated = True
+
+                step_info.save_step_info(
+                    self.exp_dir,
+                    save_screenshot=self.save_screenshot,
+                    save_som=self.save_som,
+                )
+                logger.debug("Step info saved.")
+
+                _send_chat_info(env.unwrapped.chat, action, step_info.agent_info)
+                logger.debug("Chat info sent.")
+
+                if action is None:
+                    logger.debug("Agent returned None action. Ending episode.")
+                    break
+
+                step_info = StepInfo(step=step_info.step + 1)
+                episode_info.append(step_info)
+
+                logger.debug("Sending action to environment.")
+                step_info.from_step(env, action, obs_preprocessor=agent.obs_preprocessor)
+                logger.debug("Environment stepped.")
+
+        except Exception as e:
+            err_msg = f"Exception uncaught by agent or environment in task {self.env_args.task_name}.\n{type(e).__name__}:\n{e}"
+            stack_trace = traceback.format_exc()
+
+            self.err_msg = err_msg
+            self.stack_trace = stack_trace
+
+            logger.warning(err_msg + "\n" + stack_trace)
+            if _is_debugging() and self.enable_debug:
+                logger.warning("Debug mode is enabled. Raising the error.")
+                raise
+
+        finally:
+            try:
+                if step_info is not None:
+                    step_info.save_step_info(
+                        self.exp_dir,
+                        save_screenshot=self.save_screenshot,
+                        save_som=self.save_som,
+                    )
+            except Exception as e:
+                logger.error(f"Error while saving step info in the finally block: {e}")
+            try:
+                if (
+                    not err_msg
+                    and len(episode_info) > 0
+                    and not (episode_info[-1].terminated or episode_info[-1].truncated)
+                ):
+                    e = KeyboardInterrupt("Early termination??")
+                    err_msg = f"Exception uncaught by agent or environment in task {self.env_args.task_name}.\n{type(e).__name__}:\n{e}"
+                logger.info("Saving summary info.")
+                _save_summary_info(episode_info, self.exp_dir, err_msg, stack_trace)
+            except Exception as e:
+                logger.error(f"Error while saving summary info in the finally block: {e}")
+            try:
+                if env is not None:
+                    env.close()
+            except Exception as e:
+                logger.error(f"Error while closing the environment in the finally block: {e}")
+            try:
+                self._unset_logger()  # stop writing logs to run logfile
+            except Exception as e:
+                logger.error(f"Error while unsetting the logger in the finally block: {e}")
+
+    def _set_logger(self):
+        # output logging traces to a log file
+        file_handler = logging.FileHandler(self.exp_dir / "experiment.log")
+        file_handler.setLevel(self.logging_level)  # same level as console outputs
+        formatter = logging.Formatter(
+            "%(asctime)s - %(process)d - %(name)s - %(levelname)s - %(message)s"
+        )
+        file_handler.setFormatter(formatter)
+        # output handler
+        stream_handler = logging.StreamHandler()
+        stream_handler.setLevel(self.logging_level_stdout)
+        stream_handler.setFormatter(formatter)
+        # setup root logger
+        root_logger = logging.getLogger()
+
+        # remove previous stream handlers
+        for handler in root_logger.handlers:
+            if isinstance(handler, logging.StreamHandler):
+                root_logger.removeHandler(handler)
+
+        root_logger.setLevel(self.logging_level)
+        root_logger.addHandler(file_handler)
+        root_logger.addHandler(stream_handler)
+        # setup openai logger (don't go below INFO verbosity)
+        openai_logger = logging.getLogger("openai._base_client")
+        openai_logger.setLevel(max(logging.INFO, self.logging_level))
+
+        self.logging_file_handler = file_handler
+
+    def _unset_logger(self):
+        root_logger = logging.getLogger()
+        root_logger.removeHandler(self.logging_file_handler)
+
+
+@dataclass
+class StepTimestamps:
+    env_start: float = 0
+    action_exec_start: float = 0  # to extract begining of visual action from video
+    action_exec_stop: float = 0  # to extract end of visual action from video
+    action_exect_after_timeout: float = 0
+    env_stop: float = 0
+    agent_start: float = 0
+    agent_stop: float = 0
+
+
+@dataclass
+class StepInfo:
+    """Collects information about step that will be saved and reloaded.
+    Helper functions only modify the dataclass attributes and helps keeping the
+    information organized.
+
+    Attributes:
+    -----------
+    step: int
+        The step number of the episode.
+    obs: dict
+        The observation of the environment.
+    reward: float
+        The reward of the step.
+    raw_reward: float
+        The raw reward of the step.
+    terminated: bool
+        Whether the episode is terminated i.e. reached a terminal state.
+    truncated: bool
+        Whether the episode is truncated i.e. reached a maximum number of steps.
+    action: str
+        The action taken by the agent.
+    agent_info: dict
+        Additional information from the agent.
+    stats: dict
+        Extra statistics about the step.
+    profiling: StepTimestamps
+        Timestamps of the different events during the episode.
+    """
+
+    step: int = None
+    obs: dict = None
+    reward: float = 0
+    raw_reward: float = 0
+    terminated: bool = None
+    truncated: bool = None
+    action: str = None
+    agent_info: dict = field(default_factory=dict)
+    stats: dict = None
+    profiling: StepTimestamps = field(default_factory=StepTimestamps)
+    task_info: dict = None
+
+    def from_step(self, env: gym.Env, action: str, obs_preprocessor: callable):
+        t = self.profiling
+        t.env_start = time.time()
+        self.obs, self.reward, self.terminated, self.truncated, env_info = env.step(action)
+        t.env_stop = time.time()
+
+        self.task_info = env_info.get("task_info", None)
+
+        self.raw_reward = env_info.get("RAW_REWARD_GLOBAL", None)
+
+        t.action_exec_start = env_info["action_exec_start"]  # start
+        t.action_exect_after_timeout = env_info["action_exec_stop"]
+        t.action_exec_stop = env_info["action_exec_stop"] - env_info["action_exec_timeout"]
+
+        if obs_preprocessor:
+            self.obs = obs_preprocessor(self.obs)
+
+    def from_action(self, agent: Agent):
+        self.profiling.agent_start = time.time()
+        self.action, self.agent_info = agent.get_action(self.obs.copy())
+        self.profiling.agent_stop = time.time()
+
+        self.make_stats()
+
+        return self.action
+
+    def from_reset(self, env: gym.Env, seed: int, obs_preprocessor: callable):
+        t = self.profiling
+        t.env_start = time.time()
+        self.obs, env_info = env.reset(seed=seed)
+        self.reward, self.terminated, self.truncated = 0, False, False
+        t.env_stop = time.time()
+
+        t.action_exec_start = env_info.get("recording_start_time", t.env_start)
+        t.action_exect_after_timeout = t.env_stop
+        t.action_exec_stop = t.env_stop
+
+        if obs_preprocessor:
+            self.obs = obs_preprocessor(self.obs)
+
+    @property
+    def is_done(self):
+        return self.terminated or self.truncated
+
+    def make_stats(self):
+        if isinstance(self.obs, dict):
+            stats = {
+                f"n_token_{key}": count_tokens(val)
+                for key, val in self.obs.items()
+                if isinstance(val, str)
+            }
+        else:
+            stats = {}
+        stats.update(self.agent_info.pop("stats", {}))
+
+        messages = self.agent_info.get("chat_messages", None)
+        if messages is not None:
+            stats["n_token_agent_messages"] = count_messages_token(messages)
+
+        t = self.profiling
+        stats["step_elapsed"] = t.env_stop - t.env_start
+        stats["agent_elapsed"] = t.agent_stop - t.agent_start
+
+        self.stats = stats
+
+    def save_step_info(self, exp_dir, save_json=False, save_screenshot=True, save_som=False):
+        # special treatment for some of the observation fields
+        if isinstance(self.obs, dict):
+            # save screenshots to separate files
+            screenshot = self.obs.pop("screenshot", None)
+            screenshot_som = self.obs.pop("screenshot_som", None)
+
+            if save_screenshot and screenshot is not None:
+                img = Image.fromarray(screenshot)
+                img.save(exp_dir / f"screenshot_step_{self.step}.png")
+
+            if save_som and screenshot_som is not None:
+                img = Image.fromarray(screenshot_som)
+                img.save(exp_dir / f"screenshot_som_step_{self.step}.png")
+
+            # save goal object (which might contain images) to a separate file to save space
+            if self.obs.get("goal_object", False):
+                # save the goal object only once (goal should never change once setup)
+                goal_object_file = Path(exp_dir) / "goal_object.pkl.gz"
+                if not goal_object_file.exists():
+                    with gzip.open(goal_object_file, "wb") as f:
+                        pickle.dump(self.obs["goal_object"], f)
+                # set goal_object to a special placeholder value, which indicates it should be loaded from a separate file
+                self.obs["goal_object"] = None
+
+        with gzip.open(exp_dir / f"step_{self.step}.pkl.gz", "wb") as f:
+            pickle.dump(self, f)
+
+        if save_json:
+            with open(exp_dir / "steps_info.json", "w") as f:
+                json.dump(self, f, indent=4, cls=DataclassJSONEncoder)
+
+        if self.obs is not None:
+            # add the screenshots back to the obs
+            # why do we need this?
+            if screenshot is not None:
+                self.obs["screenshot"] = screenshot
+            if screenshot_som is not None:
+                self.obs["screenshot_som"] = screenshot_som
+
+
+def _extract_err_msg(episode_info: list[StepInfo]):
+    """Extract the last error message from the episode info."""
+    errors = [(None, None)]
+    for step_info in episode_info:
+        if step_info.agent_info is None:
+            continue
+        err_msg = step_info.agent_info.get("err_msg", None)
+        if err_msg is not None:
+            errors.append((err_msg, step_info.agent_info.get("stack_trace", None)))
+
+    return errors[-1]
+
+
+def _aggregate_episode_stats(episode_info: list[StepInfo]):
+    """Aggregate StepInfo.stats across episodes.
+
+    It will compute the sum and max of each value in the stats dict.
+    These two summaries should cover many use cases. If more are needed, the
+    user can compute other stats by reloading individual StepInfo.
+    """
+
+    stats = defaultdict(list)
+    for step_info in episode_info:
+        if step_info.stats is not None:
+            for key, val in step_info.stats.items():
+                if val is None:
+                    val = np.nan
+                stats[key].append(val)
+
+    aggregated_stats = {"cum_steps": len(episode_info)}  # to be able to compute the mean
+    for key, val_list in stats.items():
+        aggregated_stats[f"cum_{key}"] = np.nansum(val_list)
+        aggregated_stats[f"max_{key}"] = np.nanmax(val_list)
+
+    for key, val in aggregated_stats.items():
+        if isinstance(val, np.generic):
+            aggregated_stats[key] = val.item()
+        if np.isnan(val):
+            aggregated_stats[key] = None
+    return aggregated_stats
+
+
+def _save_summary_info(
+    episode_info: list[StepInfo],
+    exp_dir,
+    err_msg,
+    stack_trace,
+):
+    # bring err from agent_info to the top level
+    if err_msg is None:
+        err_msg, stack_trace = _extract_err_msg(episode_info)
+    else:
+        # useful until we get a proper place in agent_xray to view error
+        # messages.
+        if len(episode_info) == 0:
+            episode_info.append(StepInfo())
+        episode_info[-1].agent_info["err_msg"] = err_msg
+        episode_info[-1].agent_info["stack_trace"] = stack_trace
+
+    summary_info = dict(
+        n_steps=len(episode_info) - 1,
+        cum_reward=sum([step.reward for step in episode_info]),
+        cum_raw_reward=sum([step.raw_reward for step in episode_info if step.raw_reward]),
+        err_msg=err_msg,
+        stack_trace=stack_trace,
+    )
+    for key, val in _aggregate_episode_stats(episode_info).items():
+        summary_info[f"stats.{key}"] = val
+
+    if len(episode_info) > 0:
+        summary_info["terminated"] = episode_info[-1].terminated
+        summary_info["truncated"] = episode_info[-1].truncated
+
+    with open(exp_dir / "summary_info.json", "w") as f:
+        json.dump(summary_info, f, indent=4)
+
+
+def _is_debugging():
+    """Tells you if your code is currently running in debug mode."""
+    return sys.gettrace() is not None
+
+
+class ExpResult:
+    """Helper class to load and visualize the results of an experiment.
+
+    attributes are loaded lazily.
+
+    Attributes (lazily loaded):
+        exp_args: ExpArgs, the arguments of the experiment.
+        steps_info: list[StepInfo], the information of each steps so far
+        summary_info: dict, the summary of the experiment.
+        screenshots: list[Image], the screenshots of each step.
+        screenshots_som: list[Image], the screenshots of each step with set of
+            marks inprinted.
+        flat_exp_args: dict, the flattened version of exp_args.
+        chat_video_path: Path, the path to the chat video. (if record_video=True)
+        task_video_path: Path, the path to the task video. (if record_video=True)
+        combined_video_path: Path, the path to the combined video. (if video was
+            combined)
+    """
+
+    def __init__(self, exp_dir) -> None:
+        self.exp_dir = Path(exp_dir)
+        self._exp_args = None
+        self._steps_info = {}
+        self._summary_info = None
+        self._screenshots = {}
+        self._flat_exp_args = None
+        self._logs = None
+
+    @property
+    def exp_args(self) -> ExpArgs:
+        if self._exp_args is None:
+            with open(self.exp_dir / "exp_args.pkl", "rb") as f:
+                self._exp_args = pickle.load(f)
+                # in case experiments were moved
+                self._exp_args.exp_dir = self.exp_dir
+        return self._exp_args
+
+    def get_step_info(self, step: int) -> StepInfo:
+        """Load the step info from the file and return it."""
+        if self._steps_info.get(step, None) is None:
+            with gzip.open(self.exp_dir / f"step_{step}.pkl.gz", "rb") as f:
+                self._steps_info[step] = pickle.load(f)
+            if self._steps_info[step].obs:
+                if "screenshot" not in self._steps_info[step].obs:
+                    try:
+                        self._steps_info[step].obs["screenshot"] = np.array(
+                            self.get_screenshot(step), dtype=np.uint8
+                        )
+                    except FileNotFoundError:
+                        pass
+                if "screenshot_som" not in self._steps_info[step].obs:
+                    try:
+                        self._steps_info[step].obs["screenshot_som"] = np.array(
+                            self.get_screenshot(step, som=True), dtype=np.uint8
+                        )
+                    except FileNotFoundError:
+                        pass
+                # if goal_object is set to None, it indicates it has been saved into a separate file
+                if (
+                    "goal_object" in self._steps_info[step].obs
+                    and self._steps_info[step].obs["goal_object"] is None
+                ):
+                    with gzip.open(self.exp_dir / "goal_object.pkl.gz", "rb") as f:
+                        goal_object = pickle.load(f)
+                        self._steps_info[step].obs["goal_object"] = goal_object
+
+        return self._steps_info[step]
+
+    @property
+    def steps_info(self) -> list[StepInfo]:
+        step_files = list(self.exp_dir.glob("step_*.pkl.gz"))
+        for file in step_files:
+            step = int(file.name.split("_")[-1].split(".")[0])
+            self.get_step_info(step)
+
+        return [self._steps_info[i] for i in range(len(self._steps_info))]
+
+    @property
+    def summary_info(self) -> dict:
+        if self._summary_info is None:
+            with open(self.exp_dir / "summary_info.json", "r") as f:
+                # if length is zero raise file not found error
+                if os.fstat(f.fileno()).st_size == 0:
+                    raise FileNotFoundError("summary_info.json is empty.")
+                self._summary_info = json.load(f)
+        return self._summary_info
+
+    @property
+    def tape(self) -> dict:
+        """
+        TapeAgents (https://github.com/ServiceNow/TapeAgents) framework compatibility.
+        Exports experiment trace in the format of serialized tape.
+        Reuses tape segments if they were already placed in the agent_info during the experiment.
+
+        :returns: dict: serialized tape of the experiment
+        """
+        steps = []
+        for step_info in self.steps_info:
+            if "tape_segment" in step_info.agent_info["extra_info"]:
+                tape_segment = step_info.agent_info["extra_info"]["tape_segment"]
+            else:
+                tape_segment = self._create_tape_segment(step_info)
+            steps += tape_segment
+        metadata = dict(
+            id=str(uuid.uuid4()),
+            author=f"browsergym_agent_[{self.exp_args.agent_args.agent_name}]",
+            result=self.get_exp_record(),
+        )
+        return dict(steps=steps, metadata=metadata)
+
+    def _create_tape_segment(self, step_info: StepInfo) -> list[dict]:
+        tape_segment = []
+        # extract observation step
+        if step_info.obs is not None:
+            screenshot: str = ""
+            screenshot_som: str = ""
+            obs_dict = copy.deepcopy(step_info.obs)
+            if "screenshot" in obs_dict:
+                screenshot = str(self.exp_dir / f"screenshot_step_{step_info.step}.png")
+                obs_dict.pop("screenshot")
+            if "screenshot_som" in obs_dict:
+                screenshot_som = str(self.exp_dir / f"screenshot_som_step_{step_info.step}.png")
+                obs_dict.pop("screenshot_som")
+            tape_segment.append(
+                dict(
+                    kind="browsergym_observation",
+                    metadata=dict(step=step_info.step),
+                    obs=obs_dict,
+                    screenshot=screenshot,
+                    screenshot_som=screenshot_som,
+                )
+            )
+
+        # extract thought step
+        think = step_info.agent_info.get("think", "")
+        if think:
+            tape_segment.append(
+                dict(
+                    kind="browsergym_thought",
+                    metadata={"step": step_info.step},
+                    text=think,
+                )
+            )
+
+        # extract action steps
+        function_calls = highlevel_action_parser.parse_string(step_info.action, parse_all=True)
+        for name, arguments in function_calls:
+            tape_segment.append(
+                dict(
+                    kind="browsergym_action",
+                    metadata=dict(
+                        step=step_info.step,
+                        reward=step_info.reward,
+                        raw_reward=step_info.raw_reward,
+                        terminated=step_info.terminated,
+                        truncated=step_info.truncated,
+                        agent_info=step_info.agent_info,
+                        stats=step_info.stats,
+                        task_info=step_info.task_info,
+                    ),
+                    name=name,
+                    arguments=arguments,
+                )
+            )
+        return tape_segment
+
+    def save_tape(self, filename: str = "tape.json"):
+        if os.path.exists(self.exp_dir / filename):
+            raise FileExistsError(f"{filename} already exists in {self.exp_dir}")
+        with open(self.exp_dir / filename, "w") as f:
+            json.dump(self.tape, f, indent=4, ensure_ascii=False)
+
+    def get_screenshot(self, step: int, som=False) -> Image:
+        key = (step, som)
+        if self._screenshots.get(key, None) is None:
+            file_name = f"screenshot_{'som_' if som else ''}step_{step}"
+            try:
+                with Image.open(self.exp_dir / (file_name + ".png")) as img:
+                    self._screenshots[key] = img.copy()
+            except FileNotFoundError:
+                with Image.open(self.exp_dir / (file_name + ".jpg")) as img:
+                    self._screenshots[key] = img.copy()
+        return self._screenshots[key]
+
+    def get_screenshots(self, som=False):
+        files = list(self.exp_dir.glob("screenshot_step_*"))
+        max_step = 0
+        for file in files:
+            step = int(file.name.split("_")[-1].split(".")[0])
+            self.get_screenshot(step, som=som)
+            max_step = max(max_step, step)
+        return [self._screenshots.get((i, som), None) for i in range(max_step + 1)]
+
+    @property
+    def screenshots(self):
+        return self.get_screenshots(som=False)
+
+    @property
+    def screenshots_som(self):
+        return self.get_screenshots(som=True)
+
+    @property
+    def flat_exp_args(self) -> dict:
+        """Return a dict with exp_args flattened."""
+        if self._flat_exp_args is None:
+            exp_args = asdict(self.exp_args)
+            # this will flatten nested dicts
+            self._flat_exp_args = _flatten_dict(exp_args)
+        return self._flat_exp_args
+
+    def get_exp_record(self) -> dict:
+        """Return a dict with exp_args flattened and summary_info."""
+        record = {"exp_dir": self.exp_dir}
+        try:
+            record.update(self.flat_exp_args)
+        except FileNotFoundError:
+            pass
+        try:
+            record.update(self.summary_info)
+        except FileNotFoundError:
+            pass
+        return record
+
+    @property
+    def chat_video_path(self) -> Path:
+        try:
+            return next(self.exp_dir.glob("chat_video/*.webm"))
+        except StopIteration:
+            raise FileNotFoundError(f"No chat_video found in {self.exp_dir}")
+
+    @property
+    def task_video_path(self) -> Path:
+        try:
+            return next(self.exp_dir.glob("task_video/*.webm"))
+        except StopIteration:
+            raise FileNotFoundError(f"No task_video found in {self.exp_dir}")
+
+    @property
+    def combined_video_path(self) -> Path:
+        return self.exp_dir / "combined_video.mp4"
+
+    @property
+    def logs(self):
+        if self._logs is None:
+            self._logs = (self.exp_dir / "experiment.log").read_text()
+        return self._logs
+
+    @property
+    def status(self):
+        """Return one of the following status:
+        * "done": completed with no error
+        * "error": completed with error
+        * "incomplete": not completed yet (may be pending or just stalled)
+        """
+        try:
+            summary_info = self.summary_info
+        except FileNotFoundError:
+            return "incomplete"
+
+        if summary_info.get("err_msg", None) is not None:
+            return "error"
+
+        if summary_info.get("terminated", False) or summary_info.get("truncated", False):
+            return "done"
+
+        return "incomplete"
+
+
+EXP_RESULT_CACHE = {}
+
+
+def get_exp_result(exp_dir) -> ExpResult:
+    """Keep a cache of pre-loaded exp_results for faster loading"""
+    exp_dir = str(exp_dir)  # make sure it's not a Path
+    exp_result = EXP_RESULT_CACHE.get(exp_dir, None)
+    if exp_result is None:
+        exp_result = ExpResult(exp_dir)
+        EXP_RESULT_CACHE[exp_dir] = exp_result
+    return exp_result
+
+
+def yield_all_exp_results(
+    savedir_base: str | Path, progress_fn=tqdm, load_hidden=False, use_cache=True
+):
+    """Recursively find all experiments from savedir_base folder.
+
+    This will ignore all experiments that start with "_" or ".". use
+    `load_hidden=True` to load them anyway.
+    """
+
+    if not isinstance(savedir_base, list):
+        savedir_base = [savedir_base]
+
+    exp_args_paths = []
+    for exp_dir in savedir_base:
+        exp_args_paths.extend(list(Path(exp_dir).glob("**/exp_args.pkl")))
+
+    if progress_fn is not None:
+        exp_args_paths = progress_fn(exp_args_paths, desc="Searching experiments directories.")
+
+    for exp_args_path in exp_args_paths:
+        exp_dir = exp_args_path.parent
+        if not load_hidden:
+            if exp_dir.name.startswith("_") or exp_dir.name.startswith("."):
+                continue
+        if use_cache:
+            yield get_exp_result(exp_dir)
+        else:
+            yield ExpResult(exp_dir)
+
+
+class DataclassJSONEncoder(json.JSONEncoder):
+    def default(self, obj):
+        if is_dataclass(obj):
+            return asdict(obj)
+        if isinstance(obj, np.integer):
+            return int(obj)
+        if isinstance(obj, np.floating):
+            return float(obj)
+        if isinstance(obj, np.ndarray):
+            return obj.tolist()
+        return super().default(obj)
+
+
+def _move_old_exp(exp_dir):
+    """Move the old experiment directory to a new name."""
+    exp_dir = Path(exp_dir)
+    if exp_dir.exists():
+        exp_dir.rename(exp_dir.with_name("_" + exp_dir.name))
+
+
+def _get_env_name(task_name: str):
+    """Register tasks if needed (lazy import) and return environment name."""
+
+    # lazy benchmark import
+    if task_name.startswith("miniwob"):
+        pass
+    elif task_name.startswith("workarena"):
+        pass
+    elif task_name.startswith("webarena"):
+        pass
+    elif task_name.startswith("visualwebarena"):
+        pass
+    elif task_name.startswith("assistantbench"):
+        pass
+    elif task_name.startswith("weblinx"):
+        pass
+
+    return f"browsergym/{task_name}"
+
+
+def _send_chat_info(chat: Chat, action: str, agent_info: dict):
+    """Send the think and action info to the chat."""
+    msg = ""
+    if "think" in agent_info:
+        msg += f"""\
+{agent_info["think"]}
+
+"""
+
+    msg += f"""\
+action:
+{action}
+"""
+
+    logger.info(msg)
+    chat.add_message(role="info", msg=msg)
+
+
+def _flatten_dict(d, parent_key="", sep="."):
+    """Recursively flatten a nested dictionary."""
+    items = []
+    for k, v in d.items():
+        new_key = parent_key + sep + k if parent_key else k
+        if isinstance(v, dict):
+            items.extend(_flatten_dict(v, new_key, sep).items())
+        else:
+            items.append((new_key, v))
+    return dict(items)
diff --git a/src/agentlab/experiments/study.py b/src/agentlab/experiments/study.py
index b93b3ae2..f4ec8106 100644
--- a/src/agentlab/experiments/study.py
+++ b/src/agentlab/experiments/study.py
@@ -12,15 +12,20 @@
 from pathlib import Path
 
 import bgym
-from bgym import Benchmark, EnvArgs, ExpArgs
+from bgym import Benchmark
 from slugify import slugify
 
 from agentlab.agents.agent_args import AgentArgs
 from agentlab.analyze import inspect_results
 from agentlab.experiments import reproducibility_util as repro
 from agentlab.experiments.exp_utils import RESULTS_DIR, add_dependencies
-from agentlab.experiments.launch_exp import find_incomplete, non_dummy_count, run_experiments
-from agentlab.experiments.multi_server import BaseServer, WebArenaInstanceVars
+from agentlab.experiments.launch_exp import (
+    find_incomplete,
+    non_dummy_count,
+    run_experiments,
+)
+from agentlab.experiments.loop import EnvArgs, ExpArgs
+from agentlab.experiments.multi_server import BaseServer
 
 logger = logging.getLogger(__name__)
 
@@ -125,7 +130,13 @@ def find_incomplete(self, include_errors=True):
         """Prepare the study for relaunching by finding incomplete experiments"""
 
     @abstractmethod
-    def run(self, n_jobs=1, parallel_backend="ray", strict_reproducibility=False, n_relaunch=3):
+    def run(
+        self,
+        n_jobs=1,
+        parallel_backend="ray",
+        strict_reproducibility=False,
+        n_relaunch=3,
+    ):
         """Run the study"""
 
     def make_dir(self, exp_root=RESULTS_DIR):
@@ -292,7 +303,9 @@ def set_reproducibility_info(self, strict_reproducibility=False, comment=None):
         )
         if self.reproducibility_info is not None:
             repro.assert_compatible(
-                self.reproducibility_info, info, raise_if_incompatible=strict_reproducibility
+                self.reproducibility_info,
+                info,
+                raise_if_incompatible=strict_reproducibility,
             )
         self.reproducibility_info = info
 
@@ -305,7 +318,6 @@ def run(
         relaunch_errors=True,
         exp_root=RESULTS_DIR,
     ):
-
         self.set_reproducibility_info(
             strict_reproducibility=strict_reproducibility, comment=self.comment
         )
@@ -325,12 +337,12 @@ def run(
             n_incomplete, n_error = self.find_incomplete(include_errors=relaunch_errors)
 
             if n_error / n_exp > 0.3:
-                logger.warning(f"More than 30% of the experiments errored. Stopping the study.")
+                logger.warning("More than 30% of the experiments errored. Stopping the study.")
                 return
 
             if last_error_count is not None and n_error >= last_error_count:
                 logger.warning(
-                    f"Last trial did not reduce the number of errors. Stopping the study."
+                    "Last trial did not reduce the number of errors. Stopping the study."
                 )
                 return
 
@@ -553,7 +565,6 @@ def run(
         n_relaunch=3,
         exp_root=RESULTS_DIR,
     ):
-
         # This sequence of of making directories is important to make sure objects are materialized
         # properly before saving. Otherwise relaunch may not work properly.
         self.make_dir()
@@ -566,7 +577,13 @@ def run(
         logger.info("\n" + str(summary_df))
         logger.info(f"SequentialStudies {self.name} finished.")
 
-    def _run(self, n_jobs=1, parallel_backend="ray", strict_reproducibility=False, n_relaunch=3):
+    def _run(
+        self,
+        n_jobs=1,
+        parallel_backend="ray",
+        strict_reproducibility=False,
+        n_relaunch=3,
+    ):
         for study in self.studies:
             study.run(n_jobs, parallel_backend, strict_reproducibility, n_relaunch)
 
@@ -622,7 +639,9 @@ def _run(
             server_queue.put(server)
 
         with ProcessPoolExecutor(
-            max_workers=len(parallel_servers), initializer=_init_worker, initargs=(server_queue,)
+            max_workers=len(parallel_servers),
+            initializer=_init_worker,
+            initargs=(server_queue,),
         ) as executor:
             # Create list of arguments for each study
             study_args = [
@@ -640,7 +659,6 @@ def _run(
 
 @dataclass
 class ParallelStudies_alt(SequentialStudies):
-
     parallel_servers: list[BaseServer] | int = None
 
     def _run(
@@ -662,7 +680,13 @@ def _run(
             p.starmap(
                 _run_study,
                 [
-                    (study, n_jobs, parallel_backend, strict_reproducibility, n_relaunch)
+                    (
+                        study,
+                        n_jobs,
+                        parallel_backend,
+                        strict_reproducibility,
+                        n_relaunch,
+                    )
                     for study in self.studies
                 ],
             )
diff --git a/src/agentlab/ui_assistant.py b/src/agentlab/ui_assistant.py
index 96bbb0f9..57916543 100644
--- a/src/agentlab/ui_assistant.py
+++ b/src/agentlab/ui_assistant.py
@@ -1,15 +1,13 @@
 import argparse
 
-from browsergym.experiments.loop import EnvArgs, ExpArgs
-
 from agentlab.agents.agent_args import AgentArgs
 from agentlab.agents.generic_agent.generic_agent import GenericAgentArgs
 from agentlab.experiments.exp_utils import RESULTS_DIR
 from agentlab.experiments.launch_exp import import_object
+from agentlab.experiments.loop import EnvArgs, ExpArgs
 
 
 def make_exp_args(agent_args: AgentArgs, start_url="https://www.google.com"):
-
     try:
         agent_args.flags.action.demo_mode = "default"
     except AttributeError:
diff --git a/tests/agents/test_agent.py b/tests/agents/test_agent.py
index 2632f66b..b7eb8cb3 100644
--- a/tests/agents/test_agent.py
+++ b/tests/agents/test_agent.py
@@ -3,13 +3,13 @@
 from dataclasses import dataclass
 from pathlib import Path
 
-from browsergym.experiments.loop import EnvArgs, ExpArgs
 from openai import OpenAIError
 
 from agentlab.agents.generic_agent.agent_configs import FLAGS_GPT_3_5
 from agentlab.agents.generic_agent.generic_agent import GenericAgentArgs
 from agentlab.analyze import inspect_results
 from agentlab.experiments import launch_exp
+from agentlab.experiments.loop import EnvArgs, ExpArgs
 from agentlab.llm.chat_api import BaseModelArgs, CheatMiniWoBLLMArgs
 from agentlab.llm.llm_utils import Discussion
 
@@ -24,9 +24,11 @@ def test_generic_agent():
     )
 
     with tempfile.TemporaryDirectory() as tmp_dir:
-
         launch_exp.run_experiments(
-            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
+            1,
+            [exp_args],
+            Path(tmp_dir) / "generic_agent_test",
+            parallel_backend="joblib",
         )
 
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
@@ -120,7 +122,10 @@ def __call__(self, messages) -> str:
         raise OpenAIError("LLM failed to respond")
 
     def get_stats(self):
-        return {"n_llm_retry": self.n_retry, "n_llm_busted_retry": int(not self.success)}
+        return {
+            "n_llm_retry": self.n_retry,
+            "n_llm_busted_retry": int(not self.success),
+        }
 
 
 @dataclass
@@ -148,7 +153,10 @@ def test_generic_agent_parse_retry():
     with tempfile.TemporaryDirectory() as tmp_dir:
         # TODO why these tests don't work with ray backend?
         launch_exp.run_experiments(
-            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
+            1,
+            [exp_args],
+            Path(tmp_dir) / "generic_agent_test",
+            parallel_backend="joblib",
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
         print(result_record)
@@ -175,7 +183,10 @@ def test_bust_parse_retry():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
+            1,
+            [exp_args],
+            Path(tmp_dir) / "generic_agent_test",
+            parallel_backend="joblib",
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
 
@@ -203,7 +214,10 @@ def test_llm_error_success():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
+            1,
+            [exp_args],
+            Path(tmp_dir) / "generic_agent_test",
+            parallel_backend="joblib",
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
 
@@ -230,7 +244,10 @@ def test_llm_error_no_success():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
+            1,
+            [exp_args],
+            Path(tmp_dir) / "generic_agent_test",
+            parallel_backend="joblib",
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
 
diff --git a/tests/agents/test_visualwebarena_agent.py b/tests/agents/test_visualwebarena_agent.py
index 33547a77..4cdd6fb6 100644
--- a/tests/agents/test_visualwebarena_agent.py
+++ b/tests/agents/test_visualwebarena_agent.py
@@ -2,9 +2,9 @@
 import tempfile
 
 import pytest
-from browsergym.experiments.loop import EnvArgs, ExpArgs
 
 from agentlab.agents.visualwebarena.agent import VisualWebArenaAgentArgs
+from agentlab.experiments.loop import EnvArgs, ExpArgs
 from agentlab.llm.llm_configs import CHAT_MODEL_ARGS_DICT
 
 
diff --git a/tests/experiments/test_launch_exp.py b/tests/experiments/test_launch_exp.py
index 1a58f797..384118bd 100644
--- a/tests/experiments/test_launch_exp.py
+++ b/tests/experiments/test_launch_exp.py
@@ -3,12 +3,16 @@
 from pathlib import Path
 
 import pytest
-from browsergym.experiments.loop import EnvArgs, ExpArgs
 
 from agentlab.agents.generic_agent.agent_configs import FLAGS_GPT_3_5, AGENT_4o_MINI
 from agentlab.agents.generic_agent.generic_agent import GenericAgentArgs
 from agentlab.analyze import inspect_results
-from agentlab.experiments.launch_exp import find_incomplete, non_dummy_count, run_experiments
+from agentlab.experiments.launch_exp import (
+    find_incomplete,
+    non_dummy_count,
+    run_experiments,
+)
+from agentlab.experiments.loop import EnvArgs, ExpArgs
 from agentlab.experiments.study import Study
 from agentlab.llm.chat_api import CheatMiniWoBLLMArgs
 
@@ -26,7 +30,6 @@ def test_relaunch_study():
 
 
 def _test_launch_system(backend="ray", cause_timeout=False):
-
     if cause_timeout:
         wait_time = 10
         avg_step_timeout = 0.5
@@ -47,7 +50,6 @@ def _test_launch_system(backend="ray", cause_timeout=False):
         )
 
     with tempfile.TemporaryDirectory() as tmp_dir:
-
         study_dir = Path(tmp_dir) / "generic_agent_test"
         run_experiments(
             n_jobs=2,
@@ -100,7 +102,6 @@ def test_timeout_ray():
 def test_4o_mini_on_miniwob_tiny_test():
     """Run with `pytest -m pricy`."""
     with tempfile.TemporaryDirectory() as tmp_dir:
-
         study = Study(agent_args=[AGENT_4o_MINI], benchmark="miniwob_tiny_test", dir=tmp_dir)
 
         study.run(n_jobs=4)

From 34f67b258b01d7faffee32de8c5541a1bfa74101 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 16:44:15 +0100
Subject: [PATCH 17/71] fix loop docstrings

---
 src/agentlab/experiments/loop.py | 36 ++++++++++++++++++++++++++++++--
 1 file changed, 34 insertions(+), 2 deletions(-)

diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index ac22e663..ae0dad36 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -53,6 +53,9 @@ def make_env(self, action_mapping, exp_dir, exp_task_kwargs: dict = {}):
             action_mapping: overrides the action mapping of the environment.
             exp_dir: will set some environment parameters (e.g., record_video_dir) with respect to the directory where the experiment is running.
             exp_task_kwargs: use with caution! Will override task parameters to experiment-specific values. Useful to set different server configs for different experiments, or output file paths within the experiment's folder (e.g., assistantbench).
+
+        Returns:
+            env: the gym environment.
         """
         extra_kwargs = {}
         if self.record_video:
@@ -177,6 +180,10 @@ def prepare(self, exp_root):
         """Prepare the experiment directory and save the experiment arguments.
 
         This enables inspecting experiments that are not run yet.
+
+        Args:
+            exp_root: str
+                The root directory where the experiment will be saved.
         """
         if self.env_args.task_seed is None:
             self.env_args.task_seed = np.random.randint(0, SEED_MAX)
@@ -535,6 +542,13 @@ def _aggregate_episode_stats(episode_info: list[StepInfo]):
     It will compute the sum and max of each value in the stats dict.
     These two summaries should cover many use cases. If more are needed, the
     user can compute other stats by reloading individual StepInfo.
+
+    Args:
+        episode_info: list[StepInfo]
+            The list of StepInfo objects to aggregate.
+    Returns:
+        dict
+            A dictionary containing the aggregated stats.
     """
 
     stats = defaultdict(list)
@@ -692,7 +706,8 @@ def tape(self) -> dict:
         Exports experiment trace in the format of serialized tape.
         Reuses tape segments if they were already placed in the agent_info during the experiment.
 
-        :returns: dict: serialized tape of the experiment
+        Returns:
+            dict: A dictionary serialized tape
         """
         steps = []
         for step_info in self.steps_info:
@@ -847,10 +862,13 @@ def logs(self):
 
     @property
     def status(self):
-        """Return one of the following status:
+        """Possible values:
         * "done": completed with no error
         * "error": completed with error
         * "incomplete": not completed yet (may be pending or just stalled)
+
+        Returns:
+            str: the status of the experiment. One of "done", "error", "incomplete".
         """
         try:
             summary_info = self.summary_info
@@ -886,6 +904,20 @@ def yield_all_exp_results(
 
     This will ignore all experiments that start with "_" or ".". use
     `load_hidden=True` to load them anyway.
+
+    Args:
+        savedir_base: str or Path
+            The base directory where the experiments are saved.
+        progress_fn: function
+            A function to show progress. Defaults to tqdm.
+        load_hidden: bool
+            If True, load hidden experiments (those starting with "_" or ".").
+        use_cache: bool
+            If True, use the cache of pre-loaded exp_results.
+
+    Yields:
+        ExpResult
+            An instance of ExpResult for each experiment found.
     """
 
     if not isinstance(savedir_base, list):

From 2295781eba981d69ff75aeda9d79160a45ff1c1b Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 16:54:31 +0100
Subject: [PATCH 18/71] fix gaia env, use agentlabs exp dirs

---
 scripts/run_gaia.py                     | 27 ++++++++++----
 src/agentlab/agents/tapeagent/agent.py  | 11 +++---
 src/agentlab/benchmarks/abstract_env.py |  5 ++-
 src/agentlab/benchmarks/gaia.py         | 49 ++++++++++++-------------
 tests/agents/test_gaia_agent.py         | 15 +++-----
 5 files changed, 58 insertions(+), 49 deletions(-)

diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index de016e29..65c46050 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -1,13 +1,24 @@
-from agentlab.agents.tapeagent import TapeAgentArgs
+import logging
+
+from agentlab.agents.tapeagent.agent import TapeAgentArgs
 from agentlab.benchmarks.gaia import GaiaBenchmark
 from agentlab.experiments.study import make_study
 
-exp_dir = "./outputs/gaia/debug1"
-agent_args = TapeAgentArgs("gaia_agent")
-study = make_study(
-    benchmark=GaiaBenchmark(split="validation", exp_dir=exp_dir),
-    agent_args=[agent_args],
-    comment="Gaia eval",
+logging.basicConfig(
+    level=logging.INFO,
+    force=True,
+    format="%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s - %(message)s",
+    handlers=[logging.StreamHandler()],
 )
 
-study.run(n_jobs=1)
+if __name__ == "__main__":
+    agent_args = TapeAgentArgs("gaia_agent")
+    study = make_study(
+        benchmark=GaiaBenchmark(split="validation"),
+        agent_args=[agent_args],
+        comment="Gaia eval",
+    )
+    print(f"Exp args list len: {len(study.exp_args_list)}")
+    study.exp_args_list = study.exp_args_list[:1]
+    print(f"Exp args list len: {len(study.exp_args_list)}")
+    study.run(n_jobs=1, n_relaunch=1, parallel_backend="sequential")
diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index e4137d00..e0dc869f 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -10,7 +10,6 @@
 from agentlab.agents.agent_args import AgentArgs
 
 logger = logging.getLogger(__name__)
-logger.setLevel(logging.INFO)
 
 
 @dataclass
@@ -18,7 +17,7 @@ class TapeAgentArgs(AgentArgs):
     agent_name: str
 
     def make_agent(self) -> bgym.Agent:
-        with hydra.initialize(config_path="conf"):
+        with hydra.initialize(config_path="conf", version_base="1.1"):
             config = hydra.compose(config_name=self.agent_name)
         agent: Agent = hydra.utils.instantiate(config)
         return TapeAgent(agent=agent, tape=Tape(steps=[]))
@@ -42,14 +41,14 @@ def obs_preprocessor(self, obs: Any) -> Any:
         logger.info(f"Observation: {obs}")
         return obs
 
-    def get_action(
-        self, obs: Observation | list[Observation]
-    ) -> tuple[str, bgym.AgentInfo]:
+    def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAgentInfo]:
         if isinstance(obs, Observation):
             obs = [obs]
         for observation in obs:
+            logger.info(f"Add observation: {type(observation)}")
             self.tape = self.tape.append(observation)
         thoughts = []
+        action = None
         for event in self.agent.run(self.tape):
             if not event.step:
                 continue
@@ -58,7 +57,7 @@ def get_action(
                 thoughts.append(event.step.llm_dict())
                 logger.info(f"Thought: {event.step.llm_view()}")
             elif isinstance(event.step, Action):
-                action = event.step.llm_view()
+                action = event.step
                 logger.info(f"Action: {action}")
                 break  # we stop at the first action
         return (action, TapeAgentInfo(thoughts=thoughts))
diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index f2e02c89..1abae2af 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -4,9 +4,12 @@
 from pydantic import BaseModel
 
 
-class AbstractEnvArgs(BaseModel):
+class AbstractEnvArgs(BaseModel, frozen=True):
     """Easily serialiazable class to store the arguments of an environment"""
 
+    task_seed: int = 0
+    task_name: str = ""
+
     @abstractmethod
     def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
         """Create an instance of the environment with the arguments stored in this object.
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index c1dfb22d..0c504702 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -1,5 +1,7 @@
+import logging
 import os
 import shutil
+from pathlib import Path
 from typing import Any, Literal
 
 import datasets
@@ -15,6 +17,8 @@
 from agentlab.benchmarks.abstract_env import AbstractBenchmark, AbstractEnvArgs
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
+logger = logging.getLogger(__name__)
+
 
 class GaiaGym(MultiToolGym):
     task: dict
@@ -25,40 +29,41 @@ def __init__(self, tools: list[Tool | StatefulTool], task: dict, exp_dir: str):
         self.task = task
         self.exp_dir = exp_dir
 
-    def reset(self) -> tuple[list[Observation], dict]:
+    def reset(self, seed=None) -> tuple[list[Observation], dict]:
         super().reset()
-        print("task:", self.task)
         question = GaiaQuestion.from_task(self.task)
         steps = [question]
         if image_obs := with_image(question):
-            print("image_obs:", image_obs)
             steps.append(image_obs)
-        return steps
+        return steps, {}
+
+    def step(self, action: str) -> tuple[Observation, float, bool, bool, dict]:
+        logger.info(f"step called with action: {type(action)}")
+        super().step(action)
 
 
 class GaiaGymArgs(AbstractEnvArgs):
     task: dict[str, Any]
-    exp_dir: str
     viewport_chars: int = 64000
 
-    def make_env(self) -> GaiaGym:
-        self.init_code_sandbox()
+    def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
+        exp_dir = str(exp_dir)
+        self.init_code_sandbox(exp_dir)
         tools = [
             WebSearch(),
-            VideoReader(exp_path=self.exp_dir),
-            Browser(exp_path=self.exp_dir, viewport_chars=self.viewport_chars),
-            CodeExecutor(exp_path=self.exp_dir),
+            VideoReader(exp_path=exp_dir),
+            Browser(exp_path=exp_dir, viewport_chars=self.viewport_chars),
+            CodeExecutor(exp_path=exp_dir),
         ]
-        env = GaiaGym(tools=tools, task=self.task, exp_dir=self.exp_dir)
+        env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir)
         return env
 
-    def init_code_sandbox(self) -> None:
-        code_path = os.path.join(self.exp_dir, "code")
+    def init_code_sandbox(self, exp_dir: str) -> None:
+        code_path = os.path.join(exp_dir, "code")
         os.makedirs(code_path, exist_ok=True)
-        container_name = self.exp_dir.replace("/", "-")
         ContainerExecutor(
             work_dir=code_path,
-            container_name=container_name,
+            container_name="gaia_code_sandbox",
             restart_if_exists=False,
             stop_container=False,
             no_deps=True,
@@ -66,7 +71,6 @@ def init_code_sandbox(self) -> None:
 
 
 class GaiaBenchmark(AbstractBenchmark):
-    exp_dir: str
     name: str = "gaia"
     split: Literal["test", "validation"]
     env_args_list: list[GaiaGymArgs] = None
@@ -75,8 +79,7 @@ def model_post_init(self, __context: Any) -> None:
         self.env_args_list = []
         dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
         for task in dataset:
-            task_dir = os.path.join(self.name, task["task_id"])
-            env_args = GaiaGymArgs(task=task, exp_dir=task_dir)
+            env_args = GaiaGymArgs(task=task)
             self.env_args_list.append(env_args)
 
 
@@ -110,7 +113,7 @@ def from_task(cls, question: dict):
 
 
 def with_image(question: GaiaQuestion) -> ImageObservation | None:
-    if question.filename.endswith((".png", ".jpg", ".jpeg")):
+    if question.filename and question.filename.endswith((".png", ".jpg", ".jpeg")):
         return ImageObservation(
             image_path=question.filename,
             image_caption="Attached image",
@@ -130,9 +133,7 @@ class GaiaAnswer(StopStep):
     """
 
     kind: Literal["gaia_answer_action"] = "gaia_answer_action"
-    success: bool = Field(
-        description="True if the task was successful, False otherwise"
-    )
+    success: bool = Field(description="True if the task was successful, False otherwise")
     overview: str = Field(
         description="List of steps performed to answer the question. If the task was not successful, includes the reason for failure"
     )
@@ -140,6 +141,4 @@ class GaiaAnswer(StopStep):
         description="Unit of measurement for the answer, if applicable; otherwise an empty string"
     )
     answer: Any = Field(description="Short final answer")
-    long_answer: str = Field(
-        description="Detailed final answer not restricted by format rules"
-    )
+    long_answer: str = Field(description="Detailed final answer not restricted by format rules")
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index 76a8ef0c..a3efa2b0 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -14,14 +14,11 @@ def test_agent_creation():
 
 
 def test_gaia_bench():
-    exp_dir = "/tmp/"
-    bench = GaiaBenchmark(exp_dir=exp_dir, split="validation")
+    bench = GaiaBenchmark(split="validation")
     assert bench.name == "gaia"
     assert bench.split == "validation"
-    assert bench.exp_dir == exp_dir
     assert len(bench.env_args_list) == 165
 
-    assert bench.env_args_list[5].exp_dir == "gaia/32102e3e-d12a-4209-9163-7b3a104efe5d"
     assert bench.env_args_list[5].viewport_chars == 64000
     task = bench.env_args_list[5].task
     question = """The attached spreadsheet shows the inventory for a movie and video game rental store in Seattle, Washington. What is the title of the oldest Blu-Ray recorded in this spreadsheet? Return it as appearing in the spreadsheet."""
@@ -39,19 +36,19 @@ def test_gaia_bench():
 
 
 def test_gaia_gym_reset():
+    bench = GaiaBenchmark(split="validation")
     exp_dir = "/tmp/"
-    bench = GaiaBenchmark(exp_dir=exp_dir, split="validation")
 
     args = bench.env_args_list[5]
-    env = args.make_env()
-    steps = env.reset()
+    env = args.make_env(exp_dir)
+    steps, _ = env.reset()
     assert len(steps) == 1
     assert isinstance(steps[0], GaiaQuestion)
     assert steps[0].content == args.task["Question"]
 
     args = bench.env_args_list[20]
-    env = args.make_env()
-    steps = env.reset()
+    env = args.make_env(exp_dir)
+    steps, _ = env.reset()
     assert len(steps) == 2
     assert isinstance(steps[0], GaiaQuestion)
     assert steps[0].content == args.task["Question"]

From c65cf9def4b3edf81f448a6dc2b2c0eecacae7fd Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:30:52 +0100
Subject: [PATCH 19/71] add available tools to the agent config

---
 .../agents/tapeagent/conf/gaia_agent.yaml     | 31 +++++++++++++++++++
 .../agents/tapeagent/conf/llm/gpt4o.yaml      |  2 +-
 2 files changed, 32 insertions(+), 1 deletion(-)

diff --git a/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml b/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
index cef5078e..11ddf71e 100644
--- a/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
+++ b/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
@@ -5,6 +5,37 @@ defaults:
 _target_: tapeagents.agent.Agent
 name : gaia_agent
 max_iterations: 2
+tools_description: |
+  - WebSearch - Performs a search in the web, wikipedia or youtube
+  - VideoReader - Opens video from a youtube URL. Can access the video content, thumbnail, subtitles and audio.
+  - Browser - Browser tool that can load web pages and interact with their content.
+  - CodeExecutor - Executes the python code snippet
+known_actions:
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.web_search.SearchAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.steps.WatchVideoAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.code_executor.PythonCodeAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.ClickAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.SelectOptionAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.InputTextAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.GoBackAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.GoForwardAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.OpenUrlAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.HoverAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.simple_browser.PageDownAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.simple_browser.PageUpAction
+
 templates:
   system_prompt: |
     You are an expert AI Agent trained to assist users with complex information processing tasks.
diff --git a/src/agentlab/agents/tapeagent/conf/llm/gpt4o.yaml b/src/agentlab/agents/tapeagent/conf/llm/gpt4o.yaml
index 8caf7fec..0fb74026 100644
--- a/src/agentlab/agents/tapeagent/conf/llm/gpt4o.yaml
+++ b/src/agentlab/agents/tapeagent/conf/llm/gpt4o.yaml
@@ -1,6 +1,6 @@
 _target_: tapeagents.llms.LiteLLM
 model_name: gpt-4o-2024-08-06
-use_cache: false
+use_cache: true
 context_size: 128000
 parameters:
   temperature: 0.2
\ No newline at end of file

From 921958f61c03ca1f4292aba7a39fcb1b7ca739d4 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:31:16 +0100
Subject: [PATCH 20/71] small adjustments in loop

---
 src/agentlab/experiments/loop.py | 10 ++++------
 1 file changed, 4 insertions(+), 6 deletions(-)

diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index ae0dad36..b0dbad8b 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -225,7 +225,6 @@ def _make_dir(self, exp_root):
     # the parsing error of an action should not be re-run.
     def run(self):
         """Run the experiment and save the results"""
-        print("LOCAL EXP ARG RUN")
         # start writing logs to run logfile
         self._set_logger()
 
@@ -245,9 +244,7 @@ def run(self):
             )
 
             logger.debug("Environment created.")
-            print("Environment created.")
             step_info = StepInfo(step=0)
-            print("StepInfo created.")
             episode_info = [step_info]
             step_info.from_reset(
                 env,
@@ -272,8 +269,9 @@ def run(self):
                 )
                 logger.debug("Step info saved.")
 
-                _send_chat_info(env.unwrapped.chat, action, step_info.agent_info)
-                logger.debug("Chat info sent.")
+                if hasattr(env.unwrapped, "chat") and isinstance(env.unwrapped.chat, Chat):
+                    _send_chat_info(env.unwrapped.chat, action, step_info.agent_info)
+                    logger.debug("Chat info sent.")
 
                 if action is None:
                     logger.debug("Agent returned None action. Ending episode.")
@@ -514,7 +512,7 @@ def save_step_info(self, exp_dir, save_json=False, save_screenshot=True, save_so
             with open(exp_dir / "steps_info.json", "w") as f:
                 json.dump(self, f, indent=4, cls=DataclassJSONEncoder)
 
-        if self.obs is not None:
+        if isinstance(self.obs, dict):
             # add the screenshots back to the obs
             # why do we need this?
             if screenshot is not None:

From 3ecd519e8891ceb54b088269705e3369b8bc6876 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:31:34 +0100
Subject: [PATCH 21/71] better logging configuration in study

---
 src/agentlab/experiments/study.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/src/agentlab/experiments/study.py b/src/agentlab/experiments/study.py
index f4ec8106..509afd60 100644
--- a/src/agentlab/experiments/study.py
+++ b/src/agentlab/experiments/study.py
@@ -33,6 +33,7 @@
 def make_study(
     agent_args: list[AgentArgs] | AgentArgs,
     benchmark: bgym.Benchmark | str,
+    logging_level=logging.WARNING,
     logging_level_stdout=logging.WARNING,
     suffix="",
     comment=None,
@@ -98,7 +99,8 @@ def make_study(
                 Study(
                     [agent],
                     benchmark,
-                    logging_level=logging_level_stdout,
+                    logging_level=logging_level,
+                    logging_level_stdout=logging_level_stdout,
                     suffix=suffix,
                     comment=comment,
                     ignore_dependencies=ignore_dependencies,
@@ -112,7 +114,8 @@ def make_study(
         return Study(
             agent_args,
             benchmark,
-            logging_level=logging_level_stdout,
+            logging_level=logging_level,
+            logging_level_stdout=logging_level_stdout,
             suffix=suffix,
             comment=comment,
             ignore_dependencies=ignore_dependencies,

From 4264168bb7225d9d0e8740ad525b6df52764c055 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:32:11 +0100
Subject: [PATCH 22/71] fix gaia env

---
 src/agentlab/benchmarks/gaia.py          |  9 ++++---
 src/agentlab/benchmarks/multitool_gym.py | 31 ++++++++++++++++--------
 2 files changed, 26 insertions(+), 14 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 0c504702..23f00175 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -28,6 +28,7 @@ def __init__(self, tools: list[Tool | StatefulTool], task: dict, exp_dir: str):
         super().__init__(tools=tools)
         self.task = task
         self.exp_dir = exp_dir
+        os.makedirs(".cache", exist_ok=True)
 
     def reset(self, seed=None) -> tuple[list[Observation], dict]:
         super().reset()
@@ -38,11 +39,11 @@ def reset(self, seed=None) -> tuple[list[Observation], dict]:
         return steps, {}
 
     def step(self, action: str) -> tuple[Observation, float, bool, bool, dict]:
-        logger.info(f"step called with action: {type(action)}")
-        super().step(action)
+        logger.info(f"env step called with action {type(action)}")
+        return super().step(action)
 
 
-class GaiaGymArgs(AbstractEnvArgs):
+class GaiaGymArgs(AbstractEnvArgs, frozen=True):
     task: dict[str, Any]
     viewport_chars: int = 64000
 
@@ -79,7 +80,7 @@ def model_post_init(self, __context: Any) -> None:
         self.env_args_list = []
         dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
         for task in dataset:
-            env_args = GaiaGymArgs(task=task)
+            env_args = GaiaGymArgs(task_name="gaia_" + task["task_id"], task=task)
             self.env_args_list.append(env_args)
 
 
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 1b7d1fd1..6941a8fe 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -1,7 +1,8 @@
+import time
 from typing import Annotated, Union
 
 from pydantic import Field, TypeAdapter
-from tapeagents.core import Action, Observation, Tape
+from tapeagents.core import Action, Observation, StopStep, Tape
 from tapeagents.environment import ToolCollectionEnvironment
 from tapeagents.tools.base import StatefulTool, Tool
 
@@ -21,17 +22,27 @@ def __init__(self, tools: list[Tool | StatefulTool]):
     def reset(self):
         self._env.reset()
 
-    def step(self, action: str) -> tuple[Observation, float, bool, bool, dict]:
-        try:
-            action_step = self._actions_parser.validate_json(action)
-        except Exception:
-            raise ValueError("Action must be a valid JSON dict")
-        assert isinstance(action_step, Action), "{action_step.kind} is not an Action"
-        observation = self._env.step(action_step)
+    def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
+        assert isinstance(action, Action)
+
+        action_exec_start = time.time()
+        terminated = isinstance(action, StopStep)
+        if terminated:
+            observation = Observation()  # empty observation
+        else:
+            observation = self._env.step(action)
+        action_exec_stop = time.time()
+
         reward = self.calculate_reward()
-        terminated = False
+
         truncated = False
-        env_info = {"step_metadata": observation.metadata}
+
+        env_info = {
+            "step_metadata": observation.metadata,
+            "action_exec_start": action_exec_start,
+            "action_exec_stop": action_exec_stop,
+            "action_exec_timeout": 0.0,
+        }
         return observation, reward, terminated, truncated, env_info
 
     def calculate_reward(self) -> float:

From 5b03e9a4602d91333299bf7a1255dcb0ebf67a7f Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:32:28 +0100
Subject: [PATCH 23/71] fix gaia agent

---
 scripts/run_gaia.py                    |  5 +++--
 src/agentlab/agents/tapeagent/agent.py | 31 +++++++++++++++++---------
 2 files changed, 23 insertions(+), 13 deletions(-)

diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index 65c46050..c1e3d49c 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -12,11 +12,12 @@
 )
 
 if __name__ == "__main__":
-    agent_args = TapeAgentArgs("gaia_agent")
     study = make_study(
         benchmark=GaiaBenchmark(split="validation"),
-        agent_args=[agent_args],
+        agent_args=TapeAgentArgs("gaia_agent"),
         comment="Gaia eval",
+        logging_level=logging.DEBUG,
+        logging_level_stdout=logging.DEBUG,
     )
     print(f"Exp args list len: {len(study.exp_args_list)}")
     study.exp_args_list = study.exp_args_list[:1]
diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index e0dc869f..3bc2f878 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -10,6 +10,7 @@
 from agentlab.agents.agent_args import AgentArgs
 
 logger = logging.getLogger(__name__)
+logger.setLevel(logging.INFO)
 
 
 @dataclass
@@ -49,15 +50,23 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
             self.tape = self.tape.append(observation)
         thoughts = []
         action = None
-        for event in self.agent.run(self.tape):
-            if not event.step:
-                continue
-            self.tape = self.tape.append(event.step)
-            if isinstance(event.step, Thought):
-                thoughts.append(event.step.llm_dict())
-                logger.info(f"Thought: {event.step.llm_view()}")
-            elif isinstance(event.step, Action):
-                action = event.step
-                logger.info(f"Action: {action}")
-                break  # we stop at the first action
+        while not action:
+            for event in self.agent.run(self.tape):
+                if event.final_tape:
+                    logger.info(
+                        f"agent run final tape state: {[type(s).__name__ for s in self.tape]}"
+                    )
+                if not event.step:
+                    continue
+                self.tape = self.tape.append(event.step)
+                if isinstance(event.step, Thought):
+                    thoughts.append(event.step.llm_dict())
+                    logger.info(f"Thought: {event.step.llm_view()}")
+                elif isinstance(event.step, Action) and not action:
+                    action = event.step
+                    logger.info(f"Action: {action}")
+                    # we stop at the first action
+                else:
+                    logger.info(f"Other step: {type(event.step)}")
+        logger.info(f"Tape state: {[type(s).__name__ for s in self.tape]}")
         return (action, TapeAgentInfo(thoughts=thoughts))

From 0b4ce04884ceb0c8f699fa7b8d5343707185a28b Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:32:46 +0100
Subject: [PATCH 24/71] do not fail on objects in df

---
 src/agentlab/analyze/inspect_results.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/src/agentlab/analyze/inspect_results.py b/src/agentlab/analyze/inspect_results.py
index 3532215b..7d043fce 100644
--- a/src/agentlab/analyze/inspect_results.py
+++ b/src/agentlab/analyze/inspect_results.py
@@ -33,7 +33,11 @@ def get_constants_and_variables(df: pd.DataFrame, drop_constants: bool = False):
     constants = {}
     variable_keys = []
     for col in df.columns:
-        if df[col].nunique(dropna=False) == 1:
+        try:
+            nuniq = df[col].nunique(dropna=False)
+        except TypeError:
+            nuniq = 0  # non hashable types are considered variables
+        if nuniq == 1:
             if isinstance(df[col].iloc[0], np.generic):
                 val = df[col].iloc[0].item()
             else:

From 809ad00447b8a5624c7be81cb4d98ad9fa3e6a77 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 18:40:48 +0100
Subject: [PATCH 25/71] fix docstrings

---
 src/agentlab/experiments/loop.py  | 1 +
 src/agentlab/experiments/study.py | 2 ++
 2 files changed, 3 insertions(+)

diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index b0dbad8b..15c60fb4 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -544,6 +544,7 @@ def _aggregate_episode_stats(episode_info: list[StepInfo]):
     Args:
         episode_info: list[StepInfo]
             The list of StepInfo objects to aggregate.
+
     Returns:
         dict
             A dictionary containing the aggregated stats.
diff --git a/src/agentlab/experiments/study.py b/src/agentlab/experiments/study.py
index 509afd60..6f0e6fdc 100644
--- a/src/agentlab/experiments/study.py
+++ b/src/agentlab/experiments/study.py
@@ -50,6 +50,8 @@ def make_study(
         benchmark: bgym.Benchmark | str
             The benchmark to run the agents on. See bgym.DEFAULT_BENCHMARKS for the main ones. You
             can also make your own by modifying an existing one.
+        logging_level: int
+            The logging level for file log.
         logging_level_stdout: int
             The logging level for the stdout of the main script. Each job will have its own logging
             level that will save into file and can be seen in agentlab-xray.

From 846130183740b3935456aaabf6c2ccd45d5bd507 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 19:29:19 +0100
Subject: [PATCH 26/71] add gaia scorer for reward in gym, fix envargs
 serialization

---
 scripts/run_gaia.py                      |   4 +-
 src/agentlab/agents/tapeagent/agent.py   |   8 +-
 src/agentlab/benchmarks/abstract_env.py  |  19 ++--
 src/agentlab/benchmarks/gaia.py          | 138 +++++++++++++++++++++--
 src/agentlab/benchmarks/multitool_gym.py |   4 +-
 src/agentlab/experiments/launch_exp.py   |   2 +-
 6 files changed, 149 insertions(+), 26 deletions(-)

diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index c1e3d49c..b20efc99 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -16,8 +16,8 @@
         benchmark=GaiaBenchmark(split="validation"),
         agent_args=TapeAgentArgs("gaia_agent"),
         comment="Gaia eval",
-        logging_level=logging.DEBUG,
-        logging_level_stdout=logging.DEBUG,
+        logging_level=logging.INFO,
+        logging_level_stdout=logging.INFO,
     )
     print(f"Exp args list len: {len(study.exp_args_list)}")
     study.exp_args_list = study.exp_args_list[:1]
diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 3bc2f878..408b69ab 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -39,7 +39,7 @@ def __init__(self, agent: Agent, tape: Tape):
         self.tape = tape
 
     def obs_preprocessor(self, obs: Any) -> Any:
-        logger.info(f"Observation: {obs}")
+        logger.info(f"Observations: {type(obs)}")
         return obs
 
     def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAgentInfo]:
@@ -52,10 +52,6 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
         action = None
         while not action:
             for event in self.agent.run(self.tape):
-                if event.final_tape:
-                    logger.info(
-                        f"agent run final tape state: {[type(s).__name__ for s in self.tape]}"
-                    )
                 if not event.step:
                     continue
                 self.tape = self.tape.append(event.step)
@@ -64,7 +60,7 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
                     logger.info(f"Thought: {event.step.llm_view()}")
                 elif isinstance(event.step, Action) and not action:
                     action = event.step
-                    logger.info(f"Action: {action}")
+                    logger.info(f"Action: {action.llm_view()}")
                     # we stop at the first action
                 else:
                     logger.info(f"Other step: {type(event.step)}")
diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index 1abae2af..8b2c77e8 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -1,15 +1,12 @@
 from abc import ABC, abstractmethod
+from dataclasses import dataclass
 
 import gymnasium as gym
+from dataclasses_json import DataClassJsonMixin
 from pydantic import BaseModel
 
 
-class AbstractEnvArgs(BaseModel, frozen=True):
-    """Easily serialiazable class to store the arguments of an environment"""
-
-    task_seed: int = 0
-    task_name: str = ""
-
+class AbstractEnvArgs(ABC):
     @abstractmethod
     def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
         """Create an instance of the environment with the arguments stored in this object.
@@ -25,9 +22,17 @@ def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
         """
 
 
+@dataclass
+class SerializableEnvArgs(AbstractEnvArgs, DataClassJsonMixin):
+    """Easily serialiazable class to store the arguments of an environment"""
+
+    task_seed: int = 0
+    task_name: str = ""
+
+
 class AbstractBenchmark(BaseModel):
     name: str
-    env_args_list: list[AbstractEnvArgs]
+    env_args_list: list
 
     def get_version(self) -> int:
         return "1"
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 23f00175..ad76fdd4 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -1,12 +1,14 @@
 import logging
 import os
+import re
 import shutil
+import string
 from pathlib import Path
 from typing import Any, Literal
 
 import datasets
 from pydantic import Field
-from tapeagents.core import Observation, StopStep, Thought
+from tapeagents.core import Action, Observation, StopStep, Thought
 from tapeagents.environment import ContainerExecutor, StatefulTool, Tool
 from tapeagents.steps import ImageObservation
 from tapeagents.tools.browser import Browser
@@ -14,7 +16,7 @@
 from tapeagents.tools.media_reader import VideoReader
 from tapeagents.tools.web_search import WebSearch
 
-from agentlab.benchmarks.abstract_env import AbstractBenchmark, AbstractEnvArgs
+from agentlab.benchmarks.abstract_env import AbstractBenchmark, SerializableEnvArgs
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
 logger = logging.getLogger(__name__)
@@ -38,14 +40,41 @@ def reset(self, seed=None) -> tuple[list[Observation], dict]:
             steps.append(image_obs)
         return steps, {}
 
-    def step(self, action: str) -> tuple[Observation, float, bool, bool, dict]:
-        logger.info(f"env step called with action {type(action)}")
-        return super().step(action)
+    def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
+        logger.info(f"Gym step called with action {type(action)}")
+        observation, reward, terminated, truncated, env_info = super().step(action)
+        logger.info(f"Gym observation: {observation.short_view()}")
+        return observation, reward, terminated, truncated, env_info
 
+    def calculate_reward(self, action: Action) -> float:
+        if isinstance(action, GaiaAnswer):
+            model_answer = action.answer
+            ground_truth = self.task["Final answer"]
+            reward = 1.0 if question_scorer(model_answer, ground_truth) else 0.0
+        else:
+            reward = 0.0
 
-class GaiaGymArgs(AbstractEnvArgs, frozen=True):
+        if reward == 1.0:
+            logger.info(f"Task {self.task['task_id']} solved.")
+        else:
+            logger.info(f"Task {self.task['task_id']} failed.")
+
+        return reward
+
+
+class GaiaGymArgs(SerializableEnvArgs):
     task: dict[str, Any]
-    viewport_chars: int = 64000
+    viewport_chars: int
+    task_seed: int
+    task_name: str
+
+    def __init__(
+        self, task_name: str, task: dict[str, Any], viewport_chars: int = 64000, task_seed: int = 0
+    ):
+        self.task_name = task_name
+        self.task = task
+        self.viewport_chars = viewport_chars
+        self.task_seed = task_seed
 
     def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         exp_dir = str(exp_dir)
@@ -80,7 +109,7 @@ def model_post_init(self, __context: Any) -> None:
         self.env_args_list = []
         dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
         for task in dataset:
-            env_args = GaiaGymArgs(task_name="gaia_" + task["task_id"], task=task)
+            env_args = GaiaGymArgs(task_name="gaia." + task["task_id"], task=task)
             self.env_args_list.append(env_args)
 
 
@@ -143,3 +172,96 @@ class GaiaAnswer(StopStep):
     )
     answer: Any = Field(description="Short final answer")
     long_answer: str = Field(description="Detailed final answer not restricted by format rules")
+
+
+def normalize_number_str(number_str: str) -> float:
+    # we replace these common units and commas to allow
+    # conversion to float
+    for char in ["$", "%", ","]:
+        number_str = number_str.replace(char, "")
+    try:
+        return float(number_str)
+    except ValueError:
+        logger.info(f"String {number_str} cannot be normalized to number str.")
+        return float("inf")
+
+
+def split_string(
+    s: str,
+    char_list: list[str] = [",", ";"],
+) -> list[str]:
+    pattern = f"[{''.join(char_list)}]"
+    return re.split(pattern, s)
+
+
+def question_scorer(
+    model_answer: str,
+    ground_truth: str,
+) -> bool:
+    def is_float(element: any) -> bool:
+        try:
+            float(element)
+            return True
+        except ValueError:
+            return False
+
+    # if gt is a number
+    if is_float(ground_truth):
+        logger.info(f"Evaluating {model_answer} as a number.")
+        normalized_answer = normalize_number_str(model_answer)
+        return normalized_answer == float(ground_truth)
+
+    # if gt is a list
+    elif any(char in ground_truth for char in [",", ";"]):
+        logger.info(f"Evaluating {model_answer} as a comma separated list.")
+        # question with the fish: normalization removes punct
+
+        gt_elems = split_string(ground_truth)
+        ma_elems = split_string(model_answer)
+
+        # check length is the same
+        if len(gt_elems) != len(ma_elems):
+            logger.warning("Answer lists have different lengths, returning False.", UserWarning)
+            return False
+
+        # compare each element as float or str
+        comparisons = []
+        for ma_elem, gt_elem in zip(ma_elems, gt_elems):
+            if is_float(gt_elem):
+                normalized_ma_elem = normalize_number_str(ma_elem)
+                comparisons.append(normalized_ma_elem == float(gt_elem))
+            else:
+                # we do not remove punct since comparisons can include punct
+                comparisons.append(
+                    normalize_str(ma_elem, remove_punct=False)
+                    == normalize_str(gt_elem, remove_punct=False)
+                )
+        return all(comparisons)
+
+    # if gt is a str
+    else:
+        logger.info(f"Evaluating {model_answer} as a string.")
+        return normalize_str(model_answer) == normalize_str(ground_truth)
+
+
+def normalize_str(input_str, remove_punct=True) -> str:
+    """
+    Normalize a string by:
+    - Removing all white spaces
+    - Optionally removing punctuation (if remove_punct is True)
+    - Converting to lowercase
+    Parameters:
+    - input_str: str, the string to normalize
+    - remove_punct: bool, whether to remove punctuation (default: True)
+    Returns:
+    - str, the normalized string
+    """
+    # Remove all white spaces. Required e.g for seagull vs. sea gull
+    no_spaces = re.sub(r"\s", "", input_str)
+
+    # Remove punctuation, if specified.
+    if remove_punct:
+        translator = str.maketrans("", "", string.punctuation)
+        return no_spaces.lower().translate(translator)
+    else:
+        return no_spaces.lower()
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 6941a8fe..91183b3e 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -33,7 +33,7 @@ def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
             observation = self._env.step(action)
         action_exec_stop = time.time()
 
-        reward = self.calculate_reward()
+        reward = self.calculate_reward(action)
 
         truncated = False
 
@@ -45,7 +45,7 @@ def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
         }
         return observation, reward, terminated, truncated, env_info
 
-    def calculate_reward(self) -> float:
+    def calculate_reward(self, action: Action) -> float:
         return 0.0
 
     def close(self):
diff --git a/src/agentlab/experiments/launch_exp.py b/src/agentlab/experiments/launch_exp.py
index ac91becd..4206d8a4 100644
--- a/src/agentlab/experiments/launch_exp.py
+++ b/src/agentlab/experiments/launch_exp.py
@@ -98,7 +98,7 @@ def run_experiments(
         logging.info("All jobs are finished. Calling agent_args.close() on all agents...")
         for exp_args in exp_args_list:
             exp_args.agent_args.close()
-        logging.info("Experiment finished.")
+        logging.info(f"Experiment finished and saved in {study_dir}.")
 
 
 def find_incomplete(study_dir: str | Path, include_errors=True):

From ece093198926596cbfaf48a3c60827ac0c11a456 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 19:31:54 +0100
Subject: [PATCH 27/71] fix docstring

---
 src/agentlab/benchmarks/gaia.py | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index ad76fdd4..cbd06d11 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -250,11 +250,13 @@ def normalize_str(input_str, remove_punct=True) -> str:
     - Removing all white spaces
     - Optionally removing punctuation (if remove_punct is True)
     - Converting to lowercase
-    Parameters:
-    - input_str: str, the string to normalize
-    - remove_punct: bool, whether to remove punctuation (default: True)
+
+    Args:
+        input_str: str, the string to normalize
+        remove_punct: bool, whether to remove punctuation (default: True)
+
     Returns:
-    - str, the normalized string
+        str, the normalized string
     """
     # Remove all white spaces. Required e.g for seagull vs. sea gull
     no_spaces = re.sub(r"\s", "", input_str)

From 518e17e5e624bb1ee5e935f6301a711f4b2c9802 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 19:46:42 +0100
Subject: [PATCH 28/71] gpt4o mini for faster exps

---
 src/agentlab/agents/tapeagent/conf/gaia_agent.yaml | 2 +-
 src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml | 6 ++++++
 2 files changed, 7 insertions(+), 1 deletion(-)
 create mode 100644 src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml

diff --git a/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml b/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
index 11ddf71e..41bc2cb1 100644
--- a/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
+++ b/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
@@ -1,5 +1,5 @@
 defaults:
-  - llm@llms.default: gpt4o
+  - llm@llms.default: gpt4o_mini
   - _self_
 
 _target_: tapeagents.agent.Agent
diff --git a/src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml b/src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml
new file mode 100644
index 00000000..efc462cb
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml
@@ -0,0 +1,6 @@
+_target_: tapeagents.llms.LiteLLM
+model_name: gpt-4o-mini-2024-07-18
+use_cache: true
+context_size: 128000
+parameters:
+  temperature: 0.2
\ No newline at end of file

From f14ef4755c7f8bb289865c945b10e3a02fb27ed3 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 19:49:44 +0100
Subject: [PATCH 29/71] fix conf path

---
 src/agentlab/agents/tapeagent/conf/{ => llm}/gpt4o_mini.yaml | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename src/agentlab/agents/tapeagent/conf/{ => llm}/gpt4o_mini.yaml (100%)

diff --git a/src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml b/src/agentlab/agents/tapeagent/conf/llm/gpt4o_mini.yaml
similarity index 100%
rename from src/agentlab/agents/tapeagent/conf/gpt4o_mini.yaml
rename to src/agentlab/agents/tapeagent/conf/llm/gpt4o_mini.yaml

From d34593ee40efed09780b387449d1afe78ea64cde Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 20:05:41 +0100
Subject: [PATCH 30/71] fix code exec container name, add support for gaia
 levels in benchmark

---
 src/agentlab/benchmarks/gaia.py | 12 ++++++++++--
 1 file changed, 10 insertions(+), 2 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index cbd06d11..d90a99bc 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -83,7 +83,7 @@ def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
             WebSearch(),
             VideoReader(exp_path=exp_dir),
             Browser(exp_path=exp_dir, viewport_chars=self.viewport_chars),
-            CodeExecutor(exp_path=exp_dir),
+            CodeExecutor(exp_path=exp_dir, reuse_computer_container=True),
         ]
         env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir)
         return env
@@ -91,9 +91,11 @@ def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
     def init_code_sandbox(self, exp_dir: str) -> None:
         code_path = os.path.join(exp_dir, "code")
         os.makedirs(code_path, exist_ok=True)
+        container_name = "gaia_code_sandbox"
+        os.environ["COMPUTER_CONTAINER_NAME"] = container_name
         ContainerExecutor(
             work_dir=code_path,
-            container_name="gaia_code_sandbox",
+            container_name=container_name,
             restart_if_exists=False,
             stop_container=False,
             no_deps=True,
@@ -103,14 +105,20 @@ def init_code_sandbox(self, exp_dir: str) -> None:
 class GaiaBenchmark(AbstractBenchmark):
     name: str = "gaia"
     split: Literal["test", "validation"]
+    level: Literal["1", "2", "3", "all"] = "all"
     env_args_list: list[GaiaGymArgs] = None
 
     def model_post_init(self, __context: Any) -> None:
         self.env_args_list = []
         dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
         for task in dataset:
+            if self.level != "all" and task["Level"] != self.level:
+                continue
             env_args = GaiaGymArgs(task_name="gaia." + task["task_id"], task=task)
             self.env_args_list.append(env_args)
+        logger.info(
+            f"Loaded {len(self.env_args_list)} tasks from {self.split} split of GAIA benchmark."
+        )
 
 
 class ExtractedFacts(Thought):

From ce6f0630589902507f270b0fac20f71a5d4097a6 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 20:06:10 +0100
Subject: [PATCH 31/71] gaia eval with 5 ray jobs on level 1 validation

---
 scripts/run_gaia.py | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index b20efc99..84af95f7 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -13,13 +13,11 @@
 
 if __name__ == "__main__":
     study = make_study(
-        benchmark=GaiaBenchmark(split="validation"),
+        benchmark=GaiaBenchmark(split="validation", level="1"),
         agent_args=TapeAgentArgs("gaia_agent"),
         comment="Gaia eval",
         logging_level=logging.INFO,
         logging_level_stdout=logging.INFO,
     )
-    print(f"Exp args list len: {len(study.exp_args_list)}")
-    study.exp_args_list = study.exp_args_list[:1]
-    print(f"Exp args list len: {len(study.exp_args_list)}")
-    study.run(n_jobs=1, n_relaunch=1, parallel_backend="sequential")
+    # study.exp_args_list = study.exp_args_list[:1]
+    study.run(n_jobs=5, n_relaunch=1)

From 3e0767850ecce226187d5e508942f3fdde72a9fc Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 20:07:19 +0100
Subject: [PATCH 32/71] fix

---
 src/agentlab/benchmarks/gaia.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index d90a99bc..c259c107 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -229,7 +229,7 @@ def is_float(element: any) -> bool:
 
         # check length is the same
         if len(gt_elems) != len(ma_elems):
-            logger.warning("Answer lists have different lengths, returning False.", UserWarning)
+            logger.warning("Answer lists have different lengths, returning False.")
             return False
 
         # compare each element as float or str

From 1bf9d328923c22ee41fb84b759c39a17ec53dcbb Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 13 Mar 2025 20:29:12 +0100
Subject: [PATCH 33/71] fix thoughts storage

---
 src/agentlab/agents/tapeagent/agent.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 408b69ab..10cd20a1 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -48,7 +48,7 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
         for observation in obs:
             logger.info(f"Add observation: {type(observation)}")
             self.tape = self.tape.append(observation)
-        thoughts = []
+        thoughts: list[Thought] = []
         action = None
         while not action:
             for event in self.agent.run(self.tape):
@@ -56,7 +56,7 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
                     continue
                 self.tape = self.tape.append(event.step)
                 if isinstance(event.step, Thought):
-                    thoughts.append(event.step.llm_dict())
+                    thoughts.append(event.step)
                     logger.info(f"Thought: {event.step.llm_view()}")
                 elif isinstance(event.step, Action) and not action:
                     action = event.step

From 4c9d14a4fd684c0a653db3e7e43cf2ef58c15169 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 14 Mar 2025 13:09:45 +0100
Subject: [PATCH 34/71] save tapes

---
 src/agentlab/agents/tapeagent/agent.py |  43 +++++---
 src/agentlab/experiments/loop.py       | 145 ++++++++-----------------
 2 files changed, 75 insertions(+), 113 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 10cd20a1..ecb8587d 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -1,11 +1,11 @@
 import logging
 from dataclasses import dataclass
-from typing import Any
+from typing import Any, Literal
 
 import bgym
 import hydra
 from tapeagents.agent import Agent
-from tapeagents.core import Action, Observation, Tape, Thought
+from tapeagents.core import Action, Observation, Tape, TapeMetadata, Thought
 
 from agentlab.agents.agent_args import AgentArgs
 
@@ -21,7 +21,7 @@ def make_agent(self) -> bgym.Agent:
         with hydra.initialize(config_path="conf", version_base="1.1"):
             config = hydra.compose(config_name=self.agent_name)
         agent: Agent = hydra.utils.instantiate(config)
-        return TapeAgent(agent=agent, tape=Tape(steps=[]))
+        return TapeAgent(agent=agent)
 
 
 @dataclass
@@ -29,25 +29,33 @@ class TapeAgentInfo(bgym.AgentInfo):
     thoughts: list[Thought] = None
 
 
+class DictObservation(Observation):
+    """
+    Container for wrapping old dict observation into new Observation class.
+    """
+
+    kind: Literal["dict_observation"] = "dict_observation"
+    content: dict[str, Any]
+
+
 class TapeAgent(bgym.Agent):
     agent: Agent
     tape: Tape
 
-    def __init__(self, agent: Agent, tape: Tape):
+    def __init__(self, agent: Agent):
         super().__init__()
         self.agent = agent
-        self.tape = tape
+        self.tape = Tape(steps=[])
 
-    def obs_preprocessor(self, obs: Any) -> Any:
-        logger.info(f"Observations: {type(obs)}")
+    def obs_preprocessor(self, obs: Observation | list[Observation]) -> list[Observation]:
+        if isinstance(obs, Observation):
+            obs = [obs]
+        assert isinstance(obs, list), f"Expected list of Observations, got {type(obs)}"
+        logger.info(f"Observations: {[type(o).__name__ for o in obs]}")
         return obs
 
     def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAgentInfo]:
-        if isinstance(obs, Observation):
-            obs = [obs]
-        for observation in obs:
-            logger.info(f"Add observation: {type(observation)}")
-            self.tape = self.tape.append(observation)
+        self.tape += obs
         thoughts: list[Thought] = []
         action = None
         while not action:
@@ -58,11 +66,16 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
                 if isinstance(event.step, Thought):
                     thoughts.append(event.step)
                     logger.info(f"Thought: {event.step.llm_view()}")
-                elif isinstance(event.step, Action) and not action:
+                elif isinstance(event.step, Action) and not action:  # we use first action only
                     action = event.step
                     logger.info(f"Action: {action.llm_view()}")
-                    # we stop at the first action
                 else:
+                    # there could be control flow steps for switching nodes and if clauses
                     logger.info(f"Other step: {type(event.step)}")
-        logger.info(f"Tape state: {[type(s).__name__ for s in self.tape]}")
+        logger.info(f"Tape after run: ({len(self.tape)}) {[type(s).__name__ for s in self.tape]}")
         return (action, TapeAgentInfo(thoughts=thoughts))
+
+    @property
+    def final_tape(self) -> Tape:
+        self.tape.metadata = TapeMetadata(author=self.agent.name)
+        return self.tape
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 15c60fb4..4712443f 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -1,4 +1,3 @@
-import copy
 import gzip
 import importlib.metadata
 import json
@@ -19,14 +18,20 @@
 
 import gymnasium as gym
 import numpy as np
-from browsergym.core.action.parsers import highlevel_action_parser
 from browsergym.core.chat import Chat
 from browsergym.experiments.agent import Agent
 from browsergym.experiments.utils import count_messages_token, count_tokens
 from dataclasses_json import DataClassJsonMixin
 from PIL import Image
+from tapeagents.core import (
+    StepMetadata,
+    Tape,
+)
+from tapeagents.dialog_tape import AssistantStep, AssistantThought
 from tqdm import tqdm
 
+from agentlab.agents.tapeagent.agent import DictObservation, TapeAgent
+
 logger = logging.getLogger(__name__)
 
 SEED_MAX = 2 ^ 32  # arbitrary max value (exclusive), seems large enough
@@ -314,19 +319,54 @@ def run(self):
                 ):
                     e = KeyboardInterrupt("Early termination??")
                     err_msg = f"Exception uncaught by agent or environment in task {self.env_args.task_name}.\n{type(e).__name__}:\n{e}"
-                logger.info("Saving summary info.")
+                logger.info("Saving experiment info.")
                 _save_summary_info(episode_info, self.exp_dir, err_msg, stack_trace)
+                self.save_tape(
+                    agent.final_tape if isinstance(agent, TapeAgent) else self.as_tape(episode_info)
+                )
             except Exception as e:
-                logger.error(f"Error while saving summary info in the finally block: {e}")
+                logger.exception(f"Error while saving experiment info: {e}")
             try:
                 if env is not None:
                     env.close()
             except Exception as e:
-                logger.error(f"Error while closing the environment in the finally block: {e}")
+                logger.exception(f"Error while closing the environment: {e}")
             try:
                 self._unset_logger()  # stop writing logs to run logfile
             except Exception as e:
-                logger.error(f"Error while unsetting the logger in the finally block: {e}")
+                logger.exception(f"Error while unsetting the logger: {e}")
+
+    def as_tape(self, steps_info: list["StepInfo"]) -> Tape:
+        """
+        Create a Tape object from the steps info.
+
+        Returns:
+            Tape: a Tape object containing the steps and metadata.
+        """
+        tape: Tape = []
+        for step_info in steps_info:
+            step_metadata = StepMetadata(
+                result=dict(
+                    reward=step_info.reward,
+                    raw_reward=step_info.raw_reward,
+                    terminated=step_info.terminated,
+                    truncated=step_info.truncated,
+                    agent_info=step_info.agent_info,
+                    stats=step_info.stats,
+                )
+            )
+            steps = [DictObservation(content=step_info.obs)]
+            if thought := step_info.agent_info.get("think"):
+                steps.append(AssistantThought(content=thought))
+            steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
+            tape += steps
+        return tape
+
+    def save_tape(self, tape: Tape, filename: str = "tape.json"):
+        if os.path.exists(self.exp_dir / filename):
+            raise FileExistsError(f"{filename} already exists in {self.exp_dir}")
+        with open(self.exp_dir / filename, "w") as f:
+            json.dump(tape.model_dump(), f, indent=2, ensure_ascii=False)
 
     def _set_logger(self):
         # output logging traces to a log file
@@ -571,12 +611,7 @@ def _aggregate_episode_stats(episode_info: list[StepInfo]):
     return aggregated_stats
 
 
-def _save_summary_info(
-    episode_info: list[StepInfo],
-    exp_dir,
-    err_msg,
-    stack_trace,
-):
+def _save_summary_info(episode_info: list[StepInfo], exp_dir, err_msg, stack_trace):
     # bring err from agent_info to the top level
     if err_msg is None:
         err_msg, stack_trace = _extract_err_msg(episode_info)
@@ -698,92 +733,6 @@ def summary_info(self) -> dict:
                 self._summary_info = json.load(f)
         return self._summary_info
 
-    @property
-    def tape(self) -> dict:
-        """
-        TapeAgents (https://github.com/ServiceNow/TapeAgents) framework compatibility.
-        Exports experiment trace in the format of serialized tape.
-        Reuses tape segments if they were already placed in the agent_info during the experiment.
-
-        Returns:
-            dict: A dictionary serialized tape
-        """
-        steps = []
-        for step_info in self.steps_info:
-            if "tape_segment" in step_info.agent_info["extra_info"]:
-                tape_segment = step_info.agent_info["extra_info"]["tape_segment"]
-            else:
-                tape_segment = self._create_tape_segment(step_info)
-            steps += tape_segment
-        metadata = dict(
-            id=str(uuid.uuid4()),
-            author=f"browsergym_agent_[{self.exp_args.agent_args.agent_name}]",
-            result=self.get_exp_record(),
-        )
-        return dict(steps=steps, metadata=metadata)
-
-    def _create_tape_segment(self, step_info: StepInfo) -> list[dict]:
-        tape_segment = []
-        # extract observation step
-        if step_info.obs is not None:
-            screenshot: str = ""
-            screenshot_som: str = ""
-            obs_dict = copy.deepcopy(step_info.obs)
-            if "screenshot" in obs_dict:
-                screenshot = str(self.exp_dir / f"screenshot_step_{step_info.step}.png")
-                obs_dict.pop("screenshot")
-            if "screenshot_som" in obs_dict:
-                screenshot_som = str(self.exp_dir / f"screenshot_som_step_{step_info.step}.png")
-                obs_dict.pop("screenshot_som")
-            tape_segment.append(
-                dict(
-                    kind="browsergym_observation",
-                    metadata=dict(step=step_info.step),
-                    obs=obs_dict,
-                    screenshot=screenshot,
-                    screenshot_som=screenshot_som,
-                )
-            )
-
-        # extract thought step
-        think = step_info.agent_info.get("think", "")
-        if think:
-            tape_segment.append(
-                dict(
-                    kind="browsergym_thought",
-                    metadata={"step": step_info.step},
-                    text=think,
-                )
-            )
-
-        # extract action steps
-        function_calls = highlevel_action_parser.parse_string(step_info.action, parse_all=True)
-        for name, arguments in function_calls:
-            tape_segment.append(
-                dict(
-                    kind="browsergym_action",
-                    metadata=dict(
-                        step=step_info.step,
-                        reward=step_info.reward,
-                        raw_reward=step_info.raw_reward,
-                        terminated=step_info.terminated,
-                        truncated=step_info.truncated,
-                        agent_info=step_info.agent_info,
-                        stats=step_info.stats,
-                        task_info=step_info.task_info,
-                    ),
-                    name=name,
-                    arguments=arguments,
-                )
-            )
-        return tape_segment
-
-    def save_tape(self, filename: str = "tape.json"):
-        if os.path.exists(self.exp_dir / filename):
-            raise FileExistsError(f"{filename} already exists in {self.exp_dir}")
-        with open(self.exp_dir / filename, "w") as f:
-            json.dump(self.tape, f, indent=4, ensure_ascii=False)
-
     def get_screenshot(self, step: int, som=False) -> Image:
         key = (step, som)
         if self._screenshots.get(key, None) is None:

From aacd57c9fec3de246a8b922d2a703f93e9c209de Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 14 Mar 2025 13:10:19 +0100
Subject: [PATCH 35/71] fix formatting

---
 .../generic_agent/reproducibility_agent.py    |  5 +--
 src/agentlab/analyze/agent_xray.py            | 33 ++++---------------
 src/agentlab/experiments/launch_exp.py        |  4 +--
 src/agentlab/experiments/study.py             | 32 +++---------------
 tests/agents/test_agent.py                    | 30 ++++-------------
 5 files changed, 19 insertions(+), 85 deletions(-)

diff --git a/src/agentlab/agents/generic_agent/reproducibility_agent.py b/src/agentlab/agents/generic_agent/reproducibility_agent.py
index b1d5e5a9..bf1f01c9 100644
--- a/src/agentlab/agents/generic_agent/reproducibility_agent.py
+++ b/src/agentlab/agents/generic_agent/reproducibility_agent.py
@@ -212,10 +212,7 @@ def make_repro_agent(agent_args: AgentArgs, exp_dir: Path | str):
 
 def _make_diff(old_str, new_str):
     page = difflib.HtmlDiff().make_file(
-        old_str.splitlines(),
-        new_str.splitlines(),
-        fromdesc="Old Version",
-        todesc="New Version",
+        old_str.splitlines(), new_str.splitlines(), fromdesc="Old Version", todesc="New Version"
     )
     page = page.replace('nowrap="nowrap"', "")  # Remove nowrap attribute
     page = _set_style(page, DIFF_STYLE)
diff --git a/src/agentlab/analyze/agent_xray.py b/src/agentlab/analyze/agent_xray.py
index 36ca51b9..efac82f2 100644
--- a/src/agentlab/analyze/agent_xray.py
+++ b/src/agentlab/analyze/agent_xray.py
@@ -296,10 +296,7 @@ def run_gradio(results_dir: Path):
             state_error = gr.Markdown(label="Next Step Error", elem_classes="my-markdown")
 
         profiling_gr = gr.Image(
-            label="Profiling",
-            show_label=False,
-            interactive=False,
-            show_download_button=False,
+            label="Profiling", show_label=False, interactive=False, show_download_button=False
         )
 
         gr.HTML(
@@ -420,14 +417,7 @@ def run_gradio(results_dir: Path):
         exp_dir_choice.change(
             fn=new_exp_dir,
             inputs=exp_dir_choice,
-            outputs=[
-                agent_table,
-                agent_id,
-                constants,
-                variables,
-                global_stats,
-                error_report,
-            ],
+            outputs=[agent_table, agent_id, constants, variables, global_stats, error_report],
         )
 
         agent_table.select(fn=on_select_agent, inputs=agent_table, outputs=[agent_id])
@@ -463,8 +453,7 @@ def run_gradio(results_dir: Path):
         screenshot_gallery.select(fn=gallery_step_change, inputs=episode_id, outputs=step_id)
         step_id.change(fn=if_active("DOM HTML")(update_html), outputs=html_code)
         step_id.change(
-            fn=if_active("Pruned DOM HTML")(update_pruned_html),
-            outputs=pruned_html_code,
+            fn=if_active("Pruned DOM HTML")(update_pruned_html), outputs=pruned_html_code
         )
         step_id.change(fn=if_active("AXTree")(update_axtree), outputs=axtree_code)
         step_id.change(fn=if_active("Chat Messages")(update_chat_messages), outputs=chat_messages)
@@ -485,14 +474,10 @@ def run_gradio(results_dir: Path):
         # we need to update them individually when the tab is selected
         tab_screenshot.select(fn=update_screenshot, inputs=som_or_not, outputs=screenshot)
         tab_screenshot_pair.select(
-            fn=update_screenshot_pair,
-            inputs=som_or_not,
-            outputs=[screenshot1, screenshot2],
+            fn=update_screenshot_pair, inputs=som_or_not, outputs=[screenshot1, screenshot2]
         )
         tab_screenshot_gallery.select(
-            fn=update_screenshot_gallery,
-            inputs=som_or_not,
-            outputs=[screenshot_gallery],
+            fn=update_screenshot_gallery, inputs=som_or_not, outputs=[screenshot_gallery]
         )
         tab_html.select(fn=update_html, outputs=html_code)
         tab_pruned_html.select(fn=update_pruned_html, outputs=pruned_html_code)
@@ -1135,13 +1120,7 @@ def plot_profiling(ax, step_info_list: list[StepInfo], summary_info: dict, progr
 
         if step_info.action is not None:
             # Blue rectangle for agent_start to agent_stop
-            add_patch(
-                ax,
-                prof.agent_start,
-                prof.agent_stop,
-                colors[10],
-                labels.pop("agent", None),
-            )
+            add_patch(ax, prof.agent_start, prof.agent_stop, colors[10], labels.pop("agent", None))
 
             # Black vertical bar at agent stop
             ax.axvline(prof.agent_stop, color="black", linewidth=3)
diff --git a/src/agentlab/experiments/launch_exp.py b/src/agentlab/experiments/launch_exp.py
index 4206d8a4..3bc6c54e 100644
--- a/src/agentlab/experiments/launch_exp.py
+++ b/src/agentlab/experiments/launch_exp.py
@@ -193,9 +193,7 @@ def _hide_completed(exp_result: bgym.ExpResult, include_errors: bool = True):
 
 
 # TODO remove this function once ray backend is stable
-def _split_sequential_exp(
-    exp_args_list: list[ExpArgs],
-) -> tuple[list[ExpArgs], list[ExpArgs]]:
+def _split_sequential_exp(exp_args_list: list[ExpArgs]) -> tuple[list[ExpArgs], list[ExpArgs]]:
     """split exp_args that are flagged as sequential from those that are not"""
     sequential_exp_args = []
     parallel_exp_args = []
diff --git a/src/agentlab/experiments/study.py b/src/agentlab/experiments/study.py
index 6f0e6fdc..7de3db98 100644
--- a/src/agentlab/experiments/study.py
+++ b/src/agentlab/experiments/study.py
@@ -135,13 +135,7 @@ def find_incomplete(self, include_errors=True):
         """Prepare the study for relaunching by finding incomplete experiments"""
 
     @abstractmethod
-    def run(
-        self,
-        n_jobs=1,
-        parallel_backend="ray",
-        strict_reproducibility=False,
-        n_relaunch=3,
-    ):
+    def run(self, n_jobs=1, parallel_backend="ray", strict_reproducibility=False, n_relaunch=3):
         """Run the study"""
 
     def make_dir(self, exp_root=RESULTS_DIR):
@@ -308,9 +302,7 @@ def set_reproducibility_info(self, strict_reproducibility=False, comment=None):
         )
         if self.reproducibility_info is not None:
             repro.assert_compatible(
-                self.reproducibility_info,
-                info,
-                raise_if_incompatible=strict_reproducibility,
+                self.reproducibility_info, info, raise_if_incompatible=strict_reproducibility
             )
         self.reproducibility_info = info
 
@@ -582,13 +574,7 @@ def run(
         logger.info("\n" + str(summary_df))
         logger.info(f"SequentialStudies {self.name} finished.")
 
-    def _run(
-        self,
-        n_jobs=1,
-        parallel_backend="ray",
-        strict_reproducibility=False,
-        n_relaunch=3,
-    ):
+    def _run(self, n_jobs=1, parallel_backend="ray", strict_reproducibility=False, n_relaunch=3):
         for study in self.studies:
             study.run(n_jobs, parallel_backend, strict_reproducibility, n_relaunch)
 
@@ -644,9 +630,7 @@ def _run(
             server_queue.put(server)
 
         with ProcessPoolExecutor(
-            max_workers=len(parallel_servers),
-            initializer=_init_worker,
-            initargs=(server_queue,),
+            max_workers=len(parallel_servers), initializer=_init_worker, initargs=(server_queue,)
         ) as executor:
             # Create list of arguments for each study
             study_args = [
@@ -685,13 +669,7 @@ def _run(
             p.starmap(
                 _run_study,
                 [
-                    (
-                        study,
-                        n_jobs,
-                        parallel_backend,
-                        strict_reproducibility,
-                        n_relaunch,
-                    )
+                    (study, n_jobs, parallel_backend, strict_reproducibility, n_relaunch)
                     for study in self.studies
                 ],
             )
diff --git a/tests/agents/test_agent.py b/tests/agents/test_agent.py
index b7eb8cb3..7fcaafa2 100644
--- a/tests/agents/test_agent.py
+++ b/tests/agents/test_agent.py
@@ -25,10 +25,7 @@ def test_generic_agent():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1,
-            [exp_args],
-            Path(tmp_dir) / "generic_agent_test",
-            parallel_backend="joblib",
+            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
         )
 
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
@@ -122,10 +119,7 @@ def __call__(self, messages) -> str:
         raise OpenAIError("LLM failed to respond")
 
     def get_stats(self):
-        return {
-            "n_llm_retry": self.n_retry,
-            "n_llm_busted_retry": int(not self.success),
-        }
+        return {"n_llm_retry": self.n_retry, "n_llm_busted_retry": int(not self.success)}
 
 
 @dataclass
@@ -153,10 +147,7 @@ def test_generic_agent_parse_retry():
     with tempfile.TemporaryDirectory() as tmp_dir:
         # TODO why these tests don't work with ray backend?
         launch_exp.run_experiments(
-            1,
-            [exp_args],
-            Path(tmp_dir) / "generic_agent_test",
-            parallel_backend="joblib",
+            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
         print(result_record)
@@ -183,10 +174,7 @@ def test_bust_parse_retry():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1,
-            [exp_args],
-            Path(tmp_dir) / "generic_agent_test",
-            parallel_backend="joblib",
+            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
 
@@ -214,10 +202,7 @@ def test_llm_error_success():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1,
-            [exp_args],
-            Path(tmp_dir) / "generic_agent_test",
-            parallel_backend="joblib",
+            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
 
@@ -244,10 +229,7 @@ def test_llm_error_no_success():
 
     with tempfile.TemporaryDirectory() as tmp_dir:
         launch_exp.run_experiments(
-            1,
-            [exp_args],
-            Path(tmp_dir) / "generic_agent_test",
-            parallel_backend="joblib",
+            1, [exp_args], Path(tmp_dir) / "generic_agent_test", parallel_backend="joblib"
         )
         result_record = inspect_results.load_result_df(tmp_dir, progress_fn=None)
 

From 528c7e2342cc3e7ceb9bbafc9e2e5909780f2625 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 14 Mar 2025 20:00:15 +0100
Subject: [PATCH 36/71] restore imports in the loop

---
 src/agentlab/experiments/loop.py | 24 +++++++++---------------
 1 file changed, 9 insertions(+), 15 deletions(-)

diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 4712443f..183f764f 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -252,9 +252,7 @@ def run(self):
             step_info = StepInfo(step=0)
             episode_info = [step_info]
             step_info.from_reset(
-                env,
-                seed=self.env_args.task_seed,
-                obs_preprocessor=agent.obs_preprocessor,
+                env, seed=self.env_args.task_seed, obs_preprocessor=agent.obs_preprocessor
             )
             logger.debug("Environment reset.")
 
@@ -268,9 +266,7 @@ def run(self):
                     step_info.truncated = True
 
                 step_info.save_step_info(
-                    self.exp_dir,
-                    save_screenshot=self.save_screenshot,
-                    save_som=self.save_som,
+                    self.exp_dir, save_screenshot=self.save_screenshot, save_som=self.save_som
                 )
                 logger.debug("Step info saved.")
 
@@ -305,9 +301,7 @@ def run(self):
             try:
                 if step_info is not None:
                     step_info.save_step_info(
-                        self.exp_dir,
-                        save_screenshot=self.save_screenshot,
-                        save_som=self.save_som,
+                        self.exp_dir, save_screenshot=self.save_screenshot, save_som=self.save_som
                     )
             except Exception as e:
                 logger.error(f"Error while saving step info in the finally block: {e}")
@@ -914,17 +908,17 @@ def _get_env_name(task_name: str):
 
     # lazy benchmark import
     if task_name.startswith("miniwob"):
-        pass
+        import browsergym.miniwob
     elif task_name.startswith("workarena"):
-        pass
+        import browsergym.workarena
     elif task_name.startswith("webarena"):
-        pass
+        import browsergym.webarena
     elif task_name.startswith("visualwebarena"):
-        pass
+        import browsergym.visualwebarena
     elif task_name.startswith("assistantbench"):
-        pass
+        import browsergym.assistantbench
     elif task_name.startswith("weblinx"):
-        pass
+        import weblinx_browsergym
 
     return f"browsergym/{task_name}"
 

From ef9eb1938d6861ad86f7131508c341a3cc49aa6e Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 14 Mar 2025 20:14:11 +0100
Subject: [PATCH 37/71] shared vscode linter settings

---
 .gitignore            |  3 +--
 .vscode/settings.json | 15 +++++++++++++++
 2 files changed, 16 insertions(+), 2 deletions(-)
 create mode 100644 .vscode/settings.json

diff --git a/.gitignore b/.gitignore
index 307425c7..7fe1b6fb 100644
--- a/.gitignore
+++ b/.gitignore
@@ -3,7 +3,7 @@ __pycache__/
 *.py[cod]
 *$py.class
 results/
-.vscode
+
 # C extensions
 *.so
 # Distribution / packaging
@@ -160,7 +160,6 @@ cython_debug/
 # MacOS
 **/.DS_Store
 
-.vscode
 
 _sandbox.py
 
diff --git a/.vscode/settings.json b/.vscode/settings.json
new file mode 100644
index 00000000..d52ef62d
--- /dev/null
+++ b/.vscode/settings.json
@@ -0,0 +1,15 @@
+{
+    "[python]": {
+        "editor.formatOnSave": true,
+        "editor.defaultFormatter": "ms-python.black-formatter",
+        "editor.codeActionsOnSave": {
+            "source.organizeImports": "explicit",
+            "source.fixAll": "never"
+        }
+    },
+    "python.testing.pytestArgs": [
+        "tests"
+    ],
+    "python.testing.unittestEnabled": false,
+    "python.testing.pytestEnabled": true,
+}
\ No newline at end of file

From 09ef9a61009cdd684f9d31f10d0dcafef90e3447 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 12:22:39 +0100
Subject: [PATCH 38/71] address review comments

---
 src/agentlab/benchmarks/abstract_env.py  | 15 +----
 src/agentlab/benchmarks/gaia.py          | 15 +++--
 src/agentlab/benchmarks/multitool_gym.py | 11 ++--
 src/agentlab/experiments/loop.py         | 71 ++++++++++++------------
 4 files changed, 49 insertions(+), 63 deletions(-)

diff --git a/src/agentlab/benchmarks/abstract_env.py b/src/agentlab/benchmarks/abstract_env.py
index 8b2c77e8..33e09e22 100644
--- a/src/agentlab/benchmarks/abstract_env.py
+++ b/src/agentlab/benchmarks/abstract_env.py
@@ -1,12 +1,11 @@
 from abc import ABC, abstractmethod
-from dataclasses import dataclass
 
 import gymnasium as gym
 from dataclasses_json import DataClassJsonMixin
 from pydantic import BaseModel
 
 
-class AbstractEnvArgs(ABC):
+class AbstractEnvArgs(DataClassJsonMixin):
     @abstractmethod
     def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
         """Create an instance of the environment with the arguments stored in this object.
@@ -22,14 +21,6 @@ def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
         """
 
 
-@dataclass
-class SerializableEnvArgs(AbstractEnvArgs, DataClassJsonMixin):
-    """Easily serialiazable class to store the arguments of an environment"""
-
-    task_seed: int = 0
-    task_name: str = ""
-
-
 class AbstractBenchmark(BaseModel):
     name: str
     env_args_list: list
@@ -80,7 +71,3 @@ def step(self, action: str):
     @abstractmethod
     def close(self):
         """Close any resources used by the environment"""
-
-    @abstractmethod
-    def calculate_reward(self) -> float:
-        """Calculate the reward obtained in the last step"""
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index c259c107..7f365735 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -3,6 +3,7 @@
 import re
 import shutil
 import string
+from dataclasses import dataclass
 from pathlib import Path
 from typing import Any, Literal
 
@@ -16,7 +17,7 @@
 from tapeagents.tools.media_reader import VideoReader
 from tapeagents.tools.web_search import WebSearch
 
-from agentlab.benchmarks.abstract_env import AbstractBenchmark, SerializableEnvArgs
+from agentlab.benchmarks.abstract_env import AbstractBenchmark, AbstractEnvArgs
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
 logger = logging.getLogger(__name__)
@@ -33,6 +34,9 @@ def __init__(self, tools: list[Tool | StatefulTool], task: dict, exp_dir: str):
         os.makedirs(".cache", exist_ok=True)
 
     def reset(self, seed=None) -> tuple[list[Observation], dict]:
+        """
+        Reset the state of all the tools and prepare initial observations from the task again
+        """
         super().reset()
         question = GaiaQuestion.from_task(self.task)
         steps = [question]
@@ -40,12 +44,6 @@ def reset(self, seed=None) -> tuple[list[Observation], dict]:
             steps.append(image_obs)
         return steps, {}
 
-    def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
-        logger.info(f"Gym step called with action {type(action)}")
-        observation, reward, terminated, truncated, env_info = super().step(action)
-        logger.info(f"Gym observation: {observation.short_view()}")
-        return observation, reward, terminated, truncated, env_info
-
     def calculate_reward(self, action: Action) -> float:
         if isinstance(action, GaiaAnswer):
             model_answer = action.answer
@@ -62,7 +60,8 @@ def calculate_reward(self, action: Action) -> float:
         return reward
 
 
-class GaiaGymArgs(SerializableEnvArgs):
+@dataclass
+class GaiaGymArgs(AbstractEnvArgs):
     task: dict[str, Any]
     viewport_chars: int
     task_seed: int
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 91183b3e..00085dcf 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -1,13 +1,13 @@
+import logging
 import time
-from typing import Annotated, Union
 
-from pydantic import Field, TypeAdapter
 from tapeagents.core import Action, Observation, StopStep, Tape
 from tapeagents.environment import ToolCollectionEnvironment
 from tapeagents.tools.base import StatefulTool, Tool
 
 from agentlab.benchmarks.abstract_env import AbstractEnv
 
+logger = logging.getLogger(__name__)
 EnvTape = Tape[None, Action | Observation]
 
 
@@ -15,14 +15,12 @@ class MultiToolGym(AbstractEnv):
     def __init__(self, tools: list[Tool | StatefulTool]):
         self._env = ToolCollectionEnvironment(tools)
         self._actions = self._env.actions()
-        self._actions_parser: TypeAdapter = TypeAdapter(
-            Annotated[Union[self._actions], Field(discriminator="kind")]
-        )
 
     def reset(self):
         self._env.reset()
 
     def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
+        logger.info(f"Gym {self.__class__.__name__} step called with action {type(action)}")
         assert isinstance(action, Action)
 
         action_exec_start = time.time()
@@ -43,9 +41,12 @@ def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
             "action_exec_stop": action_exec_stop,
             "action_exec_timeout": 0.0,
         }
+        obs_view = observation.short_view() if isinstance(observation, Observation) else observation
+        logger.info(f"Gym {self.__class__.__name__} observation: {obs_view}")
         return observation, reward, terminated, truncated, env_info
 
     def calculate_reward(self, action: Action) -> float:
+        logger.warning("Reward calculation is not implemented, returning 0")
         return 0.0
 
     def close(self):
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 183f764f..18065050 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -23,10 +23,7 @@
 from browsergym.experiments.utils import count_messages_token, count_tokens
 from dataclasses_json import DataClassJsonMixin
 from PIL import Image
-from tapeagents.core import (
-    StepMetadata,
-    Tape,
-)
+from tapeagents.core import StepMetadata, Tape
 from tapeagents.dialog_tape import AssistantStep, AssistantThought
 from tqdm import tqdm
 
@@ -315,9 +312,8 @@ def run(self):
                     err_msg = f"Exception uncaught by agent or environment in task {self.env_args.task_name}.\n{type(e).__name__}:\n{e}"
                 logger.info("Saving experiment info.")
                 _save_summary_info(episode_info, self.exp_dir, err_msg, stack_trace)
-                self.save_tape(
-                    agent.final_tape if isinstance(agent, TapeAgent) else self.as_tape(episode_info)
-                )
+                tape = agent.final_tape if isinstance(agent, TapeAgent) else as_tape(episode_info)
+                self.save_tape(tape)
             except Exception as e:
                 logger.exception(f"Error while saving experiment info: {e}")
             try:
@@ -330,36 +326,11 @@ def run(self):
             except Exception as e:
                 logger.exception(f"Error while unsetting the logger: {e}")
 
-    def as_tape(self, steps_info: list["StepInfo"]) -> Tape:
-        """
-        Create a Tape object from the steps info.
-
-        Returns:
-            Tape: a Tape object containing the steps and metadata.
-        """
-        tape: Tape = []
-        for step_info in steps_info:
-            step_metadata = StepMetadata(
-                result=dict(
-                    reward=step_info.reward,
-                    raw_reward=step_info.raw_reward,
-                    terminated=step_info.terminated,
-                    truncated=step_info.truncated,
-                    agent_info=step_info.agent_info,
-                    stats=step_info.stats,
-                )
-            )
-            steps = [DictObservation(content=step_info.obs)]
-            if thought := step_info.agent_info.get("think"):
-                steps.append(AssistantThought(content=thought))
-            steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
-            tape += steps
-        return tape
-
     def save_tape(self, tape: Tape, filename: str = "tape.json"):
-        if os.path.exists(self.exp_dir / filename):
-            raise FileExistsError(f"{filename} already exists in {self.exp_dir}")
-        with open(self.exp_dir / filename, "w") as f:
+        tape_path = Path(self.exp_dir) / filename
+        if tape_path.exists():
+            raise FileExistsError(f"{tape_path} already exists")
+        with open(tape_path, "w") as f:
             json.dump(tape.model_dump(), f, indent=2, ensure_ascii=False)
 
     def _set_logger(self):
@@ -951,3 +922,31 @@ def _flatten_dict(d, parent_key="", sep="."):
         else:
             items.append((new_key, v))
     return dict(items)
+
+
+def as_tape(steps_info: list) -> Tape:
+    """
+    Create a Tape object from the steps info.
+
+    Returns:
+        Tape: a Tape object containing the steps and metadata.
+    """
+    tape: Tape = []
+    for step_info in steps_info:
+        step_metadata = StepMetadata(
+            other=dict(
+                reward=step_info.reward,
+                raw_reward=step_info.raw_reward,
+                terminated=step_info.terminated,
+                truncated=step_info.truncated,
+                agent_info=step_info.agent_info,
+                stats=step_info.stats,
+            )
+        )
+        steps = [DictObservation(content=step_info.obs)]
+        if thought := step_info.agent_info.get("think"):
+            steps.append(AssistantThought(content=thought))
+        if step_info.action is not None:
+            steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
+        tape += steps
+    return tape

From 3f31293de4a491c43a0a8c88006e77dcb5ce0e2e Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 12:59:00 +0100
Subject: [PATCH 39/71] make makefile  to run test locally

---
 .github/workflows/darglint.yml   |  2 +-
 .gitignore                       |  4 +++-
 Makefile                         | 22 ++++++++++++++++++++++
 src/agentlab/experiments/loop.py |  5 ++++-
 4 files changed, 30 insertions(+), 3 deletions(-)
 create mode 100644 Makefile

diff --git a/.github/workflows/darglint.yml b/.github/workflows/darglint.yml
index 133854e4..48bbf67a 100644
--- a/.github/workflows/darglint.yml
+++ b/.github/workflows/darglint.yml
@@ -31,4 +31,4 @@ jobs:
         run: pip list
 
       - name: Darglint checks
-        run: darglint -v 2 -z short .
+        run: darglint -v 2 -z short src/
diff --git a/.gitignore b/.gitignore
index 7fe1b6fb..aa97d987 100644
--- a/.gitignore
+++ b/.gitignore
@@ -168,4 +168,6 @@ results/
 # gradio
 .gradio/
 
-outputs/
\ No newline at end of file
+outputs/
+miniwob-plusplus/
+.miniwob-server.pid
diff --git a/Makefile b/Makefile
new file mode 100644
index 00000000..81d1a7ed
--- /dev/null
+++ b/Makefile
@@ -0,0 +1,22 @@
+.PHONY: test setup miniwob lint
+setup:
+	@pip install darglint black
+	@pip install -e .
+	@playwright install chromium --with-deps
+	@python -c 'import nltk; nltk.download("punkt_tab")'
+
+miniwob:
+	@kill -9 `cat .miniwob-server.pid` || true
+	@git clone https://github.com/Farama-Foundation/miniwob-plusplus.git || true
+	@cd miniwob-plusplus && git checkout 7fd85d71a4b60325c6585396ec4f48377d049838
+	@python -m http.server 8080 --directory miniwob-plusplus/miniwob/html & echo $$! > .miniwob-server.pid
+	@sleep 2
+	@echo "MiniWob server started on port 8080"
+	@echo "To stop the server: kill \`cat .miniwob-server.pid\`"
+
+test: setup miniwob
+	@MINIWOB_URL="http://localhost:8080/miniwob/" pytest -n 5 --durations=10 -m 'not pricy' -v tests/
+
+lint:
+	black src/ --check --diff
+	darglint -v 2 -z short src/
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 18065050..1679b81b 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -924,10 +924,13 @@ def _flatten_dict(d, parent_key="", sep="."):
     return dict(items)
 
 
-def as_tape(steps_info: list) -> Tape:
+def as_tape(steps_info: list[StepInfo]) -> Tape:
     """
     Create a Tape object from the steps info.
 
+    Args:
+        steps_info: list of StepInfo objects.
+
     Returns:
         Tape: a Tape object containing the steps and metadata.
     """

From c9405720fdc0cf704d09e119d32289aed3d5e424 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 13:00:44 +0100
Subject: [PATCH 40/71] update make file

---
 Makefile | 27 ++++++++++++++++-----------
 1 file changed, 16 insertions(+), 11 deletions(-)

diff --git a/Makefile b/Makefile
index 81d1a7ed..9557c1bb 100644
--- a/Makefile
+++ b/Makefile
@@ -1,22 +1,27 @@
-.PHONY: test setup miniwob lint
+.PHONY: test setup miniwob lint stop-miniwob
+
 setup:
-	@pip install darglint black
 	@pip install -e .
 	@playwright install chromium --with-deps
 	@python -c 'import nltk; nltk.download("punkt_tab")'
 
-miniwob:
-	@kill -9 `cat .miniwob-server.pid` || true
+miniwob: stop-miniwob
 	@git clone https://github.com/Farama-Foundation/miniwob-plusplus.git || true
 	@cd miniwob-plusplus && git checkout 7fd85d71a4b60325c6585396ec4f48377d049838
 	@python -m http.server 8080 --directory miniwob-plusplus/miniwob/html & echo $$! > .miniwob-server.pid
-	@sleep 2
 	@echo "MiniWob server started on port 8080"
-	@echo "To stop the server: kill \`cat .miniwob-server.pid\`"
 
-test: setup miniwob
-	@MINIWOB_URL="http://localhost:8080/miniwob/" pytest -n 5 --durations=10 -m 'not pricy' -v tests/
+stop-miniwob:
+	@kill -9 `cat .miniwob-server.pid` || true
+	@rm -f .miniwob-server.pid
+	@echo "MiniWob server stopped"
+
+run-tests:
+	@MINIWOB_URL="http://localhost:8080/miniwob/" pytest -n 5 --durations=10 -m 'not pricy' tests/
+	@echo "Tests completed"
+
+test: setup miniwob run-tests stop-miniwob
 
-lint:
-	black src/ --check --diff
-	darglint -v 2 -z short src/
+lint: setup
+	@black src/ --check --diff
+	@darglint -v 2 -z short src/

From 8efba9d3cfa3f1a04995afb4d72f86a5bd0104cb Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 14:53:06 +0100
Subject: [PATCH 41/71] mock gaia dataset for test

---
 src/agentlab/benchmarks/gaia.py | 10 ++++-----
 tests/agents/test_gaia_agent.py | 40 +++++++++++++++++++++++++++++++--
 2 files changed, 43 insertions(+), 7 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 7f365735..6a1f8ff6 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -106,18 +106,18 @@ class GaiaBenchmark(AbstractBenchmark):
     split: Literal["test", "validation"]
     level: Literal["1", "2", "3", "all"] = "all"
     env_args_list: list[GaiaGymArgs] = None
+    dataset: dict = Field(default_factory=dict)
 
     def model_post_init(self, __context: Any) -> None:
+        if not self.dataset:
+            self.dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")
         self.env_args_list = []
-        dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")[self.split]
-        for task in dataset:
+        for task in self.dataset[self.split]:
             if self.level != "all" and task["Level"] != self.level:
                 continue
             env_args = GaiaGymArgs(task_name="gaia." + task["task_id"], task=task)
             self.env_args_list.append(env_args)
-        logger.info(
-            f"Loaded {len(self.env_args_list)} tasks from {self.split} split of GAIA benchmark."
-        )
+        logger.info(f"Loaded {len(self.env_args_list)} tasks from {self.split} split")
 
 
 class ExtractedFacts(Thought):
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index a3efa2b0..b4446876 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -1,4 +1,5 @@
 import os
+import uuid
 
 from tapeagents.steps import ImageObservation
 
@@ -6,6 +7,41 @@
 from agentlab.benchmarks.gaia import GaiaBenchmark, GaiaQuestion
 
 
+def mock_dataset() -> dict:
+    """Mock dataset for testing purposes."""
+    data = [{"task_id": str(uuid.uuid4())} for i in range(165)]
+    data[5] = {
+        "task_id": "32102e3e-d12a-4209-9163-7b3a104efe5d",
+        "Question": """The attached spreadsheet shows the inventory for a movie and video game rental store in Seattle, Washington. What is the title of the oldest Blu-Ray recorded in this spreadsheet? Return it as appearing in the spreadsheet.""",
+        "Level": "2",
+        "Final answer": "Time-Parking 2: Parallel Universe",
+        "file_name": "32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx",
+        "Annotator Metadata": {
+            "Steps": """1. Open the attached file.\n2. Compare the years given in the Blu-Ray section to find the oldest year, 2009.\n3. Find the title of the Blu-Ray disc that corresponds to the year 2009: Time-Parking 2: Parallel Universe.""",
+            "Number of steps": "3",
+            "How long did this take?": "1 minute",
+            "Tools": "1. Microsoft Excel",
+            "Number of tools": "1",
+        },
+    }
+    data[20] = {
+        "task_id": "df6561b2-7ee5-4540-baab-5095f742716a",
+        "Question": "When you take the average of the standard population deviation of the red numbers and the standard sample deviation of the green numbers in this image using the statistics module in Python 3.11, what is the result rounded to the nearest three decimal points?",
+        "Level": "2",
+        "Final answer": "17.056",
+        "file_name": "df6561b2-7ee5-4540-baab-5095f742716a.png",
+        "file_path": "/Users/oleh.shliazhko/.cache/huggingface/hub/datasets--gaia-benchmark--GAIA/snapshots/897f2dfbb5c952b5c3c1509e648381f9c7b70316/2023/validation/df6561b2-7ee5-4540-baab-5095f742716a.png",
+        "Annotator Metadata": {
+            "Steps": "1. Opened the PNG file.\n2. Made separate lists of the red numbers and green numbers.\n3. Opened a Python compiler.\n4. Ran the following code:\n```\nimport statistics as st\nred = st.pstdev([24, 74, 28, 54, 73, 33, 64, 73, 60, 53, 59, 40, 65, 76, 48, 34, 62, 70, 31, 24, 51, 55, 78, 76, 41, 77, 51])\ngreen = st.stdev([39, 29, 28, 72, 68, 47, 64, 74, 72, 40, 75, 26, 27, 37, 31, 55, 44, 64, 65, 38, 46, 66, 35, 76, 61, 53, 49])\navg = st.mean([red, green])\nprint(avg)\n```\n5. Rounded the output.",
+            "Number of steps": "5",
+            "How long did this take?": "20 minutes",
+            "Tools": "1. Python compiler\n2. Image recognition tools",
+            "Number of tools": "2",
+        },
+    }
+    return {"validation": data}
+
+
 def test_agent_creation():
     args = TapeAgentArgs(agent_name="gaia_agent")
     agent = args.make_agent()
@@ -14,7 +50,7 @@ def test_agent_creation():
 
 
 def test_gaia_bench():
-    bench = GaiaBenchmark(split="validation")
+    bench = GaiaBenchmark(split="validation", dataset=mock_dataset())
     assert bench.name == "gaia"
     assert bench.split == "validation"
     assert len(bench.env_args_list) == 165
@@ -36,7 +72,7 @@ def test_gaia_bench():
 
 
 def test_gaia_gym_reset():
-    bench = GaiaBenchmark(split="validation")
+    bench = GaiaBenchmark(split="validation", dataset=mock_dataset())
     exp_dir = "/tmp/"
 
     args = bench.env_args_list[5]

From 0dcb1502d93c90d0f83f82558483a6a14fe4e2ac Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 15:05:58 +0100
Subject: [PATCH 42/71] mock data for gaia test

---
 src/agentlab/experiments/loop.py                |   3 ++-
 tests/agents/test_gaia_agent.py                 |   5 +++--
 .../32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx   | Bin 0 -> 6119 bytes
 .../df6561b2-7ee5-4540-baab-5095f742716a.png    | Bin 0 -> 16447 bytes
 4 files changed, 5 insertions(+), 3 deletions(-)
 create mode 100644 tests/data/32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx
 create mode 100644 tests/data/df6561b2-7ee5-4540-baab-5095f742716a.png

diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 1679b81b..195ea818 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -946,7 +946,8 @@ def as_tape(steps_info: list[StepInfo]) -> Tape:
                 stats=step_info.stats,
             )
         )
-        steps = [DictObservation(content=step_info.obs)]
+        if step_info.obs is not None:
+            steps = [DictObservation(content=step_info.obs)]
         if thought := step_info.agent_info.get("think"):
             steps.append(AssistantThought(content=thought))
         if step_info.action is not None:
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index b4446876..d8df2dcb 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -9,13 +9,14 @@
 
 def mock_dataset() -> dict:
     """Mock dataset for testing purposes."""
-    data = [{"task_id": str(uuid.uuid4())} for i in range(165)]
+    data = [{"task_id": str(uuid.uuid4()), "file_name": "", "file_path": ""} for i in range(165)]
     data[5] = {
         "task_id": "32102e3e-d12a-4209-9163-7b3a104efe5d",
         "Question": """The attached spreadsheet shows the inventory for a movie and video game rental store in Seattle, Washington. What is the title of the oldest Blu-Ray recorded in this spreadsheet? Return it as appearing in the spreadsheet.""",
         "Level": "2",
         "Final answer": "Time-Parking 2: Parallel Universe",
         "file_name": "32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx",
+        "file_path": "tests/data/32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx",
         "Annotator Metadata": {
             "Steps": """1. Open the attached file.\n2. Compare the years given in the Blu-Ray section to find the oldest year, 2009.\n3. Find the title of the Blu-Ray disc that corresponds to the year 2009: Time-Parking 2: Parallel Universe.""",
             "Number of steps": "3",
@@ -30,7 +31,7 @@ def mock_dataset() -> dict:
         "Level": "2",
         "Final answer": "17.056",
         "file_name": "df6561b2-7ee5-4540-baab-5095f742716a.png",
-        "file_path": "/Users/oleh.shliazhko/.cache/huggingface/hub/datasets--gaia-benchmark--GAIA/snapshots/897f2dfbb5c952b5c3c1509e648381f9c7b70316/2023/validation/df6561b2-7ee5-4540-baab-5095f742716a.png",
+        "file_path": "tests/data/df6561b2-7ee5-4540-baab-5095f742716a.png",
         "Annotator Metadata": {
             "Steps": "1. Opened the PNG file.\n2. Made separate lists of the red numbers and green numbers.\n3. Opened a Python compiler.\n4. Ran the following code:\n```\nimport statistics as st\nred = st.pstdev([24, 74, 28, 54, 73, 33, 64, 73, 60, 53, 59, 40, 65, 76, 48, 34, 62, 70, 31, 24, 51, 55, 78, 76, 41, 77, 51])\ngreen = st.stdev([39, 29, 28, 72, 68, 47, 64, 74, 72, 40, 75, 26, 27, 37, 31, 55, 44, 64, 65, 38, 46, 66, 35, 76, 61, 53, 49])\navg = st.mean([red, green])\nprint(avg)\n```\n5. Rounded the output.",
             "Number of steps": "5",
diff --git a/tests/data/32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx b/tests/data/32102e3e-d12a-4209-9163-7b3a104efe5d.xlsx
new file mode 100644
index 0000000000000000000000000000000000000000..c8bd42f27d1649261ac209be85f167241d60ab7b
GIT binary patch
literal 6119
zcmai21z1$w)~35bU<e0f=o&hudx(*cu0aGO9Y9jLLty9>X#{COq`O1}MY>A~DFH>|
zAN1ZUpa1>7yUsjw&VHV=*UVmfz3*P{f<n+SC{S>4a8RaURQf2_j2iju>A-srZs}p?
zWaIkp2R<H8M~CcprcRw;0_;8VZ6dvSJ0ogxc?z?4nqZ<uW+&Q&xIv=)S-(*=VLKnx
zn~p=$-*<<d-0Ht6z{q`>HfzW*y>Ha*n=%pYI@cz%i3Uwr1otVK#P>M;r~?SS7-=rP
zwc}$}TtoUerprj}?rrf!eu7W$>j+mFiV)(ZxNlV--F;iOsdylRli}0->M6_eW(Rr(
z`pV&j#zaWH5Z;MwHr=TxV+bYe6!YZ%VtFZc#hu&GGt^%HAb}{faN!h=S6l2;DstzN
zxS|&{M|1t!t%Kv{{c{w3sPtN0T#fSH{o&OtX03_VN*-SV8*I_(1Bd!wiGEv|tL7LG
ze#yq^P;EB<;!W+X26HF`8wVR^7mSIDf`W~Xf&%?tq4aQu+q>FYTf4dP{=EGPrGaT&
zrZ~wt<~ec13E?C)+8xBEQ_c8}vEIv;kt9*tx&S5y;E!E<DOgvG{>v{zEc-cPQpazy
za1H%iQ$t<X+!Lc8tRO;n#hVAa87s|1zKj6Pb6^v8({<tnp(WpXA8*9|@cLo*nEc4t
zb-CFcBs=aft22|MpEGff)vRb(F3XGg(v`wJz5c-Jd{by6qc~iugiCVsM}mHl*BTK)
z*>spZU7T0%$*rcO<_Fk_3@SU$HId@8S;@&ki9F83a>`iI`e^kerbOL%ud|$eGpHoF
z?tS5?!8*UDtf!zg!{^_!sl0y7Z)poo#QKz$jrZ>t+;ijOY`okwq9oqS220F+;wR@#
zFKtWQyW}HXV8Vb_Q!IqGlnd&p7t+TL_8Z)qao76(V!ooMkozFYzbt!QdvM6#e?9b-
zqlw|GmClp1qYsbp=O68qzPcE$%v#78@G0h8S&(aX2e#h4FRQbiDzyY3*&eIQJ4+=t
zCYcc1v+`!2&Stw9BHmH07*(VwIoe$=YF~l@9(_$`%edI>KgMy(=C2H!_&VP<A9e{g
zSI)4Sr0&usAd~>iS%&SLT5Z1<o~y8b=(@>sm+X=AMFN+`2(z9r{OI-3#QaNqdeRYU
zS&Gg?-zY(7fh<stm60MIrT|vn1_uq3`o!RDL{P;<yctVJygiM#AgjR`oALzC%d?wI
zc7>)6bUMsH9cl9*Pde(U69Q;`7*2nr%r&5-`vOoLGE^6QfeB=kOWWkRZ%|M_&npVp
z3CfIN$%wAuyctVTn<m@ES6iJzK^3Yoep^Tiazs(kc|!c0?d}+?nU{+R9izaPYNSBb
zHE;~89X^<lR>-Vo6m(ozwL(Y|e`v~|8b+RB0AXqsW&-XKWOs!G&OZZNX+H)zD;Rvv
zOk<Y)A~S`3M^|~YO}GISt;twc%3+t((w${z9MpaSkn^Grj?%O2MYP8X-g3yuvXy5c
z*ow}TLdP1%$lQvqlDc21B_Yz$t8Q7D3I24keyjm2ADM596m|*PNoRoqdoiRwU`x_9
zjYd?B6`N*R#1Soq@L4WKFt+zsGn4wTvQ7`G#&}D8E8(acBHMn3N~g&}kfn)1&AoZr
z63HCI+TdaJd@c=EOlV=939hPPcd=R}@FB-98BHa%(lOPQ5bjwp1JHS35ex=*#(be&
z7NCA~YmcCN+Oi}ENI{H^Rh)+!OqUUa+qnlIkigs{`0zTqB!{0uiv;UOM~JK!iVjxe
z>U?|9sb#mpI3h=ZLJNS!nt)pyVw0wM3jqo<;;-u7BRGB^wP~lg4}!VSP=gt>uqY%Q
zs1GbGWX~<6M@w>SDYVK+j?jA-B^3@OsZTqq$T!3LTY+Cc<a_3YmH@$6CtdJIVbmko
z?=|<tyt)n6WVMu{fR=I}h>`!g>r4#WzjiLu04m+>KN2kRop}{n+|capzNzOo`RZt*
zYtOU7Z)Wxa^@@~^y57-hVW6M@Z~PM}G5zBAYoufjw|2NrO*~iQ*bxX`Czu3lk=!#J
z?34I0G(vDkDa5JpriDrovBOQ!{^(3*Y~Et$+M5yIE^{Gbfm+&7Q8CVEtC--L!OsIk
zWN+slwxCmz8^zYvf-IlmXtX@n6to%?d6?yU4^VxlGYzqTPdcuG#pIFWpy^FTP$U^9
z>#0jcr{WL=<LoR(JxU!g;%2OSjq#B?=c3wlK`V+#)0A-P>q_W5)ZIn{7CwR`kjuq%
zOBce1Qo%H`GU|x@Dh4k~wlr#yE95|u^WPIQ`L7tb*;+eV^Zxw)$;rd|GfuM%B<DdF
z=*uk~6D{mbcWN^AfJS<o^_v3K`-L5oXu@_Et<*k_zL328OxEUTD+1vH0`2ibWo-aV
z;*e-T8+%)G0}>L-Rm;I;p|c~`OE1*G__WZp^_cP{a?-sAho8wR@5%9_B}tHTHitzf
z_24m*vI$U9dC8`oQm#pMX=`}J$UOnxa8ydLG89N!O6r(?+SV%_mnX>3Bq@47WFRVp
zJgN}EgQz1R0cWwthKG=_FRp_QQV?VENnrs8^0~>xRZA_V7o?J{GulKq!KU(%ONMEa
zJS>?tl7@*k8h!LmpABZI;$_-pZ(o{#U>QX|lNndai}|u@tP&ccM(4`g6GsxB!3*>c
z8XKpKO#K>qe9)V>OnH49f=`T^rOCD&Y^La&7nW_hJZ(gpcFKb%azl!?{Q~M87Z#lC
z-OwZ9r)$=p(Q>_SOV84?rj-E~iH9v{pO&BR3<UUcsDz-0Hm$Q4G2b>Lm2@KRPNP4H
zs7-2l&%w>dk3Mc`Ggs2K#Z;RAL|cvcAQDk22O$&F=xX8LjC}L}VFG$!z&p{=L$}4Z
z*m#ybxEjAG$8EKB19nHJ4~?P`8jh<8-zuQ1b@uY)*!n!nj?HD<v?lT>S<cYV=I}UP
z_^UT1zD_`;syT0`K{;n9Jt?1uIcsPA+d`OF9?Vj@7!9Cz2OD#-#{QdGAx;E}4q1x(
z^E0jS+dhTGh$+Gu0Iu`r>=$G7q`i-}qQLc*LGoiFPa8iDt$CJa-vJ!<_<W!t+{GGv
zEwESeHfxJB1BJ?-x^zpOuvTs#mr_2!uKXrzU^)4@v<Rdlbk;IK7kpkCB@JO-3MfjS
z-ntK9vwu1DcJ}nua>~cPA-YYfbOln})sVvM=gv0<K23-O4XOI+<`JuY!};<l;j*3M
z&c!SbIdzeo@DzcLlfxI`=$5VLQc+C2lIH=>6oa;&z|7Wfn8eYFDbX3(NplFMbT)bV
zKdJapqq94fWy^3lV7z^v(fn+XUVkla-hC+a$T!u~M;=_j-CNkWGFIf>2LNL9!fPX&
z#S+JTtwcWU8r^H=JSsoYni;71j(r6*>-<1VHe~hlg6N-sM)3=1uC|tN>w7wG@T-dQ
zs*rTon{lF5Cb&XcHSgn6CNaerg?Ng7cmZ`aeTVk;@xwZZJ?=13gMf+H=@0le2s33f
znkNf?z;!7`+Rs^%4$QI)W`DatfZq;<D_V-Mw>nbV?Bc5|%dJUbXHh7t_w;>sUP;3E
zYO9i%M`@=VEX!f<VB+1yjb-Y!JSjTb_E1E{Q9-|u<_?Xtrv#lD0gdvr07Mf*;_|s7
zs%fsjcvc(M{A0GF6@~ZJ>Qp(#p1F8{FMJV)Rg_OeZ}z)M_8XfuWD|#Pyk1I|!_-e8
z`i5OT8tEC*XXt+zCOA*b!#8PvsYLaoI@tr!wADAUTmU)$G~Si0v9LHb*wYe3;H;c0
zoqh6Y$v9U%v=nBFKm=9gY9|$69BeQ4H@$HDtZkWUWTGh;q!GJ^Y5IwRRno#6^}zNm
zNrUcjKES(NoymJ8UpwE(pyrU9m9MaYt|#C?Z>C&aXP54!1+lrxXoSl-I7lMQ_~6Gy
z?+6_eEzF6XdFMkCR7bQk*xo1#$Cb*`OalL48&uD^dROS{RH*6wEqm6gC3>}3mh&vy
za;}_Ki6#%0S^J|?Z;Xk}CZ$ANITokORj#bK=exS(r+7R~z$_j%4pdqK!~Mu$Ss$#j
zemPY?Ef;yMqC-xeCKjKe=S#;p9x6@VLq_+40OeaM8u<8Bw9)NcB{e%cO&H=b7B{DG
z8x!W?L)da@j)qIk_ex!XxJNpC^=tar+!eL!zS($?iCnS6pn)m1;ch(009XCAkA4nx
zh`w}8zNgBMg?&p0(Y6GS6Td&Hw&(X!l8@(!xNPmK#q4pG21m-2L2Vh%PMfl1bLO?X
zLr(Sq(9~Hr)sHs*j^BNxkJ+DpV=6EG>=r*o>Bp6|*NHfzv^w@KJDA|jX3W!5>>m5@
z)m6=CcEYr**k9QC?g<608rC;Or#%ewM#XQ3Fx$EQi*X=8C=t_x$Zgr`mP9qX3*0os
z@cV&OqlLq_=mf1(dc}pBZJ+_?sO@|x=9Z}|5t&%#-0J&%-pi5iOr!qx=#L*2U!q+B
ziPG^Y!<CGv!~Q2A5&jEEZe9-7KM^#HT-6Mi<P3?R4j=V4gm_>91AA^>>M;q`r(^_M
zG!76=wHV&k3b|8rV^WE*&v7NVan|&0%*0S~-VY_bubnY#Mm?VVG*;cZ75Ei*`7T=3
zD=DcBmGxvp?{f9h-rs+Gz*ytNG^x{*CLfUN5W~5#DIw=z#;3ZYGNCS8@Igr%+qm{t
zy>JZWM<60dy>Er~7Q4PE!>mxE*zk!9Xe74&wOhUkByR|@;Q;)cGE0_mq5=o52hgbw
zAHHryo6Hc;dDt;mq!*f4@?p?0Y3n7NFUS1}sHW{5{taj`A4L@CPDQA2e|Zgc@#k0P
zo(*}3&~EIm(!Gki${R^0b}QMS+_2q%HD4N%EW*SDe3_Tgm?}Ko^#qQl?FkA{-o6+$
z%V2Sz#?nBDY#c_K@GkLGP$kF7)Vtx&%H@>Jd*XMWh7~^58taP_AWo#mk4If^bTCzP
z4pWd{z!amz7Nw+Ge<jua@NrVUX)Y_jBVHQSV}139ySG}F^f&4hcH$$d%N7y97A_E|
zK}mED(4H*7m?POA2ZxBFmJ}&4Za_$_s141GoaHti6&Vfb9@834zz$Kki$VC{j^xd%
zL$xrsK;QNz(YOY7EsA)BI^tW>a~5d+hq^nK#(;{PRPnWnxvuU<k|+8iy2SZU!#+Yj
z)>&Q}XB>bU6WbV17%o@&&*H?Znhi&mywxuaZ)2UkZ#V-6JTw%l^(ef5QSrg#l1iw6
zRxvp6+XFhM775aeK;TN{g}bsv(u+nHlhDaBRqQmyT3R^cYoA7lANo}$67d`0XrZB?
zFyj4FCKCV3#H;!d=Im_$vn_ytAlm{YVOsAb6y}4i6gVSPCUujMpXr<JljN`^<$IZe
zv#p8o3V9BB6=zw_Qd5^s3pCk+i@|VVR)=&1M!Adjl#XU=+dL&LBBcMt>a=11zzwu1
zDy=5q#)$I9TilN`@rfM0;`xFRcm%`{{otO&F|RHrp7Y4CY4p@*Xc0>9^)gzaUCGQM
za_bvl6GINvN=*}jNzY)<canLJOLXa#GVFjZO1Qg0oGaR*0`c!;pthJ_<uWB0nbxTR
zUq({B1N&*XpQx32?zFI|CniQWOtl-R)0k?6o!9n$+J_H)JZuKubcHl{9CQ0z03!>N
zs-;VW{C%Up8=0ts1c(LB`$-aDQ8VGiJrx__mfK?hzO-1p&5}S+3ayFXBO8L+nON+|
zQI^ON3e7Xw3S8|^5eZNZ`~&(ev@iG-iVI;+G@^et7BmL)UMM4LSC)TlEYSSggI|UF
z^_}=xy1zikKIj6IC?dBbVrrr$QClrCOM~s+Oc6H8*d%{7Go!}z>2bF3qBw~hm09Fv
z&)MZW+uCy)@BKh_j}Fd~C^8Iha)%9L%-!(RAFL$lbq%kHZ{CPWvov0CG^?KI7MOD9
z!zbD|3}lKL(Z0Xp@~#nw^!9=vBVmR?(Oo6SC$AM7Ifj(e*8x!Tdr>WV@yGRO52=|h
zSS18CY+R_`*vV+=bAa}_;JKRIh#+$>;j*AE88aIL?tyr_?eB!F5w)#)ZDw`zpF@sg
z$#^|A`5K%%B)M=80b_g;3a9Al<v?AjqMrU}puYdltW5!Q=xie6(TL34zpwc5k#GD8
z*T2+_EKv}c1oItI-P}LccCn0kR>jBSKzK8^UY=2=*siQ|XGc30KQ;0Dp<hvXsuzs-
zt0e<xZa>_@_QvN98q|s7=G!RvcZ|4MYuGG$P~2a#^NJ3nImt=CYA1sQ2S_P-tV)*L
zv;pwLZQmC$Ne`tdIloGLkc9P}XXIqIjTZVit$Y;CHy__(XLApj`PvEUdCUFjXfN=F
zc_awp48}8Hxd2JeNAz+%YcE6iOB%Ewmxhf~;QWlC2DuQn|0!;a<(-|}texD<b-i4y
zT}`h*`ch{|6PXofXcvqJH-wzT7(z0R+gET@l86nqHLS*Yz2+tsYE_Lu&lv(gm^Ih;
zNeFDcEI!Px?ZF~XU*zOt@5_^^3=;M;jEw6!{G>^d)L~!MVa0r`0+VXW;5jBOUA(82
zYzu#KqK$a)4mFuE&!&KAKz7~QXb|TCCL~E@W&ee4hs{^7Bx54JOeq+leP(pHUt3`X
zMz?Kj(3@6JV&t-2pM`U+>5%lQW3v>WfH*Zf`Sce8A(pYDQk47;9L)#Ap!|JvvS$^s
za`YdjAF8SHG1@*LsjXcTF3=O%6<T0eqjFK_@VM(23~B<i6DQ{^U<<`V+cvsmix_#O
ziL%~@YgSpmWgJFV=o?_(8u5wl3iaq0OBV3Qr$cN8_%+*>iKP(5T<#1%4yzL19QtB2
z()u&%juCZGA!Nh>NNEj)prTQr{BE3H?*m>nPXB6u*GB!*%XQ)YS1%Cc?;^ci6YIY_
zh<|#yE`6^={%>2v{L{;SmHdA?yk6p8Ddyj{iuKdspZfVv2iHrRD<$yTG>}IOa$WyV
z7yRkr`jK>10{ylW<nYSFe+r^Mr(S2$t267jF_8Qx9REJS{+xWBRIbSOw-u27ocuS`
z`=_7lh`pkq-}aI0FNE~x#Oq1-*VuO;hyMlMPzWY+Q&3RwkXHth3Pq4jAQY7U0~EzO
ALI3~&

literal 0
HcmV?d00001

diff --git a/tests/data/df6561b2-7ee5-4540-baab-5095f742716a.png b/tests/data/df6561b2-7ee5-4540-baab-5095f742716a.png
new file mode 100644
index 0000000000000000000000000000000000000000..88e81bee43f5c48571198c24f1ec2ec20adf6e1c
GIT binary patch
literal 16447
zcmb`ug;!hA(mss4yE_CZuEDiXS_p2%DN<T2NO5;56e$`A6sN`A-CLx%Ly+L^Q2I;n
zd%yMl19z>HWSw(zX3w5Iv-h)~nG>T0QpLxi!9hYo!dH8xtb>GvB7%g3Oo@epxFRZ{
zrj7VPcGpo=M5-L8+ee(B*(+!$AR*Nx;yziSBhIm1Um3e2ArbWb`ydawl-eL6$<3%K
zE9iNfALnQ~A9jx41{LJV2ZvF-3dU$Alxzv(%Ue~V)Xu9rVGTR^)(2`0ZVMl8O|ZW?
z+Wbm7RP*ZfH)Wlh7Jj*nZOBp$Ps)?d1>>JBV8Z|U7!N|9$d+Sli&}pS`n%r6_v!Ch
z+j4-T%OG$0!ckz!I(Flu@N*Y(qUQ2#RUiEC^F$Ee&3#=^(5iGo5dYbouh)}=`r|V^
zh!ASw#jm+#;px*E(0qeE&mb$db%HK=)AG~AIk&0pwE9o|Y1i`~zrSYzkMK;NVkbw!
z>CKCq4*FZp>Gg>q4%I)<zfX9bG^PP7EN?XBFo)lEN;F9mob{bI2Z+3HcMeam5?a2y
zeI~Nr_IYY!?p5MnxX92LCYx6w`V{2-eT+t&aRc*n=#7IP#80}KN!#Z(00)$K(`tmp
zP~3iALsnuQz;~GjKV}}?9S-ygibn}vzjp*5?7}5f>5uH8DVZmMfiLGShUWj6rc?(6
zI(gDoQRHXKwFqFxbn+F<F-c#A@<zFiseSsx(B0)gT(9ZnGbFRPc_-;iz;*w}lG$yr
z!c%~(L^go$iemTVRth)3cR3%GJ^lqK;Ni)Wa5cFR)hw2G6V3`tE8yjNoFX&K!9w41
zSYqJD*z*sMGOyktGSKCaYX97}bAO5NRgbmw%deBAjfUKt$4Y7u#|)bH2KuHW;)6|Z
zpi4GKihG_mXvw=~zG&h;L6XYtI^xM+e&HghQMFm)w`}55Z%eRB_=U{pOznFt!Vb$Z
z;?gw#yUrXta+kG9Pgo&dtE@iZTO<7l;@^8riB$sJ)u)~QFKK`7Qi$<eT>9MiP<#p)
z6fuO#Qu^Xb-f9Jzi7h-SXy>2&A^$y0jOZf)z3AONxHYrYM}orNlS_^e%j6kLycy$8
zPSZp$qx|y|84FoLNmbx;d&EwT8!^W}<EeJL4hUlN>w`PlMP1&})mxqr_==U{SZQF&
z&<=dfI!s3{ARR|DEcw?a&*<cdCF+_D2ekQJQT}Y%#O5CIgf`qXKus>af$mpa-f9m<
zOpF5VYhs*oiVgTIbpys`KBc1s3I>(__ufp1|L7~qk|o&HU2A~cNn#(Xe9wTkmTe!2
z$^hkPZTw^{vWMki_}Ze!qv-*!ykGR{yHi670MT0`<Bxl@a97`862iTMd6AAn=-AtY
z`ltmN**0gGUcw~&7@D};cYDV3(N$s_E}$Y}kM*CCi#|T_^P<Y#laZTw^TO(7Yau{#
zyqFh+F7MdS3eXZruA_!H&5RiGvHf{KG>99gyQ2M#@pK+u<uz3G=Zx(7Ug5(-BN0)?
z$1L;T6Slk-6+lsCPBb!~#;ruEfBo`7`QrTh1GcAVV<!v^{sNXo{Pgt)MV&i=Sn$V*
z{Tk8h`xr=5>L8!(HA&v>*7rmAFR&^f|DwP^_QeaN_eKtH6KOKbrit>gj21mS{wuNa
z?O;z(S6I_fTh0h+=QJ+8*H;DHT0lv?g$7iUtQ|e!yAYxB`*r8fgaJW!%`!jNnPj^x
zfzH|Q0s?Y#*^JtNwk6_UJa!nO_k?Pui1G!qvzyG0ct^>NX#S%yjjK#@O%%XJK68cj
z{iew6V)VHz*4uH9C{G8B*0_``!znm1p34ZK6yMGFHMccz96wcM)x>5P>ZMvJ`NMs@
z>6q$<2G^2ojGx1Ui1Hq}R{duKei!`zIP+y*%e8VgY*@~s5j~V5M)%;5r}`}$g!W~^
zaiN&siH9|NfNa<y@81n>N9VfDR2Gl;BnldV6EtHBD62zEyGH=RFzXl8{j8_L+4v=n
zWr>p#!+!$3+D2VY>RJA|>I6~&9~HfKo;d@*$=|$)eD4dhheM8*p>PmUm_T11dcXkZ
z=-h8OsiO<Ej{ozaD#e<n2*16}fw38slz?#C-ZoHH+xcF3|4=nRme7bXpE&hVW+9;X
zW5U@aZlg5zEJv#mk_kv3@Pz)D_p)KZ2Dnxldj3Gbf8RpcmRG?yIyVis=WdUX3f0aP
z4=!lkBOnz`Rx)d9lr4EJD9zf$EyuXo;LlV~<fNA6nQhz0VXb2&ba^lMpAf+R`cX$C
zhJTqy=n?aHYkKF;Wyvo;Fh|beZAvCO((wFF!dq=9CU-mf>fL=uN2=wZMKqOcXs1*>
zVUMmSqa>~?&f$T(TXOKt#P!{MOl(>KEeJX^#uL3m$%0kRN_NrS;{VFl{StY)qZs<`
zKi-cv^C!6Q)nF@4gJ)7+j&3`x`heQtk9NixjuBc0N`qNAic60>>zPmN(g-Q_+1@2?
zO}T8zNzXQ!EqfqC=?5RKz|FkLlaP)jEM6TPG^PK@6yI0~vrUtW#>H{{ML`KL64sd*
zE|wb(@{VHMtHXW^%-|$veQ|L4+GP{M#i{++xs#69PJVqKnb9`RCjqwek*ji&pcB)s
zutsY}X&@f8Qjnu$@Xb$4Y2k1`+EyOQ+!^4yeZG$``85U(GQ&7-k2b#h%U5Z!_~vl`
z@~w+itEYb`cTBLxw_C(e*aX_Q?IZ`9ue%w1cRM}%VC5bV0tEnQ@rW3FW74)vb-me8
zx3h2#Ke2nmQc=RAM%u_)%Gg3@uY4MsT*Lf(@*;TYR6*bO-689qbBlGimyv0GWv^QG
zYmw}=sq;-uAq(C8f~H}=ZD6$ue%z>u7WpL76@MJHj6$MoGp8^NTb)5wgCYT?112bW
z=RcBCbn2qeO9;16iJ9lwRJ^b1*CZe4*2RDOb`32}(3-3Xxz!StjAG$CI<G~#l<ekI
zJljkBCu~yk&fe)`j$!bgtsZdg8!bn#_8c4FcG>S9Qh$7v>a<1@ET!Z8Yq1!4Zi2%D
zj2}SIk@HMMJn%bkZRH{osp^NUaqxGG_(}ONsC!^q*gsc>M0&TTYolXsWS(iTzgL*j
z3(NrIQU|y7WsG2F)67mU;@-A&n_$S_3_bR8k##(ZpH1GSZ#HCnb3T^^<d*LKJ^2<`
zxpXm#G@mc2h-t75|N3toB<puN4h1V!?zb9z$sXn~4+~~zUJCG)5G2d?W`SK%I_>$e
zA<rS!*|e1$ZkP<9;{Ffvf^c7c$*C3*|K<hZ>iWbRik64az{=GN|KMyi2a|AvhZY@T
zcSY|#bdv=62!Xyi7Ep8JD3x|?el4E^N1`Iy)oH`hO-pD~9<lmhD*fQWWMjbi?eFgc
zo(npGd@ep3!OLh4?%@W&>~^-##0<VYX+s-s$ySHN0B5A|(2py!k=JhDeub}LZ(!os
zMms<cy>WFnd3I}^2%MJSUr#4;@j)a!FgQ0aoExJ51&1XS?r3Ey<Xjc~&x-ySS@JfE
zS^ZpR^}hlsYtN=&j#y^qXf-I!oxQ(;#$@L&(|$o=Q5M%<_tozwBQRltX#ok&->dP8
z?$Do1D|U*I2#f5SE^34namVd0um1@D2OHs%vo>c|s6#-~vQFz=pzjKre2;ZO_K_<N
z;NHWrn7+=rT94gR5`e9X4+F!gtW1rhlmFjI_{XR1{4STj(&F?>wG$tA8!A<b?&J;S
z44v-DHr&5HNGt>;nldY@+Gqb6ul})frKa}gKk@oMhouQyPxN^&6@w<?!V`ijk$=3b
zY9-+_4NSEy(l@rJCHyGs?7}nW|C28xr}ltcalI~X`g=&ixVfq4B?6M-Y2;+d9Di(U
z<QkY>ZKwWwzm)JdNZ~eFElGKAclY=P>9*ng^2KtWM{|2XUqaV!Va2M_djGb^PAK3z
zXiO%tUX}A38AtI-_?X<GvSm-q(6RT5|IhRuf<_Q{v?`4eMSl77jL@p?s}sw*g}|G%
zI3t(P={{ETV^@FrratM;6IOoJoBLU-&rdPGr1l1{V^cU4>zGr1EN`DFeRU4H#mXUS
zk{%{majRw0ZXD%~){1q@SV+1Kj?>>G<&!kv1X((&npAL8PL6m~`PJh)s9Zlb=EVUD
zI-rXe&^FLR_;Q^NnB?W2320Vj`uZ}aiC$W3G#Z14IG^-enhW7h+B)OfV8tx4GAA~x
zdc5WRpOK7?dpPY$vm#jWU0b2U!xzP3)UCtNV~fGn`hU02@|*q-INGtFlb6eUBm)?S
zyOosixUtKPy2e^?DDorL?%y*ht0wVKHsaU4IHaUn--7NI*5ZQ{AO8ADJ#(R&fqD2q
zZQkY#Dn|nMfzM-?6b}^eADQ(wt=?IOJGhRnKnC%2d@=sLThBV_4}Yy%yCUF+-TCL8
zL;GtB(-h;hdt=;a*V`j{{c4_eIu!W=BhR3aVEdnXVOMDSB^-FgcM&XCihg5OD0r-e
zQ@>o!hzvS*lCjvWB4f}uXu4bYsi<C-X?}Hh2!x`O@s}=khXniSLmOBuEztnYmgHeW
zyOUC)CBxlQn|Dlp?}1LA-x7!kWTmu!$+C2eZtZ0!Wr@=wO5CWb9-L<g?eDVq8cmrn
zxto^WN;Z4a8o(E$g)<;fhHn0jhq<Klxg+SVL(cz{pa>rNdq>3(%-!$4;qwUJ5`$<1
zt0qy0<$i>Tsr58{snY7h1)i3q?d03P!<3<axP+hG*U1GQZ^1)@Z-{skgVyyRrJ1pH
z`l@F8$s<H6?_~!tV`*O@eXe>qw`Hww+1WXaNG`O7j<JvxP;p%EwQ_Ld*v)A}$Uxi{
zE?LMbll}B#^KCsv80(TUQ5ux82K%)u?Q}0l0KUaA$FJIe!xSMQdklA9<*yi~W?pGr
z&eEP&cJcoNZ}=wt8CfjGH*?X$OTidrjmNR%B{dNTqnIyym~P1A&=9J;JWgkfPMP~f
zTecfgTPadu|7ij{f#==#gHH`_(iExkExkT?Blj8zkD)ru(5+CZzV{nb=o_|1NvNE8
zFm2%0$4j9Y&KLAv|NIzh;V*IO<+8I`fgZ0TIDxTVua_(MD$i>O-A28_glW=P69x_(
zb9tEPeGw?&jli85G8L4!mlO2<;e{**SA51eR^e{pQPSZAH6m+_vKueD`{L@i8vT8h
z5pAZE0V1$+wD3~ICMWNB@4W+=$A(sA9Dio`&0^BkJGbNcz7tt|pNvnXkEJ6#oZ;&n
zE^^9#FX<$y0UxW03&?7b&6VKMoCZv`**Js~k7hku$5$=|*QN_R$JMX0=uNtfr_$5i
zI9#{94$nojVz3vNQ+qY$eBK~!k;vY!MqyVfE*bb<*@=ZfgY@w0W%o61nh$!wrH;4P
z>W}Gn4$@<4A7`k4<qTr6k{yADn4)PqOf9Co*ZwP9Wev4Xswefq^o62mUty-?JfX@b
z78$u^3y5+b$I3<zLnVKN(Kr1tB}|;+JtfadMxOk*B0~Ovz|}>6Z|rz3RSAbU$%;1y
z@`&-c?Sv_#>kW<;*)(C1H_#=tY6X$Zdk}+hR8&gsGO(D;g2ZxSEzbL%@%gs(RJ(B<
z`9QxHu|?)`)p<=x_hvT2h4#}f3lIMu30K`&5fUsb)3Rx}bbBFRP3Vb<y);X=(v_#k
zZ>Op!0Z?g81<=4eXRKrQDDrF5bWsa_Ueo;4fqY=q6IN#<s!Vi~T)}W8^84gzxre-D
z9MlZ|wZl4;olRJvW<|20qhXk%!*TosYL<OH>YDA1>e09F-YWj_IU?E!WS6r-;z^Sp
zA0eP<tY9VPwsg|z6}5@}V><u*4g+5cC+dVE|92XxA+O6Pm>zY0s}&21CyOXK25!hb
z-A7Yv<>x75h<r_7R_{1UVD+cuFNsgHXa^Jt&%>x~vZCqej6)ev0-$ca)QTavl1J8q
z><hj&pv%TIoVc|VC^)>6#<I$i`fbv!(A-B?$6yERYh(=G_CujNTMpA&hpUhJzz7U%
zG%1mF8uXJ1`uxKZm1M_KCC-*<9+2Xu69TlyA;`Zb@_(w!Tb$Jfbl8ZNs=Plfxu%Ln
zE7lC>;B1r@45K{SL=B{!d<{8Z(GyoM%mZ+!&1(*;yD6TkYl3Sf3=(5?K8>i^{{B<F
zj3>gS+8THfZ`At^%ny*z1sC6tczo8;4*#|~a^<AGP?PlXB=nuE`B=|E!ZfXeN-cM+
z){a0DY9-&;^$-p6tcRoSE%Vg2d=^0^l-8QEXVj)$ol%P*?NHN`dZML=S%d?iEiocC
zUZ?Jv{)0gw90S<fM=T(m%xho60w(!<KZE0?5Y8PHgCbCoVx~@LX~+iZR;4alFZ)J)
z>J!Oe<k*S|)E$sV-hJpHu24$x)QpyJ=%$sZ(1I-S8<U1&(Id6#=2K$2nI-=c@E`m}
zWxb!qPnF-BCj8|n`z2BSAt^uv$X=;zZCc9!M&VTh>Y_PH@66%Lnc%*#&}GsTs$5si
zV<Eu@5%O4OQ{O`Lbh?~pL@jC!mRPUQhQqu!^jGqTLD9C6vbZXx)jNOtYhNFYmr}iT
zNYq*tn92v1<z!I@r+;x7g`pLsi>hFBM#NE4o%t%AzG%<nL(4MeIAkS_O<8J*Lf?R(
zeh|Z>&GB)XE&bSTLz2aMrOq6-tU=gK)JL2;yNb@L*RpfwOYLxwxr=310L=f*6+LuC
zuhtG@TSv_jDTrtk6p}oAAEC8(dr;6pIznB|)2~E?K7GaDadqg$#%N(>8NBk@B(OtG
zr5#>B=_>GD+$mi>nnzJP4SL_Q|GHTK6)!5cQ%t#i6esyEl(>BLVxN6Qpp^UQg(^ut
zH3jDwDDO4119^l#KX~+)gUu$i0akbhxxzET(4!VqZ>kSL&8y#3lX&j@)855#kj0mY
zQj4_%a^ob(9@h(}`pQTVuVp+oWhw5!VXRG(ua-svuydK4<>=_gZr0Xd^^qkzXaM`!
z1{2n>p|xU-)eo)mgs9V{a#h~kx^aB?R=JbB&lINxi<26jd2@$smj%*r;-x|a{#Fg8
zRV%5lI~#G9r34sfL-2X!gs{Qluh}aI_xG+RV?rohBb9Ita%O_=Kwg^=kMMB5=JLvr
z$)yW2{FZ+A;ekt6o(V)AQG!r6pi`rRlqUXG`%DanSuFbptFeHhE$_quse6(%axzwt
zksbtu$N04sTJcWI|H|vO(V^ujC<>V4jq$w+y{S#k-^fq%O)+Ylz_0S|ApZ_pig+mf
z-jxE_fc(<i9My?IZnNY^r)ut26>$maH!SqiaDqT*D7$7nv)IHnT<P-lS_F%S{LIC4
zYjm8)9kp6GN*X0#2u%0CKIZU@UUoI7^0tic-V9nVsy6emjxFH!hLYdu&->3f`FxOB
zyq!-Q;QOu+7hX&8u)<J$d|BM^$@^2!QL2o;O>6aW|7@A(%)gzh+-=$fwC~*WT@7bv
z7PRYR%C4T?Vo1hA8%yvCSE-4yiDEUkfDgK!Cz{R=T4Qh6Zn@8>Qm5nb6S_ygbO*16
z7Xh8t;0aWYIj}1aFSKK{o4O{`izf~ndyjko?#q#8`bd8A?_?!6r1Qn&+I0y-mCFn7
z?<M|vT@9!)_lqf{ZI~P4e(h<_ks-f-^6`td!CO47^rNQ;8C$*@Y2WGf6j{v^B?Fk2
zAtr?8ox;H166bJQprmcti|58LlVZmJ7@H*6_5<BDdpe8iv_|S%;)e_LMzt)rZ-!Vk
zP72GQIW_3rJw&1g+-33_`s^Q8j7FOKvx~rGivTAhX8H!}_AL|`G6MN8j%D9VNiw9<
zcXcqy1Y&ENrqihI>>6trYR77cNUCSsr5R!grU~V!%P0yy`GcG?tJjya!6mtq4ZHzD
z0`sP-{<LI2_iGG!c`N_w=WZ8`)ej7CIZJ%l-t>kz(>j_@o(3_90`#^2!QKSfSbJ2?
z+lsSi_5o}S(`Zf86dKit`#<h(C4f}<Yg02WMJ{|$#y8-I5?;=;RjcatT`T5j32i=A
zpzILnIRJdIDf@zFT$0Qxc;;1fDn+#*)nSN<tBfYbjI5m3@F{T_impCnl<X}*ANdd)
z9^QD1JMwRoD9Xu}^98w2F}AV%c&>WZql*5pSUm~u1u7sa9g9aPjNg?-WNlC~#^Os9
z)g3yJr9NIu`K4?WE506mD8A0EZN)3f##A7(#$b^%7?l=hTp_7)sx?-(Y)3#)dlAi!
zZhXHkn2V~dpKI*zn%vVGW2YD96B6xRg!%KA5+-Tn`<O#*c&Q~(@TDW-aU)`!Wbcy3
z7$v+9gq?gPt8zgEP`Ssg`L&CYj&gs3`Y5V5{UMWv5I6DfV*sTF(Ya&UuWm~1Q<rS^
zhn%3Dw5~P$HR<MSD=fm+-4By?6c;+I&k<{1DY4;&6y-Ho-1Ou>_qB70;4s+&QoHcM
z?6MXxGB{drq7t>%zmpprTIX6r3_!KX%xZX{neiSKhcThPTavTU88$QNMnfd=)?IXm
zSS6<R_7+3kmk7l01=>t9n=pEYc9vbNt8U*MNRZmFmHIAIedz7i$XPx3C9HqY`ka>W
zF7S3Rd$ieE9*6LV>G0AjHTH{lI#kNLuPy~BS}%=^6<Fb+WIlR%SUMd<vG($F-P4~<
z)Xs*0j9j5Tly`fKT0k)Q0sU82X|1y#qQR$daN6I+u0HYT+Z=PTAsfZ`qlrtu=INjt
zZ|o*nC}FoG&!xO_7ww>TyFsq~gdDzLFO}IovYnrVJJ~s(QfX>QJpTLlJ}5*_zQ?NR
zkG%J_48mgoo>zM55L9VtYR3!G`Md#bW82s%V0Llu#ARRqNT~8PLzaya-t|4Muk@*P
zC`!HZ8(FzN+~4anClCGjlBy03!1KZdq0^ZtV>%?bma!sah6Jq@kWY!U;YJz%V4yg_
z?{PPS(&m^9ZH9=c+G^xoLn6!1-6!uL*H1HwT>acx^goMtobI1SHE!B)5Cp5tl{(A<
z03v_6h*cUqsI|`zy5=nj;Uz3yxND`O$20%9r;T1mZxc4Sz027T;47ZhHsk>52ZDg^
z<4cDv+@s6}08r12RJ$lt)A7^&?XMuOHgQ`*O(Ytb*?@tR%^W9ja5;lNl3e!d47Z;z
z3WOcMg&K=mkI>1qy;1g0e(?$W?nuicDu#Pb=$y64uF=>ZrkF+l6+W`sUp79miNxO8
zSI;avY{O8}PQ*IkFz5Y5Qt3RFeR-d`@pH;fO*jXYHm1O14t6mTJe@bum=3Io?Uw+T
z{%nLt)HBTT0`huQq{fKM;}DpZW6APv{QN|q9gpm}o|S<yn9m;0%QN4>BnzfSQ8k+#
zF8e*fsF~=IIN`1f^-_>^0q)|uD#a6(d<*8HNDB35kQavpmJInn1TnMl*=^}v7{=%x
zx1pckB)NM~lq{vaE1mGALE|2sn$e@m&?yaIf7L9N-g=wn3-KmNDyUS0YzHO;6LP$N
z;?Q^*%?$o#$6xW5ZxqhS_XVm1n9zuP6H`DCuG;|Qy{k7r-m0!aMV{E>1~u?TIm-Ve
zw5vD57@e|t=Dqhq-aO&4^f9^^;RAqJJ@meCQu@EuJb;UI-)Fnb*_Gi5vVjWEGU`n;
zCM3W;qxU#$n8EhtnszO>5bhl|2~D@+65vR}%gE2aO*E)PwgK)UCGulTD>+Kn%&ib$
z#DaDR8_#WSinjV<)Q5oRp69}Wk-Qz4e`jtFMkVIrr_8J^EJD@pLcN3}ZHGRwYih!&
zJ%*@X*J0BfNL@BNdrQdSu3i}Umo73Oi2O+@-R34%2HAIGo-eRjRgeZVhRQb{u+IAy
zAoQ~Q1re@FlfyO)Z42_@y+2usan_Pg40(+1V?54}_DCuLa0>MgYWVii+?iU$W<hC5
zRRPBs*`q^8<ZsPSuwR@&ZY}iDkgbA+pYgMg_y7NY*r#pWjubyeE3k8z6s^1Y$YOSN
z(@0bpLM-KBv9--1C`^%YMeDx(WsN(edt~*mr=+VJSysel_(Gml%0oL2>sW|bB+u<c
z=*Za=jsOGrWbe=1y-x~rk$>spYbr!5=(CQ`TXL51fo#HSzZoSw*`P#dxs>XB52@6G
zbj(Kkke8bTVrYC=)@vghXyb3mG~d9BcL3+Q>Gfo{$w!0Q$;nlDv6LPcax_z*VUfgs
zf+Bh3R?*}xQs82fkJ`g<0mZ33Mgz;0Gwl)woZ9Kv&F(Xp!=JOXHBH8P%<-mY^aRKV
za%BR}u6%HXfz7bV0t}Z-b5VeKZv&ORxMrssXay^`pqFReo_$5aDUe{o`ThOs4z&b~
z-E=?@D&0THZ`yVBaEDVg#@F|AbK8A;TU$12)P^*lr&*N4u;w#H@B`|$Ic#ReO)phY
z-K#qaLtd@V5Yknp9hk2EPdZv<ft#u&M<0hm__rS2L9#GCK>yum@q<sVmMvNB&A0_<
zDuMXExF5|O?Pzcz^324yBqeESTL{Xv6-HKzPs2%+)@;_lG;gDLiWc25>i0I8R6O{!
zbVjOhl1!CBFci!7ARHE+YaLxfQ$?Tc(0uQ|iM7*1S<-#!^np0Uve+U6qq0gXl7|fh
zN$X=twZ}jXhC9MP1q}yK3U!_Ob0{z}fv%P4Mq)nd?vy4D&Gh2;sCOOk#%W34Qf1#9
zl9n^4xwKD>U0`!x_(&*H>KDs@1^y%4H<rNk29}S1Uqib2)a%N}BVBfK<Wj|#`t}(}
z4*A9}eQG*=@E{!nVl8n4`{CRD<Yk`_NDkMus;aNt3y1i@+x&-1?%o9NyqDu2B3fAz
z?`Opg+pXzebqV@EW0w3uD(|~alcfIlWNV%C@D7Ju*U6g2egokw#WJNZ-x9E50m#$q
zhamYx_<C^-rug}gc`T1EjVS}3kCdWHC;(=fP{O<hq5F@FC3A~-hE6NJ@k_E3L}m$4
zsXlgFi`#ir+t22%X3c&wuB-ZKGX8}I#_WcR&ID&PWbSWf0Jp1#l0mI;bNf|h8z#+u
zQkq`(5f39fCx%I!mt(7#;^pRgce|)hc}YMSC-(q`-|Vy6--%1IiE6a@Us8|^HPiRl
zrMKDioDdqkQ4qiO$?{fnc>{)7c<Gphw~6O*f)=5#4>Rd@RxaRDOC5Cxq#FXCFN<@%
zwQJTV{|O!gycX!s=gsC6Tt<CD#|5L<VmV<#xaOEai+LSXtH;fL4#KY_D*|$1J1^Ge
zbs!rxzf~G7n*C7U!miT3hp2qVb>&!U*>R#gT{eceCRgcDZk~LuX8Bb6XRLX-`*#cp
zJ~;W4H?0>JiJ`dtG$lYUl8yJ^tQ)64rbr#2v^tJ+H*#nAS;-HY((a#+YsCqA8caE0
zS?NHh2gA~YS}RGk#(Bg0KarPsM+Y_HcoLti;c%A`3~h<rcls!lon3l+LerG*8}xB4
z_nQ0YuI~9KOft}dT#UVhEIr-DJi(#1uS(~J%me%*8hYFNP;qZ1k~|oS+mt7kl{%NT
zZ)N@0LGHKWE}S`nRW!H?P*$;UA#`Cf0Jjud{J*a7)<;hhtW<>KoJ%<c16Dl3^n{yM
zCd0ZCV9JTvi~kg*-fLJ8wG#UgD=)yK``P@<e)k>CAjS~6j%`*WFeDED!E|O5c}!N7
z^^MViT^oJE>+{rCWBOb9bMVZzx=}M3*3M$~V`VHaaTL6Q^9GD_EV1AM*Izv;Z=FY0
z%x5o;QOerH)c^IHKw3aF9~u7V&RtplKK0aJ+U2kR3PWcUpfj|J%>GMk=NpZ^91Rl)
zgGJNn&>yh3fY7$`47|F}xK5oi{*f-6{UlSjDeA?AA0yu{W?whL4|1L_H}rMeE(<5&
zCH7Bt%S^(gfV`ZBFxt%%F|u-qyg4(<0DhMCFz^4}J!AvzD+s?qc-0&44ynN7L^-8?
zf*v(h!*`uy^X0qSV+bk%oR#@dZ_c14I8!KnC`(xscI^D+yFwF)aQC-iA*4>7^VUc5
zH9(lO<gV6$lCF1^*AhsQF<l_doB;l%wjsT<l3eKlIAj4aF)I&hA<R#YWHs_)TcO@d
zj+9f(CnTgu%Q0X8TN177@aJQDm|L(C*-)FLzyn?EG#vcM$;tWwDN$JOb0KQ)Dn8Ok
zP6B@<Ah`Nigkp1>f)mu$6qNg7%ocsaU*2)xiD{(+lb09^mhV#2*yF`?DZy7cb>ek4
z?k^7Z?e$u^FYE7|7+J(Si)DFaH_bvv$ykINf*+n*Y1i)&hN$6tK3Y$FywARXi$@PR
zVTZSU@1r6?N6<!@=F<_`CY7+Ow&l<K$JaN<K<1~Fo|0vpf4+jrv{SQ$w%h!;8jPME
zRIeDqxUNbq#<y;)jak?-#f?_13N6_4RZ4`L{czHX$XypbzHgN!<a&0+D=0dL0v@7u
zJA-q0t}$v{y`1D-+2Jswvi2=t8(&j+WIlIA6>tFC>g>Z8mWxc&W<SD72rIxW6#GlU
zG}drPrR|&8<~zx#QJVh!x4CtDzu_MK#Xl}q?O}};*}XMMH$ME}Z!c3t4)CovPe!YE
z(15h`VH@*2^u^3gNWQVUrb&=Dv;PS{<OLe@ux@i1s7b^(p@qKdRV);(^2Ge#7Le%5
z=k-3o<DWuMfH?xlawnsMkK^0S7T~C6{V^Zx2QAH5R?H|*s=2C#z~vLX(Sb0u;<mw$
zI5NzcKO@?fmF`7`!0EJN#6`C@_46oE+1!7gVX1-Kb{b0hIuH<JkMv*quJExVN$!hZ
zr;Ni7Ps)_w(BpV#V(lu_A!DWHHg57d*LJES0H~oQA}<{nG9&XjG819;Rl3)i-o&`Q
z4X4=BE__hhg%y8!``#oXznh<rk8#t8+JNtLn%Q0%B5$mxD<-hPiXAvjTp#g@)FX}U
z6ldV}5AhJtsb4(5pBAbVS%r2fj@LZeor>%aBU&#yiP;^BSP+aXy}Zt`TNmN6gIZ9#
z&4(A9(?=!M?!nfWKbiZ3KCgW50wT+c@0RR8TuYDuKD@<{o%zyrsT{Ca6eVO;{@`C2
z2NVp}<kf!&cJ<<8V!&-;L+lKK{hjmoSwJ<ks-hICh_K5hiM+4tgMNO?6NVv6X(QIv
z&$fks4wZ)>5>DjCRrXL;Fv}&bl(S2BTG%3Qns%Xr10uhxF)FFlEETsj)M;GSZk?-@
ziBaURP?Wa7tdOK_fKWK?%cvf)%Xg~VmxVarx5L*EB>~uLDz6hv+ioO&^49~;eG~OK
zQr;%xH%(OiP=SOyPxi!>zx$ALDq&W}Sf3fE>!xy|zR!*8)r9s!cQxfr2M6YdS3n{f
z<m!s$c4T4gPbcn^P#!RgD#$4FfWcpAvr857AxgG)m3l_whQKvEiq+EKhbAOg++bm3
z7U2fS`rudY4FovW%if^VddJJ#6W52q_Xn?0F<b9$YhhRQKGdD^zOAbCg%RWLe~uq5
z!#M|B!!cb@<Mx>K1&fc^-{0KF6Tn3Lof;P|uG%54UZNyP8K^*7a$hi0o%56Hm+dq>
zJ`iu7T?5$$J&Gp*8P%wS&RX>kV9#1{GE<$f)UCuEIZO9zQK5q;H)3AZnhChaUJz(Z
z_?_(L$y<>fTdf^SIWFhPXtpMs_XpuP8x6b59|o`kRtqbf4`f-fOER=p(dxE6vuJlz
z8_U!WLrjCE=s<HtlI|hK8!)GmCr7*`vx+6&yg4{AeLr>soj6{r!VKQ#iKO1TtEBGm
zE`EU^N9am&&p;Ukj5#`VN}~o!9lU*F;`l6oS~m4{(8xNat>d;n!dNKa`0>^U$@B4=
z*4jHsYtr*B`Kx*n4b|kqWi$g!S-oXKwobYIrHS`&xtkYxx2L@!+bcFZWan0rN;T&i
ziV~9Ew+0AQ@_wOTK**WWhX&=rd9a+@<0F{mV6nc4-M$Q<b+>9xB_^n@0ZDz3E{+50
zH$Yxf_pa`w+W88*0wl<yH0<%*;^K74o6D`KxIj!u-Vr5q=AF3u6U{P&euxzuJ-?N)
z31Cz@f%?NasujiWt8FZ-@HbpAr$5F_xtNA&#SG`wmFIk_uLf<_h|`<v6&OqpHOt<f
zS`|X2Dd`Y`d6y(3B8@$#1VPbUepmUIun3bQ{qR!0b2-M#VM;`1OmBdT>G(3k8Airg
z?=SX74Kc-_5tSThk0TJSZJOmQV^@{DcvCZQR!exTYiYE9zhBtsf=^H6HY#yW|5P$&
zI%a6oYJJ*kf=`U+8DkFrn{o35>csMD_0dB^6$9uH>kF}opr(+p6IhaY?=mA7=3(u4
zZ)z6^`mTPC@vC>$Bq?^fd;k1ov*%>&^a&@u!KNV1#1!&Br%UOE?)j}vFTtHc=YOgj
z_f`MAhND^%2aa9aU`}#Fp>TcKA-VZ84{-~Q*$=-|tA*^AGH|t3aqn)7?dvKgdQfT|
zq&gG)_7tnaA6qwDMt9GzPwr4ZHCbpH?C~y*a}+W6lc7rEnqp<!ma%8MOn#V37xl+a
z^X4G>^tMWNq83}m`&hR3gwVya!{-t?a8e5*mXBF-qV%csCpi0dae(Tl3gk|(dyMkj
zdSMqfvj%tVfY<NGO(V!jzLS+uWn1*!b5F)1JsYTn0r<rgg_Aw04y|=7vbp>lNN!V9
zsif*no3NRk`GSMlqcna~`D=YlvODpLey(h1K7*;R&6Q2WB~4~4at>SDxOX2LVQdGN
z>HN*Mqp7G!dWZEz1ql)xk1chRfc&OC$?VitqG^IN5=mIUdbt6Z`>1{`AQwr!ll<sR
z>?93P37fEE0sR0;FFxC@uut4zd5Mq!L~7Md1TET+wSd&IDb*9&vk)=;Q#fO~qu34=
z_M>#U<|0<d%jv~_y@(9o;PfdX05>wn(QV^?u^NF@3GXCaq_oiYuCt?MyCGZLBL`@v
zmhON73+IR?IISv3+@PicjpoJql7h=!*Bv{XnNztkGJ!FV?JQ#-V@ZF^^<g=D5Tn!H
zwA-r7{lvJtV<qq%vtrVu9-<LaPNYldO27*v)11t=@V?7+UUqrTQw%XacPIX|#1a5P
z>7Z!iINGzGd-K`;dH}ny1-01<$*%>to}ATGLsa73y<{X~dqTFPL8+XhyAD5J$trW7
zK$ajLHZNOror%yRbwp}=89QmB2hoW5XEj&eZb#C1Q6T808o8sEds|_A^)#aNOY0RU
ze$-{)eWm*R`z07!8}{QZ7h&Ktoovv}P*uP_GpVb-ogEWM{^I-C?6mvWON(GTR?r24
zEwGexlDYU-eHzIT5gCDzmxSL=k1mF^q=Xj_yVRjTjMu9ijnDtrvV3gcJ<)r@B)zQ{
z-?%`%AQN4vi`RNv-&x_-y_KqD0XhHR*OdT6C-CTeZ^QP<Z`~wTwv*Dgr#3%-FGQ!b
zPi$FCGFXYAazFGAmo))L+F!P|Q8X|Y({8*CCR645lMG`!s`tF{!T5qREnMgtPo7;1
zB#(r8cK1q%1%SERT>gs@dzcoKA=?4w;}>yAmmICIyl=`1AAQXgU5HOAl|7@&Fq$ct
zMoA<pMD!ZkSP)v;Lg5>B9nC|hUT0P~X5i4yz}J`?JFib3t-*HpEq+`HPDT9(ZvR(1
z8t{z&H^uM#zV-3cS-dl7P60ypAbs-;{qqQB?1G86<4HL$M<F)C{?M>g3aX||OqP0=
z!ZM#R%h|T?T8!3N$d%|sUw=kprY5#vvWU1K<48Gu4#-6{CA6y%Fcs61<%}cEit<s=
zOg8<I_t#soSo)lsO|BopV}rl+7<LFX7h?SD^DPWG@<`_!)ccyh??8SXqUncQbq@V_
zNl{kEHA!Oai)iE3dvxth&&Sj9TG+#bG-hj5DklZ(1-R4EY@p0?U;M>ZynCh3uK{c<
zwQ<E?q9=NJT|n~qgUeWpR~ACNTJL1LPRwzbqoR!65oM)h#J+J6b^22j)^Cw3F{tps
zyD*X}pLj7^kOT8k{p__5O(|c``;hz+t$8+3&#ST$7jmOG(y1DWEe*9Q5G1rmHj3Uv
zz|B_!zg#e?_cki`<l+<{v|T}y-;@C~L9bvgCf)cD>}>OE;A<zgS5C^j;)27A!%MbQ
z&FKV0WnL`*9WH&p!>1vXF8)YVB;{c}EQENvM3t0hy@rAP)}sEh;)zXn%qe<~4_e<=
zFWoKQRjNdp0;THN9Y%=}GZm@*yJ-e%8stjV>uPM-yi}3dC_qF`W2LO7JeO`c>DHLo
z<<SW&9LK2{e}SoUK<3c)BbY{3uU#rW@$@u0QSRHbz4w_AOm80EciY}|)AxpCQ*(w2
z{ifa4;pWcc9`Am7mmY^)lK(%sf8Kb8Xr@n;O#hnQV!;xOK$=HIGZg%qPYde1tlxt2
zbP*wprhhGgEvlJyHQ&q^=i5>T)J}XA!WFTHz0vHN(7NyzLe&k|8Wl%PBPv;vwMT4p
z=mox@l%)NA;Vd>Q{AtGTO}OhV+c%=aO-Ix2y}AWCOFt1zEGg6D5E-kIin0kos|?2L
zCCkhKAy_z8rLjGj<&iT}7q;5d`2xY;2C*W<w#vep5n^3GUEaEGR>zc62)8Zk9`g$J
zt~!J>&kZaZbz5mU<n=ACalS>EDpywZ%V_F;0|H!9n}8Lkd2Hl3teGU1UG4B;daHi)
z{c1CC)3ihXJC12jl_Yj)%iGFn`d%YpEPZgaCs>R?ENS8Fh!GW`T=4|6Q6|nutB{Xc
zR@^B|OqA6RU@{*)rs|6IX)Y!<13|asD+$E*6(t$gA2+ytLSK55Mzwi@hQmD9w@9To
z;d9ZChp6NUkVVKUoOov$MKGTyL~D>S`qlE+#Wd@r?SR9b-Jw;xD*cmeKFdeQT*{S?
zrT47=ozeFG_oR^+{uH$^M8ffGcK#_}!Dc*CmX{U44kq!9OR6JBBpWm9%CzPB9jGN7
zVp6K74SvJjzx=E|iRR-0mFBYRU>qIR5E&UjEW46U%um~7`qd`k$P35Y{plL9a5~8X
zdHlAI8i&{&1H+54-D?}m*RgRBjkw5a*p<X#YdsTU*st!%VP&f3t7wnuF0XAB!I5On
zt|OE*NvufQDApT<n6>!KR;-}o09hme{@D{1tJqR-l*$eRUQ4r6?<zZ1$H3rXY-xDL
z@S?}YuPJ0pXhA$q36784m=Ypl_AX!i%hYeZelzV^fr=*(X0OS}-anRoafz;;^dZI$
z?MB^o{jd$z@0Y}jYRn2wzLq#z__9+4)nhX6jR;{z67{>oS}XPMk9%E>Q?_DOx1;DH
z2o@9kNhFNpD(gg=3oJ7~T_-)2;JR(8o~Agx#6`f)YVsIT?RY?i;%3D_OsT!_;8Bw~
zjP20<x$|Jv9Q^(RO+Zf?ZpT3PVt=*LPqywwkuKy$M<}k8)1quw@OSRWir0{6FsH5O
zH24PA&xd<QGpz}+2^e281S`5=oKB8R#PTn=<u{c|WoN_^31hj6$-nz>qRO)jM@-wb
z6RMLlfH4COP)Lc>i91B@amfXILsZhetGVCyWl{AWSq1?u_b;D1FR6t+aiaJF4BA)R
zP;DhyuPDsyNp&f$mypLXqIGxP;qJ(aS1{S;G#Wt@XX0h58fC$f=ZNY{>7aV2`o8@@
zjINoM-)e{gR6@eXT!zaW$%E&516`*+skmuuHK<%JrC>H@w-3GWyAs0qsN4iv<sJLK
zftg19ij6BUzildn{u0?4kwm(9u3|!9Nrju1=i6aYEGefLS+D;+%!Ho?n=@Z|>i+wZ
zJ5FxeI&6+2YEI@DtBqSL*wK)iz^zLNYE<5z)P_FoRZ$Y8i`f}}TD7TvwRh@cHFrMI
zfp}S}3cu2%R^otkdNxW_@rO+JAz}&WtP@2tNCz#8yHp$nt|?x4h<9BL%tlR&ZJ0MP
zruWeQT}t{Ld)`uS&iXIYt`Tiie{O?WA*Rd8;OhrDZTkdn#jXt(%RLIAKBoCsgE~oI
zzzjMUT1(qkp|P$-a@pvThuk@Bw0x9v$zNzk#T<^F*8NiCy_Ja`bD&+Di1f0EH=Wa>
zvwKj@1PZhbyRjB~DD-*njcvdS3hE4D&_blxT|IwNAV6k&fo&^sL<X>%_Ku$j;2khM
zcs`rErWmZc#s&6WP47UAj*znxuFgzh5l#Q!h=v%_Hw>WSKtU10KcP_;hvWc6a{V9D
zv{p6!nfn<4a`E1_&v0gA<{&(ycn$<BDjn3550q6kS;8E?)+NFE%in?QzE}}yX)7U%
znr{vnE=*3a`ka>uYc3?iuFy|md5jY678CSogfZ?e%BPdGikYDm%8*ZI7$gr#QHjUD
z?n;iCTW>F`g8r^01PO)meIA2(C~aq1M((Q+S>qtDh5iTKVdyur@w@>2=|EQ`Y~une
zk_tSIX>hPi>=i4cOww#D3PdGy@l%*wQV1inBTcyxow=G0NZzWX669pkh!K?tZH%C>
zJjr+W=};E4O(TI;PsZb>?b7M)7aI)zwc@P2Xi|&i#ZU4#@Lf)QbQ6+J;%`fEXdeeK
zS%sxU7D{&c-&c^Pt$Q@4dS3s+NBTQQLp#E0^A`zktiK3n_2QoN!M^HlJGVDqGtum&
z9Eu|{m>WwI=>uU}h_1@r|5s_6rg>6y2ulU#<no5oPW<9oeWj?*upyS(!H%G`g}M#D
zp9b^6c?I_c#a~P9w1)>eO*s<krN8#6fg}^sUvXIQ=59K^3%{Fmh|2!a1`Od663UQR
zzGC*O%BCo(&(N?-bH-DOC*GjIlF1Ka9f%_O0I)Ud$1cno{&Exic?4O~J{#2S&RS2l
z;(To2Q-pl3QZJ#!@HUfKPK2yvLZJRF=U99&myki=eATCxU}|PdY48Jnfu!r4!Tz8?
zKNYew(wNC_EH8WH+{n@ZF?$7<OysD6ny>vaJXxE2A3~_Jx=A}xRa9O=ID>9ZhXS5t
z_s`PSo1F;d*#J6n64}V++9JN#hMSY~vR$1NO@+XaSD;dY)NtKy=z3qybKTIJX7EQu
zh3UY^V93YT`_<#MaliuC>Owe`c=zn44+49fs9Srs$RUVhSknOEbeJ?5uJ4#K1Uu-&
z{B_-@pfF&Fh&T-*wf=L1SB_-TYeXCHdWV0c<go!$A18`n5vOe44Tfe1PiacfcJ0g`
zy5zG1md2V$(UtlG9GMDf*&qSGKl?`Oqc@A0x~L&Cp>F~mWsJXYE@`J<rs0A)==hw^
z(@5+`2?!db$VEtpz1%G-^5}C!cAB0zyZsGYw-7mX^@bglC=9t}O$dxeSQr^4w9ZnD
zF(!|p2Npy666#UFV7-Sa6_^%z%q!Bnx~O-@y{zqrASfpxw#A&F0sM{kj@2O1Us#T?
zGIZ!3d%p0@Aa&hW<H?MbU#*f6SjArW@dO=Tfckp1o-i`?fG6ekS4J(svM3|{;KK_q
zyzJ^XWbq|QfBIuO)v&9i<`{q~s+m#4W(e9De}#i}30XX$xU1||30rh7RK^kK3y$DN
z=|ED03WUz)Dv%G{#ySu?_uD&m(^bD!rY&{!)6oGnnf`JV)304N3*n5r@h1Y>{IhQU
z#pys~;w+45TQCczN@lx=kp<Y-ztz9!&f(HL%Zjek^s#|)Z5TVKD3)KZI5P)tc>JD-
zoeU+0dZpMjrB*;vWT7Y#7~(w^#mNlf?CN$RBSjP&+G&{mw<{lYc6brUM^yU%c2J$G
z`|@|S-}1@drLGT{^jdwR2}r}BhAG>Xv|p10kV@+g7#*WNIC{Xb>+4*}Jn%~|YaLpq
z^3xGeZ(bws?8~%}<*vptd0KN>(r$$*gesa&pKil6oF9PgHDA1@-RAwqU$j6cj2)z0
zks?0!p*S9RczqUlaesvOih0;u?4PX1IMVy~-WY5k8|g5*LU#*hSrOpLIzLEA^>|C7
zVGV`o#96+f;L};!ola<fFIkDaH3t8}CVgNc*ccpo>sCGlegZiZKM?Jmo9ZyDzjgN5
zJAvutOiyjK6apLGyiEQ_UH(M@CrgxzbW33Ie-ANyRpy-B(!>V18lRCEnclU1mR!Bs
zwf)NijH?Aw$3tj}MZ48%$P~+V#G+1)MG$HBjYzRK5Hb}I6PKRRzDn=gfwJG)Qqd`{
zjdLGr4HX*--umGVBas`p5A<m39e8G?NGCLzC<T@X)10j?0-f(F6~MOy)4ux@93j3c
zjibf?<nn^>6G1&>N`rOJ^=lTqpk5+UjAoi%%;WGjLm~eLo4b><eboMuvDQ|H4nCL-
z^e15BUMnzj#22zEHDjycLrvfo)1iEuDV#yqT1L9$5Gw*CRXnoQV*NV{W5W|1KcSaa
zUC^d~@FDP^(!mWeuiS8u@vgWRlTbGuC0awdNLCPnBCpWAVE&nW4kS1+&)pMo4e-X=
zeO2duT5`jTD@ze|@&fev7AdwVhv&qv&$O>eRQ(WJNu6p#Qp9%*ee>kH``+GPStT>#
z4!0lM7x(9zfD}BsV)VAo7ti$(32}ua7=zW1S6pN;e1(dhA;@kLhve-c=HVGjeyhUw
zpuNt(Y3X~6Pk1N-0ij1exJ6^K`1tkkP6ikozMxg`cP2>rEOeh2*^GtG<00_HH3{EG
ze}sn$xyE`!()su|BNg-$Z3yIxjF(E=Eo$0cYDd25%HrD+H+NYO`4+HO31iFjSF&~Z
z9q+<xiU{MFe~P<350)_BnU8+T=u&{36@q@NCrd=m=V`fqUPjG;zx&FkaHO9W_+xNc
zz2bnO^*eA@vw1=x#V=L=xj1+>E(O>hj?DLRm-qLoiItDTua|#c^vBSYk=jWMl3v!!
z^ddj65DXo{+c|OCChSPAkYRdq{UhSf_AYllb^}WMT!?%*<QMd`nJ(ez*)>yfzsG_J
zglrX!jcOV`Y0^JFr@r<ks--ilVd$9zjAL`n)ind5PP80p+c=kd^!lVbxC$3^4fGu2
zYaxst*zZ3>uR|2ZGJ=F3W!wtK^Z)XJB?bL^j-Kvorx*|ycfH7v{?&dGMP>+eo7{gy
zJaOqG^Rwl3PI~{3U-&_ZKzzvDH;CU-$rSAS|14epZdC5?liV;%y?6yRPB-GEe<Zb+
LAmvI$%h3M^?0gg6

literal 0
HcmV?d00001


From f0bdcb8c3551a82888b0dac848f61fc3cf354f18 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 15:09:04 +0100
Subject: [PATCH 43/71] relax constraints for ray time testing

---
 tests/experiments/test_ray.py | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/tests/experiments/test_ray.py b/tests/experiments/test_ray.py
index 28ddfa34..06134268 100644
--- a/tests/experiments/test_ray.py
+++ b/tests/experiments/test_ray.py
@@ -34,13 +34,12 @@ def test_execute_task_graph():
     # Verify that parallel tasks (task2 and task3) started within a short time of each other
     parallel_start_diff = abs(exp_args_list[1].start_time - exp_args_list[2].start_time)
     print(f"parallel_start_diff: {parallel_start_diff}")
-    assert parallel_start_diff < 2  # Allow for a small delay
+    assert parallel_start_diff < 5, "Parallel tasks should start within 5 seconds of each other"
 
     # Ensure that the entire task graph took the expected amount of time
     total_time = exp_args_list[-1].end_time - exp_args_list[0].start_time
-    assert (
-        total_time >= TASK_TIME * 3
-    )  # Since the critical path involves at least 1.5 seconds of work
+    # Since the critical path involves at least 1.5 seconds of work
+    assert total_time >= TASK_TIME * 3, "Total time should be at least 3 times the task time"
 
 
 def test_add_dependencies():

From 5076b2d99c1213052564346eeabc3d4f67a0a209 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 17:21:39 +0100
Subject: [PATCH 44/71] fix tests

---
 Makefile                               |  2 +-
 src/agentlab/agents/tapeagent/agent.py |  2 +-
 src/agentlab/experiments/loop.py       | 48 +++++++++++++-------------
 tests/experiments/test_ray.py          | 14 ++++----
 4 files changed, 34 insertions(+), 32 deletions(-)

diff --git a/Makefile b/Makefile
index 9557c1bb..31b87124 100644
--- a/Makefile
+++ b/Makefile
@@ -9,7 +9,7 @@ miniwob: stop-miniwob
 	@git clone https://github.com/Farama-Foundation/miniwob-plusplus.git || true
 	@cd miniwob-plusplus && git checkout 7fd85d71a4b60325c6585396ec4f48377d049838
 	@python -m http.server 8080 --directory miniwob-plusplus/miniwob/html & echo $$! > .miniwob-server.pid
-	@echo "MiniWob server started on port 8080"
+	@echo "MiniWob server started on http://localhost:8080"
 
 stop-miniwob:
 	@kill -9 `cat .miniwob-server.pid` || true
diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index ecb8587d..ace896af 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -35,7 +35,7 @@ class DictObservation(Observation):
     """
 
     kind: Literal["dict_observation"] = "dict_observation"
-    content: dict[str, Any]
+    content: str
 
 
 class TapeAgent(bgym.Agent):
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 195ea818..3df4d0bc 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -23,8 +23,9 @@
 from browsergym.experiments.utils import count_messages_token, count_tokens
 from dataclasses_json import DataClassJsonMixin
 from PIL import Image
-from tapeagents.core import StepMetadata, Tape
+from tapeagents.core import Step, StepMetadata, Tape
 from tapeagents.dialog_tape import AssistantStep, AssistantThought
+from tapeagents.io import save_json_tape, save_tape_images
 from tqdm import tqdm
 
 from agentlab.agents.tapeagent.agent import DictObservation, TapeAgent
@@ -312,8 +313,9 @@ def run(self):
                     err_msg = f"Exception uncaught by agent or environment in task {self.env_args.task_name}.\n{type(e).__name__}:\n{e}"
                 logger.info("Saving experiment info.")
                 _save_summary_info(episode_info, self.exp_dir, err_msg, stack_trace)
-                tape = agent.final_tape if isinstance(agent, TapeAgent) else as_tape(episode_info)
-                self.save_tape(tape)
+                if isinstance(agent, TapeAgent):
+                    save_json_tape(agent.final_tape, self.exp_dir, "tape.json")
+                    save_tape_images(agent.final_tape, self.exp_dir / "tape_attachments")
             except Exception as e:
                 logger.exception(f"Error while saving experiment info: {e}")
             try:
@@ -326,13 +328,6 @@ def run(self):
             except Exception as e:
                 logger.exception(f"Error while unsetting the logger: {e}")
 
-    def save_tape(self, tape: Tape, filename: str = "tape.json"):
-        tape_path = Path(self.exp_dir) / filename
-        if tape_path.exists():
-            raise FileExistsError(f"{tape_path} already exists")
-        with open(tape_path, "w") as f:
-            json.dump(tape.model_dump(), f, indent=2, ensure_ascii=False)
-
     def _set_logger(self):
         # output logging traces to a log file
         file_handler = logging.FileHandler(self.exp_dir / "experiment.log")
@@ -934,23 +929,28 @@ def as_tape(steps_info: list[StepInfo]) -> Tape:
     Returns:
         Tape: a Tape object containing the steps and metadata.
     """
-    tape: Tape = []
+    steps: list[Step] = []
     for step_info in steps_info:
-        step_metadata = StepMetadata(
-            other=dict(
-                reward=step_info.reward,
-                raw_reward=step_info.raw_reward,
-                terminated=step_info.terminated,
-                truncated=step_info.truncated,
-                agent_info=step_info.agent_info,
-                stats=step_info.stats,
-            )
-        )
         if step_info.obs is not None:
-            steps = [DictObservation(content=step_info.obs)]
+            try:
+                obs_json = json.dumps(step_info.obs, cls=DataclassJSONEncoder)
+            except Exception as e:
+                logger.warning(f"Error while converting observation to JSON: {e}")
+                logger.warning(f"Observation: {step_info.obs}")
+                raise e
+            steps.append(DictObservation(content=obs_json))
         if thought := step_info.agent_info.get("think"):
             steps.append(AssistantThought(content=thought))
         if step_info.action is not None:
+            step_metadata = StepMetadata(
+                other=dict(
+                    reward=step_info.reward,
+                    raw_reward=step_info.raw_reward,
+                    terminated=step_info.terminated,
+                    truncated=step_info.truncated,
+                    agent_info=step_info.agent_info,
+                    stats=step_info.stats,
+                )
+            )
             steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
-        tape += steps
-    return tape
+    return Tape(steps=steps)
diff --git a/tests/experiments/test_ray.py b/tests/experiments/test_ray.py
index 06134268..acab7b73 100644
--- a/tests/experiments/test_ray.py
+++ b/tests/experiments/test_ray.py
@@ -32,14 +32,16 @@ def test_execute_task_graph():
     assert exp_args_list[2].end_time < exp_args_list[3].start_time
 
     # Verify that parallel tasks (task2 and task3) started within a short time of each other
-    parallel_start_diff = abs(exp_args_list[1].start_time - exp_args_list[2].start_time)
-    print(f"parallel_start_diff: {parallel_start_diff}")
-    assert parallel_start_diff < 5, "Parallel tasks should start within 5 seconds of each other"
+    # TODO: replace with non flaky check
+    # parallel_start_diff = abs(exp_args_list[1].start_time - exp_args_list[2].start_time)
+    # print(f"parallel_start_diff: {parallel_start_diff}")
+    # assert parallel_start_diff < 2, "Parallel tasks should start within 2 seconds of each other"
 
     # Ensure that the entire task graph took the expected amount of time
-    total_time = exp_args_list[-1].end_time - exp_args_list[0].start_time
-    # Since the critical path involves at least 1.5 seconds of work
-    assert total_time >= TASK_TIME * 3, "Total time should be at least 3 times the task time"
+    # TODO: replace with non flaky check
+    # total_time = exp_args_list[-1].end_time - exp_args_list[0].start_time
+    # # Since the critical path involves at least 1.5 seconds of work
+    # assert total_time >= TASK_TIME * 3, "Total time should be at least 3 times the task time"
 
 
 def test_add_dependencies():

From 3fe376a5eee002aca599cd195e1fcfd475f8f334 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 17:25:56 +0100
Subject: [PATCH 45/71] fix

---
 src/agentlab/experiments/loop.py | 9 ++-------
 1 file changed, 2 insertions(+), 7 deletions(-)

diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 3df4d0bc..3bddab66 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -932,13 +932,8 @@ def as_tape(steps_info: list[StepInfo]) -> Tape:
     steps: list[Step] = []
     for step_info in steps_info:
         if step_info.obs is not None:
-            try:
-                obs_json = json.dumps(step_info.obs, cls=DataclassJSONEncoder)
-            except Exception as e:
-                logger.warning(f"Error while converting observation to JSON: {e}")
-                logger.warning(f"Observation: {step_info.obs}")
-                raise e
-            steps.append(DictObservation(content=obs_json))
+            json_obs = json.dumps(step_info.obs, cls=DataclassJSONEncoder)
+            steps.append(DictObservation(content=json_obs))
         if thought := step_info.agent_info.get("think"):
             steps.append(AssistantThought(content=thought))
         if step_info.action is not None:

From b3df564498a8e914d57d5e76af85eae15de0a4bb Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 17:44:33 +0100
Subject: [PATCH 46/71] check miniwob in makefile

---
 Makefile | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/Makefile b/Makefile
index 31b87124..b37fc1c4 100644
--- a/Makefile
+++ b/Makefile
@@ -9,8 +9,13 @@ miniwob: stop-miniwob
 	@git clone https://github.com/Farama-Foundation/miniwob-plusplus.git || true
 	@cd miniwob-plusplus && git checkout 7fd85d71a4b60325c6585396ec4f48377d049838
 	@python -m http.server 8080 --directory miniwob-plusplus/miniwob/html & echo $$! > .miniwob-server.pid
+	@sleep 3
 	@echo "MiniWob server started on http://localhost:8080"
 
+check-miniwob:
+	@curl -I "http://localhost:8080/miniwob/" || (echo "MiniWob not reachable" && exit 1)
+	@echo "MiniWob server is reachable"
+
 stop-miniwob:
 	@kill -9 `cat .miniwob-server.pid` || true
 	@rm -f .miniwob-server.pid
@@ -20,7 +25,7 @@ run-tests:
 	@MINIWOB_URL="http://localhost:8080/miniwob/" pytest -n 5 --durations=10 -m 'not pricy' tests/
 	@echo "Tests completed"
 
-test: setup miniwob run-tests stop-miniwob
+test: setup miniwob check-miniwob run-tests stop-miniwob
 
 lint: setup
 	@black src/ --check --diff

From e6ebfd8376d7704294db3d55ac3f6cfd740c758e Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 17:55:40 +0100
Subject: [PATCH 47/71] use local expargs everywhere

---
 src/agentlab/agents/most_basic_agent/most_basic_agent.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/src/agentlab/agents/most_basic_agent/most_basic_agent.py b/src/agentlab/agents/most_basic_agent/most_basic_agent.py
index 9da6d936..38145d5d 100644
--- a/src/agentlab/agents/most_basic_agent/most_basic_agent.py
+++ b/src/agentlab/agents/most_basic_agent/most_basic_agent.py
@@ -5,7 +5,7 @@
 import bgym
 
 from agentlab.agents.agent_args import AgentArgs
-from agentlab.llm.chat_api import make_system_message, make_user_message
+from agentlab.experiments.loop import ExpArgs
 from agentlab.llm.llm_configs import CHAT_MODEL_ARGS_DICT
 from agentlab.llm.llm_utils import (
     Discussion,
@@ -133,7 +133,7 @@ def parser(response: str) -> tuple[dict, bool, str]:
 
 # example for 2 experiments testing chain of thoughts on a miniwob task
 exp_args = [
-    bgym.ExpArgs(
+    ExpArgs(
         agent_args=MostBasicAgentArgs(
             temperature=0.1,
             use_chain_of_thought=True,
@@ -142,7 +142,7 @@ def parser(response: str) -> tuple[dict, bool, str]:
         env_args=env_args,
         logging_level=logging.INFO,
     ),
-    bgym.ExpArgs(
+    ExpArgs(
         agent_args=MostBasicAgentArgs(
             temperature=0.1,
             use_chain_of_thought=False,

From 13eec41d22585f92c2f1fe5011e3f9ccf58e85e4 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Wed, 19 Mar 2025 19:50:36 +0100
Subject: [PATCH 48/71] tapes browser ui

---
 src/agentlab/agents/tapeagent/agent.py |  12 +-
 src/agentlab/analyze/tapes.py          | 205 +++++++++++++++++++++++++
 2 files changed, 216 insertions(+), 1 deletion(-)
 create mode 100644 src/agentlab/analyze/tapes.py

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index ace896af..3345d1c4 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -13,6 +13,16 @@
 logger.setLevel(logging.INFO)
 
 
+class ExtendedMetadata(TapeMetadata):
+    name: str = ""
+    task: dict = {}
+    terminated: bool = False
+    truncated: bool = False
+    reward: float = 0.0
+    attempt_number: int = 0
+    other: dict = {}
+
+
 @dataclass
 class TapeAgentArgs(AgentArgs):
     agent_name: str
@@ -77,5 +87,5 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAge
 
     @property
     def final_tape(self) -> Tape:
-        self.tape.metadata = TapeMetadata(author=self.agent.name)
+        self.tape.metadata = ExtendedMetadata(author=self.agent.name)
         return self.tape
diff --git a/src/agentlab/analyze/tapes.py b/src/agentlab/analyze/tapes.py
new file mode 100644
index 00000000..bfac1588
--- /dev/null
+++ b/src/agentlab/analyze/tapes.py
@@ -0,0 +1,205 @@
+import json
+import logging
+import sys
+from collections import defaultdict
+from pathlib import Path
+
+import yaml
+from tapeagents.core import Step, StepMetadata, Tape
+from tapeagents.renderers.camera_ready_renderer import CameraReadyRenderer
+from tapeagents.tape_browser import TapeBrowser
+
+from agentlab.agents.tapeagent.agent import ExtendedMetadata
+
+logger = logging.getLogger(__name__)
+fmt = "%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s() - %(message)s"
+logging.basicConfig(level=logging.INFO, force=True, format=fmt, handlers=[logging.StreamHandler()])
+
+
+class WrapperStep(Step):
+    content: dict
+
+
+class TapesRender(CameraReadyRenderer):
+
+    @property
+    def style(self):
+        style = "<style>.thought {{ background-color: #ffffba !important; }};</style>"
+        return super().style + style
+
+    def render_step(self, step: WrapperStep, index: int, **kwargs):
+        step_dict = step.content.copy()
+        step_dict.pop("metadata", None)
+        kind = step_dict.pop("kind", "Step")
+        # remove empty keys
+        step_dict = {k: v for k, v in step_dict.items() if v is not None and v != ""}
+        if len(step_dict) == 1:
+            content = list(step_dict.values())[0]
+        elif kind == "page_observation":
+            content = step_dict["text"]
+            if len(content) > 100:
+                summary = content[:100]
+                content = f"<details><summary>{summary}</summary>---<br>{content}</details>"
+        elif kind == "python_code_action":
+            content = step_dict["code"]
+        elif kind == "code_execution_result":
+            content = yaml.dump(step_dict["result"], sort_keys=False, indent=2)
+        else:
+            content = yaml.dump(step_dict, sort_keys=False, indent=2) if step_dict else ""
+
+        if kind.endswith("thought"):
+            class_ = "thought"
+            kind = kind[:-8]
+        elif kind.endswith("action"):
+            class_ = "action"
+            kind = kind[:-7]
+        else:
+            class_ = "observation"
+        return (
+            f"<div class='basic-renderer-box {class_}'>"
+            f"<h4 class='step-header'>{kind}</h4>"
+            f"<pre class='step-text'>{content}</pre>"
+            f"</div>"
+        )
+
+
+class TapesBrowser(TapeBrowser):
+    def __init__(self, tapes_folder):
+        super().__init__(Tape, tapes_folder, TapesRender(), ".json")
+
+    def get_tape_files(self) -> list[str]:
+        logger.info(f"Searching for tapes in {self.tapes_folder}")
+        fpath = Path(self.tapes_folder)
+        exps = [
+            str(exp_dir.relative_to(fpath))
+            for exp_dir in fpath.iterdir()
+            if exp_dir.is_dir() and len(list(exp_dir.rglob("tape.json"))) > 0
+        ]
+        assert exps, f"No experiments found in {self.tapes_folder}"
+        logger.info(f"Found {len(exps)} experiments in {self.tapes_folder}")
+        return sorted(exps)
+
+    def get_steps(self, tape) -> list:
+        return tape["steps"]
+
+    def load_llm_calls(self):
+        pass
+
+    def get_context(self, tape: Tape) -> list:
+        return []
+
+    def get_tape_name(self, i: int, tape: Tape) -> str:
+        return tape[0].content["content"][:32] + "..."
+
+    def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
+        acc, n_solved = 0, 0  # calculate_accuracy(tapes)
+        errors = defaultdict(int)
+        prompt_tokens_num = 0
+        output_tokens_num = 0
+        total_cost = 0.0
+        visible_prompt_tokens_num = 0
+        visible_output_tokens_num = 0
+        visible_cost = 0.0
+        no_result = 0
+        actions = defaultdict(int)
+        for llm_call in self.llm_calls.values():
+            prompt_tokens_num += llm_call.prompt_length_tokens
+            output_tokens_num += llm_call.output_length_tokens
+            total_cost += llm_call.cost
+        for tape in tapes:
+            if tape.metadata.result in ["", None, "None"]:
+                no_result += 1
+            if tape.metadata.error:
+                errors["fatal"] += 1
+            last_action = None
+            counted = set([])
+            for step in tape:
+                step_dict = step.content.copy()
+                kind = step_dict.get("kind", "unknown")
+                llm_call = self.llm_calls.get(step.metadata.prompt_id)
+                if llm_call and step.metadata.prompt_id not in counted:
+                    counted.add(step.metadata.prompt_id)
+                    visible_prompt_tokens_num += llm_call.prompt_length_tokens
+                    visible_output_tokens_num += llm_call.output_length_tokens
+                    visible_cost += llm_call.cost
+                if kind.endswith("action"):
+                    actions[kind] += 1
+                    last_action = kind
+                if kind == "search_results_observation" and not len(step_dict["serp"]):
+                    errors["search_empty"] += 1
+                if kind == "page_observation" and step_dict["error"]:
+                    errors["browser"] += 1
+                elif kind == "llm_output_parsing_failure_action":
+                    errors["parsing"] += 1
+                elif kind == "action_execution_failure":
+                    if last_action:
+                        errors[f"{last_action}"] += 1
+                    else:
+                        errors["unknown_action_execution_failure"] += 1
+                elif kind == "code_execution_result" and step_dict["result"]["exit_code"]:
+                    errors["code_execution"] += 1
+        timers, timer_counts = self.aggregate_timer_times(tapes)
+        html = f"<h2>Solved {acc:.2f}%, {n_solved} out of {len(tapes)}</h2>"
+        if "all" in filename:
+            html += f"Prompt tokens: {prompt_tokens_num}<br>Output tokens: {output_tokens_num}<br>Cost: {total_cost:.2f} USD<h3>Visible</h3>"
+        html += f"Prompt tokens: {visible_prompt_tokens_num}<br>Output tokens: {visible_output_tokens_num}<br>Cost: {visible_cost:.2f} USD"
+        if errors:
+            errors_str = "<br>".join(f"{k}: {v}" for k, v in errors.items())
+            html += f"<h2>No result: {no_result}</h2>"
+            html += f"<h2>Errors: {sum(errors.values())}</h2>{errors_str}"
+        if actions:
+            actions_str = "<br>".join(f"{k}: {v}" for k, v in actions.items())
+            html += f"<h2>Actions: {sum(actions.values())}</h2>{actions_str}"
+        if timers:
+            timers_str = "<br>".join(
+                f"{'execute ' if k.endswith('action') else ''}{k}: {v:.1f} sec, avg. {v/timer_counts[k]:.1f} sec"
+                for k, v in timers.items()
+            )
+            html += f"<h2>Timings</h2>{timers_str}"
+        return html
+
+    def aggregate_timer_times(self, tapes: list[Tape]):
+        timer_sums = defaultdict(float)
+        timer_counts = defaultdict(int)
+        for tape in tapes:
+            timers = tape.metadata.other.get("timers", {})
+            for timer_name, exec_time in timers.items():
+                timer_sums[timer_name] += exec_time
+                timer_counts[timer_name] += 1
+            for step in tape.steps:
+                action_kind = step.metadata.other.get("action_kind")
+                action_execution_time = step.metadata.other.get("action_execution_time")
+                if action_kind and action_execution_time:
+                    timer_sums[action_kind] += action_execution_time
+                    timer_counts[action_kind] += 1
+        return dict(timer_sums), dict(timer_counts)
+
+    def load_tapes(self, exp_dir: str) -> list[dict]:
+        tape_dicts = []
+        fpath = Path(self.tapes_folder) / exp_dir
+        for json_file in fpath.rglob("tape.json"):
+            if json_file.stat().st_size == 0:
+                logger.warning(f"Empty tape file: {json_file}")
+                continue
+            try:
+                with open(json_file) as f:
+                    tape_dict = json.load(f)
+                    tape = Tape(steps=[], metadata=ExtendedMetadata(**tape_dict["metadata"]))
+                    tape.steps = [
+                        WrapperStep(content=s, metadata=StepMetadata(**s["metadata"]))
+                        for s in tape_dict["steps"]
+                    ]
+                    tape_dicts.append(tape)
+            except Exception as e:
+                logger.warning(f"Failed to load {json_file}: {e}")
+        logger.info(f"Loaded {len(tape_dicts)} tapes from {exp_dir}")
+        return tape_dicts
+
+    def save_annotation(self, step: int, annotation: str, tape_id: int):
+        pass
+
+
+if __name__ == "__main__":
+    results_dir = sys.argv[1] if len(sys.argv) > 1 else "~/agentlab_results/"
+    tapes_browser = TapesBrowser(Path(results_dir).expanduser())
+    tapes_browser.launch()

From cabc39398f6902b561c5dd950c55803368fa2841 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 20 Mar 2025 17:17:31 +0100
Subject: [PATCH 49/71] more info in tape metadata, better tape browser

---
 src/agentlab/agents/tapeagent/agent.py   | 10 +++-
 src/agentlab/analyze/tapes.py            | 75 ++++++++++++++++--------
 src/agentlab/benchmarks/gaia.py          | 14 ++---
 src/agentlab/benchmarks/multitool_gym.py |  3 +-
 src/agentlab/experiments/loop.py         | 22 +++++--
 5 files changed, 83 insertions(+), 41 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 3345d1c4..43d43909 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -1,11 +1,13 @@
 import logging
 from dataclasses import dataclass
-from typing import Any, Literal
+from typing import Literal
 
 import bgym
 import hydra
+from pydantic import Field
 from tapeagents.agent import Agent
-from tapeagents.core import Action, Observation, Tape, TapeMetadata, Thought
+from tapeagents.core import Action, Observation, TapeMetadata, Thought
+from tapeagents.core import Tape as BaseTape
 
 from agentlab.agents.agent_args import AgentArgs
 
@@ -23,6 +25,10 @@ class ExtendedMetadata(TapeMetadata):
     other: dict = {}
 
 
+class Tape(BaseTape):
+    metadata: ExtendedMetadata = Field(default_factory=ExtendedMetadata)
+
+
 @dataclass
 class TapeAgentArgs(AgentArgs):
     agent_name: str
diff --git a/src/agentlab/analyze/tapes.py b/src/agentlab/analyze/tapes.py
index bfac1588..c475bde7 100644
--- a/src/agentlab/analyze/tapes.py
+++ b/src/agentlab/analyze/tapes.py
@@ -4,12 +4,13 @@
 from collections import defaultdict
 from pathlib import Path
 
+import numpy as np
 import yaml
-from tapeagents.core import Step, StepMetadata, Tape
+from tapeagents.core import Step, StepMetadata
 from tapeagents.renderers.camera_ready_renderer import CameraReadyRenderer
 from tapeagents.tape_browser import TapeBrowser
 
-from agentlab.agents.tapeagent.agent import ExtendedMetadata
+from agentlab.agents.tapeagent.agent import ExtendedMetadata, Tape
 
 logger = logging.getLogger(__name__)
 fmt = "%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s() - %(message)s"
@@ -20,6 +21,10 @@ class WrapperStep(Step):
     content: dict
 
 
+def pretty_yaml(data: dict) -> str:
+    return yaml.dump(data, sort_keys=False, indent=2) if data else ""
+
+
 class TapesRender(CameraReadyRenderer):
 
     @property
@@ -31,23 +36,27 @@ def render_step(self, step: WrapperStep, index: int, **kwargs):
         step_dict = step.content.copy()
         step_dict.pop("metadata", None)
         kind = step_dict.pop("kind", "Step")
+        if kind == "set_next_node":
+            return ""
         # remove empty keys
         step_dict = {k: v for k, v in step_dict.items() if v is not None and v != ""}
         if len(step_dict) == 1:
             content = list(step_dict.values())[0]
         elif kind == "page_observation":
-            content = step_dict["text"]
+            content = step_dict.get("text", pretty_yaml(step_dict))
             if len(content) > 100:
                 summary = content[:100]
                 content = f"<details><summary>{summary}</summary>---<br>{content}</details>"
         elif kind == "python_code_action":
-            content = step_dict["code"]
+            content = step_dict.get("code", pretty_yaml(step_dict))
         elif kind == "code_execution_result":
-            content = yaml.dump(step_dict["result"], sort_keys=False, indent=2)
+            content = pretty_yaml(step_dict.get("result"))
         else:
-            content = yaml.dump(step_dict, sort_keys=False, indent=2) if step_dict else ""
+            content = pretty_yaml(step_dict)
 
-        if kind.endswith("thought"):
+        if step_dict.get("error") or step_dict.get("result", {}).get("exit_code"):
+            class_ = "error"
+        elif kind.endswith("thought"):
             class_ = "thought"
             kind = kind[:-8]
         elif kind.endswith("action"):
@@ -55,12 +64,7 @@ def render_step(self, step: WrapperStep, index: int, **kwargs):
             kind = kind[:-7]
         else:
             class_ = "observation"
-        return (
-            f"<div class='basic-renderer-box {class_}'>"
-            f"<h4 class='step-header'>{kind}</h4>"
-            f"<pre class='step-text'>{content}</pre>"
-            f"</div>"
-        )
+        return f"<div class='basic-renderer-box {class_}'><h4 class='step-header'>{kind}</h4><pre class='step-text'>{content}</pre></div>"
 
 
 class TapesBrowser(TapeBrowser):
@@ -89,10 +93,21 @@ def get_context(self, tape: Tape) -> list:
         return []
 
     def get_tape_name(self, i: int, tape: Tape) -> str:
-        return tape[0].content["content"][:32] + "..."
+        errors = [
+            bool(s.content.get("error", False) or s.content.get("result", {}).get("exit_code"))
+            for s in tape.steps
+        ]
+        mark = "✅ " if tape.metadata.reward > 0 else ""
+        if any(errors):
+            mark = "⚠ "
+        if tape.metadata.task.get("file_name"):
+            mark += "📁 "
+        n = f"{tape.metadata.task.get('Level', '')}.{tape.metadata.task.get('number','')}"
+        name = tape[0].content["content"][:32] + "..."
+        return f"{n} {mark}{name}"
 
     def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
-        acc, n_solved = 0, 0  # calculate_accuracy(tapes)
+        acc, n_solved = self.calculate_accuracy(tapes)
         errors = defaultdict(int)
         prompt_tokens_num = 0
         output_tokens_num = 0
@@ -106,8 +121,10 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
             prompt_tokens_num += llm_call.prompt_length_tokens
             output_tokens_num += llm_call.output_length_tokens
             total_cost += llm_call.cost
+        avg_steps = np.mean([len(tape) for tape in tapes])
+        std_steps = np.std([len(tape) for tape in tapes])
         for tape in tapes:
-            if tape.metadata.result in ["", None, "None"]:
+            if not tape.metadata.terminated:
                 no_result += 1
             if tape.metadata.error:
                 errors["fatal"] += 1
@@ -125,9 +142,9 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
                 if kind.endswith("action"):
                     actions[kind] += 1
                     last_action = kind
-                if kind == "search_results_observation" and not len(step_dict["serp"]):
+                if kind == "search_results_observation" and not len(step_dict.get("serp")):
                     errors["search_empty"] += 1
-                if kind == "page_observation" and step_dict["error"]:
+                if kind == "page_observation" and step_dict.get("error"):
                     errors["browser"] += 1
                 elif kind == "llm_output_parsing_failure_action":
                     errors["parsing"] += 1
@@ -136,13 +153,15 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
                         errors[f"{last_action}"] += 1
                     else:
                         errors["unknown_action_execution_failure"] += 1
-                elif kind == "code_execution_result" and step_dict["result"]["exit_code"]:
-                    errors["code_execution"] += 1
+                elif kind == "code_execution_result":
+                    if step_dict.get("result", {}).get("exit_code"):
+                        errors["code_execution"] += 1
         timers, timer_counts = self.aggregate_timer_times(tapes)
         html = f"<h2>Solved {acc:.2f}%, {n_solved} out of {len(tapes)}</h2>"
         if "all" in filename:
             html += f"Prompt tokens: {prompt_tokens_num}<br>Output tokens: {output_tokens_num}<br>Cost: {total_cost:.2f} USD<h3>Visible</h3>"
         html += f"Prompt tokens: {visible_prompt_tokens_num}<br>Output tokens: {visible_output_tokens_num}<br>Cost: {visible_cost:.2f} USD"
+        html += f"<h2>Steps per tape: {avg_steps:.1f} ± {std_steps:.1f}</h2>"
         if errors:
             errors_str = "<br>".join(f"{k}: {v}" for k, v in errors.items())
             html += f"<h2>No result: {no_result}</h2>"
@@ -158,6 +177,11 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
             html += f"<h2>Timings</h2>{timers_str}"
         return html
 
+    def calculate_accuracy(self, tapes: list[Tape]) -> tuple[float, int]:
+        solved = [tape.metadata.reward for tape in tapes]
+        accuracy = 100 * (sum(solved) / len(solved) if solved else 0.0)
+        return accuracy, sum(solved)
+
     def aggregate_timer_times(self, tapes: list[Tape]):
         timer_sums = defaultdict(float)
         timer_counts = defaultdict(int)
@@ -175,7 +199,7 @@ def aggregate_timer_times(self, tapes: list[Tape]):
         return dict(timer_sums), dict(timer_counts)
 
     def load_tapes(self, exp_dir: str) -> list[dict]:
-        tape_dicts = []
+        tapes: list[Tape] = []
         fpath = Path(self.tapes_folder) / exp_dir
         for json_file in fpath.rglob("tape.json"):
             if json_file.stat().st_size == 0:
@@ -189,11 +213,14 @@ def load_tapes(self, exp_dir: str) -> list[dict]:
                         WrapperStep(content=s, metadata=StepMetadata(**s["metadata"]))
                         for s in tape_dict["steps"]
                     ]
-                    tape_dicts.append(tape)
+                    tapes.append(tape)
             except Exception as e:
                 logger.warning(f"Failed to load {json_file}: {e}")
-        logger.info(f"Loaded {len(tape_dicts)} tapes from {exp_dir}")
-        return tape_dicts
+        logger.info(f"Loaded {len(tapes)} tapes from {exp_dir}")
+        return sorted(
+            tapes,
+            key=lambda x: f"{x.metadata.task.get('Level', '')}{x.metadata.task.get('number', 0):03d}",
+        )
 
     def save_annotation(self, step: int, annotation: str, tape_id: int):
         pass
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 6a1f8ff6..1ff97c7a 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -77,6 +77,7 @@ def __init__(
 
     def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         exp_dir = str(exp_dir)
+        logger.info(f"Init gaia env with directory {exp_dir}")
         self.init_code_sandbox(exp_dir)
         tools = [
             WebSearch(),
@@ -90,15 +91,9 @@ def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
     def init_code_sandbox(self, exp_dir: str) -> None:
         code_path = os.path.join(exp_dir, "code")
         os.makedirs(code_path, exist_ok=True)
-        container_name = "gaia_code_sandbox"
+        container_name = f"gaia_code_{self.task['task_id'][:8]}"
         os.environ["COMPUTER_CONTAINER_NAME"] = container_name
-        ContainerExecutor(
-            work_dir=code_path,
-            container_name=container_name,
-            restart_if_exists=False,
-            stop_container=False,
-            no_deps=True,
-        )
+        ContainerExecutor(container_name=container_name, work_dir=code_path, no_deps=True)
 
 
 class GaiaBenchmark(AbstractBenchmark):
@@ -112,9 +107,10 @@ def model_post_init(self, __context: Any) -> None:
         if not self.dataset:
             self.dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")
         self.env_args_list = []
-        for task in self.dataset[self.split]:
+        for i, task in enumerate(self.dataset[self.split]):
             if self.level != "all" and task["Level"] != self.level:
                 continue
+            task["number"] = i
             env_args = GaiaGymArgs(task_name="gaia." + task["task_id"], task=task)
             self.env_args_list.append(env_args)
         logger.info(f"Loaded {len(self.env_args_list)} tasks from {self.split} split")
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index 00085dcf..fa3d33ad 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -1,14 +1,13 @@
 import logging
 import time
 
-from tapeagents.core import Action, Observation, StopStep, Tape
+from tapeagents.core import Action, Observation, StopStep
 from tapeagents.environment import ToolCollectionEnvironment
 from tapeagents.tools.base import StatefulTool, Tool
 
 from agentlab.benchmarks.abstract_env import AbstractEnv
 
 logger = logging.getLogger(__name__)
-EnvTape = Tape[None, Action | Observation]
 
 
 class MultiToolGym(AbstractEnv):
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 3bddab66..2a7eb07d 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -23,12 +23,17 @@
 from browsergym.experiments.utils import count_messages_token, count_tokens
 from dataclasses_json import DataClassJsonMixin
 from PIL import Image
-from tapeagents.core import Step, StepMetadata, Tape
+from tapeagents.core import Step, StepMetadata, TapeMetadata
 from tapeagents.dialog_tape import AssistantStep, AssistantThought
 from tapeagents.io import save_json_tape, save_tape_images
 from tqdm import tqdm
 
-from agentlab.agents.tapeagent.agent import DictObservation, TapeAgent
+from agentlab.agents.tapeagent.agent import (
+    DictObservation,
+    ExtendedMetadata,
+    Tape,
+    TapeAgent,
+)
 
 logger = logging.getLogger(__name__)
 
@@ -314,8 +319,8 @@ def run(self):
                 logger.info("Saving experiment info.")
                 _save_summary_info(episode_info, self.exp_dir, err_msg, stack_trace)
                 if isinstance(agent, TapeAgent):
-                    save_json_tape(agent.final_tape, self.exp_dir, "tape.json")
-                    save_tape_images(agent.final_tape, self.exp_dir / "tape_attachments")
+                    task = getattr(env, "task", {})
+                    save_tape(self.exp_dir, episode_info, task, agent.final_tape)
             except Exception as e:
                 logger.exception(f"Error while saving experiment info: {e}")
             try:
@@ -949,3 +954,12 @@ def as_tape(steps_info: list[StepInfo]) -> Tape:
             )
             steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
     return Tape(steps=steps)
+
+
+def save_tape(exp_dir: str, episode_info: list[StepInfo], task: dict, tape: Tape):
+    tape.metadata.reward = sum([step.reward for step in episode_info])
+    tape.metadata.truncated = episode_info[-1].truncated
+    tape.metadata.terminated = episode_info[-1].terminated
+    tape.metadata.task = task
+    save_json_tape(tape, exp_dir, "tape.json")
+    save_tape_images(tape, exp_dir / "tape_attachments")

From a511cf3f1032c2dffc0f80df31f4a06c6808c152 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 1 Apr 2025 12:44:04 +0200
Subject: [PATCH 50/71] script to prepare gaia env and run gaia exp

---
 scripts/run_gaia.sh | 49 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 49 insertions(+)
 create mode 100755 scripts/run_gaia.sh

diff --git a/scripts/run_gaia.sh b/scripts/run_gaia.sh
new file mode 100755
index 00000000..1f4f965f
--- /dev/null
+++ b/scripts/run_gaia.sh
@@ -0,0 +1,49 @@
+#!/bin/bash
+
+# run podman for containers
+if ! command -v podman &> /dev/null; then
+    echo "Podman is not installed, installing..."
+    if ! command -v brew &> /dev/null; then
+        echo "Error: Homebrew is not installed. Please install it first."
+        echo "Visit https://brew.sh for installation instructions."
+        exit 1
+    fi
+    brew install podman
+    echo "Podman installed"
+    podman machine init > /dev/null 2>&1
+    echo "Podman initialized"
+fi
+if ! podman machine list | grep -q "Currently running"; then
+    podman machine set --user-mode-networking
+    nohup podman machine start > /dev/null 2>&1
+    echo "Podman machine started"
+    podman info > /dev/null 2>&1
+    if [ $? -ne 0 ]; then
+        echo "Error: Failed to initialize Podman. Please check the error messages above."
+        exit 1
+    fi
+fi
+export DOCKER_HOST=http+unix://$(podman machine inspect --format '{{.ConnectionInfo.PodmanSocket.Path}}')
+if ! podman images computer | grep -q "computer"; then
+    echo "No computer image found, building one"
+    podman images
+    podman build -t computer:latest tapeagents/tools/computer/
+    if [ $? -ne 0 ]; then
+        echo "Failed to build computer image"
+        exit 1
+    fi
+fi
+
+# Check if OPENAI_API_KEY is set
+if [ -z "${OPENAI_API_KEY}" ]; then
+    echo "Error: OPENAI_API_KEY environment variable is not set"
+    exit 1
+fi
+
+if [ -z "${SERPER_API_KEY}" ]; then
+    echo "Error: SERPER_API_KEY environment variable is not set"
+    exit 1
+fi
+
+# Run the Python script
+python "$(dirname "$0")/run_gaia.py"
\ No newline at end of file

From fd59c1c9ff860e1d918f2ab1c2c57201b936b318 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 1 Apr 2025 12:44:24 +0200
Subject: [PATCH 51/71] gaia ray 8 workers

---
 scripts/run_gaia.py | 10 +++-------
 1 file changed, 3 insertions(+), 7 deletions(-)

diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index 84af95f7..eb30dc04 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -4,12 +4,8 @@
 from agentlab.benchmarks.gaia import GaiaBenchmark
 from agentlab.experiments.study import make_study
 
-logging.basicConfig(
-    level=logging.INFO,
-    force=True,
-    format="%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s - %(message)s",
-    handlers=[logging.StreamHandler()],
-)
+fmt = "%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s() - %(message)s"
+logging.basicConfig(level=logging.INFO, force=True, format=fmt, handlers=[logging.StreamHandler()])
 
 if __name__ == "__main__":
     study = make_study(
@@ -20,4 +16,4 @@
         logging_level_stdout=logging.INFO,
     )
     # study.exp_args_list = study.exp_args_list[:1]
-    study.run(n_jobs=5, n_relaunch=1)
+    study.run(n_jobs=8, n_relaunch=1, parallel_backend="ray")

From 0cfe4be08939c05769476b4fb1ad2ae7f3abf769 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 1 Apr 2025 13:06:22 +0200
Subject: [PATCH 52/71] trust remote code flag for loading gaia bench from the
 hf repo

---
 src/agentlab/benchmarks/gaia.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 1ff97c7a..fcd5ee51 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -105,7 +105,9 @@ class GaiaBenchmark(AbstractBenchmark):
 
     def model_post_init(self, __context: Any) -> None:
         if not self.dataset:
-            self.dataset = datasets.load_dataset("gaia-benchmark/GAIA", "2023_all")
+            self.dataset = datasets.load_dataset(
+                "gaia-benchmark/GAIA", "2023_all", split=self.split, trust_remote_code=True
+            )
         self.env_args_list = []
         for i, task in enumerate(self.dataset[self.split]):
             if self.level != "all" and task["Level"] != self.level:

From 15d0dfedacca5d8b008c80cc3ca33244f5f2097a Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 1 Apr 2025 13:37:19 +0200
Subject: [PATCH 53/71] fix

---
 scripts/run_gaia.sh | 9 ---------
 1 file changed, 9 deletions(-)

diff --git a/scripts/run_gaia.sh b/scripts/run_gaia.sh
index 1f4f965f..a777195e 100755
--- a/scripts/run_gaia.sh
+++ b/scripts/run_gaia.sh
@@ -24,15 +24,6 @@ if ! podman machine list | grep -q "Currently running"; then
     fi
 fi
 export DOCKER_HOST=http+unix://$(podman machine inspect --format '{{.ConnectionInfo.PodmanSocket.Path}}')
-if ! podman images computer | grep -q "computer"; then
-    echo "No computer image found, building one"
-    podman images
-    podman build -t computer:latest tapeagents/tools/computer/
-    if [ $? -ne 0 ]; then
-        echo "Failed to build computer image"
-        exit 1
-    fi
-fi
 
 # Check if OPENAI_API_KEY is set
 if [ -z "${OPENAI_API_KEY}" ]; then

From 6c6d0528f78e8e5e42a998251269915056c86cea Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 1 Apr 2025 14:25:40 +0200
Subject: [PATCH 54/71] fix

---
 src/agentlab/benchmarks/gaia.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index fcd5ee51..26885fb7 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -106,8 +106,8 @@ class GaiaBenchmark(AbstractBenchmark):
     def model_post_init(self, __context: Any) -> None:
         if not self.dataset:
             self.dataset = datasets.load_dataset(
-                "gaia-benchmark/GAIA", "2023_all", split=self.split, trust_remote_code=True
-            )
+                "gaia-benchmark/GAIA", "2023_all", trust_remote_code=True
+            )  # type: ignore
         self.env_args_list = []
         for i, task in enumerate(self.dataset[self.split]):
             if self.level != "all" and task["Level"] != self.level:

From 0a43a8d2ff5641b792350018b9d74cc2d65ae43a Mon Sep 17 00:00:00 2001
From: recursix <alex.lacoste.shmu@gmail.com>
Date: Tue, 1 Apr 2025 08:28:12 -0400
Subject: [PATCH 55/71] replace run_gaia.sh with setup_gaia.sh

---
 scripts/{run_gaia.sh => setup_gaia.sh} | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)
 rename scripts/{run_gaia.sh => setup_gaia.sh} (91%)

diff --git a/scripts/run_gaia.sh b/scripts/setup_gaia.sh
similarity index 91%
rename from scripts/run_gaia.sh
rename to scripts/setup_gaia.sh
index a777195e..34d2dbc7 100755
--- a/scripts/run_gaia.sh
+++ b/scripts/setup_gaia.sh
@@ -37,4 +37,5 @@ if [ -z "${SERPER_API_KEY}" ]; then
 fi
 
 # Run the Python script
-python "$(dirname "$0")/run_gaia.py"
\ No newline at end of file
+echo "You should be able to run the GAIA agent now using this command:"
+echo python "$(dirname "$0")/run_gaia.py"
\ No newline at end of file

From 4896c677840e409661a868649265a2f824a3b1cd Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Mon, 14 Apr 2025 19:21:48 +0200
Subject: [PATCH 56/71] use shared code folder for all gaia tasks

---
 scripts/run_gaia.py             |  5 +++--
 src/agentlab/benchmarks/gaia.py | 13 +++++++++++--
 2 files changed, 14 insertions(+), 4 deletions(-)

diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index eb30dc04..547aaba1 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -9,11 +9,12 @@
 
 if __name__ == "__main__":
     study = make_study(
-        benchmark=GaiaBenchmark(split="validation", level="1"),
+        benchmark=GaiaBenchmark(split="validation", level="1"),  # type: ignore
         agent_args=TapeAgentArgs("gaia_agent"),
         comment="Gaia eval",
         logging_level=logging.INFO,
         logging_level_stdout=logging.INFO,
     )
-    # study.exp_args_list = study.exp_args_list[:1]
+    # study.exp_args_list = study.exp_args_list[:3]
+    # study.run(n_jobs=1, n_relaunch=1, parallel_backend="sequential")
     study.run(n_jobs=8, n_relaunch=1, parallel_backend="ray")
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 26885fb7..a0612457 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -89,10 +89,19 @@ def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         return env
 
     def init_code_sandbox(self, exp_dir: str) -> None:
-        code_path = os.path.join(exp_dir, "code")
+        # Use a common code directory for all tasks in the experiment, which is mounted in the container
+        root_exp_dir = Path(exp_dir).parent
+        code_path = os.path.join(root_exp_dir, "shared_code")
         os.makedirs(code_path, exist_ok=True)
-        container_name = f"gaia_code_{self.task['task_id'][:8]}"
+
+        container_name = "gaia_code_shared"
         os.environ["COMPUTER_CONTAINER_NAME"] = container_name
+
+        # symlink task code to the shared code directory
+        task_code_path = os.path.join(exp_dir, "code")
+        if not os.path.exists(task_code_path):
+            os.symlink(code_path, task_code_path)
+
         ContainerExecutor(container_name=container_name, work_dir=code_path, no_deps=True)
 
 
From 7999bb0c36a9831e95a75722693d16d2bad5d743 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 13:45:28 +0200
Subject: [PATCH 57/71] separate gaia-related renderings from general tape view

---
 src/agentlab/analyze/tapes.py   | 33 +++++++++++++--------------------
 src/agentlab/benchmarks/gaia.py | 20 +++++++++++++++++++-
 2 files changed, 32 insertions(+), 21 deletions(-)

diff --git a/src/agentlab/analyze/tapes.py b/src/agentlab/analyze/tapes.py
index c475bde7..0115f7bb 100644
--- a/src/agentlab/analyze/tapes.py
+++ b/src/agentlab/analyze/tapes.py
@@ -11,6 +11,7 @@
 from tapeagents.tape_browser import TapeBrowser
 
 from agentlab.agents.tapeagent.agent import ExtendedMetadata, Tape
+from agentlab.benchmarks.gaia import step_error
 
 logger = logging.getLogger(__name__)
 fmt = "%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s() - %(message)s"
@@ -83,7 +84,7 @@ def get_tape_files(self) -> list[str]:
         logger.info(f"Found {len(exps)} experiments in {self.tapes_folder}")
         return sorted(exps)
 
-    def get_steps(self, tape) -> list:
+    def get_steps(self, tape: dict) -> list:
         return tape["steps"]
 
     def load_llm_calls(self):
@@ -102,9 +103,10 @@ def get_tape_name(self, i: int, tape: Tape) -> str:
             mark = "⚠ "
         if tape.metadata.task.get("file_name"):
             mark += "📁 "
-        n = f"{tape.metadata.task.get('Level', '')}.{tape.metadata.task.get('number','')}"
-        name = tape[0].content["content"][:32] + "..."
-        return f"{n} {mark}{name}"
+        number = tape.metadata.task.get("number", "")
+        n = f"{tape.metadata.task.get('Level', '')}.{number} " if number else ""
+        name = tape.steps[0].content["content"][:32] + "..."
+        return f"{n}{mark}{name}"
 
     def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
         acc, n_solved = self.calculate_accuracy(tapes)
@@ -142,20 +144,8 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
                 if kind.endswith("action"):
                     actions[kind] += 1
                     last_action = kind
-                if kind == "search_results_observation" and not len(step_dict.get("serp")):
-                    errors["search_empty"] += 1
-                if kind == "page_observation" and step_dict.get("error"):
-                    errors["browser"] += 1
-                elif kind == "llm_output_parsing_failure_action":
-                    errors["parsing"] += 1
-                elif kind == "action_execution_failure":
-                    if last_action:
-                        errors[f"{last_action}"] += 1
-                    else:
-                        errors["unknown_action_execution_failure"] += 1
-                elif kind == "code_execution_result":
-                    if step_dict.get("result", {}).get("exit_code"):
-                        errors["code_execution"] += 1
+                if error := self.get_step_error(step_dict, last_action):
+                    errors[error] += 1
         timers, timer_counts = self.aggregate_timer_times(tapes)
         html = f"<h2>Solved {acc:.2f}%, {n_solved} out of {len(tapes)}</h2>"
         if "all" in filename:
@@ -177,10 +167,13 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
             html += f"<h2>Timings</h2>{timers_str}"
         return html
 
+    def get_step_error(self, step_dict: dict, last_action: str | None) -> str:
+        return step_error(step_dict, last_action)
+
     def calculate_accuracy(self, tapes: list[Tape]) -> tuple[float, int]:
         solved = [tape.metadata.reward for tape in tapes]
         accuracy = 100 * (sum(solved) / len(solved) if solved else 0.0)
-        return accuracy, sum(solved)
+        return accuracy, int(sum(solved))
 
     def aggregate_timer_times(self, tapes: list[Tape]):
         timer_sums = defaultdict(float)
@@ -198,7 +191,7 @@ def aggregate_timer_times(self, tapes: list[Tape]):
                     timer_counts[action_kind] += 1
         return dict(timer_sums), dict(timer_counts)
 
-    def load_tapes(self, exp_dir: str) -> list[dict]:
+    def load_tapes(self, exp_dir: str) -> list[Tape]:
         tapes: list[Tape] = []
         fpath = Path(self.tapes_folder) / exp_dir
         for json_file in fpath.rglob("tape.json"):
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index a0612457..7a178ae6 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -4,6 +4,7 @@
 import shutil
 import string
 from dataclasses import dataclass
+from math import exp
 from pathlib import Path
 from typing import Any, Literal
 
@@ -78,11 +79,12 @@ def __init__(
     def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         exp_dir = str(exp_dir)
         logger.info(f"Init gaia env with directory {exp_dir}")
+        os.environ["TAPEAGENTS_SQLITE_DB"] = os.path.join(exp_dir, "tapedata.sqlite")
         self.init_code_sandbox(exp_dir)
         tools = [
             WebSearch(),
             VideoReader(exp_path=exp_dir),
-            Browser(exp_path=exp_dir, viewport_chars=self.viewport_chars),
+            Browser(exp_path=exp_dir, viewport_chars=self.viewport_chars, navigation_only=True),
             CodeExecutor(exp_path=exp_dir, reuse_computer_container=True),
         ]
         env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir)
@@ -188,6 +190,22 @@ class GaiaAnswer(StopStep):
     long_answer: str = Field(description="Detailed final answer not restricted by format rules")
 
 
+def step_error(step_dict: dict, last_action: str | None) -> str:
+    kind = step_dict.get("kind", "unknown")
+    error = ""
+    if kind == "search_results_observation" and not len(step_dict.get("serp", [])):
+        error = "search_empty"
+    elif kind == "page_observation" and step_dict.get("error"):
+        error = "browser"
+    elif kind == "llm_output_parsing_failure_action":
+        error = "parsing"
+    elif kind == "action_failure":
+        error = last_action if last_action else "unknown_action_execution_failure"
+    elif kind == "code_execution_result" and step_dict.get("result", {}).get("exit_code"):
+        error = "code"
+    return error
+
+
 def normalize_number_str(number_str: str) -> float:
     # we replace these common units and commas to allow
     # conversion to float

From 3fd383debd4706e0aab80e28b295772753f9b004 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 14:00:57 +0200
Subject: [PATCH 58/71] fix

---
 src/agentlab/benchmarks/gaia.py | 18 ++++++++++--------
 1 file changed, 10 insertions(+), 8 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 7a178ae6..e918a84a 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -10,7 +10,7 @@
 
 import datasets
 from pydantic import Field
-from tapeagents.core import Action, Observation, StopStep, Thought
+from tapeagents.core import Action, Observation, Step, StopStep, Thought
 from tapeagents.environment import ContainerExecutor, StatefulTool, Tool
 from tapeagents.steps import ImageObservation
 from tapeagents.tools.browser import Browser
@@ -40,7 +40,7 @@ def reset(self, seed=None) -> tuple[list[Observation], dict]:
         """
         super().reset()
         question = GaiaQuestion.from_task(self.task)
-        steps = [question]
+        steps: list[Observation] = [question]
         if image_obs := with_image(question):
             steps.append(image_obs)
         return steps, {}
@@ -120,10 +120,12 @@ def model_post_init(self, __context: Any) -> None:
                 "gaia-benchmark/GAIA", "2023_all", trust_remote_code=True
             )  # type: ignore
         self.env_args_list = []
-        for i, task in enumerate(self.dataset[self.split]):
+        number = 0
+        for task in self.dataset[self.split]:
             if self.level != "all" and task["Level"] != self.level:
                 continue
-            task["number"] = i
+            number += 1
+            task["number"] = number
             env_args = GaiaGymArgs(task_name="gaia." + task["task_id"], task=task)
             self.env_args_list.append(env_args)
         logger.info(f"Loaded {len(self.env_args_list)} tasks from {self.split} split")
@@ -141,7 +143,7 @@ class ExtractedFacts(Thought):
 
 
 class GaiaQuestion(Observation):
-    kind: Literal["question"] = "question"
+    kind: Literal["question"] = "question"  # type: ignore
     content: str
     filename: str | None = None
 
@@ -178,7 +180,7 @@ class GaiaAnswer(StopStep):
     If unable to determine the final answer, output an empty string.
     """
 
-    kind: Literal["gaia_answer_action"] = "gaia_answer_action"
+    kind: Literal["gaia_answer_action"] = "gaia_answer_action"  # type: ignore
     success: bool = Field(description="True if the task was successful, False otherwise")
     overview: str = Field(
         description="List of steps performed to answer the question. If the task was not successful, includes the reason for failure"
@@ -199,8 +201,8 @@ def step_error(step_dict: dict, last_action: str | None) -> str:
         error = "browser"
     elif kind == "llm_output_parsing_failure_action":
         error = "parsing"
-    elif kind == "action_failure":
-        error = last_action if last_action else "unknown_action_execution_failure"
+    elif kind == "action_execution_failure":
+        error = last_action if last_action else "action_failure"
     elif kind == "code_execution_result" and step_dict.get("result", {}).get("exit_code"):
         error = "code"
     return error

From e98a0c2c81f7d0984c4bb89fb36ce7b6024a49fa Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 14:16:19 +0200
Subject: [PATCH 59/71] render attached gaia task files into steps

---
 src/agentlab/benchmarks/gaia.py | 81 +++++++++++++++++++++++++++------
 1 file changed, 68 insertions(+), 13 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index e918a84a..79e61084 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -9,6 +9,7 @@
 from typing import Any, Literal
 
 import datasets
+from pdf2image import convert_from_path
 from pydantic import Field
 from tapeagents.core import Action, Observation, Step, StopStep, Thought
 from tapeagents.environment import ContainerExecutor, StatefulTool, Tool
@@ -16,6 +17,7 @@
 from tapeagents.tools.browser import Browser
 from tapeagents.tools.code_executor import CodeExecutor
 from tapeagents.tools.media_reader import VideoReader
+from tapeagents.tools.simple_browser import SimpleTextBrowser
 from tapeagents.tools.web_search import WebSearch
 
 from agentlab.benchmarks.abstract_env import AbstractBenchmark, AbstractEnvArgs
@@ -39,11 +41,7 @@ def reset(self, seed=None) -> tuple[list[Observation], dict]:
         Reset the state of all the tools and prepare initial observations from the task again
         """
         super().reset()
-        question = GaiaQuestion.from_task(self.task)
-        steps: list[Observation] = [question]
-        if image_obs := with_image(question):
-            steps.append(image_obs)
-        return steps, {}
+        return task_to_observations(self.task), {}
 
     def calculate_reward(self, action: Action) -> float:
         if isinstance(action, GaiaAnswer):
@@ -148,24 +146,81 @@ class GaiaQuestion(Observation):
     filename: str | None = None
 
     @classmethod
-    def from_task(cls, question: dict):
+    def from_task(cls, question: dict, files_dir: str = "/tmp/gaia_files"):
+        os.makedirs(files_dir, exist_ok=True)
         question_prompt = question["Question"]
         filename = None
         if question["file_path"]:
             basename = os.path.basename(question["file_path"])
-            tmp_fname = f"/tmp/{basename}"
+            tmp_fname = os.path.join(files_dir, basename)
             shutil.copyfile(question["file_path"], tmp_fname)
             assert os.path.exists(tmp_fname)
             filename = tmp_fname
         return cls(content=question_prompt, filename=filename)
 
 
-def with_image(question: GaiaQuestion) -> ImageObservation | None:
-    if question.filename and question.filename.endswith((".png", ".jpg", ".jpeg")):
-        return ImageObservation(
-            image_path=question.filename,
-            image_caption="Attached image",
-        )
+def task_to_observations(task: dict, max_doc_length: int = 8000) -> list[Observation]:
+    browser = SimpleTextBrowser()
+    question = GaiaQuestion.from_task(task)
+    if not question.filename:
+        return [question]
+
+    filename: str | None = question.filename
+    question.filename = None
+    steps: list[Observation] = []
+    name, ext = filename.rsplit(".", maxsplit=1)
+    ext = ext.lower()
+    if ext == "zip":
+        folder_name = name
+        os.makedirs(folder_name, exist_ok=True)
+        shutil.unpack_archive(filename, folder_name)
+        document_text = "\n\nArchive contains the following files:\n"
+        for i, file in enumerate(os.listdir(folder_name)):
+            file_path = os.path.join(folder_name, file)
+            content = browser.get_whole_document(file_path)
+            file_text = f"{i+1}. {file}. Content:\n{content}\n\n"
+            if len(file_text) > max_doc_length:
+                file_text = ""
+            file_text += f"{i+1}. Path to the '{file}': {file_path}"
+            document_text += file_text
+    elif ext in ("png", "jpg", "jpeg"):
+        steps.append(ImageObservation(image_path=filename, image_caption="Attached image"))
+        document_text = ""
+    else:
+        attach_doc_text = True
+        if ext == "pdf":
+            images, total_pages = pdf_to_images(filename)
+            if total_pages <= 3:
+                attach_doc_text = False
+            for i, img_path in enumerate(images):
+                steps.append(ImageObservation(image_path=img_path, image_caption=f"PDF page {i+1}"))
+        if attach_doc_text:
+            try:
+                content = browser.get_whole_document(filename)
+            except Exception as e:
+                logger.exception(f"Failed to read document: {e}")
+                content = ""
+            document_text = f"\n\nAttached {ext.upper()} file content:\n{content}\n"
+            if not len(content) or len(document_text) > max_doc_length:
+                document_text = ""
+        else:
+            document_text = "\nDocument pages attached as images below"
+        question.filename = filename
+    question.content += document_text
+    return [question] + steps
+
+
+def pdf_to_images(filename: str, n_pages: int = 3):
+    images = []
+    for i, image in enumerate(convert_from_path(filename)):
+        page_index = i + 1
+        page_fname = filename[:-4] + f"_{page_index}.png"
+        if os.path.exists(page_fname):
+            images.append(page_fname)
+            continue
+        image.save(page_fname)
+        images.append(page_fname)
+    return images[:n_pages], len(images)
 
 
 class GaiaAnswer(StopStep):

From 55378a4312a718307c54e0d7acc6d3938ea31b94 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 16:18:01 +0200
Subject: [PATCH 60/71] remaining fixes, eval now matched with the old
 tapeagents evals

---
 src/agentlab/agents/tapeagent/agent.py   |  4 +--
 src/agentlab/benchmarks/gaia.py          | 42 ++++++++++++++----------
 src/agentlab/benchmarks/multitool_gym.py |  9 +++--
 src/agentlab/experiments/loop.py         | 14 +++-----
 4 files changed, 38 insertions(+), 31 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 43d43909..0c41fa02 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -26,12 +26,12 @@ class ExtendedMetadata(TapeMetadata):
 
 
 class Tape(BaseTape):
-    metadata: ExtendedMetadata = Field(default_factory=ExtendedMetadata)
+    metadata: ExtendedMetadata = Field(default_factory=ExtendedMetadata)  # type: ignore
 
 
 @dataclass
 class TapeAgentArgs(AgentArgs):
-    agent_name: str
+    agent_name: str = "tape_agent"
 
     def make_agent(self) -> bgym.Agent:
         with hydra.initialize(config_path="conf", version_base="1.1"):
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 79e61084..e84c8a66 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -1,17 +1,17 @@
+import fcntl
 import logging
 import os
 import re
 import shutil
 import string
 from dataclasses import dataclass
-from math import exp
 from pathlib import Path
 from typing import Any, Literal
 
 import datasets
 from pdf2image import convert_from_path
 from pydantic import Field
-from tapeagents.core import Action, Observation, Step, StopStep, Thought
+from tapeagents.core import Action, Observation, StopStep, Thought
 from tapeagents.environment import ContainerExecutor, StatefulTool, Tool
 from tapeagents.steps import ImageObservation
 from tapeagents.tools.browser import Browser
@@ -78,7 +78,7 @@ def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         exp_dir = str(exp_dir)
         logger.info(f"Init gaia env with directory {exp_dir}")
         os.environ["TAPEAGENTS_SQLITE_DB"] = os.path.join(exp_dir, "tapedata.sqlite")
-        self.init_code_sandbox(exp_dir)
+        init_code_sandbox(exp_dir)
         tools = [
             WebSearch(),
             VideoReader(exp_path=exp_dir),
@@ -88,34 +88,40 @@ def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir)
         return env
 
-    def init_code_sandbox(self, exp_dir: str) -> None:
-        # Use a common code directory for all tasks in the experiment, which is mounted in the container
-        root_exp_dir = Path(exp_dir).parent
-        code_path = os.path.join(root_exp_dir, "shared_code")
-        os.makedirs(code_path, exist_ok=True)
 
-        container_name = "gaia_code_shared"
-        os.environ["COMPUTER_CONTAINER_NAME"] = container_name
+def init_code_sandbox(exp_dir: str) -> None:
+    # Use a common code directory for all tasks in the experiment, which is mounted in the container
+    root_exp_dir = Path(exp_dir).parent
+    code_path = os.path.join(root_exp_dir, "shared_code")
+    os.makedirs(code_path, exist_ok=True)
 
-        # symlink task code to the shared code directory
-        task_code_path = os.path.join(exp_dir, "code")
-        if not os.path.exists(task_code_path):
-            os.symlink(code_path, task_code_path)
+    container_name = "gaia_code_shared"
+    os.environ["COMPUTER_CONTAINER_NAME"] = container_name
 
+    # symlink task code to the shared code directory
+    task_code_path = os.path.join(exp_dir, "code")
+    if not os.path.exists(task_code_path):
+        os.symlink(code_path, task_code_path)
+
+    try:
         ContainerExecutor(container_name=container_name, work_dir=code_path, no_deps=True)
+    except Exception as e:
+        logger.warning(f"Failed to initialize container executor: {e}")
 
 
 class GaiaBenchmark(AbstractBenchmark):
     name: str = "gaia"
     split: Literal["test", "validation"]
     level: Literal["1", "2", "3", "all"] = "all"
-    env_args_list: list[GaiaGymArgs] = None
-    dataset: dict = Field(default_factory=dict)
+    env_args_list: list[GaiaGymArgs] = None  # type: ignore
+    dataset: dict = None  # type: ignore
 
     def model_post_init(self, __context: Any) -> None:
         if not self.dataset:
             self.dataset = datasets.load_dataset(
-                "gaia-benchmark/GAIA", "2023_all", trust_remote_code=True
+                path="gaia-benchmark/GAIA",
+                name="2023_all",
+                trust_remote_code=True,
             )  # type: ignore
         self.env_args_list = []
         number = 0
@@ -134,7 +140,7 @@ class ExtractedFacts(Thought):
     Thought that contains the list of facts extracted from the document
     """
 
-    kind: Literal["extracted_facts_thought"] = "extracted_facts_thought"
+    kind: Literal["extracted_facts_thought"] = "extracted_facts_thought"  # type: ignore
     extracted_facts: list[str] | dict[str, Any] | str = Field(
         description="facts extracted from the observation"
     )
diff --git a/src/agentlab/benchmarks/multitool_gym.py b/src/agentlab/benchmarks/multitool_gym.py
index fa3d33ad..e91aa916 100644
--- a/src/agentlab/benchmarks/multitool_gym.py
+++ b/src/agentlab/benchmarks/multitool_gym.py
@@ -11,12 +11,15 @@
 
 
 class MultiToolGym(AbstractEnv):
-    def __init__(self, tools: list[Tool | StatefulTool]):
+    def __init__(self, tools: list[Tool | StatefulTool], max_turns: int = 50):
         self._env = ToolCollectionEnvironment(tools)
         self._actions = self._env.actions()
+        self.max_turns = max_turns
+        self._turns = 0
 
     def reset(self):
         self._env.reset()
+        self._turns = 0
 
     def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
         logger.info(f"Gym {self.__class__.__name__} step called with action {type(action)}")
@@ -28,11 +31,13 @@ def step(self, action: Action) -> tuple[Observation, float, bool, bool, dict]:
             observation = Observation()  # empty observation
         else:
             observation = self._env.step(action)
+            terminated = isinstance(observation, StopStep)
         action_exec_stop = time.time()
+        self._turns += 1
 
         reward = self.calculate_reward(action)
 
-        truncated = False
+        truncated = self._turns >= self.max_turns
 
         env_info = {
             "step_metadata": observation.metadata,
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 2a7eb07d..0e0ad517 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -23,17 +23,12 @@
 from browsergym.experiments.utils import count_messages_token, count_tokens
 from dataclasses_json import DataClassJsonMixin
 from PIL import Image
-from tapeagents.core import Step, StepMetadata, TapeMetadata
+from tapeagents.core import Step, StepMetadata
 from tapeagents.dialog_tape import AssistantStep, AssistantThought
 from tapeagents.io import save_json_tape, save_tape_images
 from tqdm import tqdm
 
-from agentlab.agents.tapeagent.agent import (
-    DictObservation,
-    ExtendedMetadata,
-    Tape,
-    TapeAgent,
-)
+from agentlab.agents.tapeagent.agent import DictObservation, Tape, TapeAgent
 
 logger = logging.getLogger(__name__)
 
@@ -237,9 +232,10 @@ def run(self):
         self._set_logger()
 
         # log python environment info
-        save_package_versions(self.exp_dir)
+        save_package_versions(Path(self.exp_dir))
 
         episode_info = []
+        agent = None
         env, step_info, err_msg, stack_trace = None, None, None, None
         try:
             logger.info(f"Running experiment {self.exp_name} in:\n  {self.exp_dir}")
@@ -255,7 +251,7 @@ def run(self):
             step_info = StepInfo(step=0)
             episode_info = [step_info]
             step_info.from_reset(
-                env, seed=self.env_args.task_seed, obs_preprocessor=agent.obs_preprocessor
+                env, seed=self.env_args.task_seed or 0, obs_preprocessor=agent.obs_preprocessor
             )
             logger.debug("Environment reset.")
 

From c74791512bdfa456287e4e3db6d6be4d2ff0f43b Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 17:57:24 +0200
Subject: [PATCH 61/71] config-driven gym with tools and bench

---
 .vscode/launch.json                           | 19 ++++++
 scripts/run_gaia.py                           | 21 ++++---
 src/agentlab/agents/tapeagent/agent.py        | 21 ++++---
 .../plan_react.yaml}                          | 30 +++++----
 .../tapeagent/conf/environment/web_code.yaml  | 11 ++++
 .../agents/tapeagent/conf/gaia_l1.yaml        | 12 ++++
 .../agents/tapeagent/conf/gaia_val.yaml       | 12 ++++
 src/agentlab/benchmarks/gaia.py               | 62 ++++++++++++-------
 tests/agents/test_gaia_agent.py               | 17 ++---
 9 files changed, 145 insertions(+), 60 deletions(-)
 create mode 100644 .vscode/launch.json
 rename src/agentlab/agents/tapeagent/conf/{gaia_agent.yaml => agent/plan_react.yaml} (86%)
 create mode 100644 src/agentlab/agents/tapeagent/conf/environment/web_code.yaml
 create mode 100644 src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
 create mode 100644 src/agentlab/agents/tapeagent/conf/gaia_val.yaml

diff --git a/.vscode/launch.json b/.vscode/launch.json
new file mode 100644
index 00000000..6785b6d0
--- /dev/null
+++ b/.vscode/launch.json
@@ -0,0 +1,19 @@
+{
+    // Use IntelliSense to learn about possible attributes.
+    // Hover to view descriptions of existing attributes.
+    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
+    "version": "0.2.0",
+    "configurations": [
+        {
+            "name": "Python Debugger: Current File",
+            "type": "debugpy",
+            "request": "launch",
+            "program": "${file}",
+            "console": "integratedTerminal",
+            "justMyCode": false,
+            "env": {
+                "AGENTLAB_DEBUG": "1"
+            }
+        }
+    ]
+}
\ No newline at end of file
diff --git a/scripts/run_gaia.py b/scripts/run_gaia.py
index 547aaba1..ca613d46 100644
--- a/scripts/run_gaia.py
+++ b/scripts/run_gaia.py
@@ -1,20 +1,25 @@
 import logging
+import os
 
-from agentlab.agents.tapeagent.agent import TapeAgentArgs
-from agentlab.benchmarks.gaia import GaiaBenchmark
+from agentlab.agents.tapeagent.agent import TapeAgentArgs, load_config
+from agentlab.benchmarks.gaia import GaiaBenchmark, stop_old_sandbox
 from agentlab.experiments.study import make_study
 
 fmt = "%(asctime)s - %(levelname)s - %(name)s:%(lineno)d - %(funcName)s() - %(message)s"
 logging.basicConfig(level=logging.INFO, force=True, format=fmt, handlers=[logging.StreamHandler()])
 
 if __name__ == "__main__":
+    config = load_config("gaia_l1")
     study = make_study(
-        benchmark=GaiaBenchmark(split="validation", level="1"),  # type: ignore
-        agent_args=TapeAgentArgs("gaia_agent"),
-        comment="Gaia eval",
+        benchmark=GaiaBenchmark.from_config(config),  # type: ignore
+        agent_args=TapeAgentArgs(agent_name=config.name, config=config),
+        comment=config.comment,
         logging_level=logging.INFO,
         logging_level_stdout=logging.INFO,
     )
-    # study.exp_args_list = study.exp_args_list[:3]
-    # study.run(n_jobs=1, n_relaunch=1, parallel_backend="sequential")
-    study.run(n_jobs=8, n_relaunch=1, parallel_backend="ray")
+    stop_old_sandbox()
+    if os.environ.get("AGENTLAB_DEBUG"):
+        study.exp_args_list = study.exp_args_list[:3]
+        study.run(n_jobs=1, n_relaunch=1, parallel_backend="sequential")
+    else:
+        study.run(n_jobs=config.n_jobs, n_relaunch=1, parallel_backend=config.parallel_backend)
diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 0c41fa02..21ea5dd4 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -4,6 +4,7 @@
 
 import bgym
 import hydra
+from omegaconf import DictConfig
 from pydantic import Field
 from tapeagents.agent import Agent
 from tapeagents.core import Action, Observation, TapeMetadata, Thought
@@ -29,20 +30,24 @@ class Tape(BaseTape):
     metadata: ExtendedMetadata = Field(default_factory=ExtendedMetadata)  # type: ignore
 
 
+def load_config(config_name: str) -> DictConfig:
+    with hydra.initialize(config_path="conf", version_base="1.1"):
+        config = hydra.compose(config_name=config_name)
+    return config
+
+
 @dataclass
 class TapeAgentArgs(AgentArgs):
-    agent_name: str = "tape_agent"
+    config: DictConfig = None  # type: ignore
 
     def make_agent(self) -> bgym.Agent:
-        with hydra.initialize(config_path="conf", version_base="1.1"):
-            config = hydra.compose(config_name=self.agent_name)
-        agent: Agent = hydra.utils.instantiate(config)
+        agent: Agent = hydra.utils.instantiate(self.config.agent)
         return TapeAgent(agent=agent)
 
 
 @dataclass
 class TapeAgentInfo(bgym.AgentInfo):
-    thoughts: list[Thought] = None
+    thoughts: list[Thought] = None  # type: ignore
 
 
 class DictObservation(Observation):
@@ -50,7 +55,7 @@ class DictObservation(Observation):
     Container for wrapping old dict observation into new Observation class.
     """
 
-    kind: Literal["dict_observation"] = "dict_observation"
+    kind: Literal["dict_observation"] = "dict_observation"  # type: ignore
     content: str
 
 
@@ -70,8 +75,8 @@ def obs_preprocessor(self, obs: Observation | list[Observation]) -> list[Observa
         logger.info(f"Observations: {[type(o).__name__ for o in obs]}")
         return obs
 
-    def get_action(self, obs: Observation | list[Observation]) -> tuple[str, TapeAgentInfo]:
-        self.tape += obs
+    def get_action(self, obs: Observation | list[Observation]) -> tuple[Action, TapeAgentInfo]:
+        self.tape += obs  # type: ignore
         thoughts: list[Thought] = []
         action = None
         while not action:
diff --git a/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml b/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
similarity index 86%
rename from src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
rename to src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
index 41bc2cb1..e7873a1b 100644
--- a/src/agentlab/agents/tapeagent/conf/gaia_agent.yaml
+++ b/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
@@ -1,15 +1,13 @@
-defaults:
-  - llm@llms.default: gpt4o_mini
-  - _self_
-
 _target_: tapeagents.agent.Agent
 name : gaia_agent
 max_iterations: 2
+llms:
+  default: ${llm}
 tools_description: |
-  - WebSearch - Performs a search in the web, wikipedia or youtube
-  - VideoReader - Opens video from a youtube URL. Can access the video content, thumbnail, subtitles and audio.
+  - WebSearch - Performs web search.
+  - VideoReader - Opens video from a youtube URL.
   - Browser - Browser tool that can load web pages and interact with their content.
-  - CodeExecutor - Executes the python code snippet
+  - CodeExecutor - Executes the python code snippet.
 known_actions:
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.web_search.SearchAction
@@ -64,18 +62,18 @@ templates:
 nodes:
   - _target_: tapeagents.nodes.StandardNode
     name: plan
-    system_prompt: ${templates.system_prompt}
+    system_prompt: ${agent.templates.system_prompt}
     guidance: |
       Write a concise multi-step plan explaining which steps should be performed to find the answer for the given task.
       Remember that you can use web search, browser, python code execution and access the youtube videos to reach your goals.
       Be specific about how each step should be performed. Only describe the intended actions here, do not perform them yet.
       Consider that next steps may depend on results of previous steps, so include conditional branching using "if" statements where needed.
-      ${templates.thought_format}
-    steps_prompt: ${templates.allowed_tools}
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
 
   - _target_: tapeagents.nodes.StandardNode
     name: facts_survey
-    system_prompt: ${templates.system_prompt}
+    system_prompt: ${agent.templates.system_prompt}
     guidance: |
       Before we begin executing the plan, please answer the following pre-survey.
       Here is the pre-survey:
@@ -84,16 +82,16 @@ nodes:
           3. Please list any facts that may need to be derived (e.g., via logical deduction, simulation, or computation)
           4. Please list any facts that are recalled from memory, hunches, well-reasoned guesses, etc.
       When answering this survey, keep in mind that "facts" will typically be specific names, dates, statistics, etc.
-      ${templates.thought_format}
-    steps_prompt: ${templates.allowed_tools}
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
 
   - _target_: tapeagents.nodes.StandardNode
     name: act
-    system_prompt: ${templates.system_prompt}
+    system_prompt: ${agent.templates.system_prompt}
     guidance: |
       Produce single next step. If the answer is ready, produce gaia_answer_action.
-      ${templates.format}
-    steps_prompt: ${templates.allowed_steps}
+      ${agent.templates.format}
+    steps_prompt: ${agent.templates.allowed_steps}
     steps:
       - tapeagents.steps.ReasoningThought
       - agentlab.benchmarks.gaia.ExtractedFacts
diff --git a/src/agentlab/agents/tapeagent/conf/environment/web_code.yaml b/src/agentlab/agents/tapeagent/conf/environment/web_code.yaml
new file mode 100644
index 00000000..f473283e
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/conf/environment/web_code.yaml
@@ -0,0 +1,11 @@
+tools:
+  - _target_: tapeagents.tools.web_search.WebSearch
+  - _target_: tapeagents.tools.media_reader.VideoReader
+    exp_path: ""
+  - _target_: tapeagents.tools.browser.Browser
+    exp_path: ""
+    viewport_chars: 64000
+    navigation_only: true
+  - _target_: tapeagents.tools.code_executor.CodeExecutor
+    exp_path: ""
+    reuse_computer_container: true
\ No newline at end of file
diff --git a/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml b/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
new file mode 100644
index 00000000..65c48f16
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
@@ -0,0 +1,12 @@
+defaults:
+  - llm: gpt4o_mini
+  - agent: plan_react
+  - environment: web_code
+  - _self_
+
+name: gaia_agent
+comment: Gaia L1 val
+split: validation
+level: "1"
+parallel_backend: ray
+n_jobs: 10
\ No newline at end of file
diff --git a/src/agentlab/agents/tapeagent/conf/gaia_val.yaml b/src/agentlab/agents/tapeagent/conf/gaia_val.yaml
new file mode 100644
index 00000000..17f22e7e
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/conf/gaia_val.yaml
@@ -0,0 +1,12 @@
+defaults:
+  - llm: gpt4o_mini
+  - agent: plan_react
+  - environment: web_code
+  - _self_
+
+name: gaia_agent
+comment: Gaia val
+split: validation
+level: "all"
+parallel_backend: ray
+n_jobs: 10
\ No newline at end of file
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index e84c8a66..13ff9a6b 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -1,4 +1,3 @@
-import fcntl
 import logging
 import os
 import re
@@ -6,25 +5,26 @@
 import string
 from dataclasses import dataclass
 from pathlib import Path
-from typing import Any, Literal
+from typing import Any, Literal, Self
 
 import datasets
+import hydra
+import podman
+from omegaconf import DictConfig
 from pdf2image import convert_from_path
-from pydantic import Field
+from pydantic import ConfigDict, Field
 from tapeagents.core import Action, Observation, StopStep, Thought
 from tapeagents.environment import ContainerExecutor, StatefulTool, Tool
 from tapeagents.steps import ImageObservation
-from tapeagents.tools.browser import Browser
-from tapeagents.tools.code_executor import CodeExecutor
-from tapeagents.tools.media_reader import VideoReader
 from tapeagents.tools.simple_browser import SimpleTextBrowser
-from tapeagents.tools.web_search import WebSearch
 
 from agentlab.benchmarks.abstract_env import AbstractBenchmark, AbstractEnvArgs
 from agentlab.benchmarks.multitool_gym import MultiToolGym
 
 logger = logging.getLogger(__name__)
 
+CONTAINER_NAME = "gaia_code_shared"
+
 
 class GaiaGym(MultiToolGym):
     task: dict
@@ -61,30 +61,33 @@ def calculate_reward(self, action: Action) -> float:
 
 @dataclass
 class GaiaGymArgs(AbstractEnvArgs):
+    model_config = ConfigDict(arbitrary_types_allowed=True)
     task: dict[str, Any]
-    viewport_chars: int
     task_seed: int
     task_name: str
+    env_config: DictConfig
 
     def __init__(
-        self, task_name: str, task: dict[str, Any], viewport_chars: int = 64000, task_seed: int = 0
+        self,
+        task_name: str,
+        task: dict[str, Any],
+        env_config: DictConfig,
+        task_seed: int = 0,
     ):
         self.task_name = task_name
         self.task = task
-        self.viewport_chars = viewport_chars
         self.task_seed = task_seed
+        self.env_config = env_config
 
     def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
         exp_dir = str(exp_dir)
         logger.info(f"Init gaia env with directory {exp_dir}")
         os.environ["TAPEAGENTS_SQLITE_DB"] = os.path.join(exp_dir, "tapedata.sqlite")
         init_code_sandbox(exp_dir)
-        tools = [
-            WebSearch(),
-            VideoReader(exp_path=exp_dir),
-            Browser(exp_path=exp_dir, viewport_chars=self.viewport_chars, navigation_only=True),
-            CodeExecutor(exp_path=exp_dir, reuse_computer_container=True),
-        ]
+        for i in range(len(self.env_config.tools)):
+            if hasattr(self.env_config.tools[i], "exp_path"):
+                self.env_config.tools[i].exp_path = exp_dir
+        tools = hydra.utils.instantiate(self.env_config.tools)
         env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir)
         return env
 
@@ -94,9 +97,7 @@ def init_code_sandbox(exp_dir: str) -> None:
     root_exp_dir = Path(exp_dir).parent
     code_path = os.path.join(root_exp_dir, "shared_code")
     os.makedirs(code_path, exist_ok=True)
-
-    container_name = "gaia_code_shared"
-    os.environ["COMPUTER_CONTAINER_NAME"] = container_name
+    os.environ["COMPUTER_CONTAINER_NAME"] = CONTAINER_NAME
 
     # symlink task code to the shared code directory
     task_code_path = os.path.join(exp_dir, "code")
@@ -104,17 +105,35 @@ def init_code_sandbox(exp_dir: str) -> None:
         os.symlink(code_path, task_code_path)
 
     try:
-        ContainerExecutor(container_name=container_name, work_dir=code_path, no_deps=True)
+        ContainerExecutor(container_name=CONTAINER_NAME, work_dir=code_path, no_deps=True)
     except Exception as e:
         logger.warning(f"Failed to initialize container executor: {e}")
 
 
+def stop_old_sandbox():
+    try:
+        podman.from_env().containers.get(CONTAINER_NAME).stop()
+    except Exception as e:
+        logger.warning(f"Failed to stop old container {CONTAINER_NAME}: {e}")
+
+
 class GaiaBenchmark(AbstractBenchmark):
+    model_config = ConfigDict(arbitrary_types_allowed=True)
     name: str = "gaia"
     split: Literal["test", "validation"]
     level: Literal["1", "2", "3", "all"] = "all"
     env_args_list: list[GaiaGymArgs] = None  # type: ignore
     dataset: dict = None  # type: ignore
+    env_config: DictConfig = None  # type: ignore
+
+    @classmethod
+    def from_config(cls, config: DictConfig, dataset: dict = None) -> Self:
+        return cls(
+            split=config.split,
+            level=config.level,
+            env_config=config.environment,
+            dataset=dataset,
+        )
 
     def model_post_init(self, __context: Any) -> None:
         if not self.dataset:
@@ -130,7 +149,8 @@ def model_post_init(self, __context: Any) -> None:
                 continue
             number += 1
             task["number"] = number
-            env_args = GaiaGymArgs(task_name="gaia." + task["task_id"], task=task)
+            name = f"gaia.{task['task_id']}"
+            env_args = GaiaGymArgs(task_name=name, task=task, env_config=self.env_config)
             self.env_args_list.append(env_args)
         logger.info(f"Loaded {len(self.env_args_list)} tasks from {self.split} split")
 
diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index d8df2dcb..5c0f970e 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -3,7 +3,7 @@
 
 from tapeagents.steps import ImageObservation
 
-from agentlab.agents.tapeagent.agent import TapeAgent, TapeAgentArgs
+from agentlab.agents.tapeagent.agent import TapeAgent, TapeAgentArgs, load_config
 from agentlab.benchmarks.gaia import GaiaBenchmark, GaiaQuestion
 
 
@@ -44,19 +44,20 @@ def mock_dataset() -> dict:
 
 
 def test_agent_creation():
-    args = TapeAgentArgs(agent_name="gaia_agent")
+    config = load_config("gaia_val")
+    args = TapeAgentArgs(config=config)
     agent = args.make_agent()
     assert isinstance(agent, TapeAgent)
     assert agent.agent.name == "gaia_agent"
 
 
 def test_gaia_bench():
-    bench = GaiaBenchmark(split="validation", dataset=mock_dataset())
+    config = load_config("gaia_val")
+    bench = GaiaBenchmark.from_config(config, dataset=mock_dataset())
     assert bench.name == "gaia"
     assert bench.split == "validation"
     assert len(bench.env_args_list) == 165
 
-    assert bench.env_args_list[5].viewport_chars == 64000
     task = bench.env_args_list[5].task
     question = """The attached spreadsheet shows the inventory for a movie and video game rental store in Seattle, Washington. What is the title of the oldest Blu-Ray recorded in this spreadsheet? Return it as appearing in the spreadsheet."""
     steps = """1. Open the attached file.\n2. Compare the years given in the Blu-Ray section to find the oldest year, 2009.\n3. Find the title of the Blu-Ray disc that corresponds to the year 2009: Time-Parking 2: Parallel Universe."""
@@ -73,15 +74,17 @@ def test_gaia_bench():
 
 
 def test_gaia_gym_reset():
-    bench = GaiaBenchmark(split="validation", dataset=mock_dataset())
-    exp_dir = "/tmp/"
+    exp_dir = "/tmp/gaia_unit_test"
+    os.makedirs(exp_dir, exist_ok=True)
 
+    config = load_config("gaia_val")
+    bench = GaiaBenchmark.from_config(config, dataset=mock_dataset())
     args = bench.env_args_list[5]
     env = args.make_env(exp_dir)
     steps, _ = env.reset()
     assert len(steps) == 1
     assert isinstance(steps[0], GaiaQuestion)
-    assert steps[0].content == args.task["Question"]
+    assert steps[0].content.startswith(args.task["Question"])
 
     args = bench.env_args_list[20]
     env = args.make_env(exp_dir)

From 995bff7c1aaeee8631a748127f136a603efc7b39 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 18:03:15 +0200
Subject: [PATCH 62/71] fix

---
 src/agentlab/benchmarks/gaia.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 13ff9a6b..e705365a 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -123,11 +123,11 @@ class GaiaBenchmark(AbstractBenchmark):
     split: Literal["test", "validation"]
     level: Literal["1", "2", "3", "all"] = "all"
     env_args_list: list[GaiaGymArgs] = None  # type: ignore
-    dataset: dict = None  # type: ignore
+    dataset: dict | None = None  # type: ignore
     env_config: DictConfig = None  # type: ignore
 
     @classmethod
-    def from_config(cls, config: DictConfig, dataset: dict = None) -> Self:
+    def from_config(cls, config: DictConfig, dataset: dict | None = None) -> Self:
         return cls(
             split=config.split,
             level=config.level,
@@ -136,14 +136,14 @@ def from_config(cls, config: DictConfig, dataset: dict = None) -> Self:
         )
 
     def model_post_init(self, __context: Any) -> None:
-        if not self.dataset:
+        self.env_args_list = []
+        number = 0
+        if self.dataset is None:
             self.dataset = datasets.load_dataset(
                 path="gaia-benchmark/GAIA",
                 name="2023_all",
                 trust_remote_code=True,
             )  # type: ignore
-        self.env_args_list = []
-        number = 0
         for task in self.dataset[self.split]:
             if self.level != "all" and task["Level"] != self.level:
                 continue

From cfc2f20bc2f2787a8aa51b933807d25a5dd740ff Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 18:11:30 +0200
Subject: [PATCH 63/71] adjust agent config to be exactly the same as in
 tapeagents

---
 .../agents/tapeagent/conf/agent/plan_react.yaml      | 12 +++---------
 1 file changed, 3 insertions(+), 9 deletions(-)

diff --git a/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml b/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
index e7873a1b..017128cf 100644
--- a/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
+++ b/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
@@ -4,10 +4,10 @@ max_iterations: 2
 llms:
   default: ${llm}
 tools_description: |
-  - WebSearch - Performs web search.
-  - VideoReader - Opens video from a youtube URL.
+  - WebSearch - Performs a search in the web, wikipedia or youtube
+  - VideoReader - Opens video from a youtube URL. Can access the video content, thumbnail, subtitles and audio.
   - Browser - Browser tool that can load web pages and interact with their content.
-  - CodeExecutor - Executes the python code snippet.
+  - CodeExecutor - Executes the python code snippet
 known_actions:
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.web_search.SearchAction
@@ -17,18 +17,12 @@ known_actions:
     path: tapeagents.tools.code_executor.PythonCodeAction
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.browser.ClickAction
-  - _target_: hydra.utils.get_class
-    path: tapeagents.tools.browser.SelectOptionAction
-  - _target_: hydra.utils.get_class
-    path: tapeagents.tools.browser.InputTextAction
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.browser.GoBackAction
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.browser.GoForwardAction
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.browser.OpenUrlAction
-  - _target_: hydra.utils.get_class
-    path: tapeagents.tools.browser.HoverAction
   - _target_: hydra.utils.get_class
     path: tapeagents.tools.simple_browser.PageDownAction
   - _target_: hydra.utils.get_class

From 27537e961d1b87bca9c69e3e4f260aa19acff015 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 19:37:15 +0200
Subject: [PATCH 64/71] common tapedata.sqlite for the experiment

---
 src/agentlab/analyze/tapes.py   | 16 ++++++++++++++--
 src/agentlab/benchmarks/gaia.py | 15 ++++++++-------
 2 files changed, 22 insertions(+), 9 deletions(-)

diff --git a/src/agentlab/analyze/tapes.py b/src/agentlab/analyze/tapes.py
index 0115f7bb..5c163dda 100644
--- a/src/agentlab/analyze/tapes.py
+++ b/src/agentlab/analyze/tapes.py
@@ -7,6 +7,7 @@
 import numpy as np
 import yaml
 from tapeagents.core import Step, StepMetadata
+from tapeagents.observe import retrieve_all_llm_calls
 from tapeagents.renderers.camera_ready_renderer import CameraReadyRenderer
 from tapeagents.tape_browser import TapeBrowser
 
@@ -88,7 +89,17 @@ def get_steps(self, tape: dict) -> list:
         return tape["steps"]
 
     def load_llm_calls(self):
-        pass
+        sqlite_path = self.exp_path / "tapedata.sqlite"
+        if sqlite_path.exists():
+            try:
+                self.llm_calls = {
+                    call.prompt.id: call for call in retrieve_all_llm_calls(str(sqlite_path))
+                }
+                logger.info(f"Loaded {len(self.llm_calls)} LLM calls from {sqlite_path}")
+            except Exception as e:
+                logger.warning(f"Failed to load LLM calls from {sqlite_path}: {e}")
+        else:
+            logger.warning(f"{sqlite_path} not found")
 
     def get_context(self, tape: Tape) -> list:
         return []
@@ -209,7 +220,8 @@ def load_tapes(self, exp_dir: str) -> list[Tape]:
                     tapes.append(tape)
             except Exception as e:
                 logger.warning(f"Failed to load {json_file}: {e}")
-        logger.info(f"Loaded {len(tapes)} tapes from {exp_dir}")
+        logger.info(f"Loaded {len(tapes)} tapes from {fpath}")
+        self.exp_path = fpath
         return sorted(
             tapes,
             key=lambda x: f"{x.metadata.task.get('Level', '')}{x.metadata.task.get('number', 0):03d}",
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index e705365a..7628841b 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -10,6 +10,7 @@
 import datasets
 import hydra
 import podman
+import tapeagents.config
 from omegaconf import DictConfig
 from pdf2image import convert_from_path
 from pydantic import ConfigDict, Field
@@ -79,16 +80,16 @@ def __init__(
         self.task_seed = task_seed
         self.env_config = env_config
 
-    def make_env(self, exp_dir: str | Path, action_mapping=None) -> GaiaGym:
-        exp_dir = str(exp_dir)
-        logger.info(f"Init gaia env with directory {exp_dir}")
-        os.environ["TAPEAGENTS_SQLITE_DB"] = os.path.join(exp_dir, "tapedata.sqlite")
-        init_code_sandbox(exp_dir)
+    def make_env(self, exp_dir: Path, action_mapping=None) -> GaiaGym:
+        tapeagents.config.DB_DEFAULT_FILENAME = str(exp_dir.parent / "tapedata.sqlite")
+        exp_dir_str = str(exp_dir)
+        logger.info(f"Init gaia env with directory {exp_dir_str}")
+        init_code_sandbox(exp_dir_str)
         for i in range(len(self.env_config.tools)):
             if hasattr(self.env_config.tools[i], "exp_path"):
-                self.env_config.tools[i].exp_path = exp_dir
+                self.env_config.tools[i].exp_path = exp_dir_str
         tools = hydra.utils.instantiate(self.env_config.tools)
-        env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir)
+        env = GaiaGym(tools=tools, task=self.task, exp_dir=exp_dir_str)
         return env
 
 
From 9914dccbd4ae737e266c92df7af4e320e15e122d Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 20:52:05 +0200
Subject: [PATCH 65/71] separate act and react agent configs

---
 .../agents/tapeagent/conf/agent/plan_act.yaml | 94 +++++++++++++++++++
 .../tapeagent/conf/agent/plan_react.yaml      | 10 +-
 .../agents/tapeagent/conf/gaia_l1.yaml        |  2 +-
 .../agents/tapeagent/conf/gaia_val.yaml       |  2 +-
 4 files changed, 105 insertions(+), 3 deletions(-)
 create mode 100644 src/agentlab/agents/tapeagent/conf/agent/plan_act.yaml

diff --git a/src/agentlab/agents/tapeagent/conf/agent/plan_act.yaml b/src/agentlab/agents/tapeagent/conf/agent/plan_act.yaml
new file mode 100644
index 00000000..017128cf
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/conf/agent/plan_act.yaml
@@ -0,0 +1,94 @@
+_target_: tapeagents.agent.Agent
+name : gaia_agent
+max_iterations: 2
+llms:
+  default: ${llm}
+tools_description: |
+  - WebSearch - Performs a search in the web, wikipedia or youtube
+  - VideoReader - Opens video from a youtube URL. Can access the video content, thumbnail, subtitles and audio.
+  - Browser - Browser tool that can load web pages and interact with their content.
+  - CodeExecutor - Executes the python code snippet
+known_actions:
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.web_search.SearchAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.steps.WatchVideoAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.code_executor.PythonCodeAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.ClickAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.GoBackAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.GoForwardAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.browser.OpenUrlAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.simple_browser.PageDownAction
+  - _target_: hydra.utils.get_class
+    path: tapeagents.tools.simple_browser.PageUpAction
+
+templates:
+  system_prompt: |
+    You are an expert AI Agent trained to assist users with complex information processing tasks.
+    Your role is to understand user queries and respond in a helpful and accurate manner.
+    Keep your replies concise and direct. Prioritize clarity and avoid over-elaboration.
+    Do not express emotions or opinions about user questions.
+  allowed_tools: |
+    You have access to the following tools:
+    {tools_description}
+  thought_format: |
+    Important! Respond with the plain text, do not include any JSON or code.
+    Do not output anything besides what I asked in this message.
+  allowed_steps: |
+    You have access to the following tools:
+    {tools_description}
+    You are allowed to produce ONLY steps with the following JSON schemas:
+    {allowed_steps}
+    Do not reproduce the schema when producing steps; use it as a reference.
+  format: >
+    Output only a single JSON dict.
+    Do not repeat the last thought again.
+    If the last action does not change the observation, do not repeat it!
+    DO NOT OUTPUT ANYTHING BESIDES THE JSON! DO NOT PLACE ANY COMMENTS INSIDE THE JSON. 
+    It will break the system that processes the output.
+
+nodes:
+  - _target_: tapeagents.nodes.StandardNode
+    name: plan
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Write a concise multi-step plan explaining which steps should be performed to find the answer for the given task.
+      Remember that you can use web search, browser, python code execution and access the youtube videos to reach your goals.
+      Be specific about how each step should be performed. Only describe the intended actions here, do not perform them yet.
+      Consider that next steps may depend on results of previous steps, so include conditional branching using "if" statements where needed.
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
+
+  - _target_: tapeagents.nodes.StandardNode
+    name: facts_survey
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Before we begin executing the plan, please answer the following pre-survey.
+      Here is the pre-survey:
+          1. Please list any specific facts or figures that are GIVEN in the request itself. It is possible that there are none.
+          2. Please list any facts that may need to be looked up, and WHERE SPECIFICALLY they might be found. In some cases, authoritative sources are mentioned in the request itself.
+          3. Please list any facts that may need to be derived (e.g., via logical deduction, simulation, or computation)
+          4. Please list any facts that are recalled from memory, hunches, well-reasoned guesses, etc.
+      When answering this survey, keep in mind that "facts" will typically be specific names, dates, statistics, etc.
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
+
+  - _target_: tapeagents.nodes.StandardNode
+    name: act
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Produce single next step. If the answer is ready, produce gaia_answer_action.
+      ${agent.templates.format}
+    steps_prompt: ${agent.templates.allowed_steps}
+    steps:
+      - tapeagents.steps.ReasoningThought
+      - agentlab.benchmarks.gaia.ExtractedFacts
+      - agentlab.benchmarks.gaia.GaiaAnswer
+    use_known_actions: true
+    next_node: act
\ No newline at end of file
diff --git a/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml b/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
index 017128cf..0d31c9c4 100644
--- a/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
+++ b/src/agentlab/agents/tapeagent/conf/agent/plan_react.yaml
@@ -79,6 +79,14 @@ nodes:
       ${agent.templates.thought_format}
     steps_prompt: ${agent.templates.allowed_tools}
 
+  - _target_: tapeagents.nodes.StandardNode
+    name: reflect
+    system_prompt: ${agent.templates.system_prompt}
+    guidance: |
+      Relect on last observation, after that propose the single next step.
+      ${agent.templates.thought_format}
+    steps_prompt: ${agent.templates.allowed_tools}
+
   - _target_: tapeagents.nodes.StandardNode
     name: act
     system_prompt: ${agent.templates.system_prompt}
@@ -91,4 +99,4 @@ nodes:
       - agentlab.benchmarks.gaia.ExtractedFacts
       - agentlab.benchmarks.gaia.GaiaAnswer
     use_known_actions: true
-    next_node: act
\ No newline at end of file
+    next_node: reflect
\ No newline at end of file
diff --git a/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml b/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
index 65c48f16..47113c61 100644
--- a/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
+++ b/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
@@ -1,6 +1,6 @@
 defaults:
   - llm: gpt4o_mini
-  - agent: plan_react
+  - agent: plan_act
   - environment: web_code
   - _self_
 
diff --git a/src/agentlab/agents/tapeagent/conf/gaia_val.yaml b/src/agentlab/agents/tapeagent/conf/gaia_val.yaml
index 17f22e7e..c867cecf 100644
--- a/src/agentlab/agents/tapeagent/conf/gaia_val.yaml
+++ b/src/agentlab/agents/tapeagent/conf/gaia_val.yaml
@@ -1,6 +1,6 @@
 defaults:
   - llm: gpt4o_mini
-  - agent: plan_react
+  - agent: plan_act
   - environment: web_code
   - _self_
 

From dbba76061d02fbef0b62ff8469937b1f1c4b78fc Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Tue, 15 Apr 2025 20:52:35 +0200
Subject: [PATCH 66/71] show steps num for tape in the tape selector

---
 src/agentlab/analyze/tapes.py   | 4 ++--
 src/agentlab/benchmarks/gaia.py | 4 ++--
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/src/agentlab/analyze/tapes.py b/src/agentlab/analyze/tapes.py
index 5c163dda..47f59364 100644
--- a/src/agentlab/analyze/tapes.py
+++ b/src/agentlab/analyze/tapes.py
@@ -23,7 +23,7 @@ class WrapperStep(Step):
     content: dict
 
 
-def pretty_yaml(data: dict) -> str:
+def pretty_yaml(data: dict | None) -> str:
     return yaml.dump(data, sort_keys=False, indent=2) if data else ""
 
 
@@ -117,7 +117,7 @@ def get_tape_name(self, i: int, tape: Tape) -> str:
         number = tape.metadata.task.get("number", "")
         n = f"{tape.metadata.task.get('Level', '')}.{number} " if number else ""
         name = tape.steps[0].content["content"][:32] + "..."
-        return f"{n}{mark}{name}"
+        return f"{n}({len(tape.steps)}){mark}{name}"
 
     def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
         acc, n_solved = self.calculate_accuracy(tapes)
diff --git a/src/agentlab/benchmarks/gaia.py b/src/agentlab/benchmarks/gaia.py
index 7628841b..0468e305 100644
--- a/src/agentlab/benchmarks/gaia.py
+++ b/src/agentlab/benchmarks/gaia.py
@@ -145,7 +145,7 @@ def model_post_init(self, __context: Any) -> None:
                 name="2023_all",
                 trust_remote_code=True,
             )  # type: ignore
-        for task in self.dataset[self.split]:
+        for task in self.dataset[self.split]:  # type: ignore
             if self.level != "all" and task["Level"] != self.level:
                 continue
             number += 1
@@ -314,7 +314,7 @@ def question_scorer(
     model_answer: str,
     ground_truth: str,
 ) -> bool:
-    def is_float(element: any) -> bool:
+    def is_float(element: Any) -> bool:
         try:
             float(element)
             return True

From b57a1ab0ecf84d526dd9ac8b6a2e0cf897dc303e Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 17 Apr 2025 11:23:14 +0200
Subject: [PATCH 67/71] treat tapes without stop step as truncated

---
 src/agentlab/agents/tapeagent/agent.py |  5 +-
 src/agentlab/analyze/tapes.py          |  6 +-
 src/agentlab/benchmarks/tau_bench.py   | 82 --------------------------
 3 files changed, 8 insertions(+), 85 deletions(-)
 delete mode 100644 src/agentlab/benchmarks/tau_bench.py

diff --git a/src/agentlab/agents/tapeagent/agent.py b/src/agentlab/agents/tapeagent/agent.py
index 21ea5dd4..eefda1d1 100644
--- a/src/agentlab/agents/tapeagent/agent.py
+++ b/src/agentlab/agents/tapeagent/agent.py
@@ -7,7 +7,7 @@
 from omegaconf import DictConfig
 from pydantic import Field
 from tapeagents.agent import Agent
-from tapeagents.core import Action, Observation, TapeMetadata, Thought
+from tapeagents.core import Action, Observation, StopStep, TapeMetadata, Thought
 from tapeagents.core import Tape as BaseTape
 
 from agentlab.agents.agent_args import AgentArgs
@@ -98,5 +98,6 @@ def get_action(self, obs: Observation | list[Observation]) -> tuple[Action, Tape
 
     @property
     def final_tape(self) -> Tape:
-        self.tape.metadata = ExtendedMetadata(author=self.agent.name)
+        truncated = not any([isinstance(s, StopStep) for s in self.tape.steps])
+        self.tape.metadata = ExtendedMetadata(author=self.agent.name, truncated=truncated)
         return self.tape
diff --git a/src/agentlab/analyze/tapes.py b/src/agentlab/analyze/tapes.py
index 47f59364..3b1ef2bf 100644
--- a/src/agentlab/analyze/tapes.py
+++ b/src/agentlab/analyze/tapes.py
@@ -53,6 +53,10 @@ def render_step(self, step: WrapperStep, index: int, **kwargs):
             content = step_dict.get("code", pretty_yaml(step_dict))
         elif kind == "code_execution_result":
             content = pretty_yaml(step_dict.get("result"))
+        elif len(step_dict) == 1 and "content" in step_dict:
+            content = step_dict["content"]
+        elif len(step_dict) == 1 and "reasoning" in step_dict:
+            content = step_dict["reasoning"]
         else:
             content = pretty_yaml(step_dict)
 
@@ -137,7 +141,7 @@ def get_exp_label(self, filename: str, tapes: list[Tape]) -> str:
         avg_steps = np.mean([len(tape) for tape in tapes])
         std_steps = np.std([len(tape) for tape in tapes])
         for tape in tapes:
-            if not tape.metadata.terminated:
+            if tape.metadata.truncated:
                 no_result += 1
             if tape.metadata.error:
                 errors["fatal"] += 1
diff --git a/src/agentlab/benchmarks/tau_bench.py b/src/agentlab/benchmarks/tau_bench.py
deleted file mode 100644
index 41ad55f1..00000000
--- a/src/agentlab/benchmarks/tau_bench.py
+++ /dev/null
@@ -1,82 +0,0 @@
-from dataclasses import dataclass
-from agentlab.benchmarks.abstract_env import AbstractEnv, AbstractEnvArgs
-import bgym
-
-
-@dataclass
-class TauBenchEnvArgs(AbstractEnvArgs):
-    """All arguments parameterizing a task in tau-bench"""
-
-    task_name: str
-    task_seed: int  # is there any seeds or tasks are deterministic?
-
-    def __init__(self):
-        super().__init__()
-
-    def make_env(self, action_mapping, exp_dir, exp_task_kwargs) -> "AbstractEnv":
-        # TODO look at how bgym does it. You need to register tasks and do gym.make(task_name)
-        pass
-
-
-class TauBenchEnv(AbstractEnv):
-    def __init__(self):
-        super().__init__()
-
-    def reset(self, seed=None):
-        pass
-
-    def step(self, action: str):
-        pass
-
-    def close(self):
-        pass
-
-
-@dataclass
-class TauBenchActionSetArgs:
-    """Holds hyperparameters for the TauBenchActionSet"""
-
-    def make_action_set(self):
-        return TauBenchActionSet()
-
-
-class TauBenchActionSet(bgym.AbstractActionSet):
-    # TODO: Get inspiration from bgym's HighLevelActionSet, perhaps reusing code there, TBD
-
-    def describe(self, with_long_description: bool = True, with_examples: bool = True) -> str:
-        # TODO: Implement this method
-        pass
-
-    def example_action(self, abstract: bool) -> str:
-        # TODO: Implement this method
-
-        pass
-
-    def to_python_code(self, action) -> str:
-        # TODO: Implement this method
-
-        pass
-
-
-def _make_env_args_list():
-    # TODO generate all evn_args for the benchmark, get inspiration from bgym's task_list_from_metadata and make_env_args_list_from_repeat_tasks
-    return [TauBenchEnvArgs()]
-
-
-def _task_metadata():
-    # load a dataframe containing configuration for all tasks
-    pass
-
-
-def make_tau_benchmark():
-    return bgym.Benchmark(
-        name="tau-bench",
-        high_level_action_set_args=TauBenchActionSet(),
-        is_multi_tab=False,
-        supports_parallel_seeds=True,
-        backends=[
-            "taubench"
-        ],  # TODO this is not an implemented backend yet and bgym's make_backed implementation with match case needs to be revised
-        env_args_list=_make_env_args_list(),  # TODO adapt
-        task_metadata=_task_metadata(),  # TODO adapt
-    )

From 63c3dd78a7e9069c972e55cdac80782f25368ed0 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 17 Apr 2025 11:25:14 +0200
Subject: [PATCH 68/71] move gaia runners to tapeagent

---
 .../agentlab/agents/tapeagent/experiments}/run_gaia.py            | 0
 .../agentlab/agents/tapeagent/experiments}/setup_gaia.sh          | 0
 2 files changed, 0 insertions(+), 0 deletions(-)
 rename {scripts => src/agentlab/agents/tapeagent/experiments}/run_gaia.py (100%)
 rename {scripts => src/agentlab/agents/tapeagent/experiments}/setup_gaia.sh (100%)

diff --git a/scripts/run_gaia.py b/src/agentlab/agents/tapeagent/experiments/run_gaia.py
similarity index 100%
rename from scripts/run_gaia.py
rename to src/agentlab/agents/tapeagent/experiments/run_gaia.py
diff --git a/scripts/setup_gaia.sh b/src/agentlab/agents/tapeagent/experiments/setup_gaia.sh
similarity index 100%
rename from scripts/setup_gaia.sh
rename to src/agentlab/agents/tapeagent/experiments/setup_gaia.sh

From 1f75796fc2d61f912f4e303f91a0a537bc6f424c Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 17 Apr 2025 12:18:22 +0200
Subject: [PATCH 69/71] try o4mini

---
 src/agentlab/agents/tapeagent/conf/gaia_l1.yaml    | 2 +-
 src/agentlab/agents/tapeagent/conf/llm/o4mini.yaml | 6 ++++++
 2 files changed, 7 insertions(+), 1 deletion(-)
 create mode 100644 src/agentlab/agents/tapeagent/conf/llm/o4mini.yaml

diff --git a/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml b/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
index 47113c61..bbd2a11d 100644
--- a/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
+++ b/src/agentlab/agents/tapeagent/conf/gaia_l1.yaml
@@ -1,5 +1,5 @@
 defaults:
-  - llm: gpt4o_mini
+  - llm: o4mini
   - agent: plan_act
   - environment: web_code
   - _self_
diff --git a/src/agentlab/agents/tapeagent/conf/llm/o4mini.yaml b/src/agentlab/agents/tapeagent/conf/llm/o4mini.yaml
new file mode 100644
index 00000000..385ce3fc
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/conf/llm/o4mini.yaml
@@ -0,0 +1,6 @@
+_target_: tapeagents.llms.LiteLLM
+model_name: o4-mini-2025-04-16
+use_cache: true
+context_size: 128000
+parameters:
+  temperature: 1.0
\ No newline at end of file

From 017c203e8d73eb8649cd928a1a173b419e532144 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Thu, 17 Apr 2025 12:23:27 +0200
Subject: [PATCH 70/71] fix test

---
 tests/agents/test_gaia_agent.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/agents/test_gaia_agent.py b/tests/agents/test_gaia_agent.py
index 5c0f970e..0d39f9ef 100644
--- a/tests/agents/test_gaia_agent.py
+++ b/tests/agents/test_gaia_agent.py
@@ -1,5 +1,6 @@
 import os
 import uuid
+from pathlib import Path
 
 from tapeagents.steps import ImageObservation
 
@@ -80,14 +81,14 @@ def test_gaia_gym_reset():
     config = load_config("gaia_val")
     bench = GaiaBenchmark.from_config(config, dataset=mock_dataset())
     args = bench.env_args_list[5]
-    env = args.make_env(exp_dir)
+    env = args.make_env(Path(exp_dir))
     steps, _ = env.reset()
     assert len(steps) == 1
     assert isinstance(steps[0], GaiaQuestion)
     assert steps[0].content.startswith(args.task["Question"])
 
     args = bench.env_args_list[20]
-    env = args.make_env(exp_dir)
+    env = args.make_env(Path(exp_dir))
     steps, _ = env.reset()
     assert len(steps) == 2
     assert isinstance(steps[0], GaiaQuestion)

From 58c69c4ebec497ad59fe7f6b40469594dd742d10 Mon Sep 17 00:00:00 2001
From: Oleh Shliazhko <oleh.shliazhko@servicenow.com>
Date: Fri, 18 Apr 2025 13:25:21 +0200
Subject: [PATCH 71/71] clean up loop.py

---
 src/agentlab/agents/tapeagent/__init__.py |  65 ++++
 src/agentlab/experiments/loop.py          | 425 ++++++++++------------
 2 files changed, 258 insertions(+), 232 deletions(-)
 create mode 100644 src/agentlab/agents/tapeagent/__init__.py

diff --git a/src/agentlab/agents/tapeagent/__init__.py b/src/agentlab/agents/tapeagent/__init__.py
new file mode 100644
index 00000000..6c4130d4
--- /dev/null
+++ b/src/agentlab/agents/tapeagent/__init__.py
@@ -0,0 +1,65 @@
+import json
+from dataclasses import asdict, is_dataclass
+
+import numpy as np
+from tapeagents.core import Step, StepMetadata
+from tapeagents.dialog_tape import AssistantStep, AssistantThought
+from tapeagents.io import save_json_tape, save_tape_images
+
+from agentlab.agents.tapeagent.agent import DictObservation, Tape, TapeAgent
+
+__all__ = ["as_tape", "save_tape", "TapeAgent", "Tape"]
+
+
+def as_tape(steps_info: list) -> Tape:
+    """
+    Create a Tape object from the steps info.
+
+    Args:
+        steps_info: list of StepInfo objects.
+
+    Returns:
+        Tape: a Tape object containing the steps and metadata.
+    """
+
+    class JsonEncoder(json.JSONEncoder):
+        def default(self, obj):
+            if is_dataclass(obj):
+                return asdict(obj)  # type: ignore
+            if isinstance(obj, np.integer):
+                return int(obj)
+            if isinstance(obj, np.floating):
+                return float(obj)
+            if isinstance(obj, np.ndarray):
+                return obj.tolist()
+            return super().default(obj)
+
+    steps: list[Step] = []
+    for step_info in steps_info:
+        if step_info.obs is not None:
+            json_obs = json.dumps(step_info.obs, cls=JsonEncoder)
+            steps.append(DictObservation(content=json_obs))
+        if thought := step_info.agent_info.get("think"):
+            steps.append(AssistantThought(content=thought))
+        if step_info.action is not None:
+            step_metadata = StepMetadata(
+                other=dict(
+                    reward=step_info.reward,
+                    raw_reward=step_info.raw_reward,
+                    terminated=step_info.terminated,
+                    truncated=step_info.truncated,
+                    agent_info=step_info.agent_info,
+                    stats=step_info.stats,
+                )
+            )
+            steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
+    return Tape(steps=steps)
+
+
+def save_tape(exp_dir: str, episode_info: list, task: dict, tape: Tape):
+    tape.metadata.reward = sum([step.reward for step in episode_info])
+    tape.metadata.truncated = episode_info[-1].truncated
+    tape.metadata.terminated = episode_info[-1].terminated
+    tape.metadata.task = task
+    save_json_tape(tape, exp_dir, "tape.json")
+    save_tape_images(tape, f"{exp_dir}/tape_attachments")
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
index 0e0ad517..5a9580ca 100644
--- a/src/agentlab/experiments/loop.py
+++ b/src/agentlab/experiments/loop.py
@@ -23,12 +23,9 @@
 from browsergym.experiments.utils import count_messages_token, count_tokens
 from dataclasses_json import DataClassJsonMixin
 from PIL import Image
-from tapeagents.core import Step, StepMetadata
-from tapeagents.dialog_tape import AssistantStep, AssistantThought
-from tapeagents.io import save_json_tape, save_tape_images
 from tqdm import tqdm
 
-from agentlab.agents.tapeagent.agent import DictObservation, Tape, TapeAgent
+from agentlab.agents.tapeagent import TapeAgent, save_tape
 
 logger = logging.getLogger(__name__)
 
@@ -96,7 +93,7 @@ def make_env(self, action_mapping, exp_dir, exp_task_kwargs: dict = {}):
 class AbstractAgentArgs(ABC):
     """A template class that defines the required signature of an agent's arguments."""
 
-    agent_name: str = None
+    agent_name: str = None  # type: ignore
 
     def __post_init__(self):
         if self.agent_name is None:
@@ -128,6 +125,165 @@ def save_package_versions(exp_dir: Path):
     (exp_dir / "package_versions.txt").write_text(python_dists)
 
 
+@dataclass
+class StepTimestamps:
+    env_start: float = 0
+    action_exec_start: float = 0  # to extract begining of visual action from video
+    action_exec_stop: float = 0  # to extract end of visual action from video
+    action_exect_after_timeout: float = 0
+    env_stop: float = 0
+    agent_start: float = 0
+    agent_stop: float = 0
+
+
+@dataclass
+class StepInfo:
+    """Collects information about step that will be saved and reloaded.
+    Helper functions only modify the dataclass attributes and helps keeping the
+    information organized.
+
+    Attributes:
+    -----------
+    step: int
+        The step number of the episode.
+    obs: dict
+        The observation of the environment.
+    reward: float
+        The reward of the step.
+    raw_reward: float
+        The raw reward of the step.
+    terminated: bool
+        Whether the episode is terminated i.e. reached a terminal state.
+    truncated: bool
+        Whether the episode is truncated i.e. reached a maximum number of steps.
+    action: str
+        The action taken by the agent.
+    agent_info: dict
+        Additional information from the agent.
+    stats: dict
+        Extra statistics about the step.
+    profiling: StepTimestamps
+        Timestamps of the different events during the episode.
+    """
+
+    step: int = None
+    obs: dict = None
+    reward: float = 0
+    raw_reward: float = 0
+    terminated: bool = None
+    truncated: bool = None
+    action: str = None
+    agent_info: dict = field(default_factory=dict)
+    stats: dict = None
+    profiling: StepTimestamps = field(default_factory=StepTimestamps)
+    task_info: dict = None
+
+    def from_step(self, env: gym.Env, action: str, obs_preprocessor: callable):
+        t = self.profiling
+        t.env_start = time.time()
+        self.obs, self.reward, self.terminated, self.truncated, env_info = env.step(action)
+        t.env_stop = time.time()
+
+        self.task_info = env_info.get("task_info", None)
+
+        self.raw_reward = env_info.get("RAW_REWARD_GLOBAL", None)
+
+        t.action_exec_start = env_info["action_exec_start"]  # start
+        t.action_exect_after_timeout = env_info["action_exec_stop"]
+        t.action_exec_stop = env_info["action_exec_stop"] - env_info["action_exec_timeout"]
+
+        if obs_preprocessor:
+            self.obs = obs_preprocessor(self.obs)
+
+    def from_action(self, agent: Agent):
+        self.profiling.agent_start = time.time()
+        self.action, self.agent_info = agent.get_action(self.obs.copy())
+        self.profiling.agent_stop = time.time()
+
+        self.make_stats()
+
+        return self.action
+
+    def from_reset(self, env: gym.Env, seed: int, obs_preprocessor: callable):
+        t = self.profiling
+        t.env_start = time.time()
+        self.obs, env_info = env.reset(seed=seed)
+        self.reward, self.terminated, self.truncated = 0, False, False
+        t.env_stop = time.time()
+
+        t.action_exec_start = env_info.get("recording_start_time", t.env_start)
+        t.action_exect_after_timeout = t.env_stop
+        t.action_exec_stop = t.env_stop
+
+        if obs_preprocessor:
+            self.obs = obs_preprocessor(self.obs)
+
+    @property
+    def is_done(self):
+        return self.terminated or self.truncated
+
+    def make_stats(self):
+        if isinstance(self.obs, dict):
+            stats = {
+                f"n_token_{key}": count_tokens(val)
+                for key, val in self.obs.items()
+                if isinstance(val, str)
+            }
+        else:
+            stats = {}
+        stats.update(self.agent_info.pop("stats", {}))
+
+        messages = self.agent_info.get("chat_messages", None)
+        if messages is not None:
+            stats["n_token_agent_messages"] = count_messages_token(messages)
+
+        t = self.profiling
+        stats["step_elapsed"] = t.env_stop - t.env_start
+        stats["agent_elapsed"] = t.agent_stop - t.agent_start
+
+        self.stats = stats
+
+    def save_step_info(self, exp_dir, save_json=False, save_screenshot=True, save_som=False):
+        # special treatment for some of the observation fields
+        if isinstance(self.obs, dict):
+            # save screenshots to separate files
+            screenshot = self.obs.pop("screenshot", None)
+            screenshot_som = self.obs.pop("screenshot_som", None)
+
+            if save_screenshot and screenshot is not None:
+                img = Image.fromarray(screenshot)
+                img.save(exp_dir / f"screenshot_step_{self.step}.png")
+
+            if save_som and screenshot_som is not None:
+                img = Image.fromarray(screenshot_som)
+                img.save(exp_dir / f"screenshot_som_step_{self.step}.png")
+
+            # save goal object (which might contain images) to a separate file to save space
+            if self.obs.get("goal_object", False):
+                # save the goal object only once (goal should never change once setup)
+                goal_object_file = Path(exp_dir) / "goal_object.pkl.gz"
+                if not goal_object_file.exists():
+                    with gzip.open(goal_object_file, "wb") as f:
+                        pickle.dump(self.obs["goal_object"], f)
+                # set goal_object to a special placeholder value, which indicates it should be loaded from a separate file
+                self.obs["goal_object"] = None
+
+        with gzip.open(exp_dir / f"step_{self.step}.pkl.gz", "wb") as f:
+            pickle.dump(self, f)
+
+        if save_json:
+            with open(exp_dir / "steps_info.json", "w") as f:
+                json.dump(self, f, indent=4, cls=DataclassJSONEncoder)
+
+        if isinstance(self.obs, dict):
+            # add the screenshots back to the obs
+            # why do we need this?
+            if screenshot is not None:
+                self.obs["screenshot"] = screenshot
+            if screenshot_som is not None:
+                self.obs["screenshot_som"] = screenshot_som
+
+
 @dataclass
 class ExpArgs:
     """Arguments to run an experiment, i.e. run agent in an environment until done.
@@ -313,7 +469,7 @@ def run(self):
                     e = KeyboardInterrupt("Early termination??")
                     err_msg = f"Exception uncaught by agent or environment in task {self.env_args.task_name}.\n{type(e).__name__}:\n{e}"
                 logger.info("Saving experiment info.")
-                _save_summary_info(episode_info, self.exp_dir, err_msg, stack_trace)
+                self.save_summary_info(episode_info, Path(self.exp_dir), err_msg, stack_trace)
                 if isinstance(agent, TapeAgent):
                     task = getattr(env, "task", {})
                     save_tape(self.exp_dir, episode_info, task, agent.final_tape)
@@ -362,164 +518,40 @@ def _unset_logger(self):
         root_logger = logging.getLogger()
         root_logger.removeHandler(self.logging_file_handler)
 
-
-@dataclass
-class StepTimestamps:
-    env_start: float = 0
-    action_exec_start: float = 0  # to extract begining of visual action from video
-    action_exec_stop: float = 0  # to extract end of visual action from video
-    action_exect_after_timeout: float = 0
-    env_stop: float = 0
-    agent_start: float = 0
-    agent_stop: float = 0
-
-
-@dataclass
-class StepInfo:
-    """Collects information about step that will be saved and reloaded.
-    Helper functions only modify the dataclass attributes and helps keeping the
-    information organized.
-
-    Attributes:
-    -----------
-    step: int
-        The step number of the episode.
-    obs: dict
-        The observation of the environment.
-    reward: float
-        The reward of the step.
-    raw_reward: float
-        The raw reward of the step.
-    terminated: bool
-        Whether the episode is terminated i.e. reached a terminal state.
-    truncated: bool
-        Whether the episode is truncated i.e. reached a maximum number of steps.
-    action: str
-        The action taken by the agent.
-    agent_info: dict
-        Additional information from the agent.
-    stats: dict
-        Extra statistics about the step.
-    profiling: StepTimestamps
-        Timestamps of the different events during the episode.
-    """
-
-    step: int = None
-    obs: dict = None
-    reward: float = 0
-    raw_reward: float = 0
-    terminated: bool = None
-    truncated: bool = None
-    action: str = None
-    agent_info: dict = field(default_factory=dict)
-    stats: dict = None
-    profiling: StepTimestamps = field(default_factory=StepTimestamps)
-    task_info: dict = None
-
-    def from_step(self, env: gym.Env, action: str, obs_preprocessor: callable):
-        t = self.profiling
-        t.env_start = time.time()
-        self.obs, self.reward, self.terminated, self.truncated, env_info = env.step(action)
-        t.env_stop = time.time()
-
-        self.task_info = env_info.get("task_info", None)
-
-        self.raw_reward = env_info.get("RAW_REWARD_GLOBAL", None)
-
-        t.action_exec_start = env_info["action_exec_start"]  # start
-        t.action_exect_after_timeout = env_info["action_exec_stop"]
-        t.action_exec_stop = env_info["action_exec_stop"] - env_info["action_exec_timeout"]
-
-        if obs_preprocessor:
-            self.obs = obs_preprocessor(self.obs)
-
-    def from_action(self, agent: Agent):
-        self.profiling.agent_start = time.time()
-        self.action, self.agent_info = agent.get_action(self.obs.copy())
-        self.profiling.agent_stop = time.time()
-
-        self.make_stats()
-
-        return self.action
-
-    def from_reset(self, env: gym.Env, seed: int, obs_preprocessor: callable):
-        t = self.profiling
-        t.env_start = time.time()
-        self.obs, env_info = env.reset(seed=seed)
-        self.reward, self.terminated, self.truncated = 0, False, False
-        t.env_stop = time.time()
-
-        t.action_exec_start = env_info.get("recording_start_time", t.env_start)
-        t.action_exect_after_timeout = t.env_stop
-        t.action_exec_stop = t.env_stop
-
-        if obs_preprocessor:
-            self.obs = obs_preprocessor(self.obs)
-
-    @property
-    def is_done(self):
-        return self.terminated or self.truncated
-
-    def make_stats(self):
-        if isinstance(self.obs, dict):
-            stats = {
-                f"n_token_{key}": count_tokens(val)
-                for key, val in self.obs.items()
-                if isinstance(val, str)
-            }
+    def save_summary_info(
+        self,
+        episode_info: list[StepInfo],
+        exp_dir: Path,
+        err_msg: str | None,
+        stack_trace: str | None,
+    ):
+        # bring err from agent_info to the top level
+        if err_msg is None:
+            err_msg, stack_trace = _extract_err_msg(episode_info)
         else:
-            stats = {}
-        stats.update(self.agent_info.pop("stats", {}))
-
-        messages = self.agent_info.get("chat_messages", None)
-        if messages is not None:
-            stats["n_token_agent_messages"] = count_messages_token(messages)
-
-        t = self.profiling
-        stats["step_elapsed"] = t.env_stop - t.env_start
-        stats["agent_elapsed"] = t.agent_stop - t.agent_start
-
-        self.stats = stats
-
-    def save_step_info(self, exp_dir, save_json=False, save_screenshot=True, save_som=False):
-        # special treatment for some of the observation fields
-        if isinstance(self.obs, dict):
-            # save screenshots to separate files
-            screenshot = self.obs.pop("screenshot", None)
-            screenshot_som = self.obs.pop("screenshot_som", None)
-
-            if save_screenshot and screenshot is not None:
-                img = Image.fromarray(screenshot)
-                img.save(exp_dir / f"screenshot_step_{self.step}.png")
-
-            if save_som and screenshot_som is not None:
-                img = Image.fromarray(screenshot_som)
-                img.save(exp_dir / f"screenshot_som_step_{self.step}.png")
+            # useful until we get a proper place in agent_xray to view error
+            # messages.
+            if len(episode_info) == 0:
+                episode_info.append(StepInfo())
+            episode_info[-1].agent_info["err_msg"] = err_msg
+            episode_info[-1].agent_info["stack_trace"] = stack_trace
+
+        summary_info = dict(
+            n_steps=len(episode_info) - 1,
+            cum_reward=sum([step.reward for step in episode_info]),
+            cum_raw_reward=sum([step.raw_reward for step in episode_info if step.raw_reward]),
+            err_msg=err_msg,
+            stack_trace=stack_trace,
+        )
+        for key, val in _aggregate_episode_stats(episode_info).items():
+            summary_info[f"stats.{key}"] = val
 
-            # save goal object (which might contain images) to a separate file to save space
-            if self.obs.get("goal_object", False):
-                # save the goal object only once (goal should never change once setup)
-                goal_object_file = Path(exp_dir) / "goal_object.pkl.gz"
-                if not goal_object_file.exists():
-                    with gzip.open(goal_object_file, "wb") as f:
-                        pickle.dump(self.obs["goal_object"], f)
-                # set goal_object to a special placeholder value, which indicates it should be loaded from a separate file
-                self.obs["goal_object"] = None
+        if len(episode_info) > 0:
+            summary_info["terminated"] = episode_info[-1].terminated
+            summary_info["truncated"] = episode_info[-1].truncated
 
-        with gzip.open(exp_dir / f"step_{self.step}.pkl.gz", "wb") as f:
-            pickle.dump(self, f)
-
-        if save_json:
-            with open(exp_dir / "steps_info.json", "w") as f:
-                json.dump(self, f, indent=4, cls=DataclassJSONEncoder)
-
-        if isinstance(self.obs, dict):
-            # add the screenshots back to the obs
-            # why do we need this?
-            if screenshot is not None:
-                self.obs["screenshot"] = screenshot
-            if screenshot_som is not None:
-                self.obs["screenshot_som"] = screenshot_som
+        with open(exp_dir / "summary_info.json", "w") as f:
+            json.dump(summary_info, f, indent=4)
 
 
 def _extract_err_msg(episode_info: list[StepInfo]):
@@ -572,36 +604,6 @@ def _aggregate_episode_stats(episode_info: list[StepInfo]):
     return aggregated_stats
 
 
-def _save_summary_info(episode_info: list[StepInfo], exp_dir, err_msg, stack_trace):
-    # bring err from agent_info to the top level
-    if err_msg is None:
-        err_msg, stack_trace = _extract_err_msg(episode_info)
-    else:
-        # useful until we get a proper place in agent_xray to view error
-        # messages.
-        if len(episode_info) == 0:
-            episode_info.append(StepInfo())
-        episode_info[-1].agent_info["err_msg"] = err_msg
-        episode_info[-1].agent_info["stack_trace"] = stack_trace
-
-    summary_info = dict(
-        n_steps=len(episode_info) - 1,
-        cum_reward=sum([step.reward for step in episode_info]),
-        cum_raw_reward=sum([step.raw_reward for step in episode_info if step.raw_reward]),
-        err_msg=err_msg,
-        stack_trace=stack_trace,
-    )
-    for key, val in _aggregate_episode_stats(episode_info).items():
-        summary_info[f"stats.{key}"] = val
-
-    if len(episode_info) > 0:
-        summary_info["terminated"] = episode_info[-1].terminated
-        summary_info["truncated"] = episode_info[-1].truncated
-
-    with open(exp_dir / "summary_info.json", "w") as f:
-        json.dump(summary_info, f, indent=4)
-
-
 def _is_debugging():
     """Tells you if your code is currently running in debug mode."""
     return sys.gettrace() is not None
@@ -918,44 +920,3 @@ def _flatten_dict(d, parent_key="", sep="."):
         else:
             items.append((new_key, v))
     return dict(items)
-
-
-def as_tape(steps_info: list[StepInfo]) -> Tape:
-    """
-    Create a Tape object from the steps info.
-
-    Args:
-        steps_info: list of StepInfo objects.
-
-    Returns:
-        Tape: a Tape object containing the steps and metadata.
-    """
-    steps: list[Step] = []
-    for step_info in steps_info:
-        if step_info.obs is not None:
-            json_obs = json.dumps(step_info.obs, cls=DataclassJSONEncoder)
-            steps.append(DictObservation(content=json_obs))
-        if thought := step_info.agent_info.get("think"):
-            steps.append(AssistantThought(content=thought))
-        if step_info.action is not None:
-            step_metadata = StepMetadata(
-                other=dict(
-                    reward=step_info.reward,
-                    raw_reward=step_info.raw_reward,
-                    terminated=step_info.terminated,
-                    truncated=step_info.truncated,
-                    agent_info=step_info.agent_info,
-                    stats=step_info.stats,
-                )
-            )
-            steps.append(AssistantStep(content=step_info.action, metadata=step_metadata))
-    return Tape(steps=steps)
-
-
-def save_tape(exp_dir: str, episode_info: list[StepInfo], task: dict, tape: Tape):
-    tape.metadata.reward = sum([step.reward for step in episode_info])
-    tape.metadata.truncated = episode_info[-1].truncated
-    tape.metadata.terminated = episode_info[-1].terminated
-    tape.metadata.task = task
-    save_json_tape(tape, exp_dir, "tape.json")
-    save_tape_images(tape, exp_dir / "tape_attachments")