From 855dd484361eb1c03cbc615203e0cccf0987d631 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Sat, 11 Oct 2025 11:07:38 -0700
Subject: [PATCH 01/15] refactor(agent): migrate client agent API to
 responses+conversations
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- replace legacy `client.alpha.agents.*` paths in both sync and async agent
  implementations with the `/v1/responses` + `/v1/conversations` flow
- treat each `Agent.create_session()` as a lazily created conversation, caching
  the returned `conv_…` ID for later turns
- stream turns via `client.responses.create(..., stream=True)` and translate
  OpenAI `ResponseObjectStream` events into the agent event surface introduced
  in `lib/agents/stream_events.py`
- run client and builtin tool calls by emitting follow-up responses with
  `previous_response_id`, mirroring the old turn-resume semantics
- remove the legacy `AgentTurnResponseStreamChunk` dependency, introduce a
  lightweight `AgentStreamChunk`, and keep tool outputs inside `lib/` only
- clean up aux imports, drop the unused `__future__` pragmas, and ensure the
  entire module passes `ruff check`

This refactor keeps the public `Agent` API (create_session/create_turn) intact
while aligning the implementation with stable responses/conversations APIs, so
users can interoperate with standard OpenAI-compatible clients going forward.
---
 src/llama_stack_client/__init__.py            |   2 +-
 src/llama_stack_client/lib/agents/agent.py    | 433 +++++++++---------
 .../lib/agents/stream_events.py               | 193 ++++++++
 3 files changed, 422 insertions(+), 206 deletions(-)
 create mode 100644 src/llama_stack_client/lib/agents/stream_events.py

diff --git a/src/llama_stack_client/__init__.py b/src/llama_stack_client/__init__.py
index cc2fcb9b..c910dfe5 100644
--- a/src/llama_stack_client/__init__.py
+++ b/src/llama_stack_client/__init__.py
@@ -41,8 +41,8 @@
 from .lib.agents.agent import Agent
 from .lib.agents.event_logger import EventLogger as AgentEventLogger
 from .lib.inference.event_logger import EventLogger as InferenceEventLogger
-from .types.alpha.agents.turn_create_params import Document
 from .types.shared_params.document import Document as RAGDocument
+from .types.alpha.agents.turn_create_params import Document
 
 __all__ = [
     "types",
diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index 5e00a88b..3cecd750 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -4,31 +4,48 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 import logging
-from typing import Any, AsyncIterator, Callable, Iterator, List, Optional, Tuple, Union
+from dataclasses import dataclass
+from typing import Any, AsyncIterator, Callable, Dict, Iterator, List, Optional, Tuple, Union, TypedDict
 
 from llama_stack_client import LlamaStackClient
-from llama_stack_client.types import ToolResponseMessage, UserMessage
-from llama_stack_client.types.alpha import ToolResponseParam
-from llama_stack_client.types.alpha.agent_create_params import AgentConfig
-from llama_stack_client.types.alpha.agents.agent_turn_response_stream_chunk import (
-    AgentTurnResponseStreamChunk,
-)
-from llama_stack_client.types.alpha.agents.turn import CompletionMessage, Turn
-from llama_stack_client.types.alpha.agents.turn_create_params import Document, Toolgroup
+from llama_stack_client.types import AgentConfig, ResponseObject
+from llama_stack_client.types.responses import response_create_params
 from llama_stack_client.types.shared.tool_call import ToolCall
-from llama_stack_client.types.shared_params.agent_config import ToolConfig
-from llama_stack_client.types.shared_params.response_format import ResponseFormat
-from llama_stack_client.types.shared_params.sampling_params import SamplingParams
+from llama_stack_client.types.shared.agent_config import ToolConfig, Toolgroup
+from llama_stack_client.types.shared_params.document import Document
+from llama_stack_client.types.shared.completion_message import CompletionMessage
+from llama_stack_client.types.shared.response_format import ResponseFormat
+from llama_stack_client.types.shared.sampling_params import SamplingParams
 
 from ..._types import Headers
 from .client_tool import ClientTool, client_tool
 from .tool_parser import ToolParser
+from .stream_events import (
+    AgentResponseCompleted,
+    AgentResponseFailed,
+    AgentStreamEvent,
+    AgentToolCallIssued,
+    iter_agent_events,
+)
 
 DEFAULT_MAX_ITER = 10
 
+
+class ToolResponsePayload(TypedDict):
+    call_id: str
+    tool_name: str
+    content: Any
+
+
 logger = logging.getLogger(__name__)
 
 
+@dataclass
+class AgentStreamChunk:
+    event: AgentStreamEvent
+    response: Optional[ResponseObject]
+
+
 class AgentUtils:
     @staticmethod
     def get_client_tools(
@@ -42,31 +59,30 @@ def get_client_tools(
         return [tool for tool in tools if isinstance(tool, ClientTool)]
 
     @staticmethod
-    def get_tool_calls(chunk: AgentTurnResponseStreamChunk, tool_parser: Optional[ToolParser] = None) -> List[ToolCall]:
-        if chunk.event.payload.event_type not in {
-            "turn_complete",
-            "turn_awaiting_input",
-        }:
+    def get_tool_calls(chunk: AgentStreamChunk, tool_parser: Optional[ToolParser] = None) -> List[ToolCall]:
+        if not isinstance(chunk.event, AgentToolCallIssued):
             return []
 
-        message = chunk.event.payload.turn.output_message
-        if message.stop_reason == "out_of_tokens":
-            return []
+        tool_call = ToolCall(
+            call_id=chunk.event.call_id,
+            tool_name=chunk.event.name,
+            arguments=chunk.event.arguments_json,
+        )
 
         if tool_parser:
-            return tool_parser.get_tool_calls(message)
+            completion = CompletionMessage(
+                role="assistant",
+                content="",
+                tool_calls=[tool_call],
+                stop_reason="end_of_turn",
+            )
+            return tool_parser.get_tool_calls(completion)
 
-        return message.tool_calls
+        return [tool_call]
 
     @staticmethod
-    def get_turn_id(chunk: AgentTurnResponseStreamChunk) -> Optional[str]:
-        if chunk.event.payload.event_type not in [
-            "turn_complete",
-            "turn_awaiting_input",
-        ]:
-            return None
-
-        return chunk.event.payload.turn.turn_id
+    def get_turn_id(chunk: AgentStreamChunk) -> Optional[str]:
+        return chunk.response.turn.turn_id if chunk.response else None
 
     @staticmethod
     def get_agent_config(
@@ -197,40 +213,40 @@ def __init__(
 
         self.agent_config = agent_config
         self.client_tools = {t.get_name(): t for t in client_tools}
-        self.sessions = []
+        self.sessions: List[str] = []
         self.tool_parser = tool_parser
         self.builtin_tools = {}
         self.extra_headers = extra_headers
-        self.initialize()
+        self._conversation_id: Optional[str] = None
+        self._last_response_id: Optional[str] = None
+        self._model = self.agent_config.model
+        self._instructions = self.agent_config.instructions
 
     def initialize(self) -> None:
-        agentic_system_create_response = self.client.alpha.agents.create(
-            agent_config=self.agent_config,
-            extra_headers=self.extra_headers,
-        )
-        self.agent_id = agentic_system_create_response.agent_id
-        for tg in self.agent_config["toolgroups"]:
-            toolgroup_id = tg if isinstance(tg, str) else tg.get("name")
-            for tool in self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers):
-                self.builtin_tools[tool.name] = tg.get("args", {}) if isinstance(tg, dict) else {}
+        # Ensure builtin tools cache is ready
+        if not self.builtin_tools and self.agent_config.toolgroups:
+            for tg in self.agent_config.toolgroups:
+                toolgroup_id = tg if isinstance(tg, str) else tg.name
+                args = {} if isinstance(tg, str) else tg.args
+                for tool in self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers):
+                    self.builtin_tools[tool.name] = args
 
     def create_session(self, session_name: str) -> str:
-        agentic_system_create_session_response = self.client.alpha.agents.session.create(
-            agent_id=self.agent_id,
-            session_name=session_name,
+        conversation = self.client.conversations.create(
             extra_headers=self.extra_headers,
+            metadata={"name": session_name},
         )
-        self.session_id = agentic_system_create_session_response.session_id
-        self.sessions.append(self.session_id)
-        return self.session_id
+        self._conversation_id = conversation.id
+        self.sessions.append(conversation.id)
+        return conversation.id
 
-    def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponseParam]:
+    def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponsePayload]:
         responses = []
         for tool_call in tool_calls:
             responses.append(self._run_single_tool(tool_call))
         return responses
 
-    def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
+    def _run_single_tool(self, tool_call: ToolCall) -> ToolResponsePayload:
         # custom client tools
         if tool_call.tool_name in self.client_tools:
             tool = self.client_tools[tool_call.tool_name]
@@ -240,7 +256,7 @@ def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
                 [
                     CompletionMessage(
                         role="assistant",
-                        content=tool_call.tool_name,
+                        content=tool_call.arguments,
                         tool_calls=[tool_call],
                         stop_reason="end_of_turn",
                     )
@@ -258,14 +274,14 @@ def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
                 },
                 extra_headers=self.extra_headers,
             )
-            return ToolResponseParam(
+            return ToolResponsePayload(
                 call_id=tool_call.call_id,
                 tool_name=tool_call.tool_name,
                 content=tool_result.content,
             )
 
         # cannot find tools
-        return ToolResponseParam(
+        return ToolResponsePayload(
             call_id=tool_call.call_id,
             tool_name=tool_call.tool_name,
             content=f"Unknown tool `{tool_call.tool_name}` was called.",
@@ -273,107 +289,105 @@ def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
 
     def create_turn(
         self,
-        messages: List[Union[UserMessage, ToolResponseMessage]],
+        messages: List[response_create_params.InputUnionMember1],
         session_id: Optional[str] = None,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
         stream: bool = True,
         # TODO: deprecate this
         extra_headers: Headers | None = None,
-    ) -> Iterator[AgentTurnResponseStreamChunk] | Turn:
+    ) -> Iterator[AgentStreamChunk] | ResponseObject:
         if stream:
             return self._create_turn_streaming(
                 messages, session_id, toolgroups, documents, extra_headers=extra_headers or self.extra_headers
             )
         else:
-            chunks = [
-                x
-                for x in self._create_turn_streaming(
-                    messages,
-                    session_id,
-                    toolgroups,
-                    documents,
-                    extra_headers=extra_headers or self.extra_headers,
-                )
-            ]
-            if not chunks:
+            _ = toolgroups
+            _ = documents
+            last_chunk: Optional[AgentStreamChunk] = None
+            for chunk in self._create_turn_streaming(
+                messages,
+                session_id,
+                toolgroups,
+                documents,
+                extra_headers=extra_headers or self.extra_headers,
+            ):
+                last_chunk = chunk
+
+            if not last_chunk or not last_chunk.response:
                 raise Exception("Turn did not complete")
 
-            last_chunk = chunks[-1]
-            if hasattr(last_chunk, "error"):
-                if "message" in last_chunk.error:
-                    error_msg = last_chunk.error["message"]
-                else:
-                    error_msg = str(last_chunk.error)
-                raise RuntimeError(f"Turn did not complete. Error: {error_msg}")
-            try:
-                return last_chunk.event.payload.turn
-            except AttributeError:
-                raise RuntimeError(f"Turn did not complete. Output: {last_chunk}") from None
+            return last_chunk.response
 
     def _create_turn_streaming(
         self,
-        messages: List[Union[UserMessage, ToolResponseMessage]],
+        messages: List[response_create_params.InputUnionMember1],
         session_id: Optional[str] = None,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
         # TODO: deprecate this
         extra_headers: Headers | None = None,
-    ) -> Iterator[AgentTurnResponseStreamChunk]:
-        n_iter = 0
-
-        # 1. create an agent turn
-        turn_response = self.client.alpha.agents.turn.create(
-            agent_id=self.agent_id,
-            # use specified session_id or last session created
-            session_id=session_id or self.session_id[-1],
-            messages=messages,
+    ) -> Iterator[AgentStreamChunk]:
+        _ = toolgroups
+        _ = documents
+        conversation_id = session_id or self._conversation_id
+        if not conversation_id:
+            conversation_id = self.create_session(session_name="default")
+
+        stream = self.client.responses.create(
+            model=self._model,
+            instructions=self._instructions,
+            conversation=conversation_id,
+            input=messages,
             stream=True,
-            documents=documents,
-            toolgroups=toolgroups,
+            previous_response_id=self._last_response_id,
             extra_headers=extra_headers or self.extra_headers,
         )
 
-        # 2. process turn and resume if there's a tool call
-        is_turn_complete = False
-        while not is_turn_complete:
-            is_turn_complete = True
-            for chunk in turn_response:
-                if hasattr(chunk, "error"):
-                    yield chunk
-                    return
-                tool_calls = AgentUtils.get_tool_calls(chunk, self.tool_parser)
-                if not tool_calls:
-                    yield chunk
-                else:
-                    is_turn_complete = False
-                    # End of turn is reached, do not resume even if there's a tool call
-                    # We only check for this if tool_parser is not set, because otherwise
-                    # tool call will be parsed on client side, and server will always return "end_of_turn"
-                    if not self.tool_parser and chunk.event.payload.turn.output_message.stop_reason in {"end_of_turn"}:
-                        yield chunk
-                        break
-
-                    turn_id = AgentUtils.get_turn_id(chunk)
-                    if n_iter == 0:
-                        yield chunk
-
-                    # run the tools
-                    tool_responses = self._run_tool_calls(tool_calls)
-
-                    # pass it to next iteration
-                    turn_response = self.client.alpha.agents.turn.resume(
-                        agent_id=self.agent_id,
-                        session_id=session_id or self.session_id[-1],
-                        turn_id=turn_id,
-                        tool_responses=tool_responses,
-                        stream=True,
-                        extra_headers=extra_headers or self.extra_headers,
+        last_response: Optional[ResponseObject] = None
+        pending_tools: Dict[str, ToolCall] = {}
+
+        for event in iter_agent_events(stream):
+            if isinstance(event, AgentResponseCompleted):
+                last_response = self.client.responses.retrieve(
+                    event.response_id,
+                    extra_headers=extra_headers or self.extra_headers,
+                )
+                self._last_response_id = event.response_id
+                yield AgentStreamChunk(event=event, response=last_response)
+                continue
+
+            if isinstance(event, AgentResponseFailed):
+                raise RuntimeError(event.error_message)
+
+            if isinstance(event, AgentToolCallIssued):
+                tool_call = ToolCall(
+                    call_id=event.call_id,
+                    tool_name=event.name,
+                    arguments=event.arguments_json,
+                )
+                pending_tools[event.call_id] = tool_call
+                yield AgentStreamChunk(event=event, response=None)
+                tool_responses = self._run_tool_calls([tool_call])
+                followup_messages: List[response_create_params.InputUnionMember1] = [
+                    response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
+                        type="function_call_output",
+                        call_id=tool_responses[0]["call_id"],
+                        output=tool_responses[0]["content"],
                     )
-                    n_iter += 1
+                ]
+                stream = self.client.responses.create(
+                    model=self._model,
+                    instructions=self._instructions,
+                    conversation=conversation_id,
+                    input=followup_messages,
+                    stream=True,
+                    previous_response_id=event.response_id,
+                    extra_headers=extra_headers or self.extra_headers,
+                )
+                continue
 
-            if self.tool_parser and n_iter > self.agent_config.get("max_infer_iters", DEFAULT_MAX_ITER):
-                raise Exception("Max inference iterations reached")
+            yield AgentStreamChunk(event=event, response=None)
 
 
 class AsyncAgent:
@@ -454,63 +468,65 @@ def __init__(
         self.tool_parser = tool_parser
         self.builtin_tools = {}
         self.extra_headers = extra_headers
-        self._agent_id = None
+        self._conversation_id: Optional[str] = None
+        self._last_response_id: Optional[str] = None
 
         if isinstance(client, LlamaStackClient):
             raise ValueError("AsyncAgent must be initialized with an AsyncLlamaStackClient")
 
+        self._model = self.agent_config.model
+        self._instructions = self.agent_config.instructions
+
     @property
     def agent_id(self) -> str:
-        if not self._agent_id:
-            raise RuntimeError("Agent ID not initialized. Call initialize() first.")
-        return self._agent_id
+        raise RuntimeError("Agent ID is deprecated in the responses-backed agent")
 
     async def initialize(self) -> None:
-        if self._agent_id:
-            return
-
-        agentic_system_create_response = await self.client.alpha.agents.create(
-            agent_config=self.agent_config,
-        )
-        self._agent_id = agentic_system_create_response.agent_id
-        for tg in self.agent_config["toolgroups"]:
-            for tool in await self.client.tools.list(toolgroup_id=tg, extra_headers=self.extra_headers):
-                self.builtin_tools[tool.name] = tg.get("args", {}) if isinstance(tg, dict) else {}
+        if not self.builtin_tools and self.agent_config.toolgroups:
+            for tg in self.agent_config.toolgroups:
+                toolgroup_id = tg if isinstance(tg, str) else tg.name
+                args = {} if isinstance(tg, str) else tg.args
+                tools = await self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers)
+                for tool in tools:
+                    self.builtin_tools[tool.name] = args
 
     async def create_session(self, session_name: str) -> str:
         await self.initialize()
-        agentic_system_create_session_response = await self.client.alpha.agents.session.create(
-            agent_id=self.agent_id,
-            session_name=session_name,
+        conversation = await self.client.conversations.create(  # type: ignore[union-attr]
             extra_headers=self.extra_headers,
+            metadata={"name": session_name},
         )
-        self.session_id = agentic_system_create_session_response.session_id
-        self.sessions.append(self.session_id)
-        return self.session_id
+        self._conversation_id = conversation.id
+        self.sessions.append(conversation.id)
+        return conversation.id
 
     async def create_turn(
         self,
-        messages: List[Union[UserMessage, ToolResponseMessage]],
+        messages: List[response_create_params.InputUnionMember1],
         session_id: Optional[str] = None,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
         stream: bool = True,
-    ) -> AsyncIterator[AgentTurnResponseStreamChunk] | Turn:
+    ) -> AsyncIterator[AgentStreamChunk] | ResponseObject:
         if stream:
             return self._create_turn_streaming(messages, session_id, toolgroups, documents)
         else:
-            chunks = [x async for x in self._create_turn_streaming(messages, session_id, toolgroups, documents)]
-            if not chunks:
+            _ = toolgroups
+            _ = documents
+            last_chunk: Optional[AgentStreamChunk] = None
+            async for chunk in self._create_turn_streaming(messages, session_id, toolgroups, documents):
+                last_chunk = chunk
+            if not last_chunk or not last_chunk.response:
                 raise Exception("Turn did not complete")
-            return chunks[-1].event.payload.turn
+            return last_chunk.response
 
-    async def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponseParam]:
+    async def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponsePayload]:
         responses = []
         for tool_call in tool_calls:
             responses.append(await self._run_single_tool(tool_call))
         return responses
 
-    async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
+    async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponsePayload:
         # custom client tools
         if tool_call.tool_name in self.client_tools:
             tool = self.client_tools[tool_call.tool_name]
@@ -518,7 +534,7 @@ async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
                 [
                     CompletionMessage(
                         role="assistant",
-                        content=tool_call.tool_name,
+                        content=tool_call.arguments,
                         tool_calls=[tool_call],
                         stop_reason="end_of_turn",
                     )
@@ -536,14 +552,14 @@ async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
                 },
                 extra_headers=self.extra_headers,
             )
-            return ToolResponseParam(
+            return ToolResponsePayload(
                 call_id=tool_call.call_id,
                 tool_name=tool_call.tool_name,
                 content=tool_result.content,
             )
 
         # cannot find tools
-        return ToolResponseParam(
+        return ToolResponsePayload(
             call_id=tool_call.call_id,
             tool_name=tool_call.tool_name,
             content=f"Unknown tool `{tool_call.tool_name}` was called.",
@@ -551,61 +567,68 @@ async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponseParam:
 
     async def _create_turn_streaming(
         self,
-        messages: List[Union[UserMessage, ToolResponseMessage]],
+        messages: List[response_create_params.InputUnionMember1],
         session_id: Optional[str] = None,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
-    ) -> AsyncIterator[AgentTurnResponseStreamChunk]:
-        n_iter = 0
-
-        # 1. create an agent turn
-        turn_response = await self.client.alpha.agents.turn.create(
-            agent_id=self.agent_id,
-            # use specified session_id or last session created
-            session_id=session_id or self.session_id[-1],
-            messages=messages,
+    ) -> AsyncIterator[AgentStreamChunk]:
+        _ = toolgroups
+        _ = documents
+        conversation_id = session_id or self._conversation_id
+        if not conversation_id:
+            conversation_id = await self.create_session(session_name="default")
+
+        stream = await self.client.responses.create(
+            model=self._model,
+            instructions=self._instructions,
+            conversation=conversation_id,
+            input=messages,
             stream=True,
-            documents=documents,
-            toolgroups=toolgroups,
+            previous_response_id=self._last_response_id,
             extra_headers=self.extra_headers,
         )
 
-        # 2. process turn and resume if there's a tool call
-        is_turn_complete = False
-        while not is_turn_complete:
-            is_turn_complete = True
-            async for chunk in turn_response:
-                if hasattr(chunk, "error"):
-                    yield chunk
-                    return
-
-                tool_calls = AgentUtils.get_tool_calls(chunk, self.tool_parser)
-                if not tool_calls:
-                    yield chunk
-                else:
-                    is_turn_complete = False
-                    # End of turn is reached, do not resume even if there's a tool call
-                    if not self.tool_parser and chunk.event.payload.turn.output_message.stop_reason in {"end_of_turn"}:
-                        yield chunk
-                        break
-
-                    turn_id = AgentUtils.get_turn_id(chunk)
-                    if n_iter == 0:
-                        yield chunk
-
-                    # run the tools
-                    tool_responses = await self._run_tool_calls(tool_calls)
-
-                    # pass it to next iteration
-                    turn_response = await self.client.alpha.agents.turn.resume(
-                        agent_id=self.agent_id,
-                        session_id=session_id or self.session_id[-1],
-                        turn_id=turn_id,
-                        tool_responses=tool_responses,
-                        stream=True,
-                        extra_headers=self.extra_headers,
+        last_response: Optional[ResponseObject] = None
+        pending_tools: Dict[str, ToolCall] = {}
+
+        async for event in iter_agent_events(stream):
+            if isinstance(event, AgentResponseCompleted):
+                last_response = await self.client.responses.retrieve(
+                    event.response_id,
+                    extra_headers=self.extra_headers,
+                )
+                self._last_response_id = event.response_id
+                yield AgentStreamChunk(event=event, response=last_response)
+                continue
+
+            if isinstance(event, AgentResponseFailed):
+                raise RuntimeError(event.error_message)
+
+            if isinstance(event, AgentToolCallIssued):
+                tool_call = ToolCall(
+                    call_id=event.call_id,
+                    tool_name=event.name,
+                    arguments=event.arguments_json,
+                )
+                pending_tools[event.call_id] = tool_call
+                yield AgentStreamChunk(event=event, response=None)
+                tool_responses = await self._run_tool_calls([tool_call])
+                followup_messages: List[response_create_params.InputUnionMember1] = [
+                    response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
+                        type="function_call_output",
+                        call_id=tool_responses[0]["call_id"],
+                        output=tool_responses[0]["content"],
                     )
-                    n_iter += 1
+                ]
+                stream = await self.client.responses.create(
+                    model=self._model,
+                    instructions=self._instructions,
+                    conversation=conversation_id,
+                    input=followup_messages,
+                    stream=True,
+                    previous_response_id=event.response_id,
+                    extra_headers=self.extra_headers,
+                )
+                continue
 
-            if self.tool_parser and n_iter > self.agent_config.get("max_infer_iters", DEFAULT_MAX_ITER):
-                raise Exception("Max inference iterations reached")
+            yield AgentStreamChunk(event=event, response=None)
diff --git a/src/llama_stack_client/lib/agents/stream_events.py b/src/llama_stack_client/lib/agents/stream_events.py
new file mode 100644
index 00000000..224a4fe3
--- /dev/null
+++ b/src/llama_stack_client/lib/agents/stream_events.py
@@ -0,0 +1,193 @@
+"""Streaming event primitives for the responses-backed Agent API."""
+
+from dataclasses import dataclass
+from typing import Iterable, Optional
+
+from llama_stack_client.types.response_object_stream import (
+    OpenAIResponseObjectStreamResponseCompleted,
+    OpenAIResponseObjectStreamResponseFailed,
+    OpenAIResponseObjectStreamResponseFunctionCallArgumentsDelta,
+    OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone,
+    OpenAIResponseObjectStreamResponseInProgress,
+    OpenAIResponseObjectStreamResponseOutputItemAdded,
+    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessage,
+    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessageContentUnionMember2,
+    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageFunctionToolCall,
+    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpCall,
+    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpListTools,
+    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageWebSearchToolCall,
+    OpenAIResponseObjectStreamResponseOutputTextDelta,
+    OpenAIResponseObjectStreamResponseOutputTextDone,
+    ResponseObjectStream,
+)
+
+
+@dataclass
+class AgentStreamEvent:
+    type: str
+
+
+@dataclass
+class AgentResponseStarted(AgentStreamEvent):
+    response_id: str
+
+
+@dataclass
+class AgentTextDelta(AgentStreamEvent):
+    text: str
+    response_id: str
+    output_index: int
+
+
+@dataclass
+class AgentTextCompleted(AgentStreamEvent):
+    text: str
+    response_id: str
+    output_index: int
+
+
+@dataclass
+class AgentToolCallIssued(AgentStreamEvent):
+    response_id: str
+    output_index: int
+    call_id: str
+    name: str
+    arguments_json: str
+
+
+@dataclass
+class AgentToolCallDelta(AgentStreamEvent):
+    response_id: str
+    output_index: int
+    call_id: str
+    arguments_delta: Optional[str]
+
+
+@dataclass
+class AgentToolCallCompleted(AgentStreamEvent):
+    response_id: str
+    output_index: int
+    call_id: str
+    arguments_json: str
+
+
+@dataclass
+class AgentResponseCompleted(AgentStreamEvent):
+    response_id: str
+
+
+@dataclass
+class AgentResponseFailed(AgentStreamEvent):
+    response_id: str
+    error_message: str
+
+
+def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentStreamEvent]:
+    for event in events:
+        if isinstance(event, OpenAIResponseObjectStreamResponseInProgress):
+            yield AgentResponseStarted(type="response_started", response_id=event.response.id)
+        elif isinstance(event, OpenAIResponseObjectStreamResponseOutputTextDelta):
+            yield AgentTextDelta(
+                type="text_delta",
+                text=event.delta,
+                response_id=event.response_id,
+                output_index=event.output_index,
+            )
+        elif isinstance(event, OpenAIResponseObjectStreamResponseOutputTextDone):
+            yield AgentTextCompleted(
+                type="text_completed",
+                text=event.text,
+                response_id=event.response_id,
+                output_index=event.output_index,
+            )
+        elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDelta):
+            yield AgentToolCallDelta(
+                type="tool_call_delta",
+                response_id=event.response_id,
+                output_index=event.output_index,
+                call_id=event.item_id,
+                arguments_delta=event.delta,
+            )
+        elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone):
+            yield AgentToolCallCompleted(
+                type="tool_call_completed",
+                response_id=event.response_id,
+                output_index=event.output_index,
+                call_id=event.item_id,
+                arguments_json=event.arguments,
+            )
+        elif isinstance(event, OpenAIResponseObjectStreamResponseOutputItemAdded):
+            item = event.item
+            if isinstance(
+                item,
+                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageFunctionToolCall,
+            ):
+                yield AgentToolCallIssued(
+                    type="tool_call_issued",
+                    response_id=event.response_id,
+                    output_index=event.output_index,
+                    call_id=item.call_id,
+                    name=item.name,
+                    arguments_json=item.arguments,
+                )
+            elif isinstance(
+                item,
+                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageWebSearchToolCall,
+            ):
+                yield AgentToolCallIssued(
+                    type="tool_call_issued",
+                    response_id=event.response_id,
+                    output_index=event.output_index,
+                    call_id=item.id,
+                    name=item.type,
+                    arguments_json="{}",
+                )
+            elif isinstance(
+                item,
+                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpCall,
+            ):
+                yield AgentToolCallIssued(
+                    type="tool_call_issued",
+                    response_id=event.response_id,
+                    output_index=event.output_index,
+                    call_id=item.id,
+                    name=item.name,
+                    arguments_json=item.arguments,
+                )
+            elif isinstance(
+                item,
+                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpListTools,
+            ):
+                yield AgentToolCallIssued(
+                    type="tool_call_issued",
+                    response_id=event.response_id,
+                    output_index=event.output_index,
+                    call_id=item.id,
+                    name=item.type,
+                    arguments_json="{}",
+                )
+            elif isinstance(item, OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessage):
+                yield AgentTextCompleted(
+                    type="text_completed",
+                    text=str(item.content),
+                    response_id=event.response_id,
+                    output_index=event.output_index,
+                )
+            elif isinstance(
+                item,
+                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessageContentUnionMember2,
+            ):
+                yield AgentTextCompleted(
+                    type="text_completed",
+                    text=item.text,
+                    response_id=event.response_id,
+                    output_index=event.output_index,
+                )
+        elif isinstance(event, OpenAIResponseObjectStreamResponseCompleted):
+            yield AgentResponseCompleted(type="response_completed", response_id=event.response.id)
+        elif isinstance(event, OpenAIResponseObjectStreamResponseFailed):
+            yield AgentResponseFailed(
+                type="response_failed",
+                response_id=event.response.id,
+                error_message=event.response.error.message if event.response.error else "Unknown error",
+            )

From 30e6c0746d346f230f432ae16278ea4598fb9b4e Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Sat, 11 Oct 2025 15:29:05 -0700
Subject: [PATCH 02/15] test(agent): cover responses agent flow

---
 pyproject.toml                                |   3 +
 src/llama_stack_client/lib/agents/agent.py    | 357 ++++++++++++------
 .../lib/agents/stream_events.py               |  28 +-
 tests/integration/test_agent_responses_e2e.py |  58 +++
 tests/lib/agents/test_agent_responses.py      | 140 +++++++
 uv.lock                                       |   2 +-
 6 files changed, 461 insertions(+), 127 deletions(-)
 create mode 100644 tests/integration/test_agent_responses_e2e.py
 create mode 100644 tests/lib/agents/test_agent_responses.py

diff --git a/pyproject.toml b/pyproject.toml
index 63c6129a..6f5c741c 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -125,6 +125,9 @@ asyncio_default_fixture_loop_scope = "session"
 filterwarnings = [
   "error"
 ]
+markers = [
+  "allow_network: marks tests that make live network calls",
+]
 
 [tool.mypy]
 pretty = true
diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index 3cecd750..c150ea8a 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -3,13 +3,15 @@
 #
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
+import json
 import logging
 from dataclasses import dataclass
 from typing import Any, AsyncIterator, Callable, Dict, Iterator, List, Optional, Tuple, Union, TypedDict
 
 from llama_stack_client import LlamaStackClient
 from llama_stack_client.types import AgentConfig, ResponseObject
-from llama_stack_client.types.responses import response_create_params
+from llama_stack_client.types import response_create_params
+from llama_stack_client.types.alpha.tool_response import ToolResponse
 from llama_stack_client.types.shared.tool_call import ToolCall
 from llama_stack_client.types.shared.agent_config import ToolConfig, Toolgroup
 from llama_stack_client.types.shared_params.document import Document
@@ -24,6 +26,8 @@
     AgentResponseCompleted,
     AgentResponseFailed,
     AgentStreamEvent,
+    AgentToolCallCompleted,
+    AgentToolCallDelta,
     AgentToolCallIssued,
     iter_agent_events,
 )
@@ -240,18 +244,73 @@ def create_session(self, session_name: str) -> str:
         self.sessions.append(conversation.id)
         return conversation.id
 
+    @staticmethod
+    def _coerce_tool_content(content: Any) -> str:
+        if isinstance(content, str):
+            return content
+        if content is None:
+            return ""
+        if isinstance(content, (dict, list)):
+            try:
+                return json.dumps(content)
+            except TypeError:
+                return str(content)
+        return str(content)
+
+    @staticmethod
+    def _parse_tool_arguments(arguments: Any) -> Dict[str, Any]:
+        if isinstance(arguments, dict):
+            return arguments
+        if not arguments:
+            return {}
+        if isinstance(arguments, str):
+            try:
+                parsed = json.loads(arguments)
+            except json.JSONDecodeError:
+                logger.warning("Failed to decode tool arguments JSON", exc_info=True)
+                return {}
+            if isinstance(parsed, dict):
+                return parsed
+            logger.warning("Tool arguments JSON did not decode into a dict: %s", type(parsed))
+            return {}
+        logger.warning("Unsupported tool arguments type: %s", type(arguments))
+        return {}
+
+    @staticmethod
+    def _normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
+        if isinstance(tool_response, ToolResponse):
+            payload: ToolResponsePayload = {
+                "call_id": tool_response.call_id,
+                "tool_name": str(tool_response.tool_name),
+                "content": Agent._coerce_tool_content(tool_response.content),
+            }
+            return payload
+
+        if isinstance(tool_response, dict):
+            call_id = tool_response.get("call_id")
+            tool_name = tool_response.get("tool_name")
+            if call_id is None or tool_name is None:
+                raise KeyError("Tool response missing required keys 'call_id' or 'tool_name'")
+            payload: ToolResponsePayload = {
+                "call_id": str(call_id),
+                "tool_name": str(tool_name),
+                "content": Agent._coerce_tool_content(tool_response.get("content")),
+            }
+            return payload
+
+        raise TypeError(f"Unsupported tool response type: {type(tool_response)!r}")
+
     def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponsePayload]:
-        responses = []
+        responses: List[ToolResponsePayload] = []
         for tool_call in tool_calls:
-            responses.append(self._run_single_tool(tool_call))
+            raw_result = self._run_single_tool(tool_call)
+            responses.append(self._normalize_tool_response(raw_result))
         return responses
 
-    def _run_single_tool(self, tool_call: ToolCall) -> ToolResponsePayload:
+    def _run_single_tool(self, tool_call: ToolCall) -> Any:
         # custom client tools
         if tool_call.tool_name in self.client_tools:
             tool = self.client_tools[tool_call.tool_name]
-            # NOTE: tool.run() expects a list of messages, we only pass in last message here
-            # but we could pass in the entire message history
             result_message = tool.run(
                 [
                     CompletionMessage(
@@ -266,26 +325,27 @@ def _run_single_tool(self, tool_call: ToolCall) -> ToolResponsePayload:
 
         # builtin tools executed by tool_runtime
         if tool_call.tool_name in self.builtin_tools:
+            tool_args = self._parse_tool_arguments(tool_call.arguments)
             tool_result = self.client.tool_runtime.invoke_tool(
                 tool_name=tool_call.tool_name,
                 kwargs={
-                    **tool_call.arguments,
+                    **tool_args,
                     **self.builtin_tools[tool_call.tool_name],
                 },
                 extra_headers=self.extra_headers,
             )
-            return ToolResponsePayload(
-                call_id=tool_call.call_id,
-                tool_name=tool_call.tool_name,
-                content=tool_result.content,
-            )
+            return {
+                "call_id": tool_call.call_id,
+                "tool_name": tool_call.tool_name,
+                "content": self._coerce_tool_content(tool_result.content),
+            }
 
         # cannot find tools
-        return ToolResponsePayload(
-            call_id=tool_call.call_id,
-            tool_name=tool_call.tool_name,
-            content=f"Unknown tool `{tool_call.tool_name}` was called.",
-        )
+        return {
+            "call_id": tool_call.call_id,
+            "tool_name": tool_call.tool_name,
+            "content": f"Unknown tool `{tool_call.tool_name}` was called.",
+        }
 
     def create_turn(
         self,
@@ -330,10 +390,12 @@ def _create_turn_streaming(
     ) -> Iterator[AgentStreamChunk]:
         _ = toolgroups
         _ = documents
+        self.initialize()
         conversation_id = session_id or self._conversation_id
         if not conversation_id:
             conversation_id = self.create_session(session_name="default")
 
+        request_headers = extra_headers or self.extra_headers
         stream = self.client.responses.create(
             model=self._model,
             instructions=self._instructions,
@@ -341,53 +403,83 @@ def _create_turn_streaming(
             input=messages,
             stream=True,
             previous_response_id=self._last_response_id,
-            extra_headers=extra_headers or self.extra_headers,
+            extra_headers=request_headers,
         )
 
         last_response: Optional[ResponseObject] = None
-        pending_tools: Dict[str, ToolCall] = {}
-
-        for event in iter_agent_events(stream):
-            if isinstance(event, AgentResponseCompleted):
-                last_response = self.client.responses.retrieve(
-                    event.response_id,
-                    extra_headers=extra_headers or self.extra_headers,
-                )
-                self._last_response_id = event.response_id
-                yield AgentStreamChunk(event=event, response=last_response)
-                continue
-
-            if isinstance(event, AgentResponseFailed):
-                raise RuntimeError(event.error_message)
-
-            if isinstance(event, AgentToolCallIssued):
-                tool_call = ToolCall(
-                    call_id=event.call_id,
-                    tool_name=event.name,
-                    arguments=event.arguments_json,
-                )
-                pending_tools[event.call_id] = tool_call
-                yield AgentStreamChunk(event=event, response=None)
-                tool_responses = self._run_tool_calls([tool_call])
-                followup_messages: List[response_create_params.InputUnionMember1] = [
-                    response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                        type="function_call_output",
-                        call_id=tool_responses[0]["call_id"],
-                        output=tool_responses[0]["content"],
+        pending_tools: Dict[str, Dict[str, Any]] = {}
+
+        while True:
+            restart_stream = False
+            for event in iter_agent_events(stream):
+                if isinstance(event, AgentResponseCompleted):
+                    last_response = self.client.responses.retrieve(
+                        event.response_id,
+                        extra_headers=request_headers,
                     )
-                ]
-                stream = self.client.responses.create(
-                    model=self._model,
-                    instructions=self._instructions,
-                    conversation=conversation_id,
-                    input=followup_messages,
-                    stream=True,
-                    previous_response_id=event.response_id,
-                    extra_headers=extra_headers or self.extra_headers,
-                )
-                continue
+                    self._last_response_id = event.response_id
+                    yield AgentStreamChunk(event=event, response=last_response)
+                    continue
+
+                if isinstance(event, AgentResponseFailed):
+                    raise RuntimeError(event.error_message)
+
+                if isinstance(event, AgentToolCallIssued):
+                    tool_call = ToolCall(
+                        call_id=event.call_id,
+                        tool_name=event.name,
+                        arguments=event.arguments_json,
+                    )
+                    pending_tools[event.call_id] = {
+                        "tool_call": tool_call,
+                        "response_id": event.response_id,
+                        "arguments": event.arguments_json or "",
+                    }
+                    yield AgentStreamChunk(event=event, response=None)
+                    continue
+
+                if isinstance(event, AgentToolCallDelta):
+                    builder = pending_tools.get(event.call_id)
+                    if builder and event.arguments_delta:
+                        builder["arguments"] = builder.get("arguments", "") + event.arguments_delta
+                        builder["tool_call"].arguments = builder["arguments"]
+                    yield AgentStreamChunk(event=event, response=None)
+                    continue
+
+                if isinstance(event, AgentToolCallCompleted):
+                    builder = pending_tools.get(event.call_id)
+                    if builder:
+                        arguments = event.arguments_json or builder.get("arguments") or ""
+                        builder["tool_call"].arguments = arguments
+                        tool_responses = self._run_tool_calls([builder["tool_call"]])
+                        followup_messages: List[response_create_params.InputUnionMember1] = [
+                            response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
+                                type="function_call_output",
+                                call_id=payload["call_id"],
+                                output=payload["content"],
+                            )
+                            for payload in tool_responses
+                        ]
+                        stream = self.client.responses.create(
+                            model=self._model,
+                            instructions=self._instructions,
+                            conversation=conversation_id,
+                            input=followup_messages,
+                            stream=True,
+                            previous_response_id=event.response_id,
+                            extra_headers=request_headers,
+                        )
+                        pending_tools.pop(event.call_id, None)
+                        restart_stream = True
+                    yield AgentStreamChunk(event=event, response=None)
+                    if restart_stream:
+                        break
+                    continue
 
-            yield AgentStreamChunk(event=event, response=None)
+                yield AgentStreamChunk(event=event, response=None)
+
+            if not restart_stream:
+                break
 
 
 class AsyncAgent:
@@ -521,12 +613,13 @@ async def create_turn(
             return last_chunk.response
 
     async def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponsePayload]:
-        responses = []
+        responses: List[ToolResponsePayload] = []
         for tool_call in tool_calls:
-            responses.append(await self._run_single_tool(tool_call))
+            raw_result = await self._run_single_tool(tool_call)
+            responses.append(Agent._normalize_tool_response(raw_result))
         return responses
 
-    async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponsePayload:
+    async def _run_single_tool(self, tool_call: ToolCall) -> Any:
         # custom client tools
         if tool_call.tool_name in self.client_tools:
             tool = self.client_tools[tool_call.tool_name]
@@ -544,26 +637,27 @@ async def _run_single_tool(self, tool_call: ToolCall) -> ToolResponsePayload:
 
         # builtin tools executed by tool_runtime
         if tool_call.tool_name in self.builtin_tools:
+            tool_args = Agent._parse_tool_arguments(tool_call.arguments)
             tool_result = await self.client.tool_runtime.invoke_tool(
                 tool_name=tool_call.tool_name,
                 kwargs={
-                    **tool_call.arguments,
+                    **tool_args,
                     **self.builtin_tools[tool_call.tool_name],
                 },
                 extra_headers=self.extra_headers,
             )
-            return ToolResponsePayload(
-                call_id=tool_call.call_id,
-                tool_name=tool_call.tool_name,
-                content=tool_result.content,
-            )
+            return {
+                "call_id": tool_call.call_id,
+                "tool_name": tool_call.tool_name,
+                "content": Agent._coerce_tool_content(tool_result.content),
+            }
 
         # cannot find tools
-        return ToolResponsePayload(
-            call_id=tool_call.call_id,
-            tool_name=tool_call.tool_name,
-            content=f"Unknown tool `{tool_call.tool_name}` was called.",
-        )
+        return {
+            "call_id": tool_call.call_id,
+            "tool_name": tool_call.tool_name,
+            "content": f"Unknown tool `{tool_call.tool_name}` was called.",
+        }
 
     async def _create_turn_streaming(
         self,
@@ -574,10 +668,12 @@ async def _create_turn_streaming(
     ) -> AsyncIterator[AgentStreamChunk]:
         _ = toolgroups
         _ = documents
+        await self.initialize()
         conversation_id = session_id or self._conversation_id
         if not conversation_id:
             conversation_id = await self.create_session(session_name="default")
 
+        request_headers = self.extra_headers
         stream = await self.client.responses.create(
             model=self._model,
             instructions=self._instructions,
@@ -585,50 +681,79 @@ async def _create_turn_streaming(
             input=messages,
             stream=True,
             previous_response_id=self._last_response_id,
-            extra_headers=self.extra_headers,
+            extra_headers=request_headers,
         )
 
         last_response: Optional[ResponseObject] = None
-        pending_tools: Dict[str, ToolCall] = {}
-
-        async for event in iter_agent_events(stream):
-            if isinstance(event, AgentResponseCompleted):
-                last_response = await self.client.responses.retrieve(
-                    event.response_id,
-                    extra_headers=self.extra_headers,
-                )
-                self._last_response_id = event.response_id
-                yield AgentStreamChunk(event=event, response=last_response)
-                continue
-
-            if isinstance(event, AgentResponseFailed):
-                raise RuntimeError(event.error_message)
-
-            if isinstance(event, AgentToolCallIssued):
-                tool_call = ToolCall(
-                    call_id=event.call_id,
-                    tool_name=event.name,
-                    arguments=event.arguments_json,
-                )
-                pending_tools[event.call_id] = tool_call
-                yield AgentStreamChunk(event=event, response=None)
-                tool_responses = await self._run_tool_calls([tool_call])
-                followup_messages: List[response_create_params.InputUnionMember1] = [
-                    response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                        type="function_call_output",
-                        call_id=tool_responses[0]["call_id"],
-                        output=tool_responses[0]["content"],
+        pending_tools: Dict[str, Dict[str, Any]] = {}
+
+        while True:
+            restart_stream = False
+            async for event in iter_agent_events(stream):
+                if isinstance(event, AgentResponseCompleted):
+                    last_response = await self.client.responses.retrieve(
+                        event.response_id,
+                        extra_headers=request_headers,
                     )
-                ]
-                stream = await self.client.responses.create(
-                    model=self._model,
-                    instructions=self._instructions,
-                    conversation=conversation_id,
-                    input=followup_messages,
-                    stream=True,
-                    previous_response_id=event.response_id,
-                    extra_headers=self.extra_headers,
-                )
-                continue
-
-            yield AgentStreamChunk(event=event, response=None)
+                    self._last_response_id = event.response_id
+                    yield AgentStreamChunk(event=event, response=last_response)
+                    continue
+
+                if isinstance(event, AgentResponseFailed):
+                    raise RuntimeError(event.error_message)
+
+                if isinstance(event, AgentToolCallIssued):
+                    tool_call = ToolCall(
+                        call_id=event.call_id,
+                        tool_name=event.name,
+                        arguments=event.arguments_json,
+                    )
+                    pending_tools[event.call_id] = {
+                        "tool_call": tool_call,
+                        "arguments": event.arguments_json or "",
+                    }
+                    yield AgentStreamChunk(event=event, response=None)
+                    continue
+
+                if isinstance(event, AgentToolCallDelta):
+                    builder = pending_tools.get(event.call_id)
+                    if builder and event.arguments_delta:
+                        builder["arguments"] = builder.get("arguments", "") + event.arguments_delta
+                        builder["tool_call"].arguments = builder["arguments"]
+                    yield AgentStreamChunk(event=event, response=None)
+                    continue
+
+                if isinstance(event, AgentToolCallCompleted):
+                    builder = pending_tools.get(event.call_id)
+                    if builder:
+                        arguments = event.arguments_json or builder.get("arguments") or ""
+                        builder["tool_call"].arguments = arguments
+                        tool_responses = await self._run_tool_calls([builder["tool_call"]])
+                        followup_messages: List[response_create_params.InputUnionMember1] = [
+                            response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
+                                type="function_call_output",
+                                call_id=payload["call_id"],
+                                output=payload["content"],
+                            )
+                            for payload in tool_responses
+                        ]
+                        stream = await self.client.responses.create(
+                            model=self._model,
+                            instructions=self._instructions,
+                            conversation=conversation_id,
+                            input=followup_messages,
+                            stream=True,
+                            previous_response_id=event.response_id,
+                            extra_headers=request_headers,
+                        )
+                        pending_tools.pop(event.call_id, None)
+                        restart_stream = True
+                    yield AgentStreamChunk(event=event, response=None)
+                    if restart_stream:
+                        break
+                    continue
+
+                yield AgentStreamChunk(event=event, response=None)
+
+            if not restart_stream:
+                break
diff --git a/src/llama_stack_client/lib/agents/stream_events.py b/src/llama_stack_client/lib/agents/stream_events.py
index 224a4fe3..46c6f7dd 100644
--- a/src/llama_stack_client/lib/agents/stream_events.py
+++ b/src/llama_stack_client/lib/agents/stream_events.py
@@ -83,27 +83,35 @@ class AgentResponseFailed(AgentStreamEvent):
 
 
 def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentStreamEvent]:
+    current_response_id: Optional[str] = None
+
     for event in events:
+        response_id = getattr(event, "response_id", None)
+        if response_id is None and hasattr(event, "response"):
+            response_id = getattr(event.response, "id", None)
+        if response_id is not None:
+            current_response_id = response_id
+
         if isinstance(event, OpenAIResponseObjectStreamResponseInProgress):
             yield AgentResponseStarted(type="response_started", response_id=event.response.id)
         elif isinstance(event, OpenAIResponseObjectStreamResponseOutputTextDelta):
             yield AgentTextDelta(
                 type="text_delta",
                 text=event.delta,
-                response_id=event.response_id,
+                response_id=current_response_id or "",
                 output_index=event.output_index,
             )
         elif isinstance(event, OpenAIResponseObjectStreamResponseOutputTextDone):
             yield AgentTextCompleted(
                 type="text_completed",
                 text=event.text,
-                response_id=event.response_id,
+                response_id=current_response_id or "",
                 output_index=event.output_index,
             )
         elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDelta):
             yield AgentToolCallDelta(
                 type="tool_call_delta",
-                response_id=event.response_id,
+                response_id=current_response_id or "",
                 output_index=event.output_index,
                 call_id=event.item_id,
                 arguments_delta=event.delta,
@@ -111,7 +119,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
         elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone):
             yield AgentToolCallCompleted(
                 type="tool_call_completed",
-                response_id=event.response_id,
+                response_id=current_response_id or "",
                 output_index=event.output_index,
                 call_id=event.item_id,
                 arguments_json=event.arguments,
@@ -124,7 +132,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
             ):
                 yield AgentToolCallIssued(
                     type="tool_call_issued",
-                    response_id=event.response_id,
+                    response_id=current_response_id or event.response_id,
                     output_index=event.output_index,
                     call_id=item.call_id,
                     name=item.name,
@@ -136,7 +144,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
             ):
                 yield AgentToolCallIssued(
                     type="tool_call_issued",
-                    response_id=event.response_id,
+                    response_id=current_response_id or event.response_id,
                     output_index=event.output_index,
                     call_id=item.id,
                     name=item.type,
@@ -148,7 +156,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
             ):
                 yield AgentToolCallIssued(
                     type="tool_call_issued",
-                    response_id=event.response_id,
+                    response_id=current_response_id or event.response_id,
                     output_index=event.output_index,
                     call_id=item.id,
                     name=item.name,
@@ -160,7 +168,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
             ):
                 yield AgentToolCallIssued(
                     type="tool_call_issued",
-                    response_id=event.response_id,
+                    response_id=current_response_id or event.response_id,
                     output_index=event.output_index,
                     call_id=item.id,
                     name=item.type,
@@ -170,7 +178,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
                 yield AgentTextCompleted(
                     type="text_completed",
                     text=str(item.content),
-                    response_id=event.response_id,
+                    response_id=current_response_id or event.response_id,
                     output_index=event.output_index,
                 )
             elif isinstance(
@@ -180,7 +188,7 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
                 yield AgentTextCompleted(
                     type="text_completed",
                     text=item.text,
-                    response_id=event.response_id,
+                    response_id=current_response_id or event.response_id,
                     output_index=event.output_index,
                 )
         elif isinstance(event, OpenAIResponseObjectStreamResponseCompleted):
diff --git a/tests/integration/test_agent_responses_e2e.py b/tests/integration/test_agent_responses_e2e.py
new file mode 100644
index 00000000..1c221bf0
--- /dev/null
+++ b/tests/integration/test_agent_responses_e2e.py
@@ -0,0 +1,58 @@
+import os
+
+import pytest
+
+from llama_stack_client.lib.agents.agent import Agent
+from llama_stack_client.types import response_create_params
+
+MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL")
+BASE_URL = os.environ.get("TEST_API_BASE_URL")
+
+pytestmark = pytest.mark.skipif(
+    MODEL_ID is None or BASE_URL in (None, "http://127.0.0.1:4010"),
+    reason="requires a running llama stack server and LLAMA_STACK_TEST_MODEL",
+)
+
+
+@pytest.mark.allow_network
+def test_agent_create_turn_non_streaming(client) -> None:
+    agent = Agent(
+        client=client,
+        model=MODEL_ID,
+        instructions="You are a helpful assistant that responds succinctly.",
+    )
+
+    messages: list[response_create_params.InputUnionMember1] = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "Reply with pong."}],
+        }
+    ]
+
+    response = agent.create_turn(messages, stream=False)
+
+    assert response.id.startswith("resp_")
+    assert response.model == MODEL_ID
+    assert agent._last_response_id == response.id
+
+
+@pytest.mark.allow_network
+def test_agent_create_turn_streaming(client) -> None:
+    agent = Agent(
+        client=client,
+        model=MODEL_ID,
+        instructions="You are a helpful assistant that replies in one word.",
+    )
+
+    messages: list[response_create_params.InputUnionMember1] = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "Say hello."}],
+        }
+    ]
+
+    chunks = list(agent.create_turn(messages, stream=True))
+    assert any(chunk.response for chunk in chunks)
+    assert agent._last_response_id is not None
diff --git a/tests/lib/agents/test_agent_responses.py b/tests/lib/agents/test_agent_responses.py
new file mode 100644
index 00000000..9ed32151
--- /dev/null
+++ b/tests/lib/agents/test_agent_responses.py
@@ -0,0 +1,140 @@
+import os
+from types import SimpleNamespace
+from typing import Dict, Iterable, List, Optional
+
+import pytest
+
+from llama_stack_client.lib.agents.agent import Agent
+from llama_stack_client.lib.agents.client_tool import client_tool
+from llama_stack_client.lib.agents.stream_events import (
+    AgentResponseCompleted,
+    AgentResponseStarted,
+    AgentStreamEvent,
+    AgentToolCallCompleted,
+    AgentToolCallIssued,
+)
+
+
+@client_tool
+def echo_tool(text: str) -> str:
+    """Echo text back to the caller.
+
+    :param text: phrase to echo
+    """
+    return text
+
+
+class FakeResponse:
+    def __init__(self, response_id: str, turn_id: str) -> None:
+        self.id = response_id
+        self.turn = SimpleNamespace(turn_id=turn_id)
+
+
+class FakeResponsesAPI:
+    def __init__(self, event_registry: Dict[object, Iterable[AgentStreamEvent]], responses: Dict[str, FakeResponse]) -> None:
+        self._event_registry = event_registry
+        self._responses = responses
+        self.create_calls: List[Dict[str, Optional[str]]] = []
+
+    def create(self, *, previous_response_id: Optional[str] = None, **_: object) -> object:
+        stream = object()
+        self.create_calls.append({"previous_response_id": previous_response_id})
+        if previous_response_id is None:
+            self._event_registry[stream] = [
+                AgentResponseStarted(type="response_started", response_id="resp_0"),
+                AgentToolCallIssued(
+                    type="tool_call_issued",
+                    response_id="resp_0",
+                    output_index=0,
+                    call_id="call_1",
+                    name="echo_tool",
+                    arguments_json='{"text": "hi"}',
+                ),
+                AgentToolCallCompleted(
+                    type="tool_call_completed",
+                    response_id="resp_0",
+                    output_index=0,
+                    call_id="call_1",
+                    arguments_json='{"text": "hi"}',
+                ),
+            ]
+        else:
+            self._event_registry[stream] = [
+                AgentResponseCompleted(type="response_completed", response_id="resp_1"),
+            ]
+        return stream
+
+    def retrieve(self, response_id: str, **_: object) -> FakeResponse:
+        return self._responses[response_id]
+
+
+class FakeConversationsAPI:
+    def __init__(self) -> None:
+        self._counter = 0
+
+    def create(self, **_: object) -> SimpleNamespace:
+        self._counter += 1
+        return SimpleNamespace(id=f"conv_{self._counter}")
+
+
+class FakeToolsAPI:
+    def list(self, **_: object) -> List[SimpleNamespace]:
+        return []
+
+
+class FakeToolRuntimeAPI:
+    def invoke_tool(self, **_: object) -> None:  # pragma: no cover - not exercised here
+        raise AssertionError("Should not reach builtin tool execution in this test")
+
+
+class FakeClient:
+    def __init__(self, event_registry: Dict[object, Iterable[AgentStreamEvent]], responses: Dict[str, FakeResponse]) -> None:
+        self.responses = FakeResponsesAPI(event_registry, responses)
+        self.conversations = FakeConversationsAPI()
+        self.tools = FakeToolsAPI()
+        self.tool_runtime = FakeToolRuntimeAPI()
+
+
+@pytest.fixture
+def event_registry() -> Dict[object, Iterable[AgentStreamEvent]]:
+    return {}
+
+
+@pytest.fixture
+def fake_response() -> FakeResponse:
+    return FakeResponse("resp_1", "turn_123")
+
+
+def test_agent_handles_client_tool_and_finishes_turn(monkeypatch: pytest.MonkeyPatch, event_registry: Dict[object, Iterable[AgentStreamEvent]], fake_response: FakeResponse) -> None:
+    client = FakeClient(event_registry, {fake_response.id: fake_response})
+
+    def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
+        try:
+            events = event_registry[stream]
+        except KeyError as exc:  # pragma: no cover - makes debugging simpler if misused
+            raise AssertionError("unknown stream") from exc
+        for event in events:
+            yield event
+
+    monkeypatch.setattr("llama_stack_client.lib.agents.agent.iter_agent_events", fake_iter_agent_events)
+
+    agent = Agent(
+        client=client,  # type: ignore[arg-type]
+        model="test-model",
+        instructions="use the echo_tool",
+        tools=[echo_tool],
+    )
+
+    messages = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "hi"}],
+        }
+    ]
+
+    response = agent.create_turn(messages, stream=False)
+
+    assert response is fake_response
+    assert len(client.responses.create_calls) == 2
+    assert agent._last_response_id == fake_response.id
diff --git a/uv.lock b/uv.lock
index 053f41d2..6af0f2a5 100644
--- a/uv.lock
+++ b/uv.lock
@@ -424,7 +424,7 @@ wheels = [
 
 [[package]]
 name = "llama-stack-client"
-version = "0.2.23"
+version = "0.3.0a5"
 source = { editable = "." }
 dependencies = [
     { name = "anyio" },

From 8e655862aa68fa5100217a5116e4de135200927b Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Sat, 11 Oct 2025 16:26:31 -0700
Subject: [PATCH 03/15] chore(pytest): drop allow_network marker

---
 pyproject.toml                                | 3 ---
 tests/integration/test_agent_responses_e2e.py | 2 --
 2 files changed, 5 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 6f5c741c..63c6129a 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -125,9 +125,6 @@ asyncio_default_fixture_loop_scope = "session"
 filterwarnings = [
   "error"
 ]
-markers = [
-  "allow_network: marks tests that make live network calls",
-]
 
 [tool.mypy]
 pretty = true
diff --git a/tests/integration/test_agent_responses_e2e.py b/tests/integration/test_agent_responses_e2e.py
index 1c221bf0..08044553 100644
--- a/tests/integration/test_agent_responses_e2e.py
+++ b/tests/integration/test_agent_responses_e2e.py
@@ -14,7 +14,6 @@
 )
 
 
-@pytest.mark.allow_network
 def test_agent_create_turn_non_streaming(client) -> None:
     agent = Agent(
         client=client,
@@ -37,7 +36,6 @@ def test_agent_create_turn_non_streaming(client) -> None:
     assert agent._last_response_id == response.id
 
 
-@pytest.mark.allow_network
 def test_agent_create_turn_streaming(client) -> None:
     agent = Agent(
         client=client,

From 379222e24d41290e4d25a27e365c49ced9790be4 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Sat, 11 Oct 2025 17:34:59 -0700
Subject: [PATCH 04/15] refactor(agent): require explicit sessions

---
 src/llama_stack_client/lib/agents/agent.py    | 312 +++++-------------
 .../lib/agents/react/agent.py                 | 185 ++---------
 tests/integration/test_agent_responses_e2e.py |  30 +-
 tests/lib/agents/test_agent_responses.py      | 189 ++++++++++-
 4 files changed, 315 insertions(+), 401 deletions(-)

diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index c150ea8a..b2b2883b 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -9,15 +9,13 @@
 from typing import Any, AsyncIterator, Callable, Dict, Iterator, List, Optional, Tuple, Union, TypedDict
 
 from llama_stack_client import LlamaStackClient
-from llama_stack_client.types import AgentConfig, ResponseObject
+from llama_stack_client.types import ResponseObject
 from llama_stack_client.types import response_create_params
 from llama_stack_client.types.alpha.tool_response import ToolResponse
 from llama_stack_client.types.shared.tool_call import ToolCall
-from llama_stack_client.types.shared.agent_config import ToolConfig, Toolgroup
+from llama_stack_client.types.shared.agent_config import Toolgroup
 from llama_stack_client.types.shared_params.document import Document
 from llama_stack_client.types.shared.completion_message import CompletionMessage
-from llama_stack_client.types.shared.response_format import ResponseFormat
-from llama_stack_client.types.shared.sampling_params import SamplingParams
 
 from ..._types import Headers
 from .client_tool import ClientTool, client_tool
@@ -32,8 +30,6 @@
     iter_agent_events,
 )
 
-DEFAULT_MAX_ITER = 10
-
 
 class ToolResponsePayload(TypedDict):
     call_id: str
@@ -89,147 +85,60 @@ def get_turn_id(chunk: AgentStreamChunk) -> Optional[str]:
         return chunk.response.turn.turn_id if chunk.response else None
 
     @staticmethod
-    def get_agent_config(
-        model: Optional[str] = None,
-        instructions: Optional[str] = None,
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
-        tool_config: Optional[ToolConfig] = None,
-        sampling_params: Optional[SamplingParams] = None,
-        max_infer_iters: Optional[int] = None,
-        input_shields: Optional[List[str]] = None,
-        output_shields: Optional[List[str]] = None,
-        response_format: Optional[ResponseFormat] = None,
-        enable_session_persistence: Optional[bool] = None,
-        name: str | None = None,
-    ) -> AgentConfig:
-        # Create a minimal valid AgentConfig with required fields
-        if model is None or instructions is None:
-            raise ValueError("Both 'model' and 'instructions' are required when agent_config is not provided")
-
-        agent_config = {
-            "model": model,
-            "instructions": instructions,
-            "toolgroups": [],
-            "client_tools": [],
-        }
+    def normalize_tools(
+        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
+    ) -> Tuple[List[Union[Toolgroup, str, Dict[str, Any]]], List[ClientTool]]:
+        if not tools:
+            return [], []
+
+        normalized: List[Union[Toolgroup, ClientTool, Callable[..., Any], str, Dict[str, Any]]] = [
+            client_tool(tool) if (callable(tool) and not isinstance(tool, ClientTool)) else tool for tool in tools
+        ]
+        client_tool_instances = [tool for tool in normalized if isinstance(tool, ClientTool)]
 
-        # Add optional parameters if provided
-        if enable_session_persistence is not None:
-            agent_config["enable_session_persistence"] = enable_session_persistence
-        if max_infer_iters is not None:
-            agent_config["max_infer_iters"] = max_infer_iters
-        if input_shields is not None:
-            agent_config["input_shields"] = input_shields
-        if output_shields is not None:
-            agent_config["output_shields"] = output_shields
-        if response_format is not None:
-            agent_config["response_format"] = response_format
-        if sampling_params is not None:
-            agent_config["sampling_params"] = sampling_params
-        if tool_config is not None:
-            agent_config["tool_config"] = tool_config
-        if name is not None:
-            agent_config["name"] = name
-        if tools is not None:
-            toolgroups: List[Toolgroup] = []
-            for tool in tools:
-                if isinstance(tool, str) or isinstance(tool, dict):
-                    toolgroups.append(tool)
-
-            agent_config["toolgroups"] = toolgroups
-            agent_config["client_tools"] = [tool.get_tool_definition() for tool in AgentUtils.get_client_tools(tools)]
-
-        agent_config = AgentConfig(**agent_config)
-        return agent_config
+        toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = []
+        for tool in normalized:
+            if isinstance(tool, ClientTool):
+                continue
+            if isinstance(tool, (str, dict, Toolgroup)):
+                toolgroups.append(tool)
+                continue
+            raise TypeError(f"Unsupported tool type: {type(tool)!r}")
+
+        return toolgroups, client_tool_instances
 
 
 class Agent:
     def __init__(
         self,
         client: LlamaStackClient,
-        # begin deprecated
-        agent_config: Optional[AgentConfig] = None,
-        client_tools: Tuple[ClientTool, ...] = (),
-        # end deprecated
-        tool_parser: Optional[ToolParser] = None,
-        model: Optional[str] = None,
-        instructions: Optional[str] = None,
+        *,
+        model: str,
+        instructions: str,
         tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
-        tool_config: Optional[ToolConfig] = None,
-        sampling_params: Optional[SamplingParams] = None,
-        max_infer_iters: Optional[int] = None,
-        input_shields: Optional[List[str]] = None,
-        output_shields: Optional[List[str]] = None,
-        response_format: Optional[ResponseFormat] = None,
-        enable_session_persistence: Optional[bool] = None,
+        tool_parser: Optional[ToolParser] = None,
         extra_headers: Headers | None = None,
-        name: str | None = None,
     ):
-        """Construct an Agent with the given parameters.
-
-        :param client: The LlamaStackClient instance.
-        :param agent_config: The AgentConfig instance.
-            ::deprecated: use other parameters instead
-        :param client_tools: A tuple of ClientTool instances.
-            ::deprecated: use tools instead
-        :param tool_parser: Custom logic that parses tool calls from a message.
-        :param model: The model to use for the agent.
-        :param instructions: The instructions for the agent.
-        :param tools: A list of tools for the agent. Values can be one of the following:
-            - dict representing a toolgroup/tool with arguments: e.g. {"name": "builtin::rag/knowledge_search", "args": {"vector_db_ids": [123]}}
-            - a python function with a docstring. See @client_tool for more details.
-            - str representing a tool within a toolgroup: e.g. "builtin::rag/knowledge_search"
-            - str representing a toolgroup_id: e.g. "builtin::rag", "builtin::code_interpreter", where all tools in the toolgroup will be added to the agent
-            - an instance of ClientTool: A client tool object.
-        :param tool_config: The tool configuration for the agent.
-        :param sampling_params: The sampling parameters for the agent.
-        :param max_infer_iters: The maximum number of inference iterations.
-        :param input_shields: The input shields for the agent.
-        :param output_shields: The output shields for the agent.
-        :param response_format: The response format for the agent.
-        :param enable_session_persistence: Whether to enable session persistence.
-        :param extra_headers: Extra headers to add to all requests sent by the agent.
-        :param name: Optional name for the agent, used in telemetry and identification.
-        """
+        """Construct an Agent backed by the responses + conversations APIs."""
         self.client = client
+        self.tool_parser = tool_parser
+        self.extra_headers = extra_headers
+        self._model = model
+        self._instructions = instructions
 
-        if agent_config is not None:
-            logger.warning("`agent_config` is deprecated. Use inlined parameters instead.")
-        if client_tools != ():
-            logger.warning("`client_tools` is deprecated. Use `tools` instead.")
-
-        # Construct agent_config from parameters if not provided
-        if agent_config is None:
-            agent_config = AgentUtils.get_agent_config(
-                model=model,
-                instructions=instructions,
-                tools=tools,
-                tool_config=tool_config,
-                sampling_params=sampling_params,
-                max_infer_iters=max_infer_iters,
-                input_shields=input_shields,
-                output_shields=output_shields,
-                response_format=response_format,
-                enable_session_persistence=enable_session_persistence,
-                name=name,
-            )
-            client_tools = AgentUtils.get_client_tools(tools)
+        toolgroups, client_tools = AgentUtils.normalize_tools(tools)
+        self._toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = toolgroups
+        self.client_tools = {tool.get_name(): tool for tool in client_tools}
 
-        self.agent_config = agent_config
-        self.client_tools = {t.get_name(): t for t in client_tools}
         self.sessions: List[str] = []
-        self.tool_parser = tool_parser
-        self.builtin_tools = {}
-        self.extra_headers = extra_headers
-        self._conversation_id: Optional[str] = None
+        self.builtin_tools: Dict[str, Dict[str, Any]] = {}
         self._last_response_id: Optional[str] = None
-        self._model = self.agent_config.model
-        self._instructions = self.agent_config.instructions
+        self._session_last_response_id: Dict[str, Optional[str]] = {}
 
     def initialize(self) -> None:
         # Ensure builtin tools cache is ready
-        if not self.builtin_tools and self.agent_config.toolgroups:
-            for tg in self.agent_config.toolgroups:
+        if not self.builtin_tools and self._toolgroups:
+            for tg in self._toolgroups:
                 toolgroup_id = tg if isinstance(tg, str) else tg.name
                 args = {} if isinstance(tg, str) else tg.args
                 for tool in self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers):
@@ -240,8 +149,8 @@ def create_session(self, session_name: str) -> str:
             extra_headers=self.extra_headers,
             metadata={"name": session_name},
         )
-        self._conversation_id = conversation.id
         self.sessions.append(conversation.id)
+        self._session_last_response_id[conversation.id] = None
         return conversation.id
 
     @staticmethod
@@ -350,7 +259,7 @@ def _run_single_tool(self, tool_call: ToolCall) -> Any:
     def create_turn(
         self,
         messages: List[response_create_params.InputUnionMember1],
-        session_id: Optional[str] = None,
+        session_id: str,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
         stream: bool = True,
@@ -382,7 +291,7 @@ def create_turn(
     def _create_turn_streaming(
         self,
         messages: List[response_create_params.InputUnionMember1],
-        session_id: Optional[str] = None,
+        session_id: str,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
         # TODO: deprecate this
@@ -391,9 +300,8 @@ def _create_turn_streaming(
         _ = toolgroups
         _ = documents
         self.initialize()
-        conversation_id = session_id or self._conversation_id
-        if not conversation_id:
-            conversation_id = self.create_session(session_name="default")
+        conversation_id = session_id
+        self._session_last_response_id.setdefault(conversation_id, None)
 
         request_headers = extra_headers or self.extra_headers
         stream = self.client.responses.create(
@@ -402,7 +310,7 @@ def _create_turn_streaming(
             conversation=conversation_id,
             input=messages,
             stream=True,
-            previous_response_id=self._last_response_id,
+            previous_response_id=self._session_last_response_id.get(conversation_id),
             extra_headers=request_headers,
         )
 
@@ -418,6 +326,7 @@ def _create_turn_streaming(
                         extra_headers=request_headers,
                     )
                     self._last_response_id = event.response_id
+                    self._session_last_response_id[conversation_id] = event.response_id
                     yield AgentStreamChunk(event=event, response=last_response)
                     continue
 
@@ -466,15 +375,15 @@ def _create_turn_streaming(
                             conversation=conversation_id,
                             input=followup_messages,
                             stream=True,
-                            previous_response_id=event.response_id,
+                            previous_response_id=builder.get("response_id", event.response_id),
                             extra_headers=request_headers,
                         )
                         pending_tools.pop(event.call_id, None)
                         restart_stream = True
-                    yield AgentStreamChunk(event=event, response=None)
-                    if restart_stream:
-                        break
-                    continue
+                        yield AgentStreamChunk(event=event, response=None)
+                        if restart_stream:
+                            break
+                        continue
 
                 yield AgentStreamChunk(event=event, response=None)
 
@@ -486,96 +395,36 @@ class AsyncAgent:
     def __init__(
         self,
         client: LlamaStackClient,
-        # begin deprecated
-        agent_config: Optional[AgentConfig] = None,
-        client_tools: Tuple[ClientTool, ...] = (),
-        # end deprecated
-        tool_parser: Optional[ToolParser] = None,
-        model: Optional[str] = None,
-        instructions: Optional[str] = None,
+        *,
+        model: str,
+        instructions: str,
         tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
-        tool_config: Optional[ToolConfig] = None,
-        sampling_params: Optional[SamplingParams] = None,
-        max_infer_iters: Optional[int] = None,
-        input_shields: Optional[List[str]] = None,
-        output_shields: Optional[List[str]] = None,
-        response_format: Optional[ResponseFormat] = None,
-        enable_session_persistence: Optional[bool] = None,
+        tool_parser: Optional[ToolParser] = None,
         extra_headers: Headers | None = None,
-        name: str | None = None,
     ):
-        """Construct an Agent with the given parameters.
-
-        :param client: The LlamaStackClient instance.
-        :param agent_config: The AgentConfig instance.
-            ::deprecated: use other parameters instead
-        :param client_tools: A tuple of ClientTool instances.
-            ::deprecated: use tools instead
-        :param tool_parser: Custom logic that parses tool calls from a message.
-        :param model: The model to use for the agent.
-        :param instructions: The instructions for the agent.
-        :param tools: A list of tools for the agent. Values can be one of the following:
-            - dict representing a toolgroup/tool with arguments: e.g. {"name": "builtin::rag/knowledge_search", "args": {"vector_db_ids": [123]}}
-            - a python function with a docstring. See @client_tool for more details.
-            - str representing a tool within a toolgroup: e.g. "builtin::rag/knowledge_search"
-            - str representing a toolgroup_id: e.g. "builtin::rag", "builtin::code_interpreter", where all tools in the toolgroup will be added to the agent
-            - an instance of ClientTool: A client tool object.
-        :param tool_config: The tool configuration for the agent.
-        :param sampling_params: The sampling parameters for the agent.
-        :param max_infer_iters: The maximum number of inference iterations.
-        :param input_shields: The input shields for the agent.
-        :param output_shields: The output shields for the agent.
-        :param response_format: The response format for the agent.
-        :param enable_session_persistence: Whether to enable session persistence.
-        :param extra_headers: Extra headers to add to all requests sent by the agent.
-        :param name: Optional name for the agent, used in telemetry and identification.
-        """
+        """Construct an async Agent backed by the responses + conversations APIs."""
         self.client = client
 
-        if agent_config is not None:
-            logger.warning("`agent_config` is deprecated. Use inlined parameters instead.")
-        if client_tools != ():
-            logger.warning("`client_tools` is deprecated. Use `tools` instead.")
-
-        # Construct agent_config from parameters if not provided
-        if agent_config is None:
-            agent_config = AgentUtils.get_agent_config(
-                model=model,
-                instructions=instructions,
-                tools=tools,
-                tool_config=tool_config,
-                sampling_params=sampling_params,
-                max_infer_iters=max_infer_iters,
-                input_shields=input_shields,
-                output_shields=output_shields,
-                response_format=response_format,
-                enable_session_persistence=enable_session_persistence,
-                name=name,
-            )
-            client_tools = AgentUtils.get_client_tools(tools)
+        if isinstance(client, LlamaStackClient):
+            raise ValueError("AsyncAgent must be initialized with an AsyncLlamaStackClient")
 
-        self.agent_config = agent_config
-        self.client_tools = {t.get_name(): t for t in client_tools}
-        self.sessions = []
         self.tool_parser = tool_parser
-        self.builtin_tools = {}
         self.extra_headers = extra_headers
-        self._conversation_id: Optional[str] = None
-        self._last_response_id: Optional[str] = None
+        self._model = model
+        self._instructions = instructions
 
-        if isinstance(client, LlamaStackClient):
-            raise ValueError("AsyncAgent must be initialized with an AsyncLlamaStackClient")
-
-        self._model = self.agent_config.model
-        self._instructions = self.agent_config.instructions
+        toolgroups, client_tools = AgentUtils.normalize_tools(tools)
+        self._toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = toolgroups
+        self.client_tools = {tool.get_name(): tool for tool in client_tools}
 
-    @property
-    def agent_id(self) -> str:
-        raise RuntimeError("Agent ID is deprecated in the responses-backed agent")
+        self.sessions: List[str] = []
+        self.builtin_tools: Dict[str, Dict[str, Any]] = {}
+        self._last_response_id: Optional[str] = None
+        self._session_last_response_id: Dict[str, Optional[str]] = {}
 
     async def initialize(self) -> None:
-        if not self.builtin_tools and self.agent_config.toolgroups:
-            for tg in self.agent_config.toolgroups:
+        if not self.builtin_tools and self._toolgroups:
+            for tg in self._toolgroups:
                 toolgroup_id = tg if isinstance(tg, str) else tg.name
                 args = {} if isinstance(tg, str) else tg.args
                 tools = await self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers)
@@ -588,14 +437,14 @@ async def create_session(self, session_name: str) -> str:
             extra_headers=self.extra_headers,
             metadata={"name": session_name},
         )
-        self._conversation_id = conversation.id
         self.sessions.append(conversation.id)
+        self._session_last_response_id[conversation.id] = None
         return conversation.id
 
     async def create_turn(
         self,
         messages: List[response_create_params.InputUnionMember1],
-        session_id: Optional[str] = None,
+        session_id: str,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
         stream: bool = True,
@@ -662,16 +511,15 @@ async def _run_single_tool(self, tool_call: ToolCall) -> Any:
     async def _create_turn_streaming(
         self,
         messages: List[response_create_params.InputUnionMember1],
-        session_id: Optional[str] = None,
+        session_id: str,
         toolgroups: Optional[List[Toolgroup]] = None,
         documents: Optional[List[Document]] = None,
     ) -> AsyncIterator[AgentStreamChunk]:
         _ = toolgroups
         _ = documents
         await self.initialize()
-        conversation_id = session_id or self._conversation_id
-        if not conversation_id:
-            conversation_id = await self.create_session(session_name="default")
+        conversation_id = session_id
+        self._session_last_response_id.setdefault(conversation_id, None)
 
         request_headers = self.extra_headers
         stream = await self.client.responses.create(
@@ -680,7 +528,7 @@ async def _create_turn_streaming(
             conversation=conversation_id,
             input=messages,
             stream=True,
-            previous_response_id=self._last_response_id,
+            previous_response_id=self._session_last_response_id.get(conversation_id),
             extra_headers=request_headers,
         )
 
@@ -696,6 +544,7 @@ async def _create_turn_streaming(
                         extra_headers=request_headers,
                     )
                     self._last_response_id = event.response_id
+                    self._session_last_response_id[conversation_id] = event.response_id
                     yield AgentStreamChunk(event=event, response=last_response)
                     continue
 
@@ -710,6 +559,7 @@ async def _create_turn_streaming(
                     )
                     pending_tools[event.call_id] = {
                         "tool_call": tool_call,
+                        "response_id": event.response_id,
                         "arguments": event.arguments_json or "",
                     }
                     yield AgentStreamChunk(event=event, response=None)
@@ -743,15 +593,15 @@ async def _create_turn_streaming(
                             conversation=conversation_id,
                             input=followup_messages,
                             stream=True,
-                            previous_response_id=event.response_id,
+                            previous_response_id=builder.get("response_id", event.response_id),
                             extra_headers=request_headers,
                         )
                         pending_tools.pop(event.call_id, None)
                         restart_stream = True
-                    yield AgentStreamChunk(event=event, response=None)
-                    if restart_stream:
-                        break
-                    continue
+                        yield AgentStreamChunk(event=event, response=None)
+                        if restart_stream:
+                            break
+                        continue
 
                 yield AgentStreamChunk(event=event, response=None)
 
diff --git a/src/llama_stack_client/lib/agents/react/agent.py b/src/llama_stack_client/lib/agents/react/agent.py
index 919f0420..77e09f40 100644
--- a/src/llama_stack_client/lib/agents/react/agent.py
+++ b/src/llama_stack_client/lib/agents/react/agent.py
@@ -4,27 +4,25 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 import logging
-from typing import Any, Callable, List, Optional, Tuple, Union
+from typing import Any, Callable, Dict, List, Optional, Tuple, Union
 
 from llama_stack_client import LlamaStackClient
-from llama_stack_client.types.agent_create_params import AgentConfig
 from llama_stack_client.types.agents.turn_create_params import Toolgroup
-from llama_stack_client.types.shared_params.agent_config import ToolConfig
-from llama_stack_client.types.shared_params.response_format import ResponseFormat
-from llama_stack_client.types.shared_params.sampling_params import SamplingParams
 
 from ...._types import Headers
 from ..agent import Agent, AgentUtils
 from ..client_tool import ClientTool
 from ..tool_parser import ToolParser
 from .prompts import DEFAULT_REACT_AGENT_SYSTEM_PROMPT_TEMPLATE
-from .tool_parser import ReActOutput, ReActToolParser
+from .tool_parser import ReActToolParser
 
 logger = logging.getLogger(__name__)
 
 
 def get_tool_defs(
-    client: LlamaStackClient, builtin_toolgroups: Tuple[Toolgroup] = (), client_tools: Tuple[ClientTool] = ()
+    client: LlamaStackClient,
+    builtin_toolgroups: Tuple[Union[str, Dict[str, Any], Toolgroup], ...] = (),
+    client_tools: Tuple[ClientTool, ...] = (),
 ):
     tool_defs = []
     for x in builtin_toolgroups:
@@ -57,7 +55,9 @@ def get_tool_defs(
 
 
 def get_default_react_instructions(
-    client: LlamaStackClient, builtin_toolgroups: Tuple[str] = (), client_tools: Tuple[ClientTool] = ()
+    client: LlamaStackClient,
+    builtin_toolgroups: Tuple[Union[str, Dict[str, Any], Toolgroup], ...] = (),
+    client_tools: Tuple[ClientTool, ...] = (),
 ):
     tool_defs = get_tool_defs(client, builtin_toolgroups, client_tools)
     tool_names = ", ".join([x["name"] for x in tool_defs])
@@ -68,161 +68,38 @@ def get_default_react_instructions(
     return instruction
 
 
-def get_agent_config_DEPRECATED(
-    client: LlamaStackClient,
-    model: str,
-    builtin_toolgroups: Tuple[str] = (),
-    client_tools: Tuple[ClientTool] = (),
-    json_response_format: bool = False,
-    custom_agent_config: Optional[AgentConfig] = None,
-) -> AgentConfig:
-    if custom_agent_config is None:
-        instruction = get_default_react_instructions(client, builtin_toolgroups, client_tools)
-
-        # user default toolgroups
-        agent_config = AgentConfig(
-            model=model,
-            instructions=instruction,
-            toolgroups=builtin_toolgroups,
-            client_tools=[client_tool.get_tool_definition() for client_tool in client_tools],
-            tool_config={
-                "tool_choice": "auto",
-                "system_message_behavior": "replace",
-            },
-            input_shields=[],
-            output_shields=[],
-            enable_session_persistence=False,
-        )
-    else:
-        agent_config = custom_agent_config
-
-    if json_response_format:
-        agent_config["response_format"] = {
-            "type": "json_schema",
-            "json_schema": ReActOutput.model_json_schema(),
-        }
-
-    return agent_config
-
-
 class ReActAgent(Agent):
-    """ReAct agent.
-
-    Simple wrapper around Agent to add prepare prompts for creating a ReAct agent from a list of tools.
-    """
-
     def __init__(
         self,
         client: LlamaStackClient,
+        *,
         model: str,
-        tool_parser: ToolParser = ReActToolParser(),
-        instructions: Optional[str] = None,
         tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
-        tool_config: Optional[ToolConfig] = None,
-        sampling_params: Optional[SamplingParams] = None,
-        max_infer_iters: Optional[int] = None,
-        input_shields: Optional[List[str]] = None,
-        output_shields: Optional[List[str]] = None,
-        response_format: Optional[ResponseFormat] = None,
-        enable_session_persistence: Optional[bool] = None,
-        json_response_format: bool = False,
-        builtin_toolgroups: Tuple[str] = (),  # DEPRECATED
-        client_tools: Tuple[ClientTool] = (),  # DEPRECATED
-        custom_agent_config: Optional[AgentConfig] = None,  # DEPRECATED
+        tool_parser: Optional[ToolParser] = None,
+        instructions: Optional[str] = None,
         extra_headers: Headers | None = None,
+        json_response_format: bool = False,
     ):
-        """Construct an Agent with the given parameters.
+        if json_response_format:
+            logger.warning("`json_response_format` is deprecated and will be removed in a future release.")
 
-        :param client: The LlamaStackClient instance.
-        :param custom_agent_config: The AgentConfig instance.
-            ::deprecated: use other parameters instead
-        :param client_tools: A tuple of ClientTool instances.
-            ::deprecated: use tools instead
-        :param builtin_toolgroups: A tuple of Toolgroup instances.
-            ::deprecated: use tools instead
-        :param tool_parser: Custom logic that parses tool calls from a message.
-        :param model: The model to use for the agent.
-        :param instructions: The instructions for the agent.
-        :param tools: A list of tools for the agent. Values can be one of the following:
-            - dict representing a toolgroup/tool with arguments: e.g. {"name": "builtin::rag/knowledge_search", "args": {"vector_db_ids": [123]}}
-            - a python function with a docstring. See @client_tool for more details.
-            - str representing a tool within a toolgroup: e.g. "builtin::rag/knowledge_search"
-            - str representing a toolgroup_id: e.g. "builtin::rag", "builtin::code_interpreter", where all tools in the toolgroup will be added to the agent
-            - an instance of ClientTool: A client tool object.
-        :param tool_config: The tool configuration for the agent.
-        :param sampling_params: The sampling parameters for the agent.
-        :param max_infer_iters: The maximum number of inference iterations.
-        :param input_shields: The input shields for the agent.
-        :param output_shields: The output shields for the agent.
-        :param response_format: The response format for the agent.
-        :param enable_session_persistence: Whether to enable session persistence.
-        :param json_response_format: Whether to use the json response format with default ReAct output schema.
-            ::deprecated: use response_format instead
-        :param extra_headers: Extra headers to add to all requests sent by the agent.
-        """
-        use_deprecated_params = False
-        if custom_agent_config is not None:
-            logger.warning("`custom_agent_config` is deprecated. Use inlined parameters instead.")
-            use_deprecated_params = True
-        if client_tools != ():
-            logger.warning("`client_tools` is deprecated. Use `tools` instead.")
-            use_deprecated_params = True
-        if builtin_toolgroups != ():
-            logger.warning("`builtin_toolgroups` is deprecated. Use `tools` instead.")
-            use_deprecated_params = True
+        if tool_parser is None:
+            tool_parser = ReActToolParser()
 
-        if use_deprecated_params:
-            agent_config = get_agent_config_DEPRECATED(
-                client=client,
-                model=model,
-                builtin_toolgroups=builtin_toolgroups,
-                client_tools=client_tools,
-                json_response_format=json_response_format,
-            )
-            super().__init__(
-                client=client,
-                agent_config=agent_config,
-                client_tools=client_tools,
-                tool_parser=tool_parser,
-                extra_headers=extra_headers,
-            )
-
-        else:
-            if not tool_config:
-                tool_config = {
-                    "tool_choice": "auto",
-                    "system_message_behavior": "replace",
-                }
+        tool_list = tools or []
+        client_tool_instances = AgentUtils.get_client_tools(tool_list)
+        builtin_toolgroups = [x for x in tool_list if isinstance(x, (str, dict, Toolgroup))]
 
-            if json_response_format:
-                if instructions is not None:
-                    logger.warning(
-                        "Using a custom instructions, but json_response_format is set. Please make sure instructions are"
-                        "compatible with the default ReAct output format."
-                    )
-                response_format = {
-                    "type": "json_schema",
-                    "json_schema": ReActOutput.model_json_schema(),
-                }
-
-            # build REACT instructions
-            client_tools = AgentUtils.get_client_tools(tools)
-            builtin_toolgroups = [x for x in tools if isinstance(x, str) or isinstance(x, dict)]
-            if not instructions:
-                instructions = get_default_react_instructions(client, builtin_toolgroups, client_tools)
-
-            super().__init__(
-                client=client,
-                model=model,
-                tool_parser=tool_parser,
-                instructions=instructions,
-                tools=tools,
-                tool_config=tool_config,
-                sampling_params=sampling_params,
-                max_infer_iters=max_infer_iters,
-                input_shields=input_shields,
-                output_shields=output_shields,
-                response_format=response_format,
-                enable_session_persistence=enable_session_persistence,
-                extra_headers=extra_headers,
+        if instructions is None:
+            instructions = get_default_react_instructions(
+                client, tuple(builtin_toolgroups), tuple(client_tool_instances)
             )
+
+        super().__init__(
+            client=client,
+            model=model,
+            instructions=instructions,
+            tools=tool_list,
+            tool_parser=tool_parser,
+            extra_headers=extra_headers,
+        )
diff --git a/tests/integration/test_agent_responses_e2e.py b/tests/integration/test_agent_responses_e2e.py
index 08044553..c35bf4bb 100644
--- a/tests/integration/test_agent_responses_e2e.py
+++ b/tests/integration/test_agent_responses_e2e.py
@@ -1,13 +1,33 @@
 import os
+import time
 
 import pytest
 
-from llama_stack_client.lib.agents.agent import Agent
+from llama_stack_client import BadRequestError
 from llama_stack_client.types import response_create_params
+from llama_stack_client.lib.agents.agent import Agent
 
 MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL")
 BASE_URL = os.environ.get("TEST_API_BASE_URL")
 
+
+def _wrap_response_retrieval(client) -> None:
+    original_retrieve = client.responses.retrieve
+
+    def retrying_retrieve(response_id: str, **kwargs):
+        attempts = 0
+        while True:
+            try:
+                return original_retrieve(response_id, **kwargs)
+            except BadRequestError as exc:
+                if getattr(exc, "status_code", None) != 400 or attempts >= 5:
+                    raise
+                time.sleep(0.2)
+                attempts += 1
+
+    client.responses.retrieve = retrying_retrieve  # type: ignore[assignment]
+
+
 pytestmark = pytest.mark.skipif(
     MODEL_ID is None or BASE_URL in (None, "http://127.0.0.1:4010"),
     reason="requires a running llama stack server and LLAMA_STACK_TEST_MODEL",
@@ -15,12 +35,14 @@
 
 
 def test_agent_create_turn_non_streaming(client) -> None:
+    _wrap_response_retrieval(client)
     agent = Agent(
         client=client,
         model=MODEL_ID,
         instructions="You are a helpful assistant that responds succinctly.",
     )
 
+    session_id = agent.create_session("default")
     messages: list[response_create_params.InputUnionMember1] = [
         {
             "type": "message",
@@ -29,7 +51,7 @@ def test_agent_create_turn_non_streaming(client) -> None:
         }
     ]
 
-    response = agent.create_turn(messages, stream=False)
+    response = agent.create_turn(messages, session_id=session_id, stream=False)
 
     assert response.id.startswith("resp_")
     assert response.model == MODEL_ID
@@ -37,12 +59,14 @@ def test_agent_create_turn_non_streaming(client) -> None:
 
 
 def test_agent_create_turn_streaming(client) -> None:
+    _wrap_response_retrieval(client)
     agent = Agent(
         client=client,
         model=MODEL_ID,
         instructions="You are a helpful assistant that replies in one word.",
     )
 
+    session_id = agent.create_session("default")
     messages: list[response_create_params.InputUnionMember1] = [
         {
             "type": "message",
@@ -51,6 +75,6 @@ def test_agent_create_turn_streaming(client) -> None:
         }
     ]
 
-    chunks = list(agent.create_turn(messages, stream=True))
+    chunks = list(agent.create_turn(messages, session_id=session_id, stream=True))
     assert any(chunk.response for chunk in chunks)
     assert agent._last_response_id is not None
diff --git a/tests/lib/agents/test_agent_responses.py b/tests/lib/agents/test_agent_responses.py
index 9ed32151..a5004c13 100644
--- a/tests/lib/agents/test_agent_responses.py
+++ b/tests/lib/agents/test_agent_responses.py
@@ -1,17 +1,17 @@
-import os
 from types import SimpleNamespace
-from typing import Dict, Iterable, List, Optional
+from typing import Any, Dict, List, Iterable, Optional
 
 import pytest
 
 from llama_stack_client.lib.agents.agent import Agent
 from llama_stack_client.lib.agents.client_tool import client_tool
 from llama_stack_client.lib.agents.stream_events import (
-    AgentResponseCompleted,
-    AgentResponseStarted,
     AgentStreamEvent,
-    AgentToolCallCompleted,
+    AgentToolCallDelta,
     AgentToolCallIssued,
+    AgentResponseStarted,
+    AgentResponseCompleted,
+    AgentToolCallCompleted,
 )
 
 
@@ -31,15 +31,26 @@ def __init__(self, response_id: str, turn_id: str) -> None:
 
 
 class FakeResponsesAPI:
-    def __init__(self, event_registry: Dict[object, Iterable[AgentStreamEvent]], responses: Dict[str, FakeResponse]) -> None:
+    def __init__(
+        self,
+        event_registry: Dict[object, Iterable[AgentStreamEvent]],
+        responses: Dict[str, FakeResponse],
+        event_script: Optional[List[List[AgentStreamEvent]]] = None,
+    ) -> None:
         self._event_registry = event_registry
         self._responses = responses
-        self.create_calls: List[Dict[str, Optional[str]]] = []
+        self.create_calls: List[Dict[str, object]] = []
+        self._event_script = list(event_script or [])
 
-    def create(self, *, previous_response_id: Optional[str] = None, **_: object) -> object:
+    def create(self, *, previous_response_id: Optional[str] = None, **kwargs: object) -> object:
         stream = object()
-        self.create_calls.append({"previous_response_id": previous_response_id})
-        if previous_response_id is None:
+        record: Dict[str, object] = {"previous_response_id": previous_response_id}
+        record.update(kwargs)
+        self.create_calls.append(record)
+
+        if self._event_script:
+            self._event_registry[stream] = self._event_script.pop(0)
+        elif previous_response_id is None:
             self._event_registry[stream] = [
                 AgentResponseStarted(type="response_started", response_id="resp_0"),
                 AgentToolCallIssued(
@@ -67,6 +78,152 @@ def create(self, *, previous_response_id: Optional[str] = None, **_: object) ->
     def retrieve(self, response_id: str, **_: object) -> FakeResponse:
         return self._responses[response_id]
 
+def test_agent_tracks_multiple_sessions(monkeypatch: pytest.MonkeyPatch) -> None:
+    event_registry: Dict[object, Iterable[AgentStreamEvent]] = {}
+    responses = {
+        "resp_a1": FakeResponse("resp_a1", "turn_a1"),
+        "resp_a2": FakeResponse("resp_a2", "turn_a2"),
+        "resp_b1": FakeResponse("resp_b1", "turn_b1"),
+    }
+    scripted_events = [
+        [AgentResponseCompleted(type="response_completed", response_id="resp_a1")],
+        [AgentResponseCompleted(type="response_completed", response_id="resp_b1")],
+        [AgentResponseCompleted(type="response_completed", response_id="resp_a2")],
+    ]
+    client = FakeClient(event_registry, responses, event_script=scripted_events)  # type: ignore[arg-type]
+
+    def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
+        return event_registry[stream]
+
+    monkeypatch.setattr("llama_stack_client.lib.agents.agent.iter_agent_events", fake_iter_agent_events)
+
+    agent = Agent(
+        client=client,  # type: ignore[arg-type]
+        model="test-model",
+        instructions="test",
+    )
+
+    session_a = agent.create_session("A")
+    session_b = agent.create_session("B")
+
+    message = {
+        "type": "message",
+        "role": "user",
+        "content": [{"type": "input_text", "text": "hi"}],
+    }
+
+    agent.create_turn([message], session_id=session_a, stream=False)
+    agent.create_turn([message], session_id=session_b, stream=False)
+    agent.create_turn([message], session_id=session_a, stream=False)
+
+    calls = client.responses.create_calls
+    assert calls[0]["conversation"] == session_a
+    assert calls[0]["previous_response_id"] is None
+    assert calls[1]["conversation"] == session_b
+    assert calls[1]["previous_response_id"] is None
+    assert calls[2]["conversation"] == session_a
+    assert calls[2]["previous_response_id"] == "resp_a1"
+    assert agent._session_last_response_id[session_a] == "resp_a2"
+    assert agent._session_last_response_id[session_b] == "resp_b1"
+
+
+def test_agent_streams_server_and_client_tools(monkeypatch: pytest.MonkeyPatch) -> None:
+    event_registry: Dict[object, Iterable[AgentStreamEvent]] = {}
+    responses = {
+        "resp_final": FakeResponse("resp_final", "turn_final"),
+    }
+    event_script = [
+        [
+            AgentResponseStarted(type="response_started", response_id="resp_0"),
+            AgentToolCallIssued(
+                type="tool_call_issued",
+                response_id="resp_0",
+                output_index=0,
+                call_id="server_call",
+                name="server_tool",
+                arguments_json="",
+            ),
+            AgentToolCallDelta(
+                type="tool_call_delta",
+                response_id="resp_0",
+                output_index=0,
+                call_id="server_call",
+                arguments_delta='{"value": ',
+            ),
+            AgentToolCallDelta(
+                type="tool_call_delta",
+                response_id="resp_0",
+                output_index=0,
+                call_id="server_call",
+                arguments_delta='1}',
+            ),
+            AgentToolCallCompleted(
+                type="tool_call_completed",
+                response_id="resp_0",
+                output_index=0,
+                call_id="server_call",
+                arguments_json='{"value": 1}',
+            ),
+        ],
+        [
+            AgentToolCallIssued(
+                type="tool_call_issued",
+                response_id="resp_1",
+                output_index=0,
+                call_id="client_call",
+                name="echo_tool",
+                arguments_json='{"text": "pong"}',
+            ),
+            AgentToolCallCompleted(
+                type="tool_call_completed",
+                response_id="resp_1",
+                output_index=0,
+                call_id="client_call",
+                arguments_json='{"text": "pong"}',
+            ),
+        ],
+        [
+            AgentResponseCompleted(type="response_completed", response_id="resp_final"),
+        ],
+    ]
+    client = FakeClient(event_registry, responses, event_script=event_script)  # type: ignore[arg-type]
+
+    def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
+        return event_registry[stream]
+
+    monkeypatch.setattr("llama_stack_client.lib.agents.agent.iter_agent_events", fake_iter_agent_events)
+
+    server_calls: List[Dict[str, Any]] = []
+
+    def fake_invoke_tool(*, tool_name: str, kwargs: Dict[str, Any], extra_headers: object | None = None) -> SimpleNamespace:
+        _ = extra_headers
+        server_calls.append({"tool_name": tool_name, "kwargs": kwargs})
+        return SimpleNamespace(content={"result": "ok"})
+
+    client.tool_runtime.invoke_tool = fake_invoke_tool  # type: ignore[assignment]
+
+    agent = Agent(
+        client=client,  # type: ignore[arg-type]
+        model="test-model",
+        instructions="use tools",
+        tools=[echo_tool],
+    )
+    agent.builtin_tools["server_tool"] = {}
+
+    session_id = agent.create_session("default")
+    messages = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "run tools"}],
+        }
+    ]
+
+    chunks = list(agent.create_turn(messages, session_id=session_id, stream=True))
+
+    assert any(isinstance(chunk.event, AgentResponseCompleted) for chunk in chunks)
+    assert server_calls == [{"tool_name": "server_tool", "kwargs": {"value": 1}}]
+    assert any(call["previous_response_id"] == "resp_0" for call in client.responses.create_calls if call.get("conversation"))
 
 class FakeConversationsAPI:
     def __init__(self) -> None:
@@ -88,8 +245,13 @@ def invoke_tool(self, **_: object) -> None:  # pragma: no cover - not exercised
 
 
 class FakeClient:
-    def __init__(self, event_registry: Dict[object, Iterable[AgentStreamEvent]], responses: Dict[str, FakeResponse]) -> None:
-        self.responses = FakeResponsesAPI(event_registry, responses)
+    def __init__(
+        self,
+        event_registry: Dict[object, Iterable[AgentStreamEvent]],
+        responses: Dict[str, FakeResponse],
+        event_script: Optional[List[List[AgentStreamEvent]]] = None,
+    ) -> None:
+        self.responses = FakeResponsesAPI(event_registry, responses, event_script=event_script)
         self.conversations = FakeConversationsAPI()
         self.tools = FakeToolsAPI()
         self.tool_runtime = FakeToolRuntimeAPI()
@@ -125,6 +287,7 @@ def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
         tools=[echo_tool],
     )
 
+    session_id = agent.create_session("default")
     messages = [
         {
             "type": "message",
@@ -133,7 +296,7 @@ def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
         }
     ]
 
-    response = agent.create_turn(messages, stream=False)
+    response = agent.create_turn(messages, session_id=session_id, stream=False)
 
     assert response is fake_response
     assert len(client.responses.create_calls) == 2

From 63bf76f84ba6a68f72d565cc2538870386939f83 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Mon, 13 Oct 2025 09:36:14 -0700
Subject: [PATCH 05/15] Implement turn/step event model for responses-based
 agent

This commit implements a high-level turn and step event model that wraps
the low-level responses API stream events. The new model provides semantic
meaning to agent interactions and distinguishes between server-side and
client-side tool execution.

Key changes:
- Add turn_events.py with new event dataclasses (TurnStarted, StepProgress, etc.)
- Add event_synthesizer.py for stateful event translation
- Update Agent and AsyncAgent to use new event system
- Update event_logger.py to work with new event structures
- Separate server-side tools (file_search, web_search) from client-side function calls

The turn model represents a complete interaction loop that may span multiple
responses, with distinct inference and tool_execution steps. Server-side tools
execute within responses and are logged as progress events, while client-side
function tools trigger separate tool execution steps.
---
 src/llama_stack_client/lib/agents/agent.py    | 585 +++++++++---------
 .../lib/agents/event_logger.py                | 259 ++++----
 .../lib/agents/event_synthesizer.py           | 292 +++++++++
 .../lib/agents/turn_events.py                 | 281 +++++++++
 4 files changed, 982 insertions(+), 435 deletions(-)
 create mode 100644 src/llama_stack_client/lib/agents/event_synthesizer.py
 create mode 100644 src/llama_stack_client/lib/agents/turn_events.py

diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index b2b2883b..20dd64eb 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -5,10 +5,10 @@
 # the root directory of this source tree.
 import json
 import logging
-from dataclasses import dataclass
 from typing import Any, AsyncIterator, Callable, Dict, Iterator, List, Optional, Tuple, Union, TypedDict
+from uuid import uuid4
 
-from llama_stack_client import LlamaStackClient
+from llama_stack_client import LlamaStackClient, AsyncLlamaStackClient
 from llama_stack_client.types import ResponseObject
 from llama_stack_client.types import response_create_params
 from llama_stack_client.types.alpha.tool_response import ToolResponse
@@ -21,14 +21,17 @@
 from .client_tool import ClientTool, client_tool
 from .tool_parser import ToolParser
 from .stream_events import (
-    AgentResponseCompleted,
     AgentResponseFailed,
-    AgentStreamEvent,
-    AgentToolCallCompleted,
-    AgentToolCallDelta,
-    AgentToolCallIssued,
     iter_agent_events,
 )
+from .turn_events import (
+    AgentStreamChunk,
+    StepCompleted,
+    StepStarted,
+    TurnFailed,
+    ToolExecutionStepResult,
+)
+from .event_synthesizer import TurnEventSynthesizer
 
 
 class ToolResponsePayload(TypedDict):
@@ -40,72 +43,62 @@ class ToolResponsePayload(TypedDict):
 logger = logging.getLogger(__name__)
 
 
-@dataclass
-class AgentStreamChunk:
-    event: AgentStreamEvent
-    response: Optional[ResponseObject]
-
-
-class AgentUtils:
-    @staticmethod
-    def get_client_tools(
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
-    ) -> List[ClientTool]:
-        if not tools:
-            return []
-
-        # Wrap any function in client_tool decorator
-        tools = [client_tool(tool) if (callable(tool) and not isinstance(tool, ClientTool)) else tool for tool in tools]
-        return [tool for tool in tools if isinstance(tool, ClientTool)]
-
+class ToolUtils:
     @staticmethod
-    def get_tool_calls(chunk: AgentStreamChunk, tool_parser: Optional[ToolParser] = None) -> List[ToolCall]:
-        if not isinstance(chunk.event, AgentToolCallIssued):
-            return []
-
-        tool_call = ToolCall(
-            call_id=chunk.event.call_id,
-            tool_name=chunk.event.name,
-            arguments=chunk.event.arguments_json,
-        )
-
-        if tool_parser:
-            completion = CompletionMessage(
-                role="assistant",
-                content="",
-                tool_calls=[tool_call],
-                stop_reason="end_of_turn",
-            )
-            return tool_parser.get_tool_calls(completion)
-
-        return [tool_call]
+    def coerce_tool_content(content: Any) -> str:
+        if isinstance(content, str):
+            return content
+        if content is None:
+            return ""
+        if isinstance(content, (dict, list)):
+            try:
+                return json.dumps(content)
+            except TypeError:
+                return str(content)
+        return str(content)
 
     @staticmethod
-    def get_turn_id(chunk: AgentStreamChunk) -> Optional[str]:
-        return chunk.response.turn.turn_id if chunk.response else None
+    def parse_tool_arguments(arguments: Any) -> Dict[str, Any]:
+        if isinstance(arguments, dict):
+            return arguments
+        if not arguments:
+            return {}
+        if isinstance(arguments, str):
+            try:
+                parsed = json.loads(arguments)
+            except json.JSONDecodeError:
+                logger.warning("Failed to decode tool arguments JSON", exc_info=True)
+                return {}
+            if isinstance(parsed, dict):
+                return parsed
+            logger.warning("Tool arguments JSON did not decode into a dict: %s", type(parsed))
+            return {}
+        logger.warning("Unsupported tool arguments type: %s", type(arguments))
+        return {}
 
     @staticmethod
-    def normalize_tools(
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
-    ) -> Tuple[List[Union[Toolgroup, str, Dict[str, Any]]], List[ClientTool]]:
-        if not tools:
-            return [], []
-
-        normalized: List[Union[Toolgroup, ClientTool, Callable[..., Any], str, Dict[str, Any]]] = [
-            client_tool(tool) if (callable(tool) and not isinstance(tool, ClientTool)) else tool for tool in tools
-        ]
-        client_tool_instances = [tool for tool in normalized if isinstance(tool, ClientTool)]
+    def normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
+        if isinstance(tool_response, ToolResponse):
+            payload: ToolResponsePayload = {
+                "call_id": tool_response.call_id,
+                "tool_name": str(tool_response.tool_name),
+                "content": ToolUtils.coerce_tool_content(tool_response.content),
+            }
+            return payload
 
-        toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = []
-        for tool in normalized:
-            if isinstance(tool, ClientTool):
-                continue
-            if isinstance(tool, (str, dict, Toolgroup)):
-                toolgroups.append(tool)
-                continue
-            raise TypeError(f"Unsupported tool type: {type(tool)!r}")
+        if isinstance(tool_response, dict):
+            call_id = tool_response.get("call_id")
+            tool_name = tool_response.get("tool_name")
+            if call_id is None or tool_name is None:
+                raise KeyError("Tool response missing required keys 'call_id' or 'tool_name'")
+            payload: ToolResponsePayload = {
+                "call_id": str(call_id),
+                "tool_name": str(tool_name),
+                "content": ToolUtils.coerce_tool_content(tool_response.get("content")),
+            }
+            return payload
 
-        return toolgroups, client_tool_instances
+        raise TypeError(f"Unsupported tool response type: {type(tool_response)!r}")
 
 
 class Agent:
@@ -133,7 +126,7 @@ def __init__(
         self.sessions: List[str] = []
         self.builtin_tools: Dict[str, Dict[str, Any]] = {}
         self._last_response_id: Optional[str] = None
-        self._session_last_response_id: Dict[str, Optional[str]] = {}
+        self._session_last_response_id: Dict[str, str] = {}
 
     def initialize(self) -> None:
         # Ensure builtin tools cache is ready
@@ -150,70 +143,13 @@ def create_session(self, session_name: str) -> str:
             metadata={"name": session_name},
         )
         self.sessions.append(conversation.id)
-        self._session_last_response_id[conversation.id] = None
         return conversation.id
 
-    @staticmethod
-    def _coerce_tool_content(content: Any) -> str:
-        if isinstance(content, str):
-            return content
-        if content is None:
-            return ""
-        if isinstance(content, (dict, list)):
-            try:
-                return json.dumps(content)
-            except TypeError:
-                return str(content)
-        return str(content)
-
-    @staticmethod
-    def _parse_tool_arguments(arguments: Any) -> Dict[str, Any]:
-        if isinstance(arguments, dict):
-            return arguments
-        if not arguments:
-            return {}
-        if isinstance(arguments, str):
-            try:
-                parsed = json.loads(arguments)
-            except json.JSONDecodeError:
-                logger.warning("Failed to decode tool arguments JSON", exc_info=True)
-                return {}
-            if isinstance(parsed, dict):
-                return parsed
-            logger.warning("Tool arguments JSON did not decode into a dict: %s", type(parsed))
-            return {}
-        logger.warning("Unsupported tool arguments type: %s", type(arguments))
-        return {}
-
-    @staticmethod
-    def _normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
-        if isinstance(tool_response, ToolResponse):
-            payload: ToolResponsePayload = {
-                "call_id": tool_response.call_id,
-                "tool_name": str(tool_response.tool_name),
-                "content": Agent._coerce_tool_content(tool_response.content),
-            }
-            return payload
-
-        if isinstance(tool_response, dict):
-            call_id = tool_response.get("call_id")
-            tool_name = tool_response.get("tool_name")
-            if call_id is None or tool_name is None:
-                raise KeyError("Tool response missing required keys 'call_id' or 'tool_name'")
-            payload: ToolResponsePayload = {
-                "call_id": str(call_id),
-                "tool_name": str(tool_name),
-                "content": Agent._coerce_tool_content(tool_response.get("content")),
-            }
-            return payload
-
-        raise TypeError(f"Unsupported tool response type: {type(tool_response)!r}")
-
     def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponsePayload]:
         responses: List[ToolResponsePayload] = []
         for tool_call in tool_calls:
             raw_result = self._run_single_tool(tool_call)
-            responses.append(self._normalize_tool_response(raw_result))
+            responses.append(ToolUtils.normalize_tool_response(raw_result))
         return responses
 
     def _run_single_tool(self, tool_call: ToolCall) -> Any:
@@ -234,7 +170,7 @@ def _run_single_tool(self, tool_call: ToolCall) -> Any:
 
         # builtin tools executed by tool_runtime
         if tool_call.tool_name in self.builtin_tools:
-            tool_args = self._parse_tool_arguments(tool_call.arguments)
+            tool_args = ToolUtils.parse_tool_arguments(tool_call.arguments)
             tool_result = self.client.tool_runtime.invoke_tool(
                 tool_name=tool_call.tool_name,
                 kwargs={
@@ -246,7 +182,7 @@ def _run_single_tool(self, tool_call: ToolCall) -> Any:
             return {
                 "call_id": tool_call.call_id,
                 "tool_name": tool_call.tool_name,
-                "content": self._coerce_tool_content(tool_result.content),
+                "content": ToolUtils.coerce_tool_content(tool_result.content),
             }
 
         # cannot find tools
@@ -300,101 +236,98 @@ def _create_turn_streaming(
         _ = toolgroups
         _ = documents
         self.initialize()
-        conversation_id = session_id
-        self._session_last_response_id.setdefault(conversation_id, None)
 
-        request_headers = extra_headers or self.extra_headers
-        stream = self.client.responses.create(
-            model=self._model,
-            instructions=self._instructions,
-            conversation=conversation_id,
-            input=messages,
-            stream=True,
-            previous_response_id=self._session_last_response_id.get(conversation_id),
-            extra_headers=request_headers,
-        )
+        # Generate turn_id
+        turn_id = f"turn_{uuid4().hex[:12]}"
 
-        last_response: Optional[ResponseObject] = None
-        pending_tools: Dict[str, Dict[str, Any]] = {}
+        # Create synthesizer
+        synthesizer = TurnEventSynthesizer(session_id=session_id, turn_id=turn_id)
 
+        request_headers = extra_headers or self.extra_headers
+
+        # Main turn loop
         while True:
-            restart_stream = False
-            for event in iter_agent_events(stream):
-                if isinstance(event, AgentResponseCompleted):
-                    last_response = self.client.responses.retrieve(
-                        event.response_id,
-                        extra_headers=request_headers,
-                    )
-                    self._last_response_id = event.response_id
-                    self._session_last_response_id[conversation_id] = event.response_id
-                    yield AgentStreamChunk(event=event, response=last_response)
-                    continue
-
-                if isinstance(event, AgentResponseFailed):
-                    raise RuntimeError(event.error_message)
-
-                if isinstance(event, AgentToolCallIssued):
-                    tool_call = ToolCall(
-                        call_id=event.call_id,
-                        tool_name=event.name,
-                        arguments=event.arguments_json,
-                    )
-                    pending_tools[event.call_id] = {
-                        "tool_call": tool_call,
-                        "response_id": event.response_id,
-                        "arguments": event.arguments_json or "",
-                    }
-                    yield AgentStreamChunk(event=event, response=None)
-                    continue
-
-                if isinstance(event, AgentToolCallDelta):
-                    builder = pending_tools.get(event.call_id)
-                    if builder and event.arguments_delta:
-                        builder["arguments"] = builder.get("arguments", "") + event.arguments_delta
-                        builder["tool_call"].arguments = builder["arguments"]
-                    yield AgentStreamChunk(event=event, response=None)
-                    continue
-
-                if isinstance(event, AgentToolCallCompleted):
-                    builder = pending_tools.get(event.call_id)
-                    if builder:
-                        arguments = event.arguments_json or builder.get("arguments") or ""
-                        builder["tool_call"].arguments = arguments
-                        tool_responses = self._run_tool_calls([builder["tool_call"]])
-                        followup_messages: List[response_create_params.InputUnionMember1] = [
-                            response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                                type="function_call_output",
-                                call_id=payload["call_id"],
-                                output=payload["content"],
-                            )
-                            for payload in tool_responses
-                        ]
-                        stream = self.client.responses.create(
-                            model=self._model,
-                            instructions=self._instructions,
-                            conversation=conversation_id,
-                            input=followup_messages,
-                            stream=True,
-                            previous_response_id=builder.get("response_id", event.response_id),
-                            extra_headers=request_headers,
-                        )
-                        pending_tools.pop(event.call_id, None)
-                        restart_stream = True
-                        yield AgentStreamChunk(event=event, response=None)
-                        if restart_stream:
-                            break
-                        continue
+            # Create response stream
+            raw_stream = self.client.responses.create(
+                model=self._model,
+                instructions=self._instructions,
+                conversation=session_id,
+                input=messages,
+                stream=True,
+                extra_headers=request_headers,
+            )
 
-                yield AgentStreamChunk(event=event, response=None)
+            # Process events
+            function_calls_to_execute: List[ToolCall] = []  # Only client-side!
 
-            if not restart_stream:
+            for low_level_event in iter_agent_events(raw_stream):
+                # Handle failures
+                if isinstance(low_level_event, AgentResponseFailed):
+                    yield AgentStreamChunk(
+                        event=TurnFailed(
+                            turn_id=turn_id, session_id=session_id, error_message=low_level_event.error_message
+                        )
+                    )
+                    return
+
+                # Feed to synthesizer
+                for high_level_event in synthesizer.process_low_level_event(low_level_event):
+                    # Track function calls that need client execution
+                    if isinstance(high_level_event, StepCompleted):
+                        if high_level_event.step_type == "inference":
+                            result = high_level_event.result
+                            if result.function_calls:  # Only client-side function calls
+                                function_calls_to_execute = result.function_calls
+
+                    yield AgentStreamChunk(event=high_level_event)
+
+            # Enrich server-side tool executions with results from ResponseObject
+            response = self.client.responses.retrieve(
+                synthesizer.current_response_id or "", extra_headers=request_headers
+            )
+            synthesizer.enrich_with_response(response)
+
+            # If no client-side function calls, turn is done
+            if not function_calls_to_execute:
+                # Emit TurnCompleted
+                for event in synthesizer.finish_turn(response):
+                    yield AgentStreamChunk(event=event, response=response)
+                self._last_response_id = response.id
+                self._session_last_response_id[session_id] = response.id
                 break
 
+            # Execute client-side tools (emit tool execution step events)
+            tool_step_id = f"{turn_id}_step_{synthesizer.step_counter}"
+            synthesizer.step_counter += 1
+
+            yield AgentStreamChunk(event=StepStarted(step_id=tool_step_id, step_type="tool_execution", turn_id=turn_id))
+
+            tool_responses = self._run_tool_calls(function_calls_to_execute)
+
+            yield AgentStreamChunk(
+                event=StepCompleted(
+                    step_id=tool_step_id,
+                    step_type="tool_execution",
+                    turn_id=turn_id,
+                    result=ToolExecutionStepResult(
+                        step_id=tool_step_id, tool_calls=function_calls_to_execute, tool_responses=tool_responses
+                    ),
+                )
+            )
+
+            # Continue loop with tool outputs as input
+            messages = [
+                response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
+                    type="function_call_output", call_id=payload["call_id"], output=payload["content"]
+                )
+                for payload in tool_responses
+            ]
+
 
 class AsyncAgent:
     def __init__(
         self,
-        client: LlamaStackClient,
+        client: AsyncLlamaStackClient,
         *,
         model: str,
         instructions: str,
@@ -420,7 +353,7 @@ def __init__(
         self.sessions: List[str] = []
         self.builtin_tools: Dict[str, Dict[str, Any]] = {}
         self._last_response_id: Optional[str] = None
-        self._session_last_response_id: Dict[str, Optional[str]] = {}
+        self._session_last_response_id: Dict[str, str] = {}
 
     async def initialize(self) -> None:
         if not self.builtin_tools and self._toolgroups:
@@ -438,7 +371,6 @@ async def create_session(self, session_name: str) -> str:
             metadata={"name": session_name},
         )
         self.sessions.append(conversation.id)
-        self._session_last_response_id[conversation.id] = None
         return conversation.id
 
     async def create_turn(
@@ -465,7 +397,7 @@ async def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponse
         responses: List[ToolResponsePayload] = []
         for tool_call in tool_calls:
             raw_result = await self._run_single_tool(tool_call)
-            responses.append(Agent._normalize_tool_response(raw_result))
+            responses.append(ToolUtils.normalize_tool_response(raw_result))
         return responses
 
     async def _run_single_tool(self, tool_call: ToolCall) -> Any:
@@ -486,7 +418,7 @@ async def _run_single_tool(self, tool_call: ToolCall) -> Any:
 
         # builtin tools executed by tool_runtime
         if tool_call.tool_name in self.builtin_tools:
-            tool_args = Agent._parse_tool_arguments(tool_call.arguments)
+            tool_args = ToolUtils.parse_tool_arguments(tool_call.arguments)
             tool_result = await self.client.tool_runtime.invoke_tool(
                 tool_name=tool_call.tool_name,
                 kwargs={
@@ -498,7 +430,7 @@ async def _run_single_tool(self, tool_call: ToolCall) -> Any:
             return {
                 "call_id": tool_call.call_id,
                 "tool_name": tool_call.tool_name,
-                "content": Agent._coerce_tool_content(tool_result.content),
+                "content": ToolUtils.coerce_tool_content(tool_result.content),
             }
 
         # cannot find tools
@@ -518,92 +450,151 @@ async def _create_turn_streaming(
         _ = toolgroups
         _ = documents
         await self.initialize()
-        conversation_id = session_id
-        self._session_last_response_id.setdefault(conversation_id, None)
 
-        request_headers = self.extra_headers
-        stream = await self.client.responses.create(
-            model=self._model,
-            instructions=self._instructions,
-            conversation=conversation_id,
-            input=messages,
-            stream=True,
-            previous_response_id=self._session_last_response_id.get(conversation_id),
-            extra_headers=request_headers,
-        )
+        # Generate turn_id
+        turn_id = f"turn_{uuid4().hex[:12]}"
 
-        last_response: Optional[ResponseObject] = None
-        pending_tools: Dict[str, Dict[str, Any]] = {}
+        # Create synthesizer
+        synthesizer = TurnEventSynthesizer(session_id=session_id, turn_id=turn_id)
 
+        request_headers = self.extra_headers
+
+        # Main turn loop
         while True:
-            restart_stream = False
-            async for event in iter_agent_events(stream):
-                if isinstance(event, AgentResponseCompleted):
-                    last_response = await self.client.responses.retrieve(
-                        event.response_id,
-                        extra_headers=request_headers,
-                    )
-                    self._last_response_id = event.response_id
-                    self._session_last_response_id[conversation_id] = event.response_id
-                    yield AgentStreamChunk(event=event, response=last_response)
-                    continue
-
-                if isinstance(event, AgentResponseFailed):
-                    raise RuntimeError(event.error_message)
-
-                if isinstance(event, AgentToolCallIssued):
-                    tool_call = ToolCall(
-                        call_id=event.call_id,
-                        tool_name=event.name,
-                        arguments=event.arguments_json,
-                    )
-                    pending_tools[event.call_id] = {
-                        "tool_call": tool_call,
-                        "response_id": event.response_id,
-                        "arguments": event.arguments_json or "",
-                    }
-                    yield AgentStreamChunk(event=event, response=None)
-                    continue
-
-                if isinstance(event, AgentToolCallDelta):
-                    builder = pending_tools.get(event.call_id)
-                    if builder and event.arguments_delta:
-                        builder["arguments"] = builder.get("arguments", "") + event.arguments_delta
-                        builder["tool_call"].arguments = builder["arguments"]
-                    yield AgentStreamChunk(event=event, response=None)
-                    continue
-
-                if isinstance(event, AgentToolCallCompleted):
-                    builder = pending_tools.get(event.call_id)
-                    if builder:
-                        arguments = event.arguments_json or builder.get("arguments") or ""
-                        builder["tool_call"].arguments = arguments
-                        tool_responses = await self._run_tool_calls([builder["tool_call"]])
-                        followup_messages: List[response_create_params.InputUnionMember1] = [
-                            response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                                type="function_call_output",
-                                call_id=payload["call_id"],
-                                output=payload["content"],
-                            )
-                            for payload in tool_responses
-                        ]
-                        stream = await self.client.responses.create(
-                            model=self._model,
-                            instructions=self._instructions,
-                            conversation=conversation_id,
-                            input=followup_messages,
-                            stream=True,
-                            previous_response_id=builder.get("response_id", event.response_id),
-                            extra_headers=request_headers,
-                        )
-                        pending_tools.pop(event.call_id, None)
-                        restart_stream = True
-                        yield AgentStreamChunk(event=event, response=None)
-                        if restart_stream:
-                            break
-                        continue
+            # Create response stream
+            raw_stream = await self.client.responses.create(
+                model=self._model,
+                instructions=self._instructions,
+                conversation=session_id,
+                input=messages,
+                stream=True,
+                extra_headers=request_headers,
+            )
 
-                yield AgentStreamChunk(event=event, response=None)
+            # Process events
+            function_calls_to_execute: List[ToolCall] = []  # Only client-side!
 
-            if not restart_stream:
+            async for low_level_event in iter_agent_events(raw_stream):
+                # Handle failures
+                if isinstance(low_level_event, AgentResponseFailed):
+                    yield AgentStreamChunk(
+                        event=TurnFailed(
+                            turn_id=turn_id, session_id=session_id, error_message=low_level_event.error_message
+                        )
+                    )
+                    return
+
+                # Feed to synthesizer
+                for high_level_event in synthesizer.process_low_level_event(low_level_event):
+                    # Track function calls that need client execution
+                    if isinstance(high_level_event, StepCompleted):
+                        if high_level_event.step_type == "inference":
+                            result = high_level_event.result
+                            if result.function_calls:  # Only client-side function calls
+                                function_calls_to_execute = result.function_calls
+
+                    yield AgentStreamChunk(event=high_level_event)
+
+            # Enrich server-side tool executions with results from ResponseObject
+            response = await self.client.responses.retrieve(
+                synthesizer.current_response_id or "", extra_headers=request_headers
+            )
+            synthesizer.enrich_with_response(response)
+
+            # If no client-side function calls, turn is done
+            if not function_calls_to_execute:
+                # Emit TurnCompleted
+                for event in synthesizer.finish_turn(response):
+                    yield AgentStreamChunk(event=event, response=response)
+                self._last_response_id = response.id
+                self._session_last_response_id[session_id] = response.id
                 break
+
+            # Execute client-side tools (emit tool execution step events)
+            tool_step_id = f"{turn_id}_step_{synthesizer.step_counter}"
+            synthesizer.step_counter += 1
+
+            yield AgentStreamChunk(event=StepStarted(step_id=tool_step_id, step_type="tool_execution", turn_id=turn_id))
+
+            tool_responses = await self._run_tool_calls(function_calls_to_execute)
+
+            yield AgentStreamChunk(
+                event=StepCompleted(
+                    step_id=tool_step_id,
+                    step_type="tool_execution",
+                    turn_id=turn_id,
+                    result=ToolExecutionStepResult(
+                        step_id=tool_step_id, tool_calls=function_calls_to_execute, tool_responses=tool_responses
+                    ),
+                )
+            )
+
+            # Continue loop with tool outputs as input
+            messages = [
+                response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
+                    type="function_call_output", call_id=payload["call_id"], output=payload["content"]
+                )
+                for payload in tool_responses
+            ]
+
+
+class AgentUtils:
+    @staticmethod
+    def get_client_tools(
+        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
+    ) -> List[ClientTool]:
+        if not tools:
+            return []
+
+        # Wrap any function in client_tool decorator
+        tools = [client_tool(tool) if (callable(tool) and not isinstance(tool, ClientTool)) else tool for tool in tools]
+        return [tool for tool in tools if isinstance(tool, ClientTool)]
+
+    @staticmethod
+    def get_tool_calls(chunk: AgentStreamChunk, tool_parser: Optional[ToolParser] = None) -> List[ToolCall]:
+        if not isinstance(chunk.event, AgentToolCallIssued):
+            return []
+
+        tool_call = ToolCall(
+            call_id=chunk.event.call_id,
+            tool_name=chunk.event.name,
+            arguments=chunk.event.arguments_json,
+        )
+
+        if tool_parser:
+            completion = CompletionMessage(
+                role="assistant",
+                content="",
+                tool_calls=[tool_call],
+                stop_reason="end_of_turn",
+            )
+            return tool_parser.get_tool_calls(completion)
+
+        return [tool_call]
+
+    @staticmethod
+    def get_turn_id(chunk: AgentStreamChunk) -> Optional[str]:
+        return chunk.response.turn.turn_id if chunk.response else None
+
+    @staticmethod
+    def normalize_tools(
+        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
+    ) -> Tuple[List[Union[Toolgroup, str, Dict[str, Any]]], List[ClientTool]]:
+        if not tools:
+            return [], []
+
+        normalized: List[Union[Toolgroup, ClientTool, Callable[..., Any], str, Dict[str, Any]]] = [
+            client_tool(tool) if (callable(tool) and not isinstance(tool, ClientTool)) else tool for tool in tools
+        ]
+        client_tool_instances = [tool for tool in normalized if isinstance(tool, ClientTool)]
+
+        toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = []
+        for tool in normalized:
+            if isinstance(tool, ClientTool):
+                continue
+            if isinstance(tool, (str, dict, Toolgroup)):
+                toolgroups.append(tool)
+                continue
+            raise TypeError(f"Unsupported tool type: {type(tool)!r}")
+
+        return toolgroups, client_tool_instances
diff --git a/src/llama_stack_client/lib/agents/event_logger.py b/src/llama_stack_client/lib/agents/event_logger.py
index b4e1a219..112c43ce 100644
--- a/src/llama_stack_client/lib/agents/event_logger.py
+++ b/src/llama_stack_client/lib/agents/event_logger.py
@@ -4,142 +4,125 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 
-from typing import Any, Iterator, Optional
-
-from termcolor import cprint
-
-from llama_stack_client.types import InterleavedContent
-
-
-def interleaved_content_as_str(content: InterleavedContent, sep: str = " ") -> str:
-    def _process(c: Any) -> str:
-        if isinstance(c, str):
-            return c
-        elif hasattr(c, "type"):
-            if c.type == "text":
-                return c.text
-            elif c.type == "image":
-                return "<image>"
-            else:
-                raise ValueError(f"Unexpected type {c}")
-        else:
-            raise ValueError(f"Unsupported content type: {type(c)}")
-
-    if isinstance(content, list):
-        return sep.join(_process(c) for c in content)
-    else:
-        return _process(content)
-
-
-class TurnStreamPrintableEvent:
-    def __init__(
-        self,
-        role: Optional[str] = None,
-        content: str = "",
-        end: Optional[str] = "\n",
-        color: str = "white",
-    ) -> None:
-        self.role = role
-        self.content = content
-        self.color = color
-        self.end = "\n" if end is None else end
-
-    def __str__(self) -> str:
-        if self.role is not None:
-            return f"{self.role}> {self.content}"
-        else:
-            return f"{self.content}"
-
-    def print(self, flush: bool = True) -> None:
-        cprint(f"{str(self)}", color=self.color, end=self.end, flush=flush)
-
-
-class TurnStreamEventPrinter:
-    def yield_printable_events(self, chunk: Any) -> Iterator[TurnStreamPrintableEvent]:
-        for printable_event in self._yield_printable_events(chunk):
-            yield printable_event
-
-    def _yield_printable_events(self, chunk: Any) -> Iterator[TurnStreamPrintableEvent]:
-        if hasattr(chunk, "error"):
-            yield TurnStreamPrintableEvent(role=None, content=chunk.error["message"], color="red")
-            return
-
-        event = chunk.event
-        event_type = event.payload.event_type
-
-        if event_type in {"turn_start", "turn_complete", "turn_awaiting_input"}:
-            # Currently not logging any turn realted info
-            yield TurnStreamPrintableEvent(role=None, content="", end="", color="grey")
-            return
-
-        step_type = event.payload.step_type
-        # handle safety
-        if step_type == "shield_call" and event_type == "step_complete":
-            violation = event.payload.step_details.violation
-            if not violation:
-                yield TurnStreamPrintableEvent(role=step_type, content="No Violation", color="magenta")
-            else:
-                yield TurnStreamPrintableEvent(
-                    role=step_type,
-                    content=f"{violation.metadata} {violation.user_message}",
-                    color="red",
-                )
-
-        # handle inference
-        if step_type == "inference":
-            if event_type == "step_start":
-                yield TurnStreamPrintableEvent(role=step_type, content="", end="", color="yellow")
-            elif event_type == "step_progress":
-                if event.payload.delta.type == "tool_call":
-                    if isinstance(event.payload.delta.tool_call, str):
-                        yield TurnStreamPrintableEvent(
-                            role=None,
-                            content=event.payload.delta.tool_call,
-                            end="",
-                            color="cyan",
-                        )
-                elif event.payload.delta.type == "text":
-                    yield TurnStreamPrintableEvent(
-                        role=None,
-                        content=event.payload.delta.text,
-                        end="",
-                        color="yellow",
-                    )
-            else:
-                # step complete
-                yield TurnStreamPrintableEvent(role=None, content="")
-
-        # handle tool_execution
-        if step_type == "tool_execution" and event_type == "step_complete":
-            # Only print tool calls and responses at the step_complete event
-            details = event.payload.step_details
-            for t in details.tool_calls:
-                yield TurnStreamPrintableEvent(
-                    role=step_type,
-                    content=f"Tool:{t.tool_name} Args:{t.arguments}",
-                    color="green",
-                )
-
-            for r in details.tool_responses:
-                if r.tool_name == "query_from_memory":
-                    inserted_context = interleaved_content_as_str(r.content)
-                    content = f"fetched {len(inserted_context)} bytes from memory"
-
-                    yield TurnStreamPrintableEvent(
-                        role=step_type,
-                        content=content,
-                        color="cyan",
-                    )
-                else:
-                    yield TurnStreamPrintableEvent(
-                        role=step_type,
-                        content=f"Tool:{r.tool_name} Response:{r.content}",
-                        color="green",
-                    )
-
-
-class EventLogger:
-    def log(self, event_generator: Iterator[Any]) -> Iterator[TurnStreamPrintableEvent]:
-        printer = TurnStreamEventPrinter()
+"""Event logger for agent interactions.
+
+This module provides a simple logger that converts agent stream events
+into human-readable printable strings for console output.
+"""
+
+from typing import Iterator
+
+from .turn_events import (
+    AgentStreamChunk,
+    TurnStarted,
+    TurnCompleted,
+    TurnFailed,
+    StepStarted,
+    StepProgress,
+    StepCompleted,
+    TextDelta,
+    ToolCallIssuedDelta,
+    ToolCallDelta,
+    ToolCallCompletedDelta,
+)
+
+__all__ = ["AgentEventLogger", "EventLogger"]
+
+
+class AgentEventLogger:
+    """Logger for agent events with turn/step semantics.
+
+    This logger converts high-level agent events into printable strings
+    that can be displayed to users. It handles:
+    - Turn lifecycle events
+    - Step boundaries (inference, tool execution)
+    - Streaming content (text, tool calls)
+    - Server-side and client-side tool execution
+
+    Usage:
+        logger = AgentEventLogger()
+        for chunk in agent.create_turn(...):
+            for printable in logger.log([chunk]):
+                print(printable, end="", flush=True)
+    """
+
+    def log(self, event_generator: Iterator[AgentStreamChunk]) -> Iterator[str]:
+        """Generate printable strings from agent stream chunks.
+
+        Args:
+            event_generator: Iterator of AgentStreamChunk objects
+
+        Yields:
+            Printable string fragments
+        """
         for chunk in event_generator:
-            yield from printer.yield_printable_events(chunk)
+            event = chunk.event
+
+            if isinstance(event, TurnStarted):
+                # Optionally log turn start (commented out to reduce noise)
+                # yield f"[Turn {event.turn_id}]\n"
+                pass
+
+            elif isinstance(event, StepStarted):
+                if event.step_type == "inference":
+                    # Indicate model is thinking (no newline)
+                    yield "🤔 "
+                elif event.step_type == "tool_execution":
+                    # Indicate tools are executing
+                    yield "\n🔧 Executing tools...\n"
+
+            elif isinstance(event, StepProgress):
+                if event.step_type == "inference":
+                    if isinstance(event.delta, TextDelta):
+                        # Stream text as it comes
+                        yield event.delta.text
+
+                    elif isinstance(event.delta, ToolCallIssuedDelta):
+                        # Log both client and server-side tool calls
+                        if event.delta.tool_type == "function":
+                            # Client-side function call
+                            yield f"\n📞 Calling {event.delta.tool_name}({event.delta.arguments})"
+                        else:
+                            # Server-side tool (file_search, web_search, etc.)
+                            yield f"\n🔍 Using {event.delta.tool_name}"
+
+                    elif isinstance(event.delta, ToolCallDelta):
+                        # Optionally stream tool arguments (can be noisy, so commented out)
+                        # yield event.delta.arguments_delta
+                        pass
+
+                    elif isinstance(event.delta, ToolCallCompletedDelta):
+                        # Log server-side tool completion
+                        yield f"\n✅ {event.delta.tool_name} completed"
+
+            elif isinstance(event, StepCompleted):
+                if event.step_type == "inference":
+                    result = event.result
+                    # Server-side tools already logged during progress
+                    if not result.function_calls:
+                        # End of inference with no function calls
+                        yield "\n"
+
+                elif event.step_type == "tool_execution":
+                    # Log client-side tool execution results
+                    result = event.result
+                    for resp in result.tool_responses:
+                        tool_name = resp.get("tool_name", "unknown")
+                        content = resp.get("content", "")
+                        # Truncate long responses for readability
+                        if isinstance(content, str) and len(content) > 100:
+                            content = content[:100] + "..."
+                        yield f"  → {tool_name}: {content}\n"
+
+            elif isinstance(event, TurnCompleted):
+                # Optionally log turn completion (commented out to reduce noise)
+                # yield f"\n[Completed in {event.num_steps} steps]\n"
+                pass
+
+            elif isinstance(event, TurnFailed):
+                # Always log failures
+                yield f"\n❌ Turn failed: {event.error_message}\n"
+
+
+# Alias for backwards compatibility
+EventLogger = AgentEventLogger
diff --git a/src/llama_stack_client/lib/agents/event_synthesizer.py b/src/llama_stack_client/lib/agents/event_synthesizer.py
new file mode 100644
index 00000000..1258e14f
--- /dev/null
+++ b/src/llama_stack_client/lib/agents/event_synthesizer.py
@@ -0,0 +1,292 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the terms described in the LICENSE file in
+# the root directory of this source tree.
+
+"""Event synthesizer that translates response stream events to turn/step events.
+
+This module provides the TurnEventSynthesizer class which maintains state
+and translates low-level response stream events into high-level turn and
+step events that provide semantic meaning to agent interactions.
+"""
+
+from typing import Iterator, Optional, Dict, List, Any
+
+from llama_stack_client.types.shared.tool_call import ToolCall
+from llama_stack_client.types import ResponseObject
+
+from .stream_events import (
+    AgentStreamEvent,
+    AgentResponseStarted,
+    AgentTextDelta,
+    AgentTextCompleted,
+    AgentToolCallIssued,
+    AgentToolCallDelta,
+    AgentToolCallCompleted,
+    AgentResponseCompleted,
+    AgentResponseFailed,
+)
+from .turn_events import (
+    AgentEvent,
+    TurnStarted,
+    TurnCompleted,
+    StepStarted,
+    StepProgress,
+    StepCompleted,
+    TextDelta,
+    ToolCallIssuedDelta,
+    ToolCallDelta,
+    ToolCallCompletedDelta,
+    InferenceStepResult,
+)
+
+__all__ = ["TurnEventSynthesizer"]
+
+
+class TurnEventSynthesizer:
+    """Translates low-level response events to high-level turn/step events.
+
+    This class maintains state across the event stream to provide semantic
+    meaning and structure. It tracks:
+    - Turn lifecycle (started, completed)
+    - Step boundaries (inference, tool_execution)
+    - Content accumulation (text, tool calls)
+    - Tool classification (client-side vs server-side)
+
+    The synthesizer emits high-level events that client code can easily
+    consume without needing to understand the underlying response API details.
+    """
+
+    def __init__(self, session_id: str, turn_id: str):
+        """Initialize synthesizer for a new turn.
+
+        Args:
+            session_id: The conversation session ID
+            turn_id: Unique identifier for this turn
+        """
+        self.session_id = session_id
+        self.turn_id = turn_id
+
+        # Step tracking
+        self.step_counter = 0
+        self.current_step_id: Optional[str] = None
+        self.current_step_type: Optional[str] = None
+
+        # Inference step accumulation
+        self.current_response_id: Optional[str] = None
+        self.text_parts: List[str] = []
+
+        # Separate tracking for client vs server tool calls
+        self.function_calls_building: Dict[str, ToolCall] = {}  # Client-side
+        self.server_tool_executions: List[Dict[str, Any]] = []  # Server-side
+
+        # Turn-level accumulation
+        self.all_response_ids: List[str] = []
+        self.turn_started = False
+
+    def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEvent]:
+        """Map low-level events to high-level turn/step events.
+
+        This is the core translation logic. It processes each low-level
+        event from the response stream and emits corresponding high-level
+        events that provide semantic meaning.
+
+        Args:
+            event: Low-level event from response stream
+
+        Yields:
+            High-level turn/step events
+        """
+        # Emit TurnStarted on first event
+        if not self.turn_started:
+            self.turn_started = True
+            yield TurnStarted(turn_id=self.turn_id, session_id=self.session_id)
+
+        if isinstance(event, AgentResponseStarted):
+            # Start new inference step
+            self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
+            self.step_counter += 1
+            self.current_response_id = event.response_id
+            self.all_response_ids.append(event.response_id)
+            self.text_parts = []
+            self.function_calls_building = {}
+            self.server_tool_executions = []
+
+            yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
+
+        elif isinstance(event, AgentTextDelta):
+            # Accumulate text and emit progress
+            self.text_parts.append(event.text)
+            yield StepProgress(
+                step_id=self.current_step_id or "",
+                step_type="inference",
+                turn_id=self.turn_id,
+                delta=TextDelta(text=event.text),
+            )
+
+        elif isinstance(event, AgentTextCompleted):
+            # Text completion - just update our accumulated text
+            # (we already have it from deltas, but this ensures we have the complete text)
+            pass
+
+        elif isinstance(event, AgentToolCallIssued):
+            # Determine if server-side or client-side
+            tool_type = self._classify_tool_type(event.name)
+
+            if tool_type == "function":
+                # Client-side: accumulate for later execution
+                self.function_calls_building[event.call_id] = ToolCall(
+                    call_id=event.call_id, tool_name=event.name, arguments=event.arguments_json or ""
+                )
+            else:
+                # Server-side: track for logging
+                self.server_tool_executions.append(
+                    {
+                        "call_id": event.call_id,
+                        "tool_type": tool_type,
+                        "tool_name": event.name,
+                        "arguments": event.arguments_json or "{}",
+                        "result": None,  # Will be populated later
+                    }
+                )
+
+            yield StepProgress(
+                step_id=self.current_step_id or "",
+                step_type="inference",
+                turn_id=self.turn_id,
+                delta=ToolCallIssuedDelta(
+                    call_id=event.call_id,
+                    tool_type=tool_type,  # type: ignore
+                    tool_name=event.name,
+                    arguments=event.arguments_json or "{}",
+                ),
+            )
+
+        elif isinstance(event, AgentToolCallDelta):
+            # Update arguments (for both client and server-side)
+            if event.call_id in self.function_calls_building:
+                current = self.function_calls_building[event.call_id].arguments
+                self.function_calls_building[event.call_id].arguments = current + (event.arguments_delta or "")
+
+            # Update server tool executions
+            for exec_info in self.server_tool_executions:
+                if exec_info["call_id"] == event.call_id:
+                    exec_info["arguments"] = exec_info["arguments"] + (event.arguments_delta or "")
+                    break
+
+            yield StepProgress(
+                step_id=self.current_step_id or "",
+                step_type="inference",
+                turn_id=self.turn_id,
+                delta=ToolCallDelta(call_id=event.call_id, arguments_delta=event.arguments_delta or ""),
+            )
+
+        elif isinstance(event, AgentToolCallCompleted):
+            # Update final arguments
+            if event.call_id in self.function_calls_building:
+                self.function_calls_building[event.call_id].arguments = event.arguments_json or ""
+
+            # Check if this is a server-side tool
+            server_exec = next((e for e in self.server_tool_executions if e["call_id"] == event.call_id), None)
+            if server_exec:
+                server_exec["arguments"] = event.arguments_json or ""
+                # Emit completed delta (result will be populated later from ResponseObject)
+                yield StepProgress(
+                    step_id=self.current_step_id or "",
+                    step_type="inference",
+                    turn_id=self.turn_id,
+                    delta=ToolCallCompletedDelta(
+                        call_id=event.call_id,
+                        tool_type=server_exec["tool_type"],  # type: ignore
+                        tool_name=server_exec["tool_name"],
+                        result=None,  # Will be enriched from ResponseObject
+                    ),
+                )
+
+        elif isinstance(event, AgentResponseCompleted):
+            # Inference step completes
+            yield StepCompleted(
+                step_id=self.current_step_id or "",
+                step_type="inference",
+                turn_id=self.turn_id,
+                result=InferenceStepResult(
+                    step_id=self.current_step_id or "",
+                    response_id=event.response_id,
+                    text_content="".join(self.text_parts),
+                    function_calls=list(self.function_calls_building.values()),
+                    server_tool_executions=self.server_tool_executions.copy(),
+                    stop_reason="tool_calls" if self.function_calls_building else "end_of_turn",
+                ),
+            )
+
+        elif isinstance(event, AgentResponseFailed):
+            # Don't yield here, let agent.py handle it by checking the event type
+            pass
+
+    def _classify_tool_type(self, tool_name: str) -> str:
+        """Determine if tool is client-side or server-side.
+
+        Args:
+            tool_name: Name of the tool
+
+        Returns:
+            Tool type string: "function" for client-side, or specific
+            server-side type (e.g., "file_search", "web_search")
+        """
+        # Known server-side tools that execute within the response
+        server_side_tools = {
+            "file_search",
+            "web_search",
+            "query_from_memory",
+            "mcp_call",
+            "mcp_list_tools",
+        }
+
+        if tool_name in server_side_tools:
+            return tool_name
+
+        # Default to function for client-side tools
+        return "function"
+
+    def enrich_with_response(self, response: ResponseObject) -> None:
+        """Enrich server tool executions with results from ResponseObject.
+
+        After a response completes, we can extract the actual results of
+        server-side tool executions from the response.output field and
+        attach them to our tracked server_tool_executions.
+
+        Args:
+            response: Completed response object
+        """
+        # Extract file_search, web_search, etc. results from response.output
+        for item in response.output:
+            item_type = getattr(item, "type", None)
+            if item_type in ("file_search_call", "web_search_call", "mcp_call"):
+                # Find matching execution and add result
+                tool_type_key = item_type.replace("_call", "")
+                for exec_info in self.server_tool_executions:
+                    if exec_info["tool_type"] == tool_type_key:
+                        # Store entire output item for maximum information
+                        exec_info["result"] = item
+                        break
+
+    def finish_turn(self, final_response: ResponseObject) -> Iterator[AgentEvent]:
+        """Emit TurnCompleted event.
+
+        This should be called when the turn is complete (no more function
+        calls to execute).
+
+        Args:
+            final_response: The final response object for this turn
+
+        Yields:
+            TurnCompleted event
+        """
+        yield TurnCompleted(
+            turn_id=self.turn_id,
+            session_id=self.session_id,
+            final_text=final_response.output_text,
+            response_ids=self.all_response_ids,
+            num_steps=self.step_counter,
+        )
diff --git a/src/llama_stack_client/lib/agents/turn_events.py b/src/llama_stack_client/lib/agents/turn_events.py
new file mode 100644
index 00000000..bc288485
--- /dev/null
+++ b/src/llama_stack_client/lib/agents/turn_events.py
@@ -0,0 +1,281 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the terms described in the LICENSE file in
+# the root directory of this source tree.
+
+"""High-level turn and step events for agent interactions.
+
+This module defines the semantic event model that wraps the lower-level
+responses API stream events. It provides a turn/step conceptual model that
+makes agent interactions easier to understand and work with.
+
+Key concepts:
+- Turn: A complete interaction loop that may span multiple responses
+- Step: A distinct phase within a turn (inference or tool_execution)
+- Delta: Incremental updates during step execution
+- Result: Complete output when a step finishes
+"""
+
+from dataclasses import dataclass
+from typing import Union, List, Optional, Dict, Any, Literal
+
+from llama_stack_client.types.shared.tool_call import ToolCall
+from llama_stack_client.types import ResponseObject
+
+__all__ = [
+    "TurnStarted",
+    "TurnCompleted",
+    "TurnFailed",
+    "StepStarted",
+    "StepProgress",
+    "StepCompleted",
+    "TextDelta",
+    "ToolCallIssuedDelta",
+    "ToolCallDelta",
+    "ToolCallCompletedDelta",
+    "StepDelta",
+    "InferenceStepResult",
+    "ToolExecutionStepResult",
+    "StepResult",
+    "AgentEvent",
+    "AgentStreamChunk",
+]
+
+
+# ============= Turn-Level Events =============
+
+
+@dataclass
+class TurnStarted:
+    """Emitted when agent begins processing user input.
+
+    This marks the beginning of a complete interaction cycle that may
+    involve multiple inference steps and tool executions.
+    """
+
+    event_type: Literal["turn_started"] = "turn_started"
+    turn_id: str
+    session_id: str
+
+
+@dataclass
+class TurnCompleted:
+    """Emitted when agent finishes with final answer.
+
+    This marks the end of a turn when the model has produced a final
+    response without any pending client-side tool calls.
+    """
+
+    event_type: Literal["turn_completed"] = "turn_completed"
+    turn_id: str
+    session_id: str
+    final_text: str
+    response_ids: List[str]  # All response IDs involved in this turn
+    num_steps: int
+
+
+@dataclass
+class TurnFailed:
+    """Emitted if turn processing fails.
+
+    This indicates an unrecoverable error during turn processing.
+    """
+
+    event_type: Literal["turn_failed"] = "turn_failed"
+    turn_id: str
+    session_id: str
+    error_message: str
+
+
+# ============= Step-Level Events =============
+
+
+@dataclass
+class StepStarted:
+    """Emitted when a distinct work phase begins.
+
+    Steps represent distinct phases of work within a turn:
+    - inference: Model thinking/generation (may include server-side tools)
+    - tool_execution: Client-side tool execution between responses
+    """
+
+    event_type: Literal["step_started"] = "step_started"
+    step_id: str
+    step_type: Literal["inference", "tool_execution"]
+    turn_id: str
+    metadata: Optional[Dict[str, Any]] = None
+
+
+# ============= Progress Delta Types =============
+
+
+@dataclass
+class TextDelta:
+    """Incremental text during inference.
+
+    Emitted as the model generates text token by token.
+    """
+
+    delta_type: Literal["text"] = "text"
+    text: str
+
+
+@dataclass
+class ToolCallIssuedDelta:
+    """Model initiates a tool call (client or server-side).
+
+    This is emitted when the model decides to call a tool. The tool_type
+    field indicates whether this is:
+    - "function": Client-side tool requiring client execution
+    - Other types: Server-side tools executed within the response
+    """
+
+    delta_type: Literal["tool_call_issued"] = "tool_call_issued"
+    call_id: str
+    tool_type: Literal["function", "file_search", "web_search", "mcp_call", "mcp_list_tools", "memory_retrieval"]
+    tool_name: str
+    arguments: str  # JSON string
+
+
+@dataclass
+class ToolCallDelta:
+    """Incremental tool call arguments (streaming).
+
+    Emitted as the model streams tool call arguments. The arguments
+    are accumulated over multiple deltas to form the complete JSON.
+    """
+
+    delta_type: Literal["tool_call_delta"] = "tool_call_delta"
+    call_id: str
+    arguments_delta: str
+
+
+@dataclass
+class ToolCallCompletedDelta:
+    """Server-side tool execution completed.
+
+    Emitted when a server-side tool (file_search, web_search, etc.)
+    finishes execution. The result field contains the tool output.
+
+    Note: Client-side function tools do NOT emit this event; instead
+    they trigger a separate tool_execution step.
+    """
+
+    delta_type: Literal["tool_call_completed"] = "tool_call_completed"
+    call_id: str
+    tool_type: Literal["file_search", "web_search", "mcp_call", "mcp_list_tools", "memory_retrieval"]
+    tool_name: str
+    result: Any  # Tool execution result from server
+
+
+# Union of all delta types
+StepDelta = Union[TextDelta, ToolCallIssuedDelta, ToolCallDelta, ToolCallCompletedDelta]
+
+
+@dataclass
+class StepProgress:
+    """Emitted during step execution with streaming updates.
+
+    Progress events provide real-time updates as a step executes,
+    including text deltas and tool call information.
+    """
+
+    event_type: Literal["step_progress"] = "step_progress"
+    step_id: str
+    step_type: Literal["inference", "tool_execution"]
+    turn_id: str
+    delta: StepDelta
+
+
+# ============= Step Result Types =============
+
+
+@dataclass
+class InferenceStepResult:
+    """Complete inference step output.
+
+    This contains the final accumulated state after an inference step
+    completes. It separates client-side function calls (which need
+    client execution) from server-side tool executions (which are
+    included for logging/reference only).
+    """
+
+    step_id: str
+    response_id: str
+    text_content: str
+
+    # Client-side function calls that need execution
+    function_calls: List[ToolCall]
+
+    # Server-side tool calls that were executed (for reference/logging)
+    server_tool_executions: List[Dict[str, Any]]  # {"tool_type": "file_search", "call_id": "...", "result": ...}
+
+    stop_reason: str
+
+
+@dataclass
+class ToolExecutionStepResult:
+    """Complete tool execution step output (client-side only).
+
+    This contains the results of executing client-side function tools.
+    These results will be fed back to the model in the next inference step.
+    """
+
+    step_id: str
+    tool_calls: List[ToolCall]  # Function calls executed
+    tool_responses: List[Dict[str, Any]]  # Normalized responses
+
+
+# Union of all result types
+StepResult = Union[InferenceStepResult, ToolExecutionStepResult]
+
+
+@dataclass
+class StepCompleted:
+    """Emitted when a step finishes.
+
+    This provides the complete result of the step execution, including
+    all accumulated data and final state.
+    """
+
+    event_type: Literal["step_completed"] = "step_completed"
+    step_id: str
+    step_type: Literal["inference", "tool_execution"]
+    turn_id: str
+    result: StepResult
+
+
+# ============= Unified Event Type =============
+
+
+# Union of all event types
+AgentEvent = Union[
+    TurnStarted,
+    StepStarted,
+    StepProgress,
+    StepCompleted,
+    TurnCompleted,
+    TurnFailed,
+]
+
+
+@dataclass
+class AgentStreamChunk:
+    """What the agent yields to users.
+
+    This is the top-level container for streaming events. Each chunk
+    contains a high-level event (turn or step) and optionally the
+    final ResponseObject when the turn completes.
+
+    Usage:
+        for chunk in agent.create_turn(messages, session_id, stream=True):
+            if isinstance(chunk.event, StepProgress):
+                if isinstance(chunk.event.delta, TextDelta):
+                    print(chunk.event.delta.text, end="")
+            elif isinstance(chunk.event, TurnCompleted):
+                print(f"\\nDone! Response: {chunk.response}")
+    """
+
+    event: AgentEvent
+    response: Optional[ResponseObject] = None  # Only set on TurnCompleted

From 82698a1ae3e99ea5ae441d86ef7e87d59023514e Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Mon, 13 Oct 2025 09:49:37 -0700
Subject: [PATCH 06/15] Redesign event model: all tools appear as
 tool_execution steps

Major architectural change based on user feedback:
- inference steps = model thinking/deciding what to do
- tool_execution steps = ANY tool executing (server OR client-side)

Previous incorrect design had server-side tools as progress within inference.
New correct design: ALL tools (server and client) appear as tool_execution steps.

The difference between server and client tools is operational:
- Server-side (file_search, web_search, mcp_call): Execute within response stream, synthesizer emits tool_execution boundaries
- Client-side (function): Break response stream, agent.py emits tool_execution when executing

Both are annotated with metadata.server_side for clarity.

Changes:
- Rewrote event_synthesizer to emit tool_execution steps for server-side tools
- Updated event_logger to differentiate server vs client in logs
- Added metadata to StepStarted for server_side flag
- Server-side tools now: complete inference -> tool_execution step -> new inference
---
 src/llama_stack_client/lib/agents/agent.py    |  18 +-
 .../lib/agents/event_logger.py                |  26 +-
 .../lib/agents/event_synthesizer.py           | 280 +++++++++++-------
 .../lib/agents/turn_events.py                 |   6 +-
 tests/integration/test_agent_responses_e2e.py | 119 ++++++--
 5 files changed, 305 insertions(+), 144 deletions(-)

diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index 20dd64eb..a752d8c1 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -300,7 +300,14 @@ def _create_turn_streaming(
             tool_step_id = f"{turn_id}_step_{synthesizer.step_counter}"
             synthesizer.step_counter += 1
 
-            yield AgentStreamChunk(event=StepStarted(step_id=tool_step_id, step_type="tool_execution", turn_id=turn_id))
+            yield AgentStreamChunk(
+                event=StepStarted(
+                    step_id=tool_step_id,
+                    step_type="tool_execution",
+                    turn_id=turn_id,
+                    metadata={"server_side": False},
+                )
+            )
 
             tool_responses = self._run_tool_calls(function_calls_to_execute)
 
@@ -514,7 +521,14 @@ async def _create_turn_streaming(
             tool_step_id = f"{turn_id}_step_{synthesizer.step_counter}"
             synthesizer.step_counter += 1
 
-            yield AgentStreamChunk(event=StepStarted(step_id=tool_step_id, step_type="tool_execution", turn_id=turn_id))
+            yield AgentStreamChunk(
+                event=StepStarted(
+                    step_id=tool_step_id,
+                    step_type="tool_execution",
+                    turn_id=turn_id,
+                    metadata={"server_side": False},
+                )
+            )
 
             tool_responses = await self._run_tool_calls(function_calls_to_execute)
 
diff --git a/src/llama_stack_client/lib/agents/event_logger.py b/src/llama_stack_client/lib/agents/event_logger.py
index 112c43ce..8b56f398 100644
--- a/src/llama_stack_client/lib/agents/event_logger.py
+++ b/src/llama_stack_client/lib/agents/event_logger.py
@@ -23,7 +23,6 @@
     TextDelta,
     ToolCallIssuedDelta,
     ToolCallDelta,
-    ToolCallCompletedDelta,
 )
 
 __all__ = ["AgentEventLogger", "EventLogger"]
@@ -69,7 +68,12 @@ def log(self, event_generator: Iterator[AgentStreamChunk]) -> Iterator[str]:
                     yield "🤔 "
                 elif event.step_type == "tool_execution":
                     # Indicate tools are executing
-                    yield "\n🔧 Executing tools...\n"
+                    server_side = event.metadata and event.metadata.get("server_side", False)
+                    if server_side:
+                        tool_type = event.metadata.get("tool_type", "tool")
+                        yield f"\n🔧 Executing {tool_type} (server-side)...\n"
+                    else:
+                        yield "\n🔧 Executing function tools (client-side)...\n"
 
             elif isinstance(event, StepProgress):
                 if event.step_type == "inference":
@@ -78,22 +82,24 @@ def log(self, event_generator: Iterator[AgentStreamChunk]) -> Iterator[str]:
                         yield event.delta.text
 
                     elif isinstance(event.delta, ToolCallIssuedDelta):
-                        # Log both client and server-side tool calls
+                        # Log client-side function calls (server-side handled as separate tool_execution steps)
                         if event.delta.tool_type == "function":
                             # Client-side function call
-                            yield f"\n📞 Calling {event.delta.tool_name}({event.delta.arguments})"
-                        else:
-                            # Server-side tool (file_search, web_search, etc.)
-                            yield f"\n🔍 Using {event.delta.tool_name}"
+                            yield f"\n📞 Function call: {event.delta.tool_name}({event.delta.arguments})"
 
                     elif isinstance(event.delta, ToolCallDelta):
                         # Optionally stream tool arguments (can be noisy, so commented out)
                         # yield event.delta.arguments_delta
                         pass
 
-                    elif isinstance(event.delta, ToolCallCompletedDelta):
-                        # Log server-side tool completion
-                        yield f"\n✅ {event.delta.tool_name} completed"
+                elif event.step_type == "tool_execution":
+                    # Handle tool execution progress (for server-side tools)
+                    if isinstance(event.delta, ToolCallIssuedDelta):
+                        # Don't log again, already logged at StepStarted
+                        pass
+                    elif isinstance(event.delta, ToolCallDelta):
+                        # Optionally log argument streaming
+                        pass
 
             elif isinstance(event, StepCompleted):
                 if event.step_type == "inference":
diff --git a/src/llama_stack_client/lib/agents/event_synthesizer.py b/src/llama_stack_client/lib/agents/event_synthesizer.py
index 1258e14f..b387f225 100644
--- a/src/llama_stack_client/lib/agents/event_synthesizer.py
+++ b/src/llama_stack_client/lib/agents/event_synthesizer.py
@@ -9,6 +9,20 @@
 This module provides the TurnEventSynthesizer class which maintains state
 and translates low-level response stream events into high-level turn and
 step events that provide semantic meaning to agent interactions.
+
+Key architectural principle:
+- inference steps = model thinking/deciding what to do
+- tool_execution steps = ANY tool executing (server-side OR client-side)
+
+Server-side tools (file_search, web_search, mcp_call):
+- Execute within the response stream
+- We synthesize tool_execution step boundaries from stream events
+- Results automatically fed back to model
+
+Client-side tools (function):
+- Require breaking the response stream
+- Agent.py emits tool_execution steps when executing them
+- Results manually fed back via new response
 """
 
 from typing import Iterator, Optional, Dict, List, Any
@@ -37,8 +51,8 @@
     TextDelta,
     ToolCallIssuedDelta,
     ToolCallDelta,
-    ToolCallCompletedDelta,
     InferenceStepResult,
+    ToolExecutionStepResult,
 )
 
 __all__ = ["TurnEventSynthesizer"]
@@ -53,9 +67,6 @@ class TurnEventSynthesizer:
     - Step boundaries (inference, tool_execution)
     - Content accumulation (text, tool calls)
     - Tool classification (client-side vs server-side)
-
-    The synthesizer emits high-level events that client code can easily
-    consume without needing to understand the underlying response API details.
     """
 
     def __init__(self, session_id: str, turn_id: str):
@@ -77,9 +88,13 @@ def __init__(self, session_id: str, turn_id: str):
         self.current_response_id: Optional[str] = None
         self.text_parts: List[str] = []
 
-        # Separate tracking for client vs server tool calls
-        self.function_calls_building: Dict[str, ToolCall] = {}  # Client-side
-        self.server_tool_executions: List[Dict[str, Any]] = []  # Server-side
+        # Tool call tracking (both server and client-side)
+        # For server-side tools, these are used within tool_execution steps
+        # For client-side tools, these are accumulated and returned in inference step result
+        self.tool_calls_building: Dict[str, Dict[str, Any]] = {}  # call_id -> {tool_call, is_server_side, ...}
+
+        # Client-side function calls (accumulated for agent.py to execute)
+        self.function_calls: List[ToolCall] = []
 
         # Turn-level accumulation
         self.all_response_ids: List[str] = []
@@ -107,121 +122,182 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
             # Start new inference step
             self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
             self.step_counter += 1
+            self.current_step_type = "inference"
             self.current_response_id = event.response_id
             self.all_response_ids.append(event.response_id)
             self.text_parts = []
-            self.function_calls_building = {}
-            self.server_tool_executions = []
+            self.tool_calls_building = {}
+            self.function_calls = []
 
             yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
 
         elif isinstance(event, AgentTextDelta):
-            # Accumulate text and emit progress
-            self.text_parts.append(event.text)
-            yield StepProgress(
-                step_id=self.current_step_id or "",
-                step_type="inference",
-                turn_id=self.turn_id,
-                delta=TextDelta(text=event.text),
-            )
+            # Only emit text if we're in an inference step
+            if self.current_step_type == "inference":
+                self.text_parts.append(event.text)
+                yield StepProgress(
+                    step_id=self.current_step_id or "",
+                    step_type="inference",
+                    turn_id=self.turn_id,
+                    delta=TextDelta(text=event.text),
+                )
 
         elif isinstance(event, AgentTextCompleted):
-            # Text completion - just update our accumulated text
-            # (we already have it from deltas, but this ensures we have the complete text)
+            # Text completion - just ensure we have the complete text
             pass
 
         elif isinstance(event, AgentToolCallIssued):
             # Determine if server-side or client-side
             tool_type = self._classify_tool_type(event.name)
+            is_server_side = tool_type != "function"
+
+            # Create tool call object
+            tool_call = ToolCall(call_id=event.call_id, tool_name=event.name, arguments=event.arguments_json or "")
+
+            # Track this tool call
+            self.tool_calls_building[event.call_id] = {
+                "tool_call": tool_call,
+                "tool_type": tool_type,
+                "is_server_side": is_server_side,
+                "arguments": event.arguments_json or "",
+            }
+
+            if is_server_side:
+                # SERVER-SIDE TOOL: Complete current inference step and start tool_execution step
+                # First complete the inference step
+                if self.current_step_type == "inference":
+                    yield StepCompleted(
+                        step_id=self.current_step_id or "",
+                        step_type="inference",
+                        turn_id=self.turn_id,
+                        result=InferenceStepResult(
+                            step_id=self.current_step_id or "",
+                            response_id=self.current_response_id or "",
+                            text_content="".join(self.text_parts),
+                            function_calls=[],  # No client-side function calls yet
+                            server_tool_executions=[],  # Will be populated in tool_execution step
+                            stop_reason="server_tool_call",
+                        ),
+                    )
+
+                # Start tool_execution step for server-side tool
+                self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
+                self.step_counter += 1
+                self.current_step_type = "tool_execution"
+                self.text_parts = []  # Reset for next inference step
+
+                yield StepStarted(
+                    step_id=self.current_step_id,
+                    step_type="tool_execution",
+                    turn_id=self.turn_id,
+                    metadata={"server_side": True, "tool_type": tool_type, "tool_name": event.name},
+                )
 
-            if tool_type == "function":
-                # Client-side: accumulate for later execution
-                self.function_calls_building[event.call_id] = ToolCall(
-                    call_id=event.call_id, tool_name=event.name, arguments=event.arguments_json or ""
+                # Emit the tool call issued as progress
+                yield StepProgress(
+                    step_id=self.current_step_id,
+                    step_type="tool_execution",
+                    turn_id=self.turn_id,
+                    delta=ToolCallIssuedDelta(
+                        call_id=event.call_id,
+                        tool_type=tool_type,  # type: ignore
+                        tool_name=event.name,
+                        arguments=event.arguments_json or "{}",
+                    ),
                 )
             else:
-                # Server-side: track for logging
-                self.server_tool_executions.append(
-                    {
-                        "call_id": event.call_id,
-                        "tool_type": tool_type,
-                        "tool_name": event.name,
-                        "arguments": event.arguments_json or "{}",
-                        "result": None,  # Will be populated later
-                    }
-                )
-
-            yield StepProgress(
-                step_id=self.current_step_id or "",
-                step_type="inference",
-                turn_id=self.turn_id,
-                delta=ToolCallIssuedDelta(
-                    call_id=event.call_id,
-                    tool_type=tool_type,  # type: ignore
-                    tool_name=event.name,
-                    arguments=event.arguments_json or "{}",
-                ),
-            )
+                # CLIENT-SIDE FUNCTION: Just accumulate, agent.py will handle execution
+                self.function_calls.append(tool_call)
 
-        elif isinstance(event, AgentToolCallDelta):
-            # Update arguments (for both client and server-side)
-            if event.call_id in self.function_calls_building:
-                current = self.function_calls_building[event.call_id].arguments
-                self.function_calls_building[event.call_id].arguments = current + (event.arguments_delta or "")
-
-            # Update server tool executions
-            for exec_info in self.server_tool_executions:
-                if exec_info["call_id"] == event.call_id:
-                    exec_info["arguments"] = exec_info["arguments"] + (event.arguments_delta or "")
-                    break
-
-            yield StepProgress(
-                step_id=self.current_step_id or "",
-                step_type="inference",
-                turn_id=self.turn_id,
-                delta=ToolCallDelta(call_id=event.call_id, arguments_delta=event.arguments_delta or ""),
-            )
-
-        elif isinstance(event, AgentToolCallCompleted):
-            # Update final arguments
-            if event.call_id in self.function_calls_building:
-                self.function_calls_building[event.call_id].arguments = event.arguments_json or ""
-
-            # Check if this is a server-side tool
-            server_exec = next((e for e in self.server_tool_executions if e["call_id"] == event.call_id), None)
-            if server_exec:
-                server_exec["arguments"] = event.arguments_json or ""
-                # Emit completed delta (result will be populated later from ResponseObject)
+                # Emit as progress within current inference step
                 yield StepProgress(
                     step_id=self.current_step_id or "",
                     step_type="inference",
                     turn_id=self.turn_id,
-                    delta=ToolCallCompletedDelta(
+                    delta=ToolCallIssuedDelta(
                         call_id=event.call_id,
-                        tool_type=server_exec["tool_type"],  # type: ignore
-                        tool_name=server_exec["tool_name"],
-                        result=None,  # Will be enriched from ResponseObject
+                        tool_type="function",
+                        tool_name=event.name,
+                        arguments=event.arguments_json or "{}",
                     ),
                 )
 
+        elif isinstance(event, AgentToolCallDelta):
+            # Update arguments
+            if event.call_id in self.tool_calls_building:
+                builder = self.tool_calls_building[event.call_id]
+                builder["arguments"] += event.arguments_delta or ""
+                builder["tool_call"].arguments = builder["arguments"]
+
+                # Emit delta
+                step_type = "tool_execution" if builder["is_server_side"] else "inference"
+                yield StepProgress(
+                    step_id=self.current_step_id or "",
+                    step_type=step_type,  # type: ignore
+                    turn_id=self.turn_id,
+                    delta=ToolCallDelta(call_id=event.call_id, arguments_delta=event.arguments_delta or ""),
+                )
+
+        elif isinstance(event, AgentToolCallCompleted):
+            # Update final arguments
+            if event.call_id in self.tool_calls_building:
+                builder = self.tool_calls_building[event.call_id]
+                builder["arguments"] = event.arguments_json or ""
+                builder["tool_call"].arguments = event.arguments_json or ""
+
+                if builder["is_server_side"]:
+                    # SERVER-SIDE TOOL: Complete tool_execution step and start new inference step
+                    tool_call = builder["tool_call"]
+
+                    # Complete the tool_execution step
+                    yield StepCompleted(
+                        step_id=self.current_step_id or "",
+                        step_type="tool_execution",
+                        turn_id=self.turn_id,
+                        result=ToolExecutionStepResult(
+                            step_id=self.current_step_id or "",
+                            tool_calls=[tool_call],
+                            tool_responses=[],  # Will be enriched from ResponseObject later if needed
+                        ),
+                    )
+
+                    # Start new inference step for model to process results
+                    self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
+                    self.step_counter += 1
+                    self.current_step_type = "inference"
+
+                    yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
+
+                else:
+                    # CLIENT-SIDE FUNCTION: Just update the accumulated function call
+                    # Update the function_calls list with final arguments
+                    for func_call in self.function_calls:
+                        if func_call.call_id == event.call_id:
+                            func_call.arguments = event.arguments_json or ""
+                            break
+
         elif isinstance(event, AgentResponseCompleted):
-            # Inference step completes
-            yield StepCompleted(
-                step_id=self.current_step_id or "",
-                step_type="inference",
-                turn_id=self.turn_id,
-                result=InferenceStepResult(
+            # Response completes - finish current step
+            if self.current_step_type == "inference":
+                yield StepCompleted(
                     step_id=self.current_step_id or "",
-                    response_id=event.response_id,
-                    text_content="".join(self.text_parts),
-                    function_calls=list(self.function_calls_building.values()),
-                    server_tool_executions=self.server_tool_executions.copy(),
-                    stop_reason="tool_calls" if self.function_calls_building else "end_of_turn",
-                ),
-            )
+                    step_type="inference",
+                    turn_id=self.turn_id,
+                    result=InferenceStepResult(
+                        step_id=self.current_step_id or "",
+                        response_id=event.response_id,
+                        text_content="".join(self.text_parts),
+                        function_calls=self.function_calls.copy(),
+                        server_tool_executions=[],  # Server tools already handled as separate steps
+                        stop_reason="tool_calls" if self.function_calls else "end_of_turn",
+                    ),
+                )
+            elif self.current_step_type == "tool_execution":
+                # This shouldn't normally happen, but if it does, complete the tool execution step
+                pass
 
         elif isinstance(event, AgentResponseFailed):
-            # Don't yield here, let agent.py handle it by checking the event type
+            # Don't yield here, let agent.py handle it
             pass
 
     def _classify_tool_type(self, tool_name: str) -> str:
@@ -253,23 +329,17 @@ def enrich_with_response(self, response: ResponseObject) -> None:
         """Enrich server tool executions with results from ResponseObject.
 
         After a response completes, we can extract the actual results of
-        server-side tool executions from the response.output field and
-        attach them to our tracked server_tool_executions.
+        server-side tool executions from the response.output field.
+
+        Note: With the new architecture where server tools are separate steps,
+        this might be less critical, but we keep it for completeness.
 
         Args:
             response: Completed response object
         """
-        # Extract file_search, web_search, etc. results from response.output
-        for item in response.output:
-            item_type = getattr(item, "type", None)
-            if item_type in ("file_search_call", "web_search_call", "mcp_call"):
-                # Find matching execution and add result
-                tool_type_key = item_type.replace("_call", "")
-                for exec_info in self.server_tool_executions:
-                    if exec_info["tool_type"] == tool_type_key:
-                        # Store entire output item for maximum information
-                        exec_info["result"] = item
-                        break
+        # This is now less important since server tools are handled as separate
+        # tool_execution steps, but we keep it for potential future use
+        pass
 
     def finish_turn(self, final_response: ResponseObject) -> Iterator[AgentEvent]:
         """Emit TurnCompleted event.
diff --git a/src/llama_stack_client/lib/agents/turn_events.py b/src/llama_stack_client/lib/agents/turn_events.py
index bc288485..cc02a029 100644
--- a/src/llama_stack_client/lib/agents/turn_events.py
+++ b/src/llama_stack_client/lib/agents/turn_events.py
@@ -96,15 +96,15 @@ class StepStarted:
     """Emitted when a distinct work phase begins.
 
     Steps represent distinct phases of work within a turn:
-    - inference: Model thinking/generation (may include server-side tools)
-    - tool_execution: Client-side tool execution between responses
+    - inference: Model thinking/generation (deciding what to do)
+    - tool_execution: Tool execution (server-side or client-side)
     """
 
     event_type: Literal["step_started"] = "step_started"
     step_id: str
     step_type: Literal["inference", "tool_execution"]
     turn_id: str
-    metadata: Optional[Dict[str, Any]] = None
+    metadata: Optional[Dict[str, Any]] = None  # e.g., {"server_side": True/False, "tool_type": "file_search"}
 
 
 # ============= Progress Delta Types =============
diff --git a/tests/integration/test_agent_responses_e2e.py b/tests/integration/test_agent_responses_e2e.py
index c35bf4bb..7a6cd7d1 100644
--- a/tests/integration/test_agent_responses_e2e.py
+++ b/tests/integration/test_agent_responses_e2e.py
@@ -1,14 +1,19 @@
+import io
 import os
 import time
+from uuid import uuid4
 
 import pytest
 
-from llama_stack_client import BadRequestError
-from llama_stack_client.types import response_create_params
+from llama_stack_client import BadRequestError, AgentEventLogger
+from llama_stack_client.types import ResponseObject, response_create_params
 from llama_stack_client.lib.agents.agent import Agent
 
 MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL")
 BASE_URL = os.environ.get("TEST_API_BASE_URL")
+KNOWLEDGE_SNIPPET = "SKYRIM-DRAGON-ALLOY"
+_VECTOR_STORE_READY_TIMEOUT = 60.0
+_VECTOR_STORE_POLL_INTERVAL = 0.5
 
 
 def _wrap_response_retrieval(client) -> None:
@@ -28,53 +33,119 @@ def retrying_retrieve(response_id: str, **kwargs):
     client.responses.retrieve = retrying_retrieve  # type: ignore[assignment]
 
 
+def _create_vector_store_with_document(client) -> str:
+    file_payload = io.BytesIO(
+        f"The secret project codename is {KNOWLEDGE_SNIPPET}. Preserve the hyphens exactly.".encode("utf-8")
+    )
+    uploaded_file = client.files.create(
+        file=("agent_e2e_notes.txt", file_payload, "text/plain"),
+        purpose="assistants",
+    )
+
+    vector_store = client.vector_stores.create(name=f"agent-e2e-{uuid4().hex[:8]}")
+    vector_store_file = client.vector_stores.files.create(
+        vector_store_id=vector_store.id,
+        file_id=uploaded_file.id,
+    )
+
+    deadline = time.time() + _VECTOR_STORE_READY_TIMEOUT
+    while vector_store_file.status != "completed":
+        if vector_store_file.status in {"failed", "cancelled"}:
+            raise RuntimeError(f"Vector store ingestion did not succeed: {vector_store_file.status}")
+        if time.time() > deadline:
+            raise TimeoutError("Vector store file ingest timed out")
+        time.sleep(_VECTOR_STORE_POLL_INTERVAL)
+        vector_store_file = client.vector_stores.files.retrieve(
+            vector_store_id=vector_store.id,
+            file_id=vector_store_file.id,
+        )
+
+    return vector_store.id
+
+
 pytestmark = pytest.mark.skipif(
     MODEL_ID is None or BASE_URL in (None, "http://127.0.0.1:4010"),
-    reason="requires a running llama stack server and LLAMA_STACK_TEST_MODEL",
+    reason="requires a running llama stack server, TEST_API_BASE_URL, and LLAMA_STACK_TEST_MODEL",
 )
 
 
-def test_agent_create_turn_non_streaming(client) -> None:
+def test_agent_streaming_and_follow_up_turn(client) -> None:
     _wrap_response_retrieval(client)
+    vector_store_id = _create_vector_store_with_document(client)
+
     agent = Agent(
         client=client,
         model=MODEL_ID,
-        instructions="You are a helpful assistant that responds succinctly.",
+        instructions="You can search the uploaded vector store to answer with precise facts.",
+        tools=[{"type": "file_search", "vector_store_ids": [vector_store_id]}],
     )
 
-    session_id = agent.create_session("default")
+    session_id = agent.create_session(f"agent-session-{uuid4().hex[:8]}")
+
     messages: list[response_create_params.InputUnionMember1] = [
         {
             "type": "message",
             "role": "user",
-            "content": [{"type": "input_text", "text": "Reply with pong."}],
+            "content": [
+                {
+                    "type": "input_text",
+                    "text": "Retrieve the secret project codename from the knowledge base and reply as 'codename: <value>'.",
+                }
+            ],
         }
     ]
 
-    response = agent.create_turn(messages, session_id=session_id, stream=False)
+    event_logger = AgentEventLogger()
+    stream_chunks = []
 
-    assert response.id.startswith("resp_")
-    assert response.model == MODEL_ID
-    assert agent._last_response_id == response.id
+    for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
+        stream_chunks.append(chunk)
+        # Drain the event logger for streaming responses (no-op assertions but ensures coverage).
+        for printable in event_logger.log([chunk]):
+            _ = printable
 
+    completed_chunks = [chunk for chunk in stream_chunks if chunk.response is not None]
+    assert completed_chunks, "Expected streaming turn to yield a final response chunk"
 
-def test_agent_create_turn_streaming(client) -> None:
-    _wrap_response_retrieval(client)
-    agent = Agent(
-        client=client,
-        model=MODEL_ID,
-        instructions="You are a helpful assistant that replies in one word.",
-    )
+    streamed_response = completed_chunks[-1].response
+    assert isinstance(streamed_response, ResponseObject)
+    first_response_id = streamed_response.id
 
-    session_id = agent.create_session("default")
-    messages: list[response_create_params.InputUnionMember1] = [
+    assert streamed_response.model == MODEL_ID
+    assert agent._last_response_id == first_response_id
+    assert agent._session_last_response_id.get(session_id) == first_response_id
+    assert streamed_response.output, "Response output should include tool and message items"
+
+    tool_call_outputs = [item for item in streamed_response.output if getattr(item, "type", None) == "file_search_call"]
+    assert tool_call_outputs, "Expected a file_search tool call in the response output"
+    assert any(
+        KNOWLEDGE_SNIPPET in getattr(result, "text", "")
+        for output in tool_call_outputs
+        for result in getattr(output, "results", []) or []
+    ), "Vector store results should surface the knowledge snippet"
+
+    assert KNOWLEDGE_SNIPPET in streamed_response.output_text, "Assistant reply should incorporate retrieved snippet"
+
+    follow_up_messages: list[response_create_params.InputUnionMember1] = [
         {
             "type": "message",
             "role": "user",
-            "content": [{"type": "input_text", "text": "Say hello."}],
+            "content": [
+                {
+                    "type": "input_text",
+                    "text": "Briefly explain why that codename matters.",
+                }
+            ],
         }
     ]
 
-    chunks = list(agent.create_turn(messages, session_id=session_id, stream=True))
-    assert any(chunk.response for chunk in chunks)
-    assert agent._last_response_id is not None
+    follow_up_response = agent.create_turn(
+        messages=follow_up_messages,
+        session_id=session_id,
+        stream=False,
+    )
+
+    assert isinstance(follow_up_response, ResponseObject)
+    assert follow_up_response.previous_response_id == first_response_id
+    assert agent._last_response_id == follow_up_response.id
+    assert KNOWLEDGE_SNIPPET in follow_up_response.output_text

From a8e3e5a94bd041a6fc179abc76fafbdbc58c7091 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Mon, 13 Oct 2025 09:50:59 -0700
Subject: [PATCH 07/15] Add integration tests for turn/step event model
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Three focused tests validate core architecture:

1. test_basic_turn_without_tools
   - Validates simple text-only turn
   - Verifies turn_started -> inference step -> turn_completed flow
   - No tool execution steps

2. test_server_side_file_search_tool ⭐ KEY TEST
   - Validates server-side tools appear as tool_execution steps
   - Verifies metadata.server_side=True
   - Tests inference -> tool_execution (server) -> inference flow

3. test_client_side_function_tool
   - Validates client-side tools appear as tool_execution steps
   - Verifies metadata.server_side=False
   - Tests inference -> tool_execution (client) -> inference flow

All tests verify the key principle: tool_execution steps for ALL tools,
regardless of where they execute (server or client).
---
 .../test_agent_turn_step_events.py            | 328 ++++++++++++++++++
 1 file changed, 328 insertions(+)
 create mode 100644 tests/integration/test_agent_turn_step_events.py

diff --git a/tests/integration/test_agent_turn_step_events.py b/tests/integration/test_agent_turn_step_events.py
new file mode 100644
index 00000000..8d2d2174
--- /dev/null
+++ b/tests/integration/test_agent_turn_step_events.py
@@ -0,0 +1,328 @@
+"""Integration tests for agent turn/step event model.
+
+These tests verify the core architecture of the turn/step event system:
+1. Turn = complete interaction loop
+2. Inference steps = model thinking/deciding
+3. Tool execution steps = ANY tool executing (server OR client-side)
+
+Key architectural validations:
+- Server-side tools (file_search, web_search) appear as tool_execution steps
+- Client-side tools (function) appear as tool_execution steps
+- Both are properly annotated with metadata
+"""
+
+import io
+import os
+import time
+from uuid import uuid4
+
+import pytest
+
+from llama_stack_client import LlamaStackClient, AgentEventLogger
+from llama_stack_client.types import response_create_params
+from llama_stack_client.lib.agents.agent import Agent
+from llama_stack_client.lib.agents.turn_events import (
+    TurnStarted,
+    TurnCompleted,
+    StepStarted,
+    StepProgress,
+    StepCompleted,
+    TextDelta,
+    ToolCallIssuedDelta,
+)
+
+# Test configuration
+MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL", "ollama/llama3.2:3b-instruct-fp16")
+BASE_URL = os.environ.get("TEST_API_BASE_URL", "http://localhost:8321")
+
+
+pytestmark = pytest.mark.skipif(
+    not BASE_URL or BASE_URL == "http://127.0.0.1:4010",
+    reason="requires a running llama stack server",
+)
+
+
+@pytest.fixture
+def client():
+    """Create a LlamaStackClient for testing."""
+    return LlamaStackClient(base_url=BASE_URL)
+
+
+@pytest.fixture
+def agent_with_no_tools(client):
+    """Create an agent with no tools for basic text-only tests."""
+    return Agent(
+        client=client,
+        model=MODEL_ID,
+        instructions="You are a helpful assistant. Keep responses brief and concise.",
+        tools=None,
+    )
+
+
+@pytest.fixture
+def agent_with_file_search(client):
+    """Create an agent with file_search tool (server-side)."""
+    # Create a vector store with test content
+    file_content = "The capital of France is Paris. Paris is known for the Eiffel Tower."
+    file_payload = io.BytesIO(file_content.encode("utf-8"))
+
+    uploaded_file = client.files.create(
+        file=("test_knowledge.txt", file_payload, "text/plain"),
+        purpose="assistants",
+    )
+
+    vector_store = client.vector_stores.create(name=f"test-vs-{uuid4().hex[:8]}")
+    vector_store_file = client.vector_stores.files.create(
+        vector_store_id=vector_store.id,
+        file_id=uploaded_file.id,
+    )
+
+    # Wait for vector store to be ready
+    deadline = time.time() + 60.0
+    while vector_store_file.status != "completed":
+        if vector_store_file.status in {"failed", "cancelled"}:
+            raise RuntimeError(f"Vector store ingestion failed: {vector_store_file.status}")
+        if time.time() > deadline:
+            raise TimeoutError("Vector store file ingest timed out")
+        time.sleep(0.5)
+        vector_store_file = client.vector_stores.files.retrieve(
+            vector_store_id=vector_store.id,
+            file_id=vector_store_file.id,
+        )
+
+    return Agent(
+        client=client,
+        model=MODEL_ID,
+        instructions="Search the knowledge base to answer questions accurately.",
+        tools=[{"type": "file_search", "vector_store_ids": [vector_store.id]}],
+    )
+
+
+def test_basic_turn_without_tools(agent_with_no_tools):
+    """Test 1: Basic turn with text-only response (no tools).
+
+    Expected event sequence:
+    1. TurnStarted
+    2. StepStarted(inference)
+    3. StepProgress(TextDelta) x N
+    4. StepCompleted(inference)
+    5. TurnCompleted
+    """
+    agent = agent_with_no_tools
+    session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
+
+    messages = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "Say hello in exactly 3 words."}],
+        }
+    ]
+
+    events = []
+    for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
+        events.append(chunk.event)
+
+    # Verify event sequence
+    assert len(events) > 0, "Should have at least some events"
+
+    # First event should be TurnStarted
+    assert isinstance(events[0], TurnStarted), f"First event should be TurnStarted, got {type(events[0])}"
+    assert events[0].session_id == session_id
+
+    # Second event should be StepStarted(inference)
+    assert isinstance(events[1], StepStarted), f"Second event should be StepStarted, got {type(events[1])}"
+    assert events[1].step_type == "inference"
+    assert events[1].metadata is None or events[1].metadata.get("server_side") is None
+
+    # Should have some StepProgress(TextDelta) events
+    text_deltas = [e for e in events if isinstance(e, StepProgress) and isinstance(e.delta, TextDelta)]
+    assert len(text_deltas) > 0, "Should have at least one text delta"
+
+    # Should have NO tool_execution steps (no tools configured)
+    tool_execution_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "tool_execution"]
+    assert len(tool_execution_starts) == 0, "Should have no tool_execution steps without tools"
+
+    # Second-to-last event should be StepCompleted(inference)
+    inference_completes = [e for e in events if isinstance(e, StepCompleted) and e.step_type == "inference"]
+    assert len(inference_completes) >= 1, "Should have at least one inference step completion"
+
+    # Last inference completion should have no function calls
+    last_inference = inference_completes[-1]
+    assert len(last_inference.result.function_calls) == 0, "Should have no function calls"
+    assert last_inference.result.stop_reason == "end_of_turn"
+
+    # Last event should be TurnCompleted
+    assert isinstance(events[-1], TurnCompleted), f"Last event should be TurnCompleted, got {type(events[-1])}"
+    assert events[-1].session_id == session_id
+    assert len(events[-1].final_text) > 0, "Should have some final text"
+
+    print(f"\n✅ Test 1 passed: Basic turn with {len(events)} events")
+    print(f"   - Text deltas: {len(text_deltas)}")
+    print(f"   - Final text: {events[-1].final_text}")
+
+
+def test_server_side_file_search_tool(agent_with_file_search):
+    """Test 2: Server-side file_search tool execution.
+
+    THE KEY TEST: Verifies that server-side tools appear as tool_execution steps.
+
+    Expected event sequence:
+    1. TurnStarted
+    2. StepStarted(inference) - model decides to search
+    3. StepProgress(TextDelta) - optional text before tool
+    4. StepCompleted(inference) - inference done, decided to use file_search
+    5. StepStarted(tool_execution, metadata.server_side=True)
+    6. StepCompleted(tool_execution) - file_search results
+    7. StepStarted(inference) - model processes results
+    8. StepProgress(TextDelta) - model generates response
+    9. StepCompleted(inference)
+    10. TurnCompleted
+    """
+    agent = agent_with_file_search
+    session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
+
+    messages = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "What is the capital of France?"}],
+        }
+    ]
+
+    events = []
+    event_logger = AgentEventLogger()
+
+    print("\n" + "="*80)
+    print("Test 2: Server-side file_search tool")
+    print("="*80)
+
+    for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
+        events.append(chunk.event)
+        # Log events for debugging
+        for log_msg in event_logger.log([chunk]):
+            print(log_msg, end="", flush=True)
+
+    print("\n" + "="*80)
+
+    # Verify Turn started and completed
+    assert isinstance(events[0], TurnStarted)
+    assert isinstance(events[-1], TurnCompleted)
+
+    # KEY ASSERTION: Should have at least one tool_execution step (server-side file_search)
+    tool_execution_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "tool_execution"]
+    assert len(tool_execution_starts) >= 1, f"Should have at least one tool_execution step, found {len(tool_execution_starts)}"
+
+    # KEY ASSERTION: The tool_execution step should be marked as server_side
+    file_search_step = tool_execution_starts[0]
+    assert file_search_step.metadata is not None, "Tool execution step should have metadata"
+    assert file_search_step.metadata.get("server_side") is True, "file_search should be marked as server_side"
+    assert file_search_step.metadata.get("tool_type") == "file_search", "Should identify as file_search tool"
+
+    # Should have tool_execution completion
+    tool_execution_completes = [e for e in events if isinstance(e, StepCompleted) and e.step_type == "tool_execution"]
+    assert len(tool_execution_completes) >= 1, "Should have at least one tool_execution completion"
+
+    # Should have multiple inference steps (before and after tool execution)
+    inference_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "inference"]
+    assert len(inference_starts) >= 2, f"Should have at least 2 inference steps (before/after tool), found {len(inference_starts)}"
+
+    # Final response should contain the answer (Paris)
+    assert "Paris" in events[-1].final_text, "Response should contain 'Paris'"
+
+    print(f"\n✅ Test 2 passed: Server-side file_search with {len(events)} events")
+    print(f"   - Tool execution steps: {len(tool_execution_starts)}")
+    print(f"   - Inference steps: {len(inference_starts)}")
+    print(f"   - Final answer: {events[-1].final_text}")
+
+
+def test_client_side_function_tool():
+    """Test 3: Client-side function tool execution.
+
+    Expected event sequence:
+    1. TurnStarted
+    2. StepStarted(inference)
+    3. StepProgress(ToolCallIssuedDelta) - function call
+    4. StepCompleted(inference) - with function_calls
+    5. StepStarted(tool_execution, metadata.server_side=False)
+    6. StepCompleted(tool_execution) - client executed function
+    7. StepStarted(inference) - model processes results
+    8. StepProgress(TextDelta)
+    9. StepCompleted(inference)
+    10. TurnCompleted
+    """
+    # Create a simple client-side function tool
+    def get_weather(location: str) -> str:
+        """Get the weather for a location."""
+        return f"Sunny and 72°F in {location}"
+
+    client = LlamaStackClient(base_url=BASE_URL)
+
+    agent = Agent(
+        client=client,
+        model=MODEL_ID,
+        instructions="Use the get_weather function to answer weather questions.",
+        tools=[get_weather],
+    )
+
+    session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
+
+    messages = [
+        {
+            "type": "message",
+            "role": "user",
+            "content": [{"type": "input_text", "text": "What's the weather in Paris?"}],
+        }
+    ]
+
+    events = []
+    event_logger = AgentEventLogger()
+
+    print("\n" + "="*80)
+    print("Test 3: Client-side function tool")
+    print("="*80)
+
+    for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
+        events.append(chunk.event)
+        # Log events for debugging
+        for log_msg in event_logger.log([chunk]):
+            print(log_msg, end="", flush=True)
+
+    print("\n" + "="*80)
+
+    # Verify Turn started and completed
+    assert isinstance(events[0], TurnStarted)
+    assert isinstance(events[-1], TurnCompleted)
+
+    # Should have ToolCallIssuedDelta for the function call
+    function_calls = [
+        e for e in events
+        if isinstance(e, StepProgress) and isinstance(e.delta, ToolCallIssuedDelta) and e.delta.tool_type == "function"
+    ]
+    assert len(function_calls) >= 1, "Should have at least one function call"
+
+    # KEY ASSERTION: Should have tool_execution step (client-side function)
+    tool_execution_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "tool_execution"]
+    assert len(tool_execution_starts) >= 1, f"Should have at least one tool_execution step, found {len(tool_execution_starts)}"
+
+    # KEY ASSERTION: The tool_execution step should be marked as client-side
+    function_step = tool_execution_starts[0]
+    assert function_step.metadata is not None, "Tool execution step should have metadata"
+    assert function_step.metadata.get("server_side") is False, "Function tool should be marked as client_side"
+
+    # Should have multiple inference steps (before and after tool execution)
+    inference_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "inference"]
+    assert len(inference_starts) >= 2, f"Should have at least 2 inference steps (before/after tool), found {len(inference_starts)}"
+
+    # Final response should contain weather info
+    assert "72" in events[-1].final_text or "Sunny" in events[-1].final_text, "Response should contain weather info"
+
+    print(f"\n✅ Test 3 passed: Client-side function with {len(events)} events")
+    print(f"   - Tool execution steps: {len(tool_execution_starts)}")
+    print(f"   - Inference steps: {len(inference_starts)}")
+    print(f"   - Final answer: {events[-1].final_text}")
+
+
+if __name__ == "__main__":
+    # Allow running tests directly for development
+    pytest.main([__file__, "-v", "-s"])

From f2831b488be3d0d0ffb1fba155281a1bb3216fff Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Mon, 13 Oct 2025 09:52:50 -0700
Subject: [PATCH 08/15] Fix dataclass field ordering

Python dataclasses require fields with default values to come after
fields without defaults. Reordered all event dataclass fields to fix
TypeError: non-default argument follows default argument.
---
 .../lib/agents/turn_events.py                 | 29 ++++++++-----------
 1 file changed, 12 insertions(+), 17 deletions(-)

diff --git a/src/llama_stack_client/lib/agents/turn_events.py b/src/llama_stack_client/lib/agents/turn_events.py
index cc02a029..f17d3e0a 100644
--- a/src/llama_stack_client/lib/agents/turn_events.py
+++ b/src/llama_stack_client/lib/agents/turn_events.py
@@ -54,9 +54,9 @@ class TurnStarted:
     involve multiple inference steps and tool executions.
     """
 
-    event_type: Literal["turn_started"] = "turn_started"
     turn_id: str
     session_id: str
+    event_type: Literal["turn_started"] = "turn_started"
 
 
 @dataclass
@@ -67,12 +67,12 @@ class TurnCompleted:
     response without any pending client-side tool calls.
     """
 
-    event_type: Literal["turn_completed"] = "turn_completed"
     turn_id: str
     session_id: str
     final_text: str
     response_ids: List[str]  # All response IDs involved in this turn
     num_steps: int
+    event_type: Literal["turn_completed"] = "turn_completed"
 
 
 @dataclass
@@ -82,10 +82,10 @@ class TurnFailed:
     This indicates an unrecoverable error during turn processing.
     """
 
-    event_type: Literal["turn_failed"] = "turn_failed"
     turn_id: str
     session_id: str
     error_message: str
+    event_type: Literal["turn_failed"] = "turn_failed"
 
 
 # ============= Step-Level Events =============
@@ -100,10 +100,10 @@ class StepStarted:
     - tool_execution: Tool execution (server-side or client-side)
     """
 
-    event_type: Literal["step_started"] = "step_started"
     step_id: str
     step_type: Literal["inference", "tool_execution"]
     turn_id: str
+    event_type: Literal["step_started"] = "step_started"
     metadata: Optional[Dict[str, Any]] = None  # e.g., {"server_side": True/False, "tool_type": "file_search"}
 
 
@@ -117,8 +117,8 @@ class TextDelta:
     Emitted as the model generates text token by token.
     """
 
-    delta_type: Literal["text"] = "text"
     text: str
+    delta_type: Literal["text"] = "text"
 
 
 @dataclass
@@ -131,11 +131,11 @@ class ToolCallIssuedDelta:
     - Other types: Server-side tools executed within the response
     """
 
-    delta_type: Literal["tool_call_issued"] = "tool_call_issued"
     call_id: str
     tool_type: Literal["function", "file_search", "web_search", "mcp_call", "mcp_list_tools", "memory_retrieval"]
     tool_name: str
     arguments: str  # JSON string
+    delta_type: Literal["tool_call_issued"] = "tool_call_issued"
 
 
 @dataclass
@@ -146,9 +146,9 @@ class ToolCallDelta:
     are accumulated over multiple deltas to form the complete JSON.
     """
 
-    delta_type: Literal["tool_call_delta"] = "tool_call_delta"
     call_id: str
     arguments_delta: str
+    delta_type: Literal["tool_call_delta"] = "tool_call_delta"
 
 
 @dataclass
@@ -162,11 +162,11 @@ class ToolCallCompletedDelta:
     they trigger a separate tool_execution step.
     """
 
-    delta_type: Literal["tool_call_completed"] = "tool_call_completed"
     call_id: str
     tool_type: Literal["file_search", "web_search", "mcp_call", "mcp_list_tools", "memory_retrieval"]
     tool_name: str
     result: Any  # Tool execution result from server
+    delta_type: Literal["tool_call_completed"] = "tool_call_completed"
 
 
 # Union of all delta types
@@ -181,11 +181,11 @@ class StepProgress:
     including text deltas and tool call information.
     """
 
-    event_type: Literal["step_progress"] = "step_progress"
     step_id: str
     step_type: Literal["inference", "tool_execution"]
     turn_id: str
     delta: StepDelta
+    event_type: Literal["step_progress"] = "step_progress"
 
 
 # ============= Step Result Types =============
@@ -204,13 +204,8 @@ class InferenceStepResult:
     step_id: str
     response_id: str
     text_content: str
-
-    # Client-side function calls that need execution
-    function_calls: List[ToolCall]
-
-    # Server-side tool calls that were executed (for reference/logging)
-    server_tool_executions: List[Dict[str, Any]]  # {"tool_type": "file_search", "call_id": "...", "result": ...}
-
+    function_calls: List[ToolCall]  # Client-side function calls that need execution
+    server_tool_executions: List[Dict[str, Any]]  # Server-side tool calls (for reference/logging)
     stop_reason: str
 
 
@@ -239,11 +234,11 @@ class StepCompleted:
     all accumulated data and final state.
     """
 
-    event_type: Literal["step_completed"] = "step_completed"
     step_id: str
     step_type: Literal["inference", "tool_execution"]
     turn_id: str
     result: StepResult
+    event_type: Literal["step_completed"] = "step_completed"
 
 
 # ============= Unified Event Type =============

From 4fa1653439e15721a6cc88c83d3db6a7040f0c29 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Mon, 13 Oct 2025 10:50:28 -0700
Subject: [PATCH 09/15] more work on the tests

---
 src/llama_stack_client/lib/agents/agent.py    | 132 +++++++-----------
 .../lib/agents/event_synthesizer.py           |  81 ++++++++++-
 .../lib/agents/stream_events.py               |  14 +-
 .../test_agent_turn_step_events.py            |  79 ++++++++---
 uv.lock                                       |   2 +-
 5 files changed, 194 insertions(+), 114 deletions(-)

diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index a752d8c1..dd464427 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -17,7 +17,7 @@
 from llama_stack_client.types.shared_params.document import Document
 from llama_stack_client.types.shared.completion_message import CompletionMessage
 
-from ..._types import Headers
+from ..._types import Headers, omit
 from .client_tool import ClientTool, client_tool
 from .tool_parser import ToolParser
 from .stream_events import (
@@ -108,7 +108,7 @@ def __init__(
         *,
         model: str,
         instructions: str,
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
+        tools: Optional[List[Union[Dict[str, Any], ClientTool, Callable[..., Any]]]] = None,
         tool_parser: Optional[ToolParser] = None,
         extra_headers: Headers | None = None,
     ):
@@ -119,24 +119,14 @@ def __init__(
         self._model = model
         self._instructions = instructions
 
-        toolgroups, client_tools = AgentUtils.normalize_tools(tools)
-        self._toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = toolgroups
+        # Convert all tools to API format and separate client-side functions
+        self._tools, client_tools = AgentUtils.normalize_tools(tools)
         self.client_tools = {tool.get_name(): tool for tool in client_tools}
 
         self.sessions: List[str] = []
-        self.builtin_tools: Dict[str, Dict[str, Any]] = {}
         self._last_response_id: Optional[str] = None
         self._session_last_response_id: Dict[str, str] = {}
 
-    def initialize(self) -> None:
-        # Ensure builtin tools cache is ready
-        if not self.builtin_tools and self._toolgroups:
-            for tg in self._toolgroups:
-                toolgroup_id = tg if isinstance(tg, str) else tg.name
-                args = {} if isinstance(tg, str) else tg.args
-                for tool in self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers):
-                    self.builtin_tools[tool.name] = args
-
     def create_session(self, session_name: str) -> str:
         conversation = self.client.conversations.create(
             extra_headers=self.extra_headers,
@@ -153,7 +143,7 @@ def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponsePayloa
         return responses
 
     def _run_single_tool(self, tool_call: ToolCall) -> Any:
-        # custom client tools
+        # Execute client-side tools
         if tool_call.tool_name in self.client_tools:
             tool = self.client_tools[tool_call.tool_name]
             result_message = tool.run(
@@ -168,24 +158,8 @@ def _run_single_tool(self, tool_call: ToolCall) -> Any:
             )
             return result_message
 
-        # builtin tools executed by tool_runtime
-        if tool_call.tool_name in self.builtin_tools:
-            tool_args = ToolUtils.parse_tool_arguments(tool_call.arguments)
-            tool_result = self.client.tool_runtime.invoke_tool(
-                tool_name=tool_call.tool_name,
-                kwargs={
-                    **tool_args,
-                    **self.builtin_tools[tool_call.tool_name],
-                },
-                extra_headers=self.extra_headers,
-            )
-            return {
-                "call_id": tool_call.call_id,
-                "tool_name": tool_call.tool_name,
-                "content": ToolUtils.coerce_tool_content(tool_result.content),
-            }
-
-        # cannot find tools
+        # Server-side tools should never reach here (they execute within response stream)
+        # If we get here, it's an error
         return {
             "call_id": tool_call.call_id,
             "tool_name": tool_call.tool_name,
@@ -233,9 +207,9 @@ def _create_turn_streaming(
         # TODO: deprecate this
         extra_headers: Headers | None = None,
     ) -> Iterator[AgentStreamChunk]:
+        # toolgroups and documents are legacy parameters - ignored
         _ = toolgroups
         _ = documents
-        self.initialize()
 
         # Generate turn_id
         turn_id = f"turn_{uuid4().hex[:12]}"
@@ -253,6 +227,7 @@ def _create_turn_streaming(
                 instructions=self._instructions,
                 conversation=session_id,
                 input=messages,
+                tools=self._tools if self._tools else omit,
                 stream=True,
                 extra_headers=request_headers,
             )
@@ -338,7 +313,7 @@ def __init__(
         *,
         model: str,
         instructions: str,
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
+        tools: Optional[List[Union[Dict[str, Any], ClientTool, Callable[..., Any]]]] = None,
         tool_parser: Optional[ToolParser] = None,
         extra_headers: Headers | None = None,
     ):
@@ -353,26 +328,15 @@ def __init__(
         self._model = model
         self._instructions = instructions
 
-        toolgroups, client_tools = AgentUtils.normalize_tools(tools)
-        self._toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = toolgroups
+        # Convert all tools to API format and separate client-side functions
+        self._tools, client_tools = AgentUtils.normalize_tools(tools)
         self.client_tools = {tool.get_name(): tool for tool in client_tools}
 
         self.sessions: List[str] = []
-        self.builtin_tools: Dict[str, Dict[str, Any]] = {}
         self._last_response_id: Optional[str] = None
         self._session_last_response_id: Dict[str, str] = {}
 
-    async def initialize(self) -> None:
-        if not self.builtin_tools and self._toolgroups:
-            for tg in self._toolgroups:
-                toolgroup_id = tg if isinstance(tg, str) else tg.name
-                args = {} if isinstance(tg, str) else tg.args
-                tools = await self.client.tools.list(toolgroup_id=toolgroup_id, extra_headers=self.extra_headers)
-                for tool in tools:
-                    self.builtin_tools[tool.name] = args
-
     async def create_session(self, session_name: str) -> str:
-        await self.initialize()
         conversation = await self.client.conversations.create(  # type: ignore[union-attr]
             extra_headers=self.extra_headers,
             metadata={"name": session_name},
@@ -408,7 +372,7 @@ async def _run_tool_calls(self, tool_calls: List[ToolCall]) -> List[ToolResponse
         return responses
 
     async def _run_single_tool(self, tool_call: ToolCall) -> Any:
-        # custom client tools
+        # Execute client-side tools
         if tool_call.tool_name in self.client_tools:
             tool = self.client_tools[tool_call.tool_name]
             result_message = await tool.async_run(
@@ -423,24 +387,8 @@ async def _run_single_tool(self, tool_call: ToolCall) -> Any:
             )
             return result_message
 
-        # builtin tools executed by tool_runtime
-        if tool_call.tool_name in self.builtin_tools:
-            tool_args = ToolUtils.parse_tool_arguments(tool_call.arguments)
-            tool_result = await self.client.tool_runtime.invoke_tool(
-                tool_name=tool_call.tool_name,
-                kwargs={
-                    **tool_args,
-                    **self.builtin_tools[tool_call.tool_name],
-                },
-                extra_headers=self.extra_headers,
-            )
-            return {
-                "call_id": tool_call.call_id,
-                "tool_name": tool_call.tool_name,
-                "content": ToolUtils.coerce_tool_content(tool_result.content),
-            }
-
-        # cannot find tools
+        # Server-side tools should never reach here (they execute within response stream)
+        # If we get here, it's an error
         return {
             "call_id": tool_call.call_id,
             "tool_name": tool_call.tool_name,
@@ -474,6 +422,7 @@ async def _create_turn_streaming(
                 instructions=self._instructions,
                 conversation=session_id,
                 input=messages,
+                tools=self._tools if self._tools else omit,
                 stream=True,
                 extra_headers=request_headers,
             )
@@ -555,7 +504,7 @@ async def _create_turn_streaming(
 class AgentUtils:
     @staticmethod
     def get_client_tools(
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
+        tools: Optional[List[Union[Dict[str, Any], ClientTool, Callable[..., Any]]]],
     ) -> List[ClientTool]:
         if not tools:
             return []
@@ -592,23 +541,40 @@ def get_turn_id(chunk: AgentStreamChunk) -> Optional[str]:
 
     @staticmethod
     def normalize_tools(
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]],
-    ) -> Tuple[List[Union[Toolgroup, str, Dict[str, Any]]], List[ClientTool]]:
+        tools: Optional[List[Union[Dict[str, Any], ClientTool, Callable[..., Any]]]],
+    ) -> Tuple[List[Dict[str, Any]], List[ClientTool]]:
+        """Convert all tools to API format dicts.
+
+        Returns:
+            - List of tool dicts for responses.create(tools=...)
+            - List of ClientTool instances for client-side execution
+        """
         if not tools:
             return [], []
 
-        normalized: List[Union[Toolgroup, ClientTool, Callable[..., Any], str, Dict[str, Any]]] = [
-            client_tool(tool) if (callable(tool) and not isinstance(tool, ClientTool)) else tool for tool in tools
-        ]
-        client_tool_instances = [tool for tool in normalized if isinstance(tool, ClientTool)]
+        tool_dicts: List[Dict[str, Any]] = []
+        client_tool_instances: List[ClientTool] = []
 
-        toolgroups: List[Union[Toolgroup, str, Dict[str, Any]]] = []
-        for tool in normalized:
-            if isinstance(tool, ClientTool):
-                continue
-            if isinstance(tool, (str, dict, Toolgroup)):
-                toolgroups.append(tool)
-                continue
-            raise TypeError(f"Unsupported tool type: {type(tool)!r}")
+        for tool in tools:
+            # Convert callable to ClientTool
+            if callable(tool) and not isinstance(tool, ClientTool):
+                tool = client_tool(tool)
 
-        return toolgroups, client_tool_instances
+            if isinstance(tool, ClientTool):
+                # Convert ClientTool to function tool dict
+                tool_def = tool.get_tool_definition()
+                tool_dict = {
+                    "type": "function",
+                    "name": tool_def["name"],
+                    "description": tool_def.get("description", ""),
+                    "parameters": tool_def.get("input_schema", {}),
+                }
+                tool_dicts.append(tool_dict)
+                client_tool_instances.append(tool)
+            elif isinstance(tool, dict):
+                # Server-side tool dict (file_search, web_search, etc.)
+                tool_dicts.append(tool)
+            else:
+                raise TypeError(f"Unsupported tool type: {type(tool)!r}")
+
+        return tool_dicts, client_tool_instances
diff --git a/src/llama_stack_client/lib/agents/event_synthesizer.py b/src/llama_stack_client/lib/agents/event_synthesizer.py
index b387f225..d9ff1670 100644
--- a/src/llama_stack_client/lib/agents/event_synthesizer.py
+++ b/src/llama_stack_client/lib/agents/event_synthesizer.py
@@ -93,6 +93,12 @@ def __init__(self, session_id: str, turn_id: str):
         # For client-side tools, these are accumulated and returned in inference step result
         self.tool_calls_building: Dict[str, Dict[str, Any]] = {}  # call_id -> {tool_call, is_server_side, ...}
 
+        # Current server-side tool execution (for handling call_id mismatches)
+        self.current_server_tool: Optional[Dict[str, Any]] = None
+
+        # Current client-side tool (for handling call_id mismatches)
+        self.current_client_tool: Optional[Dict[str, Any]] = None
+
         # Client-side function calls (accumulated for agent.py to execute)
         self.function_calls: List[ToolCall] = []
 
@@ -186,6 +192,9 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                 self.current_step_type = "tool_execution"
                 self.text_parts = []  # Reset for next inference step
 
+                # Remember the current server tool for handling call_id mismatches
+                self.current_server_tool = self.tool_calls_building[event.call_id]
+
                 yield StepStarted(
                     step_id=self.current_step_id,
                     step_type="tool_execution",
@@ -209,6 +218,9 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                 # CLIENT-SIDE FUNCTION: Just accumulate, agent.py will handle execution
                 self.function_calls.append(tool_call)
 
+                # Remember current client tool for handling call_id mismatches
+                self.current_client_tool = self.tool_calls_building[event.call_id]
+
                 # Emit as progress within current inference step
                 yield StepProgress(
                     step_id=self.current_step_id or "",
@@ -224,10 +236,34 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
 
         elif isinstance(event, AgentToolCallDelta):
             # Update arguments
+            builder = None
             if event.call_id in self.tool_calls_building:
                 builder = self.tool_calls_building[event.call_id]
+            elif self.current_server_tool and self.current_step_type == "tool_execution":
+                # Handle call_id mismatch for server-side tool
+                builder = self.current_server_tool
+                self.tool_calls_building[event.call_id] = builder
+            elif self.current_client_tool and self.current_step_type == "inference":
+                # Handle call_id mismatch for client-side tool
+                builder = self.current_client_tool
+                self.tool_calls_building[event.call_id] = builder
+
+            if builder:
                 builder["arguments"] += event.arguments_delta or ""
-                builder["tool_call"].arguments = builder["arguments"]
+                # Update the ToolCall object (Pydantic models are immutable, so replace it)
+                builder["tool_call"] = ToolCall(
+                    call_id=builder["tool_call"].call_id,
+                    tool_name=builder["tool_call"].tool_name,
+                    arguments=builder["arguments"],
+                )
+
+                # If client-side, also update the function_calls list
+                if not builder["is_server_side"]:
+                    for i, func_call in enumerate(self.function_calls):
+                        # Match by tool_name since call_id might have changed
+                        if func_call.tool_name == builder["tool_call"].tool_name:
+                            self.function_calls[i] = builder["tool_call"]
+                            break
 
                 # Emit delta
                 step_type = "tool_execution" if builder["is_server_side"] else "inference"
@@ -240,10 +276,27 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
 
         elif isinstance(event, AgentToolCallCompleted):
             # Update final arguments
+            builder = None
             if event.call_id in self.tool_calls_building:
                 builder = self.tool_calls_building[event.call_id]
+            elif self.current_server_tool and self.current_step_type == "tool_execution":
+                # Handle call_id mismatch for server-side tool
+                builder = self.current_server_tool
+                self.tool_calls_building[event.call_id] = builder
+            elif self.current_client_tool and self.current_step_type == "inference":
+                # Handle call_id mismatch for client-side tool
+                builder = self.current_client_tool
+                self.tool_calls_building[event.call_id] = builder
+
+            if builder:
                 builder["arguments"] = event.arguments_json or ""
-                builder["tool_call"].arguments = event.arguments_json or ""
+                # Update the ToolCall object (Pydantic models are immutable, so replace it)
+                # Keep the original call_id - the server stores tool calls with the original call_id
+                builder["tool_call"] = ToolCall(
+                    call_id=builder["tool_call"].call_id,  # Keep the original call_id
+                    tool_name=builder["tool_call"].tool_name,
+                    arguments=event.arguments_json or "{}",
+                )
 
                 if builder["is_server_side"]:
                     # SERVER-SIDE TOOL: Complete tool_execution step and start new inference step
@@ -261,6 +314,9 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                         ),
                     )
 
+                    # Clear current server tool
+                    self.current_server_tool = None
+
                     # Start new inference step for model to process results
                     self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
                     self.step_counter += 1
@@ -269,13 +325,20 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
 
                 else:
-                    # CLIENT-SIDE FUNCTION: Just update the accumulated function call
-                    # Update the function_calls list with final arguments
-                    for func_call in self.function_calls:
-                        if func_call.call_id == event.call_id:
-                            func_call.arguments = event.arguments_json or ""
+                    # CLIENT-SIDE FUNCTION: Update the accumulated function call
+                    # Use the updated ToolCall from builder
+                    # Note: We search by the tool_call in builder, which has the original call_id,
+                    # because event.call_id might be different due to call_id mismatches
+                    old_call_id = builder["tool_call"].call_id
+                    for i, func_call in enumerate(self.function_calls):
+                        # Match by tool_name since call_id might have changed
+                        if func_call.tool_name == builder["tool_call"].tool_name:
+                            self.function_calls[i] = builder["tool_call"]
                             break
 
+                    # Clear current client tool
+                    self.current_client_tool = None
+
         elif isinstance(event, AgentResponseCompleted):
             # Response completes - finish current step
             if self.current_step_type == "inference":
@@ -313,6 +376,7 @@ def _classify_tool_type(self, tool_name: str) -> str:
         # Known server-side tools that execute within the response
         server_side_tools = {
             "file_search",
+            "knowledge_search",  # file_search appears as knowledge_search in OpenAI-compatible mode
             "web_search",
             "query_from_memory",
             "mcp_call",
@@ -320,6 +384,9 @@ def _classify_tool_type(self, tool_name: str) -> str:
         }
 
         if tool_name in server_side_tools:
+            # Return a normalized type name
+            if tool_name == "knowledge_search":
+                return "file_search"  # Normalize to file_search for consistency
             return tool_name
 
         # Default to function for client-side tools
diff --git a/src/llama_stack_client/lib/agents/stream_events.py b/src/llama_stack_client/lib/agents/stream_events.py
index 46c6f7dd..06fcb3d4 100644
--- a/src/llama_stack_client/lib/agents/stream_events.py
+++ b/src/llama_stack_client/lib/agents/stream_events.py
@@ -1,7 +1,7 @@
 """Streaming event primitives for the responses-backed Agent API."""
 
 from dataclasses import dataclass
-from typing import Iterable, Optional
+from typing import Dict, Iterable, Optional
 
 from llama_stack_client.types.response_object_stream import (
     OpenAIResponseObjectStreamResponseCompleted,
@@ -84,6 +84,8 @@ class AgentResponseFailed(AgentStreamEvent):
 
 def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentStreamEvent]:
     current_response_id: Optional[str] = None
+    # Mapping from item_id (streaming ID like fc_UUID) to call_id (real ID like call_XXX)
+    item_id_to_call_id: Dict[str, str] = {}
 
     for event in events:
         response_id = getattr(event, "response_id", None)
@@ -109,19 +111,23 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
                 output_index=event.output_index,
             )
         elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDelta):
+            # Use the real call_id from our mapping, fallback to item_id if not found
+            real_call_id = item_id_to_call_id.get(event.item_id, event.item_id)
             yield AgentToolCallDelta(
                 type="tool_call_delta",
                 response_id=current_response_id or "",
                 output_index=event.output_index,
-                call_id=event.item_id,
+                call_id=real_call_id,
                 arguments_delta=event.delta,
             )
         elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone):
+            # Use the real call_id from our mapping, fallback to item_id if not found
+            real_call_id = item_id_to_call_id.get(event.item_id, event.item_id)
             yield AgentToolCallCompleted(
                 type="tool_call_completed",
                 response_id=current_response_id or "",
                 output_index=event.output_index,
-                call_id=event.item_id,
+                call_id=real_call_id,
                 arguments_json=event.arguments,
             )
         elif isinstance(event, OpenAIResponseObjectStreamResponseOutputItemAdded):
@@ -130,6 +136,8 @@ def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentS
                 item,
                 OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageFunctionToolCall,
             ):
+                # Store mapping from item.id (streaming ID) to item.call_id (real call_id)
+                item_id_to_call_id[item.id] = item.call_id
                 yield AgentToolCallIssued(
                     type="tool_call_issued",
                     response_id=current_response_id or event.response_id,
diff --git a/tests/integration/test_agent_turn_step_events.py b/tests/integration/test_agent_turn_step_events.py
index 8d2d2174..b75a679b 100644
--- a/tests/integration/test_agent_turn_step_events.py
+++ b/tests/integration/test_agent_turn_step_events.py
@@ -32,7 +32,7 @@
 )
 
 # Test configuration
-MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL", "ollama/llama3.2:3b-instruct-fp16")
+MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL", "openai/gpt-4o")
 BASE_URL = os.environ.get("TEST_API_BASE_URL", "http://localhost:8321")
 
 
@@ -62,8 +62,8 @@ def agent_with_no_tools(client):
 @pytest.fixture
 def agent_with_file_search(client):
     """Create an agent with file_search tool (server-side)."""
-    # Create a vector store with test content
-    file_content = "The capital of France is Paris. Paris is known for the Eiffel Tower."
+    # Create a vector store with test content (unique info to force tool use)
+    file_content = "Project Nightingale is a classified initiative. The project codename is BLUE_FALCON_7. The lead researcher is Dr. Elena Vasquez."
     file_payload = io.BytesIO(file_content.encode("utf-8"))
 
     uploaded_file = client.files.create(
@@ -71,7 +71,13 @@ def agent_with_file_search(client):
         purpose="assistants",
     )
 
-    vector_store = client.vector_stores.create(name=f"test-vs-{uuid4().hex[:8]}")
+    vector_store = client.vector_stores.create(
+        name=f"test-vs-{uuid4().hex[:8]}",
+        extra_body={
+            "provider_id": "faiss",
+            "embedding_model": "sentence-transformers/all-MiniLM-L6-v2",
+        },
+    )
     vector_store_file = client.vector_stores.files.create(
         vector_store_id=vector_store.id,
         file_id=uploaded_file.id,
@@ -93,7 +99,7 @@ def agent_with_file_search(client):
     return Agent(
         client=client,
         model=MODEL_ID,
-        instructions="Search the knowledge base to answer questions accurately.",
+        instructions="You MUST search the knowledge base to answer every question. Never answer from your own knowledge.",
         tools=[{"type": "file_search", "vector_store_ids": [vector_store.id]}],
     )
 
@@ -186,7 +192,7 @@ def test_server_side_file_search_tool(agent_with_file_search):
         {
             "type": "message",
             "role": "user",
-            "content": [{"type": "input_text", "text": "What is the capital of France?"}],
+            "content": [{"type": "input_text", "text": "What is the codename for Project Nightingale?"}],
         }
     ]
 
@@ -204,6 +210,14 @@ def test_server_side_file_search_tool(agent_with_file_search):
             print(log_msg, end="", flush=True)
 
     print("\n" + "="*80)
+    print(f"\nDEBUG: Total events: {len(events)}")
+    for i, event in enumerate(events):
+        print(f"  {i}: {type(event).__name__}", end="")
+        if hasattr(event, 'step_type'):
+            print(f"(step_type={event.step_type})", end="")
+        if hasattr(event, 'metadata'):
+            print(f" metadata={event.metadata}", end="")
+        print()
 
     # Verify Turn started and completed
     assert isinstance(events[0], TurnStarted)
@@ -227,8 +241,8 @@ def test_server_side_file_search_tool(agent_with_file_search):
     inference_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "inference"]
     assert len(inference_starts) >= 2, f"Should have at least 2 inference steps (before/after tool), found {len(inference_starts)}"
 
-    # Final response should contain the answer (Paris)
-    assert "Paris" in events[-1].final_text, "Response should contain 'Paris'"
+    # Final response should contain the answer (BLUE_FALCON_7)
+    assert "BLUE_FALCON" in events[-1].final_text or "BLUE_FALCON_7" in events[-1].final_text, "Response should contain the codename"
 
     print(f"\n✅ Test 2 passed: Server-side file_search with {len(events)} events")
     print(f"   - Tool execution steps: {len(tool_execution_starts)}")
@@ -251,18 +265,29 @@ def test_client_side_function_tool():
     9. StepCompleted(inference)
     10. TurnCompleted
     """
-    # Create a simple client-side function tool
-    def get_weather(location: str) -> str:
-        """Get the weather for a location."""
-        return f"Sunny and 72°F in {location}"
+    # Create a function that returns data requiring model processing
+    def get_user_secret_token(user_id: str) -> str:
+        """Get the encrypted authentication token for a user from the secure database.
+
+        The token is returned in encrypted hex format and must be decoded by the AI.
+
+        :param user_id: The unique identifier of the user
+        """
+        # Return encrypted data that GPT must process
+        import hashlib
+        import time
+        unique = f"{user_id}-{time.time()}-SECRET"
+        token_hash = hashlib.sha256(unique.encode()).hexdigest()[:16]
+        # Return as JSON with metadata that model must parse and format
+        return f'{{"status": "success", "encrypted_token": "{token_hash}", "format": "hex", "expires_in_hours": 24}}'
 
     client = LlamaStackClient(base_url=BASE_URL)
 
     agent = Agent(
         client=client,
         model=MODEL_ID,
-        instructions="Use the get_weather function to answer weather questions.",
-        tools=[get_weather],
+        instructions="You are a helpful assistant. When retrieving tokens, you MUST call get_user_secret_token, then parse the JSON response and present it in a user-friendly format. Explain what the token is and when it expires.",
+        tools=[get_user_secret_token],
     )
 
     session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
@@ -271,7 +296,7 @@ def get_weather(location: str) -> str:
         {
             "type": "message",
             "role": "user",
-            "content": [{"type": "input_text", "text": "What's the weather in Paris?"}],
+            "content": [{"type": "input_text", "text": "Can you get me the authentication token for user_12345? Please explain what it is."}],
         }
     ]
 
@@ -289,6 +314,14 @@ def get_weather(location: str) -> str:
             print(log_msg, end="", flush=True)
 
     print("\n" + "="*80)
+    print(f"\nDEBUG: Total events: {len(events)}")
+    for i, event in enumerate(events):
+        print(f"  {i}: {type(event).__name__}", end="")
+        if hasattr(event, 'step_type'):
+            print(f"(step_type={event.step_type})", end="")
+        if hasattr(event, 'metadata'):
+            print(f" metadata={event.metadata}", end="")
+        print()
 
     # Verify Turn started and completed
     assert isinstance(events[0], TurnStarted)
@@ -299,7 +332,7 @@ def get_weather(location: str) -> str:
         e for e in events
         if isinstance(e, StepProgress) and isinstance(e.delta, ToolCallIssuedDelta) and e.delta.tool_type == "function"
     ]
-    assert len(function_calls) >= 1, "Should have at least one function call"
+    assert len(function_calls) >= 1, f"Should have at least one function call (get_user_secret_token), found {len(function_calls)}"
 
     # KEY ASSERTION: Should have tool_execution step (client-side function)
     tool_execution_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "tool_execution"]
@@ -310,12 +343,18 @@ def get_weather(location: str) -> str:
     assert function_step.metadata is not None, "Tool execution step should have metadata"
     assert function_step.metadata.get("server_side") is False, "Function tool should be marked as client_side"
 
-    # Should have multiple inference steps (before and after tool execution)
+    # Should have at least one inference step (before tool execution)
     inference_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "inference"]
-    assert len(inference_starts) >= 2, f"Should have at least 2 inference steps (before/after tool), found {len(inference_starts)}"
+    assert len(inference_starts) >= 1, f"Should have at least 1 inference step, found {len(inference_starts)}"
+
+    # Verify the tool was actually executed with proper arguments
+    tool_execution_completes = [e for e in events if isinstance(e, StepCompleted) and e.step_type == "tool_execution"]
+    assert len(tool_execution_completes) >= 1, "Should have at least one tool_execution completion"
 
-    # Final response should contain weather info
-    assert "72" in events[-1].final_text or "Sunny" in events[-1].final_text, "Response should contain weather info"
+    # Final response should contain the token data (proves function was called and processed)
+    final_text = events[-1].final_text.lower()
+    assert "token" in final_text or "encrypted" in final_text, "Response should contain token information from function call"
+    assert "24" in events[-1].final_text or "hour" in final_text or "expire" in final_text, "Response should mention expiration from parsed JSON"
 
     print(f"\n✅ Test 3 passed: Client-side function with {len(events)} events")
     print(f"   - Tool execution steps: {len(tool_execution_starts)}")
diff --git a/uv.lock b/uv.lock
index 6af0f2a5..9d63e22e 100644
--- a/uv.lock
+++ b/uv.lock
@@ -424,7 +424,7 @@ wheels = [
 
 [[package]]
 name = "llama-stack-client"
-version = "0.3.0a5"
+version = "0.3.0a6"
 source = { editable = "." }
 dependencies = [
     { name = "anyio" },

From ccdc7393eac5936eb7aaefadb3360f1a7434e9b1 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Mon, 13 Oct 2025 11:03:27 -0700
Subject: [PATCH 10/15] add CLI

---
 examples/README.md                | 111 +++++++++++++
 examples/interactive_agent_cli.py | 267 ++++++++++++++++++++++++++++++
 2 files changed, 378 insertions(+)
 create mode 100644 examples/README.md
 create mode 100755 examples/interactive_agent_cli.py

diff --git a/examples/README.md b/examples/README.md
new file mode 100644
index 00000000..0fc09d50
--- /dev/null
+++ b/examples/README.md
@@ -0,0 +1,111 @@
+# Examples
+
+This directory contains example scripts and interactive tools for exploring the Llama Stack Client Python SDK.
+
+## Interactive Agent CLI
+
+`interactive_agent_cli.py` - An interactive command-line tool for exploring agent turn/step events with server-side tools.
+
+### Features
+
+- 🔍 **File Search Integration**: Automatically sets up a vector store with sample knowledge base
+- 📊 **Event Streaming**: See real-time turn/step events as the agent processes your queries
+- 🎯 **Server-Side Tools**: Demonstrates file_search and other server-side tool execution
+- 💬 **Interactive REPL**: Chat-style interface for easy exploration
+
+### Prerequisites
+
+1. Start a Llama Stack server with OpenAI provider:
+   ```bash
+   cd ~/local/llama-stack
+   source ../stack-venv/bin/activate
+   export OPENAI_API_KEY=<your-key>
+   llama stack run ci-tests --port 8321
+   ```
+
+2. Install the client (from repository root):
+   ```bash
+   cd /Users/ashwin/local/new-stainless/llama-stack-client-python
+   uv sync
+   ```
+
+### Usage
+
+Basic usage (uses defaults: openai/gpt-4o, localhost:8321):
+```bash
+cd examples
+uv run python interactive_agent_cli.py
+```
+
+With custom options:
+```bash
+uv run python interactive_agent_cli.py --model openai/gpt-4o-mini --base-url http://localhost:8321
+```
+
+### Example Session
+
+```
+╔══════════════════════════════════════════════════════════════╗
+║                                                              ║
+║        🤖  Interactive Agent Explorer  🔍                    ║
+║                                                              ║
+║  Explore agent turn/step events with server-side tools      ║
+║                                                              ║
+╚══════════════════════════════════════════════════════════════╝
+
+🔧 Configuration:
+  Model: openai/gpt-4o
+  Server: http://localhost:8321
+
+🔌 Connecting to server...
+  ✓ Connected
+
+📚 Setting up knowledge base...
+  Indexing documents....... ✓
+  Vector store ID: vs_abc123
+
+🤖 Creating agent with tools...
+  ✓ Agent ready
+
+💬 Type your questions (or 'quit' to exit, 'help' for suggestions)
+──────────────────────────────────────────────────────────────
+
+🧑 You: What is Project Phoenix?
+
+🤖 Assistant:
+
+  ┌─── Turn turn_abc123 started ───┐
+  │                                 │
+  │  🧠 Inference Step 0 started    │
+  │  🔍 Tool Execution Step 1       │
+  │     Tool: knowledge_search      │
+  │     Status: server_side         │
+  │  🧠 Inference Step 2            │
+  │  ✓ Response: Project Phoenix... │
+  │                                 │
+  └─── Turn completed ──────────────┘
+
+Project Phoenix is a next-generation distributed systems platform launched in 2024...
+```
+
+### What You'll See
+
+The tool uses `AgentEventLogger` to display:
+- **Turn lifecycle**: TurnStarted → TurnCompleted
+- **Inference steps**: When the model is thinking/generating text
+- **Tool execution steps**: When server-side tools (like file_search) are running
+- **Step metadata**: Whether tools are server-side or client-side
+- **Real-time streaming**: Text appears as it's generated
+
+### Sample Questions
+
+Type `help` in the interactive session to see suggested questions, or try:
+- "What is Project Phoenix?"
+- "Who is the lead architect?"
+- "What ports does the system use?"
+- "How long do JWT tokens last?"
+- "Where is the production environment deployed?"
+
+### Exit
+
+Type `quit`, `exit`, `q`, or press `Ctrl+C` to exit.
diff --git a/examples/interactive_agent_cli.py b/examples/interactive_agent_cli.py
new file mode 100755
index 00000000..964876d8
--- /dev/null
+++ b/examples/interactive_agent_cli.py
@@ -0,0 +1,267 @@
+#!/usr/bin/env python3
+"""Interactive CLI for exploring agent turn/step events with server-side tools.
+
+Usage:
+    python interactive_agent_cli.py [--model MODEL] [--base-url URL]
+"""
+import argparse
+import io
+import sys
+import time
+from uuid import uuid4
+
+from llama_stack_client import LlamaStackClient, AgentEventLogger
+from llama_stack_client.lib.agents.agent import Agent
+
+
+def setup_knowledge_base(client):
+    """Create a vector store with interesting test knowledge."""
+    print("📚 Setting up knowledge base...")
+
+    # Create interesting test content
+    knowledge_content = """
+    # Project Phoenix Documentation
+
+    ## Overview
+    Project Phoenix is a next-generation distributed systems platform launched in 2024.
+
+    ## Key Components
+    - **Phoenix Core**: The main orchestration engine
+    - **Phoenix Mesh**: Service mesh implementation
+    - **Phoenix Analytics**: Real-time data processing pipeline
+
+    ## Authentication
+    - Primary auth method: OAuth 2.0 with JWT tokens
+    - Token expiration: 24 hours
+    - Refresh token validity: 7 days
+
+    ## Architecture
+    The system uses a microservices architecture with:
+    - API Gateway on port 8080
+    - Auth service on port 8081
+    - Data service on port 8082
+
+    ## Team
+    - Lead Architect: Dr. Sarah Chen
+    - Security Lead: James Rodriguez
+    - DevOps Lead: Maria Santos
+
+    ## Deployment
+    - Production: AWS us-east-1
+    - Staging: AWS us-west-2
+    - Development: Local Kubernetes cluster
+    """
+
+    # Upload file
+    file_payload = io.BytesIO(knowledge_content.encode("utf-8"))
+    uploaded_file = client.files.create(
+        file=("project_phoenix_docs.txt", file_payload, "text/plain"),
+        purpose="assistants",
+    )
+
+    # Create vector store
+    vector_store = client.vector_stores.create(
+        name=f"phoenix-kb-{uuid4().hex[:8]}",
+        extra_body={
+            "provider_id": "faiss",
+            "embedding_model": "sentence-transformers/all-MiniLM-L6-v2",
+        },
+    )
+
+    # Add file to vector store
+    vector_store_file = client.vector_stores.files.create(
+        vector_store_id=vector_store.id,
+        file_id=uploaded_file.id,
+    )
+
+    # Wait for ingestion
+    print("  Indexing documents...", end="", flush=True)
+    deadline = time.time() + 60.0
+    while vector_store_file.status != "completed":
+        if vector_store_file.status in {"failed", "cancelled"}:
+            raise RuntimeError(f"Vector store ingestion failed: {vector_store_file.status}")
+        if time.time() > deadline:
+            raise TimeoutError("Vector store file ingest timed out")
+        time.sleep(0.5)
+        vector_store_file = client.vector_stores.files.retrieve(
+            vector_store_id=vector_store.id,
+            file_id=vector_store_file.id,
+        )
+        print(".", end="", flush=True)
+
+    print(" ✓")
+    print(f"  Vector store ID: {vector_store.id}")
+    print()
+    return vector_store.id
+
+
+def print_banner():
+    """Print a nice banner."""
+    banner = """
+╔══════════════════════════════════════════════════════════════╗
+║                                                              ║
+║        🤖  Interactive Agent Explorer  🔍                    ║
+║                                                              ║
+║  Explore agent turn/step events with server-side tools      ║
+║                                                              ║
+╚══════════════════════════════════════════════════════════════╝
+"""
+    print(banner)
+
+
+def create_agent_with_tools(client, model, vector_store_id):
+    """Create an agent with file_search and other server-side tools."""
+    tools = [
+        {
+            "type": "file_search",
+            "vector_store_ids": [vector_store_id],
+        }
+    ]
+
+    instructions = """You are a helpful AI assistant with access to a knowledge base about Project Phoenix.
+
+When answering questions:
+1. ALWAYS search the knowledge base first using file_search
+2. Provide specific details from the documentation
+3. If information isn't in the knowledge base, say so clearly
+4. Be concise but thorough
+
+Available tools:
+- file_search: Search the Project Phoenix documentation
+"""
+
+    agent = Agent(
+        client=client,
+        model=model,
+        instructions=instructions,
+        tools=tools,
+    )
+
+    return agent
+
+
+def interactive_loop(agent):
+    """Run the interactive query loop with nice event logging."""
+    session_id = agent.create_session(f"interactive-{uuid4().hex[:8]}")
+    print(f"📝 Session created: {session_id}\n")
+
+    print("💬 Type your questions (or 'quit' to exit, 'help' for suggestions)")
+    print("─" * 70)
+    print()
+
+    while True:
+        try:
+            # Get user input
+            user_input = input("\n🧑 You: ").strip()
+
+            if not user_input:
+                continue
+
+            if user_input.lower() in {"quit", "exit", "q"}:
+                print("\n👋 Goodbye!")
+                break
+
+            if user_input.lower() == "help":
+                print("\n💡 Try asking:")
+                print("  • What is Project Phoenix?")
+                print("  • Who is the lead architect?")
+                print("  • What ports does the system use?")
+                print("  • How long do JWT tokens last?")
+                print("  • Where is the production environment deployed?")
+                continue
+
+            # Create message
+            messages = [
+                {
+                    "type": "message",
+                    "role": "user",
+                    "content": [{"type": "input_text", "text": user_input}],
+                }
+            ]
+
+            print()
+            print("🤖 Assistant:", end=" ", flush=True)
+
+            # Stream response with event logging
+            event_logger = AgentEventLogger()
+
+            for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
+                # Log the event
+                for log_msg in event_logger.log([chunk]):
+                    print(log_msg, end="", flush=True)
+
+            print()  # New line after response
+
+        except KeyboardInterrupt:
+            print("\n\n👋 Goodbye!")
+            break
+        except Exception as e:
+            print(f"\n❌ Error: {e}", file=sys.stderr)
+            print("   Please try again or type 'quit' to exit", file=sys.stderr)
+
+
+def main():
+    """Main entry point."""
+    parser = argparse.ArgumentParser(
+        description="Interactive agent CLI with server-side tools",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog="""
+Examples:
+  %(prog)s
+  %(prog)s --model openai/gpt-4o
+  %(prog)s --base-url http://localhost:8321
+        """,
+    )
+    parser.add_argument(
+        "--model",
+        default="openai/gpt-4o",
+        help="Model to use (default: openai/gpt-4o)",
+    )
+    parser.add_argument(
+        "--base-url",
+        default="http://localhost:8321",
+        help="Llama Stack server URL (default: http://localhost:8321)",
+    )
+
+    args = parser.parse_args()
+
+    print_banner()
+    print(f"🔧 Configuration:")
+    print(f"  Model: {args.model}")
+    print(f"  Server: {args.base_url}")
+    print()
+
+    # Create client
+    print("🔌 Connecting to server...")
+    try:
+        client = LlamaStackClient(base_url=args.base_url)
+        print("  ✓ Connected")
+        print()
+    except Exception as e:
+        print(f"  ✗ Failed to connect: {e}", file=sys.stderr)
+        print(f"\n  Make sure the server is running at {args.base_url}", file=sys.stderr)
+        sys.exit(1)
+
+    # Setup knowledge base
+    try:
+        vector_store_id = setup_knowledge_base(client)
+    except Exception as e:
+        print(f"❌ Failed to setup knowledge base: {e}", file=sys.stderr)
+        sys.exit(1)
+
+    # Create agent
+    print("🤖 Creating agent with tools...")
+    try:
+        agent = create_agent_with_tools(client, args.model, vector_store_id)
+        print("  ✓ Agent ready")
+        print()
+    except Exception as e:
+        print(f"  ✗ Failed to create agent: {e}", file=sys.stderr)
+        sys.exit(1)
+
+    # Run interactive loop
+    interactive_loop(agent)
+
+
+if __name__ == "__main__":
+    main()

From 349dce717b582db6863f48990038dd4a0a50eb95 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Tue, 14 Oct 2025 15:28:21 -0700
Subject: [PATCH 11/15] fixes

---
 pyproject.toml                                |   5 +-
 src/llama_stack_client/lib/agents/agent.py    | 141 ++++----
 .../lib/agents/event_synthesizer.py           | 313 +++++++++++++++---
 .../lib/agents/stream_events.py               | 209 ------------
 .../test_agent_turn_step_events.py            | 209 +++++-------
 5 files changed, 431 insertions(+), 446 deletions(-)
 delete mode 100644 src/llama_stack_client/lib/agents/stream_events.py

diff --git a/pyproject.toml b/pyproject.toml
index 63c6129a..13ddebdf 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -118,8 +118,9 @@ replacement = '[\1](https://github.com/llamastack/llama-stack-client-python/tree
 
 [tool.pytest.ini_options]
 testpaths = ["tests"]
-addopts = "--tb=short -n auto"
-xfail_strict = true
+# addopts = "--tb=short -n auto"
+addopts = "--tb=short"
+# xfail_strict = true
 asyncio_mode = "auto"
 asyncio_default_fixture_loop_scope = "session"
 filterwarnings = [
diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index dd464427..8e0da55e 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -5,10 +5,21 @@
 # the root directory of this source tree.
 import json
 import logging
-from typing import Any, AsyncIterator, Callable, Dict, Iterator, List, Optional, Tuple, Union, TypedDict
+from typing import (
+    Any,
+    AsyncIterator,
+    Callable,
+    Dict,
+    Iterator,
+    List,
+    Optional,
+    Tuple,
+    Union,
+    TypedDict,
+)
 from uuid import uuid4
 
-from llama_stack_client import LlamaStackClient, AsyncLlamaStackClient
+from llama_stack_client import LlamaStackClient
 from llama_stack_client.types import ResponseObject
 from llama_stack_client.types import response_create_params
 from llama_stack_client.types.alpha.tool_response import ToolResponse
@@ -17,13 +28,9 @@
 from llama_stack_client.types.shared_params.document import Document
 from llama_stack_client.types.shared.completion_message import CompletionMessage
 
-from ..._types import Headers, omit
+from ..._types import Headers
 from .client_tool import ClientTool, client_tool
 from .tool_parser import ToolParser
-from .stream_events import (
-    AgentResponseFailed,
-    iter_agent_events,
-)
 from .turn_events import (
     AgentStreamChunk,
     StepCompleted,
@@ -104,7 +111,7 @@ def normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
 class Agent:
     def __init__(
         self,
-        client: LlamaStackClient,
+        client: Any,  # Accept any OpenAI-compatible client (OpenAI SDK or LlamaStackClient)
         *,
         model: str,
         instructions: str,
@@ -112,7 +119,12 @@ def __init__(
         tool_parser: Optional[ToolParser] = None,
         extra_headers: Headers | None = None,
     ):
-        """Construct an Agent backed by the responses + conversations APIs."""
+        """Construct an Agent backed by the responses + conversations APIs.
+
+        Args:
+            client: An OpenAI-compatible client (e.g., openai.OpenAI() or LlamaStackClient).
+                    The client must support the responses and conversations APIs.
+        """
         self.client = client
         self.tool_parser = tool_parser
         self.extra_headers = extra_headers
@@ -178,7 +190,11 @@ def create_turn(
     ) -> Iterator[AgentStreamChunk] | ResponseObject:
         if stream:
             return self._create_turn_streaming(
-                messages, session_id, toolgroups, documents, extra_headers=extra_headers or self.extra_headers
+                messages,
+                session_id,
+                toolgroups,
+                documents,
+                extra_headers=extra_headers or self.extra_headers,
             )
         else:
             _ = toolgroups
@@ -227,7 +243,7 @@ def _create_turn_streaming(
                 instructions=self._instructions,
                 conversation=session_id,
                 input=messages,
-                tools=self._tools if self._tools else omit,
+                tools=self._tools,
                 stream=True,
                 extra_headers=request_headers,
             )
@@ -235,37 +251,28 @@ def _create_turn_streaming(
             # Process events
             function_calls_to_execute: List[ToolCall] = []  # Only client-side!
 
-            for low_level_event in iter_agent_events(raw_stream):
+            for high_level_event in synthesizer.process_raw_stream(raw_stream):
                 # Handle failures
-                if isinstance(low_level_event, AgentResponseFailed):
-                    yield AgentStreamChunk(
-                        event=TurnFailed(
-                            turn_id=turn_id, session_id=session_id, error_message=low_level_event.error_message
-                        )
-                    )
+                if isinstance(high_level_event, TurnFailed):
+                    yield AgentStreamChunk(event=high_level_event)
                     return
 
-                # Feed to synthesizer
-                for high_level_event in synthesizer.process_low_level_event(low_level_event):
-                    # Track function calls that need client execution
-                    if isinstance(high_level_event, StepCompleted):
-                        if high_level_event.step_type == "inference":
-                            result = high_level_event.result
-                            if result.function_calls:  # Only client-side function calls
-                                function_calls_to_execute = result.function_calls
+                # Track function calls that need client execution
+                if isinstance(high_level_event, StepCompleted):
+                    if high_level_event.step_type == "inference":
+                        result = high_level_event.result
+                        if result.function_calls:  # Only client-side function calls
+                            function_calls_to_execute = result.function_calls
 
-                    yield AgentStreamChunk(event=high_level_event)
-
-            # Enrich server-side tool executions with results from ResponseObject
-            response = self.client.responses.retrieve(
-                synthesizer.current_response_id or "", extra_headers=request_headers
-            )
-            synthesizer.enrich_with_response(response)
+                yield AgentStreamChunk(event=high_level_event)
 
             # If no client-side function calls, turn is done
             if not function_calls_to_execute:
                 # Emit TurnCompleted
-                for event in synthesizer.finish_turn(response):
+                response = synthesizer.last_response
+                if not response:
+                    raise RuntimeError("No response available")
+                for event in synthesizer.finish_turn():
                     yield AgentStreamChunk(event=event, response=response)
                 self._last_response_id = response.id
                 self._session_last_response_id[session_id] = response.id
@@ -292,7 +299,9 @@ def _create_turn_streaming(
                     step_type="tool_execution",
                     turn_id=turn_id,
                     result=ToolExecutionStepResult(
-                        step_id=tool_step_id, tool_calls=function_calls_to_execute, tool_responses=tool_responses
+                        step_id=tool_step_id,
+                        tool_calls=function_calls_to_execute,
+                        tool_responses=tool_responses,
                     ),
                 )
             )
@@ -300,7 +309,9 @@ def _create_turn_streaming(
             # Continue loop with tool outputs as input
             messages = [
                 response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                    type="function_call_output", call_id=payload["call_id"], output=payload["content"]
+                    type="function_call_output",
+                    call_id=payload["call_id"],
+                    output=payload["content"],
                 )
                 for payload in tool_responses
             ]
@@ -309,7 +320,7 @@ def _create_turn_streaming(
 class AsyncAgent:
     def __init__(
         self,
-        client: AsyncLlamaStackClient,
+        client: Any,  # Accept any async OpenAI-compatible client
         *,
         model: str,
         instructions: str,
@@ -317,11 +328,16 @@ def __init__(
         tool_parser: Optional[ToolParser] = None,
         extra_headers: Headers | None = None,
     ):
-        """Construct an async Agent backed by the responses + conversations APIs."""
+        """Construct an async Agent backed by the responses + conversations APIs.
+
+        Args:
+            client: An async OpenAI-compatible client (e.g., openai.AsyncOpenAI() or AsyncLlamaStackClient).
+                    The client must support the responses and conversations APIs.
+        """
         self.client = client
 
         if isinstance(client, LlamaStackClient):
-            raise ValueError("AsyncAgent must be initialized with an AsyncLlamaStackClient")
+            raise ValueError("AsyncAgent must be initialized with an async client, not a sync LlamaStackClient")
 
         self.tool_parser = tool_parser
         self.extra_headers = extra_headers
@@ -422,7 +438,7 @@ async def _create_turn_streaming(
                 instructions=self._instructions,
                 conversation=session_id,
                 input=messages,
-                tools=self._tools if self._tools else omit,
+                tools=self._tools,
                 stream=True,
                 extra_headers=request_headers,
             )
@@ -430,37 +446,28 @@ async def _create_turn_streaming(
             # Process events
             function_calls_to_execute: List[ToolCall] = []  # Only client-side!
 
-            async for low_level_event in iter_agent_events(raw_stream):
+            for high_level_event in synthesizer.process_raw_stream(raw_stream):
                 # Handle failures
-                if isinstance(low_level_event, AgentResponseFailed):
-                    yield AgentStreamChunk(
-                        event=TurnFailed(
-                            turn_id=turn_id, session_id=session_id, error_message=low_level_event.error_message
-                        )
-                    )
+                if isinstance(high_level_event, TurnFailed):
+                    yield AgentStreamChunk(event=high_level_event)
                     return
 
-                # Feed to synthesizer
-                for high_level_event in synthesizer.process_low_level_event(low_level_event):
-                    # Track function calls that need client execution
-                    if isinstance(high_level_event, StepCompleted):
-                        if high_level_event.step_type == "inference":
-                            result = high_level_event.result
-                            if result.function_calls:  # Only client-side function calls
-                                function_calls_to_execute = result.function_calls
+                # Track function calls that need client execution
+                if isinstance(high_level_event, StepCompleted):
+                    if high_level_event.step_type == "inference":
+                        result = high_level_event.result
+                        if result.function_calls:  # Only client-side function calls
+                            function_calls_to_execute = result.function_calls
 
-                    yield AgentStreamChunk(event=high_level_event)
-
-            # Enrich server-side tool executions with results from ResponseObject
-            response = await self.client.responses.retrieve(
-                synthesizer.current_response_id or "", extra_headers=request_headers
-            )
-            synthesizer.enrich_with_response(response)
+                yield AgentStreamChunk(event=high_level_event)
 
             # If no client-side function calls, turn is done
             if not function_calls_to_execute:
                 # Emit TurnCompleted
-                for event in synthesizer.finish_turn(response):
+                response = synthesizer.last_response
+                if not response:
+                    raise RuntimeError("No response available")
+                for event in synthesizer.finish_turn():
                     yield AgentStreamChunk(event=event, response=response)
                 self._last_response_id = response.id
                 self._session_last_response_id[session_id] = response.id
@@ -487,7 +494,9 @@ async def _create_turn_streaming(
                     step_type="tool_execution",
                     turn_id=turn_id,
                     result=ToolExecutionStepResult(
-                        step_id=tool_step_id, tool_calls=function_calls_to_execute, tool_responses=tool_responses
+                        step_id=tool_step_id,
+                        tool_calls=function_calls_to_execute,
+                        tool_responses=tool_responses,
                     ),
                 )
             )
@@ -495,7 +504,9 @@ async def _create_turn_streaming(
             # Continue loop with tool outputs as input
             messages = [
                 response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                    type="function_call_output", call_id=payload["call_id"], output=payload["content"]
+                    type="function_call_output",
+                    call_id=payload["call_id"],
+                    output=payload["content"],
                 )
                 for payload in tool_responses
             ]
diff --git a/src/llama_stack_client/lib/agents/event_synthesizer.py b/src/llama_stack_client/lib/agents/event_synthesizer.py
index d9ff1670..4d9712d3 100644
--- a/src/llama_stack_client/lib/agents/event_synthesizer.py
+++ b/src/llama_stack_client/lib/agents/event_synthesizer.py
@@ -25,26 +25,94 @@
 - Results manually fed back via new response
 """
 
-from typing import Iterator, Optional, Dict, List, Any
+from dataclasses import dataclass
+from typing import Iterator, Optional, Dict, List, Any, Iterable
 
 from llama_stack_client.types.shared.tool_call import ToolCall
 from llama_stack_client.types import ResponseObject
 
-from .stream_events import (
-    AgentStreamEvent,
-    AgentResponseStarted,
-    AgentTextDelta,
-    AgentTextCompleted,
-    AgentToolCallIssued,
-    AgentToolCallDelta,
-    AgentToolCallCompleted,
-    AgentResponseCompleted,
-    AgentResponseFailed,
-)
+from logging import getLogger
+
+logger = getLogger(__name__)
+
+# ============= Internal Low-Level Stream Events =============
+# These are private internal events used during translation from
+# raw ResponseObjectStream to high-level turn/step events.
+# NOT part of the public API.
+
+
+@dataclass
+class _AgentStreamEvent:
+    """Base class for internal low-level stream events."""
+
+    type: str
+
+
+@dataclass
+class _AgentResponseStarted(_AgentStreamEvent):
+    response_id: str
+
+
+@dataclass
+class _AgentTextDelta(_AgentStreamEvent):
+    text: str
+    response_id: str
+    output_index: int
+
+
+@dataclass
+class _AgentTextCompleted(_AgentStreamEvent):
+    text: str
+    response_id: str
+    output_index: int
+
+
+@dataclass
+class _AgentToolCallIssued(_AgentStreamEvent):
+    response_id: str
+    output_index: int
+    call_id: str
+    name: str
+    arguments_json: str
+
+
+@dataclass
+class _AgentToolCallDelta(_AgentStreamEvent):
+    response_id: str
+    output_index: int
+    call_id: str
+    arguments_delta: Optional[str]
+
+
+@dataclass
+class _AgentToolCallCompleted(_AgentStreamEvent):
+    response_id: str
+    output_index: int
+    call_id: str
+    arguments_json: str
+
+
+@dataclass
+class _AgentResponseCompleted(_AgentStreamEvent):
+    response_id: str
+
+
+@dataclass
+class _AgentResponseFailed(_AgentStreamEvent):
+    response_id: str
+    error_message: str
+
+
+from typing import Any
+
+# Note: We use duck typing on event.type instead of isinstance checks
+# to support both OpenAI SDK and LlamaStack SDK events
+
 from .turn_events import (
     AgentEvent,
     TurnStarted,
     TurnCompleted,
+    TurnFailed,
     StepStarted,
     StepProgress,
     StepCompleted,
@@ -105,8 +173,9 @@ def __init__(self, session_id: str, turn_id: str):
         # Turn-level accumulation
         self.all_response_ids: List[str] = []
         self.turn_started = False
+        self.last_response: Optional[ResponseObject] = None
 
-    def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEvent]:
+    def process_low_level_event(self, event: _AgentStreamEvent) -> Iterator[AgentEvent]:
         """Map low-level events to high-level turn/step events.
 
         This is the core translation logic. It processes each low-level
@@ -124,7 +193,7 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
             self.turn_started = True
             yield TurnStarted(turn_id=self.turn_id, session_id=self.session_id)
 
-        if isinstance(event, AgentResponseStarted):
+        if isinstance(event, _AgentResponseStarted):
             # Start new inference step
             self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
             self.step_counter += 1
@@ -135,9 +204,13 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
             self.tool_calls_building = {}
             self.function_calls = []
 
-            yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
+            yield StepStarted(
+                step_id=self.current_step_id,
+                step_type="inference",
+                turn_id=self.turn_id,
+            )
 
-        elif isinstance(event, AgentTextDelta):
+        elif isinstance(event, _AgentTextDelta):
             # Only emit text if we're in an inference step
             if self.current_step_type == "inference":
                 self.text_parts.append(event.text)
@@ -148,17 +221,21 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     delta=TextDelta(text=event.text),
                 )
 
-        elif isinstance(event, AgentTextCompleted):
+        elif isinstance(event, _AgentTextCompleted):
             # Text completion - just ensure we have the complete text
             pass
 
-        elif isinstance(event, AgentToolCallIssued):
+        elif isinstance(event, _AgentToolCallIssued):
             # Determine if server-side or client-side
             tool_type = self._classify_tool_type(event.name)
             is_server_side = tool_type != "function"
 
             # Create tool call object
-            tool_call = ToolCall(call_id=event.call_id, tool_name=event.name, arguments=event.arguments_json or "")
+            tool_call = ToolCall(
+                call_id=event.call_id,
+                tool_name=event.name,
+                arguments=event.arguments_json or "",
+            )
 
             # Track this tool call
             self.tool_calls_building[event.call_id] = {
@@ -199,7 +276,11 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     step_id=self.current_step_id,
                     step_type="tool_execution",
                     turn_id=self.turn_id,
-                    metadata={"server_side": True, "tool_type": tool_type, "tool_name": event.name},
+                    metadata={
+                        "server_side": True,
+                        "tool_type": tool_type,
+                        "tool_name": event.name,
+                    },
                 )
 
                 # Emit the tool call issued as progress
@@ -234,7 +315,7 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     ),
                 )
 
-        elif isinstance(event, AgentToolCallDelta):
+        elif isinstance(event, _AgentToolCallDelta):
             # Update arguments
             builder = None
             if event.call_id in self.tool_calls_building:
@@ -271,10 +352,13 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     step_id=self.current_step_id or "",
                     step_type=step_type,  # type: ignore
                     turn_id=self.turn_id,
-                    delta=ToolCallDelta(call_id=event.call_id, arguments_delta=event.arguments_delta or ""),
+                    delta=ToolCallDelta(
+                        call_id=event.call_id,
+                        arguments_delta=event.arguments_delta or "",
+                    ),
                 )
 
-        elif isinstance(event, AgentToolCallCompleted):
+        elif isinstance(event, _AgentToolCallCompleted):
             # Update final arguments
             builder = None
             if event.call_id in self.tool_calls_building:
@@ -322,7 +406,11 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     self.step_counter += 1
                     self.current_step_type = "inference"
 
-                    yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
+                    yield StepStarted(
+                        step_id=self.current_step_id,
+                        step_type="inference",
+                        turn_id=self.turn_id,
+                    )
 
                 else:
                     # CLIENT-SIDE FUNCTION: Update the accumulated function call
@@ -339,7 +427,7 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                     # Clear current client tool
                     self.current_client_tool = None
 
-        elif isinstance(event, AgentResponseCompleted):
+        elif isinstance(event, _AgentResponseCompleted):
             # Response completes - finish current step
             if self.current_step_type == "inference":
                 yield StepCompleted(
@@ -359,9 +447,13 @@ def process_low_level_event(self, event: AgentStreamEvent) -> Iterator[AgentEven
                 # This shouldn't normally happen, but if it does, complete the tool execution step
                 pass
 
-        elif isinstance(event, AgentResponseFailed):
-            # Don't yield here, let agent.py handle it
-            pass
+        elif isinstance(event, _AgentResponseFailed):
+            # Emit TurnFailed for response failures
+            yield TurnFailed(
+                turn_id=self.turn_id,
+                session_id=self.session_id,
+                error_message=event.error_message,
+            )
 
     def _classify_tool_type(self, tool_name: str) -> str:
         """Determine if tool is client-side or server-side.
@@ -392,38 +484,171 @@ def _classify_tool_type(self, tool_name: str) -> str:
         # Default to function for client-side tools
         return "function"
 
-    def enrich_with_response(self, response: ResponseObject) -> None:
-        """Enrich server tool executions with results from ResponseObject.
+    def process_raw_stream(self, events: Iterable[Any]) -> Iterator[AgentEvent]:
+        """Process raw response stream events and emit high-level turn/step events.
 
-        After a response completes, we can extract the actual results of
-        server-side tool executions from the response.output field.
-
-        Note: With the new architecture where server tools are separate steps,
-        this might be less critical, but we keep it for completeness.
+        This method uses duck typing to work with both OpenAI SDK and LlamaStack SDK events.
+        It checks the event.type field instead of using isinstance checks.
 
         Args:
-            response: Completed response object
+            events: Raw event stream from responses.create() (OpenAI or LlamaStack client)
+
+        Yields:
+            High-level turn/step events
         """
-        # This is now less important since server tools are handled as separate
-        # tool_execution steps, but we keep it for potential future use
-        pass
+        current_response_id: Optional[str] = None
+
+        for event in events:
+            # Extract response_id
+            response_id = getattr(event, "response_id", None)
+            if response_id is None and hasattr(event, "response"):
+                response_id = getattr(event.response, "id", None)
+            if response_id is not None:
+                current_response_id = response_id
+
+            # Translate raw event to _AgentStreamEvent and process it
+            # Use duck typing on event.type to support both OpenAI and LlamaStack SDKs
+            event_type = getattr(event, "type", None)
+            if "delta" not in event_type:
+                from rich.pretty import pprint
+
+                pprint(event)
+
+            if event_type == "response.in_progress":
+                low_level_event = _AgentResponseStarted(type="response_started", response_id=event.response.id)
+                yield from self.process_low_level_event(low_level_event)
+
+            elif event_type == "response.output_text.delta":
+                low_level_event = _AgentTextDelta(
+                    type="text_delta",
+                    text=event.delta,
+                    response_id=current_response_id or "",
+                    output_index=event.output_index,
+                )
+                yield from self.process_low_level_event(low_level_event)
+
+            elif event_type == "response.output_text.done":
+                low_level_event = _AgentTextCompleted(
+                    type="text_completed",
+                    text=event.text,
+                    response_id=current_response_id or "",
+                    output_index=event.output_index,
+                )
+                yield from self.process_low_level_event(low_level_event)
+
+            elif event_type == "response.output_item.done":
+                item = event.item
+                if item.type in ("function_call", "web_search_call"):
+                    low_level_event = _AgentToolCallCompleted(
+                        type="tool_call_completed",
+                        response_id=current_response_id or "",
+                        output_index=event.output_index,
+                        call_id=item.call_id,
+                        arguments_json=item.arguments,
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+                elif item.type == "file_search_call":
+                    low_level_event = _AgentToolCallCompleted(
+                        type="tool_call_completed",
+                        response_id=current_response_id or "",
+                        output_index=event.output_index,
+                        call_id=item.id,
+                        arguments_json="{}",
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+                else:
+                    logger.warning(f"Unhandled item type: {item.type}")
+
+            elif event_type == "response.output_item.added":
+                item = event.item
+                item_type = getattr(item, "type", None)
+
+                if item_type == "function_call":
+                    low_level_event = _AgentToolCallIssued(
+                        type="tool_call_issued",
+                        response_id=current_response_id or event.response_id,
+                        output_index=event.output_index,
+                        call_id=item.call_id,
+                        name=item.name,
+                        arguments_json=item.arguments,
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+
+                elif item_type == "web_search":
+                    low_level_event = _AgentToolCallIssued(
+                        type="tool_call_issued",
+                        response_id=current_response_id or event.response_id,
+                        output_index=event.output_index,
+                        call_id=item.id,
+                        name=item.type,
+                        arguments_json="{}",
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+
+                elif item_type == "mcp_call":
+                    low_level_event = _AgentToolCallIssued(
+                        type="tool_call_issued",
+                        response_id=current_response_id or event.response_id,
+                        output_index=event.output_index,
+                        call_id=item.id,
+                        name=item.name,
+                        arguments_json=item.arguments,
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+
+                elif item_type == "mcp_list_tools":
+                    low_level_event = _AgentToolCallIssued(
+                        type="tool_call_issued",
+                        response_id=current_response_id or event.response_id,
+                        output_index=event.output_index,
+                        call_id=item.id,
+                        name=item.type,
+                        arguments_json="{}",
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+
+                elif item_type == "message":
+                    # Text message output
+                    low_level_event = _AgentTextCompleted(
+                        type="text_completed",
+                        text=str(item.content) if hasattr(item, "content") else item.text,
+                        response_id=current_response_id or event.response_id,
+                        output_index=event.output_index,
+                    )
+                    yield from self.process_low_level_event(low_level_event)
+
+            elif event_type == "response.completed":
+                # Capture the response object for later use
+                self.last_response = event.response
+                low_level_event = _AgentResponseCompleted(type="response_completed", response_id=event.response.id)
+                yield from self.process_low_level_event(low_level_event)
+
+            elif event_type == "response.failed":
+                low_level_event = _AgentResponseFailed(
+                    type="response_failed",
+                    response_id=event.response.id,
+                    error_message=event.response.error.message
+                    if hasattr(event.response, "error") and event.response.error
+                    else "Unknown error",
+                )
+                yield from self.process_low_level_event(low_level_event)
 
-    def finish_turn(self, final_response: ResponseObject) -> Iterator[AgentEvent]:
+    def finish_turn(self) -> Iterator[AgentEvent]:
         """Emit TurnCompleted event.
 
         This should be called when the turn is complete (no more function
         calls to execute).
 
-        Args:
-            final_response: The final response object for this turn
-
         Yields:
             TurnCompleted event
         """
+        if not self.last_response:
+            raise RuntimeError("Cannot finish turn without a response")
+
         yield TurnCompleted(
             turn_id=self.turn_id,
             session_id=self.session_id,
-            final_text=final_response.output_text,
+            final_text=self.last_response.output_text,
             response_ids=self.all_response_ids,
             num_steps=self.step_counter,
         )
diff --git a/src/llama_stack_client/lib/agents/stream_events.py b/src/llama_stack_client/lib/agents/stream_events.py
deleted file mode 100644
index 06fcb3d4..00000000
--- a/src/llama_stack_client/lib/agents/stream_events.py
+++ /dev/null
@@ -1,209 +0,0 @@
-"""Streaming event primitives for the responses-backed Agent API."""
-
-from dataclasses import dataclass
-from typing import Dict, Iterable, Optional
-
-from llama_stack_client.types.response_object_stream import (
-    OpenAIResponseObjectStreamResponseCompleted,
-    OpenAIResponseObjectStreamResponseFailed,
-    OpenAIResponseObjectStreamResponseFunctionCallArgumentsDelta,
-    OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone,
-    OpenAIResponseObjectStreamResponseInProgress,
-    OpenAIResponseObjectStreamResponseOutputItemAdded,
-    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessage,
-    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessageContentUnionMember2,
-    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageFunctionToolCall,
-    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpCall,
-    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpListTools,
-    OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageWebSearchToolCall,
-    OpenAIResponseObjectStreamResponseOutputTextDelta,
-    OpenAIResponseObjectStreamResponseOutputTextDone,
-    ResponseObjectStream,
-)
-
-
-@dataclass
-class AgentStreamEvent:
-    type: str
-
-
-@dataclass
-class AgentResponseStarted(AgentStreamEvent):
-    response_id: str
-
-
-@dataclass
-class AgentTextDelta(AgentStreamEvent):
-    text: str
-    response_id: str
-    output_index: int
-
-
-@dataclass
-class AgentTextCompleted(AgentStreamEvent):
-    text: str
-    response_id: str
-    output_index: int
-
-
-@dataclass
-class AgentToolCallIssued(AgentStreamEvent):
-    response_id: str
-    output_index: int
-    call_id: str
-    name: str
-    arguments_json: str
-
-
-@dataclass
-class AgentToolCallDelta(AgentStreamEvent):
-    response_id: str
-    output_index: int
-    call_id: str
-    arguments_delta: Optional[str]
-
-
-@dataclass
-class AgentToolCallCompleted(AgentStreamEvent):
-    response_id: str
-    output_index: int
-    call_id: str
-    arguments_json: str
-
-
-@dataclass
-class AgentResponseCompleted(AgentStreamEvent):
-    response_id: str
-
-
-@dataclass
-class AgentResponseFailed(AgentStreamEvent):
-    response_id: str
-    error_message: str
-
-
-def iter_agent_events(events: Iterable[ResponseObjectStream]) -> Iterable[AgentStreamEvent]:
-    current_response_id: Optional[str] = None
-    # Mapping from item_id (streaming ID like fc_UUID) to call_id (real ID like call_XXX)
-    item_id_to_call_id: Dict[str, str] = {}
-
-    for event in events:
-        response_id = getattr(event, "response_id", None)
-        if response_id is None and hasattr(event, "response"):
-            response_id = getattr(event.response, "id", None)
-        if response_id is not None:
-            current_response_id = response_id
-
-        if isinstance(event, OpenAIResponseObjectStreamResponseInProgress):
-            yield AgentResponseStarted(type="response_started", response_id=event.response.id)
-        elif isinstance(event, OpenAIResponseObjectStreamResponseOutputTextDelta):
-            yield AgentTextDelta(
-                type="text_delta",
-                text=event.delta,
-                response_id=current_response_id or "",
-                output_index=event.output_index,
-            )
-        elif isinstance(event, OpenAIResponseObjectStreamResponseOutputTextDone):
-            yield AgentTextCompleted(
-                type="text_completed",
-                text=event.text,
-                response_id=current_response_id or "",
-                output_index=event.output_index,
-            )
-        elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDelta):
-            # Use the real call_id from our mapping, fallback to item_id if not found
-            real_call_id = item_id_to_call_id.get(event.item_id, event.item_id)
-            yield AgentToolCallDelta(
-                type="tool_call_delta",
-                response_id=current_response_id or "",
-                output_index=event.output_index,
-                call_id=real_call_id,
-                arguments_delta=event.delta,
-            )
-        elif isinstance(event, OpenAIResponseObjectStreamResponseFunctionCallArgumentsDone):
-            # Use the real call_id from our mapping, fallback to item_id if not found
-            real_call_id = item_id_to_call_id.get(event.item_id, event.item_id)
-            yield AgentToolCallCompleted(
-                type="tool_call_completed",
-                response_id=current_response_id or "",
-                output_index=event.output_index,
-                call_id=real_call_id,
-                arguments_json=event.arguments,
-            )
-        elif isinstance(event, OpenAIResponseObjectStreamResponseOutputItemAdded):
-            item = event.item
-            if isinstance(
-                item,
-                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageFunctionToolCall,
-            ):
-                # Store mapping from item.id (streaming ID) to item.call_id (real call_id)
-                item_id_to_call_id[item.id] = item.call_id
-                yield AgentToolCallIssued(
-                    type="tool_call_issued",
-                    response_id=current_response_id or event.response_id,
-                    output_index=event.output_index,
-                    call_id=item.call_id,
-                    name=item.name,
-                    arguments_json=item.arguments,
-                )
-            elif isinstance(
-                item,
-                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageWebSearchToolCall,
-            ):
-                yield AgentToolCallIssued(
-                    type="tool_call_issued",
-                    response_id=current_response_id or event.response_id,
-                    output_index=event.output_index,
-                    call_id=item.id,
-                    name=item.type,
-                    arguments_json="{}",
-                )
-            elif isinstance(
-                item,
-                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpCall,
-            ):
-                yield AgentToolCallIssued(
-                    type="tool_call_issued",
-                    response_id=current_response_id or event.response_id,
-                    output_index=event.output_index,
-                    call_id=item.id,
-                    name=item.name,
-                    arguments_json=item.arguments,
-                )
-            elif isinstance(
-                item,
-                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseOutputMessageMcpListTools,
-            ):
-                yield AgentToolCallIssued(
-                    type="tool_call_issued",
-                    response_id=current_response_id or event.response_id,
-                    output_index=event.output_index,
-                    call_id=item.id,
-                    name=item.type,
-                    arguments_json="{}",
-                )
-            elif isinstance(item, OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessage):
-                yield AgentTextCompleted(
-                    type="text_completed",
-                    text=str(item.content),
-                    response_id=current_response_id or event.response_id,
-                    output_index=event.output_index,
-                )
-            elif isinstance(
-                item,
-                OpenAIResponseObjectStreamResponseOutputItemAddedItemOpenAIResponseMessageContentUnionMember2,
-            ):
-                yield AgentTextCompleted(
-                    type="text_completed",
-                    text=item.text,
-                    response_id=current_response_id or event.response_id,
-                    output_index=event.output_index,
-                )
-        elif isinstance(event, OpenAIResponseObjectStreamResponseCompleted):
-            yield AgentResponseCompleted(type="response_completed", response_id=event.response.id)
-        elif isinstance(event, OpenAIResponseObjectStreamResponseFailed):
-            yield AgentResponseFailed(
-                type="response_failed",
-                response_id=event.response.id,
-                error_message=event.response.error.message if event.response.error else "Unknown error",
-            )
diff --git a/tests/integration/test_agent_turn_step_events.py b/tests/integration/test_agent_turn_step_events.py
index b75a679b..98baf0d7 100644
--- a/tests/integration/test_agent_turn_step_events.py
+++ b/tests/integration/test_agent_turn_step_events.py
@@ -17,23 +17,22 @@
 from uuid import uuid4
 
 import pytest
+from openai import OpenAI
 
-from llama_stack_client import LlamaStackClient, AgentEventLogger
-from llama_stack_client.types import response_create_params
 from llama_stack_client.lib.agents.agent import Agent
 from llama_stack_client.lib.agents.turn_events import (
-    TurnStarted,
-    TurnCompleted,
+    TextDelta,
     StepStarted,
+    TurnStarted,
     StepProgress,
     StepCompleted,
-    TextDelta,
+    TurnCompleted,
     ToolCallIssuedDelta,
 )
 
 # Test configuration
 MODEL_ID = os.environ.get("LLAMA_STACK_TEST_MODEL", "openai/gpt-4o")
-BASE_URL = os.environ.get("TEST_API_BASE_URL", "http://localhost:8321")
+BASE_URL = os.environ.get("TEST_API_BASE_URL", "http://localhost:8321/v1")
 
 
 pytestmark = pytest.mark.skipif(
@@ -43,16 +42,15 @@
 
 
 @pytest.fixture
-def client():
-    """Create a LlamaStackClient for testing."""
-    return LlamaStackClient(base_url=BASE_URL)
+def openai_client():
+    return OpenAI(api_key="fake", base_url=BASE_URL)
 
 
 @pytest.fixture
-def agent_with_no_tools(client):
+def agent_with_no_tools(openai_client):
     """Create an agent with no tools for basic text-only tests."""
     return Agent(
-        client=client,
+        client=openai_client,
         model=MODEL_ID,
         instructions="You are a helpful assistant. Keep responses brief and concise.",
         tools=None,
@@ -60,25 +58,25 @@ def agent_with_no_tools(client):
 
 
 @pytest.fixture
-def agent_with_file_search(client):
+def agent_with_file_search(openai_client):
     """Create an agent with file_search tool (server-side)."""
     # Create a vector store with test content (unique info to force tool use)
     file_content = "Project Nightingale is a classified initiative. The project codename is BLUE_FALCON_7. The lead researcher is Dr. Elena Vasquez."
     file_payload = io.BytesIO(file_content.encode("utf-8"))
 
-    uploaded_file = client.files.create(
+    uploaded_file = openai_client.files.create(
         file=("test_knowledge.txt", file_payload, "text/plain"),
         purpose="assistants",
     )
 
-    vector_store = client.vector_stores.create(
+    vector_store = openai_client.vector_stores.create(
         name=f"test-vs-{uuid4().hex[:8]}",
         extra_body={
             "provider_id": "faiss",
             "embedding_model": "sentence-transformers/all-MiniLM-L6-v2",
         },
     )
-    vector_store_file = client.vector_stores.files.create(
+    vector_store_file = openai_client.vector_stores.files.create(
         vector_store_id=vector_store.id,
         file_id=uploaded_file.id,
     )
@@ -91,13 +89,13 @@ def agent_with_file_search(client):
         if time.time() > deadline:
             raise TimeoutError("Vector store file ingest timed out")
         time.sleep(0.5)
-        vector_store_file = client.vector_stores.files.retrieve(
+        vector_store_file = openai_client.vector_stores.files.retrieve(
             vector_store_id=vector_store.id,
             file_id=vector_store_file.id,
         )
 
     return Agent(
-        client=client,
+        client=openai_client,
         model=MODEL_ID,
         instructions="You MUST search the knowledge base to answer every question. Never answer from your own knowledge.",
         tools=[{"type": "file_search", "vector_store_ids": [vector_store.id]}],
@@ -105,15 +103,12 @@ def agent_with_file_search(client):
 
 
 def test_basic_turn_without_tools(agent_with_no_tools):
-    """Test 1: Basic turn with text-only response (no tools).
-
-    Expected event sequence:
-    1. TurnStarted
-    2. StepStarted(inference)
-    3. StepProgress(TextDelta) x N
-    4. StepCompleted(inference)
-    5. TurnCompleted
-    """
+    # Expected event sequence:
+    # 1. TurnStarted
+    # 2. StepStarted(inference)
+    # 3. StepProgress(TextDelta) x N
+    # 4. StepCompleted(inference)
+    # 5. TurnCompleted
     agent = agent_with_no_tools
     session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
 
@@ -163,28 +158,19 @@ def test_basic_turn_without_tools(agent_with_no_tools):
     assert events[-1].session_id == session_id
     assert len(events[-1].final_text) > 0, "Should have some final text"
 
-    print(f"\n✅ Test 1 passed: Basic turn with {len(events)} events")
-    print(f"   - Text deltas: {len(text_deltas)}")
-    print(f"   - Final text: {events[-1].final_text}")
-
 
 def test_server_side_file_search_tool(agent_with_file_search):
-    """Test 2: Server-side file_search tool execution.
-
-    THE KEY TEST: Verifies that server-side tools appear as tool_execution steps.
-
-    Expected event sequence:
-    1. TurnStarted
-    2. StepStarted(inference) - model decides to search
-    3. StepProgress(TextDelta) - optional text before tool
-    4. StepCompleted(inference) - inference done, decided to use file_search
-    5. StepStarted(tool_execution, metadata.server_side=True)
-    6. StepCompleted(tool_execution) - file_search results
-    7. StepStarted(inference) - model processes results
-    8. StepProgress(TextDelta) - model generates response
-    9. StepCompleted(inference)
-    10. TurnCompleted
-    """
+    # Expected event sequence:
+    # 1. TurnStarted
+    # 2. StepStarted(inference) - model decides to search
+    # 3. StepProgress(TextDelta) - optional text before tool
+    # 4. StepCompleted(inference) - inference done, decided to use file_search
+    # 5. StepStarted(tool_execution, metadata.server_side=True)
+    # 6. StepCompleted(tool_execution) - file_search results
+    # 7. StepStarted(inference) - model processes results
+    # 8. StepProgress(TextDelta) - model generates response
+    # 9. StepCompleted(inference)
+    # 10. TurnCompleted
     agent = agent_with_file_search
     session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
 
@@ -197,27 +183,11 @@ def test_server_side_file_search_tool(agent_with_file_search):
     ]
 
     events = []
-    event_logger = AgentEventLogger()
-
-    print("\n" + "="*80)
-    print("Test 2: Server-side file_search tool")
-    print("="*80)
-
     for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
+        from rich.pretty import pprint
+
+        pprint(chunk.event)
         events.append(chunk.event)
-        # Log events for debugging
-        for log_msg in event_logger.log([chunk]):
-            print(log_msg, end="", flush=True)
-
-    print("\n" + "="*80)
-    print(f"\nDEBUG: Total events: {len(events)}")
-    for i, event in enumerate(events):
-        print(f"  {i}: {type(event).__name__}", end="")
-        if hasattr(event, 'step_type'):
-            print(f"(step_type={event.step_type})", end="")
-        if hasattr(event, 'metadata'):
-            print(f" metadata={event.metadata}", end="")
-        print()
 
     # Verify Turn started and completed
     assert isinstance(events[0], TurnStarted)
@@ -225,7 +195,9 @@ def test_server_side_file_search_tool(agent_with_file_search):
 
     # KEY ASSERTION: Should have at least one tool_execution step (server-side file_search)
     tool_execution_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "tool_execution"]
-    assert len(tool_execution_starts) >= 1, f"Should have at least one tool_execution step, found {len(tool_execution_starts)}"
+    assert len(tool_execution_starts) >= 1, (
+        f"Should have at least one tool_execution step, found {len(tool_execution_starts)}"
+    )
 
     # KEY ASSERTION: The tool_execution step should be marked as server_side
     file_search_step = tool_execution_starts[0]
@@ -239,32 +211,30 @@ def test_server_side_file_search_tool(agent_with_file_search):
 
     # Should have multiple inference steps (before and after tool execution)
     inference_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "inference"]
-    assert len(inference_starts) >= 2, f"Should have at least 2 inference steps (before/after tool), found {len(inference_starts)}"
+    assert len(inference_starts) >= 2, (
+        f"Should have at least 2 inference steps (before/after tool), found {len(inference_starts)}"
+    )
 
     # Final response should contain the answer (BLUE_FALCON_7)
-    assert "BLUE_FALCON" in events[-1].final_text or "BLUE_FALCON_7" in events[-1].final_text, "Response should contain the codename"
-
-    print(f"\n✅ Test 2 passed: Server-side file_search with {len(events)} events")
-    print(f"   - Tool execution steps: {len(tool_execution_starts)}")
-    print(f"   - Inference steps: {len(inference_starts)}")
-    print(f"   - Final answer: {events[-1].final_text}")
-
-
-def test_client_side_function_tool():
-    """Test 3: Client-side function tool execution.
-
-    Expected event sequence:
-    1. TurnStarted
-    2. StepStarted(inference)
-    3. StepProgress(ToolCallIssuedDelta) - function call
-    4. StepCompleted(inference) - with function_calls
-    5. StepStarted(tool_execution, metadata.server_side=False)
-    6. StepCompleted(tool_execution) - client executed function
-    7. StepStarted(inference) - model processes results
-    8. StepProgress(TextDelta)
-    9. StepCompleted(inference)
-    10. TurnCompleted
-    """
+    assert "BLUE_FALCON" in events[-1].final_text or "BLUE_FALCON_7" in events[-1].final_text, (
+        "Response should contain the codename"
+    )
+
+
+def test_client_side_function_tool(openai_client):
+    # We are going to test
+    # Expected event sequence:
+    # 1. TurnStarted
+    # 2. StepStarted(inference)
+    # 3. StepProgress(ToolCallIssuedDelta) - function call
+    # 4. StepCompleted(inference) - with function_calls
+    # 5. StepStarted(tool_execution, metadata.server_side=False)
+    # 6. StepCompleted(tool_execution) - client executed function
+    # 7. StepStarted(inference) - model processes results
+    # 8. StepProgress(TextDelta)
+    # 9. StepCompleted(inference)
+    # 10. TurnCompleted
+
     # Create a function that returns data requiring model processing
     def get_user_secret_token(user_id: str) -> str:
         """Get the encrypted authentication token for a user from the secure database.
@@ -273,55 +243,38 @@ def get_user_secret_token(user_id: str) -> str:
 
         :param user_id: The unique identifier of the user
         """
-        # Return encrypted data that GPT must process
-        import hashlib
         import time
+        import hashlib
+
         unique = f"{user_id}-{time.time()}-SECRET"
         token_hash = hashlib.sha256(unique.encode()).hexdigest()[:16]
-        # Return as JSON with metadata that model must parse and format
         return f'{{"status": "success", "encrypted_token": "{token_hash}", "format": "hex", "expires_in_hours": 24}}'
 
-    client = LlamaStackClient(base_url=BASE_URL)
-
     agent = Agent(
-        client=client,
+        client=openai_client,
         model=MODEL_ID,
         instructions="You are a helpful assistant. When retrieving tokens, you MUST call get_user_secret_token, then parse the JSON response and present it in a user-friendly format. Explain what the token is and when it expires.",
         tools=[get_user_secret_token],
     )
 
     session_id = agent.create_session(f"test-session-{uuid4().hex[:8]}")
-
     messages = [
         {
             "type": "message",
             "role": "user",
-            "content": [{"type": "input_text", "text": "Can you get me the authentication token for user_12345? Please explain what it is."}],
+            "content": [
+                {
+                    "type": "input_text",
+                    "text": "Can you get me the authentication token for user_12345? Please explain what it is.",
+                }
+            ],
         }
     ]
 
     events = []
-    event_logger = AgentEventLogger()
-
-    print("\n" + "="*80)
-    print("Test 3: Client-side function tool")
-    print("="*80)
 
     for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
         events.append(chunk.event)
-        # Log events for debugging
-        for log_msg in event_logger.log([chunk]):
-            print(log_msg, end="", flush=True)
-
-    print("\n" + "="*80)
-    print(f"\nDEBUG: Total events: {len(events)}")
-    for i, event in enumerate(events):
-        print(f"  {i}: {type(event).__name__}", end="")
-        if hasattr(event, 'step_type'):
-            print(f"(step_type={event.step_type})", end="")
-        if hasattr(event, 'metadata'):
-            print(f" metadata={event.metadata}", end="")
-        print()
 
     # Verify Turn started and completed
     assert isinstance(events[0], TurnStarted)
@@ -329,14 +282,19 @@ def get_user_secret_token(user_id: str) -> str:
 
     # Should have ToolCallIssuedDelta for the function call
     function_calls = [
-        e for e in events
+        e
+        for e in events
         if isinstance(e, StepProgress) and isinstance(e.delta, ToolCallIssuedDelta) and e.delta.tool_type == "function"
     ]
-    assert len(function_calls) >= 1, f"Should have at least one function call (get_user_secret_token), found {len(function_calls)}"
+    assert len(function_calls) >= 1, (
+        f"Should have at least one function call (get_user_secret_token), found {len(function_calls)}"
+    )
 
     # KEY ASSERTION: Should have tool_execution step (client-side function)
     tool_execution_starts = [e for e in events if isinstance(e, StepStarted) and e.step_type == "tool_execution"]
-    assert len(tool_execution_starts) >= 1, f"Should have at least one tool_execution step, found {len(tool_execution_starts)}"
+    assert len(tool_execution_starts) >= 1, (
+        f"Should have at least one tool_execution step, found {len(tool_execution_starts)}"
+    )
 
     # KEY ASSERTION: The tool_execution step should be marked as client-side
     function_step = tool_execution_starts[0]
@@ -353,13 +311,12 @@ def get_user_secret_token(user_id: str) -> str:
 
     # Final response should contain the token data (proves function was called and processed)
     final_text = events[-1].final_text.lower()
-    assert "token" in final_text or "encrypted" in final_text, "Response should contain token information from function call"
-    assert "24" in events[-1].final_text or "hour" in final_text or "expire" in final_text, "Response should mention expiration from parsed JSON"
-
-    print(f"\n✅ Test 3 passed: Client-side function with {len(events)} events")
-    print(f"   - Tool execution steps: {len(tool_execution_starts)}")
-    print(f"   - Inference steps: {len(inference_starts)}")
-    print(f"   - Final answer: {events[-1].final_text}")
+    assert "token" in final_text or "encrypted" in final_text, (
+        "Response should contain token information from function call"
+    )
+    assert "24" in events[-1].final_text or "hour" in final_text or "expire" in final_text, (
+        "Response should mention expiration from parsed JSON"
+    )
 
 
 if __name__ == "__main__":

From 6850508d5a137bdf9801422e7d9a81000f9c281f Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Tue, 14 Oct 2025 16:03:34 -0700
Subject: [PATCH 12/15] much more reasonable now, tests pass

---
 src/llama_stack_client/lib/agents/agent.py    |  14 +-
 .../lib/agents/event_synthesizer.py           | 904 +++++++-----------
 .../test_agent_turn_step_events.py            |   3 -
 tests/lib/agents/test_agent_responses.py      | 383 +++-----
 4 files changed, 503 insertions(+), 801 deletions(-)

diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index 8e0da55e..82c5eb6d 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -34,7 +34,9 @@
 from .turn_events import (
     AgentStreamChunk,
     StepCompleted,
+    StepProgress,
     StepStarted,
+    ToolCallIssuedDelta,
     TurnFailed,
     ToolExecutionStepResult,
 )
@@ -526,13 +528,17 @@ def get_client_tools(
 
     @staticmethod
     def get_tool_calls(chunk: AgentStreamChunk, tool_parser: Optional[ToolParser] = None) -> List[ToolCall]:
-        if not isinstance(chunk.event, AgentToolCallIssued):
+        if not isinstance(chunk.event, StepProgress):
+            return []
+
+        delta = chunk.event.delta
+        if not isinstance(delta, ToolCallIssuedDelta) or delta.tool_type != "function":
             return []
 
         tool_call = ToolCall(
-            call_id=chunk.event.call_id,
-            tool_name=chunk.event.name,
-            arguments=chunk.event.arguments_json,
+            call_id=delta.call_id,
+            tool_name=delta.tool_name,
+            arguments=delta.arguments,
         )
 
         if tool_parser:
diff --git a/src/llama_stack_client/lib/agents/event_synthesizer.py b/src/llama_stack_client/lib/agents/event_synthesizer.py
index 4d9712d3..122299af 100644
--- a/src/llama_stack_client/lib/agents/event_synthesizer.py
+++ b/src/llama_stack_client/lib/agents/event_synthesizer.py
@@ -4,644 +4,440 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 
-"""Event synthesizer that translates response stream events to turn/step events.
+"""Translate Responses API stream events into structured turn events.
 
-This module provides the TurnEventSynthesizer class which maintains state
-and translates low-level response stream events into high-level turn and
-step events that provide semantic meaning to agent interactions.
-
-Key architectural principle:
-- inference steps = model thinking/deciding what to do
-- tool_execution steps = ANY tool executing (server-side OR client-side)
-
-Server-side tools (file_search, web_search, mcp_call):
-- Execute within the response stream
-- We synthesize tool_execution step boundaries from stream events
-- Results automatically fed back to model
-
-Client-side tools (function):
-- Require breaking the response stream
-- Agent.py emits tool_execution steps when executing them
-- Results manually fed back via new response
+TurnEventSynthesizer keeps just enough state to expose turns and steps for
+agents. It consumes the raw Responses API stream and emits the higher-level
+events defined in ``turn_events.py`` without introducing an intermediate
+low-level event layer.
 """
 
-from dataclasses import dataclass
-from typing import Iterator, Optional, Dict, List, Any, Iterable
+from __future__ import annotations
 
-from llama_stack_client.types.shared.tool_call import ToolCall
-from llama_stack_client.types import ResponseObject
+import json
+from dataclasses import dataclass
+from typing import Any, Dict, Iterable, Iterator, List, Optional
 
 from logging import getLogger
 
-logger = getLogger(__name__)
-
-# ============= Internal Low-Level Stream Events =============
-# These are private internal events used during translation from
-# raw ResponseObjectStream to high-level turn/step events.
-# NOT part of the public API.
-
-
-@dataclass
-class _AgentStreamEvent:
-    """Base class for internal low-level stream events."""
-
-    type: str
-
-
-@dataclass
-class _AgentResponseStarted(_AgentStreamEvent):
-    response_id: str
-
-
-@dataclass
-class _AgentTextDelta(_AgentStreamEvent):
-    text: str
-    response_id: str
-    output_index: int
-
-
-@dataclass
-class _AgentTextCompleted(_AgentStreamEvent):
-    text: str
-    response_id: str
-    output_index: int
-
-
-@dataclass
-class _AgentToolCallIssued(_AgentStreamEvent):
-    response_id: str
-    output_index: int
-    call_id: str
-    name: str
-    arguments_json: str
-
-
-@dataclass
-class _AgentToolCallDelta(_AgentStreamEvent):
-    response_id: str
-    output_index: int
-    call_id: str
-    arguments_delta: Optional[str]
-
-
-@dataclass
-class _AgentToolCallCompleted(_AgentStreamEvent):
-    response_id: str
-    output_index: int
-    call_id: str
-    arguments_json: str
-
-
-@dataclass
-class _AgentResponseCompleted(_AgentStreamEvent):
-    response_id: str
-
-
-@dataclass
-class _AgentResponseFailed(_AgentStreamEvent):
-    response_id: str
-    error_message: str
-
-
-from typing import Any
-
-# Note: We use duck typing on event.type instead of isinstance checks
-# to support both OpenAI SDK and LlamaStack SDK events
+from llama_stack_client.types import ResponseObject
+from llama_stack_client.types.shared.tool_call import ToolCall
 
 from .turn_events import (
     AgentEvent,
-    TurnStarted,
-    TurnCompleted,
-    TurnFailed,
-    StepStarted,
-    StepProgress,
+    InferenceStepResult,
     StepCompleted,
+    StepProgress,
+    StepStarted,
     TextDelta,
-    ToolCallIssuedDelta,
     ToolCallDelta,
-    InferenceStepResult,
+    ToolCallIssuedDelta,
     ToolExecutionStepResult,
+    TurnCompleted,
+    TurnFailed,
+    TurnStarted,
 )
 
-__all__ = ["TurnEventSynthesizer"]
+logger = getLogger(__name__)
 
 
-class TurnEventSynthesizer:
-    """Translates low-level response events to high-level turn/step events.
+@dataclass
+class _ToolCallState:
+    call_id: str
+    tool_name: str
+    tool_type: str
+    server_side: bool
+    arguments: str = ""
 
-    This class maintains state across the event stream to provide semantic
-    meaning and structure. It tracks:
-    - Turn lifecycle (started, completed)
-    - Step boundaries (inference, tool_execution)
-    - Content accumulation (text, tool calls)
-    - Tool classification (client-side vs server-side)
-    """
+    def update(self, *, delta: Optional[str] = None, final: Optional[str] = None) -> None:
+        if final is not None:
+            self.arguments = final or "{}"
+        elif delta:
+            self.arguments += delta
+
+    def as_tool_call(self) -> ToolCall:
+        payload = self.arguments or "{}"
+        return ToolCall(call_id=self.call_id, tool_name=self.tool_name, arguments=payload)
 
-    def __init__(self, session_id: str, turn_id: str):
-        """Initialize synthesizer for a new turn.
 
-        Args:
-            session_id: The conversation session ID
-            turn_id: Unique identifier for this turn
-        """
+class TurnEventSynthesizer:
+    """Produce turn/step events directly from Responses API streaming events."""
+
+    def __init__(self, session_id: str, turn_id: str):
         self.session_id = session_id
         self.turn_id = turn_id
 
-        # Step tracking
         self.step_counter = 0
         self.current_step_id: Optional[str] = None
         self.current_step_type: Optional[str] = None
 
-        # Inference step accumulation
         self.current_response_id: Optional[str] = None
         self.text_parts: List[str] = []
+        self._function_call_ids: List[str] = []
+        self._tool_calls: Dict[str, _ToolCallState] = {}
 
-        # Tool call tracking (both server and client-side)
-        # For server-side tools, these are used within tool_execution steps
-        # For client-side tools, these are accumulated and returned in inference step result
-        self.tool_calls_building: Dict[str, Dict[str, Any]] = {}  # call_id -> {tool_call, is_server_side, ...}
-
-        # Current server-side tool execution (for handling call_id mismatches)
-        self.current_server_tool: Optional[Dict[str, Any]] = None
-
-        # Current client-side tool (for handling call_id mismatches)
-        self.current_client_tool: Optional[Dict[str, Any]] = None
-
-        # Client-side function calls (accumulated for agent.py to execute)
-        self.function_calls: List[ToolCall] = []
-
-        # Turn-level accumulation
-        self.all_response_ids: List[str] = []
         self.turn_started = False
+        self.all_response_ids: List[str] = []
         self.last_response: Optional[ResponseObject] = None
 
-    def process_low_level_event(self, event: _AgentStreamEvent) -> Iterator[AgentEvent]:
-        """Map low-level events to high-level turn/step events.
-
-        This is the core translation logic. It processes each low-level
-        event from the response stream and emits corresponding high-level
-        events that provide semantic meaning.
+    # ------------------------------------------------------------------ helpers
 
-        Args:
-            event: Low-level event from response stream
+    def _next_step_id(self) -> str:
+        step_id = f"{self.turn_id}_step_{self.step_counter}"
+        self.step_counter += 1
+        return step_id
 
-        Yields:
-            High-level turn/step events
-        """
-        # Emit TurnStarted on first event
+    def _maybe_emit_turn_started(self) -> Iterator[AgentEvent]:
         if not self.turn_started:
             self.turn_started = True
             yield TurnStarted(turn_id=self.turn_id, session_id=self.session_id)
 
-        if isinstance(event, _AgentResponseStarted):
-            # Start new inference step
-            self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
-            self.step_counter += 1
-            self.current_step_type = "inference"
-            self.current_response_id = event.response_id
-            self.all_response_ids.append(event.response_id)
-            self.text_parts = []
-            self.tool_calls_building = {}
-            self.function_calls = []
-
-            yield StepStarted(
-                step_id=self.current_step_id,
-                step_type="inference",
-                turn_id=self.turn_id,
-            )
-
-        elif isinstance(event, _AgentTextDelta):
-            # Only emit text if we're in an inference step
-            if self.current_step_type == "inference":
-                self.text_parts.append(event.text)
-                yield StepProgress(
-                    step_id=self.current_step_id or "",
-                    step_type="inference",
-                    turn_id=self.turn_id,
-                    delta=TextDelta(text=event.text),
-                )
-
-        elif isinstance(event, _AgentTextCompleted):
-            # Text completion - just ensure we have the complete text
-            pass
-
-        elif isinstance(event, _AgentToolCallIssued):
-            # Determine if server-side or client-side
-            tool_type = self._classify_tool_type(event.name)
-            is_server_side = tool_type != "function"
-
-            # Create tool call object
-            tool_call = ToolCall(
-                call_id=event.call_id,
-                tool_name=event.name,
-                arguments=event.arguments_json or "",
-            )
-
-            # Track this tool call
-            self.tool_calls_building[event.call_id] = {
-                "tool_call": tool_call,
-                "tool_type": tool_type,
-                "is_server_side": is_server_side,
-                "arguments": event.arguments_json or "",
-            }
-
-            if is_server_side:
-                # SERVER-SIDE TOOL: Complete current inference step and start tool_execution step
-                # First complete the inference step
-                if self.current_step_type == "inference":
-                    yield StepCompleted(
-                        step_id=self.current_step_id or "",
-                        step_type="inference",
-                        turn_id=self.turn_id,
-                        result=InferenceStepResult(
-                            step_id=self.current_step_id or "",
-                            response_id=self.current_response_id or "",
-                            text_content="".join(self.text_parts),
-                            function_calls=[],  # No client-side function calls yet
-                            server_tool_executions=[],  # Will be populated in tool_execution step
-                            stop_reason="server_tool_call",
-                        ),
-                    )
-
-                # Start tool_execution step for server-side tool
-                self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
-                self.step_counter += 1
-                self.current_step_type = "tool_execution"
-                self.text_parts = []  # Reset for next inference step
-
-                # Remember the current server tool for handling call_id mismatches
-                self.current_server_tool = self.tool_calls_building[event.call_id]
-
-                yield StepStarted(
-                    step_id=self.current_step_id,
-                    step_type="tool_execution",
-                    turn_id=self.turn_id,
-                    metadata={
-                        "server_side": True,
-                        "tool_type": tool_type,
-                        "tool_name": event.name,
-                    },
-                )
-
-                # Emit the tool call issued as progress
-                yield StepProgress(
-                    step_id=self.current_step_id,
-                    step_type="tool_execution",
-                    turn_id=self.turn_id,
-                    delta=ToolCallIssuedDelta(
-                        call_id=event.call_id,
-                        tool_type=tool_type,  # type: ignore
-                        tool_name=event.name,
-                        arguments=event.arguments_json or "{}",
-                    ),
-                )
-            else:
-                # CLIENT-SIDE FUNCTION: Just accumulate, agent.py will handle execution
-                self.function_calls.append(tool_call)
-
-                # Remember current client tool for handling call_id mismatches
-                self.current_client_tool = self.tool_calls_building[event.call_id]
-
-                # Emit as progress within current inference step
-                yield StepProgress(
-                    step_id=self.current_step_id or "",
-                    step_type="inference",
-                    turn_id=self.turn_id,
-                    delta=ToolCallIssuedDelta(
-                        call_id=event.call_id,
-                        tool_type="function",
-                        tool_name=event.name,
-                        arguments=event.arguments_json or "{}",
-                    ),
-                )
-
-        elif isinstance(event, _AgentToolCallDelta):
-            # Update arguments
-            builder = None
-            if event.call_id in self.tool_calls_building:
-                builder = self.tool_calls_building[event.call_id]
-            elif self.current_server_tool and self.current_step_type == "tool_execution":
-                # Handle call_id mismatch for server-side tool
-                builder = self.current_server_tool
-                self.tool_calls_building[event.call_id] = builder
-            elif self.current_client_tool and self.current_step_type == "inference":
-                # Handle call_id mismatch for client-side tool
-                builder = self.current_client_tool
-                self.tool_calls_building[event.call_id] = builder
-
-            if builder:
-                builder["arguments"] += event.arguments_delta or ""
-                # Update the ToolCall object (Pydantic models are immutable, so replace it)
-                builder["tool_call"] = ToolCall(
-                    call_id=builder["tool_call"].call_id,
-                    tool_name=builder["tool_call"].tool_name,
-                    arguments=builder["arguments"],
-                )
-
-                # If client-side, also update the function_calls list
-                if not builder["is_server_side"]:
-                    for i, func_call in enumerate(self.function_calls):
-                        # Match by tool_name since call_id might have changed
-                        if func_call.tool_name == builder["tool_call"].tool_name:
-                            self.function_calls[i] = builder["tool_call"]
-                            break
-
-                # Emit delta
-                step_type = "tool_execution" if builder["is_server_side"] else "inference"
-                yield StepProgress(
-                    step_id=self.current_step_id or "",
-                    step_type=step_type,  # type: ignore
-                    turn_id=self.turn_id,
-                    delta=ToolCallDelta(
-                        call_id=event.call_id,
-                        arguments_delta=event.arguments_delta or "",
-                    ),
-                )
+    def _start_inference_step(
+        self, *, response_id: Optional[str] = None, reset_tool_state: bool = False
+    ) -> Iterator[AgentEvent]:
+        if response_id:
+            self.current_response_id = response_id
+        if reset_tool_state:
+            self._tool_calls = {}
+        self.text_parts = []
+        self._function_call_ids = []
+        self.current_step_id = self._next_step_id()
+        self.current_step_type = "inference"
+        yield StepStarted(step_id=self.current_step_id, step_type="inference", turn_id=self.turn_id)
+
+    def _complete_inference_step(self, *, stop_reason: str, response_id: Optional[str] = None) -> Iterator[AgentEvent]:
+        if self.current_step_type != "inference":
+            return
+        step_id = self.current_step_id or self._next_step_id()
+        resolved_response_id = response_id or self.current_response_id or ""
+        self.current_response_id = resolved_response_id
+
+        function_calls: List[ToolCall] = []
+        for call_id in self._function_call_ids:
+            state = self._tool_calls.get(call_id)
+            if state is None:
+                continue
+            function_calls.append(state.as_tool_call())
+
+        yield StepCompleted(
+            step_id=step_id,
+            step_type="inference",
+            turn_id=self.turn_id,
+            result=InferenceStepResult(
+                step_id=step_id,
+                response_id=resolved_response_id,
+                text_content="".join(self.text_parts),
+                function_calls=function_calls,
+                server_tool_executions=[],
+                stop_reason=stop_reason,
+            ),
+        )
 
-        elif isinstance(event, _AgentToolCallCompleted):
-            # Update final arguments
-            builder = None
-            if event.call_id in self.tool_calls_building:
-                builder = self.tool_calls_building[event.call_id]
-            elif self.current_server_tool and self.current_step_type == "tool_execution":
-                # Handle call_id mismatch for server-side tool
-                builder = self.current_server_tool
-                self.tool_calls_building[event.call_id] = builder
-            elif self.current_client_tool and self.current_step_type == "inference":
-                # Handle call_id mismatch for client-side tool
-                builder = self.current_client_tool
-                self.tool_calls_building[event.call_id] = builder
-
-            if builder:
-                builder["arguments"] = event.arguments_json or ""
-                # Update the ToolCall object (Pydantic models are immutable, so replace it)
-                # Keep the original call_id - the server stores tool calls with the original call_id
-                builder["tool_call"] = ToolCall(
-                    call_id=builder["tool_call"].call_id,  # Keep the original call_id
-                    tool_name=builder["tool_call"].tool_name,
-                    arguments=event.arguments_json or "{}",
-                )
+        for call_id in list(self._function_call_ids):
+            # Drop client-side call state once we hand it back to the agent.
+            self._tool_calls.pop(call_id, None)
+        self._function_call_ids = []
+        self.text_parts = []
+        self.current_step_id = None
+        self.current_step_type = None
+
+    def _start_tool_execution_step(self, call_state: _ToolCallState) -> Iterator[AgentEvent]:
+        self.current_step_id = self._next_step_id()
+        self.current_step_type = "tool_execution"
+        yield StepStarted(
+            step_id=self.current_step_id,
+            step_type="tool_execution",
+            turn_id=self.turn_id,
+            metadata={"server_side": True, "tool_type": call_state.tool_type, "tool_name": call_state.tool_name},
+        )
+        yield StepProgress(
+            step_id=self.current_step_id,
+            step_type="tool_execution",
+            turn_id=self.turn_id,
+            delta=ToolCallIssuedDelta(
+                call_id=call_state.call_id,
+                tool_type=call_state.tool_type,  # type: ignore[arg-type]
+                tool_name=call_state.tool_name,
+                arguments=call_state.arguments or "{}",
+            ),
+        )
 
-                if builder["is_server_side"]:
-                    # SERVER-SIDE TOOL: Complete tool_execution step and start new inference step
-                    tool_call = builder["tool_call"]
-
-                    # Complete the tool_execution step
-                    yield StepCompleted(
-                        step_id=self.current_step_id or "",
-                        step_type="tool_execution",
-                        turn_id=self.turn_id,
-                        result=ToolExecutionStepResult(
-                            step_id=self.current_step_id or "",
-                            tool_calls=[tool_call],
-                            tool_responses=[],  # Will be enriched from ResponseObject later if needed
-                        ),
-                    )
-
-                    # Clear current server tool
-                    self.current_server_tool = None
-
-                    # Start new inference step for model to process results
-                    self.current_step_id = f"{self.turn_id}_step_{self.step_counter}"
-                    self.step_counter += 1
-                    self.current_step_type = "inference"
-
-                    yield StepStarted(
-                        step_id=self.current_step_id,
-                        step_type="inference",
-                        turn_id=self.turn_id,
-                    )
-
-                else:
-                    # CLIENT-SIDE FUNCTION: Update the accumulated function call
-                    # Use the updated ToolCall from builder
-                    # Note: We search by the tool_call in builder, which has the original call_id,
-                    # because event.call_id might be different due to call_id mismatches
-                    old_call_id = builder["tool_call"].call_id
-                    for i, func_call in enumerate(self.function_calls):
-                        # Match by tool_name since call_id might have changed
-                        if func_call.tool_name == builder["tool_call"].tool_name:
-                            self.function_calls[i] = builder["tool_call"]
-                            break
-
-                    # Clear current client tool
-                    self.current_client_tool = None
-
-        elif isinstance(event, _AgentResponseCompleted):
-            # Response completes - finish current step
-            if self.current_step_type == "inference":
-                yield StepCompleted(
-                    step_id=self.current_step_id or "",
-                    step_type="inference",
-                    turn_id=self.turn_id,
-                    result=InferenceStepResult(
-                        step_id=self.current_step_id or "",
-                        response_id=event.response_id,
-                        text_content="".join(self.text_parts),
-                        function_calls=self.function_calls.copy(),
-                        server_tool_executions=[],  # Server tools already handled as separate steps
-                        stop_reason="tool_calls" if self.function_calls else "end_of_turn",
-                    ),
-                )
-            elif self.current_step_type == "tool_execution":
-                # This shouldn't normally happen, but if it does, complete the tool execution step
-                pass
-
-        elif isinstance(event, _AgentResponseFailed):
-            # Emit TurnFailed for response failures
-            yield TurnFailed(
-                turn_id=self.turn_id,
-                session_id=self.session_id,
-                error_message=event.error_message,
-            )
+    def _complete_tool_execution_step(self, call_state: _ToolCallState) -> Iterator[AgentEvent]:
+        if self.current_step_type != "tool_execution":
+            return
+        step_id = self.current_step_id or self._next_step_id()
+        yield StepCompleted(
+            step_id=step_id,
+            step_type="tool_execution",
+            turn_id=self.turn_id,
+            result=ToolExecutionStepResult(
+                step_id=step_id,
+                tool_calls=[call_state.as_tool_call()],
+                tool_responses=[],
+            ),
+        )
+        self._tool_calls.pop(call_state.call_id, None)
+        self.current_step_id = None
+        self.current_step_type = None
+
+    @staticmethod
+    def _coerce_arguments(payload: Any) -> Optional[str]:
+        if payload is None:
+            return None
+        if isinstance(payload, str):
+            return payload
+        try:
+            return json.dumps(payload)
+        except Exception:  # pragma: no cover - defensive
+            return str(payload)
+
+    def _register_tool_call(
+        self,
+        *,
+        call_id: Optional[str],
+        tool_name: str,
+        tool_type: str,
+        arguments: Optional[str],
+    ) -> _ToolCallState:
+        resolved_call_id = call_id or f"{tool_name}_{len(self._tool_calls)}"
+        state = _ToolCallState(
+            call_id=resolved_call_id,
+            tool_name=tool_name,
+            tool_type=tool_type,
+            server_side=tool_type != "function",
+        )
+        if arguments:
+            state.update(final=arguments)
+        self._tool_calls[resolved_call_id] = state
+        return state
 
     def _classify_tool_type(self, tool_name: str) -> str:
-        """Determine if tool is client-side or server-side.
-
-        Args:
-            tool_name: Name of the tool
-
-        Returns:
-            Tool type string: "function" for client-side, or specific
-            server-side type (e.g., "file_search", "web_search")
-        """
-        # Known server-side tools that execute within the response
         server_side_tools = {
             "file_search",
-            "knowledge_search",  # file_search appears as knowledge_search in OpenAI-compatible mode
+            "file_search_call",
+            "knowledge_search",
             "web_search",
+            "web_search_call",
             "query_from_memory",
             "mcp_call",
             "mcp_list_tools",
+            "memory_retrieval",
         }
 
         if tool_name in server_side_tools:
-            # Return a normalized type name
-            if tool_name == "knowledge_search":
-                return "file_search"  # Normalize to file_search for consistency
+            if tool_name in {"file_search_call", "knowledge_search"}:
+                return "file_search"
+            if tool_name == "web_search_call":
+                return "web_search"
             return tool_name
 
-        # Default to function for client-side tools
         return "function"
 
-    def process_raw_stream(self, events: Iterable[Any]) -> Iterator[AgentEvent]:
-        """Process raw response stream events and emit high-level turn/step events.
+    # ------------------------------------------------------------------ handlers
 
-        This method uses duck typing to work with both OpenAI SDK and LlamaStack SDK events.
-        It checks the event.type field instead of using isinstance checks.
-
-        Args:
-            events: Raw event stream from responses.create() (OpenAI or LlamaStack client)
-
-        Yields:
-            High-level turn/step events
-        """
+    def process_raw_stream(self, events: Iterable[Any]) -> Iterator[AgentEvent]:
         current_response_id: Optional[str] = None
 
         for event in events:
-            # Extract response_id
+            yield from self._maybe_emit_turn_started()
+
             response_id = getattr(event, "response_id", None)
             if response_id is None and hasattr(event, "response"):
-                response_id = getattr(event.response, "id", None)
+                response = getattr(event, "response")
+                response_id = getattr(response, "id", None)
             if response_id is not None:
                 current_response_id = response_id
 
-            # Translate raw event to _AgentStreamEvent and process it
-            # Use duck typing on event.type to support both OpenAI and LlamaStack SDKs
             event_type = getattr(event, "type", None)
-            if "delta" not in event_type:
-                from rich.pretty import pprint
-
-                pprint(event)
+            if not event_type:
+                logger.debug("Unhandled stream event with no type: %r", event)
+                continue
 
             if event_type == "response.in_progress":
-                low_level_event = _AgentResponseStarted(type="response_started", response_id=event.response.id)
-                yield from self.process_low_level_event(low_level_event)
+                response = getattr(event, "response", None)
+                response_id = getattr(response, "id", current_response_id)
+                if response_id is None:
+                    continue
+                if not self.all_response_ids or self.all_response_ids[-1] != response_id:
+                    self.all_response_ids.append(response_id)
+                yield from self._start_inference_step(response_id=response_id, reset_tool_state=True)
 
             elif event_type == "response.output_text.delta":
-                low_level_event = _AgentTextDelta(
-                    type="text_delta",
-                    text=event.delta,
-                    response_id=current_response_id or "",
-                    output_index=event.output_index,
+                if self.current_step_type != "inference":
+                    continue
+                text = getattr(event, "delta", "") or ""
+                if not text:
+                    continue
+                self.text_parts.append(text)
+                yield StepProgress(
+                    step_id=self.current_step_id or "",
+                    step_type="inference",
+                    turn_id=self.turn_id,
+                    delta=TextDelta(text=text),
                 )
-                yield from self.process_low_level_event(low_level_event)
 
             elif event_type == "response.output_text.done":
-                low_level_event = _AgentTextCompleted(
-                    type="text_completed",
-                    text=event.text,
-                    response_id=current_response_id or "",
-                    output_index=event.output_index,
-                )
-                yield from self.process_low_level_event(low_level_event)
-
-            elif event_type == "response.output_item.done":
-                item = event.item
-                if item.type in ("function_call", "web_search_call"):
-                    low_level_event = _AgentToolCallCompleted(
-                        type="tool_call_completed",
-                        response_id=current_response_id or "",
-                        output_index=event.output_index,
-                        call_id=item.call_id,
-                        arguments_json=item.arguments,
-                    )
-                    yield from self.process_low_level_event(low_level_event)
-                elif item.type == "file_search_call":
-                    low_level_event = _AgentToolCallCompleted(
-                        type="tool_call_completed",
-                        response_id=current_response_id or "",
-                        output_index=event.output_index,
-                        call_id=item.id,
-                        arguments_json="{}",
-                    )
-                    yield from self.process_low_level_event(low_level_event)
-                else:
-                    logger.warning(f"Unhandled item type: {item.type}")
+                # Text completions are tracked via the final StepCompleted event.
+                continue
 
             elif event_type == "response.output_item.added":
-                item = event.item
-                item_type = getattr(item, "type", None)
-
-                if item_type == "function_call":
-                    low_level_event = _AgentToolCallIssued(
-                        type="tool_call_issued",
-                        response_id=current_response_id or event.response_id,
-                        output_index=event.output_index,
-                        call_id=item.call_id,
-                        name=item.name,
-                        arguments_json=item.arguments,
-                    )
-                    yield from self.process_low_level_event(low_level_event)
-
-                elif item_type == "web_search":
-                    low_level_event = _AgentToolCallIssued(
-                        type="tool_call_issued",
-                        response_id=current_response_id or event.response_id,
-                        output_index=event.output_index,
-                        call_id=item.id,
-                        name=item.type,
-                        arguments_json="{}",
-                    )
-                    yield from self.process_low_level_event(low_level_event)
-
-                elif item_type == "mcp_call":
-                    low_level_event = _AgentToolCallIssued(
-                        type="tool_call_issued",
-                        response_id=current_response_id or event.response_id,
-                        output_index=event.output_index,
-                        call_id=item.id,
-                        name=item.name,
-                        arguments_json=item.arguments,
-                    )
-                    yield from self.process_low_level_event(low_level_event)
-
-                elif item_type == "mcp_list_tools":
-                    low_level_event = _AgentToolCallIssued(
-                        type="tool_call_issued",
-                        response_id=current_response_id or event.response_id,
-                        output_index=event.output_index,
-                        call_id=item.id,
-                        name=item.type,
-                        arguments_json="{}",
-                    )
-                    yield from self.process_low_level_event(low_level_event)
-
-                elif item_type == "message":
-                    # Text message output
-                    low_level_event = _AgentTextCompleted(
-                        type="text_completed",
-                        text=str(item.content) if hasattr(item, "content") else item.text,
-                        response_id=current_response_id or event.response_id,
-                        output_index=event.output_index,
-                    )
-                    yield from self.process_low_level_event(low_level_event)
+                yield from self._handle_output_item_added(getattr(event, "item", None))
+
+            elif event_type == "response.output_item.delta":
+                yield from self._handle_output_item_delta(getattr(event, "delta", None))
+
+            elif event_type == "response.output_item.done":
+                yield from self._handle_output_item_done(getattr(event, "item", None))
 
             elif event_type == "response.completed":
-                # Capture the response object for later use
-                self.last_response = event.response
-                low_level_event = _AgentResponseCompleted(type="response_completed", response_id=event.response.id)
-                yield from self.process_low_level_event(low_level_event)
+                response = getattr(event, "response", None)
+                if response is not None:
+                    self.last_response = response
+                stop_reason = "tool_calls" if self._function_call_ids else "end_of_turn"
+                yield from self._complete_inference_step(stop_reason=stop_reason, response_id=current_response_id)
 
             elif event_type == "response.failed":
-                low_level_event = _AgentResponseFailed(
-                    type="response_failed",
-                    response_id=event.response.id,
-                    error_message=event.response.error.message
-                    if hasattr(event.response, "error") and event.response.error
-                    else "Unknown error",
+                response = getattr(event, "response", None)
+                error_obj = getattr(response, "error", None)
+                error_message = getattr(error_obj, "message", None) if error_obj else None
+                yield TurnFailed(
+                    turn_id=self.turn_id,
+                    session_id=self.session_id,
+                    error_message=error_message or "Unknown error",
                 )
-                yield from self.process_low_level_event(low_level_event)
 
-    def finish_turn(self) -> Iterator[AgentEvent]:
-        """Emit TurnCompleted event.
+            else:  # pragma: no cover - depends on streaming responses
+                # Allow unknown streaming events to pass silently; they are often ancillary metadata.
+                continue
+
+    def _handle_output_item_added(self, item: Any) -> Iterator[AgentEvent]:
+        if item is None:
+            return
+        item_type = getattr(item, "type", None)
+        if item_type is None:
+            return
+
+        if item_type == "message":
+            # Messages mirror text deltas, nothing extra to emit.
+            return
+
+        if item_type in {
+            "function_call",
+            "web_search",
+            "web_search_call",
+            "mcp_call",
+            "mcp_list_tools",
+            "file_search_call",
+        }:
+            call_id = getattr(item, "call_id", None) or getattr(item, "id", None)
+            tool_name = getattr(item, "name", None) or getattr(item, "type", "")
+            arguments = self._coerce_arguments(getattr(item, "arguments", None))
+            tool_type = self._classify_tool_type(tool_name if item_type == "function_call" else item_type)
+
+            state = self._register_tool_call(
+                call_id=call_id,
+                tool_name=tool_name,
+                tool_type=tool_type,
+                arguments=arguments,
+            )
+
+            if state.server_side:
+                yield from self._complete_inference_step(
+                    stop_reason="server_tool_call", response_id=self.current_response_id
+                )
+                yield from self._start_tool_execution_step(state)
+            else:
+                if state.call_id not in self._function_call_ids:
+                    self._function_call_ids.append(state.call_id)
+                yield StepProgress(
+                    step_id=self.current_step_id or "",
+                    step_type="inference",
+                    turn_id=self.turn_id,
+                    delta=ToolCallIssuedDelta(
+                        call_id=state.call_id,
+                        tool_type="function",
+                        tool_name=state.tool_name,
+                        arguments=state.arguments or "{}",
+                    ),
+                )
 
-        This should be called when the turn is complete (no more function
-        calls to execute).
+    def _handle_output_item_delta(self, delta: Any) -> Iterator[AgentEvent]:
+        if delta is None:
+            return
+        delta_type = getattr(delta, "type", None)
+        if delta_type not in {
+            "function_call",
+            "web_search",
+            "web_search_call",
+            "mcp_call",
+            "mcp_list_tools",
+            "file_search_call",
+        }:
+            return
+
+        call_id = getattr(delta, "call_id", None) or getattr(delta, "id", None)
+        if call_id is None:
+            return
+
+        arguments_delta = getattr(delta, "arguments_delta", None)
+        if arguments_delta is None:
+            arguments_delta = getattr(delta, "arguments", None)
+        if arguments_delta is None and isinstance(delta, dict):
+            arguments_delta = delta.get("arguments_delta") or delta.get("arguments")
+        if arguments_delta is None:
+            return
+
+        state = self._tool_calls.get(call_id)
+        if state is None:
+            return
+
+        state.update(delta=arguments_delta)
+        step_type = "tool_execution" if state.server_side else "inference"
+        yield StepProgress(
+            step_id=self.current_step_id or "",
+            step_type=step_type,  # type: ignore[arg-type]
+            turn_id=self.turn_id,
+            delta=ToolCallDelta(call_id=state.call_id, arguments_delta=arguments_delta),
+        )
 
-        Yields:
-            TurnCompleted event
-        """
+    def _handle_output_item_done(self, item: Any) -> Iterator[AgentEvent]:
+        if item is None:
+            return
+
+        item_type = getattr(item, "type", None)
+        if item_type not in {
+            "function_call",
+            "web_search",
+            "web_search_call",
+            "mcp_call",
+            "mcp_list_tools",
+            "file_search_call",
+        }:
+            return
+
+        call_id = getattr(item, "call_id", None) or getattr(item, "id", None)
+        if call_id is None:
+            return
+
+        state = self._tool_calls.get(call_id)
+        if state is None:
+            return
+
+        arguments = self._coerce_arguments(getattr(item, "arguments", None))
+        if arguments:
+            state.update(final=arguments)
+
+        if state.server_side:
+            yield from self._complete_tool_execution_step(state)
+            # Start a fresh inference step so the model can continue reasoning.
+            yield from self._start_inference_step()
+        else:
+            if call_id not in self._function_call_ids:
+                self._function_call_ids.append(call_id)
+
+    # ------------------------------------------------------------------ turn end
+
+    def finish_turn(self) -> Iterator[AgentEvent]:
         if not self.last_response:
             raise RuntimeError("Cannot finish turn without a response")
 
diff --git a/tests/integration/test_agent_turn_step_events.py b/tests/integration/test_agent_turn_step_events.py
index 98baf0d7..9ada812a 100644
--- a/tests/integration/test_agent_turn_step_events.py
+++ b/tests/integration/test_agent_turn_step_events.py
@@ -184,9 +184,6 @@ def test_server_side_file_search_tool(agent_with_file_search):
 
     events = []
     for chunk in agent.create_turn(messages=messages, session_id=session_id, stream=True):
-        from rich.pretty import pprint
-
-        pprint(chunk.event)
         events.append(chunk.event)
 
     # Verify Turn started and completed
diff --git a/tests/lib/agents/test_agent_responses.py b/tests/lib/agents/test_agent_responses.py
index a5004c13..4ed2c3b6 100644
--- a/tests/lib/agents/test_agent_responses.py
+++ b/tests/lib/agents/test_agent_responses.py
@@ -1,107 +1,109 @@
+from __future__ import annotations
+
 from types import SimpleNamespace
-from typing import Any, Dict, List, Iterable, Optional
+from typing import Any, Dict, Iterable, Iterator, List, Optional
 
 import pytest
 
 from llama_stack_client.lib.agents.agent import Agent
 from llama_stack_client.lib.agents.client_tool import client_tool
-from llama_stack_client.lib.agents.stream_events import (
-    AgentStreamEvent,
-    AgentToolCallDelta,
-    AgentToolCallIssued,
-    AgentResponseStarted,
-    AgentResponseCompleted,
-    AgentToolCallCompleted,
+from llama_stack_client.lib.agents.turn_events import (
+    AgentStreamChunk,
+    StepCompleted,
+    StepProgress,
+    StepStarted,
+    ToolExecutionStepResult,
+    TurnCompleted,
+    TurnStarted,
 )
 
 
-@client_tool
-def echo_tool(text: str) -> str:
-    """Echo text back to the caller.
+def _event(event_type: str, **payload: Any) -> SimpleNamespace:
+    return SimpleNamespace(type=event_type, **payload)
+
+
+def _in_progress(response_id: str) -> SimpleNamespace:
+    return _event("response.in_progress", response=SimpleNamespace(id=response_id))
 
-    :param text: phrase to echo
-    """
-    return text
+
+def _completed(response_id: str, text: str) -> SimpleNamespace:
+    response = FakeResponse(response_id, text)
+    return _event("response.completed", response=response)
 
 
 class FakeResponse:
-    def __init__(self, response_id: str, turn_id: str) -> None:
+    def __init__(self, response_id: str, text: str) -> None:
         self.id = response_id
-        self.turn = SimpleNamespace(turn_id=turn_id)
+        self.output_text = text
+        self.turn = SimpleNamespace(turn_id=f"turn_{response_id}")
 
 
 class FakeResponsesAPI:
-    def __init__(
-        self,
-        event_registry: Dict[object, Iterable[AgentStreamEvent]],
-        responses: Dict[str, FakeResponse],
-        event_script: Optional[List[List[AgentStreamEvent]]] = None,
-    ) -> None:
-        self._event_registry = event_registry
-        self._responses = responses
-        self.create_calls: List[Dict[str, object]] = []
-        self._event_script = list(event_script or [])
-
-    def create(self, *, previous_response_id: Optional[str] = None, **kwargs: object) -> object:
-        stream = object()
-        record: Dict[str, object] = {"previous_response_id": previous_response_id}
-        record.update(kwargs)
-        self.create_calls.append(record)
-
-        if self._event_script:
-            self._event_registry[stream] = self._event_script.pop(0)
-        elif previous_response_id is None:
-            self._event_registry[stream] = [
-                AgentResponseStarted(type="response_started", response_id="resp_0"),
-                AgentToolCallIssued(
-                    type="tool_call_issued",
-                    response_id="resp_0",
-                    output_index=0,
-                    call_id="call_1",
-                    name="echo_tool",
-                    arguments_json='{"text": "hi"}',
-                ),
-                AgentToolCallCompleted(
-                    type="tool_call_completed",
-                    response_id="resp_0",
-                    output_index=0,
-                    call_id="call_1",
-                    arguments_json='{"text": "hi"}',
-                ),
-            ]
-        else:
-            self._event_registry[stream] = [
-                AgentResponseCompleted(type="response_completed", response_id="resp_1"),
-            ]
-        return stream
-
-    def retrieve(self, response_id: str, **_: object) -> FakeResponse:
-        return self._responses[response_id]
-
-def test_agent_tracks_multiple_sessions(monkeypatch: pytest.MonkeyPatch) -> None:
-    event_registry: Dict[object, Iterable[AgentStreamEvent]] = {}
-    responses = {
-        "resp_a1": FakeResponse("resp_a1", "turn_a1"),
-        "resp_a2": FakeResponse("resp_a2", "turn_a2"),
-        "resp_b1": FakeResponse("resp_b1", "turn_b1"),
-    }
-    scripted_events = [
-        [AgentResponseCompleted(type="response_completed", response_id="resp_a1")],
-        [AgentResponseCompleted(type="response_completed", response_id="resp_b1")],
-        [AgentResponseCompleted(type="response_completed", response_id="resp_a2")],
+    def __init__(self, event_script: Iterable[Iterable[SimpleNamespace]]) -> None:
+        self._event_script: List[List[SimpleNamespace]] = [list(events) for events in event_script]
+        self.create_calls: List[Dict[str, Any]] = []
+
+    def create(self, **kwargs: Any) -> Iterator[SimpleNamespace]:
+        self.create_calls.append(kwargs)
+        if not self._event_script:
+            raise AssertionError("No scripted events left for responses.create")
+        return iter(self._event_script.pop(0))
+
+
+class FakeConversationsAPI:
+    def __init__(self) -> None:
+        self._counter = 0
+
+    def create(self, **_: Any) -> SimpleNamespace:
+        self._counter += 1
+        return SimpleNamespace(id=f"conv_{self._counter}")
+
+
+class FakeClient:
+    def __init__(self, event_script: Iterable[Iterable[SimpleNamespace]]) -> None:
+        self.responses = FakeResponsesAPI(event_script)
+        self.conversations = FakeConversationsAPI()
+
+
+def make_completion_events(response_id: str, text: str) -> List[SimpleNamespace]:
+    return [
+        _in_progress(response_id),
+        _event("response.output_text.delta", delta=text, output_index=0),
+        _completed(response_id, text),
     ]
-    client = FakeClient(event_registry, responses, event_script=scripted_events)  # type: ignore[arg-type]
 
-    def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
-        return event_registry[stream]
 
-    monkeypatch.setattr("llama_stack_client.lib.agents.agent.iter_agent_events", fake_iter_agent_events)
+def make_function_tool_events(response_id: str, call_id: str, tool_name: str, arguments: str) -> List[SimpleNamespace]:
+    tool_item = SimpleNamespace(type="function_call", call_id=call_id, name=tool_name, arguments=arguments)
+    return [
+        _in_progress(response_id),
+        _event("response.output_item.added", item=tool_item),
+        _event("response.output_item.done", item=tool_item),
+        _completed(response_id, ""),
+    ]
 
-    agent = Agent(
-        client=client,  # type: ignore[arg-type]
-        model="test-model",
-        instructions="test",
-    )
+
+def make_server_tool_events(response_id: str, call_id: str, arguments: str, final_text: str) -> List[SimpleNamespace]:
+    tool_item = SimpleNamespace(type="file_search_call", id=call_id, arguments=arguments)
+    completion = FakeResponse(response_id, final_text)
+    return [
+        _in_progress(response_id),
+        _event("response.output_item.added", item=tool_item),
+        _event("response.output_item.done", item=tool_item),
+        _event("response.output_text.delta", delta=final_text, output_index=0),
+        _completed(response_id, final_text),
+    ]
+
+
+def test_agent_tracks_multiple_sessions() -> None:
+    event_script = [
+        make_completion_events("resp_a1", "session A turn 1"),
+        make_completion_events("resp_b1", "session B turn 1"),
+        make_completion_events("resp_a2", "session A turn 2"),
+    ]
+
+    client = FakeClient(event_script)
+    agent = Agent(client=client, model="test-model", instructions="test")
 
     session_a = agent.create_session("A")
     session_b = agent.create_session("B")
@@ -118,186 +120,87 @@ def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
 
     calls = client.responses.create_calls
     assert calls[0]["conversation"] == session_a
-    assert calls[0]["previous_response_id"] is None
     assert calls[1]["conversation"] == session_b
-    assert calls[1]["previous_response_id"] is None
     assert calls[2]["conversation"] == session_a
-    assert calls[2]["previous_response_id"] == "resp_a1"
+
     assert agent._session_last_response_id[session_a] == "resp_a2"
     assert agent._session_last_response_id[session_b] == "resp_b1"
+    assert agent._last_response_id == "resp_a2"
 
 
-def test_agent_streams_server_and_client_tools(monkeypatch: pytest.MonkeyPatch) -> None:
-    event_registry: Dict[object, Iterable[AgentStreamEvent]] = {}
-    responses = {
-        "resp_final": FakeResponse("resp_final", "turn_final"),
-    }
-    event_script = [
-        [
-            AgentResponseStarted(type="response_started", response_id="resp_0"),
-            AgentToolCallIssued(
-                type="tool_call_issued",
-                response_id="resp_0",
-                output_index=0,
-                call_id="server_call",
-                name="server_tool",
-                arguments_json="",
-            ),
-            AgentToolCallDelta(
-                type="tool_call_delta",
-                response_id="resp_0",
-                output_index=0,
-                call_id="server_call",
-                arguments_delta='{"value": ',
-            ),
-            AgentToolCallDelta(
-                type="tool_call_delta",
-                response_id="resp_0",
-                output_index=0,
-                call_id="server_call",
-                arguments_delta='1}',
-            ),
-            AgentToolCallCompleted(
-                type="tool_call_completed",
-                response_id="resp_0",
-                output_index=0,
-                call_id="server_call",
-                arguments_json='{"value": 1}',
-            ),
-        ],
-        [
-            AgentToolCallIssued(
-                type="tool_call_issued",
-                response_id="resp_1",
-                output_index=0,
-                call_id="client_call",
-                name="echo_tool",
-                arguments_json='{"text": "pong"}',
-            ),
-            AgentToolCallCompleted(
-                type="tool_call_completed",
-                response_id="resp_1",
-                output_index=0,
-                call_id="client_call",
-                arguments_json='{"text": "pong"}',
-            ),
-        ],
-        [
-            AgentResponseCompleted(type="response_completed", response_id="resp_final"),
-        ],
-    ]
-    client = FakeClient(event_registry, responses, event_script=event_script)  # type: ignore[arg-type]
-
-    def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
-        return event_registry[stream]
-
-    monkeypatch.setattr("llama_stack_client.lib.agents.agent.iter_agent_events", fake_iter_agent_events)
+def test_agent_handles_client_tool_and_finishes_turn() -> None:
+    tool_invocations: List[str] = []
 
-    server_calls: List[Dict[str, Any]] = []
+    @client_tool
+    def echo_tool(text: str) -> str:
+        """Echo text back to the caller.
 
-    def fake_invoke_tool(*, tool_name: str, kwargs: Dict[str, Any], extra_headers: object | None = None) -> SimpleNamespace:
-        _ = extra_headers
-        server_calls.append({"tool_name": tool_name, "kwargs": kwargs})
-        return SimpleNamespace(content={"result": "ok"})
+        :param text: value to echo
+        """
+        tool_invocations.append(text)
+        return text
 
-    client.tool_runtime.invoke_tool = fake_invoke_tool  # type: ignore[assignment]
-
-    agent = Agent(
-        client=client,  # type: ignore[arg-type]
-        model="test-model",
-        instructions="use tools",
-        tools=[echo_tool],
-    )
-    agent.builtin_tools["server_tool"] = {}
-
-    session_id = agent.create_session("default")
-    messages = [
-        {
-            "type": "message",
-            "role": "user",
-            "content": [{"type": "input_text", "text": "run tools"}],
-        }
+    event_script = [
+        make_function_tool_events("resp_intermediate", "call_1", "echo_tool", '{"text": "pong"}'),
+        make_completion_events("resp_final", "all done"),
     ]
 
-    chunks = list(agent.create_turn(messages, session_id=session_id, stream=True))
-
-    assert any(isinstance(chunk.event, AgentResponseCompleted) for chunk in chunks)
-    assert server_calls == [{"tool_name": "server_tool", "kwargs": {"value": 1}}]
-    assert any(call["previous_response_id"] == "resp_0" for call in client.responses.create_calls if call.get("conversation"))
-
-class FakeConversationsAPI:
-    def __init__(self) -> None:
-        self._counter = 0
-
-    def create(self, **_: object) -> SimpleNamespace:
-        self._counter += 1
-        return SimpleNamespace(id=f"conv_{self._counter}")
-
-
-class FakeToolsAPI:
-    def list(self, **_: object) -> List[SimpleNamespace]:
-        return []
-
-
-class FakeToolRuntimeAPI:
-    def invoke_tool(self, **_: object) -> None:  # pragma: no cover - not exercised here
-        raise AssertionError("Should not reach builtin tool execution in this test")
+    client = FakeClient(event_script)
+    agent = Agent(client=client, model="test-model", instructions="use tools", tools=[echo_tool])
 
+    session_id = agent.create_session("default")
+    message = {
+        "type": "message",
+        "role": "user",
+        "content": [{"type": "input_text", "text": "run the tool"}],
+    }
 
-class FakeClient:
-    def __init__(
-        self,
-        event_registry: Dict[object, Iterable[AgentStreamEvent]],
-        responses: Dict[str, FakeResponse],
-        event_script: Optional[List[List[AgentStreamEvent]]] = None,
-    ) -> None:
-        self.responses = FakeResponsesAPI(event_registry, responses, event_script=event_script)
-        self.conversations = FakeConversationsAPI()
-        self.tools = FakeToolsAPI()
-        self.tool_runtime = FakeToolRuntimeAPI()
+    response = agent.create_turn([message], session_id=session_id, stream=False)
 
+    assert response.id == "resp_final"
+    assert response.output_text == "all done"
+    assert tool_invocations == ["pong"]
+    assert len(client.responses.create_calls) == 2
 
-@pytest.fixture
-def event_registry() -> Dict[object, Iterable[AgentStreamEvent]]:
-    return {}
 
+def test_agent_streams_server_tool_events() -> None:
+    event_script = [
+        make_server_tool_events("resp_server", "server_call", '{"query": "docs"}', "tool finished"),
+    ]
 
-@pytest.fixture
-def fake_response() -> FakeResponse:
-    return FakeResponse("resp_1", "turn_123")
+    client = FakeClient(event_script)
+    agent = Agent(client=client, model="test-model", instructions="use server tool")
 
+    session_id = agent.create_session("default")
+    message = {
+        "type": "message",
+        "role": "user",
+        "content": [{"type": "input_text", "text": "find info"}],
+    }
 
-def test_agent_handles_client_tool_and_finishes_turn(monkeypatch: pytest.MonkeyPatch, event_registry: Dict[object, Iterable[AgentStreamEvent]], fake_response: FakeResponse) -> None:
-    client = FakeClient(event_registry, {fake_response.id: fake_response})
+    chunks = list(agent.create_turn([message], session_id=session_id, stream=True))
 
-    def fake_iter_agent_events(stream: object) -> Iterable[AgentStreamEvent]:
-        try:
-            events = event_registry[stream]
-        except KeyError as exc:  # pragma: no cover - makes debugging simpler if misused
-            raise AssertionError("unknown stream") from exc
-        for event in events:
-            yield event
+    events = [chunk.event for chunk in chunks]
+    assert isinstance(events[0], TurnStarted)
+    assert isinstance(events[1], StepStarted)
+    assert events[1].step_type == "inference"
 
-    monkeypatch.setattr("llama_stack_client.lib.agents.agent.iter_agent_events", fake_iter_agent_events)
+    # Look for the tool execution step in the stream
+    tool_step_started = next(event for event in events if isinstance(event, StepStarted) and event.step_type == "tool_execution")
+    assert tool_step_started.metadata == {"server_side": True, "tool_type": "file_search", "tool_name": "file_search_call"}
 
-    agent = Agent(
-        client=client,  # type: ignore[arg-type]
-        model="test-model",
-        instructions="use the echo_tool",
-        tools=[echo_tool],
+    tool_step_completed = next(
+        event for event in events if isinstance(event, StepCompleted) and event.step_type == "tool_execution"
     )
+    assert isinstance(tool_step_completed.result, ToolExecutionStepResult)
+    assert tool_step_completed.result.tool_calls[0].call_id == "server_call"
 
-    session_id = agent.create_session("default")
-    messages = [
-        {
-            "type": "message",
-            "role": "user",
-            "content": [{"type": "input_text", "text": "hi"}],
-        }
+    text_progress = [
+        event.delta.text
+        for event in events
+        if isinstance(event, StepProgress) and hasattr(event.delta, "text")
     ]
+    assert text_progress == ["tool finished"]
 
-    response = agent.create_turn(messages, session_id=session_id, stream=False)
-
-    assert response is fake_response
-    assert len(client.responses.create_calls) == 2
-    assert agent._last_response_id == fake_response.id
+    assert isinstance(events[-1], TurnCompleted)
+    assert chunks[-1].response and chunks[-1].response.output_text == "tool finished"

From 5c38b45cf903e8bdd7bb08ee0256f6d07a88a0f3 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Tue, 14 Oct 2025 20:47:32 -0700
Subject: [PATCH 13/15] cleanup for toolgroups and stuff

---
 src/llama_stack_client/lib/agents/agent.py    | 103 +++++-------------
 .../lib/agents/client_tool.py                 |  22 ++--
 .../lib/agents/event_synthesizer.py           |   5 +-
 .../lib/agents/react/agent.py                 |  81 ++++++--------
 .../lib/agents/react/tool_parser.py           |   3 +-
 .../lib/agents/tool_parser.py                 |   3 +-
 .../lib/agents/turn_events.py                 |   7 +-
 src/llama_stack_client/lib/agents/types.py    |  63 +++++++++++
 8 files changed, 140 insertions(+), 147 deletions(-)
 create mode 100644 src/llama_stack_client/lib/agents/types.py

diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index 82c5eb6d..c8de383d 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -19,15 +19,6 @@
 )
 from uuid import uuid4
 
-from llama_stack_client import LlamaStackClient
-from llama_stack_client.types import ResponseObject
-from llama_stack_client.types import response_create_params
-from llama_stack_client.types.alpha.tool_response import ToolResponse
-from llama_stack_client.types.shared.tool_call import ToolCall
-from llama_stack_client.types.shared.agent_config import Toolgroup
-from llama_stack_client.types.shared_params.document import Document
-from llama_stack_client.types.shared.completion_message import CompletionMessage
-
 from ..._types import Headers
 from .client_tool import ClientTool, client_tool
 from .tool_parser import ToolParser
@@ -41,6 +32,7 @@
     ToolExecutionStepResult,
 )
 from .event_synthesizer import TurnEventSynthesizer
+from .types import CompletionMessage, ToolCall, ToolResponse
 
 
 class ToolResponsePayload(TypedDict):
@@ -113,7 +105,7 @@ def normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
 class Agent:
     def __init__(
         self,
-        client: Any,  # Accept any OpenAI-compatible client (OpenAI SDK or LlamaStackClient)
+        client: Any,  # Accept any OpenAI-compatible client
         *,
         model: str,
         instructions: str,
@@ -124,7 +116,7 @@ def __init__(
         """Construct an Agent backed by the responses + conversations APIs.
 
         Args:
-            client: An OpenAI-compatible client (e.g., openai.OpenAI() or LlamaStackClient).
+            client: An OpenAI-compatible client (e.g., openai.OpenAI()).
                     The client must support the responses and conversations APIs.
         """
         self.client = client
@@ -138,8 +130,6 @@ def __init__(
         self.client_tools = {tool.get_name(): tool for tool in client_tools}
 
         self.sessions: List[str] = []
-        self._last_response_id: Optional[str] = None
-        self._session_last_response_id: Dict[str, str] = {}
 
     def create_session(self, session_name: str) -> str:
         conversation = self.client.conversations.create(
@@ -182,32 +172,18 @@ def _run_single_tool(self, tool_call: ToolCall) -> Any:
 
     def create_turn(
         self,
-        messages: List[response_create_params.InputUnionMember1],
+        messages: List[Dict[str, Any]],
         session_id: str,
-        toolgroups: Optional[List[Toolgroup]] = None,
-        documents: Optional[List[Document]] = None,
         stream: bool = True,
         # TODO: deprecate this
         extra_headers: Headers | None = None,
-    ) -> Iterator[AgentStreamChunk] | ResponseObject:
+    ) -> Iterator[AgentStreamChunk] | Any:
         if stream:
-            return self._create_turn_streaming(
-                messages,
-                session_id,
-                toolgroups,
-                documents,
-                extra_headers=extra_headers or self.extra_headers,
-            )
+            return self._create_turn_streaming(messages, session_id, extra_headers=extra_headers or self.extra_headers)
         else:
-            _ = toolgroups
-            _ = documents
             last_chunk: Optional[AgentStreamChunk] = None
             for chunk in self._create_turn_streaming(
-                messages,
-                session_id,
-                toolgroups,
-                documents,
-                extra_headers=extra_headers or self.extra_headers,
+                messages, session_id, extra_headers=extra_headers or self.extra_headers
             ):
                 last_chunk = chunk
 
@@ -218,17 +194,11 @@ def create_turn(
 
     def _create_turn_streaming(
         self,
-        messages: List[response_create_params.InputUnionMember1],
+        messages: List[Dict[str, Any]],
         session_id: str,
-        toolgroups: Optional[List[Toolgroup]] = None,
-        documents: Optional[List[Document]] = None,
         # TODO: deprecate this
         extra_headers: Headers | None = None,
     ) -> Iterator[AgentStreamChunk]:
-        # toolgroups and documents are legacy parameters - ignored
-        _ = toolgroups
-        _ = documents
-
         # Generate turn_id
         turn_id = f"turn_{uuid4().hex[:12]}"
 
@@ -276,8 +246,6 @@ def _create_turn_streaming(
                     raise RuntimeError("No response available")
                 for event in synthesizer.finish_turn():
                     yield AgentStreamChunk(event=event, response=response)
-                self._last_response_id = response.id
-                self._session_last_response_id[session_id] = response.id
                 break
 
             # Execute client-side tools (emit tool execution step events)
@@ -310,11 +278,11 @@ def _create_turn_streaming(
 
             # Continue loop with tool outputs as input
             messages = [
-                response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                    type="function_call_output",
-                    call_id=payload["call_id"],
-                    output=payload["content"],
-                )
+                {
+                    "type": "function_call_output",
+                    "call_id": payload["call_id"],
+                    "output": payload["content"],
+                }
                 for payload in tool_responses
             ]
 
@@ -338,9 +306,6 @@ def __init__(
         """
         self.client = client
 
-        if isinstance(client, LlamaStackClient):
-            raise ValueError("AsyncAgent must be initialized with an async client, not a sync LlamaStackClient")
-
         self.tool_parser = tool_parser
         self.extra_headers = extra_headers
         self._model = model
@@ -351,8 +316,6 @@ def __init__(
         self.client_tools = {tool.get_name(): tool for tool in client_tools}
 
         self.sessions: List[str] = []
-        self._last_response_id: Optional[str] = None
-        self._session_last_response_id: Dict[str, str] = {}
 
     async def create_session(self, session_name: str) -> str:
         conversation = await self.client.conversations.create(  # type: ignore[union-attr]
@@ -364,19 +327,15 @@ async def create_session(self, session_name: str) -> str:
 
     async def create_turn(
         self,
-        messages: List[response_create_params.InputUnionMember1],
+        messages: List[Dict[str, Any]],
         session_id: str,
-        toolgroups: Optional[List[Toolgroup]] = None,
-        documents: Optional[List[Document]] = None,
         stream: bool = True,
-    ) -> AsyncIterator[AgentStreamChunk] | ResponseObject:
+    ) -> AsyncIterator[AgentStreamChunk] | Any:
         if stream:
-            return self._create_turn_streaming(messages, session_id, toolgroups, documents)
+            return self._create_turn_streaming(messages, session_id)
         else:
-            _ = toolgroups
-            _ = documents
             last_chunk: Optional[AgentStreamChunk] = None
-            async for chunk in self._create_turn_streaming(messages, session_id, toolgroups, documents):
+            async for chunk in self._create_turn_streaming(messages, session_id):
                 last_chunk = chunk
             if not last_chunk or not last_chunk.response:
                 raise Exception("Turn did not complete")
@@ -415,13 +374,9 @@ async def _run_single_tool(self, tool_call: ToolCall) -> Any:
 
     async def _create_turn_streaming(
         self,
-        messages: List[response_create_params.InputUnionMember1],
+        messages: List[Dict[str, Any]],
         session_id: str,
-        toolgroups: Optional[List[Toolgroup]] = None,
-        documents: Optional[List[Document]] = None,
     ) -> AsyncIterator[AgentStreamChunk]:
-        _ = toolgroups
-        _ = documents
         await self.initialize()
 
         # Generate turn_id
@@ -471,8 +426,6 @@ async def _create_turn_streaming(
                     raise RuntimeError("No response available")
                 for event in synthesizer.finish_turn():
                     yield AgentStreamChunk(event=event, response=response)
-                self._last_response_id = response.id
-                self._session_last_response_id[session_id] = response.id
                 break
 
             # Execute client-side tools (emit tool execution step events)
@@ -505,11 +458,11 @@ async def _create_turn_streaming(
 
             # Continue loop with tool outputs as input
             messages = [
-                response_create_params.InputUnionMember1OpenAIResponseInputFunctionToolCallOutput(
-                    type="function_call_output",
-                    call_id=payload["call_id"],
-                    output=payload["content"],
-                )
+                {
+                    "type": "function_call_output",
+                    "call_id": payload["call_id"],
+                    "output": payload["content"],
+                }
                 for payload in tool_responses
             ]
 
@@ -580,17 +533,11 @@ def normalize_tools(
             if isinstance(tool, ClientTool):
                 # Convert ClientTool to function tool dict
                 tool_def = tool.get_tool_definition()
-                tool_dict = {
-                    "type": "function",
-                    "name": tool_def["name"],
-                    "description": tool_def.get("description", ""),
-                    "parameters": tool_def.get("input_schema", {}),
-                }
-                tool_dicts.append(tool_dict)
+                tool_dicts.append(tool_def)
                 client_tool_instances.append(tool)
             elif isinstance(tool, dict):
                 # Server-side tool dict (file_search, web_search, etc.)
-                tool_dicts.append(tool)
+                tool_dicts.append(tool)  # type: ignore[arg-type]
             else:
                 raise TypeError(f"Unsupported tool type: {type(tool)!r}")
 
diff --git a/src/llama_stack_client/lib/agents/client_tool.py b/src/llama_stack_client/lib/agents/client_tool.py
index 09164361..63a5bfd7 100644
--- a/src/llama_stack_client/lib/agents/client_tool.py
+++ b/src/llama_stack_client/lib/agents/client_tool.py
@@ -21,9 +21,7 @@
 
 from typing_extensions import TypedDict
 
-from llama_stack_client.types import CompletionMessage, Message
-from llama_stack_client.types.alpha import ToolResponse
-from llama_stack_client.types.tool_def_param import ToolDefParam
+from .types import CompletionMessage, Message, ToolDefinition, ToolResponse
 
 
 class JSONSchema(TypedDict, total=False):
@@ -61,13 +59,13 @@ def get_input_schema(self) -> JSONSchema:
     def get_instruction_string(self) -> str:
         return f"Use the function '{self.get_name()}' to: {self.get_description()}"
 
-    def get_tool_definition(self) -> ToolDefParam:
-        return ToolDefParam(
-            name=self.get_name(),
-            description=self.get_description(),
-            input_schema=self.get_input_schema(),
-            metadata={},
-        )
+    def get_tool_definition(self) -> ToolDefinition:
+        return {
+            "type": "function",
+            "name": self.get_name(),
+            "description": self.get_description(),
+            "parameters": self.get_input_schema(),
+        }
 
     def run(
         self,
@@ -82,7 +80,6 @@ def run(
         metadata = {}
         try:
             params = json.loads(tool_call.arguments)
-
             response = self.run_impl(**params)
             if isinstance(response, dict) and "content" in response:
                 content = json.dumps(response["content"], ensure_ascii=False)
@@ -108,7 +105,8 @@ async def async_run(
         tool_call = last_message.tool_calls[0]
         metadata = {}
         try:
-            response = await self.async_run_impl(**tool_call.arguments)
+            params = json.loads(tool_call.arguments)
+            response = await self.async_run_impl(**params)
             if isinstance(response, dict) and "content" in response:
                 content = json.dumps(response["content"], ensure_ascii=False)
                 metadata = response.get("metadata", {})
diff --git a/src/llama_stack_client/lib/agents/event_synthesizer.py b/src/llama_stack_client/lib/agents/event_synthesizer.py
index 122299af..22ce5c24 100644
--- a/src/llama_stack_client/lib/agents/event_synthesizer.py
+++ b/src/llama_stack_client/lib/agents/event_synthesizer.py
@@ -20,8 +20,7 @@
 
 from logging import getLogger
 
-from llama_stack_client.types import ResponseObject
-from llama_stack_client.types.shared.tool_call import ToolCall
+from .types import ToolCall
 
 from .turn_events import (
     AgentEvent,
@@ -78,7 +77,7 @@ def __init__(self, session_id: str, turn_id: str):
 
         self.turn_started = False
         self.all_response_ids: List[str] = []
-        self.last_response: Optional[ResponseObject] = None
+        self.last_response: Optional[Any] = None
 
     # ------------------------------------------------------------------ helpers
 
diff --git a/src/llama_stack_client/lib/agents/react/agent.py b/src/llama_stack_client/lib/agents/react/agent.py
index 77e09f40..cd14c6bf 100644
--- a/src/llama_stack_client/lib/agents/react/agent.py
+++ b/src/llama_stack_client/lib/agents/react/agent.py
@@ -4,11 +4,9 @@
 # This source code is licensed under the terms described in the LICENSE file in
 # the root directory of this source tree.
 import logging
+from collections.abc import Mapping
 from typing import Any, Callable, Dict, List, Optional, Tuple, Union
 
-from llama_stack_client import LlamaStackClient
-from llama_stack_client.types.agents.turn_create_params import Toolgroup
-
 from ...._types import Headers
 from ..agent import Agent, AgentUtils
 from ..client_tool import ClientTool
@@ -19,49 +17,41 @@
 logger = logging.getLogger(__name__)
 
 
-def get_tool_defs(
-    client: LlamaStackClient,
-    builtin_toolgroups: Tuple[Union[str, Dict[str, Any], Toolgroup], ...] = (),
-    client_tools: Tuple[ClientTool, ...] = (),
-):
-    tool_defs = []
-    for x in builtin_toolgroups:
-        if isinstance(x, str):
-            toolgroup_id = x
-        else:
-            toolgroup_id = x["name"]
-        tool_defs.extend(
-            [
-                {
-                    "name": tool.identifier,
-                    "description": tool.description,
-                    "input_schema": tool.input_schema,
-                }
-                for tool in client.tools.list(toolgroup_id=toolgroup_id)
-            ]
-        )
+def _tool_definition_from_mapping(tool: Mapping[str, Any]) -> Dict[str, Any]:
+    name = tool.get("name") or tool.get("identifier") or tool.get("tool_name") or tool.get("type") or "tool"
+    description = tool.get("description") or tool.get("summary") or ""
+    parameters = tool.get("parameters") or tool.get("input_schema") or {}
+    return {
+        "name": str(name),
+        "description": str(description),
+        "input_schema": parameters,
+    }
 
+
+def _collect_tool_definitions(
+    server_tools: Tuple[Mapping[str, Any], ...],
+    client_tools: Tuple[ClientTool, ...],
+) -> List[Dict[str, Any]]:
+    tool_defs = [_tool_definition_from_mapping(tool) for tool in server_tools]
     tool_defs.extend(
-        [
-            {
-                "name": tool.get_name(),
-                "description": tool.get_description(),
-                "input_schema": tool.get_input_schema(),
-            }
-            for tool in client_tools
-        ]
+        {
+            "name": tool.get_name(),
+            "description": tool.get_description(),
+            "input_schema": tool.get_input_schema(),
+        }
+        for tool in client_tools
     )
     return tool_defs
 
 
-def get_default_react_instructions(
-    client: LlamaStackClient,
-    builtin_toolgroups: Tuple[Union[str, Dict[str, Any], Toolgroup], ...] = (),
-    client_tools: Tuple[ClientTool, ...] = (),
-):
-    tool_defs = get_tool_defs(client, builtin_toolgroups, client_tools)
-    tool_names = ", ".join([x["name"] for x in tool_defs])
-    tool_descriptions = "\n".join([f"- {x['name']}: {x}" for x in tool_defs])
+def get_default_react_instructions(tool_defs: List[Dict[str, Any]]) -> str:
+    tool_names = ", ".join([definition["name"] for definition in tool_defs])
+    tool_descriptions = "\n".join(
+        [
+            f"- {definition['name']}: {definition['description'] or definition['input_schema']}"
+            for definition in tool_defs
+        ]
+    )
     instruction = DEFAULT_REACT_AGENT_SYSTEM_PROMPT_TEMPLATE.replace("<<tool_names>>", tool_names).replace(
         "<<tool_descriptions>>", tool_descriptions
     )
@@ -71,10 +61,10 @@ def get_default_react_instructions(
 class ReActAgent(Agent):
     def __init__(
         self,
-        client: LlamaStackClient,
+        client: Any,
         *,
         model: str,
-        tools: Optional[List[Union[Toolgroup, ClientTool, Callable[..., Any]]]] = None,
+        tools: Optional[List[Union[Dict[str, Any], ClientTool, Callable[..., Any]]]] = None,
         tool_parser: Optional[ToolParser] = None,
         instructions: Optional[str] = None,
         extra_headers: Headers | None = None,
@@ -88,12 +78,11 @@ def __init__(
 
         tool_list = tools or []
         client_tool_instances = AgentUtils.get_client_tools(tool_list)
-        builtin_toolgroups = [x for x in tool_list if isinstance(x, (str, dict, Toolgroup))]
+        server_tool_defs = tuple(tool for tool in tool_list if isinstance(tool, Mapping))
 
         if instructions is None:
-            instructions = get_default_react_instructions(
-                client, tuple(builtin_toolgroups), tuple(client_tool_instances)
-            )
+            tool_definitions = _collect_tool_definitions(tuple(server_tool_defs), tuple(client_tool_instances))
+            instructions = get_default_react_instructions(tool_definitions)
 
         super().__init__(
             client=client,
diff --git a/src/llama_stack_client/lib/agents/react/tool_parser.py b/src/llama_stack_client/lib/agents/react/tool_parser.py
index a796abac..9120f83d 100644
--- a/src/llama_stack_client/lib/agents/react/tool_parser.py
+++ b/src/llama_stack_client/lib/agents/react/tool_parser.py
@@ -8,8 +8,7 @@
 import uuid
 from typing import List, Optional, Union
 
-from llama_stack_client.types.shared.completion_message import CompletionMessage
-from llama_stack_client.types.shared.tool_call import ToolCall
+from ..types import CompletionMessage, ToolCall
 
 from pydantic import BaseModel, ValidationError
 
diff --git a/src/llama_stack_client/lib/agents/tool_parser.py b/src/llama_stack_client/lib/agents/tool_parser.py
index ca8d28ea..0e6a97ad 100644
--- a/src/llama_stack_client/lib/agents/tool_parser.py
+++ b/src/llama_stack_client/lib/agents/tool_parser.py
@@ -7,8 +7,7 @@
 from abc import abstractmethod
 from typing import List
 
-from llama_stack_client.types.alpha.agents.turn import CompletionMessage
-from llama_stack_client.types.shared.tool_call import ToolCall
+from .types import CompletionMessage, ToolCall
 
 
 class ToolParser:
diff --git a/src/llama_stack_client/lib/agents/turn_events.py b/src/llama_stack_client/lib/agents/turn_events.py
index f17d3e0a..cca11095 100644
--- a/src/llama_stack_client/lib/agents/turn_events.py
+++ b/src/llama_stack_client/lib/agents/turn_events.py
@@ -20,8 +20,7 @@
 from dataclasses import dataclass
 from typing import Union, List, Optional, Dict, Any, Literal
 
-from llama_stack_client.types.shared.tool_call import ToolCall
-from llama_stack_client.types import ResponseObject
+from .types import ToolCall
 
 __all__ = [
     "TurnStarted",
@@ -261,7 +260,7 @@ class AgentStreamChunk:
 
     This is the top-level container for streaming events. Each chunk
     contains a high-level event (turn or step) and optionally the
-    final ResponseObject when the turn completes.
+    final response payload when the turn completes.
 
     Usage:
         for chunk in agent.create_turn(messages, session_id, stream=True):
@@ -273,4 +272,4 @@ class AgentStreamChunk:
     """
 
     event: AgentEvent
-    response: Optional[ResponseObject] = None  # Only set on TurnCompleted
+    response: Optional[Any] = None  # Only set on TurnCompleted
diff --git a/src/llama_stack_client/lib/agents/types.py b/src/llama_stack_client/lib/agents/types.py
new file mode 100644
index 00000000..8ec67485
--- /dev/null
+++ b/src/llama_stack_client/lib/agents/types.py
@@ -0,0 +1,63 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the terms described in the LICENSE file in
+# the root directory of this source tree.
+
+"""Lightweight agent-facing types that avoid llama-stack SDK dependencies."""
+
+from __future__ import annotations
+
+from dataclasses import dataclass, field
+from typing import Any, Dict, List, Protocol, TypedDict
+
+
+@dataclass
+class ToolCall:
+    """Minimal representation of an issued tool call."""
+
+    call_id: str
+    tool_name: str
+    arguments: str
+
+
+@dataclass
+class ToolResponse:
+    """Payload returned from executing a client-side tool."""
+
+    call_id: str
+    tool_name: str
+    content: Any
+    metadata: Dict[str, Any] = field(default_factory=dict)
+
+
+@dataclass
+class CompletionMessage:
+    """Synthetic completion message mirroring the OpenAI Responses schema."""
+
+    role: str
+    content: Any
+    tool_calls: List[ToolCall]
+    stop_reason: str
+
+
+Message = CompletionMessage
+
+
+class ToolDefinition(TypedDict, total=False):
+    """Definition object passed to the Responses API when registering tools."""
+
+    type: str
+    name: str
+    description: str
+    parameters: Dict[str, Any]
+
+
+class FunctionTool(Protocol):
+    """Protocol describing the minimal surface area we expect from tools."""
+
+    def get_name(self) -> str: ...
+
+    def get_description(self) -> str: ...
+
+    def get_input_schema(self) -> Dict[str, Any]: ...

From 3b98b4950ca05610299f09f6c53179096b43e948 Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Tue, 14 Oct 2025 21:38:42 -0700
Subject: [PATCH 14/15] update test, undo pyproject changes

---
 pyproject.toml                                   | 5 ++---
 tests/integration/test_agent_turn_step_events.py | 2 +-
 2 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 13ddebdf..63c6129a 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -118,9 +118,8 @@ replacement = '[\1](https://github.com/llamastack/llama-stack-client-python/tree
 
 [tool.pytest.ini_options]
 testpaths = ["tests"]
-# addopts = "--tb=short -n auto"
-addopts = "--tb=short"
-# xfail_strict = true
+addopts = "--tb=short -n auto"
+xfail_strict = true
 asyncio_mode = "auto"
 asyncio_default_fixture_loop_scope = "session"
 filterwarnings = [
diff --git a/tests/integration/test_agent_turn_step_events.py b/tests/integration/test_agent_turn_step_events.py
index 9ada812a..086915df 100644
--- a/tests/integration/test_agent_turn_step_events.py
+++ b/tests/integration/test_agent_turn_step_events.py
@@ -73,7 +73,7 @@ def agent_with_file_search(openai_client):
         name=f"test-vs-{uuid4().hex[:8]}",
         extra_body={
             "provider_id": "faiss",
-            "embedding_model": "sentence-transformers/all-MiniLM-L6-v2",
+            "embedding_model": "nomic-ai/nomic-embed-text-v1.5",
         },
     )
     vector_store_file = openai_client.vector_stores.files.create(

From 1a4b2fee03c24ab245be5b6c16174ecb20df0c5a Mon Sep 17 00:00:00 2001
From: Ashwin Bharambe <ashwin.bharambe@gmail.com>
Date: Wed, 15 Oct 2025 09:10:11 -0700
Subject: [PATCH 15/15] small update to CLI

---
 examples/interactive_agent_cli.py          | 71 +++++++++++++++++++---
 src/llama_stack_client/lib/agents/agent.py |  5 +-
 2 files changed, 66 insertions(+), 10 deletions(-)

diff --git a/examples/interactive_agent_cli.py b/examples/interactive_agent_cli.py
index 964876d8..c79d9efe 100755
--- a/examples/interactive_agent_cli.py
+++ b/examples/interactive_agent_cli.py
@@ -4,17 +4,61 @@
 Usage:
     python interactive_agent_cli.py [--model MODEL] [--base-url URL]
 """
+
 import argparse
 import io
+import json
+import os
 import sys
 import time
+from pathlib import Path
+from typing import Optional
 from uuid import uuid4
 
-from llama_stack_client import LlamaStackClient, AgentEventLogger
-from llama_stack_client.lib.agents.agent import Agent
+from openai import OpenAI
+from llama_stack_client import Agent, AgentEventLogger
+
 
+CACHE_DIR = Path(os.path.expanduser("~/.cache/interactive-agent-cli"))
+CACHE_DIR.mkdir(parents=True, exist_ok=True)
+CACHE_FILE = CACHE_DIR / "vector_store.json"
 
-def setup_knowledge_base(client):
+
+def load_cached_vector_store() -> Optional[str]:
+    try:
+        with CACHE_FILE.open("r", encoding="utf-8") as fh:
+            payload = json.load(fh)
+        return payload.get("vector_store_id")
+    except FileNotFoundError:
+        return None
+    except Exception as exc:  # pragma: no cover - defensive
+        print(f"⚠️  Failed to load cached vector store info: {exc}", file=sys.stderr)
+        return None
+
+
+def save_cached_vector_store(vector_store_id: str) -> None:
+    try:
+        with CACHE_FILE.open("w", encoding="utf-8") as fh:
+            json.dump({"vector_store_id": vector_store_id}, fh)
+    except Exception as exc:  # pragma: no cover - defensive
+        print(f"⚠️  Failed to cache vector store id: {exc}", file=sys.stderr)
+
+
+def ensure_vector_store(client: OpenAI) -> str:
+    cached_id = load_cached_vector_store()
+    if cached_id:
+        # Verify the vector store still exists on the server
+        existing = client.vector_stores.list().data
+        if any(store.id == cached_id for store in existing):
+            print(f"📚 Reusing cached knowledge base (vector store {cached_id})")
+            return cached_id
+        else:
+            print("⚠️  Cached vector store not found on server; creating a new one.")
+
+    return setup_knowledge_base(client)
+
+
+def setup_knowledge_base(client: OpenAI) -> str:
     """Create a vector store with interesting test knowledge."""
     print("📚 Setting up knowledge base...")
 
@@ -64,7 +108,7 @@ def setup_knowledge_base(client):
         name=f"phoenix-kb-{uuid4().hex[:8]}",
         extra_body={
             "provider_id": "faiss",
-            "embedding_model": "sentence-transformers/all-MiniLM-L6-v2",
+            "embedding_model": "nomic-ai/nomic-embed-text-v1.5",
         },
     )
 
@@ -92,6 +136,7 @@ def setup_knowledge_base(client):
     print(" ✓")
     print(f"  Vector store ID: {vector_store.id}")
     print()
+    save_cached_vector_store(vector_store.id)
     return vector_store.id
 
 
@@ -209,7 +254,7 @@ def main():
 Examples:
   %(prog)s
   %(prog)s --model openai/gpt-4o
-  %(prog)s --base-url http://localhost:8321
+  %(prog)s --base-url http://localhost:8321/v1
         """,
     )
     parser.add_argument(
@@ -219,8 +264,8 @@ def main():
     )
     parser.add_argument(
         "--base-url",
-        default="http://localhost:8321",
-        help="Llama Stack server URL (default: http://localhost:8321)",
+        default="http://localhost:8321/v1",
+        help="Llama Stack server URL (default: http://localhost:8321/v1)",
     )
 
     args = parser.parse_args()
@@ -234,7 +279,14 @@ def main():
     # Create client
     print("🔌 Connecting to server...")
     try:
-        client = LlamaStackClient(base_url=args.base_url)
+        client = OpenAI(base_url=args.base_url)
+        models = client.models.list()
+        identifiers = [model.identifier for model in models]
+        if args.model not in identifiers:
+            print(f"  ✗ Model {args.model} not found", file=sys.stderr)
+            print(f"  Available models: {', '.join(identifiers)}", file=sys.stderr)
+            sys.exit(1)
+
         print("  ✓ Connected")
         print()
     except Exception as e:
@@ -244,7 +296,8 @@ def main():
 
     # Setup knowledge base
     try:
-        vector_store_id = setup_knowledge_base(client)
+        print("🔍 Setting up knowledge base...")
+        vector_store_id = ensure_vector_store(client)
     except Exception as e:
         print(f"❌ Failed to setup knowledge base: {e}", file=sys.stderr)
         sys.exit(1)
diff --git a/src/llama_stack_client/lib/agents/agent.py b/src/llama_stack_client/lib/agents/agent.py
index c8de383d..417a53e2 100644
--- a/src/llama_stack_client/lib/agents/agent.py
+++ b/src/llama_stack_client/lib/agents/agent.py
@@ -35,10 +35,11 @@
 from .types import CompletionMessage, ToolCall, ToolResponse
 
 
-class ToolResponsePayload(TypedDict):
+class ToolResponsePayload(TypedDict, total=False):
     call_id: str
     tool_name: str
     content: Any
+    metadata: Dict[str, Any]
 
 
 logger = logging.getLogger(__name__)
@@ -84,6 +85,7 @@ def normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
                 "call_id": tool_response.call_id,
                 "tool_name": str(tool_response.tool_name),
                 "content": ToolUtils.coerce_tool_content(tool_response.content),
+                "metadata": dict(tool_response.metadata),
             }
             return payload
 
@@ -96,6 +98,7 @@ def normalize_tool_response(tool_response: Any) -> ToolResponsePayload:
                 "call_id": str(call_id),
                 "tool_name": str(tool_name),
                 "content": ToolUtils.coerce_tool_content(tool_response.get("content")),
+                "metadata": dict(tool_response.get("metadata") or {}),
             }
             return payload