fix(anthropic): include cache creation/read tokens in input_tokens of usage metadata (#9520)

yukukotani · web-flow · commit cc022b0aab2c · 2025-12-04T14:59:21.000-08:00
diff --git a/.changeset/cool-times-tell.md b/.changeset/cool-times-tell.md
@@ -0,0 +1,5 @@
+---
+"@langchain/anthropic": patch
+---
+
+Includes cache creation/read tokens in input_tokens of usage metadata
diff --git a/libs/providers/langchain-anthropic/src/tests/chat_models.int.test.ts b/libs/providers/langchain-anthropic/src/tests/chat_models.int.test.ts
@@ -867,11 +867,17 @@ test("system prompt caching", async () => {
     res.usage_metadata?.input_token_details?.cache_creation
   ).toBeGreaterThan(0);
   expect(res.usage_metadata?.input_token_details?.cache_read).toBe(0);
+  expect(res.usage_metadata?.input_tokens).toBeGreaterThan(
+    res.usage_metadata?.input_token_details?.cache_creation ?? 0
+  );
   const res2 = await model.invoke(messages);
   expect(res2.usage_metadata?.input_token_details?.cache_creation).toBe(0);
   expect(res2.usage_metadata?.input_token_details?.cache_read).toBeGreaterThan(
     0
   );
+  expect(res2.usage_metadata?.input_tokens).toBeGreaterThan(
+    res2.usage_metadata?.input_token_details?.cache_read ?? 0
+  );
   const stream = await model.stream(messages);
   let agg;
   for await (const chunk of stream) {
diff --git a/libs/providers/langchain-anthropic/src/utils/message_outputs.ts b/libs/providers/langchain-anthropic/src/utils/message_outputs.ts
@@ -23,7 +23,6 @@ export function _makeMessageChunkFromAnthropicEvent(
 } | null {
   const response_metadata = { model_provider: "anthropic" };
   if (data.type === "message_start") {
-    // eslint-disable-next-line @typescript-eslint/no-unused-vars
     const { content, usage, ...additionalKwargs } = data.message;
     // eslint-disable-next-line @typescript-eslint/no-explicit-any
     const filteredAdditionalKwargs: Record<string, any> = {};
@@ -35,10 +34,16 @@ export function _makeMessageChunkFromAnthropicEvent(
     // eslint-disable-next-line @typescript-eslint/no-explicit-any
     const { input_tokens, output_tokens, ...rest }: Record<string, any> =
       usage ?? {};
+    // Total input tokens in a Claude API request is the summation of `input_tokens`, `cache_creation_input_tokens`, and `cache_read_input_tokens`.
+    // ref: https://platform.claude.com/docs/en/api/messages
+    const totalInputTokens =
+      input_tokens +
+      rest.cache_creation_input_tokens +
+      rest.cache_read_input_tokens;
     const usageMetadata: UsageMetadata = {
-      input_tokens,
+      input_tokens: totalInputTokens,
       output_tokens,
-      total_tokens: input_tokens + output_tokens,
+      total_tokens: totalInputTokens + output_tokens,
       input_token_details: {
         cache_creation: rest.cache_creation_input_tokens,
         cache_read: rest.cache_read_input_tokens,

-Original file line number
+Diff line change
@@ @@ -0,0 +1,5 @@ @@
 +---
 +"@langchain/anthropic": patch
 +---
++
 +Includes cache creation/read tokens in input_tokens of usage metadata