🤖 fix: handle Google/Gemini cached token subtraction

ethanndickson · ethanndickson · commit 9284cba49f1e · 2025-12-02T13:39:07.000+11:00
Google/Gemini, like OpenAI, reports inputTokens INCLUSIVE of
cachedInputTokens. Extend the subtraction logic to also handle
Google models to avoid double-counting cached tokens.
diff --git a/src/common/utils/tokens/displayUsage.test.ts b/src/common/utils/tokens/displayUsage.test.ts
@@ -209,6 +209,39 @@ describe("createDisplayUsage", () => {
       // Input stays as-is for gateway Anthropic
       expect(result!.input.tokens).toBe(36600);
     });
+
+    test("subtracts cached tokens for direct Google model", () => {
+      // Google also reports inputTokens INCLUSIVE of cachedInputTokens
+      const googleUsage: LanguageModelV2Usage = {
+        inputTokens: 74300, // Includes 42600 cached
+        outputTokens: 1600,
+        totalTokens: 75900,
+        cachedInputTokens: 42600,
+      };
+
+      const result = createDisplayUsage(googleUsage, "google:gemini-3-pro-preview");
+
+      expect(result).toBeDefined();
+      expect(result!.cached.tokens).toBe(42600);
+      // Input should be raw minus cached: 74300 - 42600 = 31700
+      expect(result!.input.tokens).toBe(31700);
+    });
+
+    test("subtracts cached tokens for gateway Google model", () => {
+      const googleUsage: LanguageModelV2Usage = {
+        inputTokens: 74300,
+        outputTokens: 1600,
+        totalTokens: 75900,
+        cachedInputTokens: 42600,
+      };
+
+      const result = createDisplayUsage(googleUsage, "mux-gateway:google/gemini-3-pro-preview");
+
+      expect(result).toBeDefined();
+      expect(result!.cached.tokens).toBe(42600);
+      // Should also subtract: 74300 - 42600 = 31700
+      expect(result!.input.tokens).toBe(31700);
+    });
   });
 
   test("returns undefined for undefined usage", () => {
diff --git a/src/common/utils/tokens/displayUsage.ts b/src/common/utils/tokens/displayUsage.ts
@@ -36,9 +36,13 @@ export function createDisplayUsage(
 
   // Detect provider from normalized model string
   const isOpenAI = normalizedModel.startsWith("openai:");
+  const isGoogle = normalizedModel.startsWith("google:");
 
-  // For OpenAI, subtract cached tokens to get uncached input tokens
-  const inputTokens = isOpenAI ? Math.max(0, rawInputTokens - cachedTokens) : rawInputTokens;
+  // OpenAI and Google report inputTokens INCLUSIVE of cachedInputTokens
+  // Anthropic reports them separately (inputTokens EXCLUDES cached)
+  // Subtract cached tokens for providers that include them to avoid double-counting
+  const inputTokens =
+    isOpenAI || isGoogle ? Math.max(0, rawInputTokens - cachedTokens) : rawInputTokens;
 
   // Extract cache creation tokens from provider metadata (Anthropic-specific)
   const cacheCreateTokens =