perf: optimize LlamaModel.metadata reading performance

JamePeng · JamePeng · commit 8213c19b0e16 · 2025-12-05T23:12:21.000+08:00
- Increase initial buffer size to 16KB to eliminate re-allocations for large chat templates.
- Cache ctypes function references to reduce loop overhead.
- Repeated model loading can result in a cumulative speed improvement of 1-3%.

Signed-off-by: JamePeng &lt;jame_peng@sina.com&gt;
diff --git a/llama_cpp/_internals.py b/llama_cpp/_internals.py
@@ -225,32 +225,38 @@ def detokenize(self, tokens: List[int], special: bool = False) -> bytes:
     # Extra
     def metadata(self) -> Dict[str, str]:
         metadata: Dict[str, str] = {}
-        buffer_size = 1024
+        # Pre-allocate a 16KB buffer. This is large enough to handle almost all
+        # metadata values (including gpt-oss large chat templates ~15KB) in a single pass,
+        # eliminating the need for resize-and-retry in most cases.
+        buffer_size = 16384
         buffer = ctypes.create_string_buffer(buffer_size)
-        # zero the buffer
-        buffer.value = b"\0" * buffer_size
+
+        # Caching function references reduces the overhead of property lookups within loops.
+        get_key_by_index = llama_cpp.llama_model_meta_key_by_index
+        get_val_by_index = llama_cpp.llama_model_meta_val_str_by_index
+        metadata_count = llama_cpp.llama_model_meta_count(self.model)
         # iterate over model keys
-        for i in range(llama_cpp.llama_model_meta_count(self.model)):
-            nbytes = llama_cpp.llama_model_meta_key_by_index(
-                self.model, i, buffer, buffer_size
-            )
+        for i in range(metadata_count):
+            # 1. Get Key
+            nbytes = get_key_by_index(self.model, i, buffer, buffer_size)
+            # Handle buffer resize if the key exceeds current size
             if nbytes > buffer_size:
-                buffer_size = nbytes + 1
+                buffer_size = nbytes + 1024
                 buffer = ctypes.create_string_buffer(buffer_size)
-                nbytes = llama_cpp.llama_model_meta_key_by_index(
-                    self.model, i, buffer, buffer_size
-                )
+                # Retry with the larger buffer
+                nbytes = get_key_by_index(self.model, i, buffer, buffer_size)
             key = buffer.value.decode("utf-8")
-            nbytes = llama_cpp.llama_model_meta_val_str_by_index(
-                self.model, i, buffer, buffer_size
-            )
+
+            # 2. Get Value
+            nbytes = get_val_by_index(self.model, i, buffer, buffer_size)
+            # Handle buffer resize if the value exceeds current size
             if nbytes > buffer_size:
-                buffer_size = nbytes + 1
+                buffer_size = nbytes + 1024
                 buffer = ctypes.create_string_buffer(buffer_size)
-                nbytes = llama_cpp.llama_model_meta_val_str_by_index(
-                    self.model, i, buffer, buffer_size
-                )
+                # Retry with the larger buffer
+                nbytes = get_val_by_index(self.model, i, buffer, buffer_size)
             value = buffer.value.decode("utf-8")
+
             metadata[key] = value
         return metadata