fix(lora): update serving engine for LoRA integration

MagellaX · MagellaX · commit 56b5dfc012d3 · 2025-07-05T13:54:08.000+05:30
diff --git a/python/mlc_llm/serve/engine.py b/python/mlc_llm/serve/engine.py
@@ -6,6 +6,7 @@
 import queue
 import sys
 import weakref
+from pathlib import Path
 from typing import (
     Any,
     AsyncGenerator,
@@ -21,6 +22,7 @@
 
 from tvm.runtime import Device
 
+from mlc_llm.lora import upload_lora
 from mlc_llm.protocol import debug_protocol, openai_api_protocol
 from mlc_llm.protocol.generation_config import GenerationConfig
 from mlc_llm.serve import data, engine_utils
@@ -903,8 +905,6 @@ def __init__(  # pylint: disable=too-many-arguments,too-many-locals
         )
         self.chat = AsyncChat(weakref.ref(self))
         self.completions = AsyncCompletion(weakref.ref(self))
-<<<<<<< Updated upstream
-=======
         # Upload LoRA adapters – two modes:
         # 1. Separate artifacts recorded in metadata (preferred).
         # 2. Explicit list from engine_config (legacy / tests).
@@ -921,7 +921,6 @@ def __init__(  # pylint: disable=too-many-arguments,too-many-locals
         else:
             for d in getattr(engine_config, "lora_dirs", []):
                 upload_lora(d, device=self.device)
->>>>>>> Stashed changes
 
     async def abort(self, request_id: str) -> None:
         """Generation abortion interface.
@@ -1493,8 +1492,6 @@ def __init__(  # pylint: disable=too-many-arguments,too-many-locals
         )
         self.chat = Chat(weakref.ref(self))
         self.completions = Completion(weakref.ref(self))
-<<<<<<< Updated upstream
-=======
         # Upload LoRA adapters – two modes:
         # 1. Separate artifacts recorded in metadata (preferred).
         # 2. Explicit list from engine_config (legacy / tests).
@@ -1511,7 +1508,6 @@ def __init__(  # pylint: disable=too-many-arguments,too-many-locals
         else:
             for d in getattr(engine_config, "lora_dirs", []):
                 upload_lora(d, device=self.device)
->>>>>>> Stashed changes
 
     def abort(self, request_id: str) -> None:
         """Generation abortion interface.