BBR multi lora guide (#1940)

davidbreitgand · shmuelk · web-flow · commit 4fcc24f69123 · 2025-12-10T16:11:36.000-08:00
* Extending serving multiple AI models guide with an example of how to serve multiple LoRAs (many LoRAs per one model while having multiple models) * Changes to PR to address feedback of the reviewers * Address review comments from PR #1859: -- The BBR guide is aligned with Getting Started (Main/Latest) -- There are only two models deployed, with the second one being a simulator -- Formatting issues and style fixed -- Typos and dangling sentences fixed -- The LoRA names are completely different -- The Routing example simplified: one HTTPRoute with matchers * Adds missing Kgateway and Nginx tabs for the second EPP model deployment * fixes formatting typos * Update config/manifests/vllm/sim-deployment-1.yaml Co-authored-by: Shmuel Kallner <kallner@il.ibm.com> * Update site-src/guides/serve-multiple-genai-models.md Co-authored-by: Shmuel Kallner <kallner@il.ibm.com> * Update site-src/guides/serve-multiple-genai-models.md Co-authored-by: Shmuel Kallner <kallner@il.ibm.com> * Update site-src/guides/serve-multiple-genai-models.md Co-authored-by: Shmuel Kallner <kallner@il.ibm.com> * Update site-src/guides/serve-multiple-genai-models.md Co-authored-by: Shmuel Kallner <kallner@il.ibm.com> * Update site-src/guides/serve-multiple-genai-models.md Co-authored-by: Shmuel Kallner <kallner@il.ibm.com> * Addressing reviewer (shmuelk) comment to include an explicit setting of PORT and IP when trying out multiple LLM setup --------- Co-authored-by: Shmuel Kallner <kallner@il.ibm.com>
diff --git a/config/manifests/bbr-example/httproute_bbr_lora.yaml b/config/manifests/bbr-example/httproute_bbr_lora.yaml
@@ -0,0 +1,71 @@
+apiVersion: gateway.networking.k8s.io/v1
+kind: HTTPRoute
+metadata:
+  name: llm-llama-route
+spec:
+  parentRefs:
+  - group: gateway.networking.k8s.io
+    kind: Gateway
+    name: inference-gateway
+  rules:
+  - backendRefs:
+    - group: inference.networking.k8s.io
+      kind: InferencePool
+      name: vllm-llama3-8b-instruct
+    matches:
+    - path:
+        type: PathPrefix
+        value: /
+      headers:
+        - type: Exact
+          name: X-Gateway-Model-Name 
+          value: 'meta-llama/Llama-3.1-8B-Instruct'
+    - path:
+        type: PathPrefix
+        value: /
+      headers:
+        - type: Exact
+          name: X-Gateway-Model-Name
+          value: 'food-review-1'  
+    timeouts:
+      request: 300s
+---   
+apiVersion: gateway.networking.k8s.io/v1
+kind: HTTPRoute
+metadata:
+  name: llm-deepseek-route #give this HTTPRoute any name that helps you to group and track the matchers
+spec:
+  parentRefs:
+  - group: gateway.networking.k8s.io
+    kind: Gateway
+    name: inference-gateway
+  rules:
+  - backendRefs:
+    - group: inference.networking.k8s.io
+      kind: InferencePool
+      name: vllm-deepseek-r1
+    matches:
+    - path:
+        type: PathPrefix
+        value: /
+      headers:
+        - type: Exact
+          name: X-Gateway-Model-Name
+          value: 'deepseek/vllm-deepseek-r1'
+    - path:
+        type: PathPrefix
+        value: /
+      headers:
+        - type: Exact
+          name: X-Gateway-Model-Name
+          value: 'ski-resorts'
+    - path:
+        type: PathPrefix
+        value: /
+      headers:
+        - type: Exact
+          name: X-Gateway-Model-Name
+          value: 'movie-critique'
+    timeouts:
+      request: 300s
+---
diff --git a/config/manifests/vllm/sim-deployment-1.yaml b/config/manifests/vllm/sim-deployment-1.yaml
@@ -0,0 +1,44 @@
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: vllm-deepseek-r1
+spec:
+  replicas: 1 
+  selector:
+    matchLabels:
+      app: vllm-deepseek-r1
+  template:
+    metadata:
+      labels:
+        app: vllm-deepseek-r1
+    spec:
+      containers:
+      - name: vllm-sim
+        image: ghcr.io/llm-d/llm-d-inference-sim:v0.6.1
+        imagePullPolicy: Always
+        args:
+        - --model
+        - deepseek/vllm-deepseek-r1
+        - --port
+        - "8000"
+        - --max-loras
+        - "2"
+        - --lora-modules
+        - '{"name": "ski-resorts"}'
+        - '{"name": "movie-critique"}'
+        env:
+        - name: POD_NAME
+          valueFrom:
+            fieldRef:
+              fieldPath: metadata.name
+        - name: NAMESPACE
+          valueFrom:
+            fieldRef:
+              fieldPath: metadata.namespace
+        ports:
+        - containerPort: 8000
+          name: http
+          protocol: TCP
+        resources:
+          requests:
+            cpu: 10m
diff --git a/site-src/guides/serve-multiple-genai-models.md b/site-src/guides/serve-multiple-genai-models.md