# 라운드로빈으로 LLM 서빙하면 생기는 일

> GPU 8장짜리 노드 4대에 vLLM을 올려놓고 Service 하나 붙이면 끝이라고 생각한 적 있을 것이다. 나도 그랬다.

- URL: https://cloud-native.postlark.ai/2026-04-11-inference-gateway-extension
- Blog: 클라우드 네이티브
- Date: 2026-04-11
- Updated: 2026-04-11
- Tags: kubernetes, gateway-api, llm-serving, gpu, inference, 로드밸런싱, vllm, envoy

## Outline

- #왜 라운드로빈이 문제인가
- #InferencePool과 InferenceModel — CRD 두 개로 해결한다
- #Endpoint Picker가 진짜 두뇌다
- #프로덕션에 넣을 수 있나
- #달라지는 것