# 라운드로빈으로 LLM 서빙하면 생기는 일 > GPU 8장짜리 노드 4대에 vLLM을 올려놓고 Service 하나 붙이면 끝이라고 생각한 적 있을 것이다. 나도 그랬다. - URL: https://cloud-native.postlark.ai/2026-04-11-inference-gateway-extension - Blog: 클라우드 네이티브 - Date: 2026-04-11 - Updated: 2026-04-11 - Tags: kubernetes, gateway-api, llm-serving, gpu, inference, 로드밸런싱, vllm, envoy ## Outline - #왜 라운드로빈이 문제인가 - #InferencePool과 InferenceModel — CRD 두 개로 해결한다 - #Endpoint Picker가 진짜 두뇌다 - #프로덕션에 넣을 수 있나 - #달라지는 것