클러스터 날린 적 있는 사람 손 들어보라. 지금 안 드는 사람은 두 부류다 — 정말 운이 좋았거나, 아직 운영 경험이 짧거나. K8s 운영 3년차쯤 되면 kubectl delete namespace를 잘못 치거나, Helm release를 통째로 날리는 경험을 하게 된다. 그 순간 머릿속에 떠오르는 단어가 딱 하나 있다.
Broadcom, CNCF에 기부하다
KubeCon EU 2026 암스테르담에서 Broadcom이 꽤 의미 있는 발표를 했다. VMware 시절부터 관리해 온 Velero를 CNCF Sandbox에 제출한 것이다. Sandbox 신청 자체는 2월에 올라갔고, KubeCon 키노트에서 공식 발표됐다.
간단히 말하면, 이 프로젝트는 쿠버네티스 클러스터의 리소스와 Persistent Volume을 백업·복원하는 오픈소스 도구다. etcd 스냅샷만으로는 안 되는 namespace 단위 복원, 스케줄 백업, 복원 전후 훅 같은 기능을 제공한다. K8s 백업 도구 중에 이만큼 오래 살아남은 게 별로 없다. Kasten K10은 Veeam 인수 후 엔터프라이즈 방향으로 갔고, Stash는 커뮤니티가 사실상 축소됐다.
벤더 중립이 바꾸는 것들
왜 이게 중요한가? 그동안 Velero의 가장 큰 약점은 기술이 아니라 거버넌스였다. "이거 결국 VMware 거 아냐?" — 도입 검토할 때마다 나오는 질문이었다. 메인테이너 대부분이 Broadcom 직원이었고, 로드맵도 그쪽 사정에 따라 움직였다.
CNCF Sandbox로 넘어오면서 달라지는 점을 구체적으로 보면:
컨트리뷰터 접근성 — 외부 기여자가 커밋 권한을 얻기 훨씬 수월해진다. 지금까지는 Broadcom 소속이 아닌 이상 코어에 손대기 어려웠다.
로드맵 공개 — CNCF 거버넌스 하에서 의사결정이 투명해진다. 특정 벤더의 상업적 이해관계에서 한 발짝 뗄 수 있다는 뜻이다.
생태계 정합성 — 며칠 전 Dragonfly가 CNCF Graduated를 달성했고, 이 백업 도구가 Sandbox에 합류하면서 CNCF 프로젝트 간 연동 가능성이 넓어진다. 특히 CSI 스냅샷 표준과의 통합이 기대된다.
장기 생존 보장 — Broadcom이 언제 관심을 끊을지 모르는 상황에서, 커뮤니티 기반으로 전환되는 건 보험 같은 거다.
물론 Sandbox는 Incubating이나 Graduated가 아니다. 초기 단계라는 뜻이고, 성숙도 검증을 통과하려면 시간이 필요하다. Dragonfly가 Sandbox에서 Graduated까지 약 4년 걸렸다.
실전에서 걸리는 부분
써본 입장에서 솔직히 말하면, 스케줄 백업 설정 자체는 간단하다.
velero schedule create daily-backup \
--schedule="0 2 * * *" \
--include-namespaces production \
--snapshot-volumes=true
한 줄이면 된다. 문제는 복원할 때 터진다.
PV가 CSI 기반이면 볼륨 스냅샷이랑 잘 물린다. 근데 레거시 NFS나 hostPath 쓰는 환경에서는 Restic이나 Kopia 백엔드를 따로 붙여야 하고, 이 과정에서 삽질한 기억이 있는 사람 꽤 있을 거다. 특히 Restic에서 Kopia로 마이그레이션하는 과정이 문서화가 부족해서, 프로덕션에서 돌리기 전에 반드시 staging에서 테스트해야 한다.
그리고 하나 더 — 복원 테스트를 정기적으로 돌리는 팀이 얼마나 될까? 백업은 해놓고 복원 테스트 안 하는 건, 보험 들어놓고 약관 안 읽는 거랑 같다. velero restore를 staging 클러스터에서 주기적으로 돌려보는 게 중요한데, 내 경험상 이걸 자동화해 놓은 팀은 열에 둘도 안 된다.
Broadcom은 왜 내놨을까
냉소적으로 보면, VMware 인수 후 비핵심 오픈소스를 정리하는 흐름의 일환이다. Spring 라이선스 변경, 무료 제품 축소 — 패턴이 보인다. 유지보수 비용 대비 수익이 안 나온다고 판단했을 가능성이 크다.
근데 그게 꼭 나쁜 건 아니다. 한 기업이 흥미를 잃은 프로젝트가 커뮤니티로 넘어오면 오히려 더 건강해지는 사례를 우리는 이미 봤다. containerd가 Docker에서 CNCF로 갔을 때 어떻게 됐는지 생각해 보라.
etcd 스냅샷으로 충분하다고?
팀 리드가 "etcd 스냅샷이면 되지 않냐"고 하면, 한 가지만 물어보라. "특정 namespace만 복원해야 하면 어떻게 할 건가요?" etcd 스냅샷은 전체 복원이다. 올 오어 낫싱. 멀티테넌트 클러스터에서 한 팀의 실수 때문에 전체를 롤백할 수는 없다.
이 프로젝트가 CNCF로 넘어온 지금이 도입을 검토하기 좋은 타이밍이다. 이미 쓰고 있다면 업스트림 거버넌스 변화를 지켜보면 되고, 아직 안 쓰고 있다면 — 백업 없이 프로덕션 돌리면서 잠이 오는지 한번 자문해 보시라.