신클라우드 선구자 코어위브, 추론에 집중
Neocloud Pioneer CoreWeave All In on Inference
핵심 요약
- ▸코어위브는 GPU-as-a-service 업체로 성공을 거두며, 다시 한 번 진화하고 있다.
- ▸추론 기능에 집중하여, AI 모델의 실행 및 성능 최적화를 지원한다.
- ▸이번 전략은 클라우드 컴퓨팅과 AI 기술의 결합을 강조한다.
- ▸추론 최적화는 AI 모델의 성능과 효율성에 직접적인 영향을 미친다.
심층 분석
CoreWeave는 원래 GPU-as-a-Service(GPUaaS) 사업자로 시작해, NVIDIA H100·H200·B200 같은 최신 가속기를 대규모로 확보하고 이를 쿠버네티스 기반 베어메탈 클러스터 위에서 컨테이너화된 워크로드로 제공하는 "네오클라우드(Neocloud)" 모델의 선두주자였습니다. 전통적인 하이퍼스케일러(AWS·Azure·GCP)가 범용 워크로드에 맞춰 설계된 것과 달리, CoreWeave는 InfiniBand 기반 RDMA 네트워킹, NVLink/NVSwitch 토폴로지, GPU 최적화 스토리지(VAST·WEKA 등)에 특화해 학습(Training) 클러스터의 성능을 극대화하는 방식으로 차별화했습니다. 이번 "All In on Inference" 전환은 이런 인프라를 추론(Inference) 서비스로 확장한다는 의미로, TensorRT-LLM, vLLM, NVIDIA Dynamo/NIM 같은 추론 최적화 스택과 함께 KV-cache 재사용, continuous batching, speculative decoding 등의 기법을 프로덕션 규모로 제공하는 방향으로 플랫폼을 재편하고 있습니다.
실무 개발자 입장에서 이 변화가 중요한 이유는 LLM 서비스의 비용 구조가 근본적으로 바뀌고 있기 때문입니다. 모델을 한 번 학습시키는 비용보다, 매일 수백만 건의 요청을 처리하는 추론 비용이 장기적으로 훨씬 커지는데, 기존 하이퍼스케일러의 범용 GPU 인스턴스는 토큰당 비용(cost per token)과 지연시간(TTFT·ITL) 측면에서 비효율이 많습니다. CoreWeave처럼 추론 전용으로 튜닝된 네오클라우드는 GPU 활용률을 90%대까지 끌어올리고, 멀티테넌트 환경에서도 disaggregated prefill/decode 아키텍처를 통해 긴 컨텍스트 요청과 짧은 응답 요청을 분리 처리합니다. 한국 개발자 입장에서는 OpenAI·Anthropic API를 직접 쓰는 대신, 오픈소스 모델(Llama 4, Qwen3, DeepSeek-V3 등)을 이런 추론 전용 클라우드에 배포해 도메인 특화 서비스를 더 저렴하게 운영할 수 있는 선택지가 넓어진다는 뜻입니다.
주니어/시니어 엔지니어 모두가 주목할 점은 "추론 인프라 엔지니어링"이라는 새로운 직무 영역이 빠르게 부상하고 있다는 것입니다. 단순히 HuggingFace에서 모델을 받아 API로 띄우는 수준을 넘어, 요청 트래픽 패턴에 맞춘 오토스케일링, PagedAttention 기반 메모리 관리, LoRA 어댑터 동적 스왑, 멀티 모델 라우팅, 그리고 Prometheus/Grafana 기반 GPU 메트릭 모니터링까지 다룰 수 있어야 경쟁력이 생깁니다. 또한 CoreWeave의 움직임은 AWS Bedrock, Azure AI Foundry, GCP Vertex AI 같은 기존 플랫폼들도 추론 최적화 경쟁에 본격 뛰어들게 만들 것이므로, 특정 벤더에 락인되지 않도록 OpenAI-compatible API 스펙을 준수한 추상화 레이어(LiteLLM, OpenRouter 패턴)를 미리 설계해두는 것이 현명합니다.
당장 행동할 수 있는 것은 세 가지입니다. 첫째, 자사 AI 서비스의 추론 비용을 실제로 측정해보고(토큰당 원가, P50/P99 레이턴시, GPU 시간당 처리량), 하이퍼스케일러 대비 네오클라우드의 가격표와 비교해보세요. 둘째, vLLM이나 SGLang 같은 오픈소스 추론 엔진을 로컬에서라도 띄워서 continuous batching과 prefix caching의 효과를 직접 체감해보는 것이 향후 인프라 의사결정에 큰 도움이 됩니다. 셋째, 한국 내 NHN클라우드·KT클라우드·네이버클라우드도 GPU 전용 상품을 확장 중이므로, 데이터 주권·레이턴시 요구사항이 있는 프로젝트라면 글로벌 네오클라우드와 국내 GPU 클라우드를 하이브리드로 조합하는 아키텍처를 검토할 시점입니다.