업계동향중요도 높음 8.0

버라 도착: NVIDIA의 첫 번째 에이전트용 CPU, 세계 최고 AI 연구소에 도착

Vera Arrives: NVIDIA’s First CPU Built for Agents Lands at Top AI Labs

NVIDIA Blog·2026년 5월 19일 AM 06:48·약 3분 읽기·5회 조회

핵심 요약

▸NVIDIA의 첫 번째 CPU인 버라는 주요 AI 연구소인 앤티크로프, 오픈AI, 스페이스XAI에 도착했습니다.
▸버라는 오라클 클라우드 인프라스트럭처에도 공급되었습니다.
▸NVIDIA의 이사인 이언 빙은 직접 CPU를 전달했습니다.
▸이번 발전은 AI 에이전트의 성능을 크게 향상시킬 수 있는 새로운 하드웨어의 출현을 의미합니다.

심층 분석

NVIDIA Vera는 차세대 Vera Rubin 플랫폼의 CPU 구성요소로, 기존 Grace CPU의 후속작이다. Arm Neoverse 기반의 커스텀 코어를 채택해 88개의 코어와 176스레드를 제공할 것으로 알려졌으며, NVLink-C2C를 통해 Rubin GPU와 1.8TB/s의 초고대역폭으로 직접 연결되는 것이 핵심 특징이다. 기존 x86 기반 호스트 CPU가 PCIe로 GPU와 통신하면서 발생하던 병목과 메모리 복사 오버헤드를 제거하고, CPU-GPU 간 통합 메모리 공간(coherent memory)을 제공해 에이전트 워크로드에서 빈번하게 발생하는 컨텍스트 스위칭, 도구 호출, KV 캐시 관리를 훨씬 효율적으로 처리할 수 있도록 설계됐다. 단순한 LLM 추론을 넘어 다단계 추론(multi-step reasoning), 장기 메모리 유지, 다중 도구 오케스트레이션 같은 "에이전트" 특유의 패턴이 CPU-GPU 간 트래픽을 폭증시키는 현실을 반영한 아키텍처다.

개발자 입장에서 가장 큰 변화는 추론 시 발생하는 호스트 측 오버헤드가 급격히 줄어든다는 점이다. 현재 GPT-5, Claude 4.x, Grok 같은 프론티어 모델을 에이전트로 운용할 때 대부분의 지연 시간은 GPU 연산 자체가 아니라 토큰 디코딩 사이의 호스트 처리, 도구 실행 결과의 GPU 메모리 재적재, KV 캐시 페이징에서 발생한다. Vera-Rubin 조합은 이 호스트 측 작업을 GPU와 같은 메모리 풀에서 직접 처리할 수 있게 해주므로, 동일한 모델이라도 에이전트 워크로드에서 TTFT(Time To First Token)와 TPS(Tokens Per Second)가 크게 개선될 가능성이 높다. Anthropic, OpenAI, xAI에 최우선 공급된 것은 이들이 차세대 에이전트 모델 학습과 추론 인프라를 가장 공격적으로 확장하고 있기 때문이며, Oracle OCI 공급은 클라우드를 통해 일반 개발자에게도 비교적 빠르게 접근 가능해질 것임을 시사한다.

실무 관점에서 한국 개발자가 당장 챙겨야 할 포인트는 두 가지다. 첫째, Vera는 Arm 아키텍처 기반이므로 자체 추론 서버나 파인튜닝 파이프라인을 운영 중이라면 컨테이너 이미지, CUDA 라이브러리, vLLM/TensorRT-LLM 등 추론 엔진의 arm64 호환성을 미리 점검해야 한다. 이미 Grace Hopper(GH200)에서 동일한 이슈가 있었기 때문에, Arm64 빌드 파이프라인을 갖춰두지 않은 팀은 GPU 인프라가 도착해도 즉시 활용하지 못하는 사례가 반복될 수 있다. 둘째, Vera-Rubin이 본격 보급되면 "에이전트 친화적" 추론 최적화 기법 — 예를 들어 prefix caching, speculative decoding, disaggregated serving(prefill/decode 분리) — 의 효과가 기존 H100/H200 대비 더 크게 차이 날 수 있다. 따라서 자사 서비스의 추론 스택이 단순한 단발성 completion에 최적화돼 있다면, 멀티턴 도구 호출과 긴 컨텍스트를 가정한 아키텍처로의 재설계를 검토할 시점이다. OCI를 시작으로 AWS, Azure, GCP가 Vera-Rubin 인스턴스를 출시할 2026년 하반기를 대비해, 비용 모델 재산정과 워크로드 프로파일링을 지금부터 준비해두는 것이 합리적이다.

#NVIDIA#AI 에이전트#CPU#하드웨어#AI 연구소

원문 보기 →

버라 도착: NVIDIA의 첫 번째 에이전트용 CPU, 세계 최고 AI 연구소에 도착

핵심 요약

심층 분석

관련 기사