← 목록으로
업계동향중요도 높음 8.0

NVIDIA CEO 진슨 황, 델 기술 세계에서 '요구량이 완전히 폭발적으로 증가하고 있다'

NVIDIA CEO Jensen Huang at Dell Technologies World: “Demand Is Going Parabolic, Utterly Parabolic”

NVIDIA Blog··3분 읽기·5회 조회

핵심 요약

  • NVIDIA의 Vera Rubin NVL72는 에이전트 AI 추론을 기존 비용의 10분의 1로 처리 가능하다.
  • NVIDIA Vera 기반 에이전트 샌드박스는 전통적인 CPU 대비 50% 빠르게 실행 가능하며, 엔터프라이즈 데이터 쿼리 속도는 최대 3배 향상된다.
  • 5,000개 기업이 Dell AI Factories에서 AI 작업을 실행 중이며, Lilly, 삼성, 헤이니웰 등이 포함된다.
  • 개발자들에게는 성능 향상과 비용 절감을 위한 최신 하드웨어 솔루션에 대한 중요한 통찰을 제공한다.

심층 분석

NVIDIA가 Dell Technologies World에서 공개한 Vera Rubin NVL72는 차세대 에이전트 AI 추론을 위한 랙 스케일 시스템으로, NVLink로 72개의 Rubin GPU와 36개의 Vera CPU를 단일 도메인으로 묶어 거대 모델 추론을 토큰당 1/10 비용으로 처리하는 것이 핵심입니다. 기존 x86 CPU 기반 추론 서버는 KV 캐시 전송과 메모리 대역폭 병목이 큰 반면, Vera는 ARM 기반 커스텀 코어에 LPDDR과 NVLink-C2C 고대역 인터커넥트를 결합해 에이전트가 빈번하게 도구 호출·컨텍스트 스위칭을 수행하는 워크로드에서 50% 빠른 샌드박스 실행을, 엔터프라이즈 데이터 쿼리에서는 최대 3배 빠른 처리를 보여줍니다. Jensen Huang이 "수요가 포물선을 그리고 있다"고 한 배경에는 GPT-4급 모델이 1회 추론에 수십~수백 호출을 발생시키는 에이전트 워크플로우가 본격화되면서 추론 인프라 TCO가 학습 인프라보다 더 큰 병목이 되고 있다는 구조적 변화가 자리하고 있습니다.

엔지니어 입장에서 가장 중요한 변화는 "추론 = 단일 모델 호출"이라는 가정이 깨졌다는 점입니다. Lilly, Samsung, Honeywell 등 5,000여 엔터프라이즈가 Dell AI Factory 위에서 RAG, 에이전트 오케스트레이션, 코드 생성 파이프라인을 운영하면서, 한 요청이 LLM → 벡터 DB → 코드 실행 샌드박스 → 외부 API → 재호출로 이어지는 멀티 홉 그래프가 표준이 되고 있습니다. 이 구조에서는 GPU FLOPs보다 메모리 대역폭, 인터커넥트 지연, CPU-GPU 데이터 이동 비용이 응답 시간을 좌우하며, Vera Rubin NVL72가 강조하는 NVLink 도메인 확장과 통합 메모리가 직접적인 차별점이 됩니다. 한국 개발자에게 익숙한 H100/H200 기반 단일 노드 추론 서빙 대신, Dynamo·TensorRT-LLM·Triton 같은 분산 추론 스택을 전제로 한 아키텍처 설계가 점점 기본 요건이 되고 있다는 의미입니다.

당장 액션 아이템은 세 가지로 정리됩니다. 첫째, 자사 서비스의 추론 비용 구조를 "프롬프트 토큰 + 생성 토큰" 기준이 아닌 "에이전트 호출당 토큰 × 평균 호출 횟수"로 재계산해보고, 이 값이 의미 있게 크다면 Vera Rubin 세대 인프라(예상 출시 2026년 하반기) 도입 이후 토큰당 단가가 1/10 수준으로 떨어지는 시나리오를 사업 계획에 반영해야 합니다. 둘째, 지금 코드를 짠다면 vLLM/SGLang/TensorRT-LLM의 PagedAttention, prefix caching, speculative decoding 같은 기능을 적극 도입해 NVL72 같은 대규모 도메인에서 자연스럽게 스케일되는 형태로 설계하고, 에이전트 샌드박스도 컨테이너 기반 + gRPC 스트리밍으로 분리해 CPU 병목을 노출 가능하게 만들어두는 것이 좋습니다. 셋째, ARM 기반 Vera CPU의 부상은 x86 의존적인 빌드 파이프라인(특히 네이티브 의존성, JIT 캐시, 컨테이너 이미지)을 ARM64 멀티 아키텍처로 전환해야 한다는 신호이므로, CI에 ARM 빌드 타깃을 미리 추가해 두면 향후 마이그레이션 비용을 크게 줄일 수 있습니다.

#AI#NVIDIA#Dell#엣지 컴퓨팅#AI 인프라
원문 보기 →

관련 기사