아마존 사가메이커 AI에서 G7e 인스턴스로 생성형 AI 추론 가속화
Accelerate Generative AI Inference on Amazon SageMaker AI with G7e Instances
핵심 요약
- ▸NVIDIA RTX PRO 6000 Blackwell 서버 에디션 GPU를 기반으로 한 G7e 인스턴스가 아마존 사가메이커 AI에서 제공됩니다.
- ▸G7e 인스턴스는 1, 2, 4, 8개의 RTX PRO 6000 GPU를 지원하며, 각 GPU는 96GB의 GDDR7 메모리를 제공합니다.
- ▸GPT-OSS-120B, Nemotron-3-Super-120B-A12B(NVFP4 변형), Qwen3.5-35B-A3B와 같은 대규모 오픈소스 기반 모델을 단일 노드에서 호스팅할 수 있습니다.
- ▸개발자에게는 고성능과 비용 효율성을 동시에 제공하는 새로운 인스턴스 옵션을 제공합니다.
심층 분석
AWS가 SageMaker AI 플랫폼에 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU 기반의 G7e 인스턴스를 추가했다. 이 인스턴스는 1·2·4·8 GPU 구성으로 제공되며, 각 GPU당 96GB GDDR7 메모리를 탑재해 단일 노드에서 최대 768GB의 GPU 메모리를 활용할 수 있다. Blackwell 아키텍처는 5세대 Tensor Core와 FP4 연산을 지원해 트랜스포머 추론 효율을 크게 끌어올리는데, 특히 NVFP4 양자화 포맷은 FP8 대비 메모리 사용량을 절반으로 줄이면서도 정확도 손실을 최소화한다. 이 덕분에 기존에는 멀티노드 H100/A100 클러스터가 필요했던 120B급 MoE 모델(GPT-OSS-120B, Nemotron-3-Super-120B-A12B)을 단일 G7e.2xlarge 노드에서 호스팅할 수 있게 되었고, 네트워크 병목 없이 지연 시간과 운영 복잡도를 동시에 낮출 수 있다.
실무 관점에서 가장 큰 변화는 "단일 노드 LLM 서빙"의 기준선이 한 단계 올라갔다는 점이다. 지금까지 100B+ 파라미터 모델을 자체 배포하려면 p4d/p5 계열의 고가 멀티GPU 인스턴스와 텐서 병렬·파이프라인 병렬 설정이 필수였지만, G7e는 단일 노드 vLLM/TensorRT-LLM 구성만으로도 이를 수용한다. 이는 스타트업이나 사내 AI 플랫폼 팀이 OpenAI/Anthropic API 의존도를 낮추고 온프레미스 수준의 데이터 통제를 유지하면서 자체 모델을 운영할 수 있는 현실적 옵션이 생겼다는 의미다. 또한 Qwen3.5-35B-A3B 같은 MoE 모델을 활용하면 활성 파라미터는 작지만 전체 모델은 크게 유지할 수 있어, 처리량과 품질 사이의 균형을 더 세밀하게 조정할 수 있다.
한국 개발자 입장에서는 몇 가지 실질적 액션 포인트를 고려해볼 만하다. 첫째, 기존에 p4d/p5 기반으로 서빙 중인 워크로드가 있다면 G7e로의 마이그레이션 시 비용-성능 재측정이 필요하다. Blackwell의 FP4 지원을 제대로 활용하려면 TensorRT-LLM 최신 버전이나 vLLM 0.6+ 환경에서 NVFP4 체크포인트를 사용해야 하며, 일반 FP16 가중치로는 하드웨어 이점을 충분히 살리지 못한다. 둘째, SageMaker 엔드포인트 형태로 제공되므로 오토스케일링·모델 샤딩·A/B 테스트 같은 운영 기능을 그대로 쓸 수 있지만, 서울 리전(ap-northeast-2) 출시 여부와 쿼터는 별도로 확인해야 한다. 셋째, RAG·에이전트 파이프라인을 설계 중이라면 120B급 모델의 단일 노드 호스팅이 가능해졌다는 점을 전제로, 프롬프트 캐싱·KV 캐시 재사용 전략을 다시 설계해 TTFT(첫 토큰 지연)를 최적화하는 것이 장기적인 경쟁력이 될 것이다.