← 목록으로
업계동향중요도 높음 8.0

ML 작업용 EC2 Capacity Blocks로 단기 GPU 용량 보장하기

Secure short-term GPU capacity for ML workloads with EC2 Capacity Blocks for ML and SageMaker training plans

AWS Machine Learning Blog··3분 읽기·5회 조회

핵심 요약

  • Amazon EC2 Capacity Blocks를 사용하여 단기 GPU 용량을 예약해 ML 작업을 안정적으로 수행할 수 있습니다.
  • 이 방법은 로드 테스트, 모델 검증, 시간 제한된 워크숍 및 출시 전 추론 용량 준비에 유용합니다.
  • GPU 가용성 문제를 해결하고, 작업의 예측 가능성을 높입니다.
  • 개발자들은 작업의 예측 가능성을 높이고, 리소스 관리 효율성을 개선할 수 있습니다.

심층 분석

Amazon EC2 Capacity Blocks for ML과 SageMaker training plans는 GPU 자원이 만성적으로 부족한 클라우드 환경에서 단기 ML 워크로드를 위한 GPU 확보를 보장해주는 예약 기반 서비스다. EC2 Capacity Blocks는 미래의 특정 시점부터 1~14일(또는 일부 인스턴스의 경우 최대 6개월) 동안 P5, P4d, H100/H200 같은 고성능 GPU 클러스터를 미리 예약할 수 있게 해주며, 동일 네트워크 스파인에 위치한 인스턴스를 묶어 EFA(Elastic Fabric Adapter) 기반의 저지연 통신을 보장한다. SageMaker training plans는 한 단계 추상화를 더해, 사용자가 "언제까지 몇 GPU 시간이 필요하다"고 선언하면 SageMaker가 가용한 Capacity Block들을 조합해 자동으로 학습 작업을 큐잉하고 실행하는 구조다. 두 서비스 모두 온디맨드와 달리 시작 시점이 미리 확정되며, 가격은 예약 시점에 고정된다.

실무 관점에서 이 기능들은 "GPU가 갑자기 필요한데 InsufficientCapacityError로 인스턴스를 못 띄우는" 상황을 해결한다. 모델 출시 직전 부하 테스트, 한정된 기간의 사내 워크샵, 새 모델 학습/파인튜닝, 출시 전 추론 capacity 사전 확보 같은 시나리오에서 특히 가치가 크다. 기존에는 Savings Plans나 Reserved Instances로 1~3년 단위 약정을 해야 GPU를 안정적으로 잡을 수 있었지만, 이제 며칠~몇 주 단위로 필요한 만큼만 예약 가능해 자본 지출 부담 없이 단기 프로젝트를 계획할 수 있다. 다만 가용 시점이 항상 "지금"이 아니라 며칠 뒤일 수 있으며, 예약한 기간은 사용 여부와 무관하게 과금된다는 점이 중요한 트레이드오프다.

개발자가 실질적으로 챙겨야 할 부분은 세 가지다. 첫째, GPU 종류와 클러스터 크기(예: 8 GPU 단위, 16/32/64 인스턴스)별로 가용성과 가격이 크게 다르므로 워크로드의 통신 패턴에 맞춰 EFA 토폴로지까지 고려해 예약해야 한다. 둘째, 예약 시간이 시작되면 자동으로 인스턴스가 launch되므로 AMI, 컨테이너 이미지, 데이터셋, 체크포인트 경로(S3/FSx for Lustre)를 사전에 준비해두어야 비싼 GPU 시간이 환경 세팅으로 낭비되지 않는다. SageMaker training plans를 쓴다면 학습 스크립트가 중간 중단 후 재개(checkpoint resume)에 견고한지도 확인해야 한다. 셋째, 비용 거버넌스 측면에서 Capacity Block은 환불/취소가 사실상 불가능하기 때문에, 팀 단위 GPU 사용을 IAM 정책과 태그 기반 비용 분배로 통제하고 예약 전에 워크로드 ROI를 검증하는 프로세스를 만들어두는 것이 좋다. 한국 엔지니어가 사용할 경우 us-east, us-west 등 GPU 공급이 풍부한 리전과 ap-northeast-2(서울) 간 가용성 격차도 사전 조사 항목에 포함시켜야 한다.

#AWS#EC2#GPU#ML#SageMaker
원문 보기 →

관련 기사