← 목록으로
업계동향중요도 높음 8.0

Amazon SageMaker Feature Store에서 ML 특징 파이프라인 가속화를 위한 새 기능

Accelerate ML feature pipelines with new capabilities in Amazon SageMaker Feature Store

AWS Machine Learning Blog··4분 읽기·5회 조회

핵심 요약

  • SageMaker Python SDK v3.8.0에서 세 가지 새로운 기능이 발표되었습니다.
  • 각 기능에 대한 코드 예제와 함께 설명이 제공되었습니다.
  • 완전한 엔드-to-엔드 튜토리얼은 SageMaker Python SDK 저장소의 노트북에서 확인할 수 있습니다.
  • 이 기능은 ML 파이프라인의 효율성과 관리성을 개선하여 개발자에게 더 나은 개발 환경을 제공합니다.

심층 분석

Amazon SageMaker Feature Store는 ML 모델 학습과 추론에 사용되는 피처(feature)를 중앙에서 관리·공유하는 저장소로, 이번 SageMaker Python SDK v3.8.0 업데이트에서는 피처 파이프라인 가속화를 위한 세 가지 핵심 기능이 추가되었다. 주요 변경점은 (1) AWS Lake Formation 기반의 세분화된 거버넌스 통합, (2) Apache Iceberg 테이블 속성 직접 제어, (3) SDK 레벨에서의 파이프라인 구성 단순화로 요약된다. Iceberg는 대규모 분석 테이블에 ACID 트랜잭션·스키마 진화·타임 트래블을 제공하는 오픈 테이블 포맷이며, Feature Store의 오프라인 스토어가 이를 백엔드로 사용함으로써 컴팩션(compaction), 파티셔닝, 스냅샷 보존 정책 같은 저수준 속성까지 Python 코드로 선언적으로 제어할 수 있게 된다. Lake Formation 연동은 IAM 역할 단위가 아닌 컬럼·행 단위 권한 부여를 지원해 동일 피처 그룹을 여러 팀이 다른 권한 범위로 공유할 수 있도록 한다.

실무 관점에서 이 업데이트의 의미는 "피처 엔지니어링이 데이터 엔지니어링 영역으로 한 단계 더 흡수된다"는 점이다. 그동안 ML 엔지니어는 Feature Store에 데이터를 넣은 뒤 성능 튜닝(작은 파일 병합, 파티션 재구성 등)을 위해 별도로 Glue나 EMR에서 Iceberg 유지보수 작업을 돌려야 했는데, 이제는 피처 그룹 정의 시점에 `table_format_version`, `compaction` 정책 등을 SDK 인자로 함께 선언할 수 있어 운영 부담이 줄어든다. 또한 Lake Formation 거버넌스가 SDK 레벨에서 일급(first-class)으로 노출되면서, 사내 데이터 거버넌스 정책을 코드 리뷰 대상에 포함시키는 GitOps 스타일 워크플로가 현실적으로 가능해진다. 한국 환경에서도 금융권·공공 분야처럼 PII 컬럼을 마스킹해 ML팀에 제공해야 하는 경우, 별도 ETL을 두지 않고 피처 그룹 자체에 권한을 묶을 수 있어 파이프라인이 단순해진다.

엔지니어가 실제로 점검할 부분은 세 가지다. 첫째, 현재 사용 중인 SageMaker Python SDK 버전이 3.8.0 미만이라면 의존성 충돌(특히 boto3·pandas·pyarrow 버전)을 확인하고 업그레이드 계획을 세워야 한다. 둘째, 기존 오프라인 스토어가 Glue 카탈로그 기반 Parquet 테이블이라면 Iceberg로의 마이그레이션 시 스냅샷·파티션 전략을 다시 설계해야 하며, 무작정 컴팩션 주기를 짧게 잡으면 오히려 S3 PUT 비용과 메타데이터 폭증이 발생할 수 있다. 셋째, Lake Formation을 켜는 순간 기존 IAM-only 권한 모델과 이중으로 평가되므로, 권한 거부의 원인이 어느 레이어에서 발생했는지 추적할 수 있는 로깅 체계를 먼저 갖춰야 한다.

마지막으로, 이 업데이트는 AWS가 Feature Store를 단순한 "ML용 KV 저장소"가 아니라 레이크하우스(lakehouse) 아키텍처의 한 축으로 재포지셔닝하고 있다는 신호로 해석된다. 따라서 새로운 ML 플랫폼을 설계 중이라면, 별도의 Feature Store 솔루션(예: Feast 자체 호스팅)과 SageMaker Feature Store + Iceberg 조합의 총소유비용(TCO)을 다시 비교해 볼 만한 시점이며, 공식 예제 노트북(Lake Formation governance, Iceberg table properties)을 사내 PoC로 먼저 돌려본 뒤 도입 여부를 결정하는 것이 안전하다.

#Amazon SageMaker#ML 파이프라인#Python SDK#Feature Store#데이터 엔지니어링
원문 보기 →

관련 기사