← 목록으로
연구중요도 높음 9.0

0이 AI 영웅으로 변신할 수 있는 더 나은 하드웨어

Better Hardware Could Turn Zeros into AI Heroes

IEEE Spectrum AI··4분 읽기·6회 조회

핵심 요약

  • AI 모델의 크기 증가는 성능 향상과 함께 에너지 소비와 탄소 발자국을 증가시킨다.
  • 스파라시티(0의 비중이 높은 데이터)를 활용하면 계산 효율을 크게 높일 수 있다.
  • 스파라시티를 최적화하기 위한 새로운 하드웨어 'Onyx'가 개발되어 에너지 소비를 1/7로 줄이고 속도를 8배 빠르게 한다.
  • 스파라시티 기반 하드웨어는 AI 모델의 에너지 효율성과 성능을 동시에 개선할 수 있는 혁신적인 접근법이다.

심층 분석

현대 LLM은 파라미터가 수조 개로 늘어나며 성능은 향상되지만 에너지 소비와 추론 지연도 폭증하고 있다. 이 기사는 이 문제의 돌파구로 "희소성(sparsity)"을 본격적으로 활용하는 하드웨어 설계를 제시한다. 대형 모델의 가중치(weight)와 활성값(activation) 중 상당수가 0이거나 0에 가깝다는 점에 주목한 접근으로, Cerebras 연구에서는 Llama 7B의 파라미터 70~80%를 0으로 만들어도 정확도 손실이 거의 없다는 사실이 입증됐다. 0과의 곱셈은 결과가 항상 0이고 0의 덧셈은 무의미하므로 이 연산을 건너뛰면 막대한 에너지·시간을 절약할 수 있고, 0을 메모리에서 압축 제거하면 저장 공간도 줄어든다. 그러나 CPU/GPU는 본질적으로 dense 연산에 최적화돼 있어 비정형 희소 데이터의 간접 인덱싱(row→column→value 룩업)에서 prefetcher가 자주 실패하고, GPU는 "2 of 4" 같은 정형(structured) 희소성만 하드웨어로 가속한다. 스탠퍼드 팀은 이를 해결하기 위해 CGRA(Coarse-Grained Reconfigurable Array) 기반의 Onyx 칩을 설계했고, 압축 행렬을 저장하는 MEM 타일과 압축 데이터 위에서 직접 연산하는 PE 타일로 구성해 정형/비정형 희소성과 dense 연산을 모두 처리한다. 12코어 Xeon 대비 평균 1/70의 에너지로 8배 빠르며, 에너지-지연 곱(EDP) 기준 최대 565배 효율을 보고했다.

엔지니어 입장에서 가장 큰 의미는 추론 비용 구조 자체가 바뀔 수 있다는 점이다. 그동안 모델 경량화는 양자화(INT8, FP8, FP4 등 저정밀도)와 distillation에 집중돼 있었지만, sparsity는 이와 직교하는 축이라 결합 시 효율이 곱셈적으로 증가한다. 특히 추천 시스템, 그래프 신경망, 소셜 그래프처럼 자연 발생적 희소성이 높은 워크로드는 GPU에서 cuSparse 같은 라이브러리를 써도 하드웨어 활용률이 낮아 항상 비용 비효율이 컸는데, Onyx 같은 전용 가속기가 상용화되면 이런 영역의 서빙 비용이 한 자릿수 배 이상 떨어질 수 있다. 또한 행렬 곱셈뿐 아니라 softmax, normalization, 비선형 레이어까지 sparsity 지원이 확대되면 dense/sparse 데이터 타입을 오가는 변환 오버헤드가 사라져 end-to-end 파이프라인 전체가 가속된다. 이는 곧 "대형 모델은 GPU 클러스터에서만 돌릴 수 있다"는 전제가 깨지고, 엣지/온디바이스 추론에서도 수십억 파라미터급 모델을 실시간으로 다룰 가능성이 열린다는 뜻이다.

한국 개발자가 당장 취해야 할 행동은 "희소성 인식(sparsity-aware)" 관점에서 모델과 인프라를 재점검하는 것이다. 첫째, 자신이 운영 중인 모델의 weight·activation 희소도를 측정해 보자(PyTorch라면 `torch.count_nonzero` 또는 `torch.sparse` 툴체인). 50%를 넘는다면 가속 여지가 크고, magnitude pruning이나 SparseGPT, Wanda 같은 사후 가지치기로 정확도 손실 없이 70~80%까지 끌어올릴 수 있는 경우가 많다. 둘째, GPU에서 일하더라도 NVIDIA의 2:4 structured sparsity(Ampere 이상)와 cuSparseLt를 시험해 추론 지연이 실제로 줄어드는지 벤치마크해 두면, 향후 하드웨어 선택지가 다양해졌을 때 빠르게 이식할 수 있다. 셋째, 추천·그래프·검색 임베딩 워크로드를 다룬다면 dense 행렬곱 중심의 설계에서 벗어나 CSR/CSC, fibertree 같은 sparse 표현을 백엔드 단에서부터 고려하는 것이 좋다. 마지막으로 Cerebras WSE, Meta MTIA, Onyx 같은 비-GPU 가속기 생태계를 주시하면서 컴파일러 스택(MLIR, TVM의 sparse dialect 등)에 대한 이해를 키워두면, dense GPU 일변도였던 AI 인프라가 다극화되는 향후 2~3년 사이에 큰 경쟁력이 된다.

#AI#하드웨어#스파라시티#에너지 효율#LLM
원문 보기 →

관련 기사