← 목록으로
업계동향중요도 보통 7.0

이 칩 스타트업은 AI의 가장 큰 병목이 계산이 아니라 기억력이라고 판단해 1억 3500만 달러를 조달했습니다

This chip startup just raised $135M on a bet that AI’s biggest bottleneck isn’t compute — it’s memory

TechCrunch AI··3분 읽기·1회 조회

핵심 요약

  • 한국의 칩 스타트업 XCENA는 AI의 주요 제약 요소가 계산력이 아니라 기억력이라고 판단했습니다.
  • XCENA는 기억력 개선을 통해 AI 성능을 향상시키는 기술 개발에 집중하고 있습니다.
  • 이 회사는 1억 3500만 달러를 조달해 기술 혁신에 투자하고 있습니다.
  • 기억력 최적화 기술은 AI 모델의 효율성과 성능 향상에 큰 영향을 미칩니다.

심층 분석

XCENA의 베팅은 이른바 '메모리 월(Memory Wall)' 문제에 뿌리를 둡니다. GPU의 연산 성능(FLOPS)은 지난 수년간 기하급수적으로 늘었지만, 그 연산 유닛에 데이터를 공급하는 메모리의 대역폭과 용량은 같은 속도로 따라오지 못했습니다. 특히 LLM 추론은 모델 가중치와 KV 캐시를 끊임없이 메모리에서 읽어와야 하는 '메모리 바운드' 워크로드라, GPU의 텐서 코어가 데이터를 기다리며 놀고 있는 경우가 많습니다. XCENA는 이 지점을 공략해 CXL(Compute Express Link) 기반 메모리 확장과 PNM(Processing-Near-Memory, 메모리 근처에서 연산 수행) 기술에 집중합니다. CXL은 PCIe 위에서 동작하는 캐시 일관성 인터커넥트로, GPU/CPU에 직접 붙는 HBM·DDR을 넘어 대용량 메모리 풀을 시스템에 추가로 연결할 수 있게 해줍니다. 단순히 용량을 늘리는 데 그치지 않고, 데이터 이동 자체를 줄이기 위해 검색·필터링 같은 연산을 메모리 컨트롤러 단에서 처리하는 것이 핵심 아이디어입니다.

실무 관점에서 이 변화가 의미하는 바는 '비싸고 부족한 HBM/GPU 메모리에 모든 것을 욱여넣을 필요가 줄어든다'는 것입니다. 현재 LLM 서빙에서 가장 큰 제약은 종종 연산이 아니라 메모리 용량입니다. 컨텍스트 윈도우를 키우거나 동시 처리 배치를 늘리면 KV 캐시가 폭증해 OOM(메모리 부족)이 나거나, 비싼 GPU를 메모리 용량 때문에 추가로 사야 하는 상황이 벌어집니다. CXL 메모리 확장이 보편화되면 상대적으로 저렴한 메모리 계층을 통해 더 긴 컨텍스트, 더 큰 배치, 더 효율적인 GPU 활용이 가능해지고, 결과적으로 추론 단가(토큰당 비용)를 낮출 여지가 생깁니다. 삼성·SK하이닉스 같은 메모리 강국을 배경으로 한 한국 스타트업이 이 분야에 1,800억 원 규모 투자를 유치했다는 점은, 메모리 중심 아키텍처가 단순한 연구 주제를 넘어 상업적 베팅의 대상이 되고 있음을 보여줍니다.

개발자가 지금 당장 코드를 바꿔야 하는 일은 아니지만, 알아둘 흐름은 분명합니다. 첫째, AI 시스템 성능 병목을 분석할 때 GPU 사용률(utilization)뿐 아니라 메모리 대역폭과 KV 캐시 점유율을 함께 보는 습관이 점점 중요해집니다 — 많은 추론 워크로드가 '연산 부족'이 아니라 '메모리 대기'로 느려집니다. 둘째, vLLM의 PagedAttention, KV 캐시 양자화·오프로딩, 티어드 메모리(tiered memory) 같은 기법들이 바로 이 메모리 병목을 소프트웨어 차원에서 우회하려는 시도이며, CXL은 그 하드웨어 버전에 해당합니다. 셋째, 향후 CXL 메모리 풀이 깔린 인프라에서는 데이터 지역성(locality)과 NUMA 비용에 대한 고려가 다시 중요해질 수 있으니, 클라우드 인스턴스 선택이나 서빙 프레임워크 설정 시 메모리 계층 구조를 의식하는 것이 유리합니다. 요약하면, '더 빠른 GPU'만 쫓던 시대에서 '메모리를 어떻게 효율적으로 다루느냐'가 비용과 성능을 가르는 시대로 무게중심이 옮겨가고 있다는 신호로 받아들이면 됩니다.

#AI##메모리#투자#기술
원문 보기 →

관련 기사