업계동향중요도 높음 8.0

AI 계산력 확보를 위한 경쟁에서 다음 세레브라스는 누구인가?

Has the hunt for AI compute uncovered the next Cerebras?

TechCrunch AI·2026년 5월 28일 PM 10:00·약 3분 읽기·1회 조회

핵심 요약

▸일반 컴퓨팅은 스ambaNova가 다음번 성공적인 칩 제조사가 될 것이라고 베팅하고 있다.
▸AI 계산력 확보를 위한 경쟁이 칩 업계에서 주목받고 있다.
▸세레브라스와 같은 혁신적인 칩 기술이 다시 주목받고 있다.
▸개발자들은 이러한 칩 기술의 발전이 AI 모델 개발에 큰 영향을 미칠 수 있다.

심층 분석

SambaNova Systems는 엔비디아 GPU 중심의 AI 컴퓨팅 시장에서 차별화된 아키텍처로 주목받는 스타트업이다. 핵심 기술은 RDU(Reconfigurable Dataflow Unit)로, 전통적인 SIMD/SIMT 방식의 GPU와 달리 데이터플로우(dataflow) 아키텍처를 채택해 연산 그래프 자체를 칩 내부에 매핑한다. 최신 SN40L 칩은 3-tier 메모리 구조(SRAM + HBM + DDR)를 활용해 단일 노드에서 5조 파라미터급 모델까지 다룰 수 있고, "Composition of Experts" 방식으로 수백 개의 전문가 모델을 효율적으로 스위칭한다. Cerebras가 웨이퍼 스케일 엔진(WSE)으로 거대 단일 칩을 만들었다면, SambaNova는 메모리 계층과 재구성 가능한 데이터플로우로 LLM 추론·파인튜닝 효율을 극대화하는 전략을 택했다. General Compute의 베팅은 GPU 부족 사태와 추론 비용 폭증 속에서 "엔비디아 외 대안"에 대한 시장 수요가 임계점에 도달했다는 판단으로 해석된다.

개발자와 엔지니어 관점에서 가장 직접적인 영향은 LLM 추론 비용 구조의 변화다. SambaNova Cloud는 Llama 3.1 405B 같은 초대형 모델을 GPU 대비 훨씬 낮은 토큰당 단가와 빠른 토큰/초 처리량으로 제공한다고 발표해왔는데, 이는 RAG 파이프라인이나 에이전트 시스템처럼 대량의 LLM 호출이 필요한 백엔드 설계에 큰 의미를 가진다. 또한 RDU는 모델 스위칭 오버헤드가 작아 멀티 테넌트 환경이나 여러 LoRA 어댑터를 동적으로 로드하는 워크로드에서 GPU 대비 유리하다. 다만 PyTorch/TensorFlow 생태계 호환성, CUDA 커널 의존성이 큰 코드의 마이그레이션 비용, 디버깅 도구 성숙도는 여전히 도입의 현실적 장벽이다.

한국 SW 엔지니어가 당장 취해야 할 액션은 두 가지다. 첫째, 추론 인프라를 설계 중이라면 SambaNova Cloud나 Cerebras Inference 같은 비-GPU 백엔드를 OpenAI 호환 API 레벨에서 PoC해보고 토큰/초·p99 레이턴시·비용 지표를 자체 벤치마크로 비교해두는 것이 좋다. 특히 long-context(>32K) 시나리오와 대형 MoE 모델에서는 GPU 대비 차이가 크게 벌어지는 경우가 많다. 둘째, 아키텍처를 벤더 종속적으로 짜지 않도록 LiteLLM, vLLM 게이트웨이, OpenAI 호환 추상화 레이어를 거쳐 모델 백엔드를 교체 가능한 형태로 유지해야 한다. 칩 시장이 다극화되는 흐름이 본격화되면, 단일 공급자 락인을 피한 팀이 비용 협상력과 가용성 모두에서 우위를 가져갈 것이다.

#AI#칩#세레브라스#스ambaNova#업계동향

원문 보기 →

AI 계산력 확보를 위한 경쟁에서 다음 세레브라스는 누구인가?

핵심 요약

심층 분석

관련 기사