이 AI 워크스테이션은 PC처럼 보지만 더 강력한 성능을 제공합니다
These AI Workstations Look Like PCs but Pack a Stronger Punch
핵심 요약
- ▸Tenstorrent의 QuietBox 2는 128GB GDDR6 메모리와 4개의 Blackhole AI 가속기를 탑재해 OpenAI의 GPT-OSS-120B와 Meta의 Llama 3.1 70B 모델을 실행할 수 있습니다.
- ▸QuietBox 2는 1,400W의 전력 소비로 집에서도 사용할 수 있으며, 전력 효율성과 유연성을 강조합니다.
- ▸Nvidia의 DGX Station과 달리 QuietBox 2는 AMD x86 CPU와 오픈소스 소프트웨어 스택을 기반으로 하여 호환성과 개발자 친화성을 높였습니다.
- ▸개발자에게는 메모리, 전력 효율, 그리고 오픈소스 지원이 중요한 AI 워크스테이션 선택의 핵심 요소입니다.
심층 분석
AI 워크스테이션 시장이 본격적으로 형성되고 있다. 현재 일반 PC 환경에서는 8B~13B 파라미터 수준의 LLM만 겨우 로딩할 수 있고, 고성능 워크스테이션도 70B급이 한계다. Tenstorrent의 QuietBox 2는 자체 설계한 Blackhole ASIC 가속기 4장을 탑재해 GDDR6 128GB와 DDR5 256GB, 총 384GB 메모리를 확보했다. 각 Blackhole 카드에는 RISC-V 기반 Tensix AI 가속기 120개와 32GB GDDR6이 집적되어 있으며, 4장 합산 480개의 Tensix 코어가 병렬로 동작한다. 이를 통해 Llama 3.1 70B 모델을 초당 약 500 토큰 속도로 추론할 수 있는데, 이는 GPT-5.2나 Claude 4.6의 클라우드 응답 속도보다 수배 빠른 수준이다. 핵심은 이 모든 것이 1,400W 전력 소비로 가능하다는 점으로, Nvidia RTX 5090 4장 구성 시 필요한 4,000W 이상과 비교하면 일반 가정용 전원(15A/120V)에서도 안정적으로 운용할 수 있다.
경쟁 제품인 Nvidia DGX Station은 GB300 칩 기반으로 최대 748GB 메모리를 제공하지만, 시스템 전력이 1,600W에 달하고 MSI 기준 소매가가 $85,000으로 책정되어 있다. 반면 QuietBox 2는 $9,999로 가격 차이가 약 8.5배에 달한다. 아키텍처 철학도 다른데, Nvidia DGX는 ARM 기반 자체 CPU와 독점적 CUDA 생태계에 의존하는 반면, QuietBox 2는 AMD x86 CPU에 micro-ATX 폼팩터를 채택해 기존 PC와 동일한 하드웨어 호환성을 유지한다. Nvidia가 원격 접속 기반의 공유 워크스테이션을 지향하는 것과 달리, Tenstorrent는 모니터를 HDMI로 직접 연결해 Ubuntu 데스크톱 환경에서 바로 작업하는 로컬 퍼스트 경험을 강조한다.
개발자 관점에서 가장 주목할 부분은 소프트웨어 스택의 개방성이다. Tenstorrent는 AI 컴파일러인 TT-Forge부터 커널 수준 하드웨어 제어를 제공하는 TT-Metalium SDK까지 전체 스택을 오픈소스로 GitHub에 공개했고, Tensix 코어의 ISA(명령어 집합 아키텍처)까지 공개하여 워크로드가 하드웨어에서 어떻게 실행되는지 완전히 투명하게 확인할 수 있다. 이는 CUDA 종속성에서 벗어나고 싶은 개발자들에게 실질적 대안이 될 수 있다. 다만 RISC-V 기반의 새로운 아키텍처인 만큼, PyTorch나 주요 ML 프레임워크와의 통합 성숙도, 지원 모델 범위, 커뮤니티 생태계 규모는 CUDA 대비 아직 검증이 필요한 단계다.
한국 개발자와 엔지니어가 취해야 할 액션은 명확하다. 첫째, 로컬 AI 추론 환경 구축이 클라우드 API 의존에서 벗어나는 현실적 선택지로 부상하고 있으므로, 사내 보안 요구사항이나 데이터 주권이 중요한 프로젝트에서는 온프레미스 AI 워크스테이션 도입을 적극 검토할 시점이다. 둘째, TT-Metalium과 TT-Forge 같은 오픈소스 AI 컴파일러 스택을 미리 살펴보면 CUDA 이외의 가속기 생태계에 대한 이해를 넓힐 수 있다. 셋째, $10K 가격대의 AI 워크스테이션이 2026년 2분기 출시 예정이므로, 팀 단위 PoC용 하드웨어 예산 확보와 벤치마크 계획을 지금부터 준비하는 것이 합리적이다. CUDA 독점 시대의 균열이 시작되고 있으며, 하드웨어 선택지의 다변화는 장기적으로 개발자에게 유리한 방향이다.