업계동향중요도 높음 8.0

구글 클라우드, 두 가지 새로운 AI 칩 출시해 뉴비와 경쟁

Google Cloud launches two new AI chips to compete with Nvidia

TechCrunch AI·2026년 4월 23일 AM 03:39·약 3분 읽기·13회 조회

핵심 요약

▸구글의 최신 TPU는 이전 버전보다 더 빠르고 저렴하다.
▸구글은 현재까지 클라우드에서 뉴비를 여전히 사용하고 있다.
▸이번 출시는 AI 분야에서 경쟁력을 강화하기 위한 전략이다.
▸이 새로운 칩은 개발자들이 성능과 비용을 고려한 AI 솔루션을 설계하는 데 영향을 미칠 수 있다.

심층 분석

구글이 발표한 신규 TPU(Tensor Processing Unit) 세대는 행렬 연산에 특화된 시스톨릭 배열(systolic array) 구조를 기반으로 한 커스텀 ASIC입니다. 범용 연산을 수행하는 엔비디아 GPU와 달리, TPU는 AI 워크로드의 핵심인 대규모 행렬곱과 벡터 연산만을 극한까지 최적화했기 때문에 동일 전력 대비 높은 처리량을 뽑아냅니다. 특히 이번 세대는 HBM 대역폭 확대와 칩 간 ICI(Inter-Chip Interconnect) 개선으로 수천~수만 개 칩을 하나의 포드로 묶어 LLM 학습에 투입할 수 있도록 설계되었고, Google이 공개한 수치대로라면 이전 세대 대비 추론/학습 효율이 유의미하게 향상됩니다. 다만 Google이 자사 클라우드에서 여전히 엔비디아 H100/B200 인스턴스를 함께 제공한다는 점은, CUDA 기반 생태계를 즉시 대체하기보다는 가격 경쟁력 있는 대안으로 포지셔닝하려는 전략으로 읽힙니다.

국내 엔지니어 관점에서 가장 체감되는 변화는 비용 구조입니다. 추론 서비스를 GCP 위에서 운영 중이라면 동일 QPS 기준 TPU가 GPU 대비 토큰당 단가에서 우위를 갖는 경우가 많아, Vertex AI나 GKE 상의 Gemini/오픈소스 LLM 서빙 파이프라인을 TPU로 전환하면 월 인프라 비용을 20~50% 절감할 여지가 생깁니다. 반면 개발 생산성 측면에서는 여전히 JAX와 PyTorch/XLA 기반 코드가 TPU를 가장 잘 활용하며, CUDA 커스텀 커널이나 FlashAttention 같은 GPU 최적화 라이브러리에 깊이 의존하는 코드베이스는 XLA 컴파일 과정에서 성능 튜닝 비용이 추가로 발생합니다. 즉, 파이썬 레벨의 프레임워크만 쓰는 팀은 이득이 크지만, 저수준 최적화를 한 팀일수록 이식 공수가 늘어납니다.

실무 대응 측면에서는 먼저 자사 워크로드를 TPU와 GPU 모두에서 벤치마크해보는 것을 권장합니다. 배치 추론이나 대규모 사전학습처럼 연산 패턴이 균질한 작업은 TPU가 유리하고, 동적 샤드·불규칙 시퀀스·커스텀 오퍼레이터가 많은 연구성 워크로드는 여전히 GPU가 편합니다. 또한 멀티클라우드·하이브리드 전략을 유지하려면 모델 정의 레이어를 Hugging Face Transformers나 Keras 3처럼 백엔드 교체가 가능한 추상화 위에 두고, vLLM·JetStream·MaxText 등 TPU를 네이티브로 지원하는 서빙 프레임워크를 조기에 검토해두면 벤더 락인 리스크를 줄일 수 있습니다. 마지막으로 Google이 아직 엔비디아를 "포용한다"는 점은 CUDA 기술 스택을 버릴 필요가 없다는 신호이므로, 당장의 전면 전환보다는 비용이 집중되는 추론 엔드포인트부터 TPU로 이관하는 점진적 접근이 가장 현실적입니다.

#AI 칩#구글 클라우드#TPU#경쟁#클라우드 컴퓨팅

원문 보기 →

구글 클라우드, 두 가지 새로운 AI 칩 출시해 뉴비와 경쟁

핵심 요약

심층 분석

관련 기사