LLM중요도 높음 8.0

dainews] 딥스루크 V4 프로(1.6T-A49B) 및 플래시(284B-A13B), 베이스 및 인스트럭트 — 화웨이 어스센드 칩에서 실행 가능

[AINews] DeepSeek V4 Pro (1.6T-A49B) and Flash (284B-A13B), Base and Instruct — runnable on Huawei Ascend chips

Latent Space·2026년 4월 25일 PM 02:00·약 3분 읽기·22회 조회

핵심 요약

▸딥스루크 V4 프로와 플래시 모델이 화웨이 어스센드 칩에서 실행 가능하다.
▸모델 파라미터는 각각 1.6T-A49B 및 284B-A13B로, 다양한 용도에 적합하다.
▸이번 업데이트는 기존 베이스 및 인스트럭트 모델을 포함해 다양한 버전을 제공한다.
▸화웨이 어스센드 칩을 사용하는 개발자는 고성능 AI 모델을 쉽게 구현할 수 있다.

심층 분석

DeepSeek V4 Pro(1.6T-A49B)와 Flash(284B-A13B)는 Mixture-of-Experts(MoE) 아키텍처를 채택한 차세대 오픈소스 모델 라인업이다. Pro는 총 1.6조 파라미터 중 추론 시 약 49B만 활성화하고, Flash는 284B 중 13B만 활성화하는 구조로, 거대한 지식 용량을 유지하면서도 추론 비용을 대폭 낮추는 sparse activation 전략이다. 특히 이번 릴리스의 핵심은 **Huawei Ascend 칩에서 직접 실행 가능**하다는 점인데, 이는 NVIDIA CUDA 생태계에 종속되지 않는 중국산 AI 스택(Ascend NPU + MindSpore/CANN)이 실제 프론티어급 모델을 구동할 수 있는 수준에 도달했음을 의미한다. 다만 "프로디걸 타이거의 귀환이지만 더 이상 벤치마크 리더가 아니다"라는 평가처럼, 절대 성능 면에서는 GPT-5/Claude 4.x/Gemini 2.5 등 최상위 클로즈드 모델들에 다소 밀리는 위치로 자리 잡았다.

엔지니어 입장에서 가장 큰 실질적 임팩트는 **하드웨어 선택지의 확장**과 **코스트 구조 변화**다. 그동안 수십~수백억 파라미터급 오픈 모델을 자체 인프라로 서빙하려면 H100/H200 클러스터가 사실상 유일한 답이었지만, Ascend 910B/910C 계열에서 V4 Flash급(13B 활성)을 돌릴 수 있다면 GPU 수급난과 미국의 對중국 수출규제에 노출된 기업들에게 현실적 대안이 생긴다. 또한 13B active 수준이면 Llama 3.3 70B 풀파라미터보다 훨씬 적은 메모리 대역폭으로 동급 또는 그 이상의 응답 품질을 낼 수 있어, 자체 호스팅 RAG·코드 어시스턴트·에이전트 워크로드의 토큰당 단가가 크게 떨어진다. Base와 Instruct 두 체크포인트가 모두 공개됐기 때문에 도메인 파인튜닝과 RLHF 후처리도 그대로 적용 가능하다.

다만 한국 개발자가 바로 도입을 검토할 때 주의할 지점이 몇 가지 있다. 첫째, MoE 모델은 동일 활성 파라미터 대비 **VRAM 요구량은 전체 파라미터 기준**이라 Pro급은 사실상 8x H200 또는 멀티노드 Ascend 클러스터가 필요하며, Flash조차 단일 GPU 추론은 비현실적이다. vLLM/SGLang 등 서빙 프레임워크의 MoE 지원 성숙도와 expert parallelism 설정을 사전에 검증해야 한다. 둘째, DeepSeek 계열 모델은 라이선스가 비교적 관대하지만 상업적 이용 시 약관과 데이터 거버넌스(특히 중국 origin 모델에 대한 사내 보안 정책)를 반드시 확인해야 한다. 셋째, Ascend 실행 경로는 PyTorch eager 모드가 아닌 CANN/MindIE 기반 컴파일이 필요하므로, 기존 CUDA 코드베이스를 그대로 옮기긴 어렵다.

당장 액션 아이템으로는 (1) 현재 사내에서 사용 중인 오픈 모델(Qwen2.5/Llama 3.3/DeepSeek V3)과 V4 Flash의 코드·한국어·도구 호출 벤치마크를 직접 비교해 보고, (2) 단가가 중요하면 Together/DeepInfra/Fireworks 등 호스팅 제공자가 V4를 올리는 시점을 모니터링하며 토큰 가격을 트래킹할 것을 권한다. 벤치마크 1위는 놓쳤지만, **"충분히 좋은 성능 + 압도적 가성비 + 하드웨어 다양성"**이라는 조합은 프로덕션에서 더 위협적인 포지션이며, 클로즈드 API 중심으로만 설계된 시스템이라면 오픈 가중치 백업 경로를 한 번쯤 점검해 둘 시점이다.

#딥스루크#화웨이#AI 모델#어스센드#LLM

원문 보기 →

dainews] 딥스루크 V4 프로(1.6T-A49B) 및 플래시(284B-A13B), 베이스 및 인스트럭트 — 화웨이 어스센드 칩에서 실행 가능

핵심 요약

심층 분석

관련 기사