바이두의 에르니 5.1, 최상위 모델과 경쟁하면서 사전 훈련 비용 94% 절감
Baidu's Ernie 5.1 cuts 94 percent of pre-training costs while competing with top models
핵심 요약
- ▸에르니 5.1은 이전 모델의 1/3 수준의 파라미터만 사용하며, 사전 훈련 비용은 6% 수준으로 줄였다.
- ▸이 성공은 'Once-For-All' 접근법을 통해 단일 훈련 런에서 더 작은 하위 모델을 추출한 결과이다.
- ▸Search Arena 리더보드에서 전 세계적으로 4위를 차지하며, 두 개의 클라우드 오퍼 변형과 GPT-5.5 Search 뒤를 따르고 있다.
- ▸사전 훈련 비용을 크게 절감하면서도 성능을 유지하는 기술은 개발자들에게 중요한 효율성 향상 기회를 제공한다.
심층 분석
바이두의 Ernie 5.1은 "Once-For-All"(OFA) 학습 방식을 핵심으로 한다. 이는 한 번의 대규모 사전학습 과정에서 다양한 크기의 서브모델을 동시에 추출할 수 있도록 설계된 기법으로, 슈퍼넷(supernet) 구조 안에서 여러 부분 네트워크가 가중치를 공유하며 함께 학습된다. 결과적으로 별도의 재학습 없이 배포 환경(서버, 엣지, 모바일)에 맞는 크기의 모델을 선택해 쓸 수 있다. Ernie 5.1은 이전 세대 대비 파라미터를 1/3 수준으로 줄이면서도 사전학습 비용을 약 6%까지 절감했다고 보고되며, Search Arena 리더보드에서는 Claude Opus 두 변종과 GPT-5.5 Search에 이어 글로벌 4위에 올랐다. 즉, 압축·경량화를 후처리(distillation, pruning)로 해결하던 기존 패러다임을 학습 단계로 끌어올린 셈이다.
엔지니어 입장에서 이 접근의 의미는 단순히 "중국발 저비용 모델 등장" 이상이다. 첫째, LLM 서빙 비용 구조의 변곡점이 될 수 있다. 사전학습이 94% 저렴해진다는 것은 파운데이션 모델의 공급이 늘어나고, 그만큼 폐쇄형 API 가격 압력이 거세진다는 뜻이다. 둘째, OFA 같은 가변 크기 모델은 RAG·검색 파이프라인에서 라우팅 전략을 새롭게 설계할 여지를 준다. 동일 계열 안에서 latency-quality trade-off를 동적으로 조정할 수 있다면, 쿼리 난이도에 따라 작은 서브모델과 큰 서브모델을 스위칭하는 캐스케이드 구조가 훨씬 자연스러워진다. 셋째, Search Arena 4위라는 결과는 검색 결합형(grounded) 시나리오에서 Ernie 계열이 실용 수준에 도달했음을 시사한다.
한국 개발자가 당장 챙겨야 할 포인트는 세 가지다. (1) Ernie 5.1은 바이두 클라우드(Qianfan) 위주로 제공되므로 데이터 주권·국외 반출 이슈를 사전에 검토해야 하며, 사내 정책상 사용이 어렵다면 동일한 OFA·서브넷 추출 아이디어를 적용한 오픈소스 모델(Qwen, DeepSeek 계열) 동향을 함께 추적하는 게 현실적이다. (2) 자체 파인튜닝·서빙을 운영하는 팀이라면, 단일 학습으로 다양한 크기를 뽑아내는 기법(SortedNet, MatFormer, LayerDrop 등)을 PoC해 GPU 비용을 구조적으로 줄일 수 있는지 검토할 가치가 있다. (3) 모델 라우팅 레이어를 명시적으로 분리해 두면, 향후 Ernie·Claude·GPT 간 교체나 동일 모델군 내 크기 스위칭 비용을 크게 낮출 수 있으므로 지금부터 추상화 계층을 설계해 두는 것이 좋다.
관련 기사
업무 중 ai에 물어본 영어가 나만의 퀴즈가 된다면 lingoq
Naver CLOVA Tech Blog ·
PwC는 클라우드를 도입해 기술 개발 및 거래 실행을 통해 기업 기능을 혁신하고 있다
Anthropic News ·
블랙스톤, 헬먼 앤드 프리드먼, 골드만삭스와 함께 새로운 기업 AI 서비스 회사 설립
Anthropic News ·
GITEX AI 유럽
AI Business · 방금 전
5개 실험실, 5개의 사고: 소형 모델을 기반으로 한 다중 모델 금융 드라마 구축
HuggingFace Blog · 2026년 6월 7일 AM 04:02