업계동향중요도 높음 8.0

AI 주간 리뷰 #477: 제너스 황, AGI 달성했다고 주장. 벤치마크는 0.37%

AI Weekly Issue #477: Jensen Huang says we've achieved AGI. The benchmarks say 0.37%.

AI Weekly·2026년 3월 31일 AM 09:00·약 3분 읽기·9회 조회

핵심 요약

▸AI는 시험에서는 인간을 능가하지만 간단한 게임은 해결하지 못함. ARC-AGI-3 테스트에서 인간은 100% 해결하지만 최고 AI는 0.37%에 불과함.
▸AI 가치 체인이 역전됨. 이번 주에는 모델이 아닌 인프라에 대한 $25억 규모의 거래가 이루어짐. IBM이 콘플루언트를, 리리일이 인실리코를 인수함.
▸안전 경계를 설정하면 법원이 이를 보호함. 패น타론이 안트로피크를 블랙리스트할 수 없다는 판결로 AI 기업의 윤리적 선을 법적으로 보호함.
▸AI의 한계와 실제 적용 가능성에 대한 통찰이 개발자에게 중요한 교훈을 제공함.

심층 분석

ARC-AGI-3 벤치마크는 기존 평가 방식과 근본적으로 다릅니다. 규칙도 목표도 주어지지 않은 인터랙티브 환경에서 에이전트가 스스로 탐색하며 과제를 파악해야 합니다. 인간은 100% 해결하지만 프런티어 모델은 0.37%에 그쳤습니다. 이는 현재 LLM 아키텍처가 학습 데이터 분포 내에서의 패턴 매칭에는 초인적이지만, 진정한 의미의 일반화(out-of-distribution generalization)와 새로운 환경에 대한 메타학습 능력은 거의 없다는 점을 정량적으로 보여줍니다. Transformer 기반의 next-token prediction은 본질적으로 보간(interpolation) 엔진이며, Francois Chollet이 지적한 대로 "새로운 추상화를 즉석에서 합성하는 능력"은 별개의 문제입니다. Jensen Huang의 "AGI 달성" 발언과 벤치마크 결과 사이의 간극은 바로 이 지점에서 발생합니다.

동시에 업계 자본 흐름이 모델에서 인프라로 급격히 이동하고 있다는 점도 개발자가 주목해야 할 신호입니다. IBM의 Confluent($11B, 실시간 데이터 스트리밍), Lilly의 Insilico 신약 파이프라인($2.75B), Physical Intelligence의 로봇 제어 시스템($1B) 등 이번 주 $25B 규모 딜이 전부 "모델과 현실 세계를 잇는 데이터 플로우" 계층에 집중되었습니다. 이는 LLM 자체는 커머디티화되고, Kafka/Flink 같은 스트리밍 파이프라인, 도메인 특화 데이터 수집 체계, 로봇/IoT 액추에이션 레이어가 방어 가능한 해자(moat)로 부상했다는 의미입니다. 한국 엔지니어 입장에서 "더 나은 프롬프트"나 "더 큰 모델"을 쫓는 것보다 자사 도메인의 실시간 데이터 파이프라인, 벡터 DB, 툴 호출 인프라 설계 역량이 훨씬 차별화된 커리어 자산이 됩니다.

Anthropic이 Pentagon의 자율무기 사용 요구를 거부하고도 블랙리스트 지정을 막아낸 연방법원 판결은 엔지니어링 윤리 측면에서 중요한 선례입니다. AI 기업의 윤리적 레드라인이 수정헌법 1조가 보호하는 "표현(speech)"으로 인정받은 첫 사례로, 앞으로 정부·대기업 계약 협상에서 "안 합니다"가 법적으로 더 안전한 선택지가 됩니다. 사내에서 AI 시스템을 설계할 때 Usage Policy, 거부 로직(refusal), 감사 로그 등을 단순히 법무 준수용이 아니라 "조직의 방어권"으로 문서화해두는 것이 중요해졌습니다.

실무 관점에서 지금 행동할 것은 세 가지입니다. 첫째, 현재 업무를 "패턴 매칭 가능 영역"과 "진짜 새로움이 요구되는 영역"으로 분류하고 전자는 과감히 LLM에 위임하되 후자는 당분간 엔지니어가 붙잡아야 합니다 — ARC-AGI-3 결과가 이 경계선을 객관적으로 보여줍니다. 둘째, 자신이 다루는 시스템의 데이터 플로우 계층(ingestion, streaming, tool integration, observability)에 투자 가치가 모델 파인튜닝보다 높아졌다는 점을 아키텍처 결정에 반영해야 합니다. 셋째, 사내 AI 가이드라인·거부 정책·배포 기준을 성문화해 두면 향후 외부 압력이 들어왔을 때 조직과 개인 모두를 보호하는 문서적 근거가 됩니다.

#AI#AGI#벤치마크#윤리#인프라

원문 보기 →

AI 주간 리뷰 #477: 제너스 황, AGI 달성했다고 주장. 벤치마크는 0.37%

핵심 요약

심층 분석

관련 기사