마이크로소프트, '기업용 깨끗하고 상업적으로 라이선스된 데이터'를 약속했지만 MAI 모델을 훈련시키기 위해 비라이선스 웹 데이터를 사용했다
Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"
핵심 요약
- ▸마이크로소프트는 MAI 모델을 훈련시키기 위해 Common Crawl 같은 비라이선스 웹 데이터를 사용했다.
- ▸회사는 '기업용 깨끗하고 상업적으로 라이선스된 데이터'를 사용했다고 주장했지만, 실제로는 그렇지 않았다.
- ▸다른 AI 실험실과 마찬가지로 마이크로소프트는 공정 이용을 근거로 하고 사이트 소유자에게 크롤러 차단을 요청했다.
- ▸이 사례는 데이터 윤리와 법적 책임에 대한 개발자들의 고민을 자극한다.
심층 분석
Microsoft가 새로 공개한 MAI(Microsoft AI) 자체 모델이 "엔터프라이즈급의 깨끗하고 상업적으로 라이선스된 데이터"만 사용했다고 홍보했지만, 실제로는 Common Crawl 같은 비라이선스 웹 데이터를 일부 학습에 사용한 것으로 드러났습니다. Common Crawl은 웹 전체를 대규모로 크롤링해 누구나 내려받을 수 있게 공개한 데이터셋으로, 거의 모든 LLM의 사전학습(pre-training) 단계에서 사실상 표준 코퍼스로 쓰입니다. 문제는 이 데이터에 저작권이 있는 기사, 블로그, 코드 등이 출처 동의 없이 대량 포함된다는 점입니다. Microsoft를 비롯한 AI 업체들은 이를 미국 저작권법의 '공정 이용(fair use)' 논리로 정당화하고, 학습 제외 책임을 사이트 운영자에게 떠넘깁니다. 즉 robots.txt나 별도 차단 헤더로 크롤러를 막지 않으면 수집 대상이 되는 옵트아웃(opt-out) 방식으로, 명시적 동의를 받는 옵트인이 아닙니다. 결국 Microsoft의 데이터 차별화 마케팅은 마케팅 수사에 가까웠다는 것이 이번 보도의 핵심입니다.
엔지니어 입장에서 이 사안은 단순한 기업 윤리 논쟁을 넘어 실무에 직접 닿습니다. 첫째, 자신이 GitHub·블로그·기술 문서에 공개한 코드와 글이 본인도 모르게 상용 모델의 학습 데이터로 흡수되고 있을 가능성이 높다는 점입니다. 둘째, "라이선스가 깨끗한 데이터로 학습했다"는 벤더의 주장을 그대로 신뢰해 법무·컴플라이언스 검토를 생략하면 위험합니다. 사내에서 MAI 같은 모델을 도입할 때 데이터 출처(provenance)나 저작권 침해 면책 조항(indemnification)을 계약서에서 확인하지 않으면, 모델 출력이 학습 데이터를 거의 그대로 복제(regurgitation)하는 사례에서 발생하는 책임을 떠안을 수 있습니다. 특히 코드 생성 모델의 경우 GPL 같은 카피레프트 라이선스 코드가 출력에 섞여 들어오면, 그 결과물을 제품에 넣는 순간 라이선스 오염 리스크가 현실화됩니다.
따라서 개발자와 팀이 취할 수 있는 실질적 조치가 몇 가지 있습니다. 콘텐츠 제공자 입장이라면 `robots.txt`에 `GPTBot`, `CCBot`(Common Crawl), `anthropic-ai`, `Google-Extended` 등 AI 크롤러 User-Agent를 명시적으로 차단하고, 가능하면 서버 단에서 차단을 강제하는 것이 안전합니다. 다만 옵트아웃은 소급 적용되지 않아 이미 수집된 데이터는 회수되지 않으므로, 민감하거나 권리 보호가 중요한 자산은 애초에 공개 범위를 신중히 관리해야 합니다. 모델 소비자 입장이라면 벤더의 데이터 라이선스·면책 조항을 계약 수준에서 검증하고, 생성된 코드에 대해 라이선스 스캐닝 및 출처 검출 도구를 CI에 통합하는 것이 권장됩니다. 무엇보다 "깨끗한 데이터"라는 마케팅 문구를 액면 그대로 받아들이지 말고, 검증 가능한 증빙(데이터시트, 출처 목록, 감사 보고서)을 요구하는 태도가 점점 더 중요해지고 있습니다.