← 목록으로
업계동향중요도 보통 7.0

AI가 만들어낸 인용문이 임상 지침을 만드는 논문에 스며들고 있어 연구자들이 경고

AI-hallucinated citations are creeping into papers that shape clinical guidelines, researchers warn

The Decoder··3분 읽기·1회 조회

핵심 요약

  • 코ロン비아 대학과 다른 기관이 250만 개의 생물의학 논문을 조사한 결과, 2023년 이후 가짜 인용문 비율이 12배 이상 증가했다.
  • 가짜 인용문은 논문 주제와 일치하며, 형식도 정확해 거의 알아차리기 어렵다.
  • 98%의 영향을 받은 논문은 출판사에서 아무런 반응도 받지 못했다.
  • AI의 인용문 생성 능력은 연구의 신뢰성에 큰 위협이 될 수 있다.

심층 분석

대규모 언어 모델(LLM)은 통계적으로 그럴듯한 다음 토큰을 생성하는 방식으로 동작하기 때문에, 학습 데이터에 존재하지 않는 정보도 형식적으로 완벽해 보이는 출력을 만들어낼 수 있다. 특히 학술 인용은 저자명, 저널명, 권/호, DOI 등 정해진 포맷을 따르기 때문에 모델 입장에서는 "패턴 모사"가 가장 쉬운 영역 중 하나다. Columbia 대학 등이 250만 편의 생의학 논문을 감사한 결과 2023년 이후 조작된 참고문헌 비율이 12배 이상 증가했으며, 이 위조 인용들은 논문 주제와 정확히 일치하고 포맷도 올바르기 때문에 사람의 육안으로는 거의 식별이 불가능하다. RAG(Retrieval-Augmented Generation)나 grounding 기법 없이 LLM에게 인용을 "생성"시키면 환각(hallucination)이 거의 필연적으로 발생한다는 점이 다시 한 번 입증된 셈이다.

엔지니어 관점에서 이 사건은 단순한 학술 윤리 문제가 아니라 **AI 출력의 신뢰성 검증 파이프라인 부재**가 시스템 전반에 어떤 파급력을 갖는지를 보여주는 사례다. 임상 가이드라인은 메타 분석 → 시스템 리뷰 → 진료 권고안으로 이어지는 인용 체인 위에 구축되는데, 그 최하단에 존재하지 않는 논문이 섞이면 의료 의사결정 시스템, 의료 챗봇, 임상 보조 AI 등 다운스트림 제품의 정확성이 모두 오염된다. 98%의 출판사가 무대응이라는 수치는 검증 인프라가 사실상 작동하지 않고 있음을 의미하며, 이는 LLM 기반 검색·요약 서비스를 만드는 개발자에게 "원본 소스 도달 가능성 검증"이 선택이 아닌 필수 기능임을 시사한다.

개발자가 LLM 기반 시스템을 구축할 때 즉시 적용해야 할 액션 아이템은 명확하다. 첫째, 인용·참고문헌·외부 사실을 다루는 모든 워크플로우에서 **DOI/PMID/URL 등 식별자에 대한 실시간 검증 단계**(CrossRef, PubMed, Semantic Scholar API 호출)를 도입해 응답 전에 존재 여부를 차단형으로 확인해야 한다. 둘째, prompt 단에서 "출처를 모르면 만들지 말고 'Unknown'으로 답하라"는 지시를 명시하고, 가능하다면 RAG로 실제 인덱스에서 검색된 문서만 인용하도록 강제해야 한다. 셋째, 출력 후처리 단계에서 정규표현식으로 인용 형식을 파싱한 뒤 자동으로 reverse-lookup을 수행하는 가드레일을 두는 것이 효과적이다.

마지막으로, 이번 감사 결과는 코드 분야에도 동일한 위협이 존재함을 시사한다. LLM이 만들어내는 "존재하지 않는 라이브러리 이름"(이른바 slopsquatting)이나 "허구의 API 시그니처"가 production 코드베이스에 흘러들어가는 패턴은 이미 공급망 공격으로 악용되고 있다. AI 어시스턴트가 추천한 패키지·함수·문서 링크는 반드시 공식 레지스트리(npm, PyPI, Maven Central 등)와 공식 문서에서 직접 교차 검증해야 하며, CI 단계에서 `npm audit`·SBOM 검사·dependency pinning을 강제하는 등의 방어선을 갖추는 것이 필수다. "그럴듯해 보이는 출력"이 "검증된 사실"이 아니라는 전제를 시스템 설계의 기본값으로 삼아야 한다.

#AI#인용문#논문#LLM#학술
원문 보기 →

관련 기사