연구중요도 보통 7.0

AI 모델이 옳은 답을 주지만 틀린 출처를 가리키는 경우 많음

AI models often give the right answers but point to the wrong sources

The Decoder·2026년 5월 25일 PM 04:30·약 4분 읽기·3회 조회

핵심 요약

▸GPT와 Gemini와 같은 주요 AI 모델이 문서 분석에서 실제 지원하지 않는 문장들을 인용하는 경우가 많음.
▸답변이 옳더라도 인용된 근거가 틀릴 수 있으며, 이는 '인용 홀로우네이션'이라는 문제가 발생함.
▸이 문제는 법학과 의학과 같은 규제 분야에서 큰 위험으로 작용할 수 있으며, 이를 첳계적으로 테스트하기 위한 새로운 CiteVQA 벤치마크가 개발됨.
▸개발자들은 AI 모델의 인용 정확도를 개선하기 위해 새로운 평가 기준을 고려해야 함.

심층 분석

이번 연구는 LLM의 답변 정확성과 근거 인용 정확성을 분리해서 평가했다는 점에서 의미가 크다. 기존 RAG(Retrieval-Augmented Generation) 시스템이나 문서 QA 파이프라인은 보통 "정답 매칭률"만 측정해왔는데, 베이징대 연구진은 모델이 정답을 맞히더라도 그 근거로 제시한 문서 내 문장(citation span)이 실제로는 해당 답변을 뒷받침하지 않는 경우가 빈번함을 발견했다. 이를 "attribution hallucination(귀속 환각)"으로 정의하고, CiteVQA 벤치마크를 통해 GPT-4, Gemini 등 주요 모델에서 체계적으로 측정한 것이다. 기술적으로 이런 현상이 발생하는 이유는 LLM이 retrieval 단계와 generation 단계를 명시적으로 분리하지 않고, 컨텍스트 윈도우에 주어진 문서 전체를 흐리게 참조해 답을 생성한 뒤, 사후적으로 "그럴듯해 보이는" 인용 위치를 끼워 맞추기 때문이다. 즉 인용은 추론의 입력이 아니라 출력의 장식에 가까운 경우가 많다.

개발자 관점에서 이 이슈는 단순한 학술적 발견이 아니라 운영 리스크로 직결된다. 법률 검토 AI, 의료 기록 분석 봇, 사내 정책 Q&A 시스템처럼 "근거 추적성(traceability)"이 규제 요건인 도메인에서, 사용자에게 보여주는 인용 링크나 하이라이트가 실제 답변과 무관할 수 있다는 뜻이기 때문이다. 한국에서도 금융권 컴플라이언스 챗봇, 의료 임상 보조 시스템, 공공기관 민원 응대 LLM 도입이 늘고 있는데, QA 단계에서 "답이 맞느냐"만 검증하고 "인용이 진짜 그 답을 지지하느냐"는 검증하지 않으면 감사·소송 단계에서 치명적 문제가 된다. 특히 RAG 파이프라인을 운영하는 엔지니어라면, 모델이 반환한 citation offset이 실제 retrieved chunk와 의미적으로 일치하는지를 추가 검증해야 한다.

실무적으로 취할 수 있는 액션은 세 가지다. 첫째, **인용 검증 레이어 추가**: LLM이 반환한 답변과 인용 스팬을 별도의 NLI(자연어 추론) 모델이나 작은 검증 LLM에 넣어 "이 스팬이 이 답변을 entail 하는가"를 재확인하는 후처리 파이프라인을 구축한다. 둘째, **프롬프트 설계 변경**: "답을 먼저 쓰고 인용을 붙이는" 방식 대신 "인용 가능한 문장을 먼저 추출하고, 그 문장만 근거로 답하라"는 chain-of-citation 형태로 강제한다. Anthropic의 Citations API나 OpenAI structured output을 활용하면 모델이 인용 위치를 hallucinate하기 어려운 구조로 만들 수 있다. 셋째, **평가 지표 분리**: 자체 평가 셋에서 answer accuracy, citation precision, citation recall을 별도 KPI로 추적해야 한다. CiteVQA 같은 벤치마크는 공개되면 활용해볼 가치가 있다.

장기적으로는 이번 연구가 향후 LLM 평가 표준과 규제 가이드라인에 영향을 줄 가능성이 높다. EU AI Act, 한국의 AI 기본법 논의에서 "설명 가능성"과 "근거 제시 의무"가 명시되는 추세이므로, 단순히 모델 성능 벤치마크 점수가 아닌 "인용 신뢰도"가 제품 인증 요건이 될 수 있다. 따라서 LLM 기반 제품을 만드는 개발자라면 지금부터 인용 검증을 기술 부채가 아닌 핵심 기능으로 다뤄야 하며, 모델 선택 시에도 "인용 정확도"를 별도로 측정한 벤더의 자료를 요구할 필요가 있다.

#AI#LLM#인용 오류#CiteVQA#연구

원문 보기 →

AI 모델이 옳은 답을 주지만 틀린 출처를 가리키는 경우 많음

핵심 요약

심층 분석

관련 기사