← 목록으로
LLM중요도 높음 9.0

구조화된 쿼리(StruQ) 및 선호도 최적화(SecAlign)를 통한 프롬프트 주입 방어

Defending against Prompt Injection with Structured Queries (StruQ) and Preference Optimization (SecAlign)

Berkeley AI Research··4분 읽기·8회 조회

핵심 요약

  • LLM 통합 애플리케이션에 대한 주요 위협인 프롬프트 주입 공격을 방어하기 위해 StruQ와 SecAlign이라는 두 가지 방어 기법을 제안합니다.
  • StruQ는 입력 데이터에서 주입된 지시문을 무시하도록 모델을 훈련시키고, SecAlign은 선호도 최적화를 통해 원치 않는 응답을 줄여 안정성을 높입니다.
  • 두 기법은 계산 및 인력 비용 없이도 효과적인 보안을 제공하며, 공격 성공률을 극적으로 낮춥니다.
  • LLM 애플리케이션의 보안 강화를 위해 프롬프트 주입 방어 기법을 구현하는 것이 중요합니다.

심층 분석

프롬프트 인젝션은 OWASP이 LLM 통합 애플리케이션의 1위 보안 위협으로 지정한 공격 기법으로, 신뢰할 수 있는 시스템 프롬프트와 신뢰할 수 없는 외부 데이터가 하나의 입력으로 결합될 때 발생한다. 공격자는 외부 데이터(웹 검색 결과, 사용자 문서, API 응답 등)에 악의적인 명령어를 삽입하여 LLM이 원래 의도된 지시가 아닌 주입된 지시를 따르도록 유도한다. 이 논문은 프롬프트 인젝션의 근본 원인을 두 가지로 진단하는데, 첫째는 LLM 입력에서 프롬프트와 데이터 사이에 구조적 구분이 없다는 점이고, 둘째는 LLM이 입력 내 어디에 있든 명령어를 탐지하고 따르도록 훈련되어 있다는 점이다.

이를 해결하기 위해 제안된 StruQ와 SecAlign은 모두 파인튜닝 기반 방어 기법이다. 먼저 Secure Front-End라는 전처리 계층이 [MARK] 같은 특수 토큰으로 프롬프트와 데이터를 명시적으로 분리하고, 외부 데이터에서 이 구분자를 필터링하여 공격자가 구조를 조작할 수 없게 만든다. StruQ는 훈련 시 프롬프트 인젝션을 시뮬레이션한 데이터셋으로 지도학습(SFT)을 수행하여, 모델이 데이터 영역의 주입된 명령어를 무시하도록 학습시킨다. SecAlign은 여기서 한 단계 더 나아가 DPO(Direct Preference Optimization) 기반의 선호도 최적화를 적용한다. 정상 응답을 선호(desirable) 응답으로, 주입된 명령어에 따른 응답을 비선호(undesirable) 응답으로 라벨링하여, 두 응답 간 확률 격차를 크게 벌림으로써 StruQ보다 훨씬 강건한 방어력을 달성한다. 실험 결과 SecAlign은 최적화 기반 공격에 대해서도 ASR(공격 성공률)을 15% 미만으로 낮추면서, AlpacaEval2 기준 범용 성능은 거의 손실 없이 유지했다.

실무 개발자에게 이 연구가 시사하는 바는 명확하다. Google Docs, Slack AI, ChatGPT 등 이미 프로덕션 환경의 LLM 시스템들이 프롬프트 인젝션에 취약한 것으로 입증된 상황에서, RAG 파이프라인이나 에이전트 기반 시스템을 구축하는 개발자라면 외부 데이터가 LLM 입력에 합류하는 지점을 반드시 위협 모델링해야 한다. 특히 웹 크롤링 결과, 사용자 업로드 문서, 외부 API 응답 등을 LLM에 전달하는 모든 경로가 잠재적 공격 표면이 된다. Secure Front-End처럼 입력 구조를 명시적으로 분리하는 아키텍처 패턴은 당장 적용할 수 있는 실용적 방어 전략이며, 커스텀 모델을 운영하는 팀이라면 SecAlign 방식의 선호도 최적화 파인튜닝을 통해 모델 수준의 방어력을 확보하는 것도 고려할 만하다.

개발자가 당장 취해야 할 액션으로는, 첫째 자사 LLM 파이프라인에서 신뢰 경계(trust boundary)를 명확히 정의하고 외부 데이터 입력 시 구조적 분리를 적용하는 것이다. 둘째, 프롬프트 인젝션 테스트를 CI/CD 파이프라인에 포함시켜 배포 전 보안 검증을 자동화해야 한다. 셋째, 논문에서 제시한 Instruction Hierarchy(OpenAI)나 CaMel 같은 시스템 수준 가드레일도 함께 검토하여 다층 방어 전략을 수립하는 것이 권장된다. 프롬프트 인젝션은 단일 기법으로 완전히 차단하기 어려운 만큼, 입력 필터링 + 모델 파인튜닝 + 출력 검증의 방어 심층화(Defense in Depth) 접근이 필수적이다.

#LLM 보안#프롬프트 주입 방어#SecAlign#StruQ#모델 훈련
원문 보기 →

관련 기사