아마존 베드로크 에이전트코어에서 커스텀 코드 기반 평가자 구축
Build custom code-based evaluators in Amazon Bedrock AgentCore
핵심 요약
- ▸금융 시장 인텔리전스 에이전트에 대해 4개의 람다 기반 커스텀 평가자를 구현하고 에이전트코어에 등록합니다.
- ▸온디맨드 및 온라인 모드에서 평가자를 실행하는 방법을 설명합니다.
- ▸커스텀 평가자와 내장 평가자를 결합하는 방법 및 AWS 서비스를 통한 사실 검증, PII 탐지, 실시간 알림 기능을 사용하는 방법을 보여줍니다.
- ▸이 기사에서는 개발자가 AWS 서비스와 결합하여 커스텀 평가자를 구축하는 방법을 보여주며, 실제 시나리오에서의 적용 가능성을 탐색합니다.
심층 분석
Amazon Bedrock AgentCore의 커스텀 코드 평가자(custom code-based evaluators)는 AI 에이전트의 출력 품질을 검증하기 위해 개발자가 직접 Lambda 함수로 평가 로직을 작성하고 등록할 수 있게 하는 기능이다. 기존 LLM-as-a-judge 방식의 빌트인 평가자가 정형화된 일반 지표(정확성, 관련성, 환각 여부)를 측정하는 데 강점이 있다면, 코드 기반 평가자는 도메인 특화 규칙·결정적(deterministic) 검증·외부 시스템 호출이 필요한 시나리오를 채운다. 동작 방식은 에이전트의 입력·출력·트레이스를 Lambda에 페이로드로 전달하면, 함수가 점수와 메타데이터를 반환해 AgentCore Observability에 기록되는 구조다. 평가 모드는 두 가지로, 배치성 회귀 테스트에 적합한 on-demand 모드와 운영 트래픽에 실시간으로 적용되는 online 모드를 선택할 수 있다.
블로그에서 제시한 금융 시장 인텔리전스 에이전트 예시에서는 네 가지 평가자가 다른 AWS 서비스와 결합해 동작한다. 예컨대 Bedrock Knowledge Bases나 외부 API를 호출해 응답에 포함된 수치·사실관계를 검증하는 grounded fact-checking, Amazon Comprehend로 개인정보(PII) 누출을 탐지하는 평가자, 그리고 임계값을 초과하면 SNS·EventBridge로 즉시 알림을 보내는 실시간 알람 평가자가 대표적이다. 이는 단순한 점수 산출을 넘어, 평가 파이프라인 자체를 사고 대응 및 컴플라이언스 체크포인트로 활용할 수 있다는 점에서 의미가 크다. 빌트인 평가자와 코드 평가자를 함께 등록해 일반 품질 지표는 LLM judge에 맡기고, 규제·도메인 검증은 코드로 처리하는 하이브리드 구성이 권장 패턴이다.
한국 개발자 관점에서 이 기능의 실질적 가치는 "프로덕션 에이전트의 관측·거버넌스 표준화"에 있다. 그동안 LangSmith, Langfuse 등 별도 평가 플랫폼을 붙이거나 자체 Lambda 후처리 파이프라인을 구축해 해결하던 작업이 AgentCore 단일 콘솔에서 통합 관리되므로, 금융·헬스케어·공공 등 PII와 사실 검증 요구가 강한 도메인에서 도입 부담이 크게 줄어든다. 특히 online 모드는 운영 환경에서 응답이 사용자에게 도달하기 전·후에 검증 훅을 자동 삽입하는 형태이므로, 사후 분석이 아닌 실시간 가드레일로 활용 가능하다.
도입을 검토한다면 우선 Lambda 평가자의 페이로드 스키마와 반환 포맷, 그리고 평가 호출당 추가되는 레이턴시·비용 구조를 먼저 측정할 필요가 있다. online 모드에서는 평가 실패가 곧 사용자 응답 지연이나 차단으로 이어질 수 있어, 타임아웃·서킷브레이커 패턴과 평가자별 비동기 처리 여부를 설계 단계에서 결정해야 한다. 또한 Comprehend·Knowledge Bases 등 다른 AWS 서비스를 호출하는 평가자는 IAM 권한 분리, VPC 엔드포인트 설정, 호출량 기반 과금 추정이 함께 검토되어야 하며, 평가 기준 자체를 코드로 관리하는 만큼 Git 기반 버전 관리와 변경 시 회귀 테스트 데이터셋 운영 체계를 미리 갖춰두는 것이 권장된다.
관련 기사
업무 중 ai에 물어본 영어가 나만의 퀴즈가 된다면 lingoq
Naver CLOVA Tech Blog ·
PwC는 클라우드를 도입해 기술 개발 및 거래 실행을 통해 기업 기능을 혁신하고 있다
Anthropic News ·
블랙스톤, 헬먼 앤드 프리드먼, 골드만삭스와 함께 새로운 기업 AI 서비스 회사 설립
Anthropic News ·
GITEX AI 유럽
AI Business · 방금 전
5개 실험실, 5개의 사고: 소형 모델을 기반으로 한 다중 모델 금융 드라마 구축
HuggingFace Blog · 2026년 6월 7일 AM 04:02