← 목록으로
업계동향중요도 높음 8.0

Sentence Transformers를 활용한 멀티모달 임베딩 및 리랭커 모델 트레이닝 및 학습

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

HuggingFace Blog··4분 읽기·20회 조회

핵심 요약

  • Sentence Transformers를 사용하여 멀티모달 임베딩 모델을 트레이닝하고 학습할 수 있습니다.
  • 리랭커 모델을 훈련하여 검색 결과의 정확도와 관련성을 향상시킬 수 있습니다.
  • 다양한 데이터 유형을 처리하고 모델의 성능을 최적화하는 방법을 제공합니다.
  • 개발자들은 Sentence Transformers를 활용해 멀티모달 데이터 처리 및 검색 성능을 개선할 수 있습니다.

심층 분석

Sentence Transformers는 BERT 계열 모델을 임베딩 용도로 파인튜닝하기 위한 사실상의 표준 프레임워크로, 최근 v3~v4 업데이트를 거치며 텍스트 단일 모달을 넘어 이미지·텍스트를 함께 처리하는 멀티모달 임베딩과 Cross-Encoder 기반 Reranker 학습까지 공식 지원 범위를 확장했습니다. 기술적으로 임베딩 모델(Bi-Encoder)은 쿼리와 문서를 각각 벡터 공간에 투영해 코사인 유사도로 대량 후보를 빠르게 검색하는 역할을 하고, Reranker(Cross-Encoder)는 쿼리-문서 쌍을 함께 입력받아 어텐션으로 정밀 점수를 매겨 상위 후보를 재정렬합니다. 멀티모달 학습에서는 CLIP, SigLIP, ColPali 같은 비전-언어 백본 위에 MultipleNegativesRankingLoss, CachedMultipleNegativesRankingLoss, MarginMSELoss 같은 대조학습·증류 손실을 결합해 이미지-캡션 쌍이나 문서 스크린샷-질의 쌍으로 파인튜닝하며, 새 Trainer API는 Hugging Face Transformers의 `Trainer`와 동일한 인터페이스로 평가·로깅·DDP·FSDP·그라디언트 체크포인팅을 자연스럽게 제공합니다.

현업 엔지니어 입장에서 이 변화는 특히 RAG와 검색 파이프라인에 큰 영향을 미칩니다. 그동안 한국어·도메인 특화 검색 품질을 올리려면 OpenAI `text-embedding-3`, Cohere Rerank, Voyage 등의 유료 API에 의존하거나 직접 복잡한 학습 코드를 짜야 했지만, 이제는 자사 로그·FAQ·매뉴얼 데이터를 Sentence Transformers 포맷(anchor-positive, triplet, score 쌍)으로 정리한 뒤 수십 줄의 스크립트로 `bge-m3`, `jina-embeddings-v3`, `gte-multilingual` 같은 오픈 모델을 파인튜닝해 API 대비 수 배 낮은 비용과 지연시간으로 배포할 수 있습니다. 특히 멀티모달 지원은 PDF·전표·UI 스크린샷을 OCR 없이 페이지 이미지 그대로 임베딩하는 ColPali/ColQwen 스타일의 "Vision RAG" 구축을 가능하게 만들어, 기존 파서 체인의 정보 손실 문제를 근본적으로 해소합니다.

개발자가 실제로 챙겨야 할 포인트는 세 가지입니다. 첫째, 학습 데이터 구성 전략이 모델 품질을 좌우하므로 단순 positive 쌍보다는 **하드 네거티브 마이닝**(BM25·기존 임베딩으로 유사하지만 오답인 문서를 샘플링)을 반드시 적용해야 하며, 이를 돕는 `mine_hard_negatives` 유틸이 라이브러리에 내장되어 있습니다. 둘째, Bi-Encoder와 Cross-Encoder는 **각각의 역할이 다르므로 함께 학습·배포**해야 효과가 큽니다 — 임베딩으로 top-100을 뽑고 Reranker로 top-10을 정렬하는 2단계 구조가 품질/지연시간 트레이드오프에서 가장 유리합니다. 셋째, 평가 지표(`InformationRetrievalEvaluator`, NDCG@k, MRR)를 학습 루프에 반드시 꽂아 두고 프로덕션 데이터 스냅샷으로 지속적으로 회귀 테스트를 수행해야 도메인 드리프트에 대응할 수 있습니다.

마지막으로 라이선스와 운영 측면도 고려할 필요가 있습니다. 백본으로 자주 쓰이는 `bge`, `e5`, `jina` 계열은 상업적 사용 조건이 조금씩 다르고, ColPali 기반 체크포인트는 Gemma·Qwen 라이선스를 상속하므로 사내 배포 전에 법무 검토가 필요합니다. 또한 멀티모달 모델은 이미지 전처리 파이프라인(`AutoImageProcessor`)과 벡터 차원(768~1024)이 텍스트 전용 대비 커서 벡터DB(Qdrant, Milvus, pgvector)의 인덱스 타입과 HNSW 파라미터를 재튜닝해야 하며, 서빙 시에는 `sentence-transformers`를 그대로 쓰기보다 ONNX·OpenVINO로 내보내거나 TEI(Text Embeddings Inference) 서버로 감싸 처리량을 2~5배 끌어올리는 것이 정석입니다.

#Sentence Transformers#멀티모달#리랭커#모델 트레이닝#검색 최적화
원문 보기 →

관련 기사