CVS 기술 — 하이브리드 RAG, 5개 병렬 리트리버, RRF Fusion 및 기권(Abstention)

수집

5단계 수집 파이프라인이 한 건의 문서를 검색 가능한 근거로 전환합니다.

CVS는 귀사의 지식이 이미 존재하는 곳 — SharePoint, Google Drive, Confluence, S3, 온프레미스 파일 서버 — 에 직접 연결한 뒤, 트리플 OCR과 비전을 통해 PDF, 스캔본, DOCX, PPTX, XLSX, 이미지 등 모든 형식을 파싱합니다. 표, 도형, 페이지 앵커가 파싱 과정에서 온전히 보존되므로, 원본 근거를 의역하여 사라지게 하는 대신 나중에 그대로 반환할 수 있습니다.

스마트 청킹은 맹목적인 고정 폭 분할이 아니라 의미적으로 일관된 조각을 생성합니다. 각 청크는 엔티티, 메타데이터, 문서 차분(diff), 시간적 사실로 보강된 뒤 다층 인덱스에 동시에 기록됩니다: 의미 기반 회상을 위한 pgvector 저장소, 정확한 용어를 위한 BM25F 전문 검색 인덱스, 관계를 위한 Neo4j 시간 지식 그래프, 그리고 메타데이터 및 시간 인덱스. 한 번의 처리로 5개의 검색 표면이 만들어집니다.

SharePoint, Google Drive, Confluence, S3, 로컬 파일 공유를 위한 커넥터 — 복사-붙여넣기 마이그레이션 불필요
PDF, 스캔 PDF, DOCX, PPTX, XLSX, 이미지 전반에 걸친 트리플 OCR 및 비전 보강
표, 도형, 페이지 앵커를 일급 근거로 보존하는 의미 기반 청킹
pgvector, BM25F, Neo4j 시간 지식 그래프, 메타데이터, 시간 저장소로의 다층 인덱싱

**5단계 수집 파이프라인이 한 건의 문서를 검색 가능한 근거로 전환합니다..** CVS는 귀사의 지식이 이미 존재하는 곳 — SharePoint, Google Drive, Confluence, S3, 온프레미스 파일 서버 — 에 직접 연결한 뒤, 트리플 OCR과 비전을 통해 PDF, 스캔본, DOCX, PPTX, XLSX, 이미지 등 모든 형식을 파싱합니다. 표, 도형, 페이지 앵커가 파싱 과정에서 온전히 보존되므로, 원본 근거를 의역하여 사라지게 하는 대신 나중에 그대로 반환할 수 있습니다.

라우팅

의도 라우터가 각 쿼리를 답변 가능한 가장 저렴한 경로로 보냅니다.

모든 질문이 완전한 추론 실행을 필요로 하는 것은 아닙니다. 중앙 의도 라우터가 각 쿼리를 분류하여 네 가지 레인 중 하나로 보냅니다: 즉각적인 제로 토큰 캐시 히트, 표준 고속 하이브리드 검색, 심층 다중 문서 종합, 또는 질문을 하위 쿼리의 방향성 비순환 그래프(DAG)로 분해하는 울트라 추론 경로입니다.

이 토큰 절약형 캐스케이드 덕분에 단순한 질문은 비싼 LLM을 결코 깨우지 않으며, 진정으로 어려운 다중 문서 질문에는 완전한 분해 처리가 적용됩니다. 그 결과 예측 가능한 지연 시간, 예측 가능한 비용, 그리고 쿼리당 토큰의 예상치 못한 변동이 없습니다 — 이 캐스케이드만으로도 단순(naive) RAG 대비 LLM 비용을 85~95% 절감합니다.

인스턴트 레인: 반복되거나 사소하게 답변 가능한 쿼리를 위한 제로 토큰 캐시
표준 레인: 일상 질문 대부분을 위한 고속 하이브리드 검색
심층 레인: 단일 소스로 충분하지 않을 때의 다중 문서 종합
울트라 레인: 복잡한 질문을 감사 가능한 하위 단계로 분해하는 분해 DAG

**의도 라우터가 각 쿼리를 답변 가능한 가장 저렴한 경로로 보냅니다..** 모든 질문이 완전한 추론 실행을 필요로 하는 것은 아닙니다. 중앙 의도 라우터가 각 쿼리를 분류하여 네 가지 레인 중 하나로 보냅니다: 즉각적인 제로 토큰 캐시 히트, 표준 고속 하이브리드 검색, 심층 다중 문서 종합, 또는 질문을 하위 쿼리의 방향성 비순환 그래프(DAG)로 분해하는 울트라 추론 경로입니다.

검색

5개 병렬 리트리버, RRF로 융합, Cross-Encoder로 재정렬.

CVS는 다섯 개의 리트리버를 동시에 실행합니다 — 벡터 검색, 지식 그래프 순회, BM25F 전문 검색, 시간 검색, 메타데이터 필터링. 각각은 코퍼스를 다르게 바라보므로 서로 다른 근거를 포착합니다: 의미, 관계, 정확한 용어, 시간적 유효성, 구조화된 속성. 어떤 단일 리트리버도 완벽할 필요가 없습니다.

이들의 순위화된 출력은 Reciprocal Rank Fusion(k=60)을 통해 병합되고, 이후 Cross-Encoder가 융합된 후보를 재정렬하여 답변 빌더를 위한 긴밀한 근거 집합을 구성합니다. 바로 이 때문에 CVS는 기본 RAG나 Copilot 같은 단일 리트리버 시스템의 일반적인 67~73%에 비해 94.7%의 답변 정확도에 도달합니다.

벡터(pgvector) + Neo4j 지식 그래프 + BM25F + 시간 + 메타데이터를 모두 병렬로
Reciprocal Rank Fusion(k=60)이 다섯 개의 독립적 순위를 하나의 합의로 병합
Cross-Encoder Reranking이 답변 생성 전에 최종 근거 집합을 선명하게 다듬음
단일 리트리버 시스템의 67~73% 대비 94.7%의 답변 정확도

**5개 병렬 리트리버, RRF로 융합, Cross-Encoder로 재정렬..** CVS는 다섯 개의 리트리버를 동시에 실행합니다 — 벡터 검색, 지식 그래프 순회, BM25F 전문 검색, 시간 검색, 메타데이터 필터링. 각각은 코퍼스를 다르게 바라보므로 서로 다른 근거를 포착합니다: 의미, 관계, 정확한 용어, 시간적 유효성, 구조화된 속성. 어떤 단일 리트리버도 완벽할 필요가 없습니다.

기권

적대적 기권: 시스템은 모를 때 모른다는 것을 압니다.

검색 후, CVS는 답변하기 전에 한 가지 질문을 던집니다: 근거가 충분한가? 충분하다면 인라인 인용과 함께 답변하고 해당 상호작용을 위변조 방지 감사 로그에 기록합니다. 충분하지 않다면 그럴듯하게 들리는 응답을 지어내는 대신 솔직하게 기권합니다 — 이것이 바로 대부분의 엔터프라이즈 RAG 파일럿을 무너뜨리는 단 하나의 행동입니다.

기권은 막다른 길이 아닙니다. 답변되지 않은 질문은 지정된 주제 전문가에게 라우팅되고, 그의 검증된 답변이 포착되며, 다음 사람이 즉각적인 응답을 받도록 지식 기반이 패치됩니다. 운영 환경에서 이는 일반 RAG의 약 19% 대비 환각률을 2% 미만으로 낮춥니다.

신뢰도 게이트가 답변 생성 전에 근거 충분성을 평가
충분한 근거 → 인용된 답변과 완전한 감사 로그 항목
불충분한 근거 → 명확한 기권, 이후 전문가 에스컬레이션
포착된 전문가 답변이 기반을 패치 — 일반 RAG의 약 19% 대비 환각률 2% 미만

**적대적 기권: 시스템은 모를 때 모른다는 것을 압니다..** 검색 후, CVS는 답변하기 전에 한 가지 질문을 던집니다: 근거가 충분한가? 충분하다면 인라인 인용과 함께 답변하고 해당 상호작용을 위변조 방지 감사 로그에 기록합니다. 충분하지 않다면 그럴듯하게 들리는 응답을 지어내는 대신 솔직하게 기권합니다 — 이것이 바로 대부분의 엔터프라이즈 RAG 파일럿을 무너뜨리는 단 하나의 행동입니다.

문서가 검증되고 인용 가능한 답변이 되기까지.

5단계 수집 파이프라인이 한 건의 문서를 검색 가능한 근거로 전환합니다.

의도 라우터가 각 쿼리를 답변 가능한 가장 저렴한 경로로 보냅니다.

5개 병렬 리트리버, RRF로 융합, Cross-Encoder로 재정렬.

적대적 기권: 시스템은 모를 때 모른다는 것을 압니다.

가장 어려운 질문으로 CVS를 시험해 보십시오.