Advanced RAG이전의 Naive RAG가 가지고 있었던 한계를 극복하기 위한 다양한 고급 방법론Indexing계층적 구조의 IndexingSemantic ChunkingPre-RetrievalQuery Rewrite, Query ExpansionQuery TransformationRetrievalHybrid Search(키워드 검색 + 시맨틱 검색)Post-RetrievalReranker, Reorder IndexingMetadatametadata에 연도, 출처(파일명, URL) 등을 추가Self-Query Retriever: Query 문으로 데이터 필터링에 활용Summary, Entity 등 추가 정보 생성 후 Indexing추상적인 질문에는 Summary/Entity 활용구체적인 질문에는 작..
Naive RAG검색(Retrieve) - 읽기(Read) 프레임워크사전 단계절차설명IndexingPDF, Word, Markdown 등에서 텍스트 데이터 추출Chunking작은 단위로 분할EmbeddingVector로 인코딩Database임베딩된 Vector 저장실행 단계RetrieveDatabase에서 질문(Query)에 답변하기 위한 정보 검색Generation검색된 정보를 문맥(Context)에 추가하여 답변 생성 Naive RAG의 한계쿼리에 대한 얕은 이해쿼리와 문서 Chunk 사이의 의미론적 유사성이 항상 일치하는 것은 아님검색을 위해 유사도 계산에만 의존하는 것은 쿼리와 문서 간의 관계에 대한 심층적인 탐색이 부족검색 중복 및 노이즈검색된 모든 Chunk를 LLM에 직접 공급하는 것이 항상..
Background할루시네이션할루시네이션은 모델이 잘못된 정보를 자신감 있게 제시최신 정보의 반영 안됨대규모 언어 모델의 학습 과정이 복잡, 시간과 리소스가 많이 소요됨모델의 지식은 학습 데이터의 컷오프 날짜에 제한, 실시간 업데이트의 어려움으로 최신 정보 반영 지연도메인 특화일반적인 LLM은 광범위한 지식을 다루지만, 특정 기업이나 조직의 고유한 정보는 포함하지 않음기업 특화 정보를 활용하기 위해서는 추가적인 파인튜닝이나 맞춤형 학습이 필요지식의 불분명한 출처LLM은 학습 데이터에서 얻은 정보를 종합하여 답변을 생성하므로, 특정 정보의 정확한 출처를 제시하기 어려움 What is RAG?Retrieval(검색) - Augmented(증강) - Generation(생성)기존의 LLM 답변 생성하는 과정에..