'AI' 카테고리의 글 목록 (3 Page)

Advanced_RAG

Advanced RAG이전의 Naive RAG가 가지고 있었던 한계를 극복하기 위한 다양한 고급 방법론Indexing계층적 구조의 IndexingSemantic ChunkingPre-RetrievalQuery Rewrite, Query ExpansionQuery TransformationRetrievalHybrid Search(키워드 검색 + 시맨틱 검색)Post-RetrievalReranker, Reorder IndexingMetadatametadata에 연도, 출처(파일명, URL) 등을 추가Self-Query Retriever: Query 문으로 데이터 필터링에 활용Summary, Entity 등 추가 정보 생성 후 Indexing추상적인 질문에는 Summary/Entity 활용구체적인 질문에는 작..

format_list_bulleted AI
· 2024. 10. 26.
textsms

Naive RAG

Naive RAG검색(Retrieve) - 읽기(Read) 프레임워크사전 단계절차설명IndexingPDF, Word, Markdown 등에서 텍스트 데이터 추출Chunking작은 단위로 분할EmbeddingVector로 인코딩Database임베딩된 Vector 저장실행 단계RetrieveDatabase에서 질문(Query)에 답변하기 위한 정보 검색Generation검색된 정보를 문맥(Context)에 추가하여 답변 생성 Naive RAG의 한계쿼리에 대한 얕은 이해쿼리와 문서 Chunk 사이의 의미론적 유사성이 항상 일치하는 것은 아님검색을 위해 유사도 계산에만 의존하는 것은 쿼리와 문서 간의 관계에 대한 심층적인 탐색이 부족검색 중복 및 노이즈검색된 모든 Chunk를 LLM에 직접 공급하는 것이 항상..

format_list_bulleted AI
· 2024. 10. 25.
textsms

RAG의 배경

Background할루시네이션할루시네이션은 모델이 잘못된 정보를 자신감 있게 제시최신 정보의 반영 안됨대규모 언어 모델의 학습 과정이 복잡, 시간과 리소스가 많이 소요됨모델의 지식은 학습 데이터의 컷오프 날짜에 제한, 실시간 업데이트의 어려움으로 최신 정보 반영 지연도메인 특화일반적인 LLM은 광범위한 지식을 다루지만, 특정 기업이나 조직의 고유한 정보는 포함하지 않음기업 특화 정보를 활용하기 위해서는 추가적인 파인튜닝이나 맞춤형 학습이 필요지식의 불분명한 출처LLM은 학습 데이터에서 얻은 정보를 종합하여 답변을 생성하므로, 특정 정보의 정확한 출처를 제시하기 어려움 What is RAG?Retrieval(검색) - Augmented(증강) - Generation(생성)기존의 LLM 답변 생성하는 과정에..

format_list_bulleted AI
· 2024. 10. 25.
textsms

GPU 메모리 계산과 Can it Run LLM? 도구 활용 가이드

최근 대규모 언어 모델(LLM)이 점점 더 중요한 역할을 하고 있다.이러한 모델을 실행하려면 고성능 GPU가 필요하고, GPU 메모리 요구량을 정확히 계산하는 것이 필수적이다.이 글에서는 GPU 메모리 계산식을 통해 메모리 요구량을 예측하는 방법을 소개하고, Can it Run LLM?이라는 유용한 도구를 활용해 자신이 보유한 하드웨어가 모델을 실행할 수 있는지 빠르게 판단하는 방법을 설명한다. 1. GPU 메모리 계산식LLM과 같은 대규모 모델을 GPU에서 실행할 때, 모델의 파라미터 수와 비트 수에 따라 GPU 메모리 소비량이 달라진다. 아래는 모델의 메모리 요구량을 계산하는 기본적인 공식이다.M: 기가바이트(GB) 단위의 GPU 메모리 요구량P: 모델 파라미터 수 (수십억 개가 될 수 있음)4B: ..

format_list_bulleted AI
· 2024. 10. 13.
textsms

Locust를 활용한 IBM watsonx.ai LLM 응답 부하 테스트

Locust는 부하 테스트를 설정하고 실행하기에 매우 유용한 도구다.Locust를 활용하면 다양한 시스템과 API에 대해 동시성 테스트를 손쉽게 진행할 수 있으며, 웹 기반 UI를 통해 실시간 성능 모니터링도 가능하다. 이번 테스트에서는 IBM watsonx.ai의 Llama 3.1-8b-instruct 모델을 사용해, 여러 사용자가 동시에 API 요청을 보냈을 때 시스템의 응답 성능을 측정했다. 1. Locust 스크립트 작성Locust의 테스트는 Python 스크립트로 작성되며, 가상의 사용자(User)와 이들이 수행할 작업(Task)을 정의한다.이를 통해 다수의 사용자가 어떻게 시스템에 접근하고, 얼마나 많은 요청을 보내는지를 시뮬레이션할 수 있다.1.1. HttpUser 클래스Locust에서 모든..

format_list_bulleted AI
· 2024. 10. 13.
textsms

KoAlpaca 데이터셋을 활용한 Llama 3.1 LoRA 기반 PEFT

Llama 3.1 모델을 LoRA(Low-Rank Adaptation) 기법을 사용해 한국어 데이터셋인 KoAlpaca를 기반으로 Parameter Efficient Fine-Tuning 하는 과정을 다룬다.LoRA는 대규모 언어 모델을 적은 자원으로도 효율적으로 학습할 수 있도록 돕는 PEFT의 한 기법이다. 1. 환경 설정먼저, 모델을 학습하거나 미세 조정하기 위해 필요한 라이브러리를 설치한다.!pip install accelerate # 모델 학습 속도 향상!pip install peft # LoRA를 포함한 효율적 미세 조정!pip install bitsandbytes # 양자화 기술을 통한 메모리 최적화!pip install transformers # 트랜스포머 기반 모델 라이브러..

format_list_bulleted AI
· 2024. 10. 7.
textsms