AI 애플리케이션을 개발할 때, LLM(Large Language Model)의 성능과 활용도를 고려해야 한다.최근 경량 LLM 프레임워크로 주목받는 vLLM과 Ollama는 각기 다른 장점을 가지고 있어 사용 목적에 따라 적절한 선택이 필요하다.이를 비교하여 어떤 환경에서 어떤 프레임워크를 선택하는 것이 적합한지 살펴본다.vLLM과 Ollama란?vLLM SKYPILOT에서 개발한 GPU 기반 LLM 추론 최적화 프레임워크이다. 빠른 토큰 생성과 효율적인 메모리 관리가 특징이며, 대규모 AI 애플리케이션에 적합하다. PagedAttention 기술을 활용해 메모리를 최적화하고, PyTorch 및 TensorFlow와 쉽게 통합할 수 있다. 특히, 여러 개의 요청을 병렬 처리하여 추론 성능을 극대..
임베딩 모델은 텍스트를 수치화하여 고차원 공간의 벡터로 변환하는 과정을 통해 컴퓨터가 텍스트를 이해할 수 있도록 한다. 이러한 벡터화 과정은 자연어 처리(NLP)에서 핵심적인 역할을 하며, 검색, 분류, 추천 시스템 등 다양한 응용 분야에 활용된다. 이번 글에서는 예시 문장을 기반으로 임베딩 모델이 텍스트를 벡터로 변환하는 과정을 단계별로 설명한다. 1. 텍스트 전처리: 토크나이징(Tokenization)텍스트 벡터화의 첫 번째 단계는 텍스트를 더 작은 단위인 토큰으로 나누는 작업이다. 문장을 단어 또는 서브워드 단위로 분리하며, 이는 임베딩 모델이 입력으로 받을 수 있는 형식으로 변환하기 위함이다.예를 들어,"나는 사과를 먹었고, 저녁에는 오렌지를 먹을 예정이다."라는 문장은 다음과 같이 토큰화된다.[..