임베딩 모델은 텍스트를 수치화하여 고차원 공간의 벡터로 변환하는 과정을 통해 컴퓨터가 텍스트를 이해할 수 있도록 한다. 이러한 벡터화 과정은 자연어 처리(NLP)에서 핵심적인 역할을 하며, 검색, 분류, 추천 시스템 등 다양한 응용 분야에 활용된다. 이번 글에서는 예시 문장을 기반으로 임베딩 모델이 텍스트를 벡터로 변환하는 과정을 단계별로 설명한다. 1. 텍스트 전처리: 토크나이징(Tokenization)텍스트 벡터화의 첫 번째 단계는 텍스트를 더 작은 단위인 토큰으로 나누는 작업이다. 문장을 단어 또는 서브워드 단위로 분리하며, 이는 임베딩 모델이 입력으로 받을 수 있는 형식으로 변환하기 위함이다.예를 들어,"나는 사과를 먹었고, 저녁에는 오렌지를 먹을 예정이다."라는 문장은 다음과 같이 토큰화된다.[..
1. Granite-3.0-8B-Instruct 이란?Granite-3.0-8B-Instruct는 IBM이 개발한 대규모 언어 모델(LLM)로, 약 80억 개의 매개변수를 기반으로 설계되었다. Granite-3.0-8B-Base 모델을 기반으로, 다양한 오픈소스 지침 데이터셋과 IBM 내부 합성 데이터셋을 활용해 미세 조정한 모델이다. 이 모델은 다국어 지원, 코드 생성, 엔터프라이즈 작업에 최적화되어 있으며, 특히 기업용 환경에서 강력한 성능과 비용 효율성을 목표로 제작되었다. 2. 주요 특징아키텍처구조: 디코더 기반 Transformer매개변수 수: 약 8.1B레이어 수: 40Attention Heads: 32Sequence Length: 4096활성화 함수: SwiGLU지원 언어영어, 독일어, 한국..