공부 메모장
close
프로필 배경
프로필 로고

공부 메모장

  • 분류 전체보기 (50)
    • 개발 (13)
    • k8s (6)
    • Terraform (4)
    • AI (27)
  • Github
  • 홈
  • 태그
  • 방명록

텍스트를 벡터로 변환하는 임베딩 모델의 과정

임베딩 모델은 텍스트를 수치화하여 고차원 공간의 벡터로 변환하는 과정을 통해 컴퓨터가 텍스트를 이해할 수 있도록 한다. 이러한 벡터화 과정은 자연어 처리(NLP)에서 핵심적인 역할을 하며, 검색, 분류, 추천 시스템 등 다양한 응용 분야에 활용된다. 이번 글에서는 예시 문장을 기반으로 임베딩 모델이 텍스트를 벡터로 변환하는 과정을 단계별로 설명한다. 1. 텍스트 전처리: 토크나이징(Tokenization)텍스트 벡터화의 첫 번째 단계는 텍스트를 더 작은 단위인 토큰으로 나누는 작업이다. 문장을 단어 또는 서브워드 단위로 분리하며, 이는 임베딩 모델이 입력으로 받을 수 있는 형식으로 변환하기 위함이다.예를 들어,"나는 사과를 먹었고, 저녁에는 오렌지를 먹을 예정이다."라는 문장은 다음과 같이 토큰화된다.[..

  • format_list_bulleted AI
  • · 2024. 11. 27.
  • textsms

HyDE(Hypothetical Document Embedding)란?

1. HyDE의 개념과 배경HyDE(Hypothetical Document Embedding)는 기존 정보 검색 기술의 한계를 극복하기 위해 고안된 혁신적인 검색 방식이다. LLM(Large Language Model)을 활용해 질문에 대한 가상의 문서를 생성하고, 이를 벡터화하여 검색 결과의 정확성과 의미적 일치를 높인다. 기존의 키워드 기반 검색이나 단순 임베딩 검색 방식은 질문의 맥락이나 의도를 충분히 반영하지 못하는 경우가 많았다. HyDE는 이러한 문제를 해결하기 위해 질문과 관련 있는 가상의 문서를 생성하는 단계적 접근 방식을 채택한다. 2. HyDE의 작동 원리HyDE는 다음의 과정을 통해 작동한다사용자의 질문 입력: 사용자가 특정 질문을 입력한다.가상 문서 생성: 질문을 기반으로 LLM을 ..

  • format_list_bulleted AI
  • · 2024. 11. 26.
  • textsms

다국어 텍스트 임베딩 모델 비교: multilingual-e5-large vs multilingual-e5-large-instruct

텍스트 임베딩 모델은 다양한 언어에서 문장 간 의미를 비교하거나 검색 시스템을 구축하는 데 유용하다.이 글에서는 Hugging Face의 두 개의 인기 있는 임베딩 모델, intfloat/multilingual-e5-large와 intfloat/multilingual-e5-large-instruct의 차이점과 활용 방법을 비교해본다. 1. 공통점두 모델은 모두 xlm-roberta-large를 기반으로 하며, 다국어 환경에서 텍스트 임베딩 작업을 수행하도록 설계되었다. 검색 쿼리와 패시지 간의 유사성을 평가하거나 문장의 의미적 표현을 벡터 공간에 매핑하는 데 효과적이다. 2. 모델 간 차이점특징multilingual-e5-largemultilingual-e5-large-instruct학습 방식대규모 텍스..

  • format_list_bulleted AI
  • · 2024. 11. 26.
  • textsms
Granite-3.0-8B-Instruct

Granite-3.0-8B-Instruct

1. Granite-3.0-8B-Instruct 이란?Granite-3.0-8B-Instruct는 IBM이 개발한 대규모 언어 모델(LLM)로, 약 80억 개의 매개변수를 기반으로 설계되었다. Granite-3.0-8B-Base 모델을 기반으로, 다양한 오픈소스 지침 데이터셋과 IBM 내부 합성 데이터셋을 활용해 미세 조정한 모델이다. 이 모델은 다국어 지원, 코드 생성, 엔터프라이즈 작업에 최적화되어 있으며, 특히 기업용 환경에서 강력한 성능과 비용 효율성을 목표로 제작되었다. 2. 주요 특징아키텍처구조: 디코더 기반 Transformer매개변수 수: 약 8.1B레이어 수: 40Attention Heads: 32Sequence Length: 4096활성화 함수: SwiGLU지원 언어영어, 독일어, 한국..

  • format_list_bulleted AI
  • · 2024. 11. 25.
  • textsms

Llama 3.2-Vision을 사용한 로컬 OCR 애플리케이션 구축하기

OCR(Optical Character Recognition)은 이미지를 텍스트로 변환하는 기술로, 문서 디지털화 및 데이터 추출에 유용하게 활용된다. 이 글에서는 Llama 3.2-Vision 모델과 Ollama 플랫폼을 사용해 로컬 환경에서 OCR 애플리케이션을 구축하는 방법을 소개한다.1. 사전 준비애플리케이션 구축 전에 다음 준비가 필요하다.Python 3.7 이상: 프로젝트를 실행하기 위한 필수 요소.Ollama 플랫폼: Llama 3.2-Vision 모델을 실행하는 데 필요한 소프트웨어.Ollama 설치 방법Ollama 공식 웹사이트에 접속해 운영 체제에 맞는 설치 패키지를 다운로드한다.설치 후, 터미널에서 ollama 명령어를 실행해 설치가 제대로 되었는지 확인한다.2. Llama 3.2-V..

  • format_list_bulleted AI
  • · 2024. 11. 24.
  • textsms

AWS CLI를 활용한 리전별 VPC 확인 및 삭제 스크립트 작성기

1. 배경Cloud Club에서 AWS를 활용해 스터디를 진행했음. 스터디 중에는 AWS 리전을 나누어 사용했으며, 리전당 5개의 VPC 생성 제한이 있어 각 리전에 VPC를 생성하여 실습했음.스터디가 끝난 후, 남아 있는 리전별 VPC 상태를 확인하고, 더 이상 필요하지 않은 리소스를 한 번에 삭제해야 했음. 이를 위해 AWS CLI 스크립트를 작성했음. 2. 리전별 VPC 확인 스크립트먼저, 모든 리전의 VPC 상태를 확인하여 결과를 파일로 저장하는 스크립트를 작성했음. 스크립트#!/bin/bash# 결과를 저장할 파일 초기화output_file="all_regions_vpc_info.txt"> $output_file# AWS에서 사용 가능한 리전 목록 가져오기regions=$(aws ec2 des..

  • format_list_bulleted 개발
  • · 2024. 11. 17.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • 5
  • ···
  • 9
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (50)
    • 개발 (13)
    • k8s (6)
    • Terraform (4)
    • AI (27)
최근 글
인기 글
최근 댓글
태그
  • #테라폼
  • #Rag
  • #k8s
  • #kubernetes
  • #terraform
  • #Retrieval Augmented Generation
  • #AWS
  • #rocky linux 9
  • #쿠버네티스
  • #ollama
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.