'분류 전체보기' 카테고리의 글 목록 (4 Page)

GPU 메모리 계산과 Can it Run LLM? 도구 활용 가이드

최근 대규모 언어 모델(LLM)이 점점 더 중요한 역할을 하고 있다.이러한 모델을 실행하려면 고성능 GPU가 필요하고, GPU 메모리 요구량을 정확히 계산하는 것이 필수적이다.이 글에서는 GPU 메모리 계산식을 통해 메모리 요구량을 예측하는 방법을 소개하고, Can it Run LLM?이라는 유용한 도구를 활용해 자신이 보유한 하드웨어가 모델을 실행할 수 있는지 빠르게 판단하는 방법을 설명한다. 1. GPU 메모리 계산식LLM과 같은 대규모 모델을 GPU에서 실행할 때, 모델의 파라미터 수와 비트 수에 따라 GPU 메모리 소비량이 달라진다. 아래는 모델의 메모리 요구량을 계산하는 기본적인 공식이다.M: 기가바이트(GB) 단위의 GPU 메모리 요구량P: 모델 파라미터 수 (수십억 개가 될 수 있음)4B: ..

format_list_bulleted AI
· 2024. 10. 13.
textsms

Locust를 활용한 IBM watsonx.ai LLM 응답 부하 테스트

Locust는 부하 테스트를 설정하고 실행하기에 매우 유용한 도구다.Locust를 활용하면 다양한 시스템과 API에 대해 동시성 테스트를 손쉽게 진행할 수 있으며, 웹 기반 UI를 통해 실시간 성능 모니터링도 가능하다. 이번 테스트에서는 IBM watsonx.ai의 Llama 3.1-8b-instruct 모델을 사용해, 여러 사용자가 동시에 API 요청을 보냈을 때 시스템의 응답 성능을 측정했다. 1. Locust 스크립트 작성Locust의 테스트는 Python 스크립트로 작성되며, 가상의 사용자(User)와 이들이 수행할 작업(Task)을 정의한다.이를 통해 다수의 사용자가 어떻게 시스템에 접근하고, 얼마나 많은 요청을 보내는지를 시뮬레이션할 수 있다.1.1. HttpUser 클래스Locust에서 모든..

format_list_bulleted AI
· 2024. 10. 13.
textsms

KoAlpaca 데이터셋을 활용한 Llama 3.1 LoRA 기반 PEFT

Llama 3.1 모델을 LoRA(Low-Rank Adaptation) 기법을 사용해 한국어 데이터셋인 KoAlpaca를 기반으로 Parameter Efficient Fine-Tuning 하는 과정을 다룬다.LoRA는 대규모 언어 모델을 적은 자원으로도 효율적으로 학습할 수 있도록 돕는 PEFT의 한 기법이다. 1. 환경 설정먼저, 모델을 학습하거나 미세 조정하기 위해 필요한 라이브러리를 설치한다.!pip install accelerate # 모델 학습 속도 향상!pip install peft # LoRA를 포함한 효율적 미세 조정!pip install bitsandbytes # 양자화 기술을 통한 메모리 최적화!pip install transformers # 트랜스포머 기반 모델 라이브러..

format_list_bulleted AI
· 2024. 10. 7.
textsms

PEFT: Parameter-Efficient Fine-Tuning

PEFT(Parameter-Efficient Fine-Tuning)는 대규모 사전 학습된 모델을 조금만 수정해서 특정 작업에 적합하도록 만드는 기법이다.요즘 AI 모델은 매우 크고 복잡해서, 모든 파라미터를 다시 학습하는 것은 시간과 자원이 너무 많이 들기 때문에, PEFT는 전체 모델을 다시 학습하지 않고, 필요한 부분만 효율적으로 조정하는 것을 목표로 한다. PEFT에는 여러 가지 기법이 있는데, 여기서는 대표적인 Adapter, LoRA, Prefix Tuning, Prompt Tuning에 대해 알아볼 것이다. 추가적으로, 나는 예시를 들어 이해하는 것이 편리했기 때문에, 예시 문구도 함께 추가했다.PEFT1. AdapterAdapter는 사전 학습된 모델의 각 층에 작은 모듈을 추가하는 방식이다..

format_list_bulleted AI
· 2024. 9. 10.
textsms

[Prometheus & Grafana] kube-prometheus-stack으로 프로메테우스 그라파나 설치

최근 사이드 프로젝트로 진행하는 잔디일기 운영과 GitHub PR 코드 리뷰 자동화를 위한 LLM 운영 등을 Kubernetes 클러스터에서 진행하다 보니, 각 서비스들이 원활하게 작동하는지 지속적으로 확인할 필요성을 느끼게 되었다. 특히 클러스터 내 여러 서비스들이 자원 사용량이나 상태에 따라 성능이 저하되거나 오류가 발생할 수 있기 때문에, 안정성과 성능을 유지하기 위해 모니터링이 필수적이라고 생각하게 되었다. 이로 인해 Kubernetes 환경에 적합한 Prometheus와 Grafana를 활용한 모니터링 솔루션을 구축해보기로 했다. *운영 환경은 Rocky Linux 9이다.Prometheus는 데이터를 수집하고, Grafana는 이를 시각적으로 보여주는 역할을 한다.간단하게 kube-promet..

format_list_bulleted k8s
· 2024. 8. 20.
textsms

LLM을 활용한 GitHub PR 코드 리뷰 자동화

1. 시작하게 된 계기사이드 프로젝트 팀에서 우리는 코드 리뷰 프로세스의 효율성을 높이기 위해 다양한 방법을 고민하던 중이었다.팀원들은 종종 PR이 너무 많이 쌓여 시간 내에 리뷰를 완료하기 힘들다는 문제를 제기했고, 코드 리뷰를 자동화할 수 있는 방안을 모색하게 되었다.그 중, 자연어 처리 기술인 LLM(Large Language Model)을 활용해 코드 리뷰를 자동화하는 아이디어가 나왔다.LLM은 주로 텍스트 분석에 사용되지만, 최근에는 코드 이해 및 생성 능력까지 발전하고 있어, 이를 통해 PR 리뷰 과정에서 코드의 품질을 평가하고, 개선할 수 있는 피드백을 제공할 수 있을 것이라고 생각했다. 이를 기반으로 우리는 LLM을 활용한 자동화 코드 리뷰 시스템을 구축하기로 했다.2. 아키텍처이 프로젝트..

format_list_bulleted AI
· 2024. 8. 18.
textsms