공부 메모장
close
프로필 배경
프로필 로고

공부 메모장

  • 분류 전체보기 (62)
    • 이것저것 (15)
    • k8s (13)
    • Terraform (4)
    • AI (30)
  • Github
  • 홈
  • 태그
  • 방명록

[LLM Inference를 위한 A to Z – 효율적이고 안정적인 LLM 서빙] 공부

IBM watsonx.ai 솔루션을 맡으면서 내부에서 주로 사용하는 서빙 프레임워크는 TGI와 vLLM이었다. 특히 LLM 서빙은 watsonx.ai뿐만 아니라 다양한 솔루션·서비스에서도 vLLM이 사실상 표준처럼 자리 잡아가는 추세다. 따라서 watsonx.ai에서도 LLM 성능 튜닝을 진행할 때 참고할 수 있도록 LLM Inference를 위한 A to Z – 효율적이고 안정적인 LLM 서빙 글을 읽고 주요 내용을 정리하였다. 0) 개요목표: 학습된 LLM을 빠르고 싸고 안정적으로 돌리는 것핵심 축 6개: KV 캐시 · Attention 커널 · 정밀도/양자화 · 병렬/스케줄링 · 프레임워크 · 롱컨텍스트 전략 1) Prefill vs DecodePrefill: 입력 T개를 한 번에 처리, 레이어별 ..

  • format_list_bulleted AI
  • · 2025. 9. 11.
  • textsms

LLM 평가지표 정리

LLM이 다양하게 등장하면서 성능을 어떻게 평가해야 하는지가 중요해졌고, 계속 중요해지고 있다.전통적인 방식부터 의미 기반, 참조 없는 평가까지 LLM 평가지표를 정리했다.1. 사전 지식1.1 n-gram정의: 문장을 n개의 단어(또는 글자)로 끊어서 만든 연속된 묶음예시: "The cat sleeps"1-gram(unigram): ["The", "cat", "sleeps"]2-gram(bigram): ["The cat", "cat sleeps"]3-gram(trigram): ["The cat sleeps"] 단순히 단어 포함 여부만 보면 의미를 반영하기 어렵다.예: "cat eats fis"” vs "fish eats cat" → 단어는 같아도 의미는 다르다. 1.2 Precision (정밀도)정의: ..

  • format_list_bulleted AI
  • · 2025. 9. 10.
  • textsms

MoE 아키텍처 LLM VRAM 계산법: Dense vs MoE, 뭐가 어떻게 달라졌나

최근 LLM들이 Mixture-of-Experts(MoE) 아키텍처를 도입하면서, 예전 Dense 모델과 VRAM 계산 방식이 달라졌다. Dense는 “파라미터 전부를 항상 사용”하는 반면, MoE는 매 토큰마다 일부 전문가(Top-k) 만 활성화한다. 대표적으로 gpt-oss-120b는 총 117B임에도 단일 80GB GPU에 올릴 수 있다고 하여 화제가 됐다.이것이 가능한 이유는 MoE 가중치 대부분을 4.25-bit(MXFP4) 로 양자화했기 때문이다. 또 Mixtral-8×7B는 총 46.7B / 활성 12.9B 구조로, "총 vs 활성 파라미터" 개념 차이를 잘 보여준다. FP16 원본 기준으로는 약 90~100GB급 VRAM이 필요하다는 가이드/커뮤니티 경험도 여럿 있다 (양자화 시 크게 줄어..

  • format_list_bulleted AI
  • · 2025. 9. 3.
  • textsms
Manus AI 체험기

Manus AI 체험기

얼마 전, 핫했던 Manus AI 에 waitlist를 신청했었다.기대도 안하고 까먹고 있던 와중에, 승인 메일이 왔다.1. 가입메일에 적힌 링크를 통해 가입하자마자, 보너스 크레딧 1000이 내 계정에 들어왔다.이 크레딧을 가지고 AI에게 어떤 작업을 시킬 수 있는지 궁금해서 바로 써봤다.2. Llama 4 모델 조사 & 블로그 글 작성예전 같았으면 직접 조사하고 정리해서 블로그 글을 썼겠지만, 이번엔 자료조사부터 마크다운 초안 작성까지 전부 Manus AI에게 맡겨보았다.그 결과물을 거의 손대지 않고 그대로 블로그에 올렸다. Meta의 Llama 4: 다중 모달 AI의 새로운 시대를 여는 혁신 입력 프롬프트는 단순하게 했다.이번에 라마4 모델이 나왔던데, 이 부분에 대해서 자료조사를 하고, 블로그 글..

  • format_list_bulleted AI
  • · 2025. 4. 6.
  • textsms

Meta의 Llama 4: 다중 모달 AI의 새로운 시대를 여는 혁신

Meta가 2025년 4월 5일, 차세대 AI 모델 시리즈인 Llama 4를 공개했습니다. 이번 출시는 AI 기술 발전에 있어 중요한 이정표가 될 것으로 보입니다. Llama 4는 네이티브 다중 모달 기능과 혁신적인 혼합 전문가(Mixture of Experts, MoE) 아키텍처를 갖춘 최초의 오픈 웨이트 모델로, AI 개발 생태계에 새로운 가능성을 제시합니다.이 글에서는 Llama 4의 주요 특징, 이전 모델과의 차이점, 그리고 AI 커뮤니티에 미치는 영향에 대해 자세히 살펴보겠습니다.Llama 4 모델 시리즈 소개Meta의 Llama 4는 Scout, Maverick, Behemoth 세 가지 모델로 구성되어 있으며, 각각 다른 크기와 성능 특성을 가지고 있습니다.Llama 4 Scout: 효율성과..

  • format_list_bulleted AI
  • · 2025. 4. 6.
  • textsms
MCP(Model Context Protocol)란?

MCP(Model Context Protocol)란?

최근 인공지능(AI) 분야에서는 AI 모델이 외부 데이터 소스 및 소프트웨어와 효율적으로 상호작용할 수 있도록 돕는 MCP(Model Context Protocol)가 주목받고 있습니다. 이 글에서는 MCP의 개념, 기술적 구조, 기존 API 방식과의 차이점, 그리고 주요 활용 사례에 대해 살펴보겠습니다.MCP란 무엇인가?MCP는 대규모 언어 모델(LLM)이 외부 데이터와 시스템을 더 효과적으로 활용할 수 있도록 설계된 개방형 표준 프로토콜입니다. 기존에는 AI가 API(Application Programming Interface)를 통해 다른 프로그램과 상호작용할 수 있었지만, MCP는 이러한 기능을 더욱 직관적이고 유연하게 만들어줍니다. 예를 들어, AI가 단순히 “오늘 뉴욕의 날씨는 어떤가요?”라는..

  • format_list_bulleted AI
  • · 2025. 3. 23.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • 5
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (62)
    • 이것저것 (15)
    • k8s (13)
    • Terraform (4)
    • AI (30)
최근 글
인기 글
최근 댓글
태그
  • #AWS
  • #Retrieval Augmented Generation
  • #k8s
  • #OpenShift
  • #Rag
  • #kubernetes
  • #쿠버네티스
  • #terraform
  • #ex280
  • #ollama
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바