공부 메모장
close
프로필 배경
프로필 로고

공부 메모장

  • 분류 전체보기 (62)
    • 이것저것 (15)
    • k8s (13)
    • Terraform (4)
    • AI (30)
  • Github
  • 홈
  • 태그
  • 방명록

[LLM Inference를 위한 A to Z – 효율적이고 안정적인 LLM 서빙] 공부

IBM watsonx.ai 솔루션을 맡으면서 내부에서 주로 사용하는 서빙 프레임워크는 TGI와 vLLM이었다. 특히 LLM 서빙은 watsonx.ai뿐만 아니라 다양한 솔루션·서비스에서도 vLLM이 사실상 표준처럼 자리 잡아가는 추세다. 따라서 watsonx.ai에서도 LLM 성능 튜닝을 진행할 때 참고할 수 있도록 LLM Inference를 위한 A to Z – 효율적이고 안정적인 LLM 서빙 글을 읽고 주요 내용을 정리하였다. 0) 개요목표: 학습된 LLM을 빠르고 싸고 안정적으로 돌리는 것핵심 축 6개: KV 캐시 · Attention 커널 · 정밀도/양자화 · 병렬/스케줄링 · 프레임워크 · 롱컨텍스트 전략 1) Prefill vs DecodePrefill: 입력 T개를 한 번에 처리, 레이어별 ..

  • format_list_bulleted AI
  • · 2025. 9. 11.
  • textsms

LLM 평가지표 정리

LLM이 다양하게 등장하면서 성능을 어떻게 평가해야 하는지가 중요해졌고, 계속 중요해지고 있다.전통적인 방식부터 의미 기반, 참조 없는 평가까지 LLM 평가지표를 정리했다.1. 사전 지식1.1 n-gram정의: 문장을 n개의 단어(또는 글자)로 끊어서 만든 연속된 묶음예시: "The cat sleeps"1-gram(unigram): ["The", "cat", "sleeps"]2-gram(bigram): ["The cat", "cat sleeps"]3-gram(trigram): ["The cat sleeps"] 단순히 단어 포함 여부만 보면 의미를 반영하기 어렵다.예: "cat eats fis"” vs "fish eats cat" → 단어는 같아도 의미는 다르다. 1.2 Precision (정밀도)정의: ..

  • format_list_bulleted AI
  • · 2025. 9. 10.
  • textsms

MoE 아키텍처 LLM VRAM 계산법: Dense vs MoE, 뭐가 어떻게 달라졌나

최근 LLM들이 Mixture-of-Experts(MoE) 아키텍처를 도입하면서, 예전 Dense 모델과 VRAM 계산 방식이 달라졌다. Dense는 “파라미터 전부를 항상 사용”하는 반면, MoE는 매 토큰마다 일부 전문가(Top-k) 만 활성화한다. 대표적으로 gpt-oss-120b는 총 117B임에도 단일 80GB GPU에 올릴 수 있다고 하여 화제가 됐다.이것이 가능한 이유는 MoE 가중치 대부분을 4.25-bit(MXFP4) 로 양자화했기 때문이다. 또 Mixtral-8×7B는 총 46.7B / 활성 12.9B 구조로, "총 vs 활성 파라미터" 개념 차이를 잘 보여준다. FP16 원본 기준으로는 약 90~100GB급 VRAM이 필요하다는 가이드/커뮤니티 경험도 여럿 있다 (양자화 시 크게 줄어..

  • format_list_bulleted AI
  • · 2025. 9. 3.
  • textsms
집에서 ISO 저장용 NAS 만들기: Proxmox + Rocky Linux + Copyparty + Cloudflare + Gmail SMTP 자동 알림까지

집에서 ISO 저장용 NAS 만들기: Proxmox + Rocky Linux + Copyparty + Cloudflare + Gmail SMTP 자동 알림까지

집에 구축한 Proxmox 기반 미니PC 서버에 ISO 파일 백업용 NAS가 필요해져서 간단한 파일 서버를 구성하기로 했다.웹 UI 기반이며 인증/권한 관리가 가능한 copyparty를 선택했고, 외부에서도 접속할 수 있도록 Cloudflare Tunnel을 이용해 임시 URL을 자동 발급 받도록 설정하였다.Gmail SMTP를 이용해 URL을 메일로 전달하는 자동화까지 완료하였다.1. LXC 템플릿 다운로드 및 컨테이너 생성Proxmox의 LXC 템플릿 다운로드 화면에서 rockylinux-9-default 이미지를 선택하고 다운로드한다.그 다음, Proxmox 웹 UI에서 "Create CT" 버튼을 눌러 컨테이너를 생성한다. 이때 hostname, root password, 네트워크 설정 등을 입력..

  • format_list_bulleted 이것저것
  • · 2025. 8. 3.
  • textsms
클라우드에 진심인 사람들의 모임, Cloud Club 후기

클라우드에 진심인 사람들의 모임, Cloud Club 후기

평소 저의 블로그 글을 읽어보신 분들은 아시겠지만, 해당 글은 기존 어투와 다르게 썼습니다.왜냐하면 클라우드 클럽이 너무 괜찮은 커뮤니티라 조금이라도 더 많은 분들이 이 커뮤니티를 알게 되었으면 하는 마음으로, 이번만큼은 공손한 마음으로 진지하게 써보려고 하기 때문입니다.Cloud Club은 어떤 곳?Cloud Club은 특정 벤더에 종속되지 않는 vendor-neutral한 클라우드 연합 동아리입니다.대학생부터 현직자까지 다양한 구성원이 함께하며, 스터디 / 프로젝트 / 세미나 / 번개 / 네트워킹 등을 통해 함께 성장하는 커뮤니티입니다.🛠 제가 참여한 클클 활동들저는 6기 멤버, 7기 운영진으로 활동했습니다.스터디, TF, 행사 등 정말 다양한 활동에 참여하며 인프라에 대해 넓고 깊게 배울 수 있었..

  • format_list_bulleted 이것저것
  • · 2025. 7. 29.
  • textsms

[EX280-Certified OpenShift Administrator Exam 준비] Configuring Application Security & Managing Operators

🔐 1. Configuring Application Security1.1 서비스 어카운트(Service Accounts) 생성 및 구성사용자 계정이 아닌, 파드나 서비스가 API에 접근할 수 있게 하는 자동화 전용 계정기본 제공 서비스 계정builder, deployer, default 등이 네임스페이스에 자동 생성생성 및 권한 부여oc create sa my-saoc adm policy add-role-to-user edit system:serviceaccount::my-saedit 권한을 부여하여 리소스 생성·수정 등 수행 가능 API 토큰 사용Secret 형태로 자동 생성되며, 외부 앱에서도 인증용으로 사용 가능1.2 Security Context Constraints (SCC)로 권한 관리파드가..

  • format_list_bulleted k8s
  • · 2025. 6. 26.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • ···
  • 11
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (62)
    • 이것저것 (15)
    • k8s (13)
    • Terraform (4)
    • AI (30)
최근 글
인기 글
최근 댓글
태그
  • #Retrieval Augmented Generation
  • #OpenShift
  • #Rag
  • #ollama
  • #kubernetes
  • #k8s
  • #쿠버네티스
  • #terraform
  • #AWS
  • #ex280
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바