AI 애플리케이션을 개발할 때, LLM(Large Language Model)의 성능과 활용도를 고려해야 한다.최근 경량 LLM 프레임워크로 주목받는 vLLM과 Ollama는 각기 다른 장점을 가지고 있어 사용 목적에 따라 적절한 선택이 필요하다.이를 비교하여 어떤 환경에서 어떤 프레임워크를 선택하는 것이 적합한지 살펴본다.vLLM과 Ollama란?vLLM SKYPILOT에서 개발한 GPU 기반 LLM 추론 최적화 프레임워크이다. 빠른 토큰 생성과 효율적인 메모리 관리가 특징이며, 대규모 AI 애플리케이션에 적합하다. PagedAttention 기술을 활용해 메모리를 최적화하고, PyTorch 및 TensorFlow와 쉽게 통합할 수 있다. 특히, 여러 개의 요청을 병렬 처리하여 추론 성능을 극대..
Kubernetes에 Ollama(LLM REST API)를 배포배경비즈니스와 실제 시나리오에서 서비스의 확장성과 고가용성은 매우 중요하다. Kubernetes는 이러한 작업을 조율하는 도구로 각광받고 있다. 여러 모델을 선택할 수 있는 LLM을 REST API로 배포하고 이를 확장할 수 있다면 어떨까? 하는 생각에 시도해보았다.환경Firebat AK2 PlusCPU : Intel N100RAM : 16GBstorage : 512GBOS : Rocky Linux 9배포namespaceollama_ns.yamlapiVersion: v1kind: Namespacemetadata: name: ollama$ kubectl apply -f ollama_ns.yamldeploymentollama_deploy.ya..