DPO(Direct Preference Optimization)와 SFT(Supervised Fine-Tuning)의 차이점
대규모 언어 모델(LLM)을 개발하거나 기존 모델을 개선할 때, 주로 사용되는 학습 방식은 SFT(Supervised Fine-Tuning)와 DPO(Direct Preference Optimization)이다. 이 두 방법은 학습 목표와 접근 방식에서 큰 차이가 있으며, 각각의 장점과 단점을 고려하여 상황에 맞게 선택해야 한다. 이 글에서는 두 방법의 특징과 차이를 설명하고, 어떤 상황에서 각각의 방법이 적합한지 알아본다. SFT란 무엇인가?SFT(Supervised Fine-Tuning)는 지도 학습 방식을 기반으로 모델을 미세 조정하는 방법이다. 주어진 입력(Prompt)에 대한 "정답" 또는 "모범 응답" 데이터를 학습하여 모델이 특정 작업에서 더 나은 성능을 발휘하도록 만든다. 이 과정에서 모델..