공부 메모장
close
프로필 배경
프로필 로고

공부 메모장

  • 분류 전체보기 (50)
    • 개발 (13)
    • k8s (6)
    • Terraform (4)
    • AI (27)
  • Github
  • 홈
  • 태그
  • 방명록

DPO(Direct Preference Optimization)와 SFT(Supervised Fine-Tuning)의 차이점

대규모 언어 모델(LLM)을 개발하거나 기존 모델을 개선할 때, 주로 사용되는 학습 방식은 SFT(Supervised Fine-Tuning)와 DPO(Direct Preference Optimization)이다. 이 두 방법은 학습 목표와 접근 방식에서 큰 차이가 있으며, 각각의 장점과 단점을 고려하여 상황에 맞게 선택해야 한다. 이 글에서는 두 방법의 특징과 차이를 설명하고, 어떤 상황에서 각각의 방법이 적합한지 알아본다. SFT란 무엇인가?SFT(Supervised Fine-Tuning)는 지도 학습 방식을 기반으로 모델을 미세 조정하는 방법이다. 주어진 입력(Prompt)에 대한 "정답" 또는 "모범 응답" 데이터를 학습하여 모델이 특정 작업에서 더 나은 성능을 발휘하도록 만든다. 이 과정에서 모델..

  • format_list_bulleted AI
  • · 2024. 11. 27.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (50)
    • 개발 (13)
    • k8s (6)
    • Terraform (4)
    • AI (27)
최근 글
인기 글
최근 댓글
태그
  • #terraform
  • #쿠버네티스
  • #kubernetes
  • #rocky linux 9
  • #테라폼
  • #Retrieval Augmented Generation
  • #ollama
  • #AWS
  • #k8s
  • #Rag
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바