LLM 평가지표 정리

LLM이 다양하게 등장하면서 성능을 어떻게 평가해야 하는지가 중요해졌고, 계속 중요해지고 있다.

전통적인 방식부터 의미 기반, 참조 없는 평가까지 LLM 평가지표를 정리했다.


1. 사전 지식

1.1 n-gram

  • 정의: 문장을 n개의 단어(또는 글자)로 끊어서 만든 연속된 묶음

  • 예시: "The cat sleeps"

    • 1-gram(unigram): ["The", "cat", "sleeps"]
    • 2-gram(bigram): ["The cat", "cat sleeps"]
    • 3-gram(trigram): ["The cat sleeps"]
       
      단순히 단어 포함 여부만 보면 의미를 반영하기 어렵다.
      예: "cat eats fis"” vs "fish eats cat" → 단어는 같아도 의미는 다르다.

 


1.2 Precision (정밀도)

  • 정의: 모델이 예측한 것 중 정답인 비율

  • 예시

    • 정답(Reference) = {사과, 바나나, 딸기}
    • 모델 예측 = {사과, 포도, 딸기}
    • Precision = {사과, 딸기} / {사과, 포도, 딸기} = 2/3 = 66.67%
       

1.3 Recall (재현율)

  • 정의: 정답 중에서 모델이 맞춘 비율

  • 예시

    • 정답(Reference) = {사과, 바나나, 딸기}
    • 모델 예측 = {사과, 포도, 딸기}
    • Recall = {사과, 딸기} / {사과, 바나나, 딸기} = 2/3 = 66.67%
       

1.4 F1-Score

  • 정의: Precision과 Recall을 동시에 고려한 조화 평균

 


2. 전통적(Reference-based) 지표

참조 정답(Reference)과 모델 출력을 직접 비교하는 방식

  • BLEU: n-gram Precision 기반. 번역 평가에서 많이 사용됨
  • ROUGE: n-gram Recall 기반. 요약 평가에서 자주 활용됨
  • METEOR: Precision + Recall + 동의어 매칭. 의미 변화 반영에 유리함
  • ChrF: 문자 단위 n-gram F-Score. 형태 변화가 많은 언어(한국어 등)에 적합함

 


3. 의미 기반(Semantic) 지표

단어 일치 대신 의미 유사도로 평가

  • BERTScore: BERT 임베딩 코사인 유사도. 표현 변화에 강함
  • MoverScore: 단어 임베딩 이동 거리 계산. 의미 유사성에 강하지만 계산량이 많음
  • BLEURT: Google 사전학습 + 파인튜닝 모델. 사람 평가와 높은 상관성

 


4. 참조 없는(Reference-free) 지표

정답 없이도 품질 평가 가능

  • LLM-as-a-Judge: GPT-4 같은 모델을 심판처럼 활용

  • Fact-checking 기반: QAGS, TruthfulQA 등 외부 지식으로 검증

  • Response Quality Dimensions:

    • Fluency: 문법·자연스러움
    • Relevance: 질문과의 관련성
    • Coherence: 논리적 일관성
    • Faithfulness: 근거 기반 여부
    • Helpfulness: 사용자 유용성

 


5. LLM 평가지표 상황별 선택 가이드

상황 추천 지표 기준/특징 장점 주의사항
번역 품질 평가 BLEU, METEOR, ChrF n-gram Precision/F-Score 국제 표준, 계산 간단 의미 변형에 약함
요약 품질 평가 ROUGE-L, ROUGE-N, BERTScore n-gram Recall + 의미 유사도 핵심 정보 포함 여부 잘 반영 요약 길이/구조 영향 가능
정형 QA (정답 고정) Exact Match, F1-Score, ROUGE 단어 일치율 + 커버율 계산 명확 창의형 질문에 부적합
창의형/오픈엔드 QA BERTScore, MoverScore, BLEURT 의미 기반 유사도 동의어·표현 다양성 반영 임베딩 품질 의존
사실성(Factuality) Fact-check(QAGS, TruthfulQA) 지식 기반 검증 신뢰성 보장 검증 리소스 필요
다차원 품질 LLM-as-a-Judge, Human Eval 종합 판단 실제 사용 경험 반영 편향·비용 고려
형태 변화 많은 언어 ChrF, BERTScore 문자/의미 기반 띄어쓰기 변화에 강함 BLEU/ROUGE보다 표준화 낮음
멀티턴 대화 LLM-as-a-Judge, Coherence Score 대화 맥락·일관성 문맥 추적 가능 자동화 난이도 높음

 


정리

  • 번역/정형 QA → 전통 지표가 적합
  • 요약/창의형 QA → 의미 기반 지표가 강점
  • 한국어처럼 형태 변화 많은 언어 → ChrF, BERTScore가 효과적
  • 대화형 AI → LLM-as-a-Judge, Coherence Score가 필요

따라서 상황에 맞는 지표 조합 활용이 중요하다.