LLM이 다양하게 등장하면서 성능을 어떻게 평가해야 하는지가 중요해졌고, 계속 중요해지고 있다.
전통적인 방식부터 의미 기반, 참조 없는 평가까지 LLM 평가지표를 정리했다.
1. 사전 지식
1.1 n-gram
정의: 문장을 n개의 단어(또는 글자)로 끊어서 만든 연속된 묶음
예시: "The cat sleeps"
- 1-gram(unigram): ["The", "cat", "sleeps"]
- 2-gram(bigram): ["The cat", "cat sleeps"]
- 3-gram(trigram): ["The cat sleeps"]
단순히 단어 포함 여부만 보면 의미를 반영하기 어렵다.
예: "cat eats fis"” vs "fish eats cat" → 단어는 같아도 의미는 다르다.
1.2 Precision (정밀도)
- 정의: 모델이 예측한 것 중 정답인 비율

예시
- 정답(Reference) = {사과, 바나나, 딸기}
- 모델 예측 = {사과, 포도, 딸기}
- Precision = {사과, 딸기} / {사과, 포도, 딸기} = 2/3 = 66.67%
1.3 Recall (재현율)
- 정의: 정답 중에서 모델이 맞춘 비율

예시
- 정답(Reference) = {사과, 바나나, 딸기}
- 모델 예측 = {사과, 포도, 딸기}
- Recall = {사과, 딸기} / {사과, 바나나, 딸기} = 2/3 = 66.67%
1.4 F1-Score
- 정의: Precision과 Recall을 동시에 고려한 조화 평균

2. 전통적(Reference-based) 지표
참조 정답(Reference)과 모델 출력을 직접 비교하는 방식
- BLEU: n-gram Precision 기반. 번역 평가에서 많이 사용됨
- ROUGE: n-gram Recall 기반. 요약 평가에서 자주 활용됨
- METEOR: Precision + Recall + 동의어 매칭. 의미 변화 반영에 유리함
- ChrF: 문자 단위 n-gram F-Score. 형태 변화가 많은 언어(한국어 등)에 적합함
3. 의미 기반(Semantic) 지표
단어 일치 대신 의미 유사도로 평가
- BERTScore: BERT 임베딩 코사인 유사도. 표현 변화에 강함
- MoverScore: 단어 임베딩 이동 거리 계산. 의미 유사성에 강하지만 계산량이 많음
- BLEURT: Google 사전학습 + 파인튜닝 모델. 사람 평가와 높은 상관성
4. 참조 없는(Reference-free) 지표
정답 없이도 품질 평가 가능
LLM-as-a-Judge: GPT-4 같은 모델을 심판처럼 활용
Fact-checking 기반: QAGS, TruthfulQA 등 외부 지식으로 검증
Response Quality Dimensions:
- Fluency: 문법·자연스러움
- Relevance: 질문과의 관련성
- Coherence: 논리적 일관성
- Faithfulness: 근거 기반 여부
- Helpfulness: 사용자 유용성
5. LLM 평가지표 상황별 선택 가이드
| 상황 | 추천 지표 | 기준/특징 | 장점 | 주의사항 |
|---|---|---|---|---|
| 번역 품질 평가 | BLEU, METEOR, ChrF | n-gram Precision/F-Score | 국제 표준, 계산 간단 | 의미 변형에 약함 |
| 요약 품질 평가 | ROUGE-L, ROUGE-N, BERTScore | n-gram Recall + 의미 유사도 | 핵심 정보 포함 여부 잘 반영 | 요약 길이/구조 영향 가능 |
| 정형 QA (정답 고정) | Exact Match, F1-Score, ROUGE | 단어 일치율 + 커버율 | 계산 명확 | 창의형 질문에 부적합 |
| 창의형/오픈엔드 QA | BERTScore, MoverScore, BLEURT | 의미 기반 유사도 | 동의어·표현 다양성 반영 | 임베딩 품질 의존 |
| 사실성(Factuality) | Fact-check(QAGS, TruthfulQA) | 지식 기반 검증 | 신뢰성 보장 | 검증 리소스 필요 |
| 다차원 품질 | LLM-as-a-Judge, Human Eval | 종합 판단 | 실제 사용 경험 반영 | 편향·비용 고려 |
| 형태 변화 많은 언어 | ChrF, BERTScore | 문자/의미 기반 | 띄어쓰기 변화에 강함 | BLEU/ROUGE보다 표준화 낮음 |
| 멀티턴 대화 | LLM-as-a-Judge, Coherence Score | 대화 맥락·일관성 | 문맥 추적 가능 | 자동화 난이도 높음 |
정리
- 번역/정형 QA → 전통 지표가 적합
- 요약/창의형 QA → 의미 기반 지표가 강점
- 한국어처럼 형태 변화 많은 언어 → ChrF, BERTScore가 효과적
- 대화형 AI → LLM-as-a-Judge, Coherence Score가 필요
따라서 상황에 맞는 지표 조합 활용이 중요하다.