LLM이 다양하게 등장하면서 성능을 어떻게 평가해야 하는지가 중요해졌고, 계속 중요해지고 있다.전통적인 방식부터 의미 기반, 참조 없는 평가까지 LLM 평가지표를 정리했다.1. 사전 지식1.1 n-gram정의: 문장을 n개의 단어(또는 글자)로 끊어서 만든 연속된 묶음예시: "The cat sleeps"1-gram(unigram): ["The", "cat", "sleeps"]2-gram(bigram): ["The cat", "cat sleeps"]3-gram(trigram): ["The cat sleeps"] 단순히 단어 포함 여부만 보면 의미를 반영하기 어렵다.예: "cat eats fis"” vs "fish eats cat" → 단어는 같아도 의미는 다르다. 1.2 Precision (정밀도)정의: ..
얼마 전, 핫했던 Manus AI 에 waitlist를 신청했었다.기대도 안하고 까먹고 있던 와중에, 승인 메일이 왔다.1. 가입메일에 적힌 링크를 통해 가입하자마자, 보너스 크레딧 1000이 내 계정에 들어왔다.이 크레딧을 가지고 AI에게 어떤 작업을 시킬 수 있는지 궁금해서 바로 써봤다.2. Llama 4 모델 조사 & 블로그 글 작성예전 같았으면 직접 조사하고 정리해서 블로그 글을 썼겠지만, 이번엔 자료조사부터 마크다운 초안 작성까지 전부 Manus AI에게 맡겨보았다.그 결과물을 거의 손대지 않고 그대로 블로그에 올렸다. Meta의 Llama 4: 다중 모달 AI의 새로운 시대를 여는 혁신 입력 프롬프트는 단순하게 했다.이번에 라마4 모델이 나왔던데, 이 부분에 대해서 자료조사를 하고, 블로그 글..