진행중
LLM 에이전트 평가 리더보드
2026.01.23 - 2026.10.20
0
106
0
0

LLM 에이전트 평가 리더보드

이 내용은 모델 평가에 사용되는 점수 체계, 집계 방식, 비교 분석 및 운영 지표에 대한 정의를 기술합니다.

1. 점수의 기본 정의 (Case Level)

각 테스트 케이스 i에 대해 정량적 평가와 정성적 평가를 수행한 후, 더 높은 점수를 최종 점수로 채택합니다.

  • 정량 점수 (qi): 기대하는 정답 문자열(Expected Output)이 모델의 응답(Response)에 포함되었는지 여부를 기계적으로 판단합니다. (0 또는 1)
  • 정성 점수 (li): LLM Judge가 평가한 점수로, 0과 1 사이의 연속적인 값을 가집니다.
  • 대표 점수 (mi): 해당 케이스에서 모델이 획득한 최종 점수로, 정량 점수와 정성 점수 중 최댓값을 사용합니다.
  •  

2. 모델별 종합 성능 지표

특정 모델  M이 수행한 전체 케이스 집합 IM​ (총 개수 NM=∣IM∣)에 대한 통계입니다.

2.1 평균 및 분포

모델의 전반적인 성능 수준을 나타냅니다. 정량/정성 평균과 최종 대표 점수의 평균, 그리고 점수 분포(중앙값, 분위수)를 확인합니다.