Local LLM 모델별 Single-Call 스코어 평가지표

진행중

Local LLM 모델별 Single-Call 스코어 평가지표

2025.03.05 - 2099.06.05

0

185

0

공유

0

공유

🔥 태스크 소개

주요 Local LLM의 Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Single-Call의 최종 스코어를 기록합니다.

📂 평가 데이터

카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench

Single-Call 지표 설명

지표	평가 기준	Pass 조건	예시
exact	정확한 문자열 일치	모델의 답변이 정답과 100% 동일해야 Pass	정답: "오늘 날씨는 맑습니다." 모델 답변: "오늘 날씨는 맑습니다." → Pass 모델 답변: "오늘 날씨가 맑아요." → Fail
4_random	랜덤 4개 중 하나와 일치	정답 후보 4개 중 하나와 완전히 동일하면 Pass	정답 후보: ["사과", "바나나", "포도", "오렌지"] 모델 답변: "바나나" → Pass 모델 답변: "수박" → Fail
8_random	랜덤 8개 중 하나와 일치	정답 후보 8개 중 하나와 완전히 동일하면 Pass	정답 후보: ["사과", "바나나", "포도", "오렌지", "수박", "망고", "딸기", "복숭아"] 모델 답변: "망고" → Pass
4_close	의미적으로 유사한 4개 중 하나와 일치	정답 후보 4개 중 하나와 의미가 충분히 비슷하면 Pass	정답 후보: ["매우 좋다", "정말 좋아", "기분이 최고야", "너무 만족스러워"] 모델 답변: "기분이 너무 좋네요!" → Pass (의미 유사)
8_close	의미적으로 유사한 8개 중 하나와 일치	정답 후보 8개 중 하나와 의미가 충분히 비슷하면 Pass	정답 후보: ["맛있어요", "정말 맛나다", "최고의 음식", "너무 맛있어", "대단한 요리", "진짜 맛있다", "환상적인 맛", "끝내줘요"] 모델 답변: "이 음식 정말 끝내주네요!" → Pass (의미 유사)

🔍 평가 대상 모델

다음 모델들의 Single-Call 성능을 평가합니다:

Qwen/Qwen2.5-72B-Instruct-AWQ
Linkbricks-Horizon-AI-Llama-3.3-Korean-70B-sft-dpo-AWQ
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
deepseek-ai/DeepSeek-R1-Distill-Llama-8B
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
deepseek-ai/deepseek-llm-7b-chat
Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
nbeerbower/gemma2-gutenberg-27B