Local LLM 모델별 Single-Call 스코어 평가지표
2025.03.05 - 2099.06.05
0
142
0
공유
0
공유

🔥 태스크 소개

주요 Local LLM의  Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Single-Call의 최종 스코어를 기록합니다.

📂 평가 데이터

 카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench

  • Single-Call 지표 설명
지표평가 기준Pass 조건예시
exact정확한 문자열 일치모델의 답변이 정답과 100% 동일해야 Pass정답: "오늘 날씨는 맑습니다." 모델 답변: "오늘 날씨는 맑습니다." → Pass 모델 답변: "오늘 날씨가 맑아요." → Fail
4_random랜덤 4개 중 하나와 일치정답 후보 4개 중 하나와 완전히 동일하면 Pass정답 후보: ["사과", "바나나", "포도", "오렌지"] 모델 답변: "바나나" → Pass 모델 답변: "수박" → Fail
8_random랜덤 8개 중 하나와 일치정답 후보 8개 중 하나와 완전히 동일하면 Pass정답 후보: ["사과", "바나나", "포도", "오렌지", "수박", "망고", "딸기", "복숭아"] 모델 답변: "망고" → Pass
4_close의미적으로 유사한 4개 중 하나와 일치정답 후보 4개 중 하나와 의미가 충분히 비슷하면 Pass정답 후보: ["매우 좋다", "정말 좋아", "기분이 최고야", "너무 만족스러워"] 모델 답변: "기분이 너무 좋네요!" → Pass (의미 유사)
8_close의미적으로 유사한 8개 중 하나와 일치정답 후보 8개 중 하나와 의미가 충분히 비슷하면 Pass정답 후보: ["맛있어요", "정말 맛나다", "최고의 음식", "너무 맛있어", "대단한 요리", "진짜 맛있다", "환상적인 맛", "끝내줘요"] 모델 답변: "이 음식 정말 끝내주네요!" → Pass (의미 유사)

🔍 평가 대상 모델

다음 모델들의 Single-Call 성능을 평가합니다:

  • Qwen/Qwen2.5-72B-Instruct-AWQ
  • Linkbricks-Horizon-AI-Llama-3.3-Korean-70B-sft-dpo-AWQ
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
  • deepseek-ai/DeepSeek-R1-Distill-Llama-8B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • deepseek-ai/deepseek-llm-7b-chat
  • Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
  • nbeerbower/gemma2-gutenberg-27B