Local LLM 모델별 Multi-Call 스코어 평가지표
2025.03.05 - 2099.06.05
0
95
0
공유
0
공유

🔥 태스크 소개

주요 Local LLM의  Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Multi-Call의 최종 스코어를 기록합니다.

📂 평가 데이터

 카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench

  • Multi-Call 지표 설명
지표평가 기준Pass 조건예시
CallAPI 호출이 정상적으로 이루어졌는지 평가API 호출이 정상적으로 성공하면 Pass사용자의 요청에 따라 create_user 함수가 호출되어, 사용자 정보가 정확히 전달되면 Pass (예: JSON 형태로 {"name": "John", "email": "john@example.com", "password": "password123"})
Completion모델이 응답을 끝까지 잘 생성했는지 평가응답이 중단 없이 완전하게 생성되면 Pass질문에 대한 답변이 중간에 끊기지 않고 전체 내용을 담고 있으면 Pass (예: 하나의 긴 문장이 끝까지 출력됨)
Slot필수 정보가 모델 응답에 포함되었는지 평가모든 필수 정보가 포함되어 있거나 사용자의 필수 정보가 부족하여 잘 요청했다면 Pass1. 사용자 계정 생성 시 "이름", "이메일", "비밀번호"와 같은 필수 항목이 모두 응답에 포함되면 Pass
2. 사용자 계정 생성시 "이름", "이메일"만 질문에 포함되어있다면, "비밀번호"를 
적절히 요청했으면 Pass
Relevance모델 응답이 질문과 얼마나 관련이 있는지 평가응답이 질문과 높은 연관성을 가지면 Pass사용자가 "새 계정을 만들고 싶습니다."라고 요청했을 때, 계정 생성에 필요한 정보를 묻는 응답이 나오면 질문과 관련성이 높으면 Pass

🔍 평가 대상 모델

다음 모델들의 Multi-Call 성능을 평가합니다:

  • Qwen/Qwen2.5-72B-Instruct-AWQ
  • Linkbricks-Horizon-AI-Llama-3.3-Korean-70B-sft-dpo-AWQ
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
  • deepseek-ai/DeepSeek-R1-Distill-Llama-8B
  • deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • deepseek-ai/deepseek-llm-7b-chat
  • Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
  • nbeerbower/gemma2-gutenberg-27B