🔥 태스크 소개
주요 Local LLM의 Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Multi-Call의 최종 스코어를 기록합니다.
📂 평가 데이터
카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench
- Multi-Call 지표 설명
지표 | 평가 기준 | Pass 조건 | 예시 |
---|---|---|---|
Call | API 호출이 정상적으로 이루어졌는지 평가 | API 호출이 정상적으로 성공하면 Pass | 사용자의 요청에 따라 create_user 함수가 호출되어, 사용자 정보가 정확히 전달되면 Pass (예: JSON 형태로 {"name": "John", "email": "john@example.com", "password": "password123"} ) |
Completion | 모델이 응답을 끝까지 잘 생성했는지 평가 | 응답이 중단 없이 완전하게 생성되면 Pass | 질문에 대한 답변이 중간에 끊기지 않고 전체 내용을 담고 있으면 Pass (예: 하나의 긴 문장이 끝까지 출력됨) |
Slot | 필수 정보가 모델 응답에 포함되었는지 평가 | 모든 필수 정보가 포함되어 있거나 사용자의 필수 정보가 부족하여 잘 요청했다면 Pass | 1. 사용자 계정 생성 시 "이름", "이메일", "비밀번호"와 같은 필수 항목이 모두 응답에 포함되면 Pass 2. 사용자 계정 생성시 "이름", "이메일"만 질문에 포함되어있다면, "비밀번호"를 적절히 요청했으면 Pass |
Relevance | 모델 응답이 질문과 얼마나 관련이 있는지 평가 | 응답이 질문과 높은 연관성을 가지면 Pass | 사용자가 "새 계정을 만들고 싶습니다."라고 요청했을 때, 계정 생성에 필요한 정보를 묻는 응답이 나오면 질문과 관련성이 높으면 Pass |
🔍 평가 대상 모델
다음 모델들의 Multi-Call 성능을 평가합니다:
- Qwen/Qwen2.5-72B-Instruct-AWQ
- Linkbricks-Horizon-AI-Llama-3.3-Korean-70B-sft-dpo-AWQ
- deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- deepseek-ai/DeepSeek-R1-Distill-Llama-8B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- deepseek-ai/deepseek-llm-7b-chat
- Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
- nbeerbower/gemma2-gutenberg-27B