🔥 태스크 소개
주요 Local LLM의 Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Single-Call의 최종 스코어를 기록합니다.
📂 평가 데이터
카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench
- Single-Call 지표 설명
지표 | 평가 기준 | Pass 조건 | 예시 |
---|---|---|---|
exact | 정확한 문자열 일치 | 모델의 답변이 정답과 100% 동일해야 Pass | 정답: "오늘 날씨는 맑습니다." 모델 답변: "오늘 날씨는 맑습니다." → Pass 모델 답변: "오늘 날씨가 맑아요." → Fail |
4_random | 랜덤 4개 중 하나와 일치 | 정답 후보 4개 중 하나와 완전히 동일하면 Pass | 정답 후보: ["사과", "바나나", "포도", "오렌지"] 모델 답변: "바나나" → Pass 모델 답변: "수박" → Fail |
8_random | 랜덤 8개 중 하나와 일치 | 정답 후보 8개 중 하나와 완전히 동일하면 Pass | 정답 후보: ["사과", "바나나", "포도", "오렌지", "수박", "망고", "딸기", "복숭아"] 모델 답변: "망고" → Pass |
4_close | 의미적으로 유사한 4개 중 하나와 일치 | 정답 후보 4개 중 하나와 의미가 충분히 비슷하면 Pass | 정답 후보: ["매우 좋다", "정말 좋아", "기분이 최고야", "너무 만족스러워"] 모델 답변: "기분이 너무 좋네요!" → Pass (의미 유사) |
8_close | 의미적으로 유사한 8개 중 하나와 일치 | 정답 후보 8개 중 하나와 의미가 충분히 비슷하면 Pass | 정답 후보: ["맛있어요", "정말 맛나다", "최고의 음식", "너무 맛있어", "대단한 요리", "진짜 맛있다", "환상적인 맛", "끝내줘요"] 모델 답변: "이 음식 정말 끝내주네요!" → Pass (의미 유사) |
🔍 평가 대상 모델
다음 모델들의 Single-Call 성능을 평가합니다:
- Qwen/Qwen2.5-72B-Instruct-AWQ
- Linkbricks-Horizon-AI-Llama-3.3-Korean-70B-sft-dpo-AWQ
- deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- deepseek-ai/DeepSeek-R1-Distill-Llama-8B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- deepseek-ai/deepseek-llm-7b-chat
- Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
- nbeerbower/gemma2-gutenberg-27B