🔥 태스크 소개
주요 Local LLM의 Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Common의 최종 스코어를 기록합니다.
📂 평가 데이터
카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench
- Common 지표 설명
지표 | 평가 기준 | Pass 조건 | 예시 |
---|---|---|---|
Call | API 호출이 정상적으로 이루어졌는지 평가 | API 호출이 정상적으로 성공하면 Pass | 사용자의 요청에 따라 create_user 함수가 호출되어, 사용자 정보가 정확히 전달되면 Pass (예: JSON 형태로 {"name": "John", "email": "john@example.com", "password": "password123"} ) |
Reject | 적절한 함수가 없을 때, 적절한 응답을 하는가 | 적절한 함수가 없을 때, 적절한 응답을 하는가 | "하늘의 색을 바꿔줘" 같은 요청에 대해 "해당 요청을 수행할 수 없습니다."와 같은 자연스러운 답변을 하면 Pass |
Slot-all | 필요한 모든 정보가 없는 경우, 추가 정보를 요청하는가 | 필요한 모든 정보가 없는 경우, 추가 정보를 요청하는가 | "세탁물 수거 서비스 신청하고 싶은데 가능한가요?" → "세탁물을 수거할 위치와 날짜, 시간을 알려주세요.” (질문에 정보 아예 없음) |
Slot-some | 일부 정보가 부족한 경우, 부족한 정보만 요청하는가 | 일부 정보가 부족한 경우, 부족한 정보만 요청하는가 | "택시 불러줘. 출발지는 롯데시네마 위례야." → "도착 위치를 알려주세요.” (질문에 일부 정보 없음) |
🔍 평가 대상 모델
다음 모델들의 Common 성능을 평가합니다:
- Qwen/Qwen2.5-72B-Instruct-AWQ
- Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
- nbeerbower/gemma2-gutenberg-27B