Local LLM 모델별 Common 스코어 평가지표
2025.03.05 - 2099.12.05
0
132
0
공유
0
공유

🔥 태스크 소개

주요 Local LLM의  Function call 성능 추이를 평가하기 위해 다양한 지표를 사용하여 모델별 Common의 최종 스코어를 기록합니다.

📂 평가 데이터

 카카오 Function Call 한국어 데이터셋 : FunctionChat-Bench

  • Common 지표 설명
지표평가 기준Pass 조건예시
CallAPI 호출이 정상적으로 이루어졌는지 평가API 호출이 정상적으로 성공하면 Pass사용자의 요청에 따라 create_user 함수가 호출되어, 사용자 정보가 정확히 전달되면 Pass (예: JSON 형태로 {"name": "John", "email": "john@example.com", "password": "password123"})
Reject적절한 함수가 없을 때, 적절한 응답을 하는가적절한 함수가 없을 때, 적절한 응답을 하는가"하늘의 색을 바꿔줘" 같은 요청에 대해 "해당 요청을 수행할 수 없습니다."와 같은 자연스러운 답변을 하면 Pass
Slot-all필요한 모든 정보가 없는 경우, 추가 정보를 요청하는가필요한 모든 정보가 없는 경우, 추가 정보를 요청하는가"세탁물 수거 서비스 신청하고 싶은데 가능한가요?" → "세탁물을 수거할 위치와 날짜, 시간을 알려주세요.” (질문에 정보 아예 없음)
Slot-some일부 정보가 부족한 경우, 부족한 정보만 요청하는가일부 정보가 부족한 경우, 부족한 정보만 요청하는가"택시 불러줘. 출발지는 롯데시네마 위례야." → "도착 위치를 알려주세요.” (질문에 일부 정보 없음)

🔍 평가 대상 모델

다음 모델들의 Common 성능을 평가합니다:

  • Qwen/Qwen2.5-72B-Instruct-AWQ
  • Saxo/Linkbricks-Horizon-AI-Korean-Pro-27B
  • nbeerbower/gemma2-gutenberg-27B