KHU-KoGPT for Summarization
2023.03.21 - 2023.05.30
0
0
공유
0
공유

1. 서비스 배경 및 목적

  • 짧은 시간 안에 긴 글의 내용을 명료하게 이해하기 위한 도구가 필요
  • ChatGPT를 사용한 요약이 가능하지만 한국어를 완벽하게 구사하지 못함
  • 본인이 잘 알지 못하는 문헌의 경우 필요한 내용을 뽑아낼 수 있음

 

2. 인공지능 서비스 유사 사례 분석

 

3. 인공지능 모델의 입출력

  • 입력 : 텍스트 (파일형식: json)
  • 출력 : 텍스트 (입력의 요약된 텍스트)

 

4. 데이터셋 구축방안

  • BICrawler 웹 수집기 활용한 데이터 수집
  • 출판사의 파일 제공을 통한 데이터 확보
  • 문헌 구입

 

5. 데이터셋 구성 목표

  • Train/Validation/Test
    • Train set : 146,771
    • Validation set : 18,300
    • Test set : 18,304
    • Total : 183,375
  • 데이터 종류별 구분
    • 뉴스 27,000
    • 보도자료 20,002
    • 역사기록물&문화재 10,002
    • 보고서 10,000
    • 회의록 34,000
    • 사설 10,000
    • 간행물 10,000
    • 연설물 40,000
    • 문학 12,000
    • 나래이션 10,371

6. 인공지능 모델 평가 방법

  • ROUGE-N score = 정답 summary와 생성된 summary 사이의 n-gram recall

 

7. 인공지능 모델 성능 목표

  • TBA [baseline score]

 

8. 서비스 구축계획 및 사용 시나리오

  • 그라디오를 활용한 웹 인터페이스 구성
    • 입력 : 텍스트 입력 or 파일 업로드(txt,csv ..)
    • 출력 : 텍스트

 

9. 서비스 기대효과

  • 본문을 자동으로 요약하여 ‘세 줄 요약’ 같은 서비스 제공 가능
  • 도서/논문을 요약하여 간단히 볼 수 있는 서비스 제공 가능
  • 바쁜 현대인을 위해 리딩북, 뉴스 서머리 등 몰아보기 서비스 제공 가능

10. Reference

  • AIHub 요약문 및 레포트 생성 데이터 https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=582