1.서비스 명칭
- 뉴스 기사 기계독해
2. 서비스 배경 및 목적
- 인터넷에서 접근 가능한 정보의 양이 방대해지면서 원하는 정보를 찾는 데 많은 시간과 노력이 소요될 수 있음.
- 따라서 검색 엔진이나 자연어 처리 모델 등과 기계독해 모델을 결합하여 뉴스기사의 데이터베이스로부터 질의와 가장 유사한 문서를 탐색하고 답변을 추론하여 다양한 형태로 사용자에게 제시하고자 함
3. 관련 연구 및 사례 분석
- 민진우, et al. "Bi-directional Fully Aware Attention Network 를 이용한 기계독해." 한국정보과학회 학술발표논문집 (2018): 601-603.
- 박광현, et al. "BERT 와 Multi-level Co-Attention Fusion 을 이용한한국어 기계독해." 한국정보과학회 학술발표논문집 (2019): 643-645.
- 박은환, et al. "SpanBERT 를 이용한 한국어 자연어처리: 기계 독해, 개체 연결, 의존 파싱." 한국정보과학회 학술발표논문집 (2021): 460-462.
- 최윤수, et al. "RoBERTa 를 이용한 한국어 기계독해." 정보과학회 컴퓨팅의 실제 논문지 27.4 (2021): 198-203.
4. 인공지능 모델의 입출력
- 입력: “스타벅스코리아의 서머 레디 백을 살 수 있는 곳은 쿠팡이야?” 와 같은 텍스트
- 출력: Yes(1) / No(0)
5. 데이터셋 구축 방안
- AI Hub 뉴스 기사 기계독해 데이터(https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=577)
- 총 4개의 Q/A 유형 중 Yes/No 단문형 데이터셋만 분리
6. 데이터셋 구성 목표
- 학습셋: 48000개
- 시험셋: 6000개
7. 인공지능 모델 평가 방법
- 정확도 (Accuracy) = 맞춘 답문 (Yes/No) 수 / 전체 질문 수
8. 인공지능 모델 성능 목표
- 80% 이상
9. 서비스 구축 계획 및 사용 시나리오
- 뉴스 기사에서 원하는 정보에 대한 내용만을 찾고자 하는 사용자에게 서비스
- 입력: 질문 (Raw text)
- 출력: Yes(1) / No(0)