1. 서비스 명칭
- 낚시성 기사 분류
2. 서비스 배경 및 목적
- 낚시성 기사로 인해 발생하는 시간과 비용 낭비, 사실 왜곡 등의 사회적 문제를 해결하기 위한 낚시성 기사 분류
3. 관련 연구 및 사례 분석
- Zichao Yanget al. Hierarchical Attention Networks for Document Classification. ACL, 2016.
https://aclanthology.org/N16-1174/ - Sangwoo Han et al. 다중 계층 BERT를 활용한 낚시성 기사 탐지 모델. 한국정보기술학회, 2023.
https://www.dbpia.co.kr/pdf/pdfView.do?nodeId=NODE11485497 - Praboda Rajapaksha et al. BERT, XLNet or RoBERTa: The Best Transfer Learning Model to Detect Clickbaits. IEEE, 2021.
https://ieeexplore.ieee.org/abstract/document/9617586
4. 인공지능 모델의 입출력
- 모든 데이터는 csv로 확장자 변환 후 사용
5. 데이터셋 구축방안
낚시성 기사는 저널리즘의 품질을 현저하게 떨어뜨리고, 시간과 비용 낭비, 사실 왜곡 등의 사회적 문제 발생시키고 있으며, 이를 해결하기 위해 학습용 데이터셋과 자연어 처리(NLP) 및 딥러닝 기술을 기반으로 학습모델을 개발하여 공개함으로써 관련 분야에서 뉴스 신뢰도 향상 및 활용 가능한 다양한 서비스 및 도구 양산에 활용
https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71338를 이용하여 데이터셋 수집
6. 데이터셋 구성
[구분]
- 제목과 본문의 불일치 기사
- 본문의 도메인 일관성 부족 기사
[가공유형]
- 낚시성기사_자동생성
- 낚시성기사_직접생성
- 非낚시성기사_자동생성
[카테고리별 분류]
- EC(경제)
- ET(연예)
- GB(세계)
- IS(IT&과학)
- LC(생활&문화)
- PO(정치)
- SO(사회)
7. 인공지능 모델 평가 방법
- 정확도 (Accuracy) = TP (True Positive) / TP + FP(False Positive)
8. 서비스 구축계획 및 사용 시나리오
- 낚시성 기사 분류가 필요한 여러 사용자에게 서비스