낚시성 기사 분류
2023.11.01 - 2023.12.13
0
630
0
공유
0
공유

1. 서비스 명칭
 

  • 낚시성 기사 분류
     

 

2. 서비스 배경 및 목적 
 

  • 낚시성 기사로 인해 발생하는 시간과 비용 낭비, 사실 왜곡 등의 사회적 문제를 해결하기 위한 낚시성 기사 분류

 

3.  관련 연구 및 사례 분석 
 

  • Zichao Yanget al. Hierarchical Attention Networks for Document Classification. ACL, 2016.
    https://aclanthology.org/N16-1174/
  • Sangwoo Han et al. 다중 계층 BERT를 활용한 낚시성 기사 탐지 모델. 한국정보기술학회, 2023.
    https://www.dbpia.co.kr/pdf/pdfView.do?nodeId=NODE11485497
  •  Praboda Rajapaksha et al. BERT, XLNet or RoBERTa: The Best Transfer Learning Model to Detect Clickbaits. IEEE, 2021.
    https://ieeexplore.ieee.org/abstract/document/9617586

 

4. 인공지능 모델의 입출력 
 

  • 모든 데이터는 csv로 확장자 변환 후 사용

 

5. 데이터셋 구축방안 

낚시성 기사는 저널리즘의 품질을 현저하게 떨어뜨리고, 시간과 비용 낭비, 사실 왜곡 등의 사회적 문제 발생시키고 있으며, 이를 해결하기 위해 학습용 데이터셋과 자연어 처리(NLP) 및 딥러닝 기술을 기반으로 학습모델을 개발하여 공개함으로써 관련 분야에서 뉴스 신뢰도 향상 및 활용 가능한 다양한 서비스 및 도구 양산에 활용


https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71338를 이용하여 데이터셋 수집

 

6. 데이터셋 구성

 

[구분]

  • 제목과 본문의 불일치 기사
  • 본문의 도메인 일관성 부족 기사

 

[가공유형]

  • 낚시성기사_자동생성
  • 낚시성기사_직접생성
  • 非낚시성기사_자동생성

 

[카테고리별 분류]

  • EC(경제) 
  • ET(연예) 
  • GB(세계)
  • IS(IT&과학) 
  • LC(생활&문화) 
  • PO(정치)
  • SO(사회)

 

7. 인공지능 모델 평가 방법 
 

  • 정확도 (Accuracy) = TP (True Positive) / TP + FP(False Positive)

 

8. 서비스 구축계획 및 사용 시나리오 
 

  • 낚시성 기사 분류가 필요한 여러 사용자에게 서비스