[AI SPARK 챌린지] 대회1. 섬진강 유역 내 강우량 예측 문제
2021.10.29 - 2021.11.19
0
800만원
0
공유
0
공유

공지사항

[11/11]

기존에 미제공되었던 천리안 데이터의 경우 요청 및 다운로드에 어려움을 겪는 분들이 많으신 것으로 파악되어, 
주최 측과 협의 하에 추가 제공해드리는 방안으로 변경진행하기로 결정되었습니다.

아래 링크를 통해서도 다운로드 가능하시오니 확인 부탁드립니다. ('데이터' 탭에서도 추가 안내)
 

  • 천리안 데이터 다운로드 링크 : https://bit.ly/3C2Wpar
    • 포함 데이터 : RR (강우강도), TPW(가강수량)
    • 각 폴더 내 파일명에 날짜 및 시간기록되어있음
    • 2개 폴더 포함 전체 용량이 160GB 정도 되오니 참고 부탁드립니다.

더욱 수월한 참여가 되시길 바라며, 즐거운 경진대회 되시길 바랍니다 :)

(추가 주의사항)

  • 제출할 정답 추론에 사용되는 input 데이터는 테스트 셋에 해당하는 기간에 수집된 데이터만 사용 가능합니다.

 

참가신청 시 각 팀(1인팀 포함)의 대표자분들은 중복 참여 방지를 위해 아래 구글폼을 작성하셔서 팀원 정보를 필수적으로 입력해주시기 바랍니다.

https://forms.gle/J4oz1Jk9aKniXzJB8


 

개요

머신러닝을 이용해 섬진강 유역의 위성자료와 12 개의 지상관측소 강수량 데이터를 이용해 섬진강 유역내의 강수량 예측 모델을 개발하는 태스크입니다.

출처: NASA GPM, IMERG  

출처: 천리안2A, TPW, 2021-07-05 00시 

12 개의 k-water 지상관측소 

데이터

입력 데이터로는 섬진강 유역을 포함하는 천리안2A호의 TPW(가강수량), 천리안2A호의 RR(강우강도), 그리고 나사 GPM의 IMERG 를 사용하시면 됩니다. 나사의 GPM 데이터는 본 태스크 페이지의 데이터 탭에서 내려받으실 수 있고 천리한2A호의 데이터는 직접 수집하셔야 합니다. 데이터 수집 방법은 데이터란에 설명되어 있습니다.

참가자분들이 추론해야 하는 출력 데이터는 12개의 지상관측소에서 측정한 지상강수량입니다. 모든 데이터는 한 시간 단위로 수집되었고 혹은 그 이하의 단위에서 수집된 데이터의 경우 한 시간 단위로 병합하여 제공됩니다. 수집이 되지 않은 시간이 포함되어 있을 수 있습니다.

입력 영상과 지상관측소의 데이터의 지리적 특성을 활용할 수 있도록 각 영상 픽셀의 위치와 지상 관측소의 위도, 경도 정보도 함께 제공됩니다.

나사 GPM의 IMERG는 참가자들의 편의를 위해 섬진강 유역을 포함하는 부분을 잘라내어 30분 단위의 영상 tif 포맷으로 제공합니다.

천리한2A호의 데이터는 한반도 촬영 영상을 사용하시면 됩니다.

 

1. 학습 데이터

학습을 위해 2020년 1월 1일 01시 부터 2021년 6월 30일 23시까지의 데이터가 제공됩니다.

  1. 입력 데이터
    1. 천리안(gk2a) TPW(가강수량)
    2. 천리안(gk2a) RR(강우강도)
    3. 나사(GPM) IMERG
  2. 출력 데이터
    1. K-water 섬진강 유역 일대의 12 개의 지상관측소에서 측정한 지상강수량

2. 검증 데이터

학습셋과 동일한 구성의 데이터셋으로 2020년 10월, 2021년 4월, 7월의 입력 값이 주어집니다. 해당 기간에 대한 시강수량을 예측해주시면 됩니다.

** 출력 데이터가 수집된 기간과 동일한 기간에 수집된 입력 데이터만 사용하셔야 합니다. 

예를 들어 2020년 10월 01일 01시의 시강수량에 대한 추론은 2020년 10월 01일 01시에 수집한 TPW, RR, GPM 데이터를 사용하셔야 합니다.

** 과거의 데이터를 누적하여 이후 시강수량을 예측하는 것은 가능합니다. 하지만 예측하려는 시간보다 미래에 수집된 입력 데이터를 사용하시면 안됩니다.

예를 들어 2020년 10월 01일 06 시의 시강수량에 대한 추론은, 2020년 10월 01일  01시 부터 06시 까지의 TPW, RR, GPM 데이터를 사용하셔도 됩니다. 하지만 2020년 10월 01일 07시 이후의 데이터는 사용하시면 안됩니다. 또 검증 셋 이외의 학습 셋에 해당하는 기간인 2020년 09월  30일 23시 에 수집한 데이터는 사용하시면 안됩니다.

관련하여 혼란한 점 있으시면 언제든지 문의 해주시기 바랍니다.

  1. 입력 데이터
    1. 천리안(gk2a) TPW(가강수량)
    2. 천리안(gk2a) RR(강우강도)
    3. 나사(GPM) IMERG https://gpm.nasa.gov/data/imerg
  2. 샘플 출력데이터
    1. K-water 섬진강 유역 일대의 12 개의 지상관측소에서 측정한 지상강수량(시강수량) (0으로 채워져있음)

3. 지리정보

참가자분들의 편의를 위해 태스크 페이지를 통해 제공되는 데이터 중 geometry/ 폴더 안에 천리안과 지상관측소의 지리정보가 들어있습니다.

GPM 데이터의 지리정보는 tif 데이터와 같은 디렉토리 안에 twf 포맷으로 들어있습니다.

지리정보는 데이터 전처리 및 후처리에 사용하실 수 있습니다.

답안 제출 요령 및 채점 기준

주어진 sample_outpu_seomjingang.csv 파일은 (관측소코드, 관측소명, 관측시간, 시강수량, 비고) 중 검증 데이터셋에 해당하는 기간의 관측시간을 포함합니다. 해당 시간에 대한 시강수량을 채워서 제출해주시면 됩니다.

정답 파일은 sample_output_seomjingang.csv 와 같은 헤더를 가지고 있고 ‘관측시간'에 대해 오름차순으로 정렬되어 있어야 합니다. 

정답 파일이 동일한 헤더를 가지고 있지 않으면 채점시 오류가 발생합니다.

채점 기준은 각각의 시강수량에 대한 예측값과 실제측정값의 RMSE (root mean squared error) 입니다.

RMSE 는 예측한 값과 실제 값이 평균적으로 얼마나 차이가 나는지를 예측값과 같은 단위로 알려줍니다.

강수량은 일상생활에서 흔히 사용하는 모두에게 익숙한 물리량입니다.

때문에 참가자분들이 제출한 예측값과 정답의 차이를 직관적으로 알기 쉽도록 RMSE를 메트릭으로 사용합니다.

5. 대회 규칙

제출 관련

  • 본 대회의 제출 횟수는 1일 최대 20회로 제한됩니다.

외부 데이터 사용 관련

  • 외부 공공 데이터 사용이 가능하나, 코드 제출 시 함께 제출
  • 공공 데이터 외의 외부 데이터는 법적인 제약이 없는 경우에만 사용 가능
  • 외부 데이터를 크롤링할 경우, 크롤링 코드도 함께 제출

팀 참가 관련

  • 팀 대표 계정으로 대회참가 신청
  • 팀 구성인원은 최대 4인으로, 접수 후 팀원정보 요청 메일이 대표자 메일로 발송됨
  • 제출은 반드시 팀 대표 1인의 아이디로 제출
  • 팀이 수상하는 경우 팀 대표에게만 상금 지급

저작물 소유권 관련

  • 데이터에 대한 설명 및 데이터셋 파일 등 제공된 일체의 정보는 세종강우 측의 자산임.
  • 상기 정보는 본 대회의 참가 목적으로만 사용할 수 있으며, 다른 목적으로는 사용 불가함.
  • 입상자들은 코드 및 저작물 관련 양수양도 계약이 작성이 되며, 해당 계약이 성사된 이후, 상금이 수여됨.
  • 해당 코드 및 관련 저작물의 소유권은 모두 세종강우 측의 소유로 인정됨.