πŸ’πŸ»β€β™‚οΈ[λŒ€νšŒμ•ˆλ‚΄] 2021 기계독해 데이터셋 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ 개발
2021.11.22 - 2021.12.10
0
350 λ§Œμ›
0
곡유
0
곡유

μ°Έκ°€μ ‘μˆ˜

μ•„λž˜ ꡬ글폼을 μž‘μ„± ν•˜μ…”μ•Ό μ°Έκ°€μ ‘μˆ˜κ°€ μ™„λ£Œλ˜λ‹ˆ λŒ€νšŒ μ°Έκ°€λ₯Ό μ›ν•˜λŠ” λΆ„κ»˜μ„œλŠ” (νŒ€μ˜ 경우 λŒ€ν‘œμž ν•œ λΆ„) κΌ­ μ•„λž˜ 폼을 μž‘μ„±ν•˜μ—¬ 제좜 λΆ€νƒλ“œλ¦½λ‹ˆλ‹€. 

μ œμΆœν•˜μ‹  폼은 μš΄μ˜μ§„μ΄ ν™•μΈν•œ ν›„ νŒ€ λŒ€ν‘œλ‹˜κ»˜ λŒ€νšŒ μ°Έμ—¬ μ•ˆλ‚΄ 메일을 솑뢀 ν•΄ λ“œλ¦¬κ³  있으며, μ›ν™œν•œ μ°Έκ°€λ₯Ό μœ„ν•΄ μ΅œλŒ€ν•œ λΉ λ₯΄κ²Œ 확인 ν›„ μ°Έκ°€μŠΉμΈ 진행 쀑에 μžˆμœΌλ‚˜, 주말 및 저녁 μ€‘μ—λŠ” λ‹€μ†Œ 확인이 λŠ¦μ–΄μ§ˆ 수 μžˆλŠ” 점 μ°Έκ°€μžλΆ„λ“€μ˜ λ„ˆλ₯Έ μ–‘ν•΄ λΆ€νƒλ“œλ¦½λ‹ˆλ‹€.

  • 11μ›” 22일 λŒ€νšŒ μ‹œμž‘μΌμ„ κΈ°μ€€μœΌλ‘œ, μ°Έκ°€μ‹ μ²­ ν›„ μš΄μ˜μ§„μ˜ μ•ˆλ‚΄ 메일을 λ°›μœΌμ‹œλ©΄ κ³§λ°”λ‘œ λŒ€νšŒμ— μ°Έκ°€ν•˜μ‹€ 수 μžˆμŠ΅λ‹ˆλ‹€!
  • μ°Έκ°€μ‹ μ²­μ„œ: https://forms.gle/m3zsRx8k8EqMJ5ti7

 

λŒ€νšŒ 주제 및 λͺ©ν‘œ

  • 주제 : 주어진 μ‚¬μ „ν•™μŠ΅λͺ¨λΈ(ELECTRA)을 ν™œμš©ν•΄ νƒ€κ²Ÿ 기계독해 데이터셋에 λŒ€ν•œ μ„±λŠ₯을 μ΅œλŒ€ν™”ν•˜κΈ° μœ„ν•œ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ 개발
    • β€˜λŒ€νšŒ κ·œμΉ™β€™ λž€μ— μ§€μ •λœ μ‚¬μ „ν•™μŠ΅λͺ¨λΈ μ°Έμ‘°

 

주졜/μ£Όκ΄€

  • 주졜 : κ³Όν•™κΈ°μˆ μ •λ³΄ν†΅μ‹ λΆ€, ν•œκ΅­μ§€λŠ₯μ •λ³΄μ‚¬νšŒμ§„ν₯원(NIA)
  • μ£Όκ΄€ : (μ£Ό)ν¬ν‹°νˆ¬λ§ˆλ£¨, (μ£Ό)μœ ν΄λ¦¬λ“œμ†Œν”„νŠΈ, (μ£Ό)λ‚˜λΌμ§€μ‹μ •λ³΄, (μ£Ό)λ‹¨μ•„μ½”νΌλ ˆμ΄μ…˜, μ—°μ„ΈλŒ€ν•™κ΅ μ‚°ν•™ν˜‘λ ₯단, tech42
  • 운영 : 인곡지λŠ₯νŒ©ν† λ¦¬

 

μ°Έκ°€ λŒ€μƒ

  • 14μ„Έ μ΄μƒμ˜ 데이터 및 인곡지λŠ₯ κ°œλ°œμ— κ΄€μ‹¬μžˆλŠ” λΆ„
  • 단, <2021 NIA AI ν•™μŠ΅μš© 데이터 ꡬ좕 사업 - 맀체별 기계독해 데이터 과제>에 직/κ°„μ ‘μ μœΌλ‘œ μž‘μ—…μ„ μ˜μœ„ν•œ λΆ„(ν¬λΌμš°λ“œ μ›Œμ»€ 포함)은 μ°Έκ°€ μ œν•œ
  • β€» 만일 μ°Έκ°€ μžκ²©μ— μ œν•œλ˜λŠ” μžκ°€ μˆ˜μƒ λŒ€μƒμžλ‘œ μ„ μ •λ˜λŠ” 경우 μ‹œμƒ λŒ€μƒμ—μ„œ μ œμ™Έν•˜λ©°, 이둜 인해 λ°œμƒν•˜λŠ” λΆˆμ΄μ΅μ— λŒ€ν•΄μ„œ 주졜/μ£Όκ΄€ 및 μš΄μ˜μ‚¬λŠ” μ±…μž„μ§€μ§€ μ•ŠμŒμ„ 사전에 μ•ˆλ‚΄λ“œλ¦½λ‹ˆλ‹€

 

데이터 제곡

  • http://aifactory.space 의 νšŒμ›κ°€μž…μ„ μ™„λ£Œν•œ νšŒμ›μ΄ λ³Έ λŒ€νšŒ μ°Έκ°€λ₯Ό ν•  κ²½μš°μ—λ§Œ 데이터 제곡
  • νšŒμ›κ°€μž… μ‹œ 였λ₯˜κ°€ 확인될 경우 κ°€μž… λ¬΄νš¨ν™” ν›„ 였λ₯˜ λ©”μ‹œμ§€ νŒμ—…μ°½ μ œμ‹œ
  • "λŒ€νšŒ κ·œμΉ™"에 λŒ€ν•œ λ™μ˜κ°€ μžˆμ–΄μ•Όλ§Œ λŒ€νšŒ μ°Έκ°€ κ°€λŠ₯

 

일정 (UTC+ 9(ν•œκ΅­) κΈ°μ€€)

  • μ°Έκ°€μ‹ μ²­ (λŒ€νšŒκΈ°κ°„ 쀑 μƒμ‹œμ ‘μˆ˜) : 곡고 ν›„ ~ 12.10
  • λŒ€νšŒκΈ°κ°„ : 11.22 ~ 12.10
  • κ²€μ¦μžλ£Œ 제좜 κΈ°κ°„ : 12.10 ~ 12.12
  • 검증기간 : 12.13 ~ 12.19
  • κ²°κ³Όλ°œν‘œ :  12.20

β€» λŒ€νšŒμ˜ μ›ν™œν•œ 진행을 μœ„ν•΄ 상세일정은 변경될 수 있음

 

μƒκΈˆ 및 μ‹œμƒκ·œλͺ¨

  • 총 μƒκΈˆ 350λ§Œμ› 규λͺ¨μ˜ λŒ€νšŒμž…λ‹ˆλ‹€.
μ‹œμƒλ‚΄μ—­μƒκΈˆκ·œλͺ¨
μ΅œμš°μˆ˜μƒ 1νŒ€150λ§Œμ›
μš°μˆ˜μƒ 1νŒ€120λ§Œμ›
μž₯렀상 1νŒ€80λ§Œμ›

β€» μ°Έκ°€μžκ°€ νŒ€μΈ 경우 νŒ€μ˜ λŒ€ν‘œμ—κ²Œ 지급함

 

λŒ€νšŒ κ·œμΉ™ (μ€‘μš”)

β€» μ•„λž˜ λ‚΄μš©μ— λŒ€ν•΄μ„œ λ™μ˜ ν›„ λŒ€νšŒ μ°Έκ°€ν•  수 있으며, μ•„λž˜ 사항이 λ§Œμ‘±λ˜μ§€ μ•Šμ„ 경우 μž…μƒμ΄ μ·¨μ†Œλ  수 있음

μ‚¬μ „ν•™μŠ΅λͺ¨λΈ (ELECTRA) 정보

  • https://github.com/monologg/KoELECTRA
  • μ‚¬μ „ν•™μŠ΅ μ‚¬μš© μ‹œμ—λŠ” μœ„μ— μ œκ³΅λ˜λŠ” KoELECTRA λͺ¨λΈμ„ μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆλ‹€.

μ™ΈλΆ€ 데이터 μ‚¬μš© κ΄€λ ¨

  • μ™ΈλΆ€ λ°μ΄ν„°λŠ” λ³„λ„λ‘œ μ‚¬μš©ν•˜μ‹€ 수 μ—†μŒμ„ 사전 μ•ˆλ‚΄λ“œλ¦½λ‹ˆλ‹€
  • μ‚¬μ „ν•™μŠ΅λͺ¨λΈμΈ PLM(Pre-trained Language Model)이 μ•„λ‹ˆλΌ μ°Έκ°€μž λΆ„κ»˜μ„œ λ”°λ‘œ ν•™μŠ΅ν•œ λͺ¨λΈμ€ μ‚¬μš©ν•˜μ‹€ 수 μ—†μŒμ„ μ•ˆλ‚΄λ“œλ¦½λ‹ˆλ‹€

λͺ¨λΈ ꡬ성 방법

  • ν–‰μ •λ¬Έμ„œ 데이터와 λ‰΄μŠ€ λ°μ΄ν„°λŠ” 각 뢄야별 데이터 νŠΉμ„±μ΄ 있기 λ•Œλ¬Έμ—, 이λ₯Ό κ³ λ €ν•˜μ—¬ λΆ„μ•Όλ³„λ‘œ λͺ¨λΈμ„ ꡬ성해도 λ¬΄λ°©ν•©λ‹ˆλ‹€
    • 데이터셋 폴더λͺ… κΈ°μ€€μœΌλ‘œ doc용 λͺ¨λΈκ³Ό news용 λͺ¨λΈμ„ κ°œλ³„λ‘œ ν•™μŠ΅ 및 μΆ”λ‘ ν•˜μ…”λ„ λ©λ‹ˆλ‹€
    • μž…μƒ μ½”λ“œ κ²€μ¦μ‹œ 단일 λͺ¨λΈμ„ μ‚¬μš©ν•˜λŠ” κ²½μš°λŠ” ν•΄λ‹Ή λͺ¨λΈμ„ μ œμΆœν•˜λ©΄ λ˜μ§€λ§Œ, 뢄야별 λͺ¨λΈμ„ μ‚¬μš©ν•˜λŠ” 경우 
      ν•˜λ‚˜μ˜ μΆ”λ‘  λͺ…λ Ή μ‹€ν–‰ μ‹œμ— μžλ™μœΌλ‘œ 두 λͺ¨λΈμ΄ μž‘λ™ν•˜μ—¬ ν†΅ν•©λœ 제좜 κ²°κ³Όκ°€ 생성될 수 μžˆλ„λ‘ ν•΄μ•Ό ν•©λ‹ˆλ‹€

νŒ€ μ°Έκ°€ κ΄€λ ¨

  • ν•œ νŒ€μ˜ 인원 μ œν•œμ€ μ΅œλŒ€ 4λͺ…μž…λ‹ˆλ‹€
  • νŒ€ λŒ€ν‘œ 1인만 λŒ€νšŒμ°Έκ°€ μ‹ μ²­ν•˜μ‹œλ©΄ λ˜κ² μŠ΅λ‹ˆλ‹€
  • μ œμΆœμ€ λ°˜λ“œμ‹œ νŒ€ λŒ€ν‘œ 1인의 μ•„μ΄λ””λ‘œ μ œμΆœν•©λ‹ˆλ‹€
  • νŒ€μ΄ μˆ˜μƒν•˜λŠ” 경우 νŒ€ λŒ€ν‘œμ—κ²Œλ§Œ μƒκΈˆ μ§€κΈ‰ν•©λ‹ˆλ‹€

μ €μž‘λ¬Ό 제좜 및 검증 κ΄€λ ¨

  • μ œμΆœμ€ λŒ€νšŒκΈ°κ°„ (2021.11.22 ~ 2021.12.10) λ™μ•ˆ ν•œ 계정당 β€˜1일 12νšŒβ€™λ‘œ μ œν•œν•©λ‹ˆλ‹€.
  • μž…μƒμžλŠ” μ•„λž˜ μ €μž‘λ¬Όμ„ μ œμΆœν•΄μ•Ό ν•©λ‹ˆλ‹€.
    • λͺ¨λΈ ν•™μŠ΅ μ½”λ“œ : ꡬ글 Colabμ—μ„œ μž‘λ™ν•˜λŠ” train.ipynb 및 ν•„μš”ν•œ 파일(μ™ΈλΆ€ 파일 λ“±) 곡유
    • λͺ¨λΈ μΆ”λ‘  μ½”λ“œ : ꡬ글 Colabμ—μ„œ μž‘λ™ν•˜λŠ” test.ipynb 및 ν•„μš”ν•œ 파일(λͺ¨λΈ κ°€μ€‘μΉ˜ λ“±) 곡유
    • λͺ¨λΈ μ„€λͺ…μ„œ : μ•„λž˜ 양식에 맞게 μž‘μ„± ν›„ reviewers@aifactory.page와 곡유
    • μ½”λ“œμ™€ μ£Όμ„μ˜ 인코딩은 λͺ¨λ‘ UTF-8을 μ‚¬μš©ν•˜μ—¬μ•Ό ν•©λ‹ˆλ‹€.
  • μž…μƒμžκ°€ μ œμΆœν•œ μ½”λ“œλŠ” ꡬ동 및 μ„±λŠ₯ μž¬ν˜„μ„± 검증이 λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.
    • λͺ¨λ“  μ½”λ“œλŠ” 였λ₯˜ 없이 μ‹€ν–‰λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.
    • λ³„λ„λ‘œ ν•„μš”ν•œ λΌμ΄λΈŒλŸ¬λ¦¬κ°€ μžˆμ„ 경우 ꡬ글 Colab μ†ŒμŠ€μ½”λ“œ 내에 μ„€μΉ˜ν•˜λŠ” μ½”λ“œκ°€ μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€.
    • μ›ν™œν•œ μ½”λ“œ ꡬ동 및 μ„±λŠ₯ μž¬ν˜„μ„± 검증을 μœ„ν•΄ ν•„μš”ν•œ μ΅œμ†Œν•œμ˜ 주석 ν˜Ήμ€ κ°€μ΄λ“œκ°€ μ œκ³΅λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.

μ €μž‘λ¬Ό μ†Œμœ κΆŒ κ΄€λ ¨

  • 해컀톀을 ν†΅ν•œ μ‚°μΆœλ¬Ό 일체의 κΆŒλ¦¬λŠ” 응λͺ¨μžμ—κ²Œ κ·€μ†λ©λ‹ˆλ‹€. λ‹€λ§Œ, μ‚¬μ—…μ˜ 취지 및 곡곡성을 κ°μ•ˆν•˜μ—¬ μž…μ„ μž‘μ— ν•œν•΄ μ˜€ν”ˆμ†ŒμŠ€ λΌμ΄μ„ μŠ€λ‘œ 곡개(CCL. 쑰건 μ μ‹œ)될 μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€
  • λ³Έ κ²½μ§„λŒ€νšŒμ˜ μ£Όμ΅œμžλŠ” 응λͺ¨μž‘λ“€ 쀑 μž…μƒν•˜μ§€ μ•Šμ€ 응λͺ¨μž‘에 λŒ€ν•΄μ„œλŠ” μ–΄λ– ν•œ κΆŒλ¦¬λ„ 취득할 수 μ—†μœΌλ©°, μž…μƒν•œ 응λͺ¨μž‘에 λŒ€ν•΄μ„œλ„ μ €μž‘μž¬μ‚°κΆŒμ˜ μ „μ²΄λ‚˜ 일뢀λ₯Ό μ–‘μˆ˜ν•˜λŠ” κ²ƒμœΌλ‘œ 일방적으둜 κ²°μ •ν•˜μ—¬ 고지할 수 μ—†μŠ΅λ‹ˆλ‹€.
  • μ£Όμ΅œμžλŠ” μž…μƒν•˜μ§€ μ•Šμ€ 응λͺ¨μž‘을 곡λͺ¨μ „ μ’…λ£ŒμΌλ‘œλΆ€ν„° 3κ°œμ›” 이내에 λͺ¨λ‘ νκΈ°ν•©λ‹ˆλ‹€. λ‹€λ§Œ, 폐기 μ „ μ €μž‘μžκ°€ μ €μž‘λ¬Όμ˜ λ°˜ν™˜μ„ μš”κ΅¬ν•  경우 μ €μž‘μžμ—κ²Œ λ°˜ν™˜ν•˜λ˜, λ°˜ν™˜κ³Ό κ΄€λ ¨ν•˜μ—¬ μΆ”κ°€ λΉ„μš©μ΄ λ°œμƒν•˜λŠ” 경우 응λͺ¨μžμ—κ²Œ λΆ€λ‹΄ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 데이터셋 파일 및 데이터에 λŒ€ν•œ μ„€λͺ… λ“± 제곡된 일체의 μ •λ³΄λŠ” μ£Όμ΅œμ‚¬ 및 μ£Όκ΄€μ‚¬μ˜ μžμ‚°μ΄λ©° ν•΄λ‹Ή μ •λ³΄λŠ” λ³Έ λŒ€νšŒμ˜ μ°Έκ°€ λͺ©μ μœΌλ‘œλ§Œ μ‚¬μš©ν•΄μ•Ό ν•˜κ³ , κ·Έ μ™Έ μš©λ„λ‘œ νƒ€μΈμ—κ²Œ 양도 및 λŒ€μ—¬, 재배포, 2차적 μ €μž‘μ„ ν•  수 μ—†μŠ΅λ‹ˆλ‹€.
  • κ·Έλ°–μ˜ μ‚°μΆœλ¬Όμ— λŒ€ν•œ κΆŒλ¦¬ λ“± λ²•μ  κΆŒλ¦¬μ— κ΄€ν•œ μ‚¬ν•­μ€ λ¬Έμ²΄λΆ€ 'μ°½μž‘λ¬Ό κ³΅λͺ¨μ „ κ°€μ΄λ“œλΌμΈ'을 μ€€μš©ν•©λ‹ˆλ‹€

 

문의