발화유형(문어/구어/채팅)별 기계번역 병렬 말뭉치

1. 데이터 소개

이 데이터셋은 다양한 발화유형(문어, 구어, 채팅)에 대한 번역 데이터로 구성되며, 주요 언어 쌍(en-ko, jp-ko, zh-ko, ko-en, ko-jp, ko-zh)에 대한 번역을 포함하고 있습니다. 데이터는 2022년에 구축되었으며, 2023년에 신규로 개방되었습니다. 이 데이터를 활용하여 자연어 이해, 번역, 챗봇 및 AI 비서 개발 등 다양한 자연어 처리 연구 및 응용에 활용할 수 있습니다. 데이터의 주요 특징은 다양한 발화유형, 주제 및 언어 쌍에 대한 평가를 가능하게 하며, 기계번역에 중점을 둔 데이터셋입니다.

2. 데이터 구성

총 90,003건의 데이터를 기반으로 주요 언어 쌍(en-ko, jp-ko, zh-ko, ko-en, ko-jp, ko-zh) 간에 균등하게 분배되어 있으며, 각 언어 쌍의 비율은 모두 16.67%로 동일합니다. 이러한 균형있는 분배는 다양한 언어 간의 번역 성능을 평가하고 향상시키는 데 유용한 특징으로, 총 데이터의 비율은 100%입니다.

3. 학습 방법

트랜스포머(Transformer)는 자연어 처리 분야에서 혁신적인 변화를 가져온 모델로, 기존의 순차적인 처리 방식을 벗어나 병렬 처리를 가능하게 하는 구조를 가지고 있습니다. 이 데이터셋을 활용한 학습에서도 트랜스포머를 기반으로 하였습니다.