1

2024 Gemma 파인튜닝톤 (아이디어톤)

AIFactory

[Google Gemma 파인튜닝톤 경진대회 참가 후기] NLP 논문번역 Gemma

숮

2024.10.18 12:53

243

NLP
Gemma

안녕하세요! NLP 논문 번역 Gemma라는 주제로 우수상을 수상한 팀 효율적인 주의입니다😎

💡 아이디어 제안 배경

(팀 이름이 바로 아이디어 제안 배경이랍니다…!)

인공지능 분야의 논문 번역은 일반적인 번역에 비해 2가지의 특이점과 한계를 가집니다.
첫 번째로, 논문이 수식을 다수 포함하고 있을 경우, 번역 과정에서 수식을 유지하지 못하는 경우가 발생하며, 두 번째로, 인공지능 분야의 전문 용어들도 직역하는 경우가 많아 번역된 결과만 확인해선 이해하기 힘든 경우가 발생하는 것입니다.
위와 같은 이유로 오리지널 Gemma2-9b-it를 비롯하여 논문 번역에 가장 많이 활용되는 DeepL 조차 정성적으로 확인했을 때 좋지 않은 번역 성능을 보이고 있습니다.
- Efficient Attention → 효율적인 주의, dot-product attention → 도트 제품 주의, exact attention computation → 정확한 주의 계산 ?!?!??!??! 🤯
- Reference: https://huggingface.co/datasets/Translation-EnKo/arxiv-translation-result-950
또한, 이러한 번역 문제는 프롬프팅을 통해 개선이 어려운 것을 확인하여, 파인튜닝의 중요성과 필요성이 강조되는 영역으로 생각됩니다.
따라서 본 팀은 인공지능 연구자들의 영어 논문에 대한 허들을 낮추기 위해 파인튜닝을 통해 Gemma2를 기반으로 하는 논문 번역 모델을 개발하고자 했으며, 그 중에서도 저를 비롯한 팀원들이 종사하고 있는 도메인인 NLP 분야의 논문에 집중하여 문제를 해결하고자 했습니다.

🔎 파인튜닝 아이디어

모델의 NLP 논문 번역 성능을 높이기 위해서 한국어로 추가 학습된 Gemma2 모델을 기반으로 두 단계의 학습을 수행하였습니다.
- https://huggingface.co/HumanF-MarkrAI/Gukbap-Gemma2-9B
Supervised Fine-Tuning
- 모델의 기본적인 번역 성능을 높이기 위해 영-한 번역 데이터셋을 이용해 SFT를 수행하였습니다.
- 이를 위해 AIHub 및 Huggingface에 공개된 영-한 번역 데이터셋을 수집하고, 이 중에서도 퀄리티가 낮은 번역 데이터를 필터링하는 단계를 추가하여 모델 성능을 개선했습니다.
  - https://huggingface.co/datasets/nayohan/aihub-en-ko-translation-1.2m
  - https://huggingface.co/datasets/nayohan/trc_uniform_313k_eval_45_filtered_chat
Direct Preference Optimization
- SFT까지 수행했을 때, 일반적인 번역에서는 준수한 번역 성능을 보이지만, NLP 논문 번역에서는 위에서 언급한 2가지 문제점이 여전히 발생하는 것을 확인할 수 있었습니다.
- 따라서 2가지 종류의 DPO 데이터셋을 추가 학습하여 모델의 성능을 개선하고자 하였습니다. (데이터셋 구축 과정에 대해선 자세한 설명이 어려운 점 양해 부탁드립니다.)
- 수학 번역 DPO 데이터셋 for 수식 유지
  - https://huggingface.co/datasets/Translation-EnKo/math-translation-dpo
    - https://huggingface.co/datasets/amphora/trans-math
- NLP 논문 번역 DPO 데이터셋 for NLP 전문 용어 유지
  - https://huggingface.co/datasets/Translation-EnKo/nlp-arxiv-translation-dpo
- 최종 학습 데이터셋 (수학 번역 + NLP 논문 번역)
  - https://huggingface.co/datasets/Translation-EnKo/nlp-arxiv-translation-dpo-with-math-10k-chat-gemma

🍀 파인튜닝 결과

본 팀은 NLP 논문 특화 번역 모델을 개발하기 위해 SFT를 수행하여 Gemma2의 기본적인 번역 성능을 향상시켰으며, DPO를 추가적으로 수행하여 NLP 전문 용어 및 수식에 포함되는 내용도 자연스럽게 번역할 수 있는 모델을 개발하였습니다.
그 결과는 아래 사진과 같으며, 맨 아래 있는 데모 링크에서 직접 사용해보실 수 있습니다! 본 모델은 오픈소스로 공개되어 NLP 연구자들에게 DeepL 등의 유료 번역 서비스의 대체제로 활용될 수 있을 것으로 기대…해봤지만 아직까진 결과가 조금 판교 개발자 말투처럼 느껴지는 문제가 있어 계속해서 개선해나갈 예정입니다…ㅎㅎ🥲

💌 Contact

번역은 모두가 동의할 수 있는 ‘완벽한’ 답변이 존재하기 힘든 만큼 생성형 AI의 발전에 따라 앞으로가 더 기대되는 분야인 것 같습니다.
머릿속에 품고만 있던 아이디어를 펼칠 수 있는 좋은 장을 만들어주신 AIFactory 진심으로 감사드리며, 모두 수고하셨습니다!

Huggingface: https://huggingface.co/Translation-EnKo
Github: https://github.com/HAE-RAE/nlp-arxiv-translator
Demo: http://43.201.170.64/
Email: suzie_oh@korea.ac.kr

1

1개의 댓글

로그인 후 이용해주세요!