1

2024 Gemma 파인튜닝톤 (아이디어톤)

AIFactory

[Google Gemma 파인튜닝톤 경진대회 참가 후기] NLP 논문번역 Gemma

2024.10.18 12:53
243

안녕하세요! NLP 논문 번역 Gemma라는 주제로 우수상을 수상한 팀 효율적인 주의입니다😎

 

💡 아이디어 제안 배경

(팀 이름이 바로 아이디어 제안 배경이랍니다…!)

  • 인공지능 분야의 논문 번역은 일반적인 번역에 비해 2가지의 특이점과 한계를 가집니다.
  • 첫 번째로, 논문이 수식을 다수 포함하고 있을 경우, 번역 과정에서 수식을 유지하지 못하는 경우가 발생하며, 두 번째로, 인공지능 분야의 전문 용어들도 직역하는 경우가 많아 번역된 결과만 확인해선 이해하기 힘든 경우가 발생하는 것입니다.
  • 위와 같은 이유로 오리지널 Gemma2-9b-it를 비롯하여 논문 번역에 가장 많이 활용되는 DeepL 조차 정성적으로 확인했을 때 좋지 않은 번역 성능을 보이고 있습니다.
  • 또한, 이러한 번역 문제는 프롬프팅을 통해 개선이 어려운 것을 확인하여, 파인튜닝의 중요성과 필요성이 강조되는 영역으로 생각됩니다.
  • 따라서 본 팀은 인공지능 연구자들의 영어 논문에 대한 허들을 낮추기 위해 파인튜닝을 통해 Gemma2를 기반으로 하는 논문 번역 모델을 개발하고자 했으며, 그 중에서도 저를 비롯한 팀원들이 종사하고 있는 도메인인 NLP 분야의 논문에 집중하여 문제를 해결하고자 했습니다.

 

 🔎 파인튜닝 아이디어

 

🍀 파인튜닝 결과

  • 본 팀은 NLP 논문 특화 번역 모델을 개발하기 위해 SFT를 수행하여 Gemma2의 기본적인 번역 성능을 향상시켰으며, DPO를 추가적으로 수행하여 NLP 전문 용어 및 수식에 포함되는 내용도 자연스럽게 번역할 수 있는 모델을 개발하였습니다.
  • 그 결과는 아래 사진과 같으며, 맨 아래 있는 데모 링크에서 직접 사용해보실 수 있습니다! 본 모델은 오픈소스로 공개되어 NLP 연구자들에게 DeepL 등의 유료 번역 서비스의 대체제로 활용될 수 있을 것으로 기대…해봤지만 아직까진 결과가 조금 판교 개발자 말투처럼 느껴지는 문제가 있어 계속해서 개선해나갈 예정입니다…ㅎㅎ🥲

 

💌 Contact

번역은 모두가 동의할 수 있는 ‘완벽한’ 답변이 존재하기 힘든 만큼 생성형 AI의 발전에 따라 앞으로가 더 기대되는 분야인 것 같습니다.

머릿속에 품고만 있던 아이디어를 펼칠 수 있는 좋은 장을 만들어주신 AIFactory 진심으로 감사드리며, 모두 수고하셨습니다!

1
1개의 댓글
로그인 후 이용해주세요!