이 태스크는 컴퓨터 비전과 자연어 처리를 이용한 시각적 질문 응답을 위한 모델을 구성하고 그 과정을 구현해놓았습니다. 배치사이즈는 5단위로 감소하여 기본 20을 기준으로 조정하면서 학습을 진행해보았습니다. 트레이닝 아규멘트를 사용해서 출력 디렉토리 및 배치크기, 에폭수, 러닝레이트등을 조정하였습니다.다양한 파라미터를 조합한것을 실험하기 위한 간단한 그리드 서치나 랜덤 서치 로직을 추가해보는것도 좋은 보완점이 될 것 같습니다. 소감 : 트랜스포머를 이용하여 비전과 자연어를 이용한 시각적 질문 응답 모델을 구성한 것은 상당히 흥미있는 일이었다고 생각합니다. 명령줄 인수를 더 체계적으로 처리하고 그에 대한 로직을 추가하면 더 좋은 성능을 보이지 않을까 합니다. 또 예외처리에 대한 부분을 넣으면 좋을것 같다고 생각합니다.
모델 소개 이미지 기반 질의 응답은 이미지와 질문 쌍이 주어졌을 때, 이에대한 적절한 대답을 예측하는 태스크 입니다. 본 태스크의 모델을 그대로 사용하였습니다. 사용된 모델은 VILT로, ViLT의 주요 장점은 시각적 입력 처리를 간소화하는 모놀리식 디자인에 있습니다. ViLT는 컨벌루션 아키텍처 및 지역 감독의 필요성을 제거함으로써 놀라운 효율성과 속도를 달성합니다. 실제로 ViLT는 이전 비전 및 언어 처리 모델보다 최대 10배 더 빠르며, 컴퓨팅 효율성 측면에서 획기적인 변화를 가져왔습니다. 또한, ViLT는 변압기 기반 아키텍처를 활용하여 다운스트림 작업에서 이전 제품에 비해 경쟁력이 있거나 훨씬 뛰어난 성능을 보여줍니다. 하이퍼파라미터 튜닝 하이퍼파라미터 튜닝은 주로 에포크를 수정하였습니다. 5의 배수로 증가하며, 가장 높은 성능의 모델을 사용하였습니다. 소감 본 대회와 같은 태스크는 경험이 부족하여 많은 수정을 하지 못했습니다. 그러나, 베이스라인으로 제공한 모델이 이미 좋은 성능을 보이는 모델이기 때문에, 단순히 에포크를 수정해도 높은 성능을 보여준 것 같습니다.