주요 메뉴 바로가기 보조 메뉴 바로가기 본문 바로가기

콘텐츠 본문

논문 국내 국내전문학술지(KCI급) 서로 다른 문장 구조의 병렬 말뭉치 통합을 통한 기계번역 모델 품질의 향상

  • 학술지 구분 국내전문학술지(KCI급)
  • 게재년월 2024-08
  • 저자명 김호경, 김건우, 최근호
  • 학술지명 Information Systems Review
  • 발행처명 한국경영정보학
  • 발행국가 국내
  • 논문언어 한국어
  • 전체저자수 3
  • 연구분야 사회과학 > 경영학

논문 초록 (Abstract)

최근 AI 기술이 빠르게 발전하면서 이전에는 개발하기 어려웠던 번역기를 민간에서도 비교적 쉽게 만들 수 있게 되었고, 일반적으로 학습 데이터의 양을 늘릴 경우 번역 품질은 향상되는 경향을 보였다. 하지만 뉴스 데이터로 학습된 기계번역 모델은 동일한 뉴스 데이터를 추가 학습해도 정형화되어 있지 않은 뉴스 데이터의 특성으로 인해 번역 모델의 품질 향상 폭이 크지 않다. 이에 본 연구에서는 이러한 뉴스 데이터가 가진 구조적 한계점을 보완하기 위해 정형화된 문장 구조를 가진 특허 데이터를 기계학습 시 학습 데이터에 추가하여 번역 품질을 향상시키고자 하였다. 현재 다양한 문장 구조를 가진 학습 데이터를 조합하여 기계번역 품질을 향상시키는 연구는 많이 이루어지지 않았으며, 대부분의 연구는 학습 데이터 자체의 품질이나 오류율을 최소화하는 데 중점을 두고 있다. 이를 위해 본 연구는 다양한 문장 구조를 가진 뉴스 학습 데이터와 정형화된 문장 구조를 가진 특허 학습 데이터의 비율을 조정하여 다양한 번역 모델을 생성하였고, 생성된 번역 모델의 품질 변화에 대한 분석을 수행하였다. 실험 결과, 뉴스 데이터와 특허 데이터의 비율을 2:8로 조정한 학습 데이터로 생성한 모델의 품질이 가장 좋게 나타났으며, 뉴스 데이터로만 학습한 모델 대비 66.7% 높은 품질을 보이는 것으로 나타났다.