주요 메뉴 바로가기 보조 메뉴 바로가기 본문 바로가기

콘텐츠 본문

새글 논문 국내 국내전문학술지(KCI급) 오디오-비주얼 멀티모달 감정 인식을 위한 Cross-Attention Fusion

  • 학술지 구분 국내전문학술지(KCI급)
  • 게재년월 2026-04
  • 저자명 김정윤, 이승호
  • 학술지명 대한전자공학회 논문지
  • 발행처명 대한전자공학회
  • 발행국가 국내
  • 논문언어 한국어
  • 전체저자수 2
  • 연구분야 공학 > 전자/정보통신공학

논문 초록 (Abstract)

본 논문에서는 얼굴 영상과 음성 신호를 함께 활용한 오디오?비주얼 멀티모달 감정 인식을 위해 cross-attention 기반 융합 구조를 제안한다. 시각 정보는 RetinaFace를 이용한 얼굴 검출 및 정렬 과정을 거쳐 224×224×3 크기로 정규화되며, 음성 정보는 wav2vec2.0-large-robust 사전학습 모델을 통해 시간 의존적 임베딩 시퀀스(Batch, T, 1024)로 변환된다. 두 모달리티는 각각 transformer 인코더를 통해 시퀀스 수준 특징을 학습하고, 이후 cross-attention 모듈을 통해 상호 보완적 정보를 선택적으로 결합함으로써 단순 병합 방식보다 더 정교한 멀티모달 표현을 생성한다. 제안한 방법의 성능을 검증하기 위해 CREMA-D을 활용하여 실험을 수행하였다. 전체 데이터는 80%와 20% 비율로 학습·테스트 세트로 분할하였으며, 감정 데이터의 클래스 불균형 특성을 고려하여 accuracy와 weighted F1-score를 주요 평가 지표로 채택하였다. Weighted F1-score는 precision과 recall의 조화 평균 및 해당 클래스의 개수를 비율로 곱하여 더하는 것으로, 특정 감정의 등장 비율이 낮은 상황에서도 분류 성능을 균형 있게 평가할 수 있는 장점이 있다. 실험 결과, 제안하는 cross-attention 기반 멀티모달 모델은 정확도 88.3%, weighted F1-score 0.883의 성능을 기록하며 단일 모달 기반 모델 또는 단순 early/late fusion 방식 대비 유의미하게 향상된 결과를 보였다.