[논문 정리] What Makes Training Multi-modal Classification Networks Hard?

논문정보

What Makes Training Multi-modal Classification Networks Hard?

 

What Makes Training Multi-Modal Classification Networks Hard?

Consider end-to-end training of a multi-modal vs. a single-modal network on a task with multiple input modalities: the multi-modal network receives more information, so it should match or outperform its single-modal counterpart. In our experiments, however

arxiv.org

<code> - caffe

 

GitHub - facebookresearch/VMZ: VMZ: Model Zoo for Video Modeling

VMZ: Model Zoo for Video Modeling. Contribute to facebookresearch/VMZ development by creating an account on GitHub.

github.com

이거도 중국 논문이기도 해서 안 읽으려고 했는데 IEEE에 출간하기도 했고 분석글이기 때문에 참고하면 좋을 것 같다.

현재 멀티모달 네트워크를 만들고 있기 때문에 본 논문을 읽고 지양해야 할 것이나 학습 시 유의사항을 파악해보려 한다.

논문정리

Abstract

멀티 모달(multi-modal) 네트워크를 end-to-end 학습 vs. 여러 입력 모달리티를 단일 모달(uni-modal) 네트워크로 학습을 생각해보면 멀티모달 네트워크가 더 많은 정보를 받기 때문에, 단일 모달 쪽과 비등하거나 더 나은 성능을 보여야 하는 게 맞다.

하지만 실험을 해 보면, 결과는 반대.

가장 좋은 단일 모달 네트워크가 종종 멀티 모달 네트워크보다 성능이 좋다.

이 결과는 여러 다른 모달리티들의 조합에서나 영상 분류를 위한 다른 벤치마크 작업에 대해서도 일관되게 나타난다.

 

본 논문은 성능 저하의 두 가지 주요 원인을 밝힌다.

1. 멀티모달 네트워크는 용량(capacity)이 증가하기 때문에 과적합(overfitting)되기 쉽다.
2. 각 모달리티 마다 과적합되고 일반화되는 속도가 다르기 때문에, 이들을 단일 최적화 전략 하에서 공동으로 훈련하는 방법은 최선이 아니다.

그리고 Gradient-Blending이라 불리는 방법을 사용하여 이 문제들을 다룬다.

각각의 오버피팅 경향에 따라 최적의 모달리티 블렌딩을 계산한다.
blending이 혼합하는 의미이니까 여러 모달리티를 잘 엮는 방법을 찾아내는 것인가 보다

Gradient Blending이 과적합을 피하기 때문에 자주 사용되는 베이스라인들보다 성능이 뛰어나며 human action recognition, ego-centric action recognition, acoustic event detection을 포함한 여러 작업에서 SOTA 정확도를 달성하였다.

 

Introduction

end-to-end 방식으로 훈련된  late-fusion 멀티 모달 네트워크를 생각해 보자.

late-fusion
각 네트워크마다 특징을 추출한 이후에 융합

단일 모달 방법은 멀티모달 방법의 특수한 케이스로 볼 수 있기 때문에, 이론적으로는 멀티 모달 모델을 잘 최적화하면 최고 성능의 단일 모달 모델을 능가해야 한다.

하지만 현재의 기술로는 항상 그렇지는 않은데, 실제 실험 결과는 위의 상식과는 반대의 경향을 보인다.

가장 좋은 단일 모달 모델이 여러 모달리티와 데이터셋에 대해, joint model(multi modal 의미함)을 종종 능가한다.

더불어, 여러 참고 논문을 따르면 여러 입력 스트림에 대해 성능 저하가 일반적인 것으로 보인다.

검토해 보면 과적합이 문제인 것으로 나타난다.

멀티모달 네트워크의 경우, 훈련 정확도는 높지만 검증 정확도는 낮다.

Late fusion audio-visudla(A+RGB) 네트워크는 visual 네트워크보다 거의 두 배의 파라미터를 가지며, 이 파라미터의 증가로 인해 과적합이 야기되었다고 주장할 수 있다.

 

이 문제를 두 가지 방법으로 접근할 수 있다.

1. 과적합을 줄이기 위해 드롭아웃, 사전훈련, 조기규제를 고려한다.
2. 네트워크가 구조적으로 문제가 있음을 고려한다.

또한, Sqeeze-and-Exciation(SE) 게이트와 Non-Local (NL) 게이트를 모두 사용하여 concatenation을 통한 mid-level 융합과, gating을 통한 융합을 실험한다.

 

놀라운 건, 어떠한 방법도 효율적인 해결책을 제공하지 않는다.

Fig 1. 일반적인 규제방법으로는 X, blue : best 단일 모달 네트워크, orange : 과적합을 피하기 위한 방법, red : 여러 융합 구조

그림 1은 각 method별로 Kinetics에 대한 audio-visual 최상위 결과를 보여준다.

사전학습은 성능 개선에 실패했으며, 조기규제는 RGB stream에 과소적합되는 경향을 보인다.

Mid-concat과 드롭아웃은 RGB 모델보다 개선된 유일한 방법이다. 

드롭아웃과 mid-concat (late-concat에 비해 파라미터수 37% 감소)은 late-concat에 비해 1.5%, 1.4% 개선되었으며, late-concat의 과적합 문제를 확인할 수 있었다.

 

이런 실험 결과를 성공한 이전 멀티 모달들을 어떻게 연결 지을 수 있을까?

멀티모달 네트워크는 sound localization, image-audio alignment, audio-visual syncrhonization 등의 작업에서 공동으로 잘 훈련되었다.

하지만 이런 작업들이 단일 모달리티로는 잘 수행될 수 없기 때문에 베이스라인으로써의 단일 모달 네트워크가 없으며 본 논문에서 발견된 성능 저하가 적용되지 않는다.

다른 연구에선 사전훈련된 단일 모달 특징을 사용하면서 공동 훈련을 하지 않는다.

예시로는 영상 분류나 image+text 분류를 위한 two-stream 네트워크가 있다.

이런 방법들은 여러 모달리티를 공동으로 학습하지 않아서 비교할 수 없으며, 독립적인 훈련으로 인해 정확도가 최적이 아닐 수 있다.

이때까지 CAFM을 훈련할 때 3개의 네트워크를 동시에 훈련해야 되는 줄 알았는데 따로따로 훈련하는 거였구나?

 

본 논문의 key point

● 멀티모달 네트워크를 공동훈련 하는데에 있어 과적합의 영향과 문제점의 두 가지 주요 원인을 밝힌다.
   또한, 이 문제가 아키텍처와 무관함을 보인다. 즉, 다른 융합기술을 사용해도 같은 과적합 문제를 겪을 수 있다.
● 문제를 정량적으로 확인할 수 있으며 이론과 실험적 정당성을 모두 갖춘 metric을 소개한다
   : 과적합-일반화 비율 (OGR - overfitting-to-generalization ratio)
● 여러 시그널의 optimal blend를 통해 OGR을 최소화할 수 있는 새로운 훈련방법을 소개한다.
   이 Gradient-Blending(G-Blend) 방법은 많은 개선을 가져오고,
   음성과 영상 신호가 결합된 벤치마크 데이터셋 Kinetics, EPIC-Kitchen, AudioSet에 대해 SOTA 정확도 달성

G-Blend는 task와 구조에 영향을 받지 않으며 다른 시나리오에도 적용할 수 있다

e.g., 3D 객체탐지를 위한 RGB와 point cloud 결합

 

<Related Work>

Video Classifcation

앞부분 skip (대충 비디오는 시간정보와 다양한 멀티모달 소스로 되어있다는 얘기)

멀티모달의 특성을 활용하는 이전 연구는 RGB+Optifcal Flow에 초점을 맞추어, two-stream 융합 네트워크를 설계하였고

일반적으로 사전훈련된 특징을 사용하고 아키텍처를 융합하거나 축약(aggreagation)하는 데에 초점을 두었다.

반대로, 본 논문에선 전체 네트워크를 공동훈련 하는 데에 중점을 두었다.

구조의 문제로 보기보다는, 모델 최적화의 측면에서 연구한다.

어떻게 공동으로 훈련하며 멀티 모달 신호들을 최적으로 혼합할 수 있을까?

적절한 최적화를 통해, 오디오가 영상 분류에서 유용하게 쓰인다는 사실을 발견하였다.

 

Multi-modal networks

본 연구는 분류를 위한 멀티모달 네트워크에 대한 이전 연구와 관련되어 있는데, 이는 주로 공동훈련과는 대조적인 사전훈련을 사용한다.

반면, 본 연구는 cross-modal task와 cross-modal self-supervised learning에 관련 있는데

이는 하나의 모달리티를 입력으로 받아 다른 모달리티에 대한 예측을 수행하거나

e.g., Visual-Q&A, image captioning, sound localization in videos

cross-modality correspondence를 self-supervision으로 사용한다.

(즉, 서로 다른 모달리티 간 어떤 점수를 매겨서 이를 라벨로 사용하는 듯)

e.g., image-audio correspondence, video-audio synchronization

이 대신, 본 연구진은 멀티 모달 네트워크의 공동훈련 문제를 해결하려고 시도함

 

Multi-task learning

제안된 Gradient-Blending 훈련 방법은 auxiliary loss를 사용하는 multi-task 학습에 관한 이전 연구와 관련 있다.

이런 방법들은 균일하거나 수동으로 조정된 가중치를 사용하거나, 훈련 중 파라미터로써 가중치를 학습하는 반면, 본 연구에서는 OGR을 사용하여 supervision signal을 re-calibrate.

Calibration
모델의 출력값이 실제 confidence를 반영하도록 만드는 것

모델의 출력이 실제 confidence를 반영한다면 confidence와 accuracy가 일치해야 함
https://3months.tistory.com/490

 

Multi-modal training vi a Gradent-Blending

 

<Background>

Fig 2. Uni- vs. multi-modal joint training

(a) Uni-modal training of two different modalities
(b) Naive joint training of two modalities by late fusion
(c) Joint training of two modalities with weighted belnding of supervision signals

Uni-modal network

훈련 셋 $\mathcal{T}=\{X_{1...n}, y_{1...n} \} $에 대해, $X_i$는 i번째 훈련 샘플, $y_i$는 라벨값이다.

단일 모달리티 $m$(RGB 프레임, 오디오, optical flows)에 대해 훈련한다는 것은 식 1의 손실함수를 최소화하는 것을 뜻한다.

식 1

$\varphi_m$ : 파라미터 $\Theta_m$를 갖는 심층네트워크
$\mathcal{C}$ : 분류기, 일반적으론 파라미터 파라미터 $\Theta_c$를 갖는 하나이상의 FC층

여기서 고려하는 분류문제의 경우, $\mathcal{L}$은 교차엔트로피 손실이다.

식 1을 최소화하기 위한 최적해는 $\Theta^*_m, \Theta^*_c$이다.

그림 2(a)는 각기 다른 모달리티 $m_1, m_2$를 독립적으로 훈련하는 것을 보여준다.

 

Multi-modal network

M개의 다른 모달리티($\{ m_i\}^k_1$)에 대한 late-fusion 모델을 훈련한다.

각 모달리티를 각기 파라미터 $\Theta_{m_i}$를 갖는 다른 심층 네트워크 $\varphi_{m_i}$를 통해 처리하고, 이 특징들을 융합한 후, 분류기 $\mathcal{C}$로 넘겨준다.

이는 식 2의 손실함수를 최소화하는 방식으로 훈련한다.

식 2

$\oplus$ : 융합 연산 (concatenation)

그림 2(b)는 두 모달리티 $m_1, m_2$의 공동(joint) 훈련을 보여준다.

식 2의 멀티모달 네트워크는 식 1의 유니모달 네트워크의 상위집합이다.

식 1에서 임의의 모달리티 $m_i$에 대해, $m_i$를 제외한 모든 모달리티를 제거하는 파라미터 $\Theta_c$를 선택하면 식 2와 동등해질 수 있다.

이것의 해는 찾을 수 없는데, 다음에서 그 이유를 설명한다.

 

<Generalizaing vs. Overfitting>

일반적으로 과적합이란 훈련 셋의 패턴은 학습하였지만 타겟 분포에 대해 일반화되지 않는 경우를 의미한다.

N 에폭에 대해 모델 파라미터가 주어질 때, $\mathcal{L}^\mathcal{T}_N$을 고정 훈련 셋에 대한 모델의 평균 손실, $\mathcal{L}^*_N$은 가상의 타겟분포에 따른 실제 손실값

타겟 분포는 알 수 없기 때문에 실제 손실값이 어떤지는 계산할 수 없다.
따라서 이 $\mathcal{L}^*$을 검증 셋에 대한 손실 $\mathcal{L^V}$으로 근사한다.

Fig 3. Overfitting-Generalization Ratio (OGR)

두 체크포인트 $N, N+n$에 대해 과적합 $\Delta O$의 경우, $N+n$에서의 과적합 - $N$에서의 과적합으로 정의한다
따라서, $\Delta O$가 클수록 시간이 지나면서 과적합 정도가 커진다는 것을 의미한다.
$\Delta G$는 일반화를 평가하는 건데, $N+n$에서와 $N$에서의 검증손실의 차이값으로 계산한다.
따라서, $\Delta G$가 클 수록 시간이 지나면서 손실값이 점점 커지고 있다는 의미이기 때문에 일반화 능력이 떨어진다.
결국엔, 훈련이 잘 되려면 과적합이 줄어들고, 일반화 능력이 좋아져야 한다.

에폭 N에서 과적합은 $\mathcal{L}^\mathcal{T}_N$와 $\mathcal{L}^*_N$의 차이 값으로 정의한다.

그림 3에서처럼 $O_N$으로 근사됨

모델의 두 체크포인트 사이에 훈련이 잘 되고 있는지는 과적합($\Delta O$)과 일반화($\Delta G$)의 변화로 평가한다

체크포인트 $N, N+N$에 대해, 과적합-일반화 비율 (OGR, overfitting to generalization ratio)는 식 3과 같이 정의한다

식 3

체크포인트 간 OGR은 학습된 정보의 퀄리티를 평가한다

교차엔트로피 손실에선, 일반화할 수 없는 비트와 일반화할 수 있는 비트의 비율

학습을 진행하면서 이 OGR을 최소화하는 것을 목적으로 한다.

하지만 전역으로 OGR을 최적화하기 위해선 비용이 많이 들고

또한, 모델이 매우 과소적합한 상태에선 점수가 꽤 잘 나올 것이다.

과소적합 모델의 경우 훈련 손실과 검증 손실의 차가 매우 작기 때문에 $O$가 작다.

 

따라서, 본 연구진은, 그라디언트를 몇 가지 추정해서, 이들을 혼합하여 무한히 작은 $OGR^2$을 최소화하도록하는 무한소 (infinitesimal) 문제를 해결하도록 제안한다.

이 혼합을 경사하강법에 의한 최적화 과정에 적용하였다. (e.g., SGD with momentum)

이제부터는 각 그레디언트 단계마다 검증 손실에 대한 unit gain 당 일반화 오류를 가능한 적게 증가시켜서 과적합을 최소화한다.

멀티모달 환경에서, 여러 모달리티로부터의 그레디언트 추정치들을 결합하고, $OGR^2$를 최소화하여  각 그레디언트 단계에서 가장 좋은 단일 모달리티보다 뒤떨어지지 않는 gain을 얻도록 보장한다.

이렇게 $L^2$ 문제로 바꾸면 단순하고 구현하기 쉬우며 실제로 잘 작동한다.

 

그레디언트 추정치 $\hat{g}$에 대한 단일 파라미터 업데이트 단계를 생각해 보자.

두 체크포인트 간 거리가 작으면 (해당 그레디언트 단계에서 훈련 손실이 감소하는 것이 보장된 이웃에서), 1차 근사(first-order approximations)를 사용한다.

$\Delta G \approx <\nabla \mathcal{L}^*, \hat{\mathcal{g}}>$
$\Delta O \approx <\nabla \mathcal{L^T}-\mathcal{L}^*, \hat{g}>$

따라서 단일 벡터 $\hat{h}$에 대한 $OGR^2$는 식 4와 같다.

식 4

 

수식 정리

 

<Blending of Multiple Supervision Signals by $OGR$ Minimization>

각 모달리티의 특징과 융합된 특징에 분류기를 부착하여 그레디언트의 추정치를 여럿 얻을 수 있다. (그림 2(c) 참고)

각 손실 별로 역전파를 거쳐 모달리티 별 그레디언트 $\{\hat{g_i}\}^k_{i=1}$를 얻는다.

모달리티별 그레디언트는 네트워크의 다른 부분에 대해선 0을 많이 포함하게 됨

이다음엔 이들을 더 나은 일반화 특성을 가진 단일 벡터로 혼합한다.

 

Proposition 1 (Optimal Gradient Blend)

오버피팅이 $\mathbb{E}[<\nabla\mathcal{L^T}-\nabla\mathcal{L}^* , \mathcal{v}_k><\nabla\mathcal{L^T}-\nabla\mathcal{L}^*, \mathcal{v}_j>]=0$을 만족$(j\neq k)$하는 $\nabla \mathcal{L}^*$에 대한 추정치를 $\{ \mathcal{v}_k\}^M_0$라 하자.

$0~M$은 각 모달리티를, $j,k$는 서로 다른 체크포인트를 의미하는 것 같음
$\nabla \mathcal{L}^*$은 타겟분포에 따른 true loss이기 때문에 실제 값을 알 수 없어 추정하는 것 같음

$\sum_k w_k=1$인 제약 조건 하에서 문제에 대한 최적 가중치 $w_k\in\mathbb{R}$는 다음과 같이 정해진다.

식 5
식 6

이때, $\sigma_k^2 \equiv \mathbb{E}[<\nabla\mathcal{L^T}-\nabla\mathcal{L}^*, \mathcal{v}_k>^2], Z = \sum_k \frac{<\mathcal{L}^*, \mathcal{v}_k>}{2\sigma^2_k}$의 정규화 제약을 가진다.

식 5는 $OGR^2$의 식에 그레디언트 자리로 $\sum_k w_kv_k$을 집어넣음 
아직도 <> 연산이 뭘 의미하는지 모르겠다.

 

두 모델의 과적합이 서로 상관관계가 있으면 가정 $\mathbb{E}[<\nabla\mathcal{L^T}-\nabla\mathcal{L}^* , \mathcal{v}_k><\nabla\mathcal{L^T}-\nabla\mathcal{L}^*, \mathcal{v}_j>]=0$은 거짓이 된다.

하지만 이 경우엔 애초에 둘을 혼합하여 얻을 수 있는 것이 거의 없음

실험을 통해 이 cross term이 상대적으로 $\mathbb{E}[<\nabla\mathcal{L^T}-\nabla\mathcal{L}^* , \mathcal{v}_k>^2]$보다 작음을 관찰했다.

cross term
선형대수학에서 변수가 둘 이상인 항을 의미함

이는 모달리티 간 상호보완적인 정보 때문일 가능성이 크며, 이것이 발생하는 이유는 공동훈련(joint training)이 자연스럽게 뉴런 간 상호보완적인 특징들을 학습하려고 하기 때문이라고 추측한다.

제안 1에 대한 증명에 대해서는 보충자료 참고

 

제안 1은 여러 추정치를 혼합하는 잘 알려진 결과들과 비교될 수 있다.

평균의 경우, 개별 분산과 반비례하게 가중치를 적용한 uncorrelated estimator을 혼합하여 minimum-variance estimator를 얻는다.

이와 비슷하게 제안 1도, 분산을 $O^2$로 대치하고, 각각의 $O^2$(여기선 분자 G)와 반비례하게 가중치를 적용한다

 

<Use of $OGR$ and Gradient-Blending in practice>

그림 2(c)에서 처럼, 최적화에 적절한 방법을 구성하기 위해 multi-task 구조를 적용했다.

Optimal blending by loss re-weighting

각 역저파 단계에서, $m_i$에 대한 모달리티별 그레디언트는 $\nabla \mathcal{L}_i$이고, 융합된 loss로부터 그레디언트는 식 2를 통해 얻어 $\nabla \mathcal{L}_{k+1}$로 표기.

식 7

혼합된 손실에 대한 그레디언트 (식 7)을 취해 혼합된 그레디언트 $\sum_{i=1}^{k+1} w_i\nabla\mathcal{L}_i$를 얻는다.

적절한 $w_i$를 찾기 위해 그레디언트 혼합을 구현하는 편리한 방법을 제공한다.

직관적으로, loss re-weighting이란 여러 모달리티의 과적합/일반화 속도를 맞추기 위해 learning schedule을 re-calibrate.

 

Measuring $OGR$ in practice

실제로 $\nabla \mathcal{L}^*$은 사용할 수 없다.

아마 타겟 분포를 알 수 없기 때문일 듯

$OGR$을 측정하기 위해, 훈련 셋의 하위 집합으로 $\mathcal{V}$를 가져와 실제분포를 근사한다.

$\mathcal{L^V}\approx\mathcal{L}^*$

손실을 측정하는 것 대신 정확도를 척도로 사용해도 효과적으로 G, O를 계산하고 그레디언트 혼합을 위한 최적의 가중치를 추정할 수 있다는 것을 발견했다.

연산 비용을 줄이기 위해, 가중치 추정 시 데이터의 하위집합을 작게 하여 수행한다. 

 

그레디언트 혼합 알고리즘은 훈련 데이터 $\mathcal{T}$, 검증 집합 $\mathcal{V}$, $k$개의 입력 모달리티 $\{m_i\}^k_{i=1}$, joint head $m_{k+1}$를 입력으로 한다. (그림 2(c) 참고)

실제로 훈련 손실/정확도를 측정하기 위해 훈련 셋의 부분집합 $\mathcal{T}'$을 사용한다.

에폭 $N$에서부터 $n$에폭간 훈련 시 그레디언트 혼합 가중치를 계산하기 위해 알고리즘 1에서 그레디언트  가중치 추정방법을 제공한다.

Algorithm 1

두 가지의 그레디언트 혼합 방법을 제안한다.

  1. Offline Gradient-Blending은 그레디언트 혼합의 단순한 버전이다. 가중치를 한 번만 계산하고 고정된 가중치 집합을 사용하여 전체 에폭을 훈련한다. 이 방법은 구현하기가 쉽다. (알고리즘 2 참고)
  2. Online Gradient-Blending은 그레디언트 혼합의 완전한 버전이다. 주기적으로 가중치를 다시(e.g., 매 $n$ 에폭마다 - super epoch이라 칭함) 계산하고 super-epoch마다 새로운 가중치로 모델을 훈련한다. (알고리즘 3 참고)

Algorithm 2
Algorithm 3

실험적으로는 offline 방법이 눈에 띄게 잘 수행한다.

 

Ablation Experiments

<Experimental setup>

Datasets

3개의 비디오 데이터셋 : Kinetics, mini-Sports, mini-Audioset 사용

각 데이터셋에 대한 세부 설명은 skip

 

Input preprocessing & augmentation

3개의 모달리티를 고려한다

RGB, optical flow, audio

RGB, flow에 대해선 입력으로 $16\times 224\times 224$의 input clip을 사용

참고문한 [46]을 통해 시각적 후처리와 증강을 적용

audio에 대해선 40 Melfilters에 의한 log-Mel with 100 temporal frames 적용

Audio와 시각은 시간 축을 따라 배열되어있다.

 

Backbone architecture

RGB, flow에는 시각적 백본으로 ResNet3D 사용하였고, audio 모델의 백본으로는 ResNet을 채택하였다.

두 모델 모두 50개의 층으로 구성

융합에는 시각과 오디오 백본으로부터 출력을 concatenate한 특징에 대해 2개의 FC층 네트워크를 사용하였고, 이 후 하나의 예측 레이어를 통과하게 된다.

 

Training and testing

훈련 데이터의 작은 비율을 취해 가중치 추정에 사용하였다.

Kinetics, mini-Sports : 8%
mini-AudioSet : 13%

최종 비디오 예측은 균일하게 샘플링 된 10개의 클립을 center-crop하여 사용하고, 10개의 예측값을 평균내어 이뤄진다.

 

<Overfitting Problems in Naive Joint Training>

audio-RGB 공동훈련과, 단일 모달 audio만으로, RGB만으로 훈련한 것을 비교한다.

Fig 4. Severe overfitting of naive audio-video models

그림 4는 Kinetics, mini-Sports에 대한 훈련커브를 보여준다.

두 데이터셋 모두, 오디오 모델이 가장 과적합되었고, 비디오가 가장 적게 과적합되었다.

비디오만 사용한 모델에 비해 audio-RGB 결합모델은 훈련 에러는 낮고 검증 에러는 높았다.

i.e. naive audio-RGB 공동 훈련이 과적합을 증가시키고, 이는 비디오만 사용했을 때에 비해 정확도가 떨어지는 이유를 설명한다.

이 분석을 기반으로 다른 멀티모달 문제에도 심한 과적합이 나타나는 것을 확인하였다.

3개의 모달리티(audio, RGB, optical flow)에 대해 모든 가능한 조합 4개를 고려하였다.

Table 1. 단일모달 네트워크가 멀티모달 네트워크를 능가

모든 경우에서, 공동훈련의 검증 정확도가 단일 스트림 모델의 최고 성능보다 현저히 낮았고, 훈련 정확도는 거의 대부분높았다.

 

<Gradient-Blending is an effective regularizer>

먼저 G-Blend의 online, offline 버전의 성능을 비교한다.

이후, G-Blend가 적응적 학습률을 갖는 여러 타입의 옵티마이저들과 쓰일 수 있음을 보인다.

다음으론, G-Blend가 각기 다른 멀티모달 문제들(모달리티의 여러 조합들), 모델 구조, 작업의 성능을 향상시킬 수 있음을 보인다. 

Online G-Blend Works

G-Blend의 완전한 버전인 online G-Blend을 먼저 다룬다.

warm up 단계에서 초기 super epoch 크기는 10으로 설정 후, 이후는 5로 정한다.

Kinetics의 경우, RGB-audio 환경에서, online Gradient-Blending이 단일모달과 멀티모달 베이스라인을 각각 3.2%, 4.1% 능가하였다.

Fig 5. Online G-Blend (a) Online G-blend weights for each head (b) Online G-Blend outperforms naive training on each super-epoch

 Online의 경우 가중치는 그림 5(a)에서 확인할 수 있다.

일반적으로 가중치는 초기에는 visual에  약간 더 집중되어 안정적인 경향을 보인다. 

이후, 모델이 visual trunk에 대해 사전훈련을 거친 15에폭 이후로 변화가 있다가

20에폭에서 A/V trunk가 visual trunk와 학습 싱크를 맞추기위해 모든 가중치를 가져간다.

이 후, 가중치는 한번더 안정화되다가 visual 학습에 강하게 초점을 맞추게된다.

본 연구진은 일반적으로, 신경망에서 학습되는 패턴은 각 훈련 단계별로 다르다고 믿기 때문에, 과적합/일반화 경향이 훈련 도중에 바뀔 수 있다.

이 때문에 훈련의 각 단계별로 다른 가중치가 나타나는 것.

 

게다가, 그림 5(b)에서 G-Blend가 online 환경에서 항상 naive training을 능가하는 것을 확인하였다.

naive training
여러 width configuration을 가진 공유된 네트워크를 바로 훈련시키는 방법 

https://hongl.tistory.com/77

같은 초기화를 사용했을 때(model snapshots at epoch 0,10,15,...,40), super-epoch이후로 G-Blend모델과 naive training의성능을 비교하였는데, G-Blend모델이 항상 naive training을 능가하였다.

G-Blend가 항상 더 일반화된 훈련 정보를 제공함을 의미하고, 경험적으로 proposition 1을 증명하게 되었다.

게다가, 가중치를 사용하여 OGR을 최소화하는 것이 모델의 성능을 향상시키기 때문에, OGR을 최소화하는 것의 관련성을 보여준다.

공정한 비교를 위해, main trunk는 고정하고 분류기를 Naive A/V, G-Blend에 대해 파인튜닝하여 백본의 퀄리티를 평가한다.

에폭 25에서 G-Blend가 대부분의 가중치를 A/V head에 넣기 때문에 gain이 미미하고, 이 super-epoch에 대해선 naive training과는 사실상 비교할 수 없다.

 

Offline G-Blend Also Works

Online G-Blend로 꽤 좋은 향상을 얻고 오버피팅 문제도 해결하였지만 구현하기에는 복잡하고 추가적인 가중치 계산때문에 다소 느린 면이 있다.

Offline G-Blend는 쉽게 적용될 수 있고 실제 사용될 때도 눈에띄게 잘 작동한다.

Kinetics에 대해 동일한 audio-RGB환경에서 offline G-Blend 또한 단일 모달 베이스라인과 naive joint training을 큰 차이로 능가하였다. (각각 +2.1%, +3.0%)

온라인보단 근소하게 떨어짐 (-1.1%)

따라서 나머지 ablation연구에서는 offline G-Blend를 적용하면서 성능을 확인하기로 함

online 버전은  여기선 다루지 않은 특이케이스에 대해 특히 유용하다는 것을 발견했다.

처음부터 학습한 대용량 모델과 결합한 fast-learing low-capacity model (사전학습 특징을 frozen해서 사용)

 

Offline G-Blend Also Works

 

 

 

 

 

 

 

 

Introduction

<Matrix Factorization Method>

단어 유추

내용