728x90

본 논문의 제목은 vq-wav2vec: Self-Supervised Learning of Discrete Speech Representation [1] 이며, vector quantizing 기법 중 codebook을 이용한 online K-means [2], Gumbel-Softmax Trick [3]을 이용하여 continuous 한 data를 discrete 하게 만들어서 복원에 사용한 논문이다. 

 

Overview

- raw audio 세그먼트로부터 discrete representation 학습

- Gumbel-Softmax [3] 또는 온라인 k-mens clustering [2] 사용하여 continuous (dense)한 representation을 양자화 함
- Discretization을 통해 NLP (예: BERT)의 알고리즘을 직접 적용하는 것을 보임

 

Proposed

 

1. Model flow

vq-wav2vec

- Encoder내의 2개의 CNN의 역할 $f:\mathcal{X}$$\mathcal{Z}$, 이를 통해 raw audio segment로부터 representation 추출

- 양자화 모듈: $q:\mathcal{Z}$⟼ $\mathcal{\hat{Z}}$ 을 통해, continuous한 representation을 discrete 하게 변경

- Context network (Decoder):  $g:\mathcal{\hat{Z}}$⟼ $\mathcal{C}$를 통해, 특징 추출 및 aggregation

 

 

2. Encoder

 

Encoder part

- raw audio $X$를 dense representation $Z$로 mapping

- 30ms 단위의 세그먼트로 커팅 하여 encoder의 CNN인 $f$ 통해 feature extraction을 통해 $z$ 추출, 이 때 CNN의 stride는 10ms단위로 진행

- wav2vec과 동일

 

3. Quantizer

- $z$는 $\hat{z}$로 양자화 되는 것이 해당 네트워크의 목적

- Quantizer는 fixed size codebook $e\in{\large{R}}^{V*d}$로부터 $z$를 $\hat{z}=e_i$로 변환함

Quantizer used Gumbel-Softmax, K-means clustering

1) 이 때, One-hot representation의 argmax 값이 미분 가능하도록 변환해주는 Gumbel-Softmax 사용

2) 혹은 VQ-VAE에서 사용한것과 같이 유사한 online K-means clustering 사용 가능

- 해당 논문에서는 2개에 대해 모두 실험

 

 

4. How to pre-training the BERT in vq-wav2vec

 

- Gumbel-Softmax 를 이용하여 얻은 $\hat{z}$로 BERT 학습

- 연속적인 raw audio를 이산화된 speech 토큰의 범위를 마스킹하여 BERT 훈련

- 즉, codebook을 통해서 나온 embedded codebook을 BERT의 입력으로 주어서 음성을 학습함

- 음성을 토큰처럼 일정 길이로 자르고, encoder를 통과하여 quantization하여 나온 codebook에 BERT의 기법인 MLM (Masked Language Modeling) 기법을 사용한 뒤 학습함

 

Results

- log-mel spectrogram 사용한 것 보다 제안한 Self-supervised 기법의 vq-wav2vec의 성능이 좋았음

- 또한, quantization을 통해 discretization 된 음성 token을 활용하여 BERT처럼 학습 시킨 모델의 성능이 가장 좋았음

- 마지막으로, quantization에서 고려한 VQ-VAE에서 사용한 online K-means clustering보다 Gumbel-Softmax Trick의 기법이 더 성능이 좋았음

 

 

 

[1] Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations." International Conference on Learning Representations. 2020.

[2] van den Oord, Aäron, Oriol Vinyals, and Koray Kavukcuoglu. "Neural Discrete Representation Learning." NIPS. 2017.

[3] Jang, Eric, Shixiang Gu, and Ben Poole. "Categorical reparameterization with gumbel-softmax." arXiv preprint arXiv:1611.01144 (2016).

728x90

+ Recent posts