본 논문의 제목은 vq-wav2vec: Self-Supervised Learning of Discrete Speech Representation [1] 이며, vector quantizing 기법 중 codebook을 이용한 online K-means [2], Gumbel-Softmax Trick [3]을 이용하여 continuous 한 data를 discrete 하게 만들어서 복원에 사용한 논문이다.
Overview
- raw audio 세그먼트로부터 discrete representation 학습
- Gumbel-Softmax [3] 또는 온라인 k-mens clustering [2] 사용하여 continuous (dense)한 representation을 양자화 함
- Discretization을 통해 NLP (예: BERT)의 알고리즘을 직접 적용하는 것을 보임
Proposed
1. Model flow
- Encoder내의 2개의 CNN의 역할 $f:\mathcal{X}$⟼ $\mathcal{Z}$, 이를 통해 raw audio segment로부터 representation 추출
- 양자화 모듈: $q:\mathcal{Z}$⟼ $\mathcal{\hat{Z}}$ 을 통해, continuous한 representation을 discrete 하게 변경
- Context network (Decoder): $g:\mathcal{\hat{Z}}$⟼ $\mathcal{C}$를 통해, 특징 추출 및 aggregation
2. Encoder
- raw audio $X$를 dense representation $Z$로 mapping
- 30ms 단위의 세그먼트로 커팅 하여 encoder의 CNN인 $f$ 통해 feature extraction을 통해 $z$ 추출, 이 때 CNN의 stride는 10ms단위로 진행
- wav2vec과 동일
3. Quantizer
- $z$는 $\hat{z}$로 양자화 되는 것이 해당 네트워크의 목적
- Quantizer는 fixed size codebook $e\in{\large{R}}^{V*d}$로부터 $z$를 $\hat{z}=e_i$로 변환함
1) 이 때, One-hot representation의 argmax 값이 미분 가능하도록 변환해주는 Gumbel-Softmax 사용
2) 혹은 VQ-VAE에서 사용한것과 같이 유사한 online K-means clustering 사용 가능
- 해당 논문에서는 2개에 대해 모두 실험
4. How to pre-training the BERT in vq-wav2vec
- Gumbel-Softmax 를 이용하여 얻은 $\hat{z}$로 BERT 학습
- 연속적인 raw audio를 이산화된 speech 토큰의 범위를 마스킹하여 BERT 훈련
- 즉, codebook을 통해서 나온 embedded codebook을 BERT의 입력으로 주어서 음성을 학습함
- 음성을 토큰처럼 일정 길이로 자르고, encoder를 통과하여 quantization하여 나온 codebook에 BERT의 기법인 MLM (Masked Language Modeling) 기법을 사용한 뒤 학습함
Results
- log-mel spectrogram 사용한 것 보다 제안한 Self-supervised 기법의 vq-wav2vec의 성능이 좋았음
- 또한, quantization을 통해 discretization 된 음성 token을 활용하여 BERT처럼 학습 시킨 모델의 성능이 가장 좋았음
- 마지막으로, quantization에서 고려한 VQ-VAE에서 사용한 online K-means clustering보다 Gumbel-Softmax Trick의 기법이 더 성능이 좋았음
[1] Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations." International Conference on Learning Representations. 2020.
[2] van den Oord, Aäron, Oriol Vinyals, and Koray Kavukcuoglu. "Neural Discrete Representation Learning." NIPS. 2017.
[3] Jang, Eric, Shixiang Gu, and Ben Poole. "Categorical reparameterization with gumbel-softmax." arXiv preprint arXiv:1611.01144 (2016).
'Paper Review > Unsupervised, Self & Semi-supervised' 카테고리의 다른 글
DeCoAR: Deep Contextualized Acoustic Representations For Semi-Supervised Speech Recognition 리뷰 (0) | 2021.04.25 |
---|---|
wav2vec 2.0 리뷰 (0) | 2021.04.12 |
Gumbel-Softmax 리뷰 (4) | 2021.04.11 |
VQ-VAE 리뷰 (0) | 2021.04.11 |
wav2vec 리뷰 (0) | 2021.04.11 |