728x90

본 논문의 제목은 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations [1] 이며, vq-wav2vec 기법에 Transformer [2] 네트워크 사용 및 BERT의 masking을 audio에 적용한 논문이다.

 

Overview

- BERT [3]의 Masked Language Modeling의 기법인 MLM을 raw speech에 사용

- Self-supervised learning

- 단 10분의 labelled 음성 (40개)으로 fine-tuning하여 LibriSpeech의 clean 5.7 / noisy 10.1 Word error rate 기록

 

Proposed

 

wav2vec 2.0 model architecture

1. Feature Encoder $f$

- 다중 CNN 기반의 encoder $f:\mathcal{X}$$\mathcal{Z}$

- 여기에서 $\mathcal{X}$ 는 입력 raw audio이며, ouptut은 latent speech representation인 $z_1,...,z_T$가 $T$ time-steps 만큼 있음

 

2. Quantization module

- Encoder의 output feature는 양자화 모듈 $\mathcal{Z}$$\mathcal{Q}$을 사용하여 $q_t$로 이산화 됨

- Target의 representation을 self-supervised objective 사용

codebook measuring in wav2ec

- Feature Encoder output $z$는 $I$ $\in$$R^{G*V}$  logit에 매핑되며, 그룹 $G$에 대한 $v$번째 codebook 항목을 선택하는 확률은 위의 식과 같음

- Codebook의 word $i$는 $i=$argmax$_jp_{g,j}$에 의해 선택됨

- Backpropagation에서는 Gumbel-Softmax [4] 출력의 실제 gradient가 사용됨

 

 

 

3. Context network (Transformer)

- Transformer network에 $\mathcal{Z}$가 입력됨: $g:\mathcal{Z}$$\mathcal{C}$

- 전체 시퀀스로부터 representation $c_1,...,c_T$를 정보를 capturing 함

 

3.1 Masking

- 전체 오디오 구간 중 6.5를 randomly choice

- 선택된 $z_t$에서 $z_{t+10}$만큼 masking

- 전체 $T$의 49%가 평균 span length인 299ms로 마스킹 됨

 

 

Objective and loss

 

 

1) BERTmasked language modeling (MLM)과 유사하게 latent speech의 일부분을 masking하며, 모델은 quantized latent audio representation을 맞추는 방식으로 트레이닝이 진행됨

- 이렇게 학습한 후 labeled 된 데이터로 fine-tuning 진행

- 마스킹 된 representation에 대한 quantized latent speech representation 식별하는 식은 아래와 같음

$\mathcal{L}$=$\mathcal{L_m}+\alpha\mathcal{L_d}$

 

2) $\mathcal{L_M}$

모델이 실제 quantized  latent speech representation  K distractor 식별해야하는 대비 손실 Lm.

- Distractors는 동일한 발화의 다른 마스킹 된 시간 단계에서 균일하게 샘플링 됨

- 마스킹 된 시간 단계 $t$를 중심으로 컨텍스트 네트워크 출력 $c_t$가 주어지면, 모델은 $q_t$ 및 $K$개의 distractor를 포함하는 $K+1$ 양자화 된 후보 representation ~$q\in{Q_t}$ 세트에서, 실제 양자화 된 잠재 음성 표현 $q_t$ 식별함

- Distractors는 동일한 발화의 다른 마스킹 된 시간 단계에서 균일하게 샘플링되며, $K = $distractor, 즉 방해 요소임

$\mathcal{L_M}$ = -log$\frac{\exp(sim(c_t,q_t)/\mathcal{k})}{\Sigma\bar{q}~Q_t\exp(sim(c_t,\bar{q})/\mathcal{k})}$

- 여기에서 $sim(a,b)$ = $a^Tb/||a||b||$ 임. 즉 식에서는 $c_t$와 $q_t$의 유사성

 

3) $\mathcal{L_d}$

- 각 $G$코드북에서 $V$항목의 동일한 사용을 권장하기 위한 로스 함수이며, 이를 위해 Contrastive loss 코드북에 의존하여 positive 인 예제와 negative 예제를 모두 나타냄

- 즉, 모델이 코드북 항목을 똑같이 자주 사용하도록 장려하는 다양성 손실 $\mathcal{L_d}$임

- 저자는 speech segmentation의 배치에 걸쳐 각 codebook 대한 평균 소프트 맥스 분포 $l$의 엔트로피를 최대화함으로써 각 $G$코드북에서 $V$항목의 동일한 사용을 권장

$\mathcal{L_d}=\frac{1}{GV}\Sigma_{g=1}^G-H(\bar{p_g})$

==> $\frac{1}{GV}\Sigma_{g=1}^G\Sigma_{v=1}^V\bar{p}_{g,v}\log\bar{p}_{g,v}$

- $V$ 항목 $e\in\frac{{R^{Vxd}}}{G}$ 가 있는 $G$ 코드북 또는 그룹이 주어지면, 각 코드북에서 하나의 항목을 선택한 뒤, 결과 벡터 $e_1$을 연결함

 

Downstream task

- 저자는 작업의 어휘를 나타내는 $𝐶$ 클래스에 컨텍스트 네트워크 (Transformer) 위에 무작위로 초기화 된 linear proejction을 추가함
- Librispeech의 경우 character target을 위한 29개의 토큰과 word 경계 토큰이 있음
- CTC [5] 손실을 최소화하여 모델을 최적화함

 

Results

Results

- 10분 fine-tuning의 경우 clean 4.8%, noisy 8.2%의 WER 달성

- 1시간 fine-tuning의 경우 clean 2.9%, noisy 5.8%의 WER 달성

- 10시간 fine-tuning의 경우 clean 2.6%, noisy 4.9%의 WER 달성

- 100시간 fine-tuning의 경우 clean 2.0%, noisy 4.0%의 WER 달성

 

 

 

Results

- 960시간 전체 다 사용시, clean 1.8% noisy 3.3%의 WER 달성

 

 

 

[1] Baevski, Alexei, et al. "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations." Advances in Neural Information Processing Systems 33 (2020).

[2] Vaswani, Ashish, et al. "Attention is All you Need." NIPS. 2017.

[3] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

[4] Jang, Eric, Shixiang Gu, and Ben Poole. "Categorical reparameterization with gumbel-softmax." arXiv preprint arXiv:1611.01144 (2016).

[5] Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. 2006.

728x90

+ Recent posts