본 논문의 제목은 Deep Contextualized Acoustic Representations For Semi-Supervised Speech Recognition [1]이며, DeCoAR 라고도 불림
Semi-supervised를 진행 하기 위해 ELMo [2]의 개념과 bidirectional 방법을 채용하여 음성 frame의 미래와 과거를 contextualized 하여 복원하는 pretext task를 거친 후 freezing하여 fine-tuning으로 기존의 supervised learning 보다 좋은 성능을 내는 것을 보임
Overview
1. Semi-supervised 음성 인식을 위한 DeCoAR이라는 네트워크 제안
- 많은 양의 레이블이 없는 음성만을 사용하여 효율적이고 context-aware 한 acoustic representation을 학습하는 SSL 프레임워크 제안
2. Pretext
- Forward와 backward LSTM을 사용하여 acoustic representation learning 수행
- 이전 및 미래의 context frame에 해당하는 temporal 하게 slicing된 filterbank (Mel-spectrogram) 들을 복원하는 작업을 통해 feature learning 수행
3. Downstream task
- Pretext (pre-training)의 parameter들을 고정시킨 뒤 맨 뒷단에 output layer와 CTC loss를 추가하여 fine-tuning 작업 수행
Proposed method
전체 모델 그림
1. Related word - ELMo
- 본 논문은 ELMo로부터 영감을 받아 제안되었음
- $T$ tokens ($w_1,w_2,...,w_T$)가 주어졌을 때, forward language model은 chain rule decomposition을 이용하여 output 확률을 계산하며, 아래와 같음
$p(w_1,w_2,...,w_T)$=$\prod_{t=1}^Tp(w_k|w_1,w_2,...,w_{t-1})$
- 마찬가지로 backward language model은 아래의 식과 같이 미래의 context $w_{t+1},...,w_T$에서 token $w_t$의 확률을 모델링하여 sequence 확률을 계산함
$p(w_1,w_2,...,w_T)$=$\prod_{t=1}^Tp(w_t|w_{t+1},w_{t+2},...,w_T)$
- ELMo는 위의 forward 와 backward language model의 joint log-likelihood를 최대화 하는 방식으로 학습되며 아래의 식과 같음
$\Sigma_{t=1}^T[logp(w_t|w_1,w_2,...,w_{t-1};\Theta_x,\Theta_{LSTM}^\rightarrow,\Theta_s)]$ + $logp(w_t|w_{t+1},w_{t_2},...,w_T;\Theta_x,\Theta_{LSTM}^\leftarrow,\Theta_s)$
- 여기에서 $\Theta_x$는 token representation layer의 parameter이며, $\Theta_s$는 softmax layer의 parameter, $\Theta_{LSTM}^\rightarrow$와 $\Theta_{LSTM}^\leftarrow$는 각각 forward, backward LSTM layer의 파라미터들임
- ELMo에서는 위의 식을 maximizing 하여 최적화 할 수 있고, Speec processing에서는 input data를 acousitc feature $X={x_1,...,x_T}$로 나타내어 위처럼 계산 가능
2. Proposed DeCoAR (pre-training)
- ELMo의 bidirectionality 방법과 acoustic feature인 frame을 masking 하여 복원하는 reconstruction objective를 결합하여 DeCoAR를 제안함
- Pretext에서는 과거와 미래의 acoustic vector가 주어지면, 이 조각들 (slice)을 예측하도록 모델을 훈련 시킴
- Forward와 backward로 쌓인 LSTM들은 주어진 정답이 없는 $X=(x_1,...,x_T)$ 전체를 input으로 받아 훈련되며, 이 때 $x_T$는 40-dimensional의 log mel filterbank가 사용됨
- 이렇게 되면, network는 과거와 미래의 매 time step의 $x_t$에 대한 frame들 ($z_t^\rightarrow,z_t^\leftarrow$)을 encode하여 hidden representation을 계산함
- 즉, acoustic feature input인 $(x_1,...,x_T)\in\mathbb{R}^d$이 주어질 때, time step $t$에서 시작하는 각각의 slice들 ($x_t,x_{t+1},...,x_{t+K}$)들의 objective는 아래의 식과 같음
$\mathcal{L}=\Sigma_{i=0}^K|x_{t+i}-FFN_i(z_t^\rightarrow;z_t^\leftarrow)|$
- 여기에서 $[z_t\rightarrow,z_t\leftarrow]\in\mathbb{R}^2h$는 LSTM의 forward와 backward의 concatenated된 states, 즉 BLSTM의 states이며,
$FFN_i(v)=W_{i,2}ReLU(W_{i,1}v+b_{i,1})+b_{i,2}$
- 는 512 hidden dimension의 position-dependent feed-forward임
- 최종 loss $mathcal{L}$은 전체 시퀀스의 가능한 모든 slice들을 합산 된 것이며, 아래의 식과 같음
$\mathcal{L}=\Sigma_{t=1}^{T-K}\mathcal{L}_t$
3. DeCoAR (fine-tuning)
- Fine-tuning은 생각보다 간단한데, 모델이 레이블이 없는 데이터로 DeCoAR의 pre-train을 끝내면, 이 parameter들을 freezing 함
- 이후, reconstruction layer를 제거하고 ($FFN$), 2개의 BLSTM와 CTC loss를 활용하여 fine-tuning을 진행함
Experimental setups
1. Data (SSL)
- WSJ와 LibriSpeech 데이터셋 중 하나를 unlabeled data로 간주하여 pre-training으로 사용
2. Data (comparison, supervised end-to-end)
- WSJ에서, 30%, 50%, 100%에 대해 label을 주어 ASR 학습
- LibriSpeech에선, 100h, 360h, 460h, 960h에 대해 label을 주어 ASR 학습
3. Supervised setup
- Log-mel filterbank feature 사용 (window=25ms, hop=10ms)
- 각 방향마다 512의 hidden dimension을 갖는 6개의 BLSTM 사용
- CTC loss 사용, 72 class
4. Semi-supervised setup
- Pre-training: slice size 18 (mask size)으로 두고, reconstruction loss를 사용하여 4개의 BLSTM으로 DeCoAR를 pre-traning
- Fine-tuning: 위에서 얻은 parameter를 freezing, 2개의 BLSTM인 projection layer를 추가하고 CTC loss를 사용하여 tuning함
5. Decoding setups
EESEN을 활용한 WFST-based decoding
- CTC label, lexicons, LM 사용 (WSJ의 경우 unpruned trigram LM 사용, LibriSpeech의 경우 4-gram LM 사용)
- AM score는 WSJ의 경우 0.8, LibriSpeech의 경우 1.0으로 설정
- Blank symbol의 prior scale은 두 작업 모두 0.3으로 설정
Results
1. Semi-supervised WSJ results
- Fine-tuning with full WSJ results:
1-1) Pre-training을 하지 않은 supervised의 경우 8.21/5.44%, wav2vec의 (kaen2891.tistory.com/79) 경우 6.84/3.97% 제안한 DeCoAR의 경우 6.30/3.17%의 WER를 획득함
- 상대적 개선률은 각각 42%와 20%임
2) Fine-tuning with small of WSJ results
- DeCoAR의 feature로부터 fine-tuning된 결과는 supervised learning 된 filterbank보다 훨씬 좋은 성능 달성
- 특히 표 아래의 동일 25, 40에 대해 큰 폭의 차이를 보임
2. Semi-supervised LibriSpeech results
- 표 3의 test-clean의 경우, 오직 100시간의 label이 있는 데이터로 fine-tuning을 할지라도, 960시간 전부를 사용한 filterbank, 즉 supervised learning과 비슷한 성능을 보임
- test-other part의 경우, 360시간을 fine-tuning하면 비슷한 성능을 낼 수 있음
- 즉, semi-supervised learning의 우수성을 보이는 표
Ablation study
1. Context window size
- Slice 사이즈를 늘리게 되면 masking과 predicting도 그 만큼 더 많이 해야 되는데, 오히려 이것이 성능을 낮추고 학습 시간을 더 소요한다는 단점 발견
- 비슷한 예로, SpanBERT에서는 (자연어 처리 모델) 3.9의 consecutive words 길이인 평균 범위를 마스킹하는 것이 word reconstruction 목표에 이상적이라는 것을 발견하였음
- 본 논문에서는 18개의 slicing size가 best임을 발견함
2. Unidirectional versus bidirectional context
- 아래의 표를 통해 양방향/단방향의 성능 차이점에 대해 보임
- 당연히 양방향이 시간이 오래걸리는 만큼 성능이 좋을 것이라는 개인적인 생각
Summary
- ASR에 대해 제안 된 준지도 학습 접근법
- Deep contextualized acoustic representation (DeCoAR)을 학습하기 위해 많은 양의 레이블이 지정되지 않은 데이터를 사용하는 deep BLSTM 네트워크 제안
- 이러한 DeCoAR feature는 unlabeled의 representation으로 사용되어 CTC-based E2E ASR 모델을 fine-tuning으로 훈련함
- Supervised learning인 log-mel 필터뱅크 feature 결과 대비 WSJ에서 42 % 상대적 개선을 보였음
Reference
[1] Ling, Shaoshi, et al. "Deep contextualized acoustic representations for semi-supervised speech recognition." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[2] Peters, Matthew, et al. "Deep Contextualized Word Representations." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018.
'Paper Review > Unsupervised, Self & Semi-supervised' 카테고리의 다른 글
Audio ALBERT: A lite BERT for self-supervised learning of audio representation 리뷰 (0) | 2021.04.25 |
---|---|
Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders 리뷰 (0) | 2021.04.25 |
wav2vec 2.0 리뷰 (0) | 2021.04.12 |
vq-wav2vec 리뷰 (2) | 2021.04.11 |
Gumbel-Softmax 리뷰 (4) | 2021.04.11 |