728x90

본 논문의 제목은 Deep Contextualized Acoustic Representations For Semi-Supervised Speech Recognition [1]이며, DeCoAR 라고도 불림

Semi-supervised를 진행 하기 위해 ELMo [2]의 개념과 bidirectional 방법을 채용하여 음성 frame의 미래와 과거를 contextualized 하여 복원하는 pretext task를 거친 후 freezing하여 fine-tuning으로 기존의 supervised learning 보다 좋은 성능을 내는 것을 보임

 

Overview

1. Semi-supervised 음성 인식을 위한 DeCoAR이라는 네트워크 제안

- 많은 양의 레이블이 없는 음성만을 사용하여 효율적이고 context-aware 한 acoustic representation을 학습하는 SSL 프레임워크 제안

 

2. Pretext

- Forward와 backward LSTM을 사용하여 acoustic representation learning 수행

- 이전 및 미래의 context frame에 해당하는 temporal 하게 slicing된 filterbank (Mel-spectrogram) 들을 복원하는 작업을 통해 feature learning 수행

 

3. Downstream task

- Pretext (pre-training)의 parameter들을 고정시킨 뒤 맨 뒷단에 output layer와 CTC loss를 추가하여 fine-tuning 작업 수행

 

Proposed method

전체 모델 그림

DeCoAR

1. Related word - ELMo

- 본 논문은 ELMo로부터 영감을 받아 제안되었음

- $T$ tokens ($w_1,w_2,...,w_T$)가 주어졌을 때, forward language model은 chain rule decomposition을 이용하여 output 확률을 계산하며, 아래와 같음

$p(w_1,w_2,...,w_T)$=$\prod_{t=1}^Tp(w_k|w_1,w_2,...,w_{t-1})$

- 마찬가지로 backward language model은 아래의 식과 같이 미래의 context $w_{t+1},...,w_T$에서 token $w_t$의 확률을 모델링하여 sequence 확률을 계산함

$p(w_1,w_2,...,w_T)$=$\prod_{t=1}^Tp(w_t|w_{t+1},w_{t+2},...,w_T)$

- ELMo는 위의 forward 와 backward language model의 joint log-likelihood를 최대화 하는 방식으로 학습되며 아래의 식과 같음

$\Sigma_{t=1}^T[logp(w_t|w_1,w_2,...,w_{t-1};\Theta_x,\Theta_{LSTM}^\rightarrow,\Theta_s)]$ + $logp(w_t|w_{t+1},w_{t_2},...,w_T;\Theta_x,\Theta_{LSTM}^\leftarrow,\Theta_s)$

- 여기에서 $\Theta_x$는 token representation layer의 parameter이며, $\Theta_s$는 softmax layer의 parameter, $\Theta_{LSTM}^\rightarrow$와 $\Theta_{LSTM}^\leftarrow$는 각각 forward, backward LSTM layer의 파라미터들임

- ELMo에서는 위의 식을 maximizing 하여 최적화 할 수 있고, Speec processing에서는 input data를 acousitc feature $X={x_1,...,x_T}$로 나타내어 위처럼 계산 가능

 

 

2. Proposed DeCoAR (pre-training)

- ELMo의 bidirectionality 방법과 acoustic feature인 frame을 masking 하여 복원하는 reconstruction objective를 결합하여 DeCoAR를 제안함

- Pretext에서는 과거와 미래의 acoustic vector가 주어지면, 이 조각들 (slice)을 예측하도록 모델을 훈련 시킴

- Forward와 backward로 쌓인 LSTM들은 주어진 정답이 없는 $X=(x_1,...,x_T)$ 전체를 input으로 받아 훈련되며, 이 때 $x_T$는 40-dimensional의 log mel filterbank가 사용됨

DeCoAR representation learning

 

- 이렇게 되면, network는 과거와 미래의 매 time step의 $x_t$에 대한 frame들 ($z_t^\rightarrow,z_t^\leftarrow$)을 encode하여 hidden representation을 계산함

- 즉, acoustic feature input인 $(x_1,...,x_T)\in\mathbb{R}^d$이 주어질 때, time step $t$에서 시작하는 각각의 slice들 ($x_t,x_{t+1},...,x_{t+K}$)들의 objective는 아래의 식과 같음

$\mathcal{L}=\Sigma_{i=0}^K|x_{t+i}-FFN_i(z_t^\rightarrow;z_t^\leftarrow)|$

- 여기에서 $[z_t\rightarrow,z_t\leftarrow]\in\mathbb{R}^2h$는 LSTM의 forward와 backward의 concatenated된 states, 즉 BLSTM의 states이며, 

$FFN_i(v)=W_{i,2}ReLU(W_{i,1}v+b_{i,1})+b_{i,2}$

- 는 512 hidden dimension의 position-dependent feed-forward임

- 최종 loss $mathcal{L}$은 전체 시퀀스의 가능한 모든 slice들을 합산 된 것이며, 아래의 식과 같음

$\mathcal{L}=\Sigma_{t=1}^{T-K}\mathcal{L}_t$

 

3. DeCoAR (fine-tuning)

- Fine-tuning은 생각보다 간단한데, 모델이 레이블이 없는 데이터로 DeCoAR의 pre-train을 끝내면, 이 parameter들을 freezing 함

- 이후, reconstruction layer를 제거하고 ($FFN$), 2개의 BLSTM와 CTC loss를 활용하여 fine-tuning을 진행함

DeCoAR fine-tuning 

Experimental setups

1. Data (SSL)

- WSJ와 LibriSpeech 데이터셋 중 하나를 unlabeled data로 간주하여 pre-training으로 사용

 

2. Data (comparison, supervised end-to-end)

- WSJ에서, 30%, 50%, 100%에 대해 label을 주어 ASR 학습

- LibriSpeech에선, 100h, 360h, 460h, 960h에 대해 label을 주어 ASR 학습

 

3. Supervised setup

- Log-mel filterbank feature 사용 (window=25ms, hop=10ms)

- 각 방향마다 512의 hidden dimension을 갖는 6개의 BLSTM 사용

- CTC loss 사용, 72 class

 

4. Semi-supervised setup

- Pre-training: slice size 18 (mask size)으로 두고, reconstruction loss를 사용하여 4개의 BLSTM으로 DeCoAR를 pre-traning

- Fine-tuning: 위에서 얻은 parameter를 freezing, 2개의 BLSTM인 projection layer를 추가하고 CTC loss를 사용하여 tuning함

 

5. Decoding setups

EESEN을 활용한 WFST-based decoding

- CTC label, lexicons, LM 사용 (WSJ의 경우 unpruned trigram LM 사용, LibriSpeech의 경우 4-gram LM 사용)

- AM score는 WSJ의 경우 0.8, LibriSpeech의 경우 1.0으로 설정

- Blank symbol의 prior scale은 두 작업 모두 0.3으로 설정

 

Results

1. Semi-supervised WSJ results

- Fine-tuning with full WSJ results: 

1-1) Pre-training을 하지 않은 supervised의 경우 8.21/5.44%, wav2vec의 (kaen2891.tistory.com/79) 경우 6.84/3.97% 제안한 DeCoAR의 경우 6.30/3.17%의 WER를 획득함

- 상대적 개선률은 각각 42%와 20%임

Semi-supervised WSJ results

2) Fine-tuning with small of WSJ results

- DeCoAR의 feature로부터 fine-tuning된 결과는 supervised learning 된 filterbank보다 훨씬 좋은 성능 달성

- 특히 표 아래의 동일 25, 40에 대해 큰 폭의 차이를 보임

 

2. Semi-supervised LibriSpeech results

- 표 3의 test-clean의 경우, 오직 100시간의 label이 있는 데이터로 fine-tuning을 할지라도, 960시간 전부를 사용한 filterbank, 즉 supervised learning과 비슷한 성능을 보임

- test-other part의 경우, 360시간을 fine-tuning하면 비슷한 성능을 낼 수 있음

- 즉, semi-supervised learning의 우수성을 보이는 표

 

Ablation study

1. Context window size

- Slice 사이즈를 늘리게 되면 masking과 predicting도 그 만큼 더 많이 해야 되는데, 오히려 이것이 성능을 낮추고 학습 시간을 더 소요한다는 단점 발견

- 비슷한 예로, SpanBERT에서는 (자연어 처리 모델) 3.9의 consecutive words 길이인 평균 범위를 마스킹하는 것이 word reconstruction 목표에 이상적이라는 것을 발견하였음

- 본 논문에서는 18개의 slicing size가 best임을 발견함

 

2. Unidirectional versus bidirectional context

- 아래의 표를 통해 양방향/단방향의 성능 차이점에 대해 보임

- 당연히 양방향이 시간이 오래걸리는 만큼 성능이 좋을 것이라는 개인적인 생각

 

Summary

- ASR에 대해 제안 된 준지도 학습 접근법
- Deep contextualized acoustic representation (DeCoAR)을 학습하기 위해 많은 양의 레이블이 지정되지 않은 데이터를 사용하는 deep BLSTM 네트워크 제안
- 이러한 DeCoAR feature는 unlabeled의 representation으로 사용되어 CTC-based E2E ASR 모델을 fine-tuning으로 훈련함
- Supervised learning인 log-mel 필터뱅크 feature 결과 대비 WSJ에서 42 % 상대적 개선을 보였음

 

 

Reference

[1] Ling, Shaoshi, et al. "Deep contextualized acoustic representations for semi-supervised speech recognition." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

[2] Peters, Matthew, et al. "Deep Contextualized Word Representations." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018.

728x90

+ Recent posts