728x90

본 논문은 Audio ALBERT: A lite BERT for self-supervised learning of audio representation [1]이며, NLP에서 사용된 ALBERT [2]의 개념을 speech에 적용한 논문임

즉 모델 사이즈를 줄이고 성능을 유지할 수 있는 경량화가 주 목적임

 

Overview

- Self-supervised speech representation model의 lite 버전 제안

- Light-weight representation extractor를 2개의 downstream task에 제안 (speaker and phoneme classification)

- Parameter의 수를 줄이면서도 모델의 강력함을 유지하였던 NLP 도메인의 ALBERT기반 모델

- AALBERT (Audio-ALBERT)는 91%의 적은 parameters의 크기로 거대한 모델인 Mockingjay [3](kaen2891.tistory.com/85?category=462780)과 비슷한 성능을 달성함

- 또한, 꼭 마지막 layer가 좋은 성능을 보장하지 않는 것을 밝혀냄 (즉 중간 layer도 대체가 가능하단 이야기)

 

Related works

1. Weight sharing

- [2, 4] 논문은 매개 변수를 줄이고 줄이지 않은 모델 대비 비슷한 성능을 달성하기 위해 여러 layer에 weight sharing 메커니즘을 적용하는 small Transformer model을 구축함

- [5] 논문은 더 빠른 추론을 위해 Transformer model의 인접 layer에 있는 이전 layer의 attention 가중치를 재사용함과 동시에 기계 번역 성능을 유지함

- [6] 논문은 입력 및 출력 임베딩을 연결하여 성능 저하 없이 매개 변수 감소에 대해 성공함

- Universal Transformer [7]은 Transformer와 RNN의 이점을 활용하여 많은 수의 매개변수를 줄이면서도 layer간 weight를 sharing 하였음

 

- Layer 간의 weight sharing 메커니즘은 layer 축 방향으로 적용된 RNN으로 간주 할 수 있음

- Weight sharing은 더 빠른 추론 및 훈련 속도를 가져올 뿐만 아니라 유사한 성능을 유지할 수 있다는 장점이 있음

 

2. Probing task

- Probing은 인코더가 representation에 특정 정보를 포함하는지에 대한 여부를 측정하는 기술 [8-10]
- Probing은 조사 할 representation을 추출하고, downstream task에 대한 representation을 기반으로 간단한 classifier를 구축하고, classifier의 성능을 측정하여 수행 됨
- ASR 의 hidden state에서 음성 합성하는 방식 또한 프로빙 방법 중 하나임 [9]

 

3. Redundancy in parameter

- 매개 변수의 중복을 measure하기 위해 Jensen-Shannon Divergence (JSD)를 사용함

- JSD는 두 확률 분포의 유사도를 0~1사이로 나타내는 방법임

- JSD를 사용하여 각 Transformer layer의 attention score의 유사도를 평가함

- Multi-head attention의 경우, 각각의 head 마다 JSD로 계산 후 평균을 취함

 

4. Mockingjay 분석

JSD of attention distribution in Mockingjay's layer

- 그림은 Mockingjay-6L를 나타내며, 몇 몇 attention heads가 다른 layer와 매우 다른게 보이지만 (어두운 파란색), 대부분의 layer들은 매우 비슷함

- 각 layer의 파라미터가 서로 다르지만, 비슷한 attention 분포를 보임

- 저자는 이러한 현상을 parameter 중복 현상으로 추측하고 있으며, layer들 간의 weight-sharing으로 해결하려 함

 

Proposed method

1. AALBERT model architecture

- Input: Mel-spectrogram

- Mockingjay처럼 Downsampling을 1/3 진행하여 length를 1/3, dimension을 240으로 설정

- Mockingjay와 마찬가지의 masked acoustic model 설정

- Masking 된 frame work에 log-linear spectrogram으로 복원되도록 pre-training을 진행함

AALBERT model architecture

- 위의 그림처럼, Mockingjay는 layer를 N번 반복하는데 비해, AALBERT는 weight-sharing으로 반복하는 방식으로 취함

 

2. Reducing method

- 모든 layer의 parameter를 서로 공유함

- AALBERT는 같은 Bidirectional Transformer encoder인 Mockingjay에 비해 훨씬 적은 parameter만 요구됨

- 모든 실험은 아래의 표처럼 Mockingjay의 Large model인 12개의 layer로 진행되며, linear spectrogram을  pre-training의 reconstruction objective로 설정하고 실험

3. Downstream task

1) Feature extraction

- Pre-train된 모델의 모든 parameter는 downstream task에서 모두 freezing 함

- Pre-train된 모델로부터 representation을 fix 시켜서 추출하여 simple한 network로 downstream task 진행

- 이 때, 1-1) 마지막 layer만을 사용 1-2) ELMo 에서 제안한 weighted sum 접근법을 이용하여 마지막 layer가 아닌 다양한 layer를 융합하여 실험을 진행함

 

2) Fine-tuning

- 전체 모델의 parameter는 downstream task에서 추가 학습이 진행됨

- 이 기법은 classifier의 성능을 향상시킴

 

3) Prediction

- 2개의 MLP로 예측 진행

 

4. Probing

- Pre-train된 네트워크에서 얼마나 잘 encoding 되었는지 probing 함

- 이를 위해, 3개의 다른 prediciton layer를 이용하여 평가를 진행함: linear, one-fully-connected, two fully-connected layers

- Prediction layer는 pre-train된 모델로부터 representation을 입력받아 downstream task로 훈련되고, 이 때 upstream인 pre-train된 모델의 parameter는 freezing 시킴

- Classifier의 성능을 probing을 함으로써 각각의 layer의 representation의 정보가 풍부한지에 대해 평가함

 

Experimental setups

1. Downstream task

- 1개의 phoneme classification task와 3개의 speaker classification task에 대한 실험 진행

- 이 때 loss는 Cross Entropy 사용

 

2. Parameter

- 160-dimension의 acoustic feature를 사용하여 downstream task 진행 (80-dimensional log mel-spectrogram and its delta)

- Cepstral Mean and Variance Noramlization (CMVN) 적용

 

3. Hyperparameters

- 아래의 표와 같은 세팅으로 진행

4. Dataset

- LibriSpeech를 사용하였으며, train-clean-360으로 pre-training 함

- Train-clean-360과 train-clean-100 셋이 phoneme과 speaker classification을 위해 downstream task에 사용되었으며, 이때 train/valid/test는 8:1:1의 비율로 나뉘어 학습됨

- Montreal Forced Aligner [11]를 사용하여 LibriSpeech의 영문장을 72 phoneme class로 변환함

 

Results

1. Phoneme classification

1) classifier

- 2개의 MLP layer를 prediction하기 위해 사용 (72 classes)

 

2) 결과

Phoneme classification accuracy of AALBERT and Mockingjay

- Fine-tuning과 weighted-sum case에서, AALBERT는 Mockingjay에 비해 적은 parameter수로 comparable한 classification accuracy 성능을 보임

- 12개의 layer가 있는 AALBERT와 Mockingjay는 각각의 3, 6개의 layer에 비해 더 좋은 성능을 보이지 못함

- 6개의 layer가 pre-training에 쓰인 train-clean-360를 커버하기에 충분한 것으로 보임

- 즉, 더 많은 unlabled data를 pre-training에 사용하였으면, 더 오르지 않았을까? 로 예상해볼 수 있음

- Mockingjay 리뷰(kaen2891.tistory.com/85?category=462780)와 마찬가지로, featurue-extraction과 fine-tuning 모두 labeled data가 더 많이 쓰임에 따라 성능이 오름을 볼 수 있음

- 또한, Mockingjay와 AALBERT 모두 비슷한 성능을 내는 것을 볼 수 있음

 

2. Utterance-level speaker classification

1) Number of speaker

- LibriSpeech의 train-clean-360의 화자 수는 921명이며, train-clean-100은 251명임

 

2) Results of both feature-extraction and fine-tuning

- 위의 두 그림에 사용된 classifier는 mean-pooling이 포함된 linear layer가 적용되었음

- AALBERT가 91%의 적은 parameter 수를 갖음에도 불구하고 Mockingjay와 비슷한 성능을 보임

 

3. Probing tasks

각 layer의 representation에 포함된 phoneme 및 speaker 정보의 양을 조사하기 위한 작업

1) setting

- LibriSpeech의 train-clean-100 dataset을 downstream task에 사용 (해당 데이터셋은 pre-training stage에 사용 X)

- AALBERT-6L과 Mockingjay-6L에 대해 probing 진행

- Proposed에 언급한 것처럼 3개의 다른 classifier를 사용하여 model을 probing함 (linear, one hidden layer, two hidden layers)

Probing task

2) Phoneme probing results (그림 위의 부분들)

- 같은 pre-training 모델로부터 채용된 3개의 다른 probing 모델이 같은 trend를 보임 (그림 위의 파란색들, 빨간색들)

- Layer가 깊어질수록, phoneme 정보는 처음에 증가하였다가 나중에 다시 내리는 경향을 보임

- Mockingjay-6L은 더 얕은 probing 모델에 대해 좋은 성능을 달성

- AALBERT-6L은 probing 모델이 더 깊어질수록 좋은 성능을 달성

 

3) Speaker probing results

- AALBERT-6L의 5번째 layer가 가장 많은 speaker 정보를 담고 있음

- Mockingjay-6L의 4번째 layer가 최고의 성능을 달성함

- 가장 마지막 layer가 아닌 중간 단의 layer에서의 representation이 모두 다른 probing 작업에서 성능이 뛰어남

- 이 말인 즉슨, 마지막 layer가 pre-train 훈련 작업에 적합하지 않을 수 있음을 암시함

- 즉, 중간 layer에서 추출된 representation은 downstream 작업에 더 적합 할 수 있음을 보임 

 

4. Attention distribution in AALBERT

- JSD measuring 기반의 attention 분포 분석 (아래 그림)

- 그림 8a는 <layer 1과 2>, <layer 3과 4>, <layer 5와 6> 사이의 JSD measuring 기반의 attention 분포가 매우 유사함을 보임

- 그림 8b는 JSD 기반의 평가가 대각선 및 그 주변의 분포가 매우 유사함을 보이며, layer 1과 6의 차이가 많음을 보임

- 그림 8c는 JSD 기반의 평가가 앞의 3개 layer와 뒤의 3개의 layer들 간 각각의 차이가 비슷함을 보였으며, 이 두 세트의 차이가 많이 발생함을 보임

- 그림 8d와 8e는 <layer 1과 2>, <layer 3과 4>, <layer 5와 6> 간의 차이가 매우 작음을 보였지만, 각각의 세트별 차이가 큼을 보임

- 이 결과는 동일한 parameter가 다른 layer에 대해 완전히 다른 attention 분포를 유발할 수 있음을 보임

 

Conclusion

- 해당 논문에서는, parameter를 줄인 AALBERT를 제안하였음

- NLP의 ALBERT에서 영감을 받은 AALBERT는 layer들 간의 weight-sharing 기법을 통해 기존의 큰 모델인 Mockingjay와 비교하였을 때 성능이 크게 하락하지 않는 모습을 보였음

 

Reference

[1] Chi, Po-Han, et al. "Audio albert: A lite bert for self-supervised learning of audio representation." 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021.

[2] Lan, Zhenzhong, et al. "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations." International Conference on Learning Representations. 2019.

[3] Liu, Andy T., et al. "Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

[4] Dabre, Raj, and Atsushi Fujita. "Recurrent stacking of layers for compact neural machine translation models." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. No. 01. 2019.

[5] Xiao, Tong, et al. "Sharing attention weights for fast transformer." arXiv preprint arXiv:1906.11024 (2019).

[6] Press, Ofir, and Lior Wolf. "Using the output embedding to improve language models." arXiv preprint arXiv:1608.05859 (2016).

[7] Dehghani, Mostafa, et al. "Universal transformers." arXiv preprint arXiv:1807.03819 (2018).

[8] Jawahar, Ganesh, Benoît Sagot, and Djamé Seddah. "What does BERT learn about the structure of language?." ACL 2019-57th Annual Meeting of the Association for Computational Linguistics. 2019.

[9] Li, Chung-Yi, Pei-Chieh Yuan, and Hung-Yi Lee. "What does a network layer hear? analyzing hidden representations of end-to-end asr through speech synthesis." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

[10] Belinkov, Yonatan, Ahmed Ali, and James Glass. "Analyzing phonetic and graphemic representations in end-to-end automatic speech recognition." arXiv preprint arXiv:1907.04224 (2019).

[11] McAuliffe, Michael, et al. "Montreal Forced Aligner: Trainable Text-Speech Alignment Using Kaldi." Interspeech. Vol. 2017. 2017.

728x90

+ Recent posts