728x90

Automatic Speech Recognition (ASR) 시스템에서 AM이라는 단어가 많이 보일 것이다. 그렇다면 AM이 무엇인지 간단히 알아보도록 하자.


AM은 Acoustic Model 로서, 음성 신호와(audio signal) 음소(phonemes) 또는 음성을 구성하는 다른 언어 단위간의 관계를 나타 내기 위해 음성 인식에 사용된다. AM은 오디오 녹음 및 해당 녹음의 transcription(음성의 text) 으로부터 학습된다. 녹음된 음성 신호, transcription, 그리고 소프트웨어를 사용하여 소리의 통계적 표현을 생성하여 각 단어를 구성한다.


최신 음성 인식 시스템은 음성의 통계적 특성(statistical properties of speech)을 나타내기 위해 AM과 언어 모델을(LM) 모두 사용한다. AM은 오디오 신호와 언어의 음성 단위 간의 관계를 모델링해주는 역할을 한다. LM은 언어의 단어단어 시퀀스를 모델링을 책임진다. 이 두개의 모델들은 결합되어 input으로 주어진 오디오 세그멘트에 해당되는 top-ranked 단어 시퀀스를 얻는 역할을 하게 된다.


대부분의 음성 인식 시스템은 대략적으로 입력 음성의 프레임 당 10ms의 duration을 갖는 프레임 단위로 계산한다. Mel Frequency Cepstrum을 적용하여 각 frame의 raw audio signal을 변환할 수 있다. (MFCC, Mel-Spectrogram 등에서 windows size, hop length 등, hop length 만큼 overlap 하여 대략적으로 10ms 당 계산하는 편이다.). 위의 변환 계수는 일반적으로 Mel Frequency Cepstral Coefficients (MFCC)로 알려져 있으며, 다른 특징과 함께 AM에 대한 입력으로 사용된다.


음성인식의 목적은 입력 waveform sequences를 해당 단어 또는 character sequences에 매핑하는 것이다. 그러므로 ASR를 구현하는 것은 채널 디코딩 또는 패턴 분류 문제로 간주 될 수 있다. 통계적 모델링은 아래의 식처럼 주어진 waveform sequence O에 대해 Posterior Bayesian Distribution (후미 베이지안 분포)에 기초한 "maximum a posteriori" (MAP) 추정을 사용하여 output sequence W*로 세운 뒤 해결할 수 있다.



Conditional Probability인 Likelihood p(W)는 정확한 sequence W가 발생하는 'priori probability' 이다. 우리는 이것을 LM (Language Model) 이라고 부른다. 즉, LM이 given된 상태에서 오른쪽의 p(O|W)는 정확한 observation sequence를 생성할 확률이다. W에 조건부인 ASR 시스템의 AM에 해당하는 확률이다. 




위의 그림은 주요 프론트 엔드 프로세싱 모듈, AM, LM 및 디코더를 포함하는 ASR 시스템의 구조를 보여준다. Backend processing의 Decoding 프로세스는 주로 train 된 AM 및 LM을 사용하여 최적의 output character sequence를 얻는 것이다.


AM의 목적은 p(O|W) 를 계산하는 것이다. 즉 모드에 대한 음성 파형을 생성할 확률을 계산하는 것이다. ASR 시스템의 중요한 부분인 AM은 계산 오버 헤드의 상당 부분을 차지하며 시스템 성능을 결정한다. GMM-HMM (Gaussian Mixture Model - Hidden Markov Model) 기반 AM은 전통적인 음성 인식 시스템에서 널리 사용된다. 아래의 그림을 보자.





이 모델에서, GMM은 음성의 음향 특성의 분포를 모델링하는데 사용되고, HMM은 음성 신호의 시간 시퀀스를 모델링하는데 사용된다. 2006 년 Deep Neural Networks이 시작된 이후로 DNN (deep neural networks)이 음성 AM에 적용되었다. 2009년, Geoffrey Hinton과 그의 학생들은 음성 인식 음향 모델링에서 feedforward fully-connected deep neural networks를 사용하였다. (Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.)


최근에는, 기존의 GMM-HMM AM과 비교하여 DNN-HMM 기반 AM이 TIMIT dataset에서 우수한 성능을 보이고 있다. GMM과 비교할 때 DNN은 다음과 같은 점에서 유리하다

- DNN이 음성의 음향 특성의 posterior probability를 모델링 할 때 특성 분포에 대한 De-distribution이 필요하지 않다.
- GMM은 입력 특성에 대해 de-correlation processing이 필요하지만 DNN은 다양한 형태의 입력 특성을 사용할 수 있다.

- GMM은 single-frame 음성만 input으로 사용할 수 있지만, DNN은 인접한 프레임을 연결하여 valid한 context 정보를 캡처 할 수 있다.


최근 들어, Convolutional Neural Networks, Recurrent Neural Networks의 사용으로 AM modeling이 크게 향상되었다. 또한 d-vector를 LSTM 등 DNN으로 출력하여 ASR에 적용하는 편도 많아지고 있는 편이다.


References: Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.


728x90

+ Recent posts