728x90

이 글은 네이버 블로그 유하님과 인터넷 크롤링을 통한 정보들을 바탕으로 작성되었습니다.

 

음성을 연구할 때 중요한 것은 소리이며, 철자는 무시한다. 오직 음에만 집중함

 

The Difference between Spelling and Sound

- 알파벳은 26, 하지만 소리는 43-44개 정도임

- 철자가 소리를 모두 나타내지 못함

- 각각의 문자를 graphemes라고 함

e.g., thorugh: t-h-r-o-u-g-h --> 7개의 graphemes, 하지만 sound‘th-r-u’ 3

e.g., phlegm: p-h-l-e-g-m --> 6개의 graphemes, 하지만 sound‘f-l-e-m’ 4

 

- Graphemes는 단지 스펠링만 알려줄 뿐, 실제 pronounce에는 어떠한 단서도 제공하지 않음

- 그리고 graphemes는 그들이 가진 sound를 정확하게 나타내지 못함

e.g., grphemes‘s’ --> size /s/, vision /z/

==> 같은 문자가 서로 다른 소리를 갖음

 

Phonetic Alphabet

 

- 개별적 소리에 대해 개별적 문자를 갖으면서 소리와 문자가 서로 1:1 관계를 이룸

- Roman Alphabet26개로 43-44개의 소리를 적절히 나타내기 때문에 하나의 알파벳이 여러 개의 소리를 갖음

 

Allographs (이문자)

- 위와는 반대로, 소리는 같은데 다른 문자를 가지기도 함

e.g., loop, through, threw, fruit, canoe

 

Digraphs

- 같은 문자가 2, 또는 완전 다른 문자가 2개씩 짝을 이루는 것을 말함

e.g., hoot, heed, tissue, shoe, steak, tried

 

 

Silent letters

- 소리를 내지 않는 grapheme

e.g., p-l-u-m-b: 5개의 문자, p-l-u-m: 4개의 소리, ==> ‘b’ = silent letter

- chord, psychosis, flea, pneumonia ==> 주로 차용어들이 대상임

이는 단어 기원과 관련이 있음

- 차용어들을 글자 그대로 간직하여 받아들이나, 소리는 영어의 소리 체계에 맞게 발음하는 것

 

 

Duration (소리의 길이)

- 소리가 발음되는 동안의 길이

e.g., through, reamins, snowman, awakens ==> 모두 똑같이 7개의 grphemes으로 이루어져 있지만, 발음되는 길이는 각각 다름

e.g., gum, thought, what, straight ==> grapheme은 각각 다르지만, 발음되는 길이가 모두 같음

 

 

Morphemes (형태소)

- 유사한 의미적() 언어 단위

- 즉, 가장 작은 의미를 가질 수 있는 언어의 최소 단위

e.g., book: ‘이라는 의미를 갖는 하나의 형태소

e.g., books: 복수의 의미를 가지고 있기에 하나의 형태소로 인정함, 즉 두 개의 형태소를 갖고 있음

walked(과거), calling(명사형), prepaid(앞서, 미리라는 의미의 접두사), reread(다시라는 의미의 접두사), construction(명사 만드는 접미사), talkative(성질을 나타내는 형용사) ==> 모두 의미를 가지고 있으므로 형태소임

 

- 같은 형태소를 공유할지라도 발음의 변화가 생길 수 있음

e.g., music /k/ -> musician /s/, phlegm /무음/ -> phlegmatic /g/, press /s/ -> pressure /\/

 

- 형태소는 2가지로 나뉨

Free morpheme

 

- 홀로 쓰일 수 있으며 독자적인 의미를 갖음

e.g., book, phlegm, candy, love ...

 

- Bound morpheme

홀로 쓰일 수 없으며, 독자적인 의미를 갖지 못함

e.g., -s, -ed, -ian, predate, retread ...

 

 

Phoneme (음소)

- 뜻의 차이를 가져오는 최소의 단위

1886, IPA창립, 말을 기록하기 위해 채택되어짐

- 음소는 형태소에 차이를 줄 수 있는 어떠한 음

IPA는 음성적 알파벳, 각각의 표기는 특정한 음소 또는 소리를 나타냄

- 음소가 바뀌면 그 의미도 달라짐

e.g., book -> cook: 한 음소의 변화는 형태소의 의미를 바꾸게 됨

 

- 이처럼 단어의 오직 한 음소만 바꾸어 의미 차이를 갖는 것을 minimal pair (최소대립쌍)이라고 함

- 이는 음소를 확인하는 중요한 방법으로 작용함

e.g., hear/beer, cat/cab ...

 

Allophones (이음)

- 음소 가족의 구성원

- 음소는 소리들의 기록으로 모든 단어에서 같은 발음으로 나지 않음

e.g., /l/ in ‘lip’, ‘ball’

‘lip’ /l/: 혀가 입 천장에서 닿으며 소리 남

‘ball’/l/: 혀 뒤쪽에서 수축되어 소리가 남. 하지만 /l/을 어떻게 발음하든 간에, 의미 변화는 생기지 않음

==> 이처럼 다양한 발음을 allophone이라고 하며, 이 역시 음소를 확인하는 중요한 방법으로 작용함

 

 

Complementary distribution (상보적 분포)

- 이음은 같은 장소에서 동시에 나타날 수 없음

‘lip’/l/‘ball’/l/각각의 음성적 제약으로 인해 서로 바뀔 수 없는데 이를 상보적 분포에 있다 라고 함

- 상보적 분포에 존재하는 음들은 이음이고, 그러지 않은 음들은 음소로 구분 됨

그래서 상보적 분포 역시 음소를 확인하는 방법으로 작용함

 

Free variation (자유변이)

e.g., keep/p/: ‘키프라고 세게 발음하든 이라고 약하게 발음하든 의미는 달라지지 않음

이러한 관계를 자유변이라고 함

 

 

728x90

'Signal, Speech Processing > Phonetics' 카테고리의 다른 글

Vowel Transcription - Five back vowels  (0) 2020.02.10
Vowel Transcription - Five front vowels  (0) 2020.02.10
Anatomy of the Speech Mechanism  (0) 2020.02.10
Phonemes, Syllables notation methods  (0) 2020.02.10
Phonetics  (0) 2020.02.10
728x90

이 글은 네이버 블로그 유하님과 인터넷 크롤링을 통한 정보들을 바탕으로 작성되었습니다.

 

Phonetics

- 음성학은 무엇을 연구하는가?

- 음성학의 연구분야는 무엇이 있는가?

- 음운론(Phonology)과 음성학(Phonetics)의 차이는 무엇인가?

- IPA는 무엇인가?

 

1. Phonetics

- Speech sounds(소리)의 생산에 대한 연구

- Speech organs(말하는 기관)에서 어떻게 소리가 형성되는가에 대한 연구

- 어떻게 각각의 소리가 만들어지는지, 음절과 단어를 만들기 위해 소리가 발음되는 동안에 어떻게 기관들이 조합되는가에 대한 연구

- 어떻게 소리가 표기되는가에 대한 연구: 소리를 표기할 수 있는 새로운 알파벳을 배우게 됨

- 방언의 다양성으로 인해 각각의 다른 소리 패턴을 보여주는 표기와 연구도 포함됨

- 어떠한 소리를 들었을 때, 일반적으로 들리는 그대로가 아닌 철자를 먼저 떠올리게 됨

ex) ‘phone’: p-h-o-n-e -> 5개의 문자, 하지만 소리는 ‘f-o-n’ 3개의 문자

‘How are you doing?’ -> 14개의 문자, 하지만 소리는 ‘How ya doin?’ 9개의 문자

==> 철자와 소리는 다르지만, 일반적으로 철자(Spelling)를 매개체(pyrameter)로 인식하게 됨

 

2. 음성학은 여러 분야와 밀접한 관련이 있는 다면적인 연구분야임

- Historical phonetics

시대에 따라 단어가 어떻게 변화되었는가를 연구

13-17세기 사이에 있었던 ‘Great Vowel Shift (대모음전이)’에 의해 많이 변하였음

ex) 1700년 이전 beet | bait | bought | boat

==> 오늘날 ->bite | beet | bait | boot

 

Physiological phonetics

- 발음이 되어지는 동안, 소리의 기능을 연구함

- 소리를 만드는 기관의 근육과 신경에 대한 지식은 소리가 만들어지는 동안 그것들의 작용을 완전히 이해하기 위해 특히 중요함

 

Acoustic phonetics

- 모음(vowel)과 자음(consonant)의 진동(vibration), 강도(intensity, strength), 지속(duration)의 차이점에 대한 연구

- 소리의 음향적 차이는 듣는 이가 소리와 음절(syllable), 단어들이 어떻게 다른 것들과 차이가 나는지 알 수 있게 해줌

mug, hug, rug, thug ==> 첫 문자가 소리를 구별시켜 줌

Perceptual phonetics

- 자질(quality), 크기, 음의 높이(pitch), 지각되는 길이에 관하여 소리에 대한 듣는 이의 인식(perception=psycho acoustic) 반응을 연구

 

Experimental phonetics

- Physiological, acoustic, perceptual phonetics에 대한 실험적 연구를 포함

 

Clinical phonetics

- 언어 장애 치료를 목적으로 한 연구

 

Auditory phonetics (청음 음성학)

- 음성이 귀에 들어가는 과정을 연구

Articulatory phonetics (조음 음성학)

- 조음(articulation) 기관들이 어떻게 작용하여 소리를 만드는지에 대한 연구

 

3. Phonology vs Phonetics (음운론 vs 음성학)

Phonology

- 언어를 만들어 내는 것에 있어서 소리()의 체계적인 구조와 소리가 의미있는 단위가 되기 위해 구성하고 결합하는 특정한 방법을 사용하기 위한 음운적 규칙에 초점을 두고 있음

- 즉, 소리의 구성이나 구성 방법, 결합 방법 등에 관한 연구를 진행함

 

Phonetic

- 음의 음향적이고 지각적인 특징과 그것들이 어떻게 기관에서 만들어지는가에 대한 연구로써, 어떻게 음이 결합되고 언어에서 사용 되는지에 대해서는 상관이 없음

 

4. IPA (International Phonetic Alphabet)

- 철자에 의해서가 아닌, 단어의 소리를 나타내기 위해 만들어진 새로운 알파벳, 국제 음성 기호

- 영어 단어를 찾으면 그 단어 옆 괄호 속에 들어가 있는 알파벳들

 

***용어 정리

nasus (A)

alveoli 앞니 잇몸 (B)

labium 입술 (C)

dens 앞니 (D)

apex 혀끝 (E)

corona 앞 혀 (E)

larynx 목청 (F)

glotta 목청 문틈 (G)

palatum 앞 입천정 (H)

dorsum 혀의 등 (I)

velum 뒤 입천정 (J)

uvula 목젖 (K)

pharynx 목구멍 (L)

 

- 사람이 목소리를 내기 위해서 쓰이는 기관은 대개 목청(성대), 입술, 혀 그리고 코 안의 공간이 있음

- 이들 기관들은 홀로 움직이거나 쓰여서 목소리를 내기 보다는 대개 상호 작용을 거쳐서 목소리를 만들어 냄

- 오늘날 음성학에서 국제적으로 쓰이는 이들 소리 기관과 소리가 나는 자리의 이름은 주로 라틴어와 고대 그리스어(glotta, larynx, pharynx)에서 따온 말임

 

- 이들을 한국어로 번역하기는 그리 쉽지 않으며 그리고 길게 한글로 번역하지 않기 위해서 학계에서 쓰고 있는 한자어는 더러 그릇된 번역이 있는가 하면 전문가가 아니면 무엇을 뜻하는지 알기 어려운 단점이 있음

- 이 때문에 여기서는 한자어를 쓰지 않고 한글로 이를 표기함

 

Epiglottis (첫 번째): 혀뿌리, Cartilages (두번째와 세번째): 성대를 이루는 둥근 관 모양의 물렁뼈, Cricoid (네번째): 목청 입술

- 사람의 목청 또는 한자어로 성대(聲帶)는 목소리를 내는 중요한 기관의 하나임

- 그러나 목청을 목소리의 중심 기관으로 흔히 생각하는 것과 달리 생물학적으로 볼 때 목소리를 내는 역할은 목청의 부차적 기능으로 여김

- 목소리를 내는 역할 이외에 목청은 사람이 살아가는 데 필수적인 생리적 기능을 갖고 있음

- 사람이 숨을 쉴 때는 공기만 마시는 것이 아니라 더러 먼지나 다른 건강에 해로운 티끌들을 함께 마시게 됨

- 때로는 목 안에 가래와 같은 분비물이 생기는데, 이와 같은 건강에 해로운 것들이 목 안에 오래 머물러 있지 않고 밖으로 나갈 수 있도록 목청이 도와줌

 

- 그런가 하면 목청은 또한 우리가 음식을 먹고 마실 때 숨길을 막아 음식물이 허파로 들어가지 않도록 하여 줌

- 이 때문에 목청은 아래의 그림에서 살펴볼 수 있듯이 아주 복잡한 해부학적 구조를 갖고 있음

 

 

728x90
728x90

Automatic Speech Recognition (ASR) 시스템에서 AM이라는 단어가 많이 보일 것이다. 그렇다면 AM이 무엇인지 간단히 알아보도록 하자.


AM은 Acoustic Model 로서, 음성 신호와(audio signal) 음소(phonemes) 또는 음성을 구성하는 다른 언어 단위간의 관계를 나타 내기 위해 음성 인식에 사용된다. AM은 오디오 녹음 및 해당 녹음의 transcription(음성의 text) 으로부터 학습된다. 녹음된 음성 신호, transcription, 그리고 소프트웨어를 사용하여 소리의 통계적 표현을 생성하여 각 단어를 구성한다.


최신 음성 인식 시스템은 음성의 통계적 특성(statistical properties of speech)을 나타내기 위해 AM과 언어 모델을(LM) 모두 사용한다. AM은 오디오 신호와 언어의 음성 단위 간의 관계를 모델링해주는 역할을 한다. LM은 언어의 단어단어 시퀀스를 모델링을 책임진다. 이 두개의 모델들은 결합되어 input으로 주어진 오디오 세그멘트에 해당되는 top-ranked 단어 시퀀스를 얻는 역할을 하게 된다.


대부분의 음성 인식 시스템은 대략적으로 입력 음성의 프레임 당 10ms의 duration을 갖는 프레임 단위로 계산한다. Mel Frequency Cepstrum을 적용하여 각 frame의 raw audio signal을 변환할 수 있다. (MFCC, Mel-Spectrogram 등에서 windows size, hop length 등, hop length 만큼 overlap 하여 대략적으로 10ms 당 계산하는 편이다.). 위의 변환 계수는 일반적으로 Mel Frequency Cepstral Coefficients (MFCC)로 알려져 있으며, 다른 특징과 함께 AM에 대한 입력으로 사용된다.


음성인식의 목적은 입력 waveform sequences를 해당 단어 또는 character sequences에 매핑하는 것이다. 그러므로 ASR를 구현하는 것은 채널 디코딩 또는 패턴 분류 문제로 간주 될 수 있다. 통계적 모델링은 아래의 식처럼 주어진 waveform sequence O에 대해 Posterior Bayesian Distribution (후미 베이지안 분포)에 기초한 "maximum a posteriori" (MAP) 추정을 사용하여 output sequence W*로 세운 뒤 해결할 수 있다.



Conditional Probability인 Likelihood p(W)는 정확한 sequence W가 발생하는 'priori probability' 이다. 우리는 이것을 LM (Language Model) 이라고 부른다. 즉, LM이 given된 상태에서 오른쪽의 p(O|W)는 정확한 observation sequence를 생성할 확률이다. W에 조건부인 ASR 시스템의 AM에 해당하는 확률이다. 




위의 그림은 주요 프론트 엔드 프로세싱 모듈, AM, LM 및 디코더를 포함하는 ASR 시스템의 구조를 보여준다. Backend processing의 Decoding 프로세스는 주로 train 된 AM 및 LM을 사용하여 최적의 output character sequence를 얻는 것이다.


AM의 목적은 p(O|W) 를 계산하는 것이다. 즉 모드에 대한 음성 파형을 생성할 확률을 계산하는 것이다. ASR 시스템의 중요한 부분인 AM은 계산 오버 헤드의 상당 부분을 차지하며 시스템 성능을 결정한다. GMM-HMM (Gaussian Mixture Model - Hidden Markov Model) 기반 AM은 전통적인 음성 인식 시스템에서 널리 사용된다. 아래의 그림을 보자.





이 모델에서, GMM은 음성의 음향 특성의 분포를 모델링하는데 사용되고, HMM은 음성 신호의 시간 시퀀스를 모델링하는데 사용된다. 2006 년 Deep Neural Networks이 시작된 이후로 DNN (deep neural networks)이 음성 AM에 적용되었다. 2009년, Geoffrey Hinton과 그의 학생들은 음성 인식 음향 모델링에서 feedforward fully-connected deep neural networks를 사용하였다. (Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.)


최근에는, 기존의 GMM-HMM AM과 비교하여 DNN-HMM 기반 AM이 TIMIT dataset에서 우수한 성능을 보이고 있다. GMM과 비교할 때 DNN은 다음과 같은 점에서 유리하다

- DNN이 음성의 음향 특성의 posterior probability를 모델링 할 때 특성 분포에 대한 De-distribution이 필요하지 않다.
- GMM은 입력 특성에 대해 de-correlation processing이 필요하지만 DNN은 다양한 형태의 입력 특성을 사용할 수 있다.

- GMM은 single-frame 음성만 input으로 사용할 수 있지만, DNN은 인접한 프레임을 연결하여 valid한 context 정보를 캡처 할 수 있다.


최근 들어, Convolutional Neural Networks, Recurrent Neural Networks의 사용으로 AM modeling이 크게 향상되었다. 또한 d-vector를 LSTM 등 DNN으로 출력하여 ASR에 적용하는 편도 많아지고 있는 편이다.


References: Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.


728x90
728x90

웨이블릿은 벡터의 0값을 중심으로, 매 번 변화하는 진폭을 보유한 파형이라고 볼 수 있다. 

 

 
즉, 진폭이 0에서 시작하여 증가한 다음, 다시 0으로 감소하는 물결 모양의 진동이다. 일반적으로 웨이블릿은 신호 처리에 유용한 특정 속성을 갖도록 제작되었다. 또한 Convolution을 사용하여 wavelet을 손상된 신호의 알려진 부분과 결합하여 unseen 부분에서 정보를 예측 및 추출 할 수 있다.


웨이블릿 변환은 완전히 다른 성능 함수를 가진 푸리에 변환 (또는 푸리에 변환과 훨씬 유사)과 유사하다. 주요 차이점으로, 푸리에 변환은 신호를 사인과 코사인, 즉 푸리에 공간에 국한된 함수로 분해하는데 반해 웨이블릿 변환은 실제 공간과 푸리에 공간 모두에 국한된 함수를 사용한다. 일반적으로 웨이블릿 변환은 다음 방정식으로 표현할 수 있다.


여기서 *는 복합 켤레 기호이고 함수 ψ는 일부 함수이며, 이 기능은 특정 규칙을 준수하는 경우 임의로 선택될 수 있다. 위에서 볼 수 있듯이, 웨이블릿 변환은 실제로 계산에 사용 된 성능 함수에 따라 다양한 변환이 가능한 세트로 볼 수 있다.

위와 같은 이유로, 매우 다른 상황과 응용 공간에서 웨이블릿 변환이라는 용어를 들을 수 있는 주된 이유이다.  웨이블릿 변환 유형을 정렬하는 방법에는 여러 가지가 있는데, 여기에서는 웨이블릿 직교성을 기반으로 한 분할만 설명한다.
 
이산 웨이블릿 변환 개발에 직교 웨이블릿을 사용하고 연속 웨이블릿 변환 개발에 비 직교 웨이블릿을 사용할 수 있다. 이 두 변환에는 다음과 같은 속성이 있는데,

1. 이산 웨이블릿 변환은 입력 길이와 동일한 길이의 데이터 벡터를 반환한다. 일반적으로 이 벡터에서 대부분의 데이터는 (element 값들) 거의 0이다. 이는 변환 및 스케일링에 직교하는 wavelet 세트(함수)로 분해 된다는 사실에 해당한다. 그러므로 그러한 신호를 신호 데이터 포인트의 수와 동일하거나 더 적은 수의 웨이블릿 계수 스펙트럼으로 분해해야 한다. 이러한 웨이블릿 스펙트럼의 장점 중 하나는, 중복 정보가 없기 때문에 신호 처리 및 압축에 매우 좋은 편이다.


2. 반대로 연속 웨이블릿 변환은 입력 데이터보다 차원이 1개가 더 큰 배열을 반환한다. 1D 데이터의 경우 시간-주파수 평면의 이미지를 얻는다. 신호의 지속 시간 동안 신호 주파수의 변화를 쉽게보고 스펙트럼을 다른 신호 스펙트럼과 비교할 수 있다. 이 때, 비직교형 웨이블릿 세트를 사용함에 따라 데이터는 서로 밀접하게 관련되어 있기 때문에 여기에서 큰 중복성을 찾을 수 있다. 이를 통해보다 좋은 형태로 결과를 볼 수 있다.

 

728x90

+ Recent posts