[실습] ECAPA-TDNN 모델을 활용한 화자분할 실험
이전 포스트를 참고하여 화자분할 실습을 진행하고자 한다.
이전 포스트를 참고하여 화자분할 실습을 진행하고자 한다.
본 포스트는 Udemy 유료강의 A Tutorial on Speaker Diarization을 보고 정리한 내용이다.
본 포스트는 Speaker Verification 분야 높은 성적을 거둔 논문에 대한 내용이다.
이번에는 VITS 모델(TTS)을 중국어 데이터로 훈련한 과정을 기록한 포스트이다.
VITS는 One-stage TTS 중에서 준수한 natural sounding audio를 생성하는 모델이다.
Tacotron2는 Google에서 제시한 Speech Synthesis 논문이다.
E-Branchformer[Kim22]는 음성인식 분야 SOTA모델 Conformer와 견주어 비교되는 모델이다.
The Gabor transform is a special case of short-time Fourier transform. It is used to determine sinusoidal frequency and phase over time domain.