Tek mikrofon ile ses kaynağı uzaklığı tahmini
Abstract
Bu tez çalışmasında, geleneksel yöntemler (öznitelik çıkarımı ve sınıflandırma) ve derin ağlar ile öğrenme olmak üzere iki ayrı yöntem, tek mikrofon ile ses kaynağı mesafesi tahmini problemine çözüm olarak sunulmuştur. Veri seti olarak kullanılmak üzere öncelikle 1 metre, 2 metre, 3 metre ve 4 metrelik uzaklıklardan ses kayıtları toplanmıştır. Problem ilk olarak geleneksel yöntemler ile üç adımda çözülmüştür. İlk adımda ses aktivatörü kullanılarak sadece konuşma içeren ses sinyali alınmıştır ve Hanning pencereleme uygulanmıştır. İkinci adımda ise bu sinyalden öznitelikler çıkartılmıştır. Son adımda ise çıkartılan bu öznitelikler k-nn (k-nearest neighbour, k-en yakın komşuluk) sınıflandırıcı ile sınıflandırılıp mesafeye karar verilmiştir. İkinci yöntem olarak ise derin sinir ağları kullanılarak mesafeye karar verilmiştir. Derin sinir ağ yapısı, 1 giriş, 7 konvolüsyönel katman ve 1 çıkış katmanından oluşturulmuştur. Geleneksel yönteme göre derin sinir ağları ile elde edilen başarımda % 14'lük bir artış gözlenmiştir.
In this thesis, traditional methods (feature extraction and classification) and deep neural networks, are presented as a solution to the sound source distance estimation problem via single microphone. As dataset, 1 meter, 2 meter, 3 meter and 4 meter recordings were used. The problem is solved in three steps by conventional methods. In the first step, a VAD (voice activity detector) and Hanning windowing are applied to speech signal. In the second step, features are extracted from this signal. In the last step, these extracted features are classified with k-nn (k-nearest neighborhood) classifier. As a second method, it has been decided to use deep neural networks. The deep network structure is composed of 1 input, 7 convolutional layers and 1 output layer. Compared with the conventional method, deep networks increased the performance of the overall system by 14 %.