Otomatik konuşma tanıma algoritmalarının uygulamaları
Özet
Bu çalışmada, SMM (Saklı Markov Model) tabanlı izole bir kelime tanıma sistemi geliştirilerek, sesin akustik parametreleri LPC (Linear Predictive Coding), LPCC (LPC Cepstrum), CEPS (Ayrık Fourier dönüşümü tabanlı cepstrum) ve MFCC (Mel Frequency Cepstral Coefficients) ‘nin konuşmacıdan bağımsız konuşma tanıma sistemlerindeki performansları değerlendirilmiştir. Değişik akustik parametrelerle birlikte değişik SMM tipleri de (ergodik, Bakis vb.) kullanılarak bu modellerin konuşmacıdan bağımsız konuşma tanıma sistemlerindeki başarılarını karşılaştırılmıştır. Konuşma tanıma sistemi MATLAB ortamında geliştirilmiş ve sözlük olarak sadece rakamlar kullanılmıştır. Rakamların 20 adet konuşmacıya üçer adet tekrarlatılması sonucu her bir rakam için 60 adet eğitim verisi toplanmıştır. Eğitim verileri kullanılarak sesin farklı akustik parametreleri ve farklı SMM tipleriyle (ergodik, Bakis) her bir rakam için model hesaplamaları yapılmıştır. Eğitim verileriyle sistemin doğruluğu incelendikten sonra, test verisi olarak eğitim aşamasına katılmamış 20 adet konuşmacının bir veya birkaç rakamı tekrarlaması sonucu elde edilen veriler kullanılarak, farklı akustik parametrelerin ve model tiplerinin performansları incelenmiştir. Yapılan çalışmalar sonucunda en iyi performansı, Bakis tipi SMM'lerin ve MFCC akustik parametrelerinin verdiği tespit edilmiştir.