Speech recognizer-based non-uniform spectral compression for robust MFCC feature extraction
Artykuł w czasopiśmie
MNiSW
14
Lista B
Status: | |
Warianty tytułu: |
Niejednorodna kompresja spektralna do odpornej ekstrakcji cech MFCC
|
Autorzy: | Ali Bagher Baba, Wójcik Waldemar, Mamyrbayev Orken, Turdalyuly Mussa |
Dyscypliny: | |
Aby zobaczyć szczegóły należy się zalogować. | |
Rok wydania: | 2018 |
Wersja dokumentu: | Drukowana | Elektroniczna |
Język: | angielski |
Numer czasopisma: | 6 |
Wolumen/Tom: | 94 |
Strony: | 90 - 93 |
Web of Science® Times Cited: | 6 |
Scopus® Cytowania: | 7 |
Bazy: | Web of Science | Scopus |
Efekt badań statutowych | NIE |
Materiał konferencyjny: | NIE |
Publikacja OA: | TAK |
Licencja: | |
Sposób udostępnienia: | Witryna wydawcy |
Wersja tekstu: | Ostateczna wersja opublikowana |
Czas opublikowania: | W momencie opublikowania |
Data opublikowania w OA: | 17 czerwca 2018 |
Abstrakty: | polski | angielski |
Kompresja spektralna jest efektywną i niezawodną techniką wyodrębniania cech w celu zmniejszenia niedopasowania między danymi uczącymi i testowymi w domenie cech. W tym artykule proponujemy nową metodę wyodrębniania cech MFCC z niejednorodną kompresją spektralną do rozpoznawania mowy w hałaśliwym otoczeniu. W opisywanej metodzie, energie wyjść pasmowych filtrów skali melowej są kompresowane przez różne wartości bazowe wyznaczone na podstawie informacji z back-endu systemu rozpoznawania mowy. Stosując ten nowy schemat niejednorodnej kompresji spektralnej (SRNSC) opartej na rozpoznawaniu mowy dla współczynników cepstralnych opartych na banku filtrów o skali melowej, stwierdzono znaczną poprawę rozpoznawania w obecności różnych szumów addytywnych o różnych wartościach SNR z bazy danych TIMIT, w porównaniu do standardowego MFCC i cech wyznaczonych za pomocą pierwiastkowej kompresji spektralnej. | |
Spectral compression is an effective robust feature extraction technique to reduce the mismatch between training and testing data in feature domain.In this paper we propose a new MFCC feature extraction method with non-uniform spectral compression for speech recognition in noisy environments. In this method, the energies of the outputs of the mel-scaled band pass filters are compressed by different root values adjusted based on information from the back-end of speech recognition system. Using this new scheme of speech recognizer based non-uniform spectral compression (SRNSC) for mel-scaled filter-bank-based cepstral coefficients, substantial improvement is found for recognition in presence of different additive noises with different SNR values on TIMIT database, as compared to the standard MFCC and features derived with cubic root spectral compression. |