Baza Publikacji Pracowników Politechniki Lubelskiej

Status:
Warianty tytułu:	Niejednorodna kompresja spektralna do odpornej ekstrakcji cech MFCC
Autorzy:	Ali Bagher Baba, Wójcik Waldemar, Mamyrbayev Orken, Turdalyuly Mussa
Dyscypliny:
	Aby zobaczyć szczegóły należy się zalogować.
Rok wydania:	2018
Wersja dokumentu:	Drukowana \| Elektroniczna
Język:	angielski
Numer czasopisma:	6
Wolumen/Tom:	94
Strony:	90 - 93
Web of Science® Times Cited:	7
Scopus® Cytowania:	8
Bazy:	Web of Science \| Scopus
Efekt badań statutowych	NIE
Materiał konferencyjny:	NIE
Publikacja OA:	TAK
Licencja:
Sposób udostępnienia:	Witryna wydawcy
Wersja tekstu:	Ostateczna wersja opublikowana
Czas opublikowania:	W momencie opublikowania
Data opublikowania w OA:	17 czerwca 2018
Abstrakty:	polski \| angielski
	Kompresja spektralna jest efektywną i niezawodną techniką wyodrębniania cech w celu zmniejszenia niedopasowania między danymi uczącymi i testowymi w domenie cech. W tym artykule proponujemy nową metodę wyodrębniania cech MFCC z niejednorodną kompresją spektralną do rozpoznawania mowy w hałaśliwym otoczeniu. W opisywanej metodzie, energie wyjść pasmowych filtrów skali melowej są kompresowane przez różne wartości bazowe wyznaczone na podstawie informacji z back-endu systemu rozpoznawania mowy. Stosując ten nowy schemat niejednorodnej kompresji spektralnej (SRNSC) opartej na rozpoznawaniu mowy dla współczynników cepstralnych opartych na banku filtrów o skali melowej, stwierdzono znaczną poprawę rozpoznawania w obecności różnych szumów addytywnych o różnych wartościach SNR z bazy danych TIMIT, w porównaniu do standardowego MFCC i cech wyznaczonych za pomocą pierwiastkowej kompresji spektralnej.
	Spectral compression is an effective robust feature extraction technique to reduce the mismatch between training and testing data in feature domain.In this paper we propose a new MFCC feature extraction method with non-uniform spectral compression for speech recognition in noisy environments. In this method, the energies of the outputs of the mel-scaled band pass filters are compressed by different root values adjusted based on information from the back-end of speech recognition system. Using this new scheme of speech recognizer based non-uniform spectral compression (SRNSC) for mel-scaled filter-bank-based cepstral coefficients, substantial improvement is found for recognition in presence of different additive noises with different SNR values on TIMIT database, as compared to the standard MFCC and features derived with cubic root spectral compression.

Informacja o cookies

Speech recognizer-based non-uniform spectral compression for robust MFCC feature extraction

Artykuł w czasopiśmie