Advanced emotion analysis: harnessing facial image processing and speech recognition through deep learning
Artykuł przeglądowy (review)
MNiSW
100
Lista 2024
Status: | |
Warianty tytułu: |
Zaawansowana analiza emocji: wykorzystanie przetwarzania obrazu twarzy i rozpoznawania
mowy poprzez głębokie uczenie
|
Autorzy: | Hałas Magdalena, Maj Michał, Guz Ewa, Stencel Marcin, Cieplak Tomasz |
Dyscypliny: | |
Aby zobaczyć szczegóły należy się zalogować. | |
Rok wydania: | 2024 |
Wersja dokumentu: | Elektroniczna |
Język: | angielski |
Numer czasopisma: | 3 |
Wolumen/Tom: | 57 |
Strony: | 388 - 401 |
Bazy: | ANVUR - Arianta - CEJSH - CEON - Crossreff - DOAJ - EBSCO - Google Scholar - Index Copernicus - MIAR - ERIH PLUS |
Efekt badań statutowych | NIE |
Materiał konferencyjny: | NIE |
Publikacja OA: | TAK |
Licencja: | |
Sposób udostępnienia: | Otwarte czasopismo |
Wersja tekstu: | Ostateczna wersja opublikowana |
Czas opublikowania: | W momencie opublikowania |
Data opublikowania w OA: | 20 sierpnia 2024 |
Abstrakty: | angielski | polski |
The human face hides many secrets and is one of the most expressive human features. Human faces even contain hidden information about a person's personality. Considering the fundamental role of the human face, it is necessary to prepare appropriate deep-learning solutions that analyze human face data. This technology is becoming increasingly common in many industries, such as online retail, advertising testing, virtual makeovers, etc. For example, facial analysis technology now allows online shoppers to virtually apply makeup and try on jewelry or new glasses to get an accurate picture of what these products will look like. The human sense of hearing is a treasure trove of information about the current environment and the location and properties of sound-producing objects. For instance, we effortlessly absorb the sounds of birds singing outside the window, traffic passing in the distance, or the lyrics of a song on the radio. The human auditory system can process the intricate mix of sounds reaching our ears and create high-level abstractions of the environment by analyzing and grouping measured sensory signals. The process of obtaining segregation and identifying sources of a received complex acoustic signal, known as sound scene analysis, is a domain where the power of deep learning shines. The machine implementation of this functionality (separation and classification of sound sources) is pivotal in applications such as speech recognition in noise, automatic music transcription, searching and retrieving multimedia data, or recognizing emotions in statements. | |
Ludzka twarz skrywa wiele tajemnic i jest jedną z najbardziej wyrazistych cech ludzkich. Ludzkie twarze zawierają nawet ukryte informacje o osobowości człowieka. Biorąc pod uwagę fundamentalną rolę ludzkiej twarzy, należy przygotować odpowiednie rozwiązania oparte na głębokim uczeniu się, które analizują dane dotyczące ludzkiej twarzy. Dana technologia staje się coraz bardziej powszechna w wielu branżach, takich jak sprzedaż detaliczna przez Internet, testowanie reklam, wirtualne metamorfozy etc. Na przykład technologia analizy twarzy pozwala obecnie kupującym online wirtualnie nałożyć makijaż, przymierzyć biżuterię lub nowe okulary, aby uzyskać dokładny obraz tego, jak te produkty będą wyglądać w rzeczywistości. Zmysł słuchu człowieka dostarcza wielu bogatych informacji o obecnym otoczeniu w odniesieniu do lokalizacji i właściwości obiektów wytwarzających dźwięk. Możemy na przykład bez trudu przyswoić odgłosy ptaków śpiewających za oknem, ruch uliczny odbywający się w oddali czy też słysząc słowa piosenki w radio. Układ słuchowy człowieka jest w stanie przetwarzać złożoną mieszankę dźwiękową docierającą do naszych uszu i tworzyć abstrakcje otoczenia na wysokim poziomie poprzez analizę i grupowanie zmierzonych sygnałów sensorycznych. Proces uzyskiwania segregacji i identyfikacji źródeł odebranego złożonego sygnału akustycznego jest znany jako analiza sceny dźwiękowej. Łatwo sobie wyobrazić, że maszynowa realizacja tej funkcjonalności (separacja i klasyfikacja źródeł dźwięku) jest bardzo przydatna w zastosowaniach takich jak rozpoznawanie mowy w hałasie, automatyczna transkrypcja muzyki, wyszukiwanie i od- zyskiwanie danych multimedialnych czy też rozpoznawanie emocji w wypowiedziach. |