MODALITY

Wielomodalny system wspomagania komunikacji fonicznej i foniczno-wizyjnej z komputerami mobilnymi

Audiowizualne rozpoznawanie mowy

Interfejsy głosowe stanowią coraz bardziej popularny sposób komunikacji użytkownika z komputerem. W przypadku rozpoznawania mowy w warunkach mobilnych, na przykład wewnątrz pojazdu, istotnym problemem są zakłócenia akustyczne, które obniżają skuteczność systemu. Jednym ze sposobów poprawy jakości rozpoznawania jest dołączenie informacji wizyjnej w postaci obrazu ust. W projekcie MODALITY badane są innowacyjne techniki wspomagania rozpoznawania mowy poprzez analizę sygnałów wizyjnych:

  • nagrania multimodalnej audiowizualnej bazy sygnałów mowy dla języka angielskiego;
  • analiza sygnałów z kamer o wysokim współczynniku klatek na sekundę (ponad 100 fps);
  • wykorzystanie kamer stereo, termowizyjnych oraz Time-of-Flight;
  • opracowanie metod parametryzacji obrazu na potrzeby rozpoznawania mowy;
  • ocena skuteczności audiowizualnego rozpoznawania mowy w oparciu o dodatkowe modalności.


Fot. Bartosz Kunka