Fluisterherkenning

Schets uit het Microsoft-patent „Silent Voice Input“. Afbeelding: Microsoft.

Door Thomas Scherer | 09 januari, 2019

Microsoft heeft een patent onder de werktitel „Silent Voice Input“ aangemeld. Wat dat is? Spraakbesturingssystemen hebben het probleem, dat bijvoorbeeld mensen in dezelfde ruimte last zouden kunnen hebben van iemand die met spraakbesturing werkt. De nieuwe „niet-spraakherkenning“ begrijpt daarom gefluisterde commando’s. Nog een voordeel: meeluisteren wordt lastiger.

Domotica met spraakherkenning, zoals Siri, Cortana, Alexa en dergelijke, wordt steeds vaker toegepast. Maar zoals bij elke vooruitgang, brengt ook spraakbesturing ongewenste bijwerkingen met zich mee. De twee belangrijkste aspecten zijn het storen van onvrijwillige luisteraars en dat andere mensen binnen gehoorsafstand kunnen horen welke commando’s er worden gegeven. Wat in de huiselijke kring misschien nog wordt geaccepteerd, kan in openbare situaties, zoals op de werkplek en bij veel andere toepassingsscenario’s serieuze problemen veroorzaken.

Silent Voice Input

Het octrooi van Microsoft beschrijft nu een werkwijze, waarbij een soort bijzondere microfoon pal voor de mond wordt gehouden. Het grappige is, dat deze vorm van spraakherkenning eigenlijk fluisterherkenning is. Als de commando’s worden gefluisterd, zou volgens Microsoft niemand zich er meer aan storen en blijft de privacy beter bewaard. Om precies te zijn gaat het niet om normaal fluisteren, maar om een soort van „ingressieve spraak“. Dat betekent fluisteren bij het inademen. Geen enkele omstander zou dat moeten kunnen horen.

In de video over een demonstratie van deze techniek kunnen we zien, dat er spraakherkenning plaatsvindt, zonder dat we iets kunnen horen. Vooraf en naderhand wordt er met een normale stem gesproken. Volgens Microsoft verhindert het ingressief spreken een vervorming van het stemgeluid. Om dat te laten werken, moeten we de microfoon heel dicht bij de mond houden. Het gaat om een afstand van één tot twee millimeter.

YouTube-Video: demonstratie van spraakherkenning bij ingressief spreken.

De geringe afstand moet het uitgestraalde geluid verder reduceren. Toepassingen zouden bijvoorbeeld slimme klokken, telefoons, smartphones, headset-microfoons en TV-afstandsbediening kunnen zij.

Bruikbaar?

Dat klinkt allemaal heel mooi, maar is deze techniek werkelijk bruikbaar? Zouden de gebruikers het niet onaangenaam vinden, om hun smartwatch of smartphone zó dicht bij hun mond te houden in plaats van gewoon vrij in de ruimte te spreken? En gaan mensen werkelijk dat ingressieve spreken oefenen en gebruiken? Probeer het maar eens; het voelt op zijn minst onwennig aan. In principe is het inderdaad een vooruitgang, als spraakherkenning ook zacht fluisteren kan verwerken, maar het gaat wel erg ver om daar een speciale spraaktechniek voor te eisen.